AI音乐 | 2.20 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-02-20 21:16 广东

原文https://mp.weixin.qq.com/s/ekr0jfytmzhGOn_ZqqeC9A

视频生成音效模型已开源

Sheet Music Transformer：超越单音转录的端到端光学音乐识别

AnyGPT：具有离散序列建模的统一多模态大型语言模型

腾讯与新加坡国立大学发布 M2UGen

DITTO：音乐生成的扩散推理时T优化

视频生成音效模型已开源

体验链接：https://huggingface.co/spaces/fffiloni/Video-to-SoundFX

来自 fffiloni 大神发布的 Video-to-SoundFX，目前已开源在 huggingface 上，一共有 MAGNet、AudioLDM-2、AudioGen、Tango 四种模型可供生成。

Sheet Music Transformer：超越单音转录的端到端光学音乐识别

论文：https://arxiv.org/abs/2402.07596

本文介绍了 “乐谱变换器”（Sheet Music Transformer, SMT），这是第一个旨在转录复杂音乐乐谱而不仅仅依赖于单声部策略的端到端光学音乐识别（OMR）模型。该模型采用基于 Transformer 的图像到序列框架，从输入图像预测乐谱转录的标准数字音乐编码格式。

原理：SMT 采用了自回归 Transformer 作为基础架构，能够将音乐输入图像转换为超越单声部的乐谱。

功能实现：通过编码器提取图像特征，然后解码器自回归地预测每个符号的概率，生成音乐转录。

数据集：在两个多声部音乐数据集上进行了测试，证明了 SMT 处理复杂音乐结构的能力。

实验结果表明，SMT 能够有效处理这些复杂的音乐结构，并且性能优于当前的最先进方法。

AnyGPT：具有离散序列建模的统一多模态大型语言模型

论文：https://arxiv.org/abs/2402.12226

演示：https://junzhan2000.github.io/AnyGPT.github.io/

AnyGPT 是一种新型的任意到任意多模态语言模型，通过使用离散表示进行各种模态（包括语音、文本、图像和音乐）的统一处理，能够在不改变当前大型语言模型（LLM）架构或训练范式的情况下稳定训练。这一方法仅依赖于数据级预处理，简化了新模态的整合过程，类似于加入新语言的方式。

原理：AnyGPT 利用多模态分词器将原始多模态数据（如图像和音频）压缩成离散的语义令牌序列，这些离散表示使核心 LLM 能够在语义层面以自回归方式统一执行感知、理解、推理和生成等任务。

功能实现：通过多模态分词器和去分词器的应用，AnyGPT 能够处理任意组合的多模态输入和输出，支持任意到任意的多模态对话。

数据集：构建了一个文本中心的多模态对齐预训练数据集，使用生成模型合成了第一个大规模的任意到任意多模态指令数据集（AnyInstruct-108k），包含 108k 个多轮对话样本，精细地交织了各种模态。

对于希望提高多模态数据处理能力的系统，AnyGPT 提供了一个值得考虑的模型架构和方法，特别是在寻求统一处理多种数据类型而不牺牲性能或效率的场景下。研究者和开发者可以探索如何利用 AnyGPT 的方法来优化或创新自己的多模态项目，尤其是在需要处理包括语音、文本、图像和音乐在内的复杂数据类型的应用中。

腾讯与新加坡国立大学发布 M2UGen

论文1：https://arxiv.org/abs/2311.11255

论文2：https://arxiv.org/abs/2308.11276

代码：https://github.com/shansongliu/M2UGen/tree/main?tab=readme-ov-file#-model-testing

M2UGen 模型是一个音乐理解和生成模型，它不仅能回答关于音乐的问题，还能从文本、图片、视频和音频中生成音乐，以及进行音乐编辑。这个模型使用了多种编码器，包括用于音乐理解的 MERT、用于图片理解的 ViT、用于视频理解的 ViViT，以及用作音乐生成的 MusicGen/AudioLDM2 模型（即音乐解码器），这些都通过适配器和 LLaMA 2 模型结合起来，使得 M2UGen 模型具备多种能力。

DITTO：音乐生成的扩散推理时T优化

https://youtu.be/KooosSNPNo8

论文：https://arxiv.org/abs/2401.12179

演示：https://ditto-music.github.io/web/

DITTO，一种针对音乐生成的扩散推理时间 T 优化框架。通过优化初始噪声潜在状态，实现对预训练文本到音乐扩散模型在推理时的控制。DITTO 能够通过任何可微的特征匹配损失实现目标（风格化）输出，展示了广泛的音乐生成应用，包括内插、外推、循环以及强度、旋律和音乐结构控制，无需微调底层模型。

原理：DITTO 通过优化初始噪声潜在状态来控制扩散过程，实现特定音乐特性的调整。功能实现：利用梯度检查点（gradient checkpointing）技术，提高内存效率，支持复杂音乐生成任务。数据集：演示了 DITTO 在多种音乐生成任务上的应用，包括音乐内插、外推和循环。

DITTO 通过其创新的优化方法和梯度检查点技术，为音乐生成和编辑提供了一种高效且灵活的解决方案，推动了音乐生成技术的进步。

参考资料

https://x.com/fffiloni/status/1759595814047854610?s=20

https://x.com/ArxivSound/status/1757269474435010656?s=20

https://x.com/_akhaliq/status/1759822287899906361?s=20

https://x.com/_akhaliq/status/1742209475283423556?s=20

https://x.com/NicholasJBryan/status/1749642809391640785?s=20

https://x.com/Marktechpost/status/1751121530111856707?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者

AI音乐 | 2.20 资讯

目录

视频生成音效模型已开源

Sheet Music Transformer：超越单音转录的端到端光学音乐识别

AnyGPT：具有离散序列建模的统一多模态大型语言模型

腾讯与新加坡国立大学发布 M2UGen

DITTO：音乐生成的扩散推理时T优化

视频生成音效模型已开源

Sheet Music Transformer：超越单音转录的端到端光学音乐识别

AnyGPT：具有离散序列建模的统一多模态大型语言模型

腾讯与新加坡国立大学发布 M2UGen

DITTO：音乐生成的扩散推理时T优化

参考资料