跳转到内容

AI 音乐 | 2.27 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-02-27 20:46 广东

原文:https://mp.weixin.qq.com/s/0Jn_VLzvjRA4MICIIPc5Zg

目录

ChatMusician:使用 LLM 本质上理解与创造音乐

以色列理工学院研究人员彻底改变音频编辑:通过零样本技术和预训练模型释放创造力

可解释音频标签的感知音乐特征

SingVisio:歌声转换扩散模型的可视化分析

我实现了一个人工智能音乐评论家

ChatMusician:使用 LLM 本质上理解与创造音乐

演示:https://shanghaicannon.github.io/ChatMusician/

论文:https://arxiv.org/abs/2402.16153

代码:https://github.com/EZMONYI/ChatMusician?tab=readme-ov-file

ChatMusician 标志着大型语言模型(LLMs)在音乐领域应用的一大突破。尽管 LLMs 在文本生成方面取得了显著成就,但将其能力扩展到音乐——人类的另一种创造性语言——方面,却是一项尚未广泛实现的挑战。ChatMusician 是一款集成了音乐内在能力的开源 LLM,通过在文本兼容的音乐表示 ABC 符号上进行持续预训练和微调 LLaMA2,将音乐视作第二语言进行处理。这种模型能够依靠纯文本分词器进行音乐的理解和生成,无需依赖外部的多模态神经结构或分词器。

引人注目的是,ChatMusician 在赋予音乐能力的同时,并未对其语言处理能力产生负面影响,反而在 MMLU 得分上实现了轻微的提升。该模型不仅能够创作出结构完整、全长的音乐作品,还能根据文本、和弦、旋律、主题和音乐形式等多种条件进行作曲,其性能超越了 GPT-4 的基线。在专门为大学级别音乐理解设计的基准测试 MusicTheoryBench 上,ChatMusician 在零样本设置中显著超过了 LLaMA2 和 GPT-3.5,展示了其在音乐理解和生成方面的卓越能力。

以色列理工学院研究人员彻底改变音频编辑:通过零样本技术和预训练模型释放创造力

论文:https://arxiv.org/abs/2402.10009

以色列理工学院的研究人员在音频编辑领域取得了重大进展,利用大型语言模型(LLMs)和去噪扩散概率模型(DDPMs)进行内容生成和编辑,将零次学习(Zero-Shot)编辑能力扩展到音频信号。这项工作开发了两种独特的音频编辑方法,无需特定任务的直接训练:

基于文本的编辑方法:通过自然语言描述来操纵音频信号,允许用户改变音乐作品的音乐类型或特定乐器,同时保持原始信号的感知质量和语义本质。

无监督编辑方法:这种方法能够发现不依赖文本描述的语义上有意义的编辑方向,适合于揭示音乐上有趣的修改,如调整特定乐器的突出度或在旋律上进行即兴创作。

可解释音频标签的感知音乐特征

论文:https://arxiv.org/abs/2312.11234

代码:https://github.com/vaslyb/perceptible-music-tagging

在音乐流媒体平台日益盛行的当下,自动化音乐标签生成任务受到了广泛关注,促使研究者们着手开发旨在提升标准数据集上性能指标的方法。这一研究领域的最新进展主要依赖于深度神经网络,这些网络虽然在性能上取得了显著成果,但其不透明的性质令人难以理解模型对特定输入的输出逻辑。尽管在医学等其他领域,解释性问题已经被广泛强调,但在音乐相关任务中,这一议题尚未受到足够重视。

针对自动化音乐标签生成的背景,我们的研究旨在探讨解释性的重要性。通过构建一个集成了三种不同信息提取技术的工作流程,我们尝试增强模型的解释能力。这三种技术包括:利用符号知识、采用辅助深度神经网络以及应用信号处理技术从音频文件中提取感知特征。这些感知特征随后被用于训练一个能够进行标签预测的可解释机器学习模型。

我们在两个主要数据集上进行了实验,分别是 MTG-Jamendo 数据集和 GTZAN 数据集。实验结果显示,我们的方法不仅在这两项任务上超越了基线模型的性能,而且在某些情况下,甚至能够与当前最先进的技术竞争。这一发现表明,在某些应用场景中,尽管性能可能有所下降,但模型的解释性所带来的价值是值得的。

SingVisio:歌声转换扩散模型的可视化分析

演示:https://dsvc.openmmlab.org.cn/

论文:https://arxiv.org/abs/2402.12660

代码:https://github.com/open-mmlab/Amphion

在本研究中,我们介绍了 SingVisio,这是一个旨在解释用于歌声转换的扩散模型的交互式可视分析系统。SingVisio 提供了扩散模型生成过程的可视展示,展示了噪声谱的逐步去噪过程以及其转换成能捕捉到所需歌手音色的清晰谱的过程。该系统还支持不同条件的并排比较,如源内容、旋律和目标音色,突出了这些条件对扩散生成过程和结果转换的影响。通过全面评估,SingVisio 在系统设计、功能性、解释性和用户友好性方面展现了其有效性。它为不同背景的用户提供了宝贵的学习经验和洞察,帮助他们了解用于歌声转换的扩散模型,现已开放演示和代码。

我实现了一个人工智能音乐评论家

链接:https://www.youtube.com/watch?v=JtkXkBWXcy4&t=25s

参考资料

https://x.com/_akhaliq/status/1762339575299551316?s=20

https://www.marktechpost.com/2024/02/26/technion-researchers-revolutionize-audio-editing-unleashing-creativity-with-zero-shot-techniques-and-pre-trained-models/

https://x.com/ArxivSound/status/1761980565962527039?s=20

https://x.com/lmxue_/status/1761064041777361056?s=20

https://x.com/musikalkemist/status/1762402719258534248?s=20

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者