AI 音乐 | 5.29 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-05-29 20:33 浙江

原文：https://mp.weixin.qq.com/s/bzDdjXlbRWbC0XKNdaKsng

索尼音乐集团指控 AI 开发者侵犯版权

在音乐与人工智能（AI）技术日益融合的今天，版权问题成为了一个不可忽视的挑战。全球第二大音乐出版商索尼音乐集团（Sony Music Group）近日对 AI 开发者提出指控，声称这些开发者在未经授权的情况下，使用索尼的知识产权来训练 AI 模型，并收集索尼拥有的媒体数据，这可能侵犯了其版权。

索尼音乐集团在其官方网站上发布声明，并通过信件形式向超过 700 名 AI 开发者和流媒体服务发出警告，明确禁止使用索尼的音乐、歌词、音乐视频和专辑封面等媒体内容，用于 AI 系统的 “训练、开发或商业化”。索尼还要求 AI 开发者在规定时间内透露他们用于训练的作品，并保留向特定开发者授权使用其材料的权利。

这一指控引发了音乐界的广泛关注。今年 4 月，超过 200 名音乐艺术家联合呼吁流媒体服务和 AI 开发者停止使用他们的作品进行训练，并反对在未经补偿的情况下生成特定音乐家风格的音乐。环球音乐集团（UMG），作为索尼音乐的主要竞争对手，同样反对无限制的 AI 生成音乐。

尽管目前尚不清楚在未经许可的情况下使用音乐录音训练 AI 系统是否构成版权侵犯，但索尼音乐集团已经表现出追究侵权行为的决心。去年，UMG 要求苹果音乐和 Spotify 阻止 AI 开发者下载其录音，并针对在 YouTube 和 Spotify 上传类似 UMG 签约艺术家音乐的上传者发出撤下通知。

随着生成音频质量的不断提升，AI 技术在音乐领域的应用越来越受到主流听众的关注。索尼音乐集团的这一警告可能会对 AI 技术在音乐产业的进一步发展造成影响。作者认为，AI 开发者应该被允许从互联网上免费获取的数据中学习，但版权保护的不确定性对任何人都不利。因此，现在是更新知识产权法律，以适应生成性 AI 时代的关键时刻。

Images that Sound：在单一画布上创作图像和声音

演示：https://ificl.github.io/images-that-sound/

论文：https://arxiv.org/pdf/2405.12221

代码：https://github.com/IFICL/images-that-sound

Images that Sound 是一项由密歇根大学的研究者们开发的独特技术，它将视觉艺术与声音设计融合在一起，创造出一种新型的多模态艺术作品。这些作品在视觉上呈现为图像，而在听觉上则表现为相应的声音。

该技术利用了预训练的文本到图像和文本到频谱图的扩散模型，这些模型在共享的潜在空间中操作，通过并行地使用音频和图像扩散模型进行去噪处理，生成的样本在两种模型下都具有高可能性，从而确保了生成的频谱图在视觉和听觉上都符合预期。

从文本提示开始，比如 “城堡与钟楼的图画，灰度” 和 “钟声”，模型会生成一个既符合视觉描述又符合声音描述的频谱图，这些频谱图可以转换为波形声音，使用预训练的声码器（vocoder）或者通过彩色化处理来获得视觉上更吸引人的结果。

这项技术为艺术家和创意工作者提供了一种全新的表达方式，允许他们创作出既能够被看到又能够被听到的艺术作品，还为多模态艺术的创作和研究开辟了新的可能性，比如在音乐视频、动画、游戏设计等领域的应用。

尽管该技术具有巨大的潜力，但研究者也指出需要谨慎使用，以避免潜在的负面社会影响，例如用于隐写术或误导性内容的制作。

Instruct-MusicGen：通过指令调整解锁音乐语言模型的文本到音乐编辑

论文：https://arxiv.org/pdf/2405.18386

演示：https://bit.ly/instruct-musicgen

Instruct-MusicGen 是一种先进的文本到音乐编辑方法，它通过指令调整（instruction tuning）技术，增强了预训练的音乐生成模型 MusicGen 的能力。这项技术使得模型能够理解和执行各种音乐编辑任务，如添加、移除或分离音乐中的音轨干（stems）

为了实现这一功能，Instruct-MusicGen 在 MusicGen 的基础上增加了两个模块——文本融合模块和音频融合模块。这两个模块使得模型能够同时处理文本指令和音频输入。

Instruct-MusicGen 仅引入了约 8% 的新参数，并且只需要训练 5000 步，这大大减少了资源消耗。尽管参数增加不多，但它在多个任务上都展现出了超越现有基线的性能，在 Slakh 和 MoisesDB 两个数据集上的实验表明，Instruct-MusicGen 在添加、移除和提取音轨干的任务上均优于现有的文本到音乐编辑模型。

在单一训练过程中，Instruct-MusicGen 能够执行多项任务，包括但不限于音乐干的添加、分离和提取，与其他需要从头开始训练特定编辑模型的方法相比，Instruct-MusicGen 通过微调预训练模型来实现功能，显著减少了计算资源的需求。

Instruct-MusicGen 降低了音乐编辑的技术门槛，使得更多人能够参与到音乐创作和编辑中，有望促进音乐产业的多样化和创新，尽管 Instruct-MusicGen 在多个方面表现出色，但它在处理更复杂的编辑任务时可能需要依赖成对数据进行微调，且生成编辑任务的信号级精度可能存在局限。

MusicMagus：通过扩散模型进行零镜头文本到音乐编辑

论文：https://arxiv.org/pdf/2402.06178

演示：https://bit.ly/musicmagus-demo

论文介绍了一个新的文本到音乐编辑方法，名为 MusicMagus，它通过在扩散模型的潜在空间中进行操作来实现音乐编辑，允许用户通过文本提示来修改由预训练模型生成的音乐的特定属性，如风格、情绪和乐器，同时保持其他方面不变。

MusicMagus 通过在潜在空间中操作来转换文本编辑，并增加额外的约束以确保一致性，与需要大量训练数据的有监督学习方法相比，MusicMagus 能够直接利用预训练的模型进行编辑任务。

实验结果显示，MusicMagus 在风格和音色转换评估中的性能优于零样本（zero-shot）和某些有监督的基线。

质量感知掩蔽扩散变换器：用于增强音乐生成

论文：https://arxiv.org/pdf/2405.15863

演示：https://qa-mdt.github.io/

质量感知掩蔽扩散变换器（Quality-aware Masked Diffusion Transformer, QA-MDT）是一种人工智能模型，它专门设计用来改善音乐生成的质量。

QA-MDT 能够在训练期间识别输入音乐波形的质量，这是通过注入量化的伪 MOS（p-MOS）分数来实现的，这些分数在去噪阶段以多种粒度被引入，以培养模型对质量的感知，模型采用了掩蔽策略来增强音乐频谱的空间相关性，这有助于加速模型的收敛，并在生成阶段利用与高 p-MOS 分数相对应的信息来产生高质量的音乐。

QA-MDT 使用大型语言模型（LLMs）和 CLAP（Contrastive Language-Audio Pretraining）技术来同步音乐信号和字幕，从而增强大规模音乐数据集中的文本-音频相关性，通过一个伪 MOS 评分模型，QA-MDT 能够为音乐轨道分配质量分数，这些分数基于与均值的距离，以标准差为单位进行量化，然后映射到一个离散的质量级别，QA-MDT 在训练时，将粗粒度的质量信息整合到文本编码器中，而细粒度的细节则嵌入到基于变压器的扩散架构中。

QA-MDT 还采用了一种字幕精炼数据处理方法，通过音乐字幕模型、CLAP 余弦相似性函数和大型语言模型来增强文本信息，提高与音乐的对齐度。

通过在公共数据集上的消融研究，QA-MDT 证明了其方法的有效性，在客观和主观指标上都超越了以往的工作，与传统的基于 U-Net 的扩散模型相比，QA-MDT 基于变压器的扩散模型在音乐光谱建模方面提供了更稳定的改进，使其成为音乐生成更好的骨干网络。

Moodist：沉浸式音频体验

链接：https://moodist.app/

Moodist 是一款免费且开源的环境声音生成器，无需订阅或注册，用户可以无限制地访问所有功能，提供 75 种精心挑选的声音，用户可以根据自己的喜好选择声音，并且支持声音的叠加，让用户可以创造个性化的声音环境。

参考资料

https://www.deeplearning.ai/the-batch/sony-music-accuses-ai-developers-of-copyright-violations/?utm_campaign=The Batch&utm_content=294857753&utm_medium=social&utm_source=twitter&hss_channel=tw-992153930095251456

https://www.linkedin.com/posts/max-hilsdorf_this-ai-has-no-use-case-and-thats-ugcPost-7201101525631332355-cjKl?utm_source=share&utm_medium=member_desktop

https://x.com/ArxivSound/status/1795667343634276384

https://x.com/ArxivSound/status/1795667309387739504

https://x.com/ArxivSound/status/1795305097280327947

https://x.com/ccbikai/status/1787480463197831507