跳转到内容

AI 音乐 | 5.29 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-05-29 20:33 浙江

原文:https://mp.weixin.qq.com/s/bzDdjXlbRWbC0XKNdaKsng

索尼音乐集团指控 AI 开发者侵犯版权

在音乐与人工智能(AI)技术日益融合的今天,版权问题成为了一个不可忽视的挑战。全球第二大音乐出版商索尼音乐集团(Sony Music Group)近日对 AI 开发者提出指控,声称这些开发者在未经授权的情况下,使用索尼的知识产权来训练 AI 模型,并收集索尼拥有的媒体数据,这可能侵犯了其版权。

索尼音乐集团在其官方网站上发布声明,并通过信件形式向超过 700 名 AI 开发者和流媒体服务发出警告,明确禁止使用索尼的音乐、歌词、音乐视频和专辑封面等媒体内容,用于 AI 系统的 “训练、开发或商业化”。索尼还要求 AI 开发者在规定时间内透露他们用于训练的作品,并保留向特定开发者授权使用其材料的权利。

这一指控引发了音乐界的广泛关注。今年 4 月,超过 200 名音乐艺术家联合呼吁流媒体服务和 AI 开发者停止使用他们的作品进行训练,并反对在未经补偿的情况下生成特定音乐家风格的音乐。环球音乐集团(UMG),作为索尼音乐的主要竞争对手,同样反对无限制的 AI 生成音乐。

尽管目前尚不清楚在未经许可的情况下使用音乐录音训练 AI 系统是否构成版权侵犯,但索尼音乐集团已经表现出追究侵权行为的决心。去年,UMG 要求苹果音乐和 Spotify 阻止 AI 开发者下载其录音,并针对在 YouTube 和 Spotify 上传类似 UMG 签约艺术家音乐的上传者发出撤下通知。

随着生成音频质量的不断提升,AI 技术在音乐领域的应用越来越受到主流听众的关注。索尼音乐集团的这一警告可能会对 AI 技术在音乐产业的进一步发展造成影响。作者认为,AI 开发者应该被允许从互联网上免费获取的数据中学习,但版权保护的不确定性对任何人都不利。因此,现在是更新知识产权法律,以适应生成性 AI 时代的关键时刻。

Images that Sound:在单一画布上创作图像和声音

演示:https://ificl.github.io/images-that-sound/

论文:https://arxiv.org/pdf/2405.12221

代码:https://github.com/IFICL/images-that-sound

Images that Sound 是一项由密歇根大学的研究者们开发的独特技术,它将视觉艺术与声音设计融合在一起,创造出一种新型的多模态艺术作品。这些作品在视觉上呈现为图像,而在听觉上则表现为相应的声音。

该技术利用了预训练的文本到图像和文本到频谱图的扩散模型,这些模型在共享的潜在空间中操作,通过并行地使用音频和图像扩散模型进行去噪处理,生成的样本在两种模型下都具有高可能性,从而确保了生成的频谱图在视觉和听觉上都符合预期。

从文本提示开始,比如 “城堡与钟楼的图画,灰度” 和 “钟声”,模型会生成一个既符合视觉描述又符合声音描述的频谱图,这些频谱图可以转换为波形声音,使用预训练的声码器(vocoder)或者通过彩色化处理来获得视觉上更吸引人的结果。

这项技术为艺术家和创意工作者提供了一种全新的表达方式,允许他们创作出既能够被看到又能够被听到的艺术作品,还为多模态艺术的创作和研究开辟了新的可能性,比如在音乐视频、动画、游戏设计等领域的应用。

尽管该技术具有巨大的潜力,但研究者也指出需要谨慎使用,以避免潜在的负面社会影响,例如用于隐写术或误导性内容的制作。

Instruct-MusicGen:通过指令调整解锁音乐语言模型的文本到音乐编辑

论文:https://arxiv.org/pdf/2405.18386

演示:https://bit.ly/instruct-musicgen

Instruct-MusicGen 是一种先进的文本到音乐编辑方法,它通过指令调整(instruction tuning)技术,增强了预训练的音乐生成模型 MusicGen 的能力。这项技术使得模型能够理解和执行各种音乐编辑任务,如添加、移除或分离音乐中的音轨干(stems)

为了实现这一功能,Instruct-MusicGen 在 MusicGen 的基础上增加了两个模块——文本融合模块和音频融合模块。这两个模块使得模型能够同时处理文本指令和音频输入。

Instruct-MusicGen 仅引入了约 8% 的新参数,并且只需要训练 5000 步,这大大减少了资源消耗。尽管参数增加不多,但它在多个任务上都展现出了超越现有基线的性能,在 Slakh 和 MoisesDB 两个数据集上的实验表明,Instruct-MusicGen 在添加、移除和提取音轨干的任务上均优于现有的文本到音乐编辑模型。

在单一训练过程中,Instruct-MusicGen 能够执行多项任务,包括但不限于音乐干的添加、分离和提取,与其他需要从头开始训练特定编辑模型的方法相比,Instruct-MusicGen 通过微调预训练模型来实现功能,显著减少了计算资源的需求。

Instruct-MusicGen 降低了音乐编辑的技术门槛,使得更多人能够参与到音乐创作和编辑中,有望促进音乐产业的多样化和创新,尽管 Instruct-MusicGen 在多个方面表现出色,但它在处理更复杂的编辑任务时可能需要依赖成对数据进行微调,且生成编辑任务的信号级精度可能存在局限。

MusicMagus:通过扩散模型进行零镜头文本到音乐编辑

论文:https://arxiv.org/pdf/2402.06178

演示:https://bit.ly/musicmagus-demo

论文介绍了一个新的文本到音乐编辑方法,名为 MusicMagus,它通过在扩散模型的潜在空间中进行操作来实现音乐编辑,允许用户通过文本提示来修改由预训练模型生成的音乐的特定属性,如风格、情绪和乐器,同时保持其他方面不变。

MusicMagus 通过在潜在空间中操作来转换文本编辑,并增加额外的约束以确保一致性,与需要大量训练数据的有监督学习方法相比,MusicMagus 能够直接利用预训练的模型进行编辑任务。

实验结果显示,MusicMagus 在风格和音色转换评估中的性能优于零样本(zero-shot)和某些有监督的基线。

质量感知掩蔽扩散变换器:用于增强音乐生成

论文:https://arxiv.org/pdf/2405.15863

演示:https://qa-mdt.github.io/

质量感知掩蔽扩散变换器(Quality-aware Masked Diffusion Transformer, QA-MDT)是一种人工智能模型,它专门设计用来改善音乐生成的质量。

QA-MDT 能够在训练期间识别输入音乐波形的质量,这是通过注入量化的伪 MOS(p-MOS)分数来实现的,这些分数在去噪阶段以多种粒度被引入,以培养模型对质量的感知,模型采用了掩蔽策略来增强音乐频谱的空间相关性,这有助于加速模型的收敛,并在生成阶段利用与高 p-MOS 分数相对应的信息来产生高质量的音乐。

QA-MDT 使用大型语言模型(LLMs)和 CLAP(Contrastive Language-Audio Pretraining)技术来同步音乐信号和字幕,从而增强大规模音乐数据集中的文本-音频相关性,通过一个伪 MOS 评分模型,QA-MDT 能够为音乐轨道分配质量分数,这些分数基于与均值的距离,以标准差为单位进行量化,然后映射到一个离散的质量级别,QA-MDT 在训练时,将粗粒度的质量信息整合到文本编码器中,而细粒度的细节则嵌入到基于变压器的扩散架构中。

QA-MDT 还采用了一种字幕精炼数据处理方法,通过音乐字幕模型、CLAP 余弦相似性函数和大型语言模型来增强文本信息,提高与音乐的对齐度。

通过在公共数据集上的消融研究,QA-MDT 证明了其方法的有效性,在客观和主观指标上都超越了以往的工作,与传统的基于 U-Net 的扩散模型相比,QA-MDT 基于变压器的扩散模型在音乐光谱建模方面提供了更稳定的改进,使其成为音乐生成更好的骨干网络。

Moodist:沉浸式音频体验

链接:https://moodist.app/

Moodist 是一款免费且开源的环境声音生成器,无需订阅或注册,用户可以无限制地访问所有功能,提供 75 种精心挑选的声音,用户可以根据自己的喜好选择声音,并且支持声音的叠加,让用户可以创造个性化的声音环境。

参考资料

https://www.deeplearning.ai/the-batch/sony-music-accuses-ai-developers-of-copyright-violations/?utm_campaign=The Batch&utm_content=294857753&utm_medium=social&utm_source=twitter&hss_channel=tw-992153930095251456

https://www.linkedin.com/posts/max-hilsdorf_this-ai-has-no-use-case-and-thats-ugcPost-7201101525631332355-cjKl?utm_source=share&utm_medium=member_desktop

https://x.com/ArxivSound/status/1795667343634276384

https://x.com/ArxivSound/status/1795667309387739504

https://x.com/ArxivSound/status/1795305097280327947

https://x.com/ccbikai/status/1787480463197831507