AI 音乐 | 2.21 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-02-21 21:57 广东

原文：https://mp.weixin.qq.com/s/lxxAUacDxtrQAuB_tK552A

生成式人工智能对音乐领域的影响研究

谷歌推出 MusicRL ：生成符合人类偏好的音乐

使用 Beatoven AI 的文生音乐功能给视频配乐

HyperGANStrument：使用音高不变超网络进行乐器声音合成和编辑

Stability AI 发布 Stable Audio AudioSparx 1.0 音乐模型

生成式人工智能对音乐领域的影响研究

报告链接：https://www.gema.de/documents/d/guest/gema-sacem-goldmedia-ai-and-music-pdf

在由 GEMA 和 SACEM 委托 Goldmedia 进行的一项研究中，探讨了生成性 AI 在音乐领域的快速发展及其对欧洲创意产业的广泛影响。报告强调了 AI 对创作者构成的双重挑战：既是竞争源也是创新工具。报告强调确立可靠的法律框架的必要性，以确保公平的市场发展。同时，倡导保护知识产权，强调透明度和监管的重要性，以利用 AI 的好处同时减少风险。

谷歌推出 MusicRL ：生成符合人类偏好的音乐

Google DeepMind 推出 MusicRL，基于预训练的 MusicLM 模型，通过强化学习进一步微调，目的是根据文本提示生成质量高且与文本相关联的音乐。MusicRL 利用了 30 万个用户偏好对比数据进行训练，目标是提高音乐的质量和文本适应性。

MusicRL 能够基于文本描述自动创作音乐，这一过程包括了从用户反馈中学习，以提升音乐作品的相关性和质量。该系统使用了大量来自用户偏好的成对比较数据，这些数据帮助模型学习如何生成更受欢迎的音乐。

论文中对比了多个版本的 MusicRL（包括专注于音质和文本适应性的 MusicRL-R，专注于用户偏好的 MusicRL-U，以及结合两者优势的 MusicRL-RU）与基线模型的性能。

实验显示，MusicRL 及其变种在人类评价中表现优于基线模型，特别是 MusicRL-RU 模型，它结合了音质、文本适应性和用户偏好奖励，成为了最受欢迎的选择。

使用 Beatoven AI 的文生音乐功能给视频配乐

A giant cathedral is completely filled with cats. there are cats everywhere you look. a man enters the cathedral and bows before the giant cat king sitting on a throne.

体验链接：https://www.beatoven.ai/

HyperGANStrument：使用音高不变超网络进行乐器声音合成和编辑

论文：https://arxiv.org/abs/2401.04558

Demo Page for HyperGANStrument (notion.site)

HyperGANStrument 是一个基于超网络的神经合成器，旨在增强预训练的 GANStrument 模型的生成能力和可编辑性。通过训练一个不变音高的超网络和条件对抗性微调流程，HyperGANStrument 能够实现更好的重建忠实度、音高准确性和泛化能力。这使得音乐家可以自由探索新颖、多样且高质量的声音音色。

首先将输入的波形转换为梅尔频谱图，随后这一频谱图通过一个预训练的特征提取器来提取关键特征。提取出的特征连同音高和噪声一起输入到预训练的 GANStrument 生成器中，目的是重建一个初始的梅尔频谱图。接下来，超网络会预测生成器权重的偏移量，基于这一预测，生成器会根据超网络的指导合成一个细化过的梅尔频谱图。

实验结果证明了 HyperGANStrument 在音色转换和风格转换任务上的优越性，展现了与基线模型相比更好的声音重建质量和音高准确性。此外，通过对音高不变特征的训练，HyperGANStrument 还展示了在处理未见非乐器声音时更好的泛化能力。

StabilityAI 发布 Stable Audio AudioSparx 1.0 音乐模型

论文：https://arxiv.org/abs/2402.04825

代码：https://github.com/Stability-AI/stable-audio-tools

指标：https://github.com/Stability-AI/stable-audio-metrics

演示：https://stability-ai.github.io/stable-audio-demo/模型功能如下：

生成 44.1kHz 频率的长篇、可变长度立体声音乐和声音。
在 A100 GPU上 8 秒内渲染长达 95 秒的 44.1kHz 立体声信号。
性能超越 AudioLDM2 和 MusicGen。
根据文本提示生成具有结构（引言、发展和尾声）的长篇音乐。
根据文本提示生成立体声音效。
擅长生成音乐循环。

#参考资料

https://www.linkedin.com/posts/johan-cedmar-brandstedt-a77b311_study-on-generative-ai-impacts-on-music-sector-activity-7163809492919398400-2zTi?utm_source=share&utm_medium=member_desktop

https://www.marktechpost.com/2024/02/13/google-deepmind-unveils-musicrl-a-pretrained-autoregressive-musiclm-model-of-discrete-audio-tokens-finetuned-with-reinforcement-learning-to-maximise-sequence-level-rewards/

https://x.com/Marktechpost/status/1757375288436990394?s=20

https://huggingface.co/papers/2402.04229

https://x.com/_akhaliq/status/1755084543554367627?s=20

https://x.com/beatovenai/status/1759936801987236022?s=20

https://x.com/tuktoe/status/1750881384145858749?s=20

https://x.com/xiaohuggg/status/1755565282285015484?s=20

https://x.com/jordiponsdotme/status/1755566400301638137?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者

AI 音乐 | 2.21 资讯

目录

生成式人工智能对音乐领域的影响研究

谷歌推出 MusicRL ：生成符合人类偏好的音乐

使用 Beatoven AI 的文生音乐功能给视频配乐

HyperGANStrument：使用音高不变超网络进行乐器声音合成和编辑

Stability AI 发布 Stable Audio AudioSparx 1.0 音乐模型

生成式人工智能对音乐领域的影响研究

谷歌推出 MusicRL ：生成符合人类偏好的音乐

使用 Beatoven AI 的文生音乐功能给视频配乐

HyperGANStrument：使用音高不变超网络进行乐器声音合成和编辑

StabilityAI 发布 Stable Audio AudioSparx 1.0 音乐模型

#参考资料