AI 音乐 | 2.21 资讯
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook 2024-02-21 21:57 广东
原文:https://mp.weixin.qq.com/s/lxxAUacDxtrQAuB_tK552A
目录
生成式人工智能对音乐领域的影响研究
谷歌推出 MusicRL :生成符合人类偏好的音乐
使用 Beatoven AI 的文生音乐功能给视频配乐
HyperGANStrument:使用音高不变超网络进行乐器声音合成和编辑
Stability AI 发布 Stable Audio AudioSparx 1.0 音乐模型
生成式人工智能对音乐领域的影响研究
报告链接:https://www.gema.de/documents/d/guest/gema-sacem-goldmedia-ai-and-music-pdf
在由 GEMA 和 SACEM 委托 Goldmedia 进行的一项研究中,探讨了生成性 AI 在音乐领域的快速发展及其对欧洲创意产业的广泛影响。报告强调了 AI 对创作者构成的双重挑战:既是竞争源也是创新工具。报告强调确立可靠的法律框架的必要性,以确保公平的市场发展。同时,倡导保护知识产权,强调透明度和监管的重要性,以利用 AI 的好处同时减少风险。
谷歌推出 MusicRL :生成符合人类偏好的音乐
Google DeepMind 推出 MusicRL,基于预训练的 MusicLM 模型,通过强化学习进一步微调,目的是根据文本提示生成质量高且与文本相关联的音乐。MusicRL 利用了 30 万个用户偏好对比数据进行训练,目标是提高音乐的质量和文本适应性。
MusicRL 能够基于文本描述自动创作音乐,这一过程包括了从用户反馈中学习,以提升音乐作品的相关性和质量。该系统使用了大量来自用户偏好的成对比较数据,这些数据帮助模型学习如何生成更受欢迎的音乐。
论文中对比了多个版本的 MusicRL(包括专注于音质和文本适应性的 MusicRL-R,专注于用户偏好的 MusicRL-U,以及结合两者优势的 MusicRL-RU)与基线模型的性能。
实验显示,MusicRL 及其变种在人类评价中表现优于基线模型,特别是 MusicRL-RU 模型,它结合了音质、文本适应性和用户偏好奖励,成为了最受欢迎的选择。
使用 Beatoven AI 的文生音乐功能给视频配乐
A giant cathedral is completely filled with cats. there are cats everywhere you look. a man enters the cathedral and bows before the giant cat king sitting on a throne.
体验链接:https://www.beatoven.ai/
HyperGANStrument:使用音高不变超网络进行乐器声音合成和编辑
论文:https://arxiv.org/abs/2401.04558
Demo Page for HyperGANStrument (notion.site)
HyperGANStrument 是一个基于超网络的神经合成器,旨在增强预训练的 GANStrument 模型的生成能力和可编辑性。通过训练一个不变音高的超网络和条件对抗性微调流程,HyperGANStrument 能够实现更好的重建忠实度、音高准确性和泛化能力。这使得音乐家可以自由探索新颖、多样且高质量的声音音色。
首先将输入的波形转换为梅尔频谱图,随后这一频谱图通过一个预训练的特征提取器来提取关键特征。提取出的特征连同音高和噪声一起输入到预训练的 GANStrument 生成器中,目的是重建一个初始的梅尔频谱图。接下来,超网络会预测生成器权重的偏移量,基于这一预测,生成器会根据超网络的指导合成一个细化过的梅尔频谱图。
实验结果证明了 HyperGANStrument 在音色转换和风格转换任务上的优越性,展现了与基线模型相比更好的声音重建质量和音高准确性。此外,通过对音高不变特征的训练,HyperGANStrument 还展示了在处理未见非乐器声音时更好的泛化能力。
StabilityAI 发布 Stable Audio AudioSparx 1.0 音乐模型
论文:https://arxiv.org/abs/2402.04825
代码:https://github.com/Stability-AI/stable-audio-tools
指标:https://github.com/Stability-AI/stable-audio-metrics
演示:https://stability-ai.github.io/stable-audio-demo/模型功能如下:
- 生成 44.1kHz 频率的长篇、可变长度立体声音乐和声音。
- 在 A100 GPU上 8 秒内渲染长达 95 秒的 44.1kHz 立体声信号。
- 性能超越 AudioLDM2 和 MusicGen。
- 根据文本提示生成具有结构(引言、发展和尾声)的长篇音乐。
- 根据文本提示生成立体声音效。
- 擅长生成音乐循环。
#参考资料
https://www.linkedin.com/posts/johan-cedmar-brandstedt-a77b311_study-on-generative-ai-impacts-on-music-sector-activity-7163809492919398400-2zTi?utm_source=share&utm_medium=member_desktop
https://www.marktechpost.com/2024/02/13/google-deepmind-unveils-musicrl-a-pretrained-autoregressive-musiclm-model-of-discrete-audio-tokens-finetuned-with-reinforcement-learning-to-maximise-sequence-level-rewards/
https://x.com/Marktechpost/status/1757375288436990394?s=20
https://huggingface.co/papers/2402.04229
https://x.com/_akhaliq/status/1755084543554367627?s=20
https://x.com/beatovenai/status/1759936801987236022?s=20
https://x.com/tuktoe/status/1750881384145858749?s=20
https://x.com/xiaohuggg/status/1755565282285015484?s=20
https://x.com/jordiponsdotme/status/1755566400301638137?s=20
我是尾巴
感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!
叮当不是机器猫
您的支持是我最大的动力
喜欢作者