AI 音乐 | 5.3资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-05-03 22:30 广东

原文https://mp.weixin.qq.com/s/l82TFOVFShCH8v654HhdGw

更多的上下文窗口：在使用扩展功能时，系统会考虑这段内容前后两分钟的信息，以保持上下文结构的一致性和流畅性。
音轨最大时长：现在可以将音轨延长至最多 15 分钟，此功能适合创作更长的混音、氛围音轨或前卫摇滚史诗。
树状音轨历史记录：系统推出基于树状结构的音轨历史记录功能，可以更有效地管理和理解音轨之间的关系，可在音轨下拉菜单或 “我的创作” 页面中查看。
更自由的音轨编辑：允许从生成的音轨的任一部分进行扩展，或删除掉不喜欢的部分。

fffiloni 大神发布了一个 HuggingChat 机器人，可向它询问 Udio 的常见问题，以了解如何生成一首好歌曲，点击下方链接尝试👇

链接：https://hf.co/chat/assistant/6617dd3f0115d06ce4ee4dec

musicgen-songstarter-v0.2：唱出你的想法

体验入口：https://huggingface.co/spaces/nateraw/singing-songstarter

colab：https://colab.research.google.com/github/nateraw/singing-songstarter/blob/main/singing_songstarter_demo.ipynb

代码：https://github.com/nateraw/singing-songstarter

该程序由 nateraw 使用 musicgen 模型微调得到的，作者提到，当 MusicGen 进行旋律调节时，它会对音频提示进行音轨分离以去除人声，所以移除掉这个步骤，就可以直接用人声进行提示了。

使用时，可上传本地音频或选择在线录制人声，输入 Prompt，调节相应参数进行音乐生成。

程序里作者添加了一个音调校正的功能，使用者即使五音不全也无需担心，音调校正刻度选项中，使用者如果不知道怎么调，“closest” 是不错的选择。音调校正功能的实现可查看下面链接👇音调校正：https://thewolfsound.com/how-to-auto-tune-your-voice-with-python/作者的微调过程可查看下面链接👇

链接：https://nateraw.com/posts/training_musicgen_songstarter.html

ComposerX：使用 LLMs 进行多智能体符号音乐创作

论文：https://arxiv.org/abs/2404.18081

代码：https://github.com/lllindsey0615/ComposerX

演示：https://lllindsey0615.github.io/ComposerX_demo/

ComposerX 是一个多代理符号音乐生成框架，利用大型语言模型（LLMs）的内在音乐能力来创作高质量的音乐作品，每个代理都被赋予特定的角色和任务，代理之间的交流遵循一个结构化的对话模式，以确保音乐作品的生成过程有序且高效。

该系统通过模拟真实世界的音乐创作过程，包括旋律构建、和声或对位发展以及配器等关键元素，实现了音乐作品的生成。用户可通过提供一组特定的音乐属性（如风格、节奏、调性、和声进行等）来创建提示，经过代理的解析、分配和评估，最后由编排代理将所有元素整合并输出为 ABC 符号表示法的音乐作品。

实验结果显示，多代理基线在单代理基线之上表现更好，能够生成更长的音乐作品，并且在图灵测试中，ComposerX 生成的音乐作品中有 32.2% 被认为与人类作品无法区分，在音乐创作方面已经展现出接近人类技能的能力。

SemantiCodec：适合一般声音的超低比特率语义音频编解码器

论文：https://arxiv.org/abs/2405.00233

演示：https://haoheliu.github.io/SemantiCodec/

SemantiCodec 是一种新颖的音频编解码器（codec），旨在将音频压缩成每秒少于一百个令牌（tokens），以支持包括语音、通用音频和音乐在内的多样化音频类型，同时不损失质量。

SemantiCodec 采用双编码器架构：语义编码器利用自监督 AudioMAE，在大量音频数据上使用 k 均值聚类进行离散化；声学编码器用于捕获剩余的声学细节。语义和声学编码器的输出通过基于扩散模型的解码器重建为音频。SemantiCodec 提供三种变体，令牌速率为每秒 25、50、100，在压缩和质量之间提供平衡。

实验结果表明，SemantiCodec 在重建质量方面明显优于最先进的 Descript 编解码器，在语义信息评估方面，SemantiCodec 在低比特率下仍然保持了较高的语义性能。

stable-audio-2-demo：具有潜在扩散的长格式音乐生成

论文：https://arxiv.org/abs/2404.10301

演示：https://stability-ai.github.io/stable-audio-2-demo/

Soundcloud：https://soundcloud.com/stable-audio/sets/stable-audio-2-playlist

Stable Audio 团队发布了 2.0 模型的研究论文及相关演示，该模型可以生成时长高达 4 分 45 秒的高保真音乐，与依赖于语义令牌来确保长期结构连贯性的模型不同，该模型可直接生成音乐，而无需额外的语义信息，模型支持可变长度的音乐生成，同时可以根据用户指定的时间窗口生成音乐。目前该模型相关代码暂未公开。

无限低音独奏制作

videoplayback.m4a

视频链接：https://youtu.be/2xMhRwxXJTc?si=VtRfkV8JZrEE1T41

视频展示了如何使用神经网络生成永无止境的低音贝斯独奏，并介绍了 Data Machine/Dadabots 团队对此的研究和实验。他们讨论了数据集的限制、训练神经网络的过程以及对未来可能的应用。

Openverse：免费探索超过 7 亿件创意作品

链接：https://openverse.org/

Openverse 提供了超过 7 亿张图片和音频文件的收藏，访问者可按创建者、来源和标签浏览图像和音频文件，并轻松找到想要查找的内容。

#参考资料

https://x.com/udiomusic/status/1785658654571602000

https://x.com/fffiloni/status/1778408300884754772

https://x.com/_nateraw/status/1781762090585199085

https://x.com/ArxivSound/status/1785158025034060075

https://x.com/LiuHaohe/status/1785961357633814661

https://x.com/ArxivSound/status/1780447069624221755

https://x.com/harmonai_org/status/1780403892700012553

https://x.com/dadabots/status/1785530630643519644

https://make.wordpress.org/openverse/2024/04/16/introducing-collection-views-for-tags-creators-and-sources/

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者

AI 音乐 | 5.3资讯

目录