跳转到内容

AI 音乐 | 5.3资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-05-03 22:30 广东

原文https://mp.weixin.qq.com/s/l82TFOVFShCH8v654HhdGw

目录

Udio 推出新功能

musicgen-songstarter-v0.2:唱出你的想法

ComposerX:使用 LLMs 进行多智能体符号音乐创作

SemantiCodec:适合一般声音的超低比特率语义音频编解码器

stable-audio-2-demo:具有潜在扩散的长格式音乐生成

无限低音独奏制作

Openverse:免费探索超过 7 亿件创意作品

Udio 推出新功能

官网链接:https://www.udio.com

更新功能如下:

  • 更多的上下文窗口:在使用扩展功能时,系统会考虑这段内容前后两分钟的信息,以保持上下文结构的一致性和流畅性。
  • 音轨最大时长:现在可以将音轨延长至最多 15 分钟,此功能适合创作更长的混音、氛围音轨或前卫摇滚史诗。
  • 树状音轨历史记录:系统推出基于树状结构的音轨历史记录功能,可以更有效地管理和理解音轨之间的关系,可在音轨下拉菜单或 “我的创作” 页面中查看。
  • 更自由的音轨编辑:允许从生成的音轨的任一部分进行扩展,或删除掉不喜欢的部分。

fffiloni 大神发布了一个 HuggingChat 机器人,可向它询问 Udio 的常见问题,以了解如何生成一首好歌曲,点击下方链接尝试👇

链接:https://hf.co/chat/assistant/6617dd3f0115d06ce4ee4dec

musicgen-songstarter-v0.2:唱出你的想法

体验入口:https://huggingface.co/spaces/nateraw/singing-songstarter

colab:https://colab.research.google.com/github/nateraw/singing-songstarter/blob/main/singing_songstarter_demo.ipynb

代码:https://github.com/nateraw/singing-songstarter

该程序由 nateraw 使用 musicgen 模型微调得到的,作者提到,当 MusicGen 进行旋律调节时,它会对音频提示进行音轨分离以去除人声,所以移除掉这个步骤,就可以直接用人声进行提示了。

使用时,可上传本地音频或选择在线录制人声,输入 Prompt,调节相应参数进行音乐生成。

程序里作者添加了一个音调校正的功能,使用者即使五音不全也无需担心,音调校正刻度选项中,使用者如果不知道怎么调,“closest” 是不错的选择。音调校正功能的实现可查看下面链接👇音调校正:https://thewolfsound.com/how-to-auto-tune-your-voice-with-python/作者的微调过程可查看下面链接👇

链接:https://nateraw.com/posts/training_musicgen_songstarter.html

ComposerX:使用 LLMs 进行多智能体符号音乐创作

论文:https://arxiv.org/abs/2404.18081

代码:https://github.com/lllindsey0615/ComposerX

演示:https://lllindsey0615.github.io/ComposerX_demo/

ComposerX 是一个多代理符号音乐生成框架,利用大型语言模型(LLMs)的内在音乐能力来创作高质量的音乐作品,每个代理都被赋予特定的角色和任务,代理之间的交流遵循一个结构化的对话模式,以确保音乐作品的生成过程有序且高效。

该系统通过模拟真实世界的音乐创作过程,包括旋律构建、和声或对位发展以及配器等关键元素,实现了音乐作品的生成。用户可通过提供一组特定的音乐属性(如风格、节奏、调性、和声进行等)来创建提示,经过代理的解析、分配和评估,最后由编排代理将所有元素整合并输出为 ABC 符号表示法的音乐作品。

实验结果显示,多代理基线在单代理基线之上表现更好,能够生成更长的音乐作品,并且在图灵测试中,ComposerX 生成的音乐作品中有 32.2% 被认为与人类作品无法区分,在音乐创作方面已经展现出接近人类技能的能力。

SemantiCodec:适合一般声音的超低比特率语义音频编解码器

论文:https://arxiv.org/abs/2405.00233

演示:https://haoheliu.github.io/SemantiCodec/

SemantiCodec 是一种新颖的音频编解码器(codec),旨在将音频压缩成每秒少于一百个令牌(tokens),以支持包括语音、通用音频和音乐在内的多样化音频类型,同时不损失质量。

SemantiCodec 采用双编码器架构:语义编码器利用自监督 AudioMAE,在大量音频数据上使用 k 均值聚类进行离散化;声学编码器用于捕获剩余的声学细节。语义和声学编码器的输出通过基于扩散模型的解码器重建为音频。SemantiCodec 提供三种变体,令牌速率为每秒 25、50、100,在压缩和质量之间提供平衡。

实验结果表明,SemantiCodec 在重建质量方面明显优于最先进的 Descript 编解码器,在语义信息评估方面,SemantiCodec 在低比特率下仍然保持了较高的语义性能。

stable-audio-2-demo:具有潜在扩散的长格式音乐生成

论文:https://arxiv.org/abs/2404.10301

演示:https://stability-ai.github.io/stable-audio-2-demo/

Soundcloud:https://soundcloud.com/stable-audio/sets/stable-audio-2-playlist

Stable Audio 团队发布了 2.0 模型的研究论文及相关演示,该模型可以生成时长高达 4 分 45 秒的高保真音乐,与依赖于语义令牌来确保长期结构连贯性的模型不同,该模型可直接生成音乐,而无需额外的语义信息,模型支持可变长度的音乐生成,同时可以根据用户指定的时间窗口生成音乐。目前该模型相关代码暂未公开。

无限低音独奏制作

视频链接:https://youtu.be/2xMhRwxXJTc?si=VtRfkV8JZrEE1T41

视频展示了如何使用神经网络生成永无止境的低音贝斯独奏,并介绍了 Data Machine/Dadabots 团队对此的研究和实验。他们讨论了数据集的限制、训练神经网络的过程以及对未来可能的应用。

Openverse:免费探索超过 7 亿件创意作品

链接:https://openverse.org/

Openverse 提供了超过 7 亿张图片和音频文件的收藏,访问者可按创建者、来源和标签浏览图像和音频文件,并轻松找到想要查找的内容。

#参考资料

https://x.com/udiomusic/status/1785658654571602000

https://x.com/fffiloni/status/1778408300884754772

https://x.com/_nateraw/status/1781762090585199085

https://x.com/ArxivSound/status/1785158025034060075

https://x.com/LiuHaohe/status/1785961357633814661

https://x.com/ArxivSound/status/1780447069624221755

https://x.com/harmonai_org/status/1780403892700012553

https://x.com/dadabots/status/1785530630643519644

https://make.wordpress.org/openverse/2024/04/16/introducing-collection-views-for-tags-creators-and-sources/

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者