AI 音乐 | 5.3资讯
作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!
公众号:智音Brook 2024-05-03 22:30 广东
原文https://mp.weixin.qq.com/s/l82TFOVFShCH8v654HhdGw
目录
Udio 推出新功能
musicgen-songstarter-v0.2:唱出你的想法
ComposerX:使用 LLMs 进行多智能体符号音乐创作
SemantiCodec:适合一般声音的超低比特率语义音频编解码器
stable-audio-2-demo:具有潜在扩散的长格式音乐生成
无限低音独奏制作
Openverse:免费探索超过 7 亿件创意作品
Udio 推出新功能
官网链接:https://www.udio.com
更新功能如下:
- 更多的上下文窗口:在使用扩展功能时,系统会考虑这段内容前后两分钟的信息,以保持上下文结构的一致性和流畅性。
- 音轨最大时长:现在可以将音轨延长至最多 15 分钟,此功能适合创作更长的混音、氛围音轨或前卫摇滚史诗。
- 树状音轨历史记录:系统推出基于树状结构的音轨历史记录功能,可以更有效地管理和理解音轨之间的关系,可在音轨下拉菜单或 “我的创作” 页面中查看。
- 更自由的音轨编辑:允许从生成的音轨的任一部分进行扩展,或删除掉不喜欢的部分。
fffiloni 大神发布了一个 HuggingChat 机器人,可向它询问 Udio 的常见问题,以了解如何生成一首好歌曲,点击下方链接尝试👇
链接:https://hf.co/chat/assistant/6617dd3f0115d06ce4ee4dec
musicgen-songstarter-v0.2:唱出你的想法
体验入口:https://huggingface.co/spaces/nateraw/singing-songstarter
colab:https://colab.research.google.com/github/nateraw/singing-songstarter/blob/main/singing_songstarter_demo.ipynb
代码:https://github.com/nateraw/singing-songstarter
该程序由 nateraw 使用 musicgen 模型微调得到的,作者提到,当 MusicGen 进行旋律调节时,它会对音频提示进行音轨分离以去除人声,所以移除掉这个步骤,就可以直接用人声进行提示了。
使用时,可上传本地音频或选择在线录制人声,输入 Prompt,调节相应参数进行音乐生成。
程序里作者添加了一个音调校正的功能,使用者即使五音不全也无需担心,音调校正刻度选项中,使用者如果不知道怎么调,“closest” 是不错的选择。音调校正功能的实现可查看下面链接👇音调校正:https://thewolfsound.com/how-to-auto-tune-your-voice-with-python/作者的微调过程可查看下面链接👇
链接:https://nateraw.com/posts/training_musicgen_songstarter.html
ComposerX:使用 LLMs 进行多智能体符号音乐创作
论文:https://arxiv.org/abs/2404.18081
代码:https://github.com/lllindsey0615/ComposerX
演示:https://lllindsey0615.github.io/ComposerX_demo/
ComposerX 是一个多代理符号音乐生成框架,利用大型语言模型(LLMs)的内在音乐能力来创作高质量的音乐作品,每个代理都被赋予特定的角色和任务,代理之间的交流遵循一个结构化的对话模式,以确保音乐作品的生成过程有序且高效。
该系统通过模拟真实世界的音乐创作过程,包括旋律构建、和声或对位发展以及配器等关键元素,实现了音乐作品的生成。用户可通过提供一组特定的音乐属性(如风格、节奏、调性、和声进行等)来创建提示,经过代理的解析、分配和评估,最后由编排代理将所有元素整合并输出为 ABC 符号表示法的音乐作品。
实验结果显示,多代理基线在单代理基线之上表现更好,能够生成更长的音乐作品,并且在图灵测试中,ComposerX 生成的音乐作品中有 32.2% 被认为与人类作品无法区分,在音乐创作方面已经展现出接近人类技能的能力。
SemantiCodec:适合一般声音的超低比特率语义音频编解码器
论文:https://arxiv.org/abs/2405.00233
演示:https://haoheliu.github.io/SemantiCodec/
SemantiCodec 是一种新颖的音频编解码器(codec),旨在将音频压缩成每秒少于一百个令牌(tokens),以支持包括语音、通用音频和音乐在内的多样化音频类型,同时不损失质量。
SemantiCodec 采用双编码器架构:语义编码器利用自监督 AudioMAE,在大量音频数据上使用 k 均值聚类进行离散化;声学编码器用于捕获剩余的声学细节。语义和声学编码器的输出通过基于扩散模型的解码器重建为音频。SemantiCodec 提供三种变体,令牌速率为每秒 25、50、100,在压缩和质量之间提供平衡。
实验结果表明,SemantiCodec 在重建质量方面明显优于最先进的 Descript 编解码器,在语义信息评估方面,SemantiCodec 在低比特率下仍然保持了较高的语义性能。
stable-audio-2-demo:具有潜在扩散的长格式音乐生成
论文:https://arxiv.org/abs/2404.10301
演示:https://stability-ai.github.io/stable-audio-2-demo/
Soundcloud:https://soundcloud.com/stable-audio/sets/stable-audio-2-playlist
Stable Audio 团队发布了 2.0 模型的研究论文及相关演示,该模型可以生成时长高达 4 分 45 秒的高保真音乐,与依赖于语义令牌来确保长期结构连贯性的模型不同,该模型可直接生成音乐,而无需额外的语义信息,模型支持可变长度的音乐生成,同时可以根据用户指定的时间窗口生成音乐。目前该模型相关代码暂未公开。
无限低音独奏制作
视频链接:https://youtu.be/2xMhRwxXJTc?si=VtRfkV8JZrEE1T41
视频展示了如何使用神经网络生成永无止境的低音贝斯独奏,并介绍了 Data Machine/Dadabots 团队对此的研究和实验。他们讨论了数据集的限制、训练神经网络的过程以及对未来可能的应用。
Openverse:免费探索超过 7 亿件创意作品
链接:https://openverse.org/
Openverse 提供了超过 7 亿张图片和音频文件的收藏,访问者可按创建者、来源和标签浏览图像和音频文件,并轻松找到想要查找的内容。
#参考资料
https://x.com/udiomusic/status/1785658654571602000
https://x.com/fffiloni/status/1778408300884754772
https://x.com/_nateraw/status/1781762090585199085
https://x.com/ArxivSound/status/1785158025034060075
https://x.com/LiuHaohe/status/1785961357633814661
https://x.com/ArxivSound/status/1780447069624221755
https://x.com/harmonai_org/status/1780403892700012553
https://x.com/dadabots/status/1785530630643519644
https://make.wordpress.org/openverse/2024/04/16/introducing-collection-views-for-tags-creators-and-sources/
我是尾巴
感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!
叮当不是机器猫
您的支持是我最大的动力
喜欢作者