跳转到内容

AI 音乐 | 3.21 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-03-21 19:30 广东

原文:https://mp.weixin.qq.com/s/yymyclimvGm_5E6-scvw4A

目录

Rightsify 推出 Hydra II 模型

文本条件音乐扩散模型的广义多源推理

用于同步音乐生成和分离的多源扩散模型

Notochord:用于实时 MIDI 性能的灵活概率模型

基于轻量级深度学习框架的音乐源分离

声音色彩空间 - 虚拟博物馆

Rightsify 推出 Hydra II 模型

链接:http://rightsify.com/hydra/

Rightsify 公司发布了 Hydra II,这是其第二个基于完全授权音乐训练的音乐生成人工智能。

Hydra II 保留了原始 Hydra 模型的 “文本到音乐” 功能和版权清除功能,并通过 Rightsify 庞大的音乐库和新的编辑工具套件提供了增强和创新的定制能力。

以下是 Hydra II 的主要特点:

  • 庞大的音乐数据集:Hydra II 的训练基于 Rightsify 拥有的 100 万 + 首歌曲和 50K+ 小时的音乐数据,确保生成的音乐作品具有高度的多样性和丰富性。
  • 多语言支持:Hydra II 支持 50+ 种语言,包括日语、西班牙语、印地语、斯瓦希里语、阿拉伯语、缅甸语等,让用户可以用自己的母语或其他语言进行音乐创作。
  • 广泛的乐器库:拥有 800+ 种乐器的选择,Hydra II 能够模拟各种全球乐器的声音,为用户提供丰富的音乐风格和表达。
  • 高级编辑功能:用户可以利用 Hydra II 的高级编辑功能,如调整速度、更改键、添加效果等,对生成的音频进行细致的调整,以达到专业级别的音乐作品。
  • 商业使用的自由:Hydra II 生成的音乐可以在全球范围内的任何商业项目中永久使用,没有任何限制。这意味着用户可以将其用于视频、背景音乐、电影提示、播客等多种商业用途,无需担心版权问题。

Hydra II 的推出,不仅为音乐爱好者和专业人士提供了一个强大的音乐创作工具,也为内容创作者、广告制作人和电影制作人等提供了无限的创意可能。通过这一平台,每个人都能够轻松地创作出专业级、无版权的音乐作品,从而提升他们的创作项目。

文本条件音乐扩散模型的广义多源推理

论文:https://arxiv.org/abs/2403.11706

GMSDI(Generalized Multi-Source Diffusion Inference)是一种新型的音乐生成和源分离方法,它通过结合文本条件的时间域扩散模型,实现了对音乐创作和声音源分离的高效控制。

GMSDI 利用文本嵌入作为条件,生成与文本描述相匹配的音乐源。这意味着用户可以通过自然语言提示来指导音乐的生成,从而创造出符合特定描述的音乐作品。

与传统的多源扩散模型(MSDM)不同,GMSDI 不需要预先分离的音乐数据。它直接在混合音频数据上进行训练,大大降低了数据准备的复杂性和成本。

GMSDI 能够参数化任意数量和类型的音乐源,为用户提供了极大的创作自由度。这使得它在音乐制作中具有广泛的应用潜力,如创作伴奏、进行源分离等。通过文本嵌入,GMSDI 允许对生成的音乐进行丰富的语义控制。用户可以通过描述性的文本提示来精细调整生成音乐的风格和内容。

实验结果表明,GMSDI 在生成和分离任务上都取得了竞争性的表现,尤其是在无需分离数据的情况下,它能够实现无监督的组合音乐生成。

用于同步音乐生成和分离的多源扩散模型

论文:https://arxiv.org/abs/2302.02257

演示:https://gladia-research-group.github.io/multi-source-diffusion-models/

代码:https://github.com/gladia-research-group/multi-source-diffusion-models

论文提出了一种新颖的多源扩散模型(MSDM),它的核心在于其能够同时处理音乐的合成和分析任务。在音乐创作中,这意味着它能够生成具有多个声源(如贝斯、鼓和吉他)的完整音乐作品,也能够从一首混合歌曲中分离出单独的乐器声部。这种双重能力为音乐家和音频工程师提供了前所未有的创作和编辑自由度。

MSDM 通过学习音乐源的联合概率分布来实现这一功能。与传统的单一任务模型不同,MSDM 能够捕捉不同乐器声源之间的相互依赖性,从而在生成和分离过程中保持音乐的一致性和协调性。

为了执行源分离任务,MSDM 引入了一种基于 Dirac delta 函数的新颖推理方法。这种方法利用了源与混合物之间的直接函数关系,从而在分离过程中提供了更高的准确性和效率。

在 Slakh2100 数据集上的实验结果证明了 MSDM 的有效性。在音乐生成方面,MSDM 能够生成与真实音乐作品相媲美的音乐,同时在源分离任务上,它展现出了与当前最先进模型相竞争的性能。

MSDM 的提出为音乐创作和音频处理开辟了新的可能性。它不仅能够提升音乐创作的效率,还有望在音频编辑和修复等领域发挥重要作用。

Notochord:用于实时 MIDI 性能的灵活概率模型

论文:https://arxiv.org/abs/2403.12000

代码:https://github.com/Intelligent-Instruments-Lab/iil-python-tools/tree/master/examples/notochord

Notochord 是由冰岛艺术大学智能乐器实验室开发的创新概率模型,这一模型专为实时 MIDI 表演而设计,旨在为音乐家和表演者提供一个能够即时响应并具有高度互动性的创作工具。

Notochord 以其卓越的低延迟性能,确保了音乐表演的连贯与互动。这一模型采用了一种灵活的事件表示方法,使得音乐创作者能够对每个音乐事件的细微组成部分(包括音高、节奏、力度和乐器选择)进行精确控制和调整。作为一款先进的自回归模型,Notochord 能够依据先前事件的概率分布,动态生成新的音乐创意。

Notochord 的应用范围广泛,它不仅能够生成丰富的多声部和多轨道 MIDI 音乐作品,还能在实时音乐创作和即兴演奏中发挥关键作用。该模型能够根据表演者的现场演奏,即时提供和谐的和声建议,从而提升音乐表演的层次感。此外,借助 Notochord 的概率评分机制,开发者可以构建创新的音乐界面,例如,根据模型预测的概率来选择音高,为音乐家提供全新的演奏体验。

Notochord 的代码、预训练模型和交互式示例已经开源,可通过 GitHub 访问。这些资源为音乐技术爱好者和研究人员提供了实验和探索的平台,鼓励社区成员共同推动音乐与人工智能的融合创新。

基于轻量级深度学习框架的音乐源分离

论文:https://arxiv.org/abs/2309.08684

DTTNet 是一个基于双路径模块和时频卷积时间分布全连接 UNet(TFC-TDF UNet)的轻量级深度学习框架。它旨在从混合音乐中提取出独立的音轨,如人声、鼓点、贝斯和其他乐器声音。DTTNet 在参数数量大幅减少的情况下,实现了与现有的 Bandsplit RNN(BSRNN)相当的分离效果,特别是在人声音轨上,达到了 10.12 dB 的 cSDR,相比 BSRNN 的 10.01 dB 有所提升。

DTTNet 的创新之处在于其结构设计,它整合并优化了 TFC-TDF UNet v3 的编码器和解码器,以及 BSRNN 的潜在双路径模块。这种设计减少了冗余参数,并通过改进的双路径模块(IDPM)减少了推理时间。IDPM 通过沿时间轴和频率轴处理输入通道,有效地降低了模型的复杂性。

DTTNet 不仅在标准的音乐源分离任务上表现出色,还展示了对复杂音频模式的出色泛化能力。研究人员通过在 MUSDB18-HQ 数据集上的训练,测试了模型对 Wah Guitar、Horns、Sirens、Up-filters 和 Vocal Chops 等复杂模式的处理能力。DTTNet 在这些模式上的表现证明了其在处理多样化音频场景时的潜力。

实验使用了 MUSDB18-HQ 数据集,该数据集包含 150 首歌曲,每首歌曲包含四个独立音轨。DTTNet 使用 AdamW 优化器和 L1 损失函数进行训练,并通过两个 A40 GPU 加速。评估指标包括源到失真比(SDR),其中块级 SDR(cSDR)和话语级 SDR(uSDR)用于衡量分离效果。

DTTNet 的开发团队计划在未来的工作中进一步提升框架的性能,特别是在处理 “鼓点” 和 “贝斯” 音轨上。此外,他们计划将零样本系统作为后处理模块集成到 DTTNet 中,以进一步提高模型的泛化能力。

声音色彩空间 - 虚拟博物馆

链接:https://2017.sound-colour-space.zhdk.ch/

该网站基于苏黎世艺术大学开发的媒体档案馆,将大约 600 个科学插图和图表的集合,以及相关的材料和发现,呈现在一个开放、动态的在线出版物中。这个虚拟博物馆被构想为一个人们与物体相遇并互动的地方,参观者可以访问图片收藏,比较和重新组合图片,阅读解释,与音频视觉应用程序互动,或跟随导览参观。

无论你是对声音和视觉的关系感兴趣,还是希望从历史和科学的角度探索艺术和感知的交叉点,这个虚拟博物馆都能为你提供独特的视角和深刻的洞见。

参考资料

https://www.digitalmusicnews.com/2024/03/20/rightsify-releases-hydra-ii/

https://x.com/hydrarightsify/status/1770435613378146632?s=20

https://x.com/digitalmusicnws/status/1770586189168259293?s=20

https://x.com/ArxivSound/status/1769937818812325962?s=20

https://x.com/ArxivSound/status/1769937783097905270?s=20

https://x.com/ArxivSound/status/1769937804144824621?s=20

https://x.com/ArxivSound/status/1770300439386292421?s=20

https://x.com/teropa/status/1770336481808134236?s=20

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者