AI音乐 | 2.18资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-02-18 22:30 广东

原文https://mp.weixin.qq.com/s/m6stdYOlt2g2OyNUKZu7oQ

全新升级的音乐人工智能工具数据库：超过 130 种工具、模型和数据集

预期音乐变压器：一种可控的音乐填充模型

通过潜在扩散生成低音伴奏

AudioSeal：主动本地化水印

探索音乐人工智能的革命性发展

全新AI音乐工具数据库：超过 130 种工具、模型和数据集

原文链接：https://www.waterandmusic.com/music-ai-database-revamp-2024/

在经历了 20 个月的快速发展后，我们荣幸地宣布全面更新我们的音乐 AI 工具数据库。无论您是寻求市场研究的创业者、寻找增强创造力工具的艺术家，还是需要为您的客户寻找增值工具的艺术团队成员，我们的数据库都能为您提供帮助。

自 2022 年 5 月首次发布以来，我们数据库中的工具数量已经翻了四倍多。几乎每个大型科技公司、音乐流媒体服务和主要版权持有者现在都参与其中。仅去年一年，就有超过十二种新的音乐生成模型进入市场，最值得注意的包括 Google 的 Lyria 和 Meta 的 AudioCraft，以及音乐 AI 初创公司和版权巨头之间的大量合作（及诉讼）。

为了适应这一飞速发展的趋势，我们对数据库进行了全新设计，不仅追踪技术规格，还增加了市场影响的跟踪。我们希望更多的贡献者和公司参与进来，确保我们对音乐 AI 市场的呈现尽可能准确和全面。

感谢所有提供用户数据支持本次重新发布的公司，包括 Endel, Moises, Beatoven.ai 等。我们期待您的参与和贡献，共同推进音乐 AI 领域的发展。

预期音乐变压器：一种可控的音乐填充模型

项目演示：https://crfm.stanford.edu/2023/06/16/anticipatory-music-transformer.html

预见性音乐变换器是一种可控的生成模型，旨在通过控制生成模型来构建时间点过程（例如，音乐事件序列），允许异步地根据第二个相关过程（控制过程）来条件化生成。这一方法通过在事件序列中的停止时间后插入控制信息来实现，主要应用于符号音乐生成的控制问题上，特别是填充控制任务，其中控制作为事件的子集，并且条件生成在给定固定控制事件的情况下完成事件序列。

该模型通过 " 预期 " 机制，能够在考虑未来控制信息的情况下生成音乐，特别适用于音乐填充和伴奏生成任务。使用了庞大且多样化的 Lakh MIDI 音乐数据集来训练这些预期填充模型，该数据集包含了大量的 MIDI 文件，为模型提供了丰富的训练材料。

通过自动评价指标和人类评价对模型进行了评估。实验结果显示，预期模型在音乐生成任务上能够达到与自回归模型相匹敌的性能，同时还能执行填充控制任务，如伴奏生成，且生成的伴奏在音乐性上与人类作曲相近。

通过潜在扩散生成低音伴奏

论文：https://arxiv.org/abs/2402.01412

演示：https://sonycslparis.github.io/bass_accompaniment_demo/

论文介绍了一种名为 " 音乐伴奏生成的潜在扩散模型 "，专注于条件贝斯线生成。研究团队使用内部数据集，包含 20k 首歌曲及其分离的音轨，其中包括贝斯吉他。1500 首曲目被用作测试集。音频自编码器首先在 MTG-Jamendo 数据集上进行训练以编码输入混音，而用于编码贝斯样本的自编码器则在内部数据集上进行训练。潜在扩散模型同样基于这一数据集上的（混音-贝斯音轨）对进行训练。

实验验证了该系统生成的伴奏能够与输入混音音乐上相匹配。为了评估系统的性能，研究团队训练了一个对比模型，对匹配的（混音-贝斯音轨）对给出高分，对不匹配的给出低分。此外，还评估了所提出的风格固定技术，使用一个现成的音频分类模型提取风格固定与非固定生成样本的嵌入，并通过余弦距离和欧几里得距离进行比较。

研究结果表明，提出的系统能够根据用户提供的音色生成与输入混音匹配的贝斯线。这项工作提出了高效的音频自编码器设计、潜在扩散模型的适应性以及特定于潜在空间的风格固定技术，旨在控制生成样本的音色，为音乐艺术家提供了强大的创作工具，增强了创意工作流程。

AudioSeal：主动本地化水印

论文：https://arxiv.org/abs/2401.17264

代码：https://github.com/facebookresearch/audioseal

AudioSeal 是一种针对 AI 生成语音的本地化水印技术，旨在检测和定位音频中的 AI 生成内容。该方法通过同时训练生成器和检测器两个网络来实现，能够在音频样本级别嵌入并检测不可感知的水印。AudioSeal 具有对真实生活中音频操作的强大鲁棒性，基于自动和人工评估指标实现了难以察觉的水印嵌入，并通过快速单次检测过程大幅度提升了现有模型的速度，达到了实时和大规模应用的需求。

AudioSeal 的训练基于 VoxPopuli 数据集的 4.5K 小时子集，使用 16kHz 的采样率处理一秒钟的音频样本。它引入了一个新颖的感知损失，通过巧妙的训练增强来最小化原始音频和水印音频之间的感知差异，同时最大化水印的检测准确性。通过这些技术，AudioSeal 实现了在各种音频编辑技术下的最先进的鲁棒性，极高的定位精度，并且比依赖同步的方法快几个数量级。

此外，AudioSeal 还对潜在的对抗性水印移除攻击进行了实证分析，得出结论为了保持水印作为有效的缓解措施，检测器的权重需要保密。AudioSeal 不仅技术先进，而且实用性强，为语音合成 APIs 中的水印提供了即时可部署的解决方案，对于社交媒体上的大规模内容溯源和检测，如 US 选民的深度伪造案例，提供了快速响应的能力。

探索音乐人工智能的革命性发展

视频链接：https://youtu.be/oV3SsOF1EIs

#参考资料

https://x.com/water_and_music/status/1757536985965592846?s=20

https://x.com/jwthickstun/status/1742201925989179842?s=20

https://x.com/deeplearnmusic/status/1754514269167665520?s=20

https://x.com/honualx/status/1756983428694655455?s=20

https://x.com/amli_art/status/1742725211760337400?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者