AI 音乐 | 3.14 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-03-14 22:02 广东

原文：https://mp.weixin.qq.com/s/6yIF3TQ3CTcuyZt-AKd2ew

字节跳动在美国锁定 AI 音乐专利，推进 AI 音乐模型研发

StoRM：用于语音增强和去发声的随机再生模型

音乐结构的 AI 建模：从符号到深度学习的探索

视频同步的文本到音频生成技术突破

字节跳动在美国锁定 AI 音乐专利，推进 AI 音乐模型研发

在过去数年里，MBW (Music Business Worldwide) 对 TikTok 及其母公司字节跳动在人工智能音乐创作和机器学习领域的深入探索进行了广泛报道。

2022 年 8 月，MBW 率先披露了 TikTok 与字节跳动正在积极招募机器学习和人工智能音乐创作领域的顶尖专家，这一招聘行动在美国和中国市场同步展开，且目前仍在进行中。

这一招聘热潮是在 2019 年 7 月字节跳动收购了英国的 AI 音乐创新企业 Jukedeck 之后启动的，Jukedeck 专注于打造无需支付版权费用的音乐作品。

在这段时间里，字节跳动还推出了 Mawf，这是一款依托于机器学习技术的音乐创作应用，以及 Ripple——一款能够将简单哼唱转化为完整歌曲的 AI 音乐制作工具。

最近，TikTok 正在测试一项创新的 AI 歌曲功能，该功能借助先进的大型语言模型来激发歌词创作的灵感。

如今，MBW 挖掘出了两篇最新的研究论文，这些论文揭示了字节跳动在 AI 音乐制作领域的宏伟愿景，其雄心壮志远超我们之前的所见所闻。

此外，MBW 还关注到了字节跳动在美国提交的两项专利申请，这两项申请的成功不仅为公司未来的 AI 音乐项目提供了知识产权的坚实保障，也标志着其在音乐科技创新道路上又迈出了坚实的一步。

StemGen：一个会“听”的音乐生成模型

演示：https://julian-parker.github.io/stemgen/#stemgen-a-music-generation-model-that-listens

论文：https://arxiv.org/abs/2312.08723

2023 年 12 月，字节跳动的 SAMI（Speech, Audio & Music Intelligence）团队提交了一篇名为 StemGen: A music generation model that listens 的研究论文，即一种茎干生成器。

根据该项目演示页面的描述，StemGen 是一个 “端到端音乐生成模型，训练用于听取音乐上下文并做出适当响应”。

研究论文解释说，StemGen 是在 Slakh 数据集上训练的，该数据集由 145 小时的合成音乐音频组成，这些音频被分成了不同的茎干。

StemGen 还在字节跳动研究人员称为 500 小时的内部授权音乐数据集上进行了训练。

根据研究论文的摘要：“使用深度学习技术进行端到端的音乐音频生成最近活动爆炸式增长”。

它补充说：“然而，大多数模型集中于根据抽象的条件信息生成完全混合的音乐。在这项工作中，我们提出了一个替代性范式，用于生产能够聆听并响应音乐上下文的音乐生成模型。”

“我们描述了如何使用非自回归的、基于变换器的模型架构来构建这样的模型，并提出了许多新颖的架构和采样改进。”

字节跳动的研究人员声称：“所产生的模型达到了与最先进的文本条件模型相同的音频质量，同时展现出与其上下文的强大音乐连贯性”。

“高效神经音乐生成”

演示：https://efficient-melody.github.io/#

论文：https://www.musicbusinessworldwide.com/files/2024/03/Efficient-Neural-Music-Generation.pdf

在另一篇于 2023 年 5 月提交审查的研究论文中，字节跳动的 SAMI 团队描述了其所称的 “高效神经音乐生成” 工作。

在这篇论文中，字节跳动的研究人员介绍了一个名为 MeLoDy（M 代表音乐；L 代表 LM；D 代表扩散）的模型，被描述为 “一个由 LM 引导的扩散模型，能生成具有最先进质量的音乐音频”。

研究人员写道：“我们的实验结果表明 MeLoDy 的优越性（如 Google 的 MusicLM），不仅在于其在采样速度上的实际优势和无限续生成能力，还在于其在音乐性、音频质量和文本相关性上的最先进表现。”

根据研究论文，MeLoDy 是在 257,000 小时的音乐数据上训练的，研究人员说这些数据被过滤，以侧重于非人声音乐。

该模型支持使用音乐和文本提示进行音乐生成。

专利 1：“一种由计算机实现的音乐作品生成方法”

文件：https://www.musicbusinessworldwide.com/files/2024/03/Bytedance-filing.pdf

除了字节跳动在人工智能音乐相关研究论文方面的工作外，该公司在过去几个月中还在该领域申请了专利。

字节跳动在美国被授予的最新的音乐相关专利是关于一种 “生成音乐数据的方法” 的发明。

根据这份文件，字节跳动的发明涉及到 “一种计算机实现的生成一段音乐的方法”。

这项专利似乎专注于生成一段音乐不同部分的实际结构。如 MBW 读者所知，当代歌曲创作中的歌曲结构是一个关键因素，可以影响一首歌是否能成为热门。

“结构是人类创作音乐的一个关键方面，它在给予一段音乐整体的连贯性和意图性中起着至关重要的作用。”

字节跳动的专利申请文件解释说，“在专利申请中披露的实施例提供了一种在机器生成的音乐中引入长期结构的方式”。

文件继续说明：“结构在一段音乐中表现为一系列的音乐模式，这些模式的变化、字面上或动机上的重复以及早先在同一音乐作品中出现的音乐部分的转换。”

作为发明主张的一部分详细描述的方法包括一个基于机器学习（ML）的结构生成器和一个基于机器学习（ML）的旋律生成器。

有趣的是，这项专利似乎之前被分配给了英国的 Jukedeck，这是一家由字节跳动在 2019 年收购的英国 AI 公司。

该专利的发明人包括 Jukedeck 创始人 Ed Newton Rex 和前 Jukedeck 研究员 Gabriele Medeot，后者现在是 TikTok 的高级机器学习研究员。

字节跳动于 2019 年 2 月在美国申请了这项专利，并于今年 1 月 30 日被授予。

专利2：“模块化自动化音乐制作服务器”

文件：https://www.musicbusinessworldwide.com/files/2024/03/Bytedance-music-production-studio-1.pdf

另一个专利是 “模块化自动音乐制作服务器”，这似乎是由 Jukedeck 开发并之前被分配的。

根据文件：“基于人工智能（AI）的自动音乐制作是一个新兴技术，具有显著的潜力。已经对训练 AI 系统，如神经网络，基于有限的输入参数来创作原创音乐进行了研究。

“虽然这是一个令人兴奋的研究领域，但到目前为止开发的许多方法存在灵活性和音乐输出质量的问题，这反过来限制了它们在实际环境中的用途。”

它补充说：“这项披露的一个目的是提供一个具有改进界面的自动音乐制作系统，允许与系统的灵活且复杂的互动。这开启了新的和令人兴奋的用例，系统可以作为音乐家、制作人等的创意工具，以适应他们的个人需求和偏好。”

这个自动音乐制作系统在文件中被字节跳动描述为 “Jukedeck 系统”，它 “使用 AI 来创作和 / 或制作原创音乐”。

字节跳动在美国的专利申请于 2023 年 3 月被授予。根据谷歌专利，字节跳动还在日本和中国拥有这项发明的活跃专利。

根据文件，这项技术 “基于高级音乐理论，并以新颖的方式结合神经网络来创作和制作独特的、专业质量的音乐，仅需几秒钟。”

字节跳动在人工智能音乐领域的显著工作的消息出现在环球音乐集团与其旗舰应用 TikTok 公开决裂的背景下。

3 月 1 日，环球音乐出版的大约 400 万首歌曲目录在 TikTok 上变为未授权使用，加入了环球音乐集团大约 300 万首录音的目录，其在 TikTok 上的许可证于 2 月 1 日到期（到目前为止未续约）。

在 2 月 29 日发给 UMPG 歌曲作者的一份声明中，该公司将很大一部分注意力转向了 TikTok 上人工智能生成音频所扮演的角色。

UMPG 声称，到目前为止，TikTok 尚未向环球提供任何保证，表明平台不会在其 AI 模型上训练环球的歌曲。

此外，UMPG 还提出了 TikTok 可能使用 AI 音乐来降低平台上受版权保护 / 许可音乐的市场份额（因此是收入潜力）的可能性。

MBW 一直在讨论 TikTok 和其他服务可能会用 AI 制作的音乐填充他们的目录——稀释传统权利持有者的市场份额的假设潜力。

去年 2 月，MBW 发表了一篇文章，问 TikTok 是否可以在这方面对音乐行业进行一次 “抢劫”，在其积极投资生成式 AI 技术之后。

文章：https://www.musicbusinessworldwide.com/is-tiktok-about-to-pull-off-a-heist-on-the-music-industry/

这里所指的 “抢劫” 是：使用许可音乐作为 TikTok 全球超过十亿用户崛起的基石，然后使用第一方、AI 创造的歌曲在平台上挤出传统音乐权利持有者拥有的音乐。

文章中写道：“音乐在 TikTok 的崛起中扮演了如此关键的角色，如果主要唱片公司的内容确实从平台上消失了——并且这一空缺以某种方式成功地被独立和 AI 驱动的创作填补了——可以说，TikTok 完成了音乐行业历史上最大的一次抢劫。对十亿用户的诱骗和转换。”

StoRM：用于语音增强和去发声的随机再生模型

代码：https://github.com/sp-uhh/storm

演示：https://www.inf.uni-hamburg.de/en/inst/ab/sp/publications/storm

论文：https://arxiv.org/abs/2212.11851

StoRM（Stochastic Regeneration Model）是一种创新的语音处理技术，专为提升语音质量和消除回声而设计。这项技术结合了预测模型和基于扩散的生成模型的优势，以生成更清晰、更自然的语音输出。

在现实世界的应用中，语音信号常常会受到各种噪声源的干扰，如背景噪声、房间声学效应以及其他环境因素。这些干扰会导致语音质量下降，影响通信的清晰度和可理解性。为了解决这一问题，研究者们开发了 StoRM，旨在从受损的语音信号中恢复出干净的语音。

StoRM 的核心在于其随机再生方法，它首先使用预测模型对受损语音进行初步估计，然后利用这一估计结果指导扩散模型进行进一步的处理。这种方法的优势在于，它能够利用预测模型的准确性来减少生成模型可能引入的不必要伪影，如发声和呼吸声，从而在恶劣的录音条件下也能产生高质量的语音样本。

此外，StoRM 还通过减少逆向扩散步骤的数量和避免使用复杂的修正器，显著降低了计算负担。这使得 StoRM 不仅在理论上具有先进性，而且在实际应用中也具有高效性和实用性。

在实验中，StoRM 在多个标准数据集上的表现均超过了现有的预测性和生成性语音增强方法，显示出其在语音质量、可理解性以及干扰消除方面的卓越性能。源代码和音频示例的公开可用性，也为研究人员和开发者进一步探索和应用 StoRM 提供了便利。

总的来说，StoRM 代表了语音增强技术的一个重大进步，它通过巧妙地结合预测和生成方法，为在各种噪声环境下恢复高质量语音提供了一种有效的解决方案。

音乐结构的 AI 建模：从符号到深度学习的探索

论文：https://arxiv.org/abs/2403.07995

音乐不仅仅是一系列音符的组合，它是一种艺术形式，通过结构化的组织来传达情感和故事。在人工智能领域，音乐结构建模是一个挑战性的任务，它要求 AI 系统不仅能生成旋律和节奏，还要能理解和创造具有连贯性和表现力的音乐作品。

早期的计算机化音乐生成主要依赖于符号方法，这些方法通常涉及对音乐规则的显式编码和使用。例如，约束编程技术可以生成符合特定结构约束的马尔可夫序列，而强化学习则通过模仿和即兴创作来捕捉音乐风格。

随着深度学习技术的发展，音乐生成领域迎来了新的可能性。基础的深度学习技术，如 Lookback RNN 和 Attention RNN，通过学习音乐数据中的模式来生成具有长期依赖性的旋律。更先进的变革性方法，如 Music Transformer 和 Long-Short Term Universal Transformer，利用注意力机制和循环结构来捕捉音乐中的复杂关系和长期依赖。

最新的研究趋势是采用子任务分解方法，将音乐生成分解为两个阶段：首先是高级结构规划，然后是内容创建。这种方法允许 AI 系统首先确定音乐作品的整体结构，然后生成符合这一结构的具体音符和旋律。这种方法的关键在于结合音乐知识和神经符号方法，通过提取和利用旋律骨架或结构模板来引导生成过程。这样做能在保持音乐连贯性的同时，填充具体的音乐内容。

文章最后还展望了未来的研究方向，包括探索更细致的结构编码、掌握高级作曲技巧，以及在音乐生成中整合神经符号方法。这些方向旨在推动 AI 音乐生成技术的发展，以实现更接近人类作曲家风格的音乐创作。

视频同步的文本到音频生成技术突破

论文：https://arxiv.org/abs/2403.07938

在数字媒体和人工智能领域，一项名为 T2AV 的创新技术正在引领文本到音频（TTA）生成的新潮流。这项由 Shentong Mo、Jing Shi 和 Yapeng Tian 共同研发的技术，成功解决了长期以来在视频内容中生成与视觉同步的音频的挑战。

传统的 TTA 方法虽然能够根据文本描述生成音频，但往往难以实现音频与视频画面的无缝同步，导致视听不匹配的问题。T2AV 技术通过引入 T2AV-BENCH 基准测试，不仅提高了音频的质量，还确保了音频与视频在视觉上的一致性和时间上的同步性。

T2AV 模型的核心在于其独特的潜在扩散方法，该方法通过整合视觉对齐的文本嵌入作为条件基础，利用时间多头注意力变换器深入理解视频数据中的时间细节。此外，Audio-Visual ControlNet 的引入，使得模型能够将时间视觉表示与文本嵌入巧妙融合，进一步提升了音频生成的质量。

T2AV 的对比学习目标确保了视觉对齐的文本嵌入与音频特征的高度一致性。在 AudioCaps 和 T2AV-BENCH 基准测试上的广泛评估表明，T2AV 在确保视觉对齐和时间一致性方面设定了新的标准，显著优于以往的基线方法。

这项技术的提出，不仅为视频内容创作者提供了强大的工具，也为未来的多媒体交互和虚拟现实应用开辟了新的可能性。T2AV 的成功，标志着我们在创建富有表现力且与视觉内容完美同步的音频方面迈出了重要的一步。

参考资料

https://www.musicbusinessworldwide.com/tiktoks-parent-bytedance-has-locked-down-ai-music-patents-in-the-us-while-its-researchers-develop-a-model-trained-on-257000-hours-of-songs/

https://x.com/music_zone/status/1767955625709875368?s=20

https://x.com/ArxivSound/status/1767763589387915427?s=20

https://x.com/ArxivSound/status/1768125900057456643?s=20

https://x.com/ArxivSound/status/1768125902288793690?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者