AI 音乐 | 3.19 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-03-19 19:02 广东

原文：https://mp.weixin.qq.com/s/KPqTwrki7OSVp3auKSle6w

MusicHiFi：快速高保真立体声声码

SpaIn-Net：空间信息音乐源分离

歌声的自动音高校正

《滚石》杂志：Suno AI 的独家报道

LM2D：歌词和音乐驱动的舞蹈合成

Prompt-Singer：具有自然语言提示的可控歌唱-语音-合成

MusicHiFi：快速高保真立体声声码

演示：https://musichifi.github.io/web/论文：https://arxiv.org/abs/2403.10493

传统的音频和音乐生成模型通常通过构建音频的图像表示（例如，梅尔频谱图）然后使用相位重建模型或语音编码器将其转换为音频。这些模型通常生成较低分辨率的单声道音频（例如，16-24 kHz），限制了它们的效果。MusicHiFi 是一种基于生成对抗网络（GAN）的高效立体声音频生成模型，旨在提高音频和音乐生成的质量。

MusicHiFi 包括三个阶段：使用语音编码器（MusicHiFi-V）将低分辨率单声道梅尔频谱图转换为相同分辨率的波形，通过带宽扩展模块（MusicHiFi-BWE）将低分辨率波形转换为高分辨率波形，最后通过单声道到立体声模块（MusicHiFi-M2S）将单声道高分辨率波形上混为立体声音频。每个阶段都使用相同的生成器架构、鉴别器架构、训练目标和模型大小。

在研究中使用 1800 小时的授权器乐音乐数据集进行模型训练。为了全面评估其性能，文中将 MusicHiFi 与 BigVGAN、HiFi-GAN 以及 Aero 等方法进行了细致的比较。评估过程涵盖了一系列客观指标，例如 ViSQOL、Mel-D、STFT-D 和 SI-SDR，以及通过主观听力测试来衡量音质。结果显示，MusicHiFi 在保持快速推理速度的同时，提供了与现有技术相当或更好的音频质量。

SpaIn-Net：空间信息音乐源分离

论文：https://minjekim.com/wp-content/uploads/icassp2022_dpetermann.pdf

代码：https://github.com/darius522/spain-net

演示：https://minjekim.com/research-projects/spain-net/

音乐源分离（MSS）是一个活跃的研究领域，近年来深度学习方法取得了显著进展。文中提出了一种名为 SpaIn-Net 的空间信息条件化机制，该机制通过将立体声源的空间位置信息（以泛音角度表示）融合到深度神经网络（DNN）中，实现了对音乐源分离的增强。

文中探索了多种条件化策略，包括直接使用原始角度值和基于角度的派生特征表示，证明了空间信息在提升 MSS 性能方面的有效性。为了有效地整合立体声音频信号与源的空间信息，我们采用了位置编码技术，这一方法在处理多模态数据时表现出了极高的灵活性和有效性。

文中利用包含 2100 首歌曲和 34 种乐器类别的 Slakh 数据集，设计了一系列实验来评估所提方法的有效性，这些实验涵盖了从简单到复杂的多种乐器源分离任务。实验结果显示，与现有技术相比，该方法在信号失真比（SDR）、源干扰比（SIR）、源伪影比（SAR）以及源图像到空间失真比（ISR）等多个评价指标上均实现了显著提升。特别是在处理包含两个吉他源的混合时，该方法展现出了更为显著的性能优势。

歌声的自动音高校正

论文：https://minjekim.com/wp-content/uploads/icassp2020_swager.pdf

代码：https://github.com/sannawag/data_driven_pitch_corrector

演示：https://minjekim.com/research-projects/deep-autotuner/

自动音高校正对于数字录音中的歌唱表现是一个常见需求。现有的商业软件通常依赖于同步乐谱来进行目标音高的校正，但这种方法在没有乐谱的情况下效果不佳。文中提到的 Deep Autotuner 则是通过学习歌声与伴奏之间的和声对齐来预测音高校正，而不是简单地将音符移动到用户定义的乐谱中的音高上。这种方法尊重了歌唱表演中的细微变化，同时积极估计无意的音高偏移量。

在训练上，使用了由 Smule, Inc 提供的 4702 个业余卡拉 OK 表演的音频数据集，这些表演被认为音准良好。训练数据包括音高不正确和有意的音高变化，模型学习从这些数据中进行校正和保留。

在结构上，Deep Autotuner 采用卷积神经网络（CNN）和门控循环单元（GRU）的组合。CNN 用于提取频谱特征，GRU 用于处理时序模式，最终通过一个密集层预测每个音符的音高偏移量。

在合成数据集上，模型在训练、验证和测试数据上的均方误差（MSE）分别为 0.049、0.062 和 0.077，对应于 22、25 和 28 音分。主观听觉测试表明，当原始演唱略有走音但不是太远时，听众更倾向于选择经过 Deep Autotuner 处理的版本。

作者还提到，未来将计划开发一个更先进的模型，能够直接预测（a）不依赖于估计的音符边界的校正（b）直接预测音高偏移后的信号（c）在更多数据可用时，对各种真实世界的演唱风格和不同音乐流派更鲁棒的校正。

《滚石》杂志：Suno AI 的独家报道

原文：https://www.rollingstone.com/music/music-features/suno-ai-chatgpt-for-music-1234982307/

在过去的一年中，生成性人工智能在创造可信的文本、图像（借助 Midjourney 等平台）乃至视频领域取得了显著的飞跃，尤其是借助 OpenAI 最新推出的 Sora 工具。然而，在音频领域，尤其是音乐创作方面，进展相对缓慢。Suno 似乎正在突破 AI 音乐的界限，其创始人的雄心几乎是无限的——他们想象一个音乐制作极度民主化的世界。

在文章中，创始人提到，Suno AI 在技术上采取了与大型语言模型（如 ChatGPT）相似的方法，将人类语言分解为称为 “tokens” 的离散片段。这些 tokens 代表了语言的基本构建块，Suno 的系统通过吸收大量的用法、风格和结构数据，然后根据需求重建语言。尽管 Suno 采用了与处理文本类似的技术，但音频特别是音乐的复杂性远远超出了语言处理的范畴。音频是一个连续的信号，不像文字那样离散，这使得音乐生成成为一个难以捉摸的任务。

高质量音频的采样率通常是 44kHz 或 48kHz，这意味着每秒需要处理 48,000 个音频样本点。这种高采样率带来了巨大的数据处理挑战，Suno 需要找到方法将这些连续的音频信号 “压缩” 成更合理的格式。

创始人希望 Suno 最终能够超越基于文本的音乐生成界面，引入更高级和直观的输入方式。例如，他们考虑基于用户自己的演唱来生成歌曲，这将是一个更自然和直观的音乐创作方法。

创始人 Shulman 并没有透露关于 Suno AI 的训练数据细节，只是说除了音乐方面的训练，还涉及到一些语音录音，以此让模型学习和捕捉人类声音的难以捉摸的特征。

在相关版权上，创始人表示尊重艺术家和知识产权——在 Suno AI 中不会允许你在提示中请求任何特定艺术家的风格，也不会使用真实艺术家的声音。

LM2D：歌词和音乐驱动的舞蹈合成

链接：https://youtu.be/4XCgvYookvA?si=0433rl4ifScQSf30

论文：https://arxiv.org/abs/2403.09407

舞蹈是一种复杂的艺术表达形式，它结合了身体动作和音乐节奏，有时还受到歌词内容的影响。传统的舞蹈合成技术主要依赖音频信号来模拟动作，往往忽视了歌词在舞蹈创作中的关键作用。文中提出了 LM2D，这是一种新颖的概率模型，能够综合考虑音乐与歌词因素，生成与之协调的舞蹈动作。同时，研究者们还首次创建了一个包含音乐和歌词信息的三维舞蹈动作数据集。

LM2D 利用多模态神经网络，根据音乐和歌词特征生成连贯的人体姿态序列。该模型基于连续时间扩散模型，并采用一致性蒸馏技术，实现了一步到位的舞蹈生成。采用姿态估计技术，从 Just Dance 视频游戏中提取了 3D 人体运动数据，建立了一个新的多模态数据集，该数据集融合了舞蹈动作、音乐和歌词。

通过客观的性能指标和由舞者及编舞专家进行的主观评估，验证了模型的有效性。研究还引入了新的量化方法来评估动作与歌词的匹配程度。结果表明，LM2D 能够生成既真实又与歌词和音乐协调的舞蹈动作。尽管一致性蒸馏技术提升了生成速度，但在某些情况下可能会牺牲一些生成质量。

Prompt-Singer：具有自然语言提示的可控歌唱-语音-合成

论文：https://arxiv.org/abs/2403.11780

演示：https://prompt-singer.github.io/

Prompt-Singer 是由浙江大学的研究团队开发的一种创新的歌声合成系统，它代表了歌声合成技术（Singing Voice Synthesis, SVS）领域的一个重大突破。该系统不仅能够生成高质量的歌声，还能够通过自然语言提示来控制合成歌声的各种风格属性，包括歌手的性别、音域和音量。这种能力使得 Prompt-Singer 在音乐创作和娱乐产业中具有广泛的应用潜力。

Prompt-Singer 允许用户通过简单的文本提示来指导合成过程，例如指定歌手的性别或希望的歌声音量。这种直观的交互方式大大降低了非专业用户使用歌声合成技术的门槛。为了解决歌声合成中的音域控制问题，Prompt-Singer 采用了一种新颖的音高表示方法，将音域信息与旋律信息分离。这种设计使得系统能够在保持旋律准确性的同时，根据文本提示调整歌声的音域。面对高质量歌声数据稀缺的挑战，Prompt-Singer 则是通过引入语音数据来丰富训练集，从而提高了模型在低资源情况下的性能。

实验表明，Prompt-Singer 在控制歌声属性方面表现出色，能够在保持音频质量和旋律准确性的同时，实现对歌手性别、音域和音量的有效控制。此外，通过与真实歌声和现有不可控 SVS 模型的比较，Prompt-Singer 在音频质量和风格控制准确性方面均展现出竞争力。

参考资料

https://x.com/ArxivSound/status/1769575390215848063?s=20

https://x.com/__gzhu__/status/1769543547601199282?s=20

https://twitter.com/RollingStone/status/1769350589002006856

https://x.com/ArxivSound/status/1768488241953378605?s=20

https://x.com/ArxivSound/status/1769937811476529164?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者

AI 音乐 | 3.19 资讯

目录

MusicHiFi：快速高保真立体声声码

SpaIn-Net：空间信息音乐源分离

歌声的自动音高校正

《滚石》杂志：Suno AI 的独家报道

LM2D：歌词和音乐驱动的舞蹈合成

Prompt-Singer：具有自然语言提示的可控歌唱-语音-合成

MusicHiFi：快速高保真立体声声码

SpaIn-Net：空间信息音乐源分离

歌声的自动音高校正

《滚石》杂志：Suno AI 的独家报道

LM2D：歌词和音乐驱动的舞蹈合成

Prompt-Singer：具有自然语言提示的可控歌唱-语音-合成