AI 音乐 | 2.26 资讯

作者：叮当不是机器猫｜分享AI音乐动态，探索AI与音乐的无限可能！

公众号：智音Brook 2024-02-26 16:00 广东

原文：https://mp.weixin.qq.com/s/MNqxjDvzMLZOZJoYDmCzEw

FoleyGen：视觉引导音频生成

具有不可微分规则引导扩散的符号音乐生成

FIGARO：通过精细的艺术控制生成象征性音乐

资源受限的立体声歌声消除

物理驱动的扩散模型来产生撞击声

世界上第一个自然语言音乐搜索引擎

FoleyGen：视觉引导音频生成

演示：https://xinhaomei.github.io/foleygen_demo/

论文：https://arxiv.org/abs/2309.10537

FoleyGen 展示了一个基于视觉引导的音频生成模型，通过结合先进的神经音频编解码技术和 Transformer 模型，实现了从视频到音频的高效转换。利用视觉编码器提取的特征，该模型能够生成与视频内容紧密相关的音频令牌，有效解决了音视频不同步的问题。通过在 VGGSound 数据集上的测试，FoleyGen 证明了其在音频生成质量和同步性方面的优越性，为视频到音频的转换技术提供了一种新的解决方案。

具有不可微分规则引导扩散的符号音乐生成

演示：https://scg-rule-guided-music.github.io/

论文：https://arxiv.org/abs/2402.14285

代码：https://github.com/yjhuangcd/rule-guided-music

这里提出了一款革新的符号音乐生成器，它采用一种独特的不可微分规则引导的扩散模型，使音乐家们能够高效地使用它作为作曲工具。

相较于传统的强基线，该框架在音乐的质量和基于规则的可控性上都展示了明显的提升。请参考上面示例，展示了音乐家如何即兴创作出带有稀疏音符的生成片段以及符合 C 大调的 I-V 和弦进程。

为了加强人类作曲家与生成模型之间的互动，遵循特定的音乐规则（比如和弦进程）是至关重要的。许多此类规则本质上是不可微分的，这为它们在引导扩散过程中的应用提出了挑战。

这里引入了随机控制引导——一种创新的引导方法。它仅需对规则函数进行前向评估，能够与预训练的扩散模型即插即用地协同工作，实现了对不可微分规则的无需训练的引导。

此外，还开发了一种新颖的潜在扩散架构，专门用于生成具有高时间分辨率的符号音乐，能够创造出具有丰富动态范围的高质量音乐。

FIGARO：通过精细的艺术控制生成象征性音乐

论文：https://arxiv.org/abs/2201.10936

FIGARO 是一个基于 Transformer 的条件模型，旨在基于一系列高级控制代码生成符号音乐。它通过描述到序列学习方法，自动提取细粒度的、人类可解释的特征（即描述），并训练一个序列到序列模型，仅基于输入的描述重构原始序列。FIGARO 在多轨符号音乐生成方面实现了最先进的性能，无论是在风格转换还是样本质量方面。通过结合人类可解释的特征和学习到的特征，进一步提高了性能。广泛的实验评估显示，FIGARO 能够生成与输入描述紧密相符的样本，即使这些描述与训练分布有显著偏差。

资源受限的立体声歌声消除

论文：https://arxiv.org/abs/2401.12068

链接：https://machinelearning.apple.com/research/resource-constrained

论文介绍了一种高效的立体声歌声消除 (SVC) 架构，能够在实时且低内存需求的条件下运行。通过对 Conv-TasNet 的改良，研究团队提出了 Vox-TasNet，一个专为立体声设置优化的模型，能够同时估计左右声道，提高了声音分离的质量和效率。通过引入新的立体声分离不对称度指标，改善了声道间的一致性问题。实验结果表明，该模型在保持低资源消耗的同时，达到了与更大、非实时模型相当的高质量输出。

物理驱动的扩散模型来产生撞击声

论文：https://arxiv.org/abs/2303.16897

演示：https://sukun1045.github.io/video-physics-sound-diffusion/

代码：https://github.com/sukun1045/video-physics-sound-diffusion

论文介绍了一种物理驱动的扩散模型，用于从视频中合成冲击声。通过结合物理先验知识和视频输入，该模型能够生成高保真度的冲击声音效。物理先验包括从实际冲击声中估算的物理参数和通过神经网络解释声音环境的学习残差参数。实验结果表明，这种方法在合成现实冲击声方面超越了现有的多种系统。此外，物理基础的表达形式是完全可解释和透明的，这为声音编辑等应用开启了新的可能性。

世界上第一个自然语言音乐搜索引擎

链接：https://www.audioatlas.com/

#参考资料

https://x.com/xinhao_mei/status/1761207065333190818?s=20

https://x.com/YujiaHuangC/status/1761115174742761610?s=20

https://x.com/ArxivSound/status/1760893137935794367?s=20

https://x.com/ClaraBem/status/1761009579100369069?s=20

https://x.com/gan_chuang/status/1761576148712972319?s=20

https://x.com/matchtuneinc/status/1761050911579701712?s=20

我是尾巴

感谢您观看至此处，如果文章对您有帮助，点个赞、在看、转发三连支持一波！您的支持是我最大的动力！

叮当不是机器猫

您的支持是我最大的动力

喜欢作者

AI 音乐 | 2.26 资讯

目录

FoleyGen：视觉引导音频生成

具有不可微分规则引导扩散的符号音乐生成

FIGARO：通过精细的艺术控制生成象征性音乐

资源受限的立体声歌声消除

物理驱动的扩散模型来产生撞击声

世界上第一个自然语言音乐搜索引擎

FoleyGen：视觉引导音频生成

具有不可微分规则引导扩散的符号音乐生成

FIGARO：通过精细的艺术控制生成象征性音乐

资源受限的立体声歌声消除

物理驱动的扩散模型来产生撞击声

世界上第一个自然语言音乐搜索引擎

#参考资料