跳转到内容

AI 音乐 | 5.6 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-05-06 23:28 广东

原文:https://mp.weixin.qq.com/s/4yWX_dc-XRLxhXpeZoAHMA

目录

探索AI音乐生成的前沿技术——音频扩散

多轨 Midi 生成器

SMITIN:生成音乐变压器的自我监控推理时间干预

音乐中歌词和音频的联合情感分析

SALMONN: 向 LLM 提供通用听力能力

转换任何人的声音:使用条件扩散模型进行端到端表达性语音转换

PlaylistName AI-音乐播放列表名称生成器

一本关于音乐信息检索的大型语言模型的书

探索 AI 音乐生成的前沿技术——音频扩散

原文链接:https://towardsdatascience.com/audio-diffusion-generative-musics-secret-sauce-f625d0aca800

该文由 Christopher Landschoot 撰写,深入探讨了音频扩散如何推动 AI 音乐生成的边界。

文章指出,尽管 AI 在音乐产业中的应用日益广泛,但真正的 AI 生成音乐——即由计算机创造的新声音,仍然是一个相对较新的概念。音频扩散技术通过在信号中添加或移除噪声,将白噪声转换成可识别的音频,这一过程是许多 AI 音乐生成模型的核心。

U-Net 模型架构,作为音频扩散模型的核心,通过编码器和解码器捕捉音频信号的特征,并重建这些信号。这种模型不仅能够复制输入的音频信号,还能通过添加噪声来学习如何生成新的音频样本。

目前音频扩散技术的应用前景广阔,它可以作为一个 “无限样本包”,为声音策划提供新的维度;通过声音转换创造出独特的音频效果;增加声音的人性化变化;以及用于声音设计调整、旋律生成、立体声效果增强、超分辨率音频处理和音频修复等。

尽管 AI 生成音乐技术带来了许多激动人心的可能性,但文章强调,AI 不应被视为人类创造力的替代品,而应作为增强艺术家创作过程的工具。AI 技术无法复制人类在音乐创作中的微妙情感和决策过程,但可以作为艺术家和制作人探索新声音和创意的有力辅助。

多轨 Midi 生成器

体验入口:https://huggingface.co/spaces/juancopi81/multitrack-midi-music-generator

构建教程:https://huggingface.co/blog/juancopi81/using-hugging-face-to-train-a-gpt-2-model-for-musi

这是一个使用 Hugging Face 平台训练 GPT-2 音乐生成模型,作者是 Juan Carlos Piñeros,在教程中,作者提供了从数据集准备到模型训练、再到模型部署的详细步骤。用户可以学习如何将 MIDI 文件转换为模型可以理解的文本序列,并利用这些数据训练 GPT-2 生成独特的音乐作品。

同时,Piñeros 也提出了 AI 音乐生成中的伦理问题,包括数字鸿沟、文化代表性和艺术家权利等。他鼓励开发者和艺术家在享受技术带来的便利的同时,也要考虑其可能带来的社会影响,并积极参与到开放源代码社区中,共同推动 AI 技术的包容性发展。

SMITIN:生成音乐变压器的自我监控推理时间干预

论文1:https://arxiv.org/abs/2404.02252

论文2:https://shadow.merl.com/publications/docs/TR2024-032.pdf

演示:https://www.notion.so/SMITIN-Self-Monitored-Inference-Time-INtervention-for-Generative-Music-Transformers-Demo-Page-983723e6e9ac4f008298f3c427a23241?pvs=4

论文 1 介绍了 SMITIN(Self-Monitored Inference-Time INtervention),是一种针对自回归生成音乐变压器的动态控制技术,它利用分类器探测器来监测和调整音乐模型的输出。通过这种方法,音乐制作人和工程师可以轻松调整音乐中特定的乐器和特征,同时保持音乐的自然流畅。

SMITIN 的核心在于其自监控功能。它能够动态调整干预强度,确保生成的音乐具备所需的特征,并且避免生成过程中过度干预导致音乐失去连贯性。除了音频延续外,SMITIN 还可以用于文本到音乐的生成,使其应用范围广泛。

论文 2 中,则是以 MusicGen 为例深入分析。通过对自注意力头的探查,揭示了 MusicGen 如何编码音乐的各个方面,从乐器识别到更复杂的下游任务。分析发现,某些注意力头在特定音乐特征方面表现优异。MusicGen 在鼓和低音方面表现出色,而在吉他和钢琴方面表现相对较低。

这项技术为音乐创作带来了新的可能性。它让音乐人可以自由添加或去除乐器,调整音乐风格,甚至控制音乐的情绪。同时,SMITIN 保持了音乐的自然和谐,为创作者提供了前所未有的灵活性。

音乐中歌词和音频的联合情感分析

论文:https://arxiv.org/abs/2405.01988

音乐总是能够引发我们的情感,而歌词和音频是音乐中表达情感的两大关键元素。为了更好地了解音乐中的情感,该文研究了如何结合歌词和音频来进行情感分析。

研究中,作者先了解了两种常见的情感分析方法:分类法和维度法。一种是将情感分成不同的类别,比如快乐、悲伤等;另一种是将情感放在一个二维空间中,按照 “愉快度” 和 “激动度” 来进行分类。接着,作者选用了两个音乐数据集,一个基于二维空间分类法,另一个基于音乐的情绪分类。

在分析音频的情感的过程中,作者使用了一个名为 USC SAIL 的模型。对于歌词中的情感分析,作者试用了四个模型,发现专门为歌词情感预测设计的模型表现最好。

在尝试了三种不同的方法后,作者发现通过 60% 音频和 40% 歌词的加权组合进行情感分析效果最好。研究表明将音频和歌词结合起来进行情感分析,比单独分析要更准确有效。

SALMONN: 向 LLM 提供通用听力能力

论文:https://arxiv.org/abs/2310.13289

代码:https://github.com/bytedance/SALMONN

体验入口:https://huggingface.co/spaces/tsinghua-ee/SALMONN-7B-gradio

SALMONN 是一个支持语音、音频事件和音乐输入的大型语言模型(LLM),由清华大学电子工程系和字节跳动开发。该模型结合了现有的语言模型和听觉编码器,使得它能够处理各种音频任务,包括语音识别、翻译、问答、情感识别、音乐字幕等。更重要的是,SALMONN 还有一些独特的能力,比如翻译到未训练的语言、语音查询问答、基于音频的故事叙述等。SALMONN 是第一种类型的模型,可视为朝着具有通用听力能力的人工智能迈出的重要一步。

转换任何人的声音:使用条件扩散模型进行端到端表达性语音转换

论文:https://arxiv.org/abs/2405.01730

演示:https://a2023aa.github.io/DEVC/

论文提出了一种名为 DEVC 的表达性语音转换框架,该框架基于条件去噪扩散概率模型(DDPM),可以高效地转换声音中的各种特征。

DEVC 通过三个编码器来处理输入的语音,分别是内容编码器、说话者编码器和情感编码器。内容编码器处理语音的内容,说话者编码器处理说话者的身份特征,而情感编码器则处理情感的风格。通过这些部分的协同工作,DEVC 可以从简单的噪声中生成高质量的语音。

经过测试,DEVC 不仅能转换声音的身份,还能保持或改变情感风格,使其适应不同的应用场景,比如电影配音和人机交互等。

PlaylistName AI-音乐播放列表名称生成器

体验入口:https://www.playlistnameai.com/

PlaylistName AI 是一款致力于为音乐歌单提供独特且合适的命名体验的工具。无论你想要营造哪种氛围,这款工具都能提供多样化的情绪选择,帮助你完美匹配歌单的基调,同时还能指定歌单的用途或目的,从而获得更准确的名称建议。

PlaylistName AI 兼容多个主流音乐平台,包括 Spotify、Apple Music、Amazon Music 和 Tidal。借助该工具,你可以彻底革新音乐歌单的命名方式,以更高效、用户友好且注重隐私的方式提升歌单命名体验。

一本关于音乐信息检索的大型语言模型的书

链接:https://llms-heart-mir.github.io/tutorial/intro.html

这本书的作者是 Keunwoo Choi,主要探讨关于如何将大型语言模型应用于音乐信息检索领域,该书从音乐与人工智能的交叉视角出发,作者希望通过分享自己的经验和见解,能够吸引更多人对这个跨学科领域产生兴趣。

参考资料

https://x.com/juancopi81/status/1775681439704486080

https://x.com/Junghyun_Koo/status/1775745494377218395

https://x.com/ArxivSound/status/1787332507756642415

https://www.linkedin.com/posts/michael-stähli-653156220_llm-ai-nlp-activity-7192544342165630976-AG9Q?utm_source=share&utm_medium=member_desktop

https://x.com/ArxivSound/status/1787332495676981445

https://www.linkedin.com/posts/be-seen-academy_playlistname-ai-ai-tool-reviews-tutorials-activity-7192503284002152448-GWau?utm_source=share&utm_medium=member_desktop

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者