跳转到内容

AI 音乐 | 3.5 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-03-05 21:27 广东

原文:https://mp.weixin.qq.com/s/HvInx_sbmVBL-7TWfPaWXQ

目录

人工智能技术在当代流行音乐制作中的发展与实践

MusicLang Predict,您可控的音乐副驾驶

只需文字提示即可编辑音频

谷歌如何利用用户的数据来改进他们的音乐人工智能

订阅您的专属电子 BGM 频道

人工智能技术在当代流行音乐制作中的发展与实践

链接:https://transactions.ismir.net/articles/10.5334/tismir.100

巴黎——索尼计算机科学实验室(Sony CSL)的研究团队在最新研究中探讨了人工智能(AI)技术在当代流行音乐(CPM)制作中的应用。该研究由 Emmanuel Deruty 领导,提出了一种新的视角,即 AI 音乐工具的设计应超越传统的符号表示,如 MIDI,转而利用音频本身来支持艺术家的创作流程。

在传统音乐制作中,作曲、表演和消费是线性过程。然而,现代音乐制作已经演变成一个更为复杂和非线性的过程,其中录音、编辑和混音等活动相互交织。这一转变要求 AI 工具能够处理更广泛的输入类型,包括非 MIDI 格式的音频。

研究团队与多位专业艺术家合作,通过实际应用 AI 工具,收集了关于这些工具实用性和价值的反馈。艺术家们在音乐制作过程中实验了各种 AI 工具,这些工具覆盖了从声音设计到混音、均衡和旋律节奏材料生成的不同方面。

研究者们提出了一系列建议,以促进 AI 音乐工具的开发。这些建议包括与音乐家紧密合作、创造意外发现的机会、以及适应手头的音乐制作任务。此外,他们还提出了一套新的验证标准,以评估 AI 音乐技术的成功,包括工具在生产工作流中的整合程度、是否简化了生产过程、是否激发了创造力,以及是否产生了可识别的结果。

这项研究不仅为 AI 在音乐制作中的应用提供了深入的分析,还为未来的研究和实践提供了明确的方向。随着 AI 技术的不断发展,预计将为音乐制作带来更加丰富和创新的可能性。

MusicLang Predict,您可控的音乐副驾驶

Blog 1:https://musiclang.github.io/tokenizer/

Blog 2:https://musiclang.github.io/chord_parsing/

代码:https://github.com/musiclang/musiclang_predict

MusicLang 模型是一个先进的音乐生成框架,专注于通过深度学习技术来控制和生成音乐内容。该模型的核心在于其独特的音乐符号化(tokenization)机制,它允许用户以精细的方式控制音乐的各个方面,包括和弦进行、音阶、旋律以及个别乐器的声音。

该模型通过分析乐谱,提取关键的音乐信息,并将其编码为一系列的符号(tokens)。这些符号不仅代表了音乐的表面特征,如音符和和弦,还包含了更深层次的音乐理论元素,如音阶度、音调模式和和弦扩展。这种编码方式使得模型能够在生成音乐时,更好地理解和利用音乐的结构和和声功能。

此外,MusicLang 模型采用了一种相对音高表示法,将音符表示为相对于和弦根音和音阶的音高,这为模型在旋律生成时提供了直接的和声信息。这种表示法还有助于学习字节对编码(Byte Pair Encoding, BPE),这是一种基于频率的序列编码方法,能够提高模型的性能。

MusicLang 项目还提供了一个名为 musiclang_predict 的开源倡议,它包含了用于符号化和预测的方法论。用户可以通过这个框架轻松地在他们自己的 MIDI 乐谱上测试符号化,甚至训练自己的模型。这为音乐创作者和研究人员提供了一个强大的工具,以探索和实验基于 AI 的音乐创作。

总的来说,MusicLang 模型是一个创新的音乐生成工具,它通过提供对音乐内容的深度控制,为音乐创作和音乐信息检索(Music Information Retrieval, MIR)领域带来了新的可能性。

只需文字提示即可编辑音频

链接1:https://huggingface.co/spaces/hilamanor/audioEditing

链接2:https://pinokio.computer/

链接3:https://hilamanor.github.io/AudioEditing/

该模型采用 DDPM 反演技术,实现了通过文本指令对音频进行编辑的功能,包括改变音乐流派、替换乐器声音,甚至移除歌手的人声,点击链接 1 获取演示。

CocktailPeanut 为此开发了一个一键启动器,支持 Mac、Windows 和 Linux 操作系统,并且取消了本地运行时 30 秒的限制,让您能够编辑更长的音频片段,点击链接 2,下载这个工具,并选择 ZETA 来使用该模型。

如果您需要创作灵感,点击链接 3 即可获取。

谷歌如何利用用户的数据来改进他们的音乐人工智能

链接:https://towardsdatascience.com/how-google-used-your-data-to-improve-their-music-ai-8948a1e85491

Google 的 MusicLM,一种文本到音乐的 AI,通过收集用户反馈(300,000 个用户偏好)进行微调,显著提高了其输出质量。这得益于一项新的研究:“MusicRL: Aligning Music Generation to Human Preferences”,使用了从人类反馈中学习的强化学习技术(RLHF)。MusicLM 现在可以生成更符合用户偏好的音乐,这种技术通过比较两个音轨并预测哪个更受人类评估者喜欢来实现。

微调(Finetuning):使用已有的模型,并通过少量专有数据对其进行调整以解决新的任务或以不同方式处理相同任务。这减少了从头开始训练模型所需的数据量。

收集用户数据:通过 MusicLM 的公开演示,Google 在用户间收集了音乐偏好数据,尽管这种数据收集未明确告知用户其用于机器学习训练的目的。

强化学习从人类反馈(RLHF):使用人类偏好训练 AI 模型的技术,生成一个能模拟人类评估偏好决策的奖励模型,从而微调 MusicLM 以最大化其输出的用户偏好。

这种方法不仅提升了 MusicLM 生成音乐的质量,也展示了用户数据在 AI 发展中的关键作用。通过对用户反馈的利用,Google 成功地使 MusicLM 生成的音乐更加贴近人类的音乐偏好,为文本到音乐的 AI 技术树立了新标准。

订阅您的专属电子 BGM 频道(均为 AI 生成)

链接:https://www.youtube.com/watch?v=iaH4vHRouQw&t=6s

参考资料

https://www.linkedin.com/posts/mastertrendnews_on-the-development-and-practice-of-ai-technology-activity-7170723489065222145-GfEp?utm_source=share&utm_medium=member_desktop

https://www.linkedin.com/posts/florian-gardin-0984707a_github-musiclangmusiclangpredict-ai-activity-7170682004861100034-KWHe?utm_source=share&utm_medium=member_desktop

https://x.com/cocktailpeanut/status/1764700785449820179?s=20

https://x.com/TDataScience/status/1764657802360868890?s=20

https://x.com/neeeeeeko32653/status/1764675570208788881?s=20

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者