跳转到内容

AI 音乐 | 3.12 资讯

作者:叮当不是机器猫 |分享AI音乐动态,探索AI与音乐的无限可能!

公众号:智音Brook 2024-03-12 22:13 广东

原文:https://mp.weixin.qq.com/s/hhpJjZs0A40kxgFAwgNKeA

目录

MART:使用部分整体变压器学习分层音乐音频表示

Video2Music:情感驱动的多模态视频内容与音乐生成框架

Paper Piano:面向所有人的网络摄像头驱动虚拟钢琴体验

突发:Splash Pro 即将永久关闭

Aux 推出 LoopLM,助力音乐制作人创造独特样本和循环

MART:使用部分整体变压器学习分层音乐音频表示

论文:https://arxiv.org/abs/2312.06197

MART(Music Audio Representation Transformer)是一种创新的自监督学习方法,专为音乐音频表示学习而设计。该方法由 Dong Yao 及其团队开发,旨在通过捕捉音乐内在的层次结构来提升音乐表示的质量。MART 的核心在于其独特的层次音频裁剪策略、部分-整体变换器,以及层次对比学习目标。

层次音频裁剪(HAC):MART 通过递归裁剪技术,将音乐音频分割成多个子片段,形成一个具有部分-整体层次结构的音乐片段集。这种策略不仅保留了音乐的内在结构,而且为后续的特征提取和表示学习奠定了基础。

部分-整体变换器(PWT):MART 引入了一种新颖的变换器架构,专门用于处理和学习音乐片段之间的部分-整体关系。通过堆叠多个交互单元,MART 能够有效地在不同层次的音乐片段间传播信息,并促进它们之间的交互,从而更好地理解音乐的结构和内容。

层次对比学习目标(HCL):为了进一步优化部分-整体表示,MART 采用了层次对比学习目标。这种方法通过对比损失函数,鼓励模型学习到相邻层次间的音乐表示相互对齐,从而在多层次上建立一个连贯的表示空间。

在多个下游任务的实验中,MART 展现了卓越的性能,尤其是在音乐分类和翻唱歌曲识别任务上,其表现超越了现有的监督学习方法和其他自监督学习方法。这些成果证明了 MART 在音乐表示学习领域的潜力,特别是在理解和利用音乐的层次结构方面。

Video2Music:情感驱动的多模态视频内容与音乐生成框架

论文:https://www.sciencedirect.com/science/article/abs/pii/S0957417424005062?via%3Dihub

Video2Music 是一个突破性的框架,它利用情感多模态变换器(Affective Multimodal Transformer, AMT)模型,直接从视频内容生成与之情感匹配的音乐。这一创新技术旨在解决社交媒体平台上视频与背景音乐匹配的挑战,尤其是在版权问题日益受到关注的环境中。

情感匹配:Video2Music 的 AMT 模型专注于捕捉视频和音乐之间的复杂关系,并引入了一种新颖的情感匹配机制,确保生成的音乐能够与视频的情绪和内容相协调。

全面转录的数据集:为了支持这一框架,研究者们创建了 MuVi-Sync 数据集,它包含了丰富的视频特征(如场景偏移、情感、运动和语义)和音乐特征(如和弦、调性、响度和音符密度)。

表现力音乐生成:该框架能够生成和弦序列,并允许在后续阶段调整音乐的表现力,如节奏和音量的变化,通过基于双向 GRU(bi-GRU)模型根据视频特征来估计音符密度和响度。

Video2Music 在音乐-视频对应关系和和弦预测准确性方面的表现优于现有基线模型,通过在新提出的 MuVi-Sync 数据集上的实验,该框架展示了其在多模态生成系统中的显著进步。

Paper Piano:面向所有人的网络摄像头驱动虚拟钢琴体验

代码:https://github.com/Mayuresh1611/Paper-Piano

Paper Piano 是一个创新项目,它允许用户通过纸张和网络摄像头在没有实际钢琴的情况下弹奏音乐。这个项目目前支持最多两个手指(一只手的一个手指)的交互,并且正在开发对更多手指的支持和更敏感的训练模型。

使用方法

  • 用户需要设置一个特定角度、高度和距离的网络摄像头。
  • 需要较强的光源以获得更好的性能。

所需材料

  • 网络摄像头,或者可以使用第三方工具来模拟。
  • 两张 A4 大小的白纸,横向拼接在一起。在纸的两端用黑色标记笔画出两个矩形,较粗的线条会得到更好的结果。
  • 推荐的网络摄像头位置是能够捕捉到手指和手指下方的阴影,并确保摄像头视野中包含纸上绘制的两个矩形。

训练和调整

  • 在训练模型识别手指时,会出现一个窗口,它会在手指尖端周围绘制一个框。如果框没有完全覆盖手指及其周围的小部分,需要相应调整摄像头。
  • 训练阶段中,不要快速移动手指,而应缓慢移动,展示出每一个角度。
  • 在训练时,如果手指处于触摸状态,应轻轻按下,但不要太用力。在未触摸状态时,不要触摸纸张,可以靠近但不要太近,像正常弹奏时一样抬高手指。
  • 使用卷积神经网络(CNN)对数据进行训练,以区分触摸和未触摸的手指。如果结果不满意,可以重新训练模型。

突发:Splash Pro 即将永久关闭

官网:https://pro.splashmusic.com/

Splash 官方于 11 日声明:Splash Pro 将于 2024 年 4 月 22 日太平洋标准时间下线,下面是原话翻译👇

致所有 Splash Pro 用户

自我们 8 个月前推出 Splash Pro 以来,这是一段令人惊叹的冒险。我们衷心感谢你们一直以来的支持和反馈。尽管我们非常享受将这个产品带到生活中,并听到你们所有令人难以置信的音乐创作,但 Splash Pro 并没有按照我们预期的方式成长,因此我们做出了艰难的决定将其关闭。

我们公司的重点正在发展,我们正在战略性地集中资源,探索更多让每个人都能体验到制作音乐魔力的方法。虽然 Splash Pro 不会继续下去,但你们的创造力给了我们灵感,我们比以往任何时候都更加致力于利用人工智能的力量,为世界带来激动人心的音乐体验。

Aux 推出 LoopLM,助力音乐制作人创造独特样本和循环

官网:https://aux.app/

原文:https://musically.com/2024/03/12/auxs-looplm-ai-helps-producers-to-create-their-own-samples-and-loops/

LoopLM 是由 Aux 公司开发的一款创新的人工智能模型,专门设计用于生成高质量的音乐样本和循环(loops),供音乐制作人和艺术家在他们的作品中使用。这个工具的核心是一个文本到音乐的转换系统,用户可以通过输入文本来驱动模型,生成相应的音频样本,这些音频可以直接导出并集成到用户的音乐制作软件中,以及 Aux 现有的云存储服务。

LoopLM 的主要特点包括:

  • 样本和循环的生成:用户可以通过文本提示来指导 LoopLM 生成独特的样本和循环,从而避免使用过于常见的样本,减少音乐作品的同质化,并降低因使用常见样本而产生的版权索赔风险。
  • 训练数据的透明度:Aux 公司明确说明了 LoopLM 的训练过程,他们合法授权了超过 100,000 个样本和循环来训练模型,并且不使用任何从 Aux Hub 应用程序上传的数据。
  • 版权和收益分享:由 LoopLM 生成的样本是免版税的,Aux 公司还承诺将与用于训练模型的音乐创作者分享下载产生的收益。
  • 订阅计划:Aux 为使用 LoopLM 提供了不同的订阅计划,包括每月 50 个样本、200 个样本和无限样本的 VIP 计划,价格分别为 4.99 美元、20.99 美元和 47.99 美元。

未来规划:

  • 模型的迭代更新:Aux 计划每 2 到 4 个月推出 LoopLM 的新版本,随着训练数据的增加和模型结构的改进,未来版本的模型将能够再现更广泛的音乐风格。
  • 立体声样本:未来更新将包括立体声样本,目前 LoopLM 0.5 和 1.0 输出的样本是单声道的。
  • 不同长度的样本:为了简化操作,当前所有样本长度固定为 8 秒,未来版本将允许用户自定义样本长度。
  • 哼唱或敲击搜索:未来版本将允许用户通过哼唱或敲击来生成样本,而不仅仅是通过文本提示。

Aux 公司的愿景:

Aux 公司认为,音乐的主要目的和价值在于它如何帮助人类表达情感、情绪和经验。他们的目标不是用 AI 取代音乐家,而是创建能够帮助音乐家更好表达自己的工具。同时,他们也相信这项技术不会让样本包创作者失业,因为模型只能再现其所训练的流派和风格的变体,新的样本将始终需要推动新的流派、风格和声音的发展。因此,他们不仅合法授权样本,还向创作者支付收益分成,确保他们能够继续创作出色的样本。Aux 还计划在未来与 LoopLM 一起推出人类制作的样本包。

参考资料

https://x.com/ArxivSound/status/1767401019837710806?s=20

https://x.com/dorienherremans/status/1767446754188726418?s=20

https://x.com/imxiaohu/status/1767519579440632189?s=20

https://x.com/sraleksandrov/status/1767486228591477033?s=20

https://x.com/mediaor/status/1767521195816034687?s=20

我是尾巴

感谢您观看至此处,如果文章对您有帮助,点个赞、在看、转发三连支持一波!您的支持是我最大的动力!

叮当不是机器猫

您的支持是我最大的动力

喜欢作者