AI音乐产品：SPIN

分享个新奇小玩物 SPIN，它用到Musicgen模型，通过简单按键即可定义音乐的心情、风格、声音和节拍。具体介绍还有制作流程见下方链接

https://arvindsanjeev.com/spin.html

SPIN 是一款 AI 音乐合成器，可让您与语言模型 MusicGen 共同创作作品。这是一个有趣的邀请，让您探索算法音乐的细微差别，鼓励您放慢速度并放大其作品。它通过音乐庆祝人类与机器创造力的结合。

SPIN 使用有形界面打破了与 AI 共同创作音乐的过程。输入所需的情绪、流派、声音和节拍数，聆听 LP 唱片上生动的音乐。 DVS（数字黑胶唱片系统）可让您在音符之间放慢速度、放大、刮擦和聆听。用它来创作新的作品，作为一个简单的声音合成器，作为一个有趣的刮擦工具，或者在背景中播放轻松的音乐。

SPIN 是来自未来的神器，未来音乐将根据人们的品味和偏好进行高度定制。它是音乐好奇心的探索者，可以产生与以前听过的任何音乐不同的音乐，融合了前所未闻的声音、节奏和和声的组合。这为突破音乐界限和创造全新的微流派开辟了令人兴奋的可能性。谁准备好享受快乐的死亡金属迪斯科音乐了吗？

“创造力的未来属于那些能够利用人工智能的力量，同时忠于自己独特的人类观点的人。” ——Steven Pinker，认知科学家兼作家

怎么运行的

在底层，SPIN 通过 Arduino Mega 以按下按钮的形式获取输入提示。该信息通过串口发送至 Raspberry Pi，从而提示 MusicGen API。接收 mp3 文件作为输出，并将其加载到数字黑胶唱片系统 (DVS) 上。改造后的 Numark PT-01 和时间编码控制黑胶唱片充当转盘。适用于 Raspberry Pi 的 Xwax DVS 包通过 Behringer 音频驱动程序读取乙烯基时间码，并通过立体声扬声器播放输出。

过程

有很多令人惊叹的生成音乐实验，从 Dadabots在 YouTube 上无情的死亡金属流媒体 AI到Holly Herndon围绕声音移植的实验。但当我偶然发现Riffusion 音乐模型时，我意识到我们已经达到了一个转折点；我对它的深度和现实主义感到惊讶，包括它的新更新，在输出中添加了抒情的声音。受此启发，我想建立一个平台，让我进一步探索和结合以前从未听说过的音乐和声音的组合。这为构建 SPIN 奠定了基础。

我希望 SPIN 能够鼓励人们玩耍；有一个临时界面就可以达到这个目的。 DVS（数字黑胶系统）在聆听生成的作品时增加了额外的维度。它使我们能够放慢这些合成曲调并在音符之间聆听。因此，我决定以老式合成器的形式将 DVS 系统与 MusicGen API 结合起来。

下面是我在技术实施过程中所经历的阶段的抽象高级视图。查看此推文的链接，了解整个过程并附有图片和视频。

使用 Python 在 Raspberry Pi 上测试 Musicgen API。
在 Raspberry Pi 上使用时间编码的 LP 记录测试了 Xwax DVS 包。
使用键盘矩阵库对按钮输入进行原型设计，并使用简单的 LED 矩阵测试硬编码的自定义动画。
但是，我希望动画更加流畅和流畅，因此我改用 FastLED 库和 WS2812b neopixel。

在 KiCAD 中设计输入和 LED 接口的 PCB。
设计按钮外壳并 3D 打印不同版本来测试 LED 扩散。
收到PCB板，将其焊接在一起并测试动画。
首次一起测试了整个设置：带有按钮输入和 LED 的 PCB 以及转盘上的 Xwax DVS。

以前的下一个

设计和铣削了木制小屋外壳，并在我们木匠的帮助下组装起来。
修改了 Numark PT-01 和 AUX 扬声器。组装好电源。
对木屋进行打磨和抛光。
为电唱机和 PCB 设计并 3D 打印安装支架。激光切割亚克力顶板。
最后组装好所有组件并正确安装。
使用乙烯基设计、品牌化和标记界面。
然而，在最后一轮测试中，DVS 停止工作。因此，我必须分解所有内容才能理解问题，并最终对 Numark PT-01 的输出 AUX 端口进行逆向工程。
最终照片和视频文档。

以前的下一个

结论

SPIN 是与Ghostwriter一起尝试将基于人工智能的体验带入现实世界的一系列实验的一部分。它使我们能够充分利用我们所有的感官，同时放慢与它们的互动。通过这样做，它创造了一个安全的空间，我们可以在这里玩耍、实验、辩论，并按照自己的节奏对其进行主观理解。 SPIN 预示着未来音乐可以根据人们的口味进行高度定制。它展示了人工智能如何生成以前不存在的自定义微流派。然而，这是否会带来道德成本？作为 CIID 人工智能兼职教授的一部分，我还一直在调查人工智能的意外后果；尤其是在所有权方面。 SPIN 敲开了道德内容创作的大门。由于 MusicGen 是在人类生成的音乐数据集上进行训练的，谁真正拥有其输出的版权？围绕算法的所有权、创造力和潜在偏见的道德问题是讨论的主要话题。