Audeo教人工智能弹钢琴

导读 华盛顿大学的一个团队想知道人工智能是否可以仅使用视觉线索来重现那种愉悦感——一个人弹钢琴的无声、自上而下的视频。研究人员使用机器学

华盛顿大学的一个团队想知道人工智能是否可以仅使用视觉线索来重现那种愉悦感——一个人弹钢琴的无声、自上而下的视频。研究人员使用机器学习创建了一个名为 Audeo 的系统,该系统可以从无声钢琴演奏中创建音频。当该小组测试 Audeo 使用 SoundHound 等音乐识别应用程序创建的音乐时,这些应用程序正确识别了 Audeo 播放的乐曲大约 86% 的时间。相比之下,这些应用程序在 93% 的时间里从源视频中识别出音轨中的片段。

研究人员于 12 月 8 日在 NeurIPS 2020 会议上展示了 Audeo。

“创造听起来像是可以在音乐表演中演奏的音乐以前被认为是不可能的,”资深作者、应用数学以及电气和计算机工程系的助理教授 Eli Shlizerman 说。“算法需要找出与生成音乐相关的视频帧中的线索或‘特征’,并且需要‘想象’视频帧之间发生的声音。它需要一个系统“精确而富有想象力。我们获得了听起来不错的音乐,这一事实令人惊讶。”

Audeo 使用一系列步骤来解码视频中发生的事情,然后将其转换为音乐。首先,它必须检测在每个视频帧中按下了哪些键以创建一个随时间变化的图表。然后它需要将该图表转换成音乐合成器实际上可以识别为钢琴发出的声音的东西。第二步清理数据并添加更多信息,例如按下每个键的力度和时间。

“如果我们试图单独从第一步开始合成音乐,我们会发现音乐的质量并不令人满意,”Shlizerman 说。“第二步就像老师如何检查学生作曲家的音乐并帮助增强它。”

研究人员使用钢琴家保罗·巴顿 (Paul Barton) 的 YouTube 视频训练和测试了该系统。培训包括大约 172,000 帧巴顿演奏巴赫和莫扎特等著名古典作曲家的音乐的视频帧。然后,他们使用 Barton 的近 19,000 帧播放来自这些作曲家和其他人(例如 Scott Joplin)的不同音乐来测试 Audeo。

一旦 Audeo 生成了音乐的转录本,就该将其提供给可以将其转换为声音的合成器。每个合成器都会使音乐听起来有点不同——这类似于更改电子键盘上的“乐器”设置。在这项研究中,研究人员使用了两种不同的合成器。

“Fluidsynth 产生了我们熟悉的合成器钢琴声音。这些听起来有点机械,但非常准确,”Shlizerman 说。“我们还使用了 PerfNet,这是一种新的 AI 合成器,可以生成更丰富、更具表现力的音乐。但它也会产生更多噪音。”

Audeo 仅在 Paul Barton 的钢琴视频上接受过训练和测试。Shlizerman 说,未来的研究需要看看它可以为任何音乐家或钢琴转录音乐。

“这项研究的目标是看看人工智能是否可以产生由钢琴家在录像中演奏的音乐——尽管我们的目标不是复制保罗巴顿,因为他是如此的艺术大师,”施利泽曼说。“我们希望我们的研究能够以新颖的方式与音乐互动。例如,未来的一个应用是 Audeo 可以扩展到一台虚拟钢琴,它的摄像头只记录一个人的手。此外,通过将摄像头放在真实的钢琴上钢琴,Audeo 可能有助于以新的方式教学生如何演奏。

免责声明:本文由用户上传,如有侵权请联系删除!