想象一个(gè)计算机程(chéng)序能(néng)够直(zhí)观地识(shí)别出(chū)在(zài)无声的钢琴演奏视频中演奏(zòu)的是哪首乐(lè)曲,或许并(bìng)不夸张。然而,一(yī)个新的人工智能(néng)系统却更进一步,以数字方式逼真地再现了钢琴演奏的声音。
这项技术(shù)被称为(wéi)Audeo,由华盛顿大学的(de)一个团队设计(jì)。研究人员使用钢(gāng)琴家(jiā)保罗(luó)·巴顿的YouTube视(shì)频对系统(tǒng)进行了培训和测(cè)试。培训包括约17.2万巴顿演(yǎn)奏巴赫(hè)和莫扎特等著名古典作曲家音乐的(de)视频帧。
在分析一段无声(shēng)视频时,所产生的系统首(shǒu)先会观察哪些键被按下的(de)顺(shùn)序(xù),确(què)定各个音符及其排列方式。也(yě)就是说,它还能感(gǎn)知到每(měi)个键被击打的力(lì)度和被按住的时间--这让它能计算出每个音符(fú)的强度,以及它(tā)在(zài)随后弹奏(zòu)的音(yīn)符下面持续(xù)的时(shí)间(jiān)长度。它还(hái)考虑到了钢(gāng)琴独特的声学特性。然后,这些(xiē)数据(jù)被(bèi)转换为一种可(kě)以被现有(yǒu)的数(shù)字(zì)合成器理解的格式(shì)。据报道(dào),当该合成(chéng)器回放音乐(lè)文件时,它听(tīng)起来非常像原始的钢琴音乐(lè)。
在对Audeo的测试(shì)中,它的任务是根据巴顿(dùn)演奏的静音视频重现钢(gāng)琴音乐(lè),而不是系统所训练的音乐作品。当SoundHound等音乐(lè)识别应用(yòng)分析这些再现时,它们能(néng)够以大约86%的准确率识别出(chū)乐曲。相比之下(xià),当这些应(yīng)用分析相同视频中的原(yuán)始钢琴音频时,其(qí)识别准确率攀升至93%。随(suí)着(zhe)技术(shù)的进一步发展(zhǎn),这种差距应该会缩小。
“我们希望我们(men)的研究能够实现与音(yīn)乐互动的新方法(fǎ),”该(gāi)研(yán)究的高级作者Eli Shlizerman副教授说。“例(lì)如,未来的一个应(yīng)用是,Audeo可以扩展(zhǎn)到虚拟钢琴,摄像头只(zhī)记录一个人的手。此(cǐ)外(wài),通过将摄像头放在真实(shí)的钢(gāng)琴之(zhī)上,Audeo有可(kě)能协助教学生如何演奏的新方(fāng)法。”