趙藝璇
機(jī)器聽覺(Machine Listening)也可稱作計(jì)算機(jī)聽覺(Computer Audition),是一個研究機(jī)器分析和理解聲音內(nèi)容的算法和系統(tǒng)的學(xué)科。其研究范圍涉及人工智能、心理聲學(xué)、認(rèn)知科學(xué)、音樂、聲學(xué)等多個跨學(xué)科領(lǐng)域,很多研究成果已應(yīng)用于醫(yī)療衛(wèi)生、公共場所監(jiān)控、交通運(yùn)輸業(yè)等領(lǐng)域。目前國內(nèi)對機(jī)器聽覺在音樂領(lǐng)域方面的研究主要集中于音樂信息檢索技術(shù)(MIR)(1)“音樂信息檢索”(Music Information Retrieval,MIR)是使用計(jì)算方法對數(shù)字音樂的內(nèi)容進(jìn)行理解和分析的技術(shù)。該技術(shù)在音樂的內(nèi)容推薦、自動轉(zhuǎn)錄、自動分類、自動生成等程序中有廣泛的應(yīng)用,目前研究和應(yīng)用的范圍仍在不斷擴(kuò)大。,其研究領(lǐng)域不涉及藝術(shù)創(chuàng)作,屬于音樂科學(xué)技術(shù)的研究范疇,成果已廣泛應(yīng)用于各大商業(yè)音樂平臺,也在音樂人工智能領(lǐng)域發(fā)揮著極大的作用。本文側(cè)重于機(jī)器聽覺在除商業(yè)音樂之外的藝術(shù)化音樂創(chuàng)作方面的應(yīng)用和研究,與MIR在具體使用的技術(shù)方面有一定的交叉,但其應(yīng)用方式和使用目的截然不同。機(jī)器聽覺對交互音樂的創(chuàng)作思維和映射策略有著重要的影響,這不僅限于技術(shù)本身,也關(guān)系到技術(shù)的使用方法。
早期電子音樂的出現(xiàn)打破了傳統(tǒng)作曲中使用音符系統(tǒng)的創(chuàng)作理念,也賦予了真實(shí)樂器更多的可能性,它在創(chuàng)作中以聲音本身為基礎(chǔ)單元,以組織聲音為核心手段,不僅在聲音選擇上拓寬了可使用的聲音材料,也改變了音高、和聲、旋律等傳統(tǒng)音樂要素在創(chuàng)作中的絕對意義。交互音樂的發(fā)展離不開電子音樂的興起和演變。對于深受電子音樂影響的交互音樂來說,其創(chuàng)作很大程度上也脫離了傳統(tǒng)的音符系統(tǒng)。因此,對于機(jī)器聽覺在交互音樂中的應(yīng)用要擺脫其在傳統(tǒng)音樂音符系統(tǒng)中的常規(guī)使用來討論,需要更多地關(guān)注對聲音本身的分析和理解。由于機(jī)器聽覺涉及的研究范圍較廣,各個學(xué)科之間目前還缺乏聯(lián)系。英國薩里大學(xué)的王文武教授在其著作《機(jī)器聽覺:原理、算法和系統(tǒng)》中綜合各個學(xué)科的相關(guān)內(nèi)容把機(jī)器聽覺的研究分為四個較寬泛的方面,分別是:1.音頻場景分析、識別和建模;2.音頻信號分離、提取和定位;3.音頻轉(zhuǎn)錄、挖掘和信息檢索;4.音頻認(rèn)知、建模和情感計(jì)算。(2)Wenwu Wang,Machine Audition:Principles,Algorithms and Systems,Pennsylvania:IGI Global,2010.從這四個方面來看,我們可以得到機(jī)器聽覺大致覆蓋的研究范圍,但對適用于人機(jī)交互系統(tǒng)的應(yīng)用細(xì)節(jié)仍需繼續(xù)進(jìn)行發(fā)掘。李偉、李碩《理解數(shù)字聲音——基于普通音頻的計(jì)算機(jī)聽覺綜述》一文中,把計(jì)算機(jī)聽覺大致分為幾個子問題:1.音頻時(shí)頻表示;2.特征提?。?.聲音相似性;4.聲源分離;5.聽覺感知;6.多模式分析。(3)李偉、李碩:《理解數(shù)字聲音——基于普通音頻的計(jì)算機(jī)聽覺綜述》,《復(fù)旦學(xué)報(bào)》(自然科學(xué)版),2019年,第3期,第269—313頁。
本文研究的交互音樂系統(tǒng)涉及的問題基本集中于音頻時(shí)頻表示和特征提取,在人機(jī)即興交互系統(tǒng)中也會涉及聽覺感知。交互音樂本身是一個較為寬泛的音樂類別,對機(jī)器聽覺的使用也會隨著音樂類型的演變和技術(shù)的發(fā)展而不斷拓展。
實(shí)時(shí)機(jī)器聽覺的應(yīng)用可以追溯至現(xiàn)場電子音樂(Live Electronic Music,LEM)(4)Live Electronic Music也稱作Live Electronics,簡稱LEM,是一種現(xiàn)場音樂形式,現(xiàn)場可以使用包括電子類發(fā)聲裝置、電子類音樂樂器、計(jì)算機(jī)或任何可以生成聲音的科技設(shè)備,即興演奏在其表演中占據(jù)重要角色。的興起。LEM最初發(fā)展的目的是用來回應(yīng)以聲音為基礎(chǔ)并為固定媒介(5)媒介可以是傳播渠道、手段或工具,本文中的媒介泛指可以傳播聲音、圖像、燈光等信號的工具。(fixed media)而作曲的音樂類型(例如具體音樂、早期電子音樂等)。LEM的定義較為寬泛,尼克·柯林斯(Nick Collins)、瑪格麗特·謝德(Margaret Schedle)和斯科特·威爾遜(Scott Wilson)曾這樣描述LEM:“將這種音樂(電子音樂)進(jìn)行現(xiàn)場演示的動力一直存在”(6)Collins Nick,Margaret Schedle,Scott Wilson,Electronic Music,Cambridge:Cambridge University Press,2013,pp.180-191.。瓦倫蒂娜·貝爾托拉尼(Valentina Bertolani)和弗里德曼·薩利斯(Friedemann Sallis)表示:“現(xiàn)場電子音樂是一種表演,其中電子元素以某種互動的方式影響表演者或受表演者影響”(7)Bertolani Valentina,Sallis Friedemann,“Live Electronic Music”,in Routledge Encyclopedia of Modernism,Taylor and Francis,2016.。從這些描述中我們可以看出,關(guān)于LEM的討論更多關(guān)注于表演層面,“現(xiàn)場”(live)是其核心。
LEM的起源可以追溯至電子樂器例如特雷門琴(theremin)的發(fā)明和表演。20世紀(jì)30年代約翰·凱奇(John Cage)的作品《想象的風(fēng)景1號》(ImaginaryLandscapeNo. 1)嘗試使用了電子產(chǎn)品進(jìn)行現(xiàn)場表演。這部作品被認(rèn)為是LEM作品的雛形。20世紀(jì)60年代LEM得到廣泛發(fā)展,尤其是卡爾海因茲·施托克豪森(Karlheinz Stockhaus)在WDR(8)WDR (Westdeutscher Rundfunk)是1951年成立于德國科隆的西德電子音樂工作室。(Westdeutscher Rundfunk)工作室完成的《麥克風(fēng)1》(MikrophonieI),《混合體》(Mixtur)和《麥克風(fēng)2》(MikrophonieII),從一定意義上真正形成了LEM的音樂形態(tài)。隨后很多音樂團(tuán)體和實(shí)驗(yàn)室也開始關(guān)注LEM的發(fā)展,包括著名的倫敦自由即興小組AMM(9)倫敦自由即興小組AMM是一個英國自由即興樂隊(duì),于1965年在英國倫敦成立。、羅馬的現(xiàn)場電子音樂(Musica Elettronica Viva)(10)羅馬的現(xiàn)場電子音樂(Musica Elettronica Viva)是一個于1966年在意大利羅馬成立的現(xiàn)場電子音樂即興小組。和美國的聲波藝術(shù)聯(lián)盟(Sonic Arts Union)(11)美國的聲波藝術(shù)聯(lián)盟(Sonic Arts Union)是一個活躍于1966年至1976年間的實(shí)驗(yàn)音樂家團(tuán)體。等都開始將電子產(chǎn)品納入現(xiàn)場表演。20世紀(jì)80年代前后,計(jì)算機(jī)的引入極大地促進(jìn)了LEM的發(fā)展,其中有重要貢獻(xiàn)的包括法國作曲家皮埃爾·布列茲(Pierre Boulez)、意大利作曲家路易吉·諾諾(Luigi Nono)和盧西亞諾·貝里奧(Luciano Berio)等人。20世紀(jì)末,聲音裝置、交互式表演環(huán)境、現(xiàn)場演奏的電子樂器、實(shí)時(shí)編碼(live coding)(12)實(shí)時(shí)編碼(live coding)是一種在現(xiàn)場即興編寫源代碼以創(chuàng)建和使用交互式編程的表演藝術(shù)形式,通?;跀?shù)字媒介創(chuàng)建聲音、圖像、以及燈光系統(tǒng)、即興舞蹈和詩歌等。等使LEM的形態(tài)呈現(xiàn)多元化發(fā)展,而交互音樂作為一種更注重“互動行為”的LEM類型逐漸形成了自身的新特征。
4X(13)4X是開發(fā)于20世紀(jì)80年代的數(shù)字信息處理系統(tǒng),它可以對現(xiàn)場真實(shí)樂器進(jìn)行實(shí)時(shí)處理,包括錄制聲音、放大聲音和改變聲音的頻譜。系統(tǒng)是由朱塞佩·迪朱格諾(Giuseppe di Giugno)在IRCAM(14)IRCAM(the Institute for Research and Coordination in Acoustics/Music)即法國蓬皮杜聲學(xué)/音樂研究與協(xié)調(diào)研究所,由皮埃爾·布列茲1977年創(chuàng)立,是致力于音樂創(chuàng)作和科學(xué)研究的國際大型公共研究中心之一。開發(fā)的一種數(shù)字信息處理系統(tǒng),對LEM和交互音樂的發(fā)展起到至關(guān)重要的作用。皮埃爾·布列茲的《回答》(Répons)、菲利普·馬努里(Philippe Manoury)的《朱庇特》(Jupiter)以及羅伯特·羅(Robert Rowe)的《鏡廳》(HallofMirrors)都使用了此系統(tǒng)在演出現(xiàn)場結(jié)合真實(shí)樂器與電子音樂實(shí)時(shí)表演。在4X系統(tǒng)得到推廣的同時(shí),許多研究學(xué)者已經(jīng)意識到一臺可以實(shí)時(shí)工作的機(jī)器可以有效結(jié)合真實(shí)樂器的演奏和計(jì)算機(jī)的“演奏”。在這之后,硬件設(shè)備ISPW(15)ISPW(IRCAM Signal Processing Workstation)是IRCAM和Ariel Corporation在20世紀(jì)80年代末開發(fā)的硬件數(shù)字音頻工作站。以及目前最常用的使用可視化編程語言的交互軟件Max(16)Max,也稱Max/MSP/Jitter,是一種用于音樂和多媒體的可視化編程語言,由Cycling’74公司開發(fā)。,其開發(fā)都受到了4X系統(tǒng)的影響。Max從編程層面大大簡化了實(shí)現(xiàn)步驟,使聲音的感測—映射—回應(yīng)都可以在一臺計(jì)算機(jī)上完成。
4X系統(tǒng)和ISPW雖然可以通過模擬信號轉(zhuǎn)數(shù)字信號的方式對現(xiàn)場真實(shí)樂器的演奏進(jìn)行實(shí)時(shí)處理,但其感測音頻的能力還停留在聲音頻譜表面,更細(xì)節(jié)的分析和理解能力沒有得到擴(kuò)展。這是由于一方面?zhèn)陕犗到y(tǒng)在進(jìn)行模數(shù)轉(zhuǎn)換時(shí)技術(shù)不夠完善,因此轉(zhuǎn)換并不是無損的,有很多聲音信號會因此缺失;另一方面,MIDI在后期的出現(xiàn)雖然簡化了編程環(huán)境,但同樣也會丟失很多有關(guān)音色的詳細(xì)信息,因此識別音頻中的詳細(xì)內(nèi)容需要對偵聽系統(tǒng)進(jìn)行深入研究。
隨著Max、SuperCollider(17)SuperCollider是一種編程語言,由詹姆斯·麥卡特尼(James McCartney)于1996年開發(fā),用于實(shí)時(shí)音頻合成和算法作曲。等擁有開放、靈活編程環(huán)境的平臺相繼出現(xiàn),音頻工程師研究偵聽級別和算法越來越便利,并且很多創(chuàng)作交互音樂的作曲家也對機(jī)器聽覺產(chǎn)生了興趣。如何在偵聽系統(tǒng)中構(gòu)建偵聽的不同層次,如何基于人類感知到的音樂內(nèi)容構(gòu)造計(jì)算機(jī)的聽覺感知,這些問題開啟了對機(jī)器聽覺包括實(shí)時(shí)機(jī)器聽覺的廣泛研究。
“實(shí)時(shí)機(jī)器聽覺”中的“實(shí)時(shí)”主要是針對交互音樂提出的,“實(shí)時(shí)”是交互音樂最重要的特點(diǎn)之一。交互音樂系統(tǒng)中的實(shí)時(shí)機(jī)器聽覺是指可以在表演現(xiàn)場實(shí)時(shí)分析和理解音頻流數(shù)據(jù)。實(shí)時(shí)機(jī)器聽覺屬于交互音樂系統(tǒng)的感測階段,在此階段系統(tǒng)需要對聲音進(jìn)行拾取、轉(zhuǎn)換、分析和理解。實(shí)時(shí)機(jī)器聽覺在這個階段首先會經(jīng)歷音頻時(shí)頻表示,即用一種方式表示拾取的聲音??梢杂脕肀硎疽纛l的方式有很多,通常情況下會通過模擬信號轉(zhuǎn)數(shù)字信號(簡稱A/D)的方式轉(zhuǎn)換為數(shù)字信號,然后再使用快速傅立葉變換(Fast Fourier Transform,簡稱FFT)表示為頻譜信息,具體流程如圖1所示。除此之外,還有許多其他可以表示音頻信息的方式。因?yàn)檫@不是本文研究的重點(diǎn),故在此不詳細(xì)舉例和展開。
在這個基礎(chǔ)上,為了使聲音成為“實(shí)時(shí)控制器”實(shí)現(xiàn)精確的參數(shù)映射,我們需要探討真正對交互起到?jīng)Q定性作用的實(shí)時(shí)機(jī)器聽覺部分——音頻特征提取、音頻內(nèi)容分析。
音頻特征提取指的是從擁有多維度信息的音頻數(shù)據(jù)中提取特定方面信息的過程。它可以提供多種用途,除了直接控制現(xiàn)場聲音效果參數(shù)之外,也可以控制燈光、視頻、圖像等其他類型參數(shù)或提供數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和機(jī)器學(xué)習(xí)等。因此我們在探討實(shí)時(shí)機(jī)器聽覺的作用時(shí)離不開音頻特征提取的作用。以下首先對音頻特征進(jìn)行分類,然后討論音頻特征在交互音樂系統(tǒng)中的具體應(yīng)用。
描述音頻信息中的不同特征,需要各種“音頻描述符”(audio descriptors)。筆者認(rèn)為,可以基于對音頻內(nèi)容不同維度的理解對這些音頻描述符進(jìn)行劃分。具體可分為三個維度,如圖2所示。
圖1.指定條件下的交互音樂系統(tǒng)流程圖
圖2.音頻特征的三個維度
物理維度的描述符通常由音頻特征提取來獲得,使用較為簡單,而通過整合物理特征、執(zhí)行不同算法和建模,便可以構(gòu)建感知和認(rèn)知維度中的描述符,其構(gòu)建的結(jié)果會逐漸上升至音樂內(nèi)容分析。這也顯示出三個維度在復(fù)雜程度上有一定的等級劃分。三個維度之間由于存在某種關(guān)聯(lián)或映射關(guān)系,因此在技術(shù)原理上存在很多交叉。有些感知維度的音頻描述符需要綜合多個物理維度的描述符來構(gòu)建,例如頻譜質(zhì)心、頻譜通量和粗糙度等多個頻譜參數(shù)可構(gòu)成音色。有些不同維度的音頻描述符呈對應(yīng)關(guān)系,其中較為復(fù)雜的維度以音樂內(nèi)容的形式進(jìn)行了高級表達(dá),例如頻率和音高。我們由此得出,物理維度的音頻描述符在使用時(shí)相對靈活,可控制的聲音細(xì)節(jié)更多,但無法分析“音樂類”內(nèi)容,而感知維度和認(rèn)知維度被認(rèn)為更高級、更貼近音樂內(nèi)容,或者從機(jī)器角度被視為更智能、更獨(dú)立。當(dāng)然,它們在某些交互音樂作品中也存在不適用的特點(diǎn),例如對于噪音或者無具體節(jié)奏和具體音高的聲音材料來說,音頻信息的特征需要物理維度的音頻描述符進(jìn)行描述,對音頻信息進(jìn)行音樂內(nèi)容的分析往往難度較大。我們在交互音樂系統(tǒng)的設(shè)計(jì)中需要以創(chuàng)作理念為前提,技術(shù)為輔助,綜合考慮不同維度的特點(diǎn),選擇適合的音頻描述符。
在物理維度和部分感知維度可以進(jìn)行音頻特征提取的音頻內(nèi)容多達(dá)50余種,其中物理維度的音頻描述符由于只關(guān)注聲音的頻譜信息,因此可用來描述任何有關(guān)聲音信息的特征細(xì)節(jié),除了我們熟知的頻率、振幅、頻譜質(zhì)心、粗糙度等聲音細(xì)節(jié)參數(shù)可作為音頻特征被提取之外,許多專家仍在探索和擴(kuò)展更多物理維度的音頻描述符。
目前,音頻特征的具體提取技術(shù)以及使用平臺有很多種。例如由米勒·帕克特(Miller Puckette)、西奧多·阿佩爾(Theodore Apel)和戴維·齊卡雷利(David D. Zicarelli)開發(fā)的fiddle~和bonk~(18)fiddle~和bonk~是可視化編程語言交互軟件Max中的模塊,可被用于從實(shí)時(shí)音頻中提取音高、正弦波分量和起始位置。,由特里斯坦·查汗(Tristan Jehan)編寫的analyzer~(19)analyzer~是可視化編程語言交互軟件Max中的模塊,基于FFT原理,可分析感知層面的音高、響度、亮度等音頻特征參數(shù)。,由托多爾·托多洛夫(Todor Todoroff)開發(fā)的iana~(20)iana~是可視化編程語言交互軟件Max中的模塊,用于分析和提取聲音的頻率分量。等,它們都是在Max平臺中被廣泛使用的可進(jìn)行實(shí)時(shí)音頻特征提取的模塊,可以提取包括音高、響度、亮度、噪度、正弦波分量、Bark尺度分解和起始位置等多種音頻特征。除此之外,由米哈伊爾·馬爾特(Mikhail Malt)和伊曼紐爾·喬丹(Emmanuel Jourdan)開發(fā)的資源庫Zsa~,包括了一系列專門用于實(shí)時(shí)音頻特征提取的音頻描述符。該資源庫的開發(fā)有助于在一個場景下同時(shí)組合使用多個描述符來識別指定的音頻信號特征(21)Mikhail Malt,Emmanuel Jourdan,“Zsa. Descriptors:a Library for Real-Time Descriptors Analysis”,in Sound and Music Computing Conference,Berlin,Germany,2008,pp.134-137.。
音頻特征提取普遍適用于物理維度和部分感知維度的音頻描述符。認(rèn)知維度由于存在復(fù)雜的音樂內(nèi)容信息,涉及樂理、心理學(xué)、聽覺認(rèn)知等跨學(xué)科知識,不能簡單地依靠音頻特征提取來完成,因此認(rèn)知維度的機(jī)器聽覺更恰當(dāng)?shù)慕忉寫?yīng)當(dāng)是音頻內(nèi)容分析。
音頻內(nèi)容分析對交互音樂系統(tǒng)的重要性主要體現(xiàn)在自由即興(free improvisation)交互音樂系統(tǒng)。在自由即興交互音樂系統(tǒng)中,計(jì)算機(jī)的角色更像是一個獨(dú)立的“機(jī)器演奏者”。它對人類演奏者的回應(yīng)基于對演奏內(nèi)容的復(fù)雜認(rèn)知,而不僅僅取決于對低維度音頻特征的提取。即興音樂理念是自由即興交互音樂系統(tǒng)的基礎(chǔ),它在20世紀(jì)60年代中后期由即興爵士樂和當(dāng)代音樂發(fā)展而來,有眾多的代表作曲家和演奏家,以及AMM和MEV這類的即興團(tuán)體。這些作曲家和演奏家們在即興演奏或即興創(chuàng)作的過程中也嘗試使用電子產(chǎn)品。
在此,不得不提到喬治·路易斯(George Lewis),他是把即興音樂理念引入交互音樂系統(tǒng)并作出重要貢獻(xiàn)的音樂家。喬治·路易斯在1986至1988年之間開發(fā)的Voyager系統(tǒng)第一版使用了Formula(22)Formula (Forth Music Language)是一種用于控制合成器的編程語言,可以模擬人類表演的表現(xiàn)力。語言編程。在Voyager中,計(jì)算機(jī)可以實(shí)時(shí)分析人類即興演奏者演奏內(nèi)容的各個方面,并使用分析得到的結(jié)果引導(dǎo)計(jì)算機(jī)即興創(chuàng)作。它的運(yùn)行程序可以被認(rèn)為是一組包含64個單獨(dú)發(fā)聲且同步運(yùn)行并由MIDI控制的“機(jī)器演奏者”。當(dāng)人類即興演奏者演奏時(shí),演奏的聲音會在系統(tǒng)中連續(xù)轉(zhuǎn)換成MIDI數(shù)據(jù),這些數(shù)據(jù)每5—7秒被重新計(jì)算輸入,然后在64個“機(jī)器演奏者”中形成新的“行為群組”(behavioural groups),這些“行為群組”會在“15個旋律算法”“150個由微分音描述的音高集合”“音量范圍區(qū)間”等多個參數(shù)類別中進(jìn)行選擇,在選擇的同時(shí)有可能還會受到上一次“行為群組”的影響。系統(tǒng)每一次實(shí)時(shí)生成的結(jié)果都是一個新的獨(dú)特的回應(yīng),它有可能會對人類即興演奏者進(jìn)行模仿、對立、配合或者忽略。喬治·路易斯認(rèn)為,Voyager是一種非層次結(jié)構(gòu)的互動音樂環(huán)境,具有即興創(chuàng)作的特權(quán),在這個系統(tǒng)中,不同參數(shù)類別之間不一定須要進(jìn)行相關(guān)計(jì)算。(23)George E. Lewis,“Too Many Notes:Computers,Complexity and Culture in ‘Voyager’”,Leonardo Music Journal,10(2),2000,pp.33-39.
隨著自由即興交互音樂系統(tǒng)近些年的快速發(fā)展,通過機(jī)器聽覺使用一些簡單算法分析音頻內(nèi)容從而產(chǎn)生的計(jì)算機(jī)回應(yīng)已不再能滿足音樂家們的需求。音樂家和研究者已將機(jī)器學(xué)習(xí)大量引入系統(tǒng)研發(fā),通過模仿人類的聽覺認(rèn)知系統(tǒng)來構(gòu)建計(jì)算機(jī)的聽覺認(rèn)知系統(tǒng)。除Voyager之外,包括彼得·貝爾斯(Peter Beyls)、喬納森·恩佩特(Jonathan Impett)、尼克·柯林斯、雷內(nèi)·莫根森(René Mogensen)等眾多音樂家都研究了此類交互音樂系統(tǒng),并且嘗試使用自己的模式和算法建立交互音樂系統(tǒng)。但每個作曲家對于計(jì)算機(jī)產(chǎn)生的即興演奏或即興創(chuàng)作有不同的研究層面和研究方法。例如,尼克·柯林斯提出了機(jī)器聽覺和機(jī)器學(xué)習(xí)結(jié)合的系統(tǒng)結(jié)構(gòu)“聽覺學(xué)習(xí)”(LL:Listening Learning)(24)Collins Nick,“LL:Listening and Learning in an Interactive Improvisation System”,Technical report,University of Sussex,2011.;雷內(nèi)·莫根森稱計(jì)算機(jī)在系統(tǒng)中擁有“部分創(chuàng)造力”(partial creativity),他認(rèn)為使用系統(tǒng)進(jìn)行的表演和創(chuàng)作可以表現(xiàn)出人類創(chuàng)造力和計(jì)算機(jī)創(chuàng)造力互相影響的過程。(25)Mogensen René,“Evaluating an Improvising Computer Implementation as a ‘Partial Creativity’ in a Music Performance System”,Journal of Creative Music Systems,2(1),2017,pp.1-18.在此基礎(chǔ)上,更多關(guān)于計(jì)算機(jī)創(chuàng)造力及其與人類創(chuàng)造力的關(guān)系等問題也開始得到不同領(lǐng)域研究者的關(guān)注。
音頻內(nèi)容分析在音頻特征提取的基礎(chǔ)上對計(jì)算機(jī)的回應(yīng)提出了新的要求。由于即興音樂在概念上完全取決于音樂家或演奏家個人的文化背景和音樂經(jīng)驗(yàn),它們不能夠被準(zhǔn)確定義,或者說不能夠被計(jì)算機(jī)通過使用算法來得到精確的描述。因此在自由即興交互音樂系統(tǒng)中,機(jī)器學(xué)習(xí)變?yōu)橹匾沫h(huán)節(jié)。我們需要在機(jī)器的聽覺系統(tǒng)中建立類似人類的學(xué)習(xí)機(jī)制,使之在不斷和人類即興演奏的同時(shí)學(xué)習(xí)人類演奏的音樂內(nèi)容,分析理解人類演奏的音樂情感,并嘗試預(yù)判人類的演奏等等。這些內(nèi)容或者說這些能力需要人類音樂家和演奏家在演奏中或在建立系統(tǒng)時(shí)不斷地去培養(yǎng)和試驗(yàn)。
音頻描述符種類繁多且擁有不同維度的表達(dá)方式,雖應(yīng)用于交互音樂系統(tǒng)中的感測階段,但不完全取決于感測階段。換句話說,雖然實(shí)時(shí)機(jī)器聽覺需要在感測階段對獲取的音頻內(nèi)容進(jìn)行提取和分析,但具體提取和分析的內(nèi)容實(shí)際上取決于互動策略。每首交互音樂作品都有自己獨(dú)特的互動策略,對于一部使用實(shí)時(shí)機(jī)器聽覺來創(chuàng)作的交互音樂作品同樣如此。
交互音樂作品創(chuàng)作中的科技手段是作曲家和藝術(shù)家創(chuàng)作理念的載體,它們有時(shí)是實(shí)現(xiàn)創(chuàng)作理念的重要工具,有時(shí)也可能成為創(chuàng)作理念的一部分??萍己蛣?chuàng)作理念兩者的關(guān)系在交互音樂作品中互相影響、密不可分?;趯?shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作可根據(jù)音頻信息的不同維度進(jìn)行針對性創(chuàng)作,其創(chuàng)作模式具有一定的共性特點(diǎn)。下面筆者將以代表性作品的創(chuàng)作流程為指引,對作品創(chuàng)作環(huán)節(jié)、實(shí)時(shí)機(jī)器聽覺的應(yīng)用以及表演現(xiàn)場進(jìn)行全面梳理,呈現(xiàn)一部交互音樂作品從構(gòu)思概念到最終表演的完整創(chuàng)作鏈。
交互音樂作品中媒介與電子部分的關(guān)系是實(shí)時(shí)變化的,除了對聲音本身的考慮之外,還需從互動策略角度考慮人機(jī)交互的方式以及現(xiàn)場表演。
本文探討的基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作主要使用聲音數(shù)據(jù)來實(shí)現(xiàn)人機(jī)交互,并且由于現(xiàn)場需要實(shí)時(shí)的音頻數(shù)據(jù)流,而不是系統(tǒng)已加載完成的音頻數(shù)據(jù),因此聲音數(shù)據(jù)的來源被限制為真實(shí)樂器或可以自主發(fā)聲的交互控制器。以真實(shí)樂器為例,其聲音數(shù)據(jù)是貫穿整個創(chuàng)作過程的關(guān)鍵要素,它首先作為輸入源為系統(tǒng)運(yùn)轉(zhuǎn)提供數(shù)據(jù),其次作為控制器對回應(yīng)內(nèi)容進(jìn)行實(shí)時(shí)控制。圖3展示了基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作流程,描述了各個創(chuàng)作環(huán)節(jié)之間的關(guān)聯(lián)和影響。其中圖示左邊是基本創(chuàng)作流程,它顯示了真實(shí)樂器聲音數(shù)據(jù)的輸入方向,由于真實(shí)樂器的聲音數(shù)據(jù)來自于樂譜,因此樂譜創(chuàng)作成為作品理念實(shí)現(xiàn)的第一個創(chuàng)作環(huán)節(jié);交互音樂系統(tǒng)作為作品理念實(shí)現(xiàn)的平臺,將基于聲音數(shù)據(jù)的分析進(jìn)行系統(tǒng)設(shè)計(jì);表演是互動結(jié)果的呈現(xiàn)和展示,也代表了作品理念的最終表達(dá)。圖示右邊描述了交互音樂系統(tǒng)設(shè)計(jì)環(huán)節(jié)的具體內(nèi)容,交互音樂系統(tǒng)是樂譜創(chuàng)作映射至表演現(xiàn)場的重要中間環(huán)節(jié),主要在感測、映射、回應(yīng)三個階段對聲音或其他數(shù)據(jù)進(jìn)行處理,其他媒介也可以在其中使用或不使用感測階段數(shù)據(jù)介入映射階段,與真實(shí)樂器共同影響系統(tǒng)回應(yīng)的內(nèi)容。
圖3.創(chuàng)作流程及主要環(huán)節(jié)圖示
“樂譜創(chuàng)作—交互音樂系統(tǒng)設(shè)計(jì)—作品表演”是創(chuàng)作過程中的具體實(shí)施步驟。與傳統(tǒng)作曲不同,由于交互音樂系統(tǒng)設(shè)計(jì)環(huán)節(jié)的增加,僅僅依靠對樂譜的認(rèn)識并不能評估人類演奏家演奏的最后效果。因此在樂譜的實(shí)際創(chuàng)作過程中,需要通過提前構(gòu)想互動策略來對最終的聲音呈現(xiàn)進(jìn)行預(yù)估,在交互音樂系統(tǒng)設(shè)計(jì)的過程中,也需要提前對現(xiàn)場表演進(jìn)行預(yù)估。通過不斷地對最終效果進(jìn)行預(yù)判,可以避免后期出現(xiàn)的效果不融合、不匹配等問題。雖然在創(chuàng)作過程中可以提前對下一環(huán)節(jié)的結(jié)果進(jìn)行預(yù)估,但是真正呈現(xiàn)的效果往往會由于系統(tǒng)計(jì)算的原因而與想象的結(jié)果之間出現(xiàn)誤差。因此,我們需要在多次排練中進(jìn)行互動策略的試驗(yàn),無論是針對機(jī)器回應(yīng)內(nèi)容的誤差還是表演者現(xiàn)場表演效果的誤差,都需要對交互音樂系統(tǒng)或樂譜進(jìn)行調(diào)整。
總之,基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作是由一系列互相影響的創(chuàng)作環(huán)節(jié)構(gòu)成,不同創(chuàng)作環(huán)節(jié)之間關(guān)系緊密,需要共同配合才能完成作品的最終呈現(xiàn)。
與一般的交互音樂作品不同的是,基于實(shí)時(shí)機(jī)器聽覺的交互音樂作品應(yīng)著重體現(xiàn)其在分析聲音數(shù)據(jù)方面的特點(diǎn)和優(yōu)勢。我們在前文中已經(jīng)介紹了實(shí)時(shí)機(jī)器聽覺的應(yīng)用原理以及它所包含的不同維度的音頻描述符。在實(shí)際創(chuàng)作過程中,把握實(shí)時(shí)機(jī)器聽覺應(yīng)用的目的以及如何依托作品理念進(jìn)行應(yīng)用是需要重點(diǎn)關(guān)注的問題。
實(shí)時(shí)機(jī)器聽覺需要通過對聲音數(shù)據(jù)的分析才能得到應(yīng)用,聲音數(shù)據(jù)是貫穿互動策略最核心的要素,但系統(tǒng)中的聲音數(shù)據(jù)不能僅僅作為一個輸入信號來整體考慮。我們在實(shí)時(shí)機(jī)器聽覺的應(yīng)用過程中需要充分考慮以及體現(xiàn)聲音數(shù)據(jù)中不同特征數(shù)據(jù)的使用價(jià)值。具體的應(yīng)用取決于樂譜創(chuàng)作或無固定樂譜的現(xiàn)場表演,樂譜創(chuàng)作或表演是聲音數(shù)據(jù)的來源。樂譜中的音樂表達(dá)和表演者的音樂表演姿態(tài)都對機(jī)器回應(yīng)有直接影響,因此在實(shí)時(shí)機(jī)器聽覺的應(yīng)用過程中需著重考量樂譜內(nèi)容及其表演,并對其映射方式及結(jié)果提前作出規(guī)劃。只有對樂譜或表演中可利用的有效特征進(jìn)行提取和分析,才能更合理地設(shè)計(jì)人機(jī)互動中的創(chuàng)意和細(xì)節(jié)。
實(shí)時(shí)機(jī)器聽覺中不同維度的音頻描述符有各自不同的應(yīng)用價(jià)值,且不同維度音頻描述符之間沒有明確、具體的劃分界限。根據(jù)羅伯特·羅在其著作《交互音樂系統(tǒng)》(26)Robert Rowe,Interactive Music Systems,Cambridge:MIT Press,1993.中對交互音樂系統(tǒng)分類的方式,我們可以大致判定較低級別音頻描述符的使用屬于樂器模式,其作用主要是為了拓寬樂器的演奏性能,而高級別的音頻描述符由于更接近人類聽覺系統(tǒng),在應(yīng)用上偏向于演奏者模式,其作用是為人類演奏家提供近乎平等的“演奏伙伴”。然而,在實(shí)際創(chuàng)作過程中,羅伯特·羅的分類方式只能幫助創(chuàng)作者對系統(tǒng)進(jìn)行大致規(guī)劃,具體分類的依據(jù)可能會限制和困擾創(chuàng)作者對實(shí)時(shí)機(jī)器聽覺的定位以及音頻描述符的選擇。因此,在實(shí)時(shí)機(jī)器聽覺具體應(yīng)用的過程中,要注重創(chuàng)作理念而不是具體系統(tǒng)類型,針對最后想要呈現(xiàn)的效果而不是一味地提升音頻描述符的使用級別。以尼克·柯林斯作品《替代品》(Substituet)(27)《替代品》是由尼克·柯林斯于2006年創(chuàng)作的為羽管鍵琴和巴洛克豎笛而作的交互音樂。為例,作品原理是由從一件樂器中提取的聲音數(shù)據(jù)來控制從另一個樂器中提取的聲音數(shù)據(jù),其靈感來源于巴洛克時(shí)期的復(fù)調(diào)作品(28)Nick Collins,Towards Autonomous Agents for live Computer Music:Realtime Machine Listening and Interactive Music Systems [D],Centre for Music and Science,F(xiàn)aculty of Music,University of Cambridge,2006,p.195.。尼克·柯林斯在固定樂譜方面做了很多巧妙的設(shè)計(jì),尤其是當(dāng)其中一位演奏家單獨(dú)演奏時(shí),演奏家與開啟的合成音色庫會營造出真實(shí)樂器和虛擬樂器互相模仿的“假象”。
實(shí)時(shí)機(jī)器聽覺的應(yīng)用是幫助作品完成人機(jī)互動的首要步驟。對輸入聲音的認(rèn)知是其應(yīng)用的基礎(chǔ)。不同類型的音樂或聲音有各自不同的特點(diǎn),我們需要對音樂內(nèi)容進(jìn)行不同層面的分析,對最適合體現(xiàn)作品理念的,在映射階段最有效控制聲音效果的特征數(shù)據(jù)進(jìn)行提取和分析,只有合理恰當(dāng)?shù)貞?yīng)用實(shí)時(shí)機(jī)器聽覺才能體現(xiàn)其應(yīng)用價(jià)值和意義。
表演決定了作品理念的最終呈現(xiàn)效果,一個優(yōu)秀的表演現(xiàn)場需要呈現(xiàn)易于理解的互動方式。透過表演現(xiàn)場的宏觀表現(xiàn),我們不難發(fā)現(xiàn)許多經(jīng)過系統(tǒng)處理后的聲音信號或其他信號在表演現(xiàn)場可能會出現(xiàn)不融合、互相干擾或表達(dá)不清晰等問題。接下來,筆者將從表演現(xiàn)場的角度探討作品整體的呈現(xiàn)效果,涉及不同媒介對數(shù)據(jù)的處理以及表演形式的構(gòu)想,指出表演現(xiàn)場中可能出現(xiàn)的問題,并提出一些常規(guī)的建議和看法。
關(guān)于表演現(xiàn)場的聲音效果,我們在創(chuàng)作環(huán)節(jié)中已經(jīng)探討過,互動策略需要在彩排時(shí)多次試驗(yàn)和調(diào)整才能盡可能地避免計(jì)算數(shù)據(jù)在聲音效果上產(chǎn)生的誤差,其他媒介同時(shí)介入映射階段也是如此。多個媒介的映射需要互相配合,無論使用哪種方式映射,都要始終清晰地展現(xiàn)媒介與其回應(yīng)效果之間的映射路徑,避免多個媒介在同時(shí)映射時(shí)導(dǎo)致的回應(yīng)聲音效果互相干擾和混淆的現(xiàn)象。關(guān)于表演現(xiàn)場的表演形式,多媒介表演是一種融合性表演。為了盡可能使表演流暢,且體現(xiàn)不同媒介的參與程度,創(chuàng)作者需要對人類演奏家的表演進(jìn)行一些思考。比如一位人類演奏家在演奏真實(shí)樂器的過程中能否同時(shí)操作其他交互控制器?是否有必要為其他媒介的表演增加其他人類演奏家?另外,如果有除聲音外的燈光、視頻、圖像等其他媒介參與回應(yīng)時(shí),則需考慮舞臺效果是否混亂。我們始終需要牢記,任何媒介的表演都不是單獨(dú)呈現(xiàn)的,表演是一個整體,需要存在一定的互動規(guī)律才能使創(chuàng)作的核心理念更牢固。
以筆者的作品《卡戎》(Charon)(29)《卡戎》是筆者于2020年為古箏、小提琴和現(xiàn)場電子音樂而作的交互音樂作品。為例,該作品的創(chuàng)作結(jié)合了中國樂器(古箏)、西方樂器(小提琴)、電子采樣和電子效果多種不同類型的音色,其交互音樂系統(tǒng)設(shè)計(jì)致力于創(chuàng)造不同音色之間的交互作用,利用不同音色之間的互動推動作品的發(fā)展。在具體交互方案部分,小提琴部分通過實(shí)時(shí)機(jī)器聽覺提取其聲音的起音、音高、速度、包絡(luò)等特征數(shù)據(jù),然后分別在作品的5個階段使用不同的交互方案實(shí)時(shí)控制6個電子采樣的運(yùn)動變化。古箏部分除了通過實(shí)時(shí)機(jī)器聽覺提取其聲音的響度、起音等特征數(shù)據(jù)實(shí)時(shí)控制古箏的混響和延時(shí)效果之外,同時(shí)還使用Myo臂環(huán)(30)Myo臂環(huán)是一款由加拿大Thalmic Labs推出的可穿戴設(shè)備,它可以通過讀取穿戴者小臂的表面肌電信號識別穿戴者的手勢運(yùn)動。收集演奏家左臂的運(yùn)動數(shù)據(jù),這些運(yùn)動數(shù)據(jù)首先通過OSC(31)OSC (Open Sound Control)是一種基于以太網(wǎng)使各種設(shè)備(計(jì)算機(jī)等)之間互相傳輸信息的通訊協(xié)議。傳輸至Max平臺,然后在平臺上進(jìn)行數(shù)據(jù)處理和機(jī)器學(xué)習(xí),最后將訓(xùn)練和處理好的5個動作指令映射出6種聲音效果。古箏演奏家在表演時(shí)一方面利用演奏聲音控制古箏電子效果的變化,另一方面通過Myo臂環(huán)識別到的左臂動作控制其他電子效果的變化,兩種不同信息類型的映射結(jié)果同時(shí)進(jìn)行,共同構(gòu)成機(jī)器的回應(yīng)內(nèi)容。
除了互動策略設(shè)計(jì)對表演現(xiàn)場的影響之外,由于感測聲音數(shù)據(jù)對作品交互音樂系統(tǒng)的運(yùn)轉(zhuǎn)非常重要。如果交互控制器的信號為數(shù)字音頻信號,則不受現(xiàn)場表演的聲場環(huán)境和拾音方式的影響,但如果交互控制器例如真實(shí)樂器的發(fā)聲為模擬信號,則對表演現(xiàn)場有較高的要求。首先,拾取聲音的麥克風(fēng)一般使用心形或超心形指向的麥克風(fēng),此類麥克風(fēng)指向性強(qiáng),可以隔絕多余的環(huán)境噪音和周圍其他樂器的聲音;其次,在多個發(fā)聲媒介同時(shí)表演的情況下,要注意媒介之間的物理距離,避免收集聲音數(shù)據(jù)時(shí)互相干擾;最后,表演現(xiàn)場的聲場環(huán)境需要提前試驗(yàn),因?yàn)辂溈孙L(fēng)對聲音數(shù)據(jù)的收集非常靈敏,任何聲場環(huán)境中潛在的噪音都可能會對拾音產(chǎn)生影響,所以在彩排時(shí)需要提前對表演環(huán)境中的環(huán)境噪音設(shè)立闕值,既要保證聲音數(shù)據(jù)有一定的靈敏度,同時(shí)也要保證聲音數(shù)據(jù)的穩(wěn)定性。
基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作模式具有一般性的特點(diǎn),但也在具體實(shí)踐中存在一定的特殊性。通過對創(chuàng)作過程中一些典型情況的思考,筆者指出了創(chuàng)作的主要內(nèi)容和需要規(guī)避的常見問題,在明確創(chuàng)作重點(diǎn)的基礎(chǔ)上,試圖整合創(chuàng)作的核心思路和基本方向。
隨著交互音樂的不斷發(fā)展,人機(jī)交互的方式呈現(xiàn)出多元化的發(fā)展趨勢,基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作隨著科技的進(jìn)步未來仍有較大的發(fā)展空間,但也面臨不可忽視的挑戰(zhàn)。
機(jī)器聽覺是在人類聽覺機(jī)制的啟發(fā)下產(chǎn)生的,雖然在系統(tǒng)構(gòu)造等基本原理上試圖無限接近人類,但是由于存在與人類完全不同的聽覺理念與邏輯結(jié)構(gòu),從而賦予了交互音樂創(chuàng)作開放性的特點(diǎn)。機(jī)器聽覺中各類音頻描述符可以單獨(dú)、靈活地使用,創(chuàng)作者在一部作品中可以使用其中一種或幾種聲音特征進(jìn)行創(chuàng)作,也可以將多種特征整合為高級特征進(jìn)行使用和創(chuàng)作,并且機(jī)器聽覺只能擁有相對統(tǒng)一、固定的聽覺模式,不像人類一樣可以自由進(jìn)行建構(gòu)。換句話說,機(jī)器聽覺的模式可以模擬人類,也可以完全不同于人類。因此,在創(chuàng)作過程中我們可以根據(jù)自身的創(chuàng)作需求選擇合適的音頻描述符進(jìn)行創(chuàng)作,或通過建構(gòu)獨(dú)立個性的人工神經(jīng)網(wǎng)絡(luò)模型為創(chuàng)作者提供專屬的“演奏伙伴”。
雖然音頻描述符的多樣性和靈活性為創(chuàng)作者提供了較為寬廣的創(chuàng)作空間,但同時(shí)也會給創(chuàng)作帶來一定的局限性。由于音頻描述符的種類繁多,內(nèi)部結(jié)構(gòu)復(fù)雜,擁有復(fù)雜創(chuàng)意或需要建構(gòu)復(fù)雜人工神經(jīng)網(wǎng)絡(luò)模型的作品對創(chuàng)作者的編程能力有很高的要求,可能會在技術(shù)層面限制和困擾創(chuàng)作者創(chuàng)作理念的實(shí)施。另外,特殊的即興演奏系統(tǒng)需要使用一定數(shù)量的音樂數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),這在音樂版權(quán)方面可能存在爭議。因此,雖然機(jī)器聽覺的應(yīng)用使機(jī)器擁有了類似人類的聽覺系統(tǒng),但實(shí)際上不一定會使交互音樂創(chuàng)作更便利,相反有時(shí)可能會使創(chuàng)作更復(fù)雜。
在基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作中,實(shí)時(shí)機(jī)器聽覺為互動策略提供了新的互動形式,而由實(shí)時(shí)機(jī)器聽覺激發(fā)的機(jī)器創(chuàng)造力和潛力則為創(chuàng)作提供了創(chuàng)作思路和創(chuàng)作靈感。如何看待實(shí)時(shí)機(jī)器聽覺引發(fā)的創(chuàng)造力和潛力是一個具有爭議性的問題,機(jī)器聽覺在模擬人類聽覺系統(tǒng)結(jié)構(gòu)的過程中需要尋找人類潛在的誘發(fā)基因,才能解決機(jī)器聽覺的真正“思維”結(jié)構(gòu)。但大多數(shù)證據(jù)表明人類認(rèn)知系統(tǒng)的復(fù)雜性是不能被完美模擬的,優(yōu)化機(jī)器思維結(jié)構(gòu)是一個持久并且可能不會被解決的問題,因此機(jī)器可能永遠(yuǎn)無法擁有人類所定義的“創(chuàng)造力”和“潛力”。但從另一個角度來看,最佳的音樂創(chuàng)造性輸出應(yīng)該是一個音樂審美的問題。對于藝術(shù)化的音樂創(chuàng)作,機(jī)器的創(chuàng)造力和潛力不需要完全等同于人類,且機(jī)器聽覺的不完美也許會造就新的音樂審美。也就是說,機(jī)器在某方面可能存在未知的“創(chuàng)造力”和“潛力”,而這些“創(chuàng)造力”和“潛力”與人類提出的定義和解釋可能不同。關(guān)于實(shí)時(shí)機(jī)器聽覺激發(fā)的機(jī)器創(chuàng)造力和潛力,作曲家和藝術(shù)家更需要關(guān)注的是如何給予計(jì)算機(jī)系統(tǒng)文化屬性和個體屬性,以及計(jì)算機(jī)的記憶應(yīng)該以何種方式進(jìn)行“衰退”(32)此處“衰退”是讓計(jì)算機(jī)模仿人類的記憶力“衰退”。眾所周知,人類的記憶力會隨時(shí)間而衰退,但計(jì)算機(jī)不會做出此行為,此處用“衰退”一詞是想強(qiáng)調(diào):如果使計(jì)算機(jī)的記憶模仿人類進(jìn)行“衰退”(比如,通過計(jì)算函數(shù)定時(shí)刪掉某些之前儲存的數(shù)據(jù)),這種方式會如何影響交互結(jié)果。。這些衰退是否會形成新的音樂審美價(jià)值,也是一個需要討論的問題。
總之,利用機(jī)器聽覺開發(fā)和發(fā)掘的機(jī)器創(chuàng)造力和潛力對交互音樂創(chuàng)作有不同程度的影響,除了在回應(yīng)內(nèi)容上激發(fā)創(chuàng)作者的創(chuàng)作之外,還可以引發(fā)創(chuàng)作者對交互音樂創(chuàng)作模式、人機(jī)思維模式等其他方面更多的思考。
人類與計(jì)算機(jī)系統(tǒng)的互動是一種變革性的創(chuàng)新,這一方式必然與人類和人類的互動有所區(qū)別。本文以聲音特征數(shù)據(jù)作為研究基礎(chǔ),以人類在互動中的音樂體驗(yàn)為研究參考,對基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作展開討論。探索人類與計(jì)算機(jī)系統(tǒng)互動的本質(zhì)不僅對交互音樂創(chuàng)作中的人機(jī)互動策略有指導(dǎo)意義,也對交互音樂創(chuàng)作中的人機(jī)互動理念有推動作用。
基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作研究是一項(xiàng)復(fù)雜的跨學(xué)科研究,無論是對實(shí)時(shí)機(jī)器聽覺技術(shù)的研究、對基于實(shí)時(shí)機(jī)器聽覺的互動策略的研究,還是對實(shí)時(shí)機(jī)器聽覺引發(fā)的機(jī)器創(chuàng)造力的研究等,都仍需要進(jìn)行更多理論和實(shí)踐方面的探索。促進(jìn)創(chuàng)作理念和互動策略不斷創(chuàng)新是基于實(shí)時(shí)機(jī)器聽覺的交互音樂創(chuàng)作的發(fā)展目標(biāo)。未來依托音樂人工智能技術(shù)的發(fā)展,實(shí)時(shí)機(jī)器聽覺的研究會更加注重人機(jī)聽覺系統(tǒng)之間的相關(guān)性、差異性以及顯著性,而針對此類型交互音樂創(chuàng)作的研究也將在技術(shù)的推動下發(fā)現(xiàn)更多的發(fā)展路徑。