李 偉,李子晉,高永偉
(1.復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203; 2.復(fù)旦大學(xué) 上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200433;3.中國(guó)音樂(lè)學(xué)院 音樂(lè)科技系,北京 100101)
音樂(lè)與科技的融合具有悠久的歷史.早在20世紀(jì)50年代,一些不同國(guó)家的作曲家、工程師和科學(xué)家已經(jīng)開(kāi)始探索利用新的數(shù)字技術(shù)來(lái)處理音樂(lè),并逐漸形成了音樂(lè)科技/計(jì)算機(jī)音樂(lè)(Music Technology/Computer Music)這一交叉學(xué)科.20世紀(jì)70年代之后,歐美各國(guó)相繼建立了多個(gè)大型計(jì)算機(jī)音樂(lè)研究機(jī)構(gòu),如1975年建立的美國(guó)斯坦福大學(xué)CCRMA(Center for Computer Research in Music and Acoustics)、1977年建立的法國(guó)巴黎IRCAM(Institute for Research and Coordination Acoustic/Music)、1994年成立的西班牙巴塞羅那UPF(Universitat Pompeu Fabra)的MTG(Music Technology Group)以及2001年成立的英國(guó)倫敦女王大學(xué)C4DM(Center for Digital Music)等.在歐美之后,音樂(lè)科技在世界各地都逐漸發(fā)展起來(lái),歐洲由于其濃厚的人文和藝術(shù)氣息成為該領(lǐng)域的世界中心.該學(xué)科在中國(guó)大陸發(fā)展較晚,大約20世紀(jì)90年代中期開(kāi)始有零散的研究,由于各方面的限制,至今仍處于起步階段[1].
音樂(lè)科技分為兩個(gè)子領(lǐng)域: 一是基于科技的音樂(lè)創(chuàng)作;二是數(shù)字音頻與音樂(lè)技術(shù)的科學(xué)技術(shù)研究.本文內(nèi)容限于后一領(lǐng)域.音樂(lè)科技具有眾多應(yīng)用,例如數(shù)字樂(lè)器、音樂(lè)制作與編輯、音樂(lè)信息檢索、數(shù)字音樂(lè)圖書(shū)館、交互式多媒體、音頻接口、輔助醫(yī)學(xué)治療等.這些應(yīng)用背后的科學(xué)研究通常稱為聲音與音樂(lè)計(jì)算(Sound and Music Computing, SMC),在20世紀(jì)90年代中期被定義為國(guó)際計(jì)算機(jī)學(xué)會(huì)(Association for Computing Machinery, ACM)的標(biāo)準(zhǔn)術(shù)語(yǔ)[2].SMC是一個(gè)多學(xué)科交叉的研究領(lǐng)域.在科技方面涉及到聲學(xué)(Acoustics)、音頻信號(hào)處理(Audio Signal Processing)、機(jī)器學(xué)習(xí)(Machine Learning)、人機(jī)交互(Human-Machine Interaction)等學(xué)科;在音樂(lè)方面涉及作曲(Composition)、音樂(lè)制作(Music Creation)、聲音設(shè)計(jì)(Sound Design)等學(xué)科.國(guó)際上已有多個(gè)側(cè)重點(diǎn)不同的國(guó)際會(huì)議和期刊,如1972年創(chuàng)刊的JNMR(Journal of New Music Research)、1974年建立的ICMC(International Conference on Computer Music)、1977年創(chuàng)刊的CMJ(Computer Music Journal)、2000年建立的ISMIR(International Society for Music Information Retrieval Conference)等.
SMC是一個(gè)龐大的研究領(lǐng)域,可細(xì)化為以下4個(gè)學(xué)科分支.(1) 聲音與音樂(lè)信號(hào)處理: 用于聲音和音樂(lè)的信號(hào)分析、變換及合成,例如頻譜分析(Spectral Analysis)、調(diào)幅(Magnitude Modulation)、調(diào)頻(Frequency Modulation)、低通/高通/帶通/帶阻濾波(Low-pass/High-pass/Band-pass/Band-stop Filtering)、轉(zhuǎn)碼(Transcoding)、無(wú)損/有損壓縮(Lossless/Lossy Compression)、重采樣(Resampling)、回聲(Echo)、混音(Remixing)、去噪(Denoising)、變調(diào)PS(Pitch Shifting)、保持音高不變的時(shí)間伸縮(Time-Scale Modification/Time Stretching, TSM)、線性時(shí)間縮放(Time Scaling)等.該分支相對(duì)比較成熟,已有多款商業(yè)軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等.(2) 聲音與音樂(lè)的理解分析: 使用計(jì)算方法對(duì)數(shù)字化聲音與音樂(lè)的內(nèi)容進(jìn)行理解和分析,例如音樂(lè)識(shí)譜、旋律提取、節(jié)奏分析、和弦識(shí)別、音頻檢索、流派分類、情感分析、歌手識(shí)別、歌唱評(píng)價(jià)、歌聲分離等.該分支在20世紀(jì)90年代末隨著互聯(lián)網(wǎng)上數(shù)字音頻和音樂(lè)的急劇增加而發(fā)展起來(lái),研究難度大,多項(xiàng)研究?jī)?nèi)容至今仍在持續(xù)進(jìn)行中.與計(jì)算機(jī)視覺(jué)(Computer Vision, CV)對(duì)應(yīng),該分支也可稱為計(jì)算機(jī)聽(tīng)覺(jué)(Computer Audition, CA)或機(jī)器聽(tīng)覺(jué)(Machine Listening, ML)[3].注意計(jì)算機(jī)聽(tīng)覺(jué)是用來(lái)理解分析而不是處理音頻和音樂(lè)[4],且不包括語(yǔ)音.語(yǔ)音信息處理的歷史要更早數(shù)十年,發(fā)展相對(duì)成熟,已獨(dú)立成為一門(mén)學(xué)科,包含語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、語(yǔ)種識(shí)別、語(yǔ)音分離、計(jì)算語(yǔ)言學(xué)等多個(gè)研究領(lǐng)域.CA若剔除一般聲音而局限于音樂(lè),則可稱為音樂(lè)信息檢索(Music Information Retrieval, MIR),這也是本文主要的介紹內(nèi)容.(3) 音樂(lè)與計(jì)算機(jī)的接口設(shè)計(jì): 包括音響及多聲道聲音系統(tǒng)的開(kāi)發(fā)與設(shè)計(jì)、聲音裝置等.該分支偏向音頻工程應(yīng)用.(4) 計(jì)算機(jī)輔助音樂(lè)創(chuàng)作: 包括算法作曲、計(jì)算機(jī)音樂(lè)制作、音效及聲音設(shè)計(jì)等.該分支偏向藝術(shù)創(chuàng)作.
與音樂(lè)有關(guān)但是與SMC不同的另一個(gè)歷史更悠久的學(xué)科是音樂(lè)聲學(xué)(Music Acoustics).音樂(lè)聲學(xué)是研究在音樂(lè)這種聲音振動(dòng)中存在的物理問(wèn)題的科學(xué),是音樂(lè)學(xué)與物理學(xué)的交叉學(xué)科.音樂(lè)聲學(xué)主要研究樂(lè)音與噪聲的區(qū)別、音高音強(qiáng)和音色的物理本質(zhì)、基于電磁振蕩的電聲學(xué)、聽(tīng)覺(jué)器官的聲波感受機(jī)制、樂(lè)器聲學(xué)、人類發(fā)聲機(jī)制、音律學(xué)、與音樂(lè)有關(guān)的室內(nèi)聲學(xué)等.從學(xué)科的角度看,一部分音樂(lè)聲學(xué)知識(shí)也是SMC的基礎(chǔ),但SMC研究更依賴于音頻信號(hào)處理和機(jī)器學(xué)習(xí)這兩門(mén)學(xué)科.同時(shí),研究?jī)?nèi)容面向音頻與音樂(lè)的信號(hào)處理、內(nèi)容分析和理解,與更偏重于解決振動(dòng)相關(guān)物理問(wèn)題的音樂(lè)聲學(xué)也有較大區(qū)別.為更清楚地理解各學(xué)科之間的區(qū)別與聯(lián)系,我們將音樂(lè)科技及聽(tīng)覺(jué)研究各領(lǐng)域關(guān)系分別示于圖1和圖2.
圖1 音樂(lè)科技各領(lǐng)域關(guān)系圖Fig.1 A relation graph of different music technology fields
圖2 聽(tīng)覺(jué)研究各領(lǐng)域關(guān)系圖Fig.2 A relation graph of different auditory research fields
從20世紀(jì)90年代中期開(kāi)始,互聯(lián)網(wǎng)在世界范圍內(nèi)迅速普及.同時(shí),以MP3(MPEG-1 Layer 3)為代表的音頻壓縮技術(shù)開(kāi)始大規(guī)模應(yīng)用.此外,半導(dǎo)體技術(shù)和工藝的迅猛發(fā)展使得硬盤(pán)等存儲(chǔ)設(shè)備的容量越來(lái)越大.這幾大因素使得傳統(tǒng)的黑膠唱片、磁帶、CD光盤(pán)等音樂(lè)介質(zhì)幾乎消失,取而代之的是在電腦硬盤(pán)上存儲(chǔ),在互聯(lián)網(wǎng)上傳輸、下載和聆聽(tīng)的數(shù)字音樂(lè).海量的數(shù)字音樂(lè)直接促使了音樂(lè)信息檢索(MIR)技術(shù)的產(chǎn)生,其內(nèi)涵早已從最初的狹義音樂(lè)檢索擴(kuò)展到使用計(jì)算手段對(duì)數(shù)字音樂(lè)進(jìn)行內(nèi)容分析理解的大型科研領(lǐng)域,包含數(shù)十項(xiàng)研究課題.2000年國(guó)際音樂(lè)信息檢索學(xué)術(shù)會(huì)議(ISMIR)的建立可以視為這一領(lǐng)域的正式創(chuàng)建.
基于內(nèi)容的音樂(lè)信息檢索(及相關(guān)音樂(lè)科技)有很多應(yīng)用.在娛樂(lè)相關(guān)領(lǐng)域,典型應(yīng)用包括聽(tīng)歌識(shí)曲、哼唱/歌唱檢索、翻唱檢索、曲風(fēng)分類、音樂(lè)情感計(jì)算、音樂(lè)推薦、彩鈴制作、卡拉OK應(yīng)用、伴奏生成、自動(dòng)配樂(lè)、音樂(lè)內(nèi)容標(biāo)注、歌手識(shí)別、模仿秀評(píng)價(jià)、歌唱評(píng)價(jià)、歌聲合成及轉(zhuǎn)換、智能作曲、數(shù)字樂(lè)器、音頻/音樂(lè)編輯制作等.在音樂(lè)教育及科研領(lǐng)域,典型應(yīng)用包括計(jì)算音樂(lè)學(xué)、視唱練耳及樂(lè)理輔助教學(xué)、聲樂(lè)及各種樂(lè)器輔助教學(xué)、數(shù)字音頻/音樂(lè)圖書(shū)館等.在日常生活、心理及醫(yī)療、知識(shí)產(chǎn)權(quán)等其他領(lǐng)域,還包括樂(lè)器音質(zhì)評(píng)價(jià)及輔助購(gòu)買(mǎi)、音樂(lè)理療及輔助醫(yī)療、音樂(lè)版權(quán)保護(hù)及盜版追蹤等應(yīng)用.此外,在電影及很多視頻中,音頻及音樂(lè)都可以用來(lái)輔助視覺(jué)內(nèi)容進(jìn)行分析.以上應(yīng)用均可以在電腦、智能手機(jī)、音樂(lè)機(jī)器人等各種平臺(tái)上進(jìn)行實(shí)現(xiàn).
早期的MIR技術(shù)以符號(hào)音樂(lè)(Symbolic Music)如MIDI(Musical Instrument Digital Interface)為研究對(duì)象.由于其具有準(zhǔn)確的音高、時(shí)間等信息,很快就發(fā)展得比較成熟.后續(xù)研究很快轉(zhuǎn)為以音頻信號(hào)為研究對(duì)象,研究難度急劇上升.隨著該領(lǐng)域研究的不斷深入,如今MIR技術(shù)已經(jīng)不僅僅指早期狹義的音樂(lè)搜索,而從更廣泛的角度上包含了音樂(lè)信息處理的所有子領(lǐng)域.我們根據(jù)自己的理解,將MIR領(lǐng)域的幾十個(gè)研究課題歸納為核心層和應(yīng)用層共9個(gè)部分(圖3).核心層包含與各大音樂(lè)要素(如音高與旋律、音樂(lè)節(jié)奏、音樂(lè)和聲等)及歌聲信息處理相關(guān)的子領(lǐng)域,應(yīng)用層則包含在核心層基礎(chǔ)上更偏向應(yīng)用的子領(lǐng)域(如音樂(lè)搜索、音樂(lè)情感計(jì)算、音樂(lè)推薦等).下面依次對(duì)其概念、原理、基本技術(shù)框架以及典型算法進(jìn)行介紹.
圖3 音樂(lè)信息檢索(MIR)的研究領(lǐng)域Fig.3 Illustration of MIR research topics
MIR研究領(lǐng)域的科研涉及一些基本的樂(lè)理知識(shí),在圖4中匯總顯示,在下述文字中可參照理解.
圖4 MIR的研究領(lǐng)域常用的基本樂(lè)理常識(shí)Fig.4 Musical knowledge commonly used in MIR
音樂(lè)中每個(gè)音符都具有一定的音高屬性.若干個(gè)音符經(jīng)過(guò)藝術(shù)構(gòu)思按照節(jié)奏及和聲結(jié)構(gòu)(Harmonic Structure)形成多個(gè)序列,其中反映音樂(lè)主旨的序列稱為主旋律,是最重要的音樂(lè)要素,其余序列分別為位于高、中、低音聲部的伴奏.該子領(lǐng)域主要包括音高檢測(cè)、旋律提取和音樂(lè)識(shí)譜等任務(wù).
2.1.1 音高檢測(cè)
音高(Pitch)由周期性聲音波形的最低頻率即基頻決定,是聲音的重要特性.音高檢測(cè)(Pitch Detection)也稱為基頻估計(jì)(Fundamental Frequency/f0Estimation),是語(yǔ)音及音頻、音樂(lè)信息處理中的關(guān)鍵技術(shù)之一.音高檢測(cè)技術(shù)最早面向語(yǔ)音信號(hào),在時(shí)域包括經(jīng)典的自相關(guān)算法[5]、YIN算法[6]、最大似然算法[7]、SIFT(Simplified Inverse Filter Tracking)濾波器算法[8]以及超分辨率算法[9]等;在頻域包括基于正弦波模型[10]、倒譜變換[11]、小波變換[12]等的各種方法.一個(gè)好的算法應(yīng)該對(duì)聲音偏低偏高者都適用,而且對(duì)噪音魯棒.
在MIR技術(shù)中,音高檢測(cè)被擴(kuò)展到多聲部/多音音樂(lè)(Polyphonic Music)中的歌聲信號(hào).由于各種樂(lè)器伴奏的存在,檢測(cè)歌聲的音高更加具有挑戰(zhàn)性.直觀上首先進(jìn)行歌聲與伴奏分離有助于更準(zhǔn)確的檢測(cè)歌聲音高[13],估計(jì)每個(gè)音頻幀(Frame)上的歌聲音高范圍也可以減少樂(lè)器或歌聲泛音(Partial)引起的錯(cuò)誤尤其是八度錯(cuò)誤(Octave Errors)[14-15],融合幾個(gè)音高跟蹤器的結(jié)果也有希望得到更高的準(zhǔn)確率[16].此外,相鄰音符并非孤立存在,而是按照旋律與和聲有機(jī)地連接,可用隱馬爾科夫模型(Hidden Markov Model, HMM)等時(shí)序建模工具進(jìn)行糾錯(cuò)[17].除了歌聲,Goto等使用期望最大化(Expectation Maximization, EM)方法并結(jié)合時(shí)域連續(xù)性來(lái)估計(jì)旋律和低音線的基頻[18].
2.1.2 旋律提取
旋律提取(Melody Extraction)從多聲部/多音音樂(lè)信號(hào)中提取單聲部/單音(Monophonic)主旋律,是MIR領(lǐng)域的核心問(wèn)題之一.在音樂(lè)檢索、抄襲檢測(cè)、歌唱評(píng)價(jià)、作曲家風(fēng)格分析等多個(gè)子領(lǐng)域中具有重要應(yīng)用.從音樂(lè)信號(hào)中提取主旋律的方法主要分為3類: 即音高重要性法(Pitch-salience based Melody Extraction)[19-20]、歌聲分離法(Singing Separation based Melody Extraction)[21-22]及數(shù)據(jù)驅(qū)動(dòng)的音符分類法(Data-driven Note Classification)[23].第一類方法依賴于每個(gè)音頻幀上的旋律音高提取,這本身就是一個(gè)極困難的問(wèn)題.此外還涉及旋律包絡(luò)線的選擇和聚集等后處理問(wèn)題.第三類方法單純依賴于統(tǒng)計(jì)分類器,難以處理各種各樣的復(fù)雜多聲部/多音音樂(lè)信號(hào).相比之下,我們認(rèn)為第二類方法具有更好的前景.這里并不需要完全徹底的音源分離,而只需要像文獻(xiàn)[21]那樣根據(jù)波動(dòng)性和短時(shí)性特點(diǎn)進(jìn)行旋律成分增強(qiáng)或像文獻(xiàn)[22]那樣通過(guò)概率隱藏成分分析(Probabilistic Latent Component Analysis, PLCA)學(xué)習(xí)非歌聲部分的統(tǒng)計(jì)模型進(jìn)行伴奏成分消減,之后即可采用自相關(guān)等音高檢測(cè)方法提取主旋律線(Predominant Melody Lines).以上各種方法還面臨一些共同的困難,如八度錯(cuò)誤,如何提取純器樂(lè)的主旋律等[24].
2.1.3 音樂(lè)識(shí)譜
音樂(lè)可分為單聲部/單音和多聲部/多音.單聲部/單音音樂(lè)在某一時(shí)刻只有一個(gè)樂(lè)器或歌唱的聲音,使用2.1.1節(jié)中的音高檢測(cè)技術(shù)即可進(jìn)行比較準(zhǔn)確的單聲部/單音音樂(lè)識(shí)譜(Monophonic Music Transcription).目前急需解決的是多聲部/多音音樂(lè)識(shí)譜(Polyphonic Music Transcription),即從一段音樂(lè)信號(hào)中識(shí)別每個(gè)時(shí)刻同時(shí)發(fā)聲的各個(gè)音符,形成樂(lè)譜并記錄下來(lái),俗稱扒帶子.由于音樂(lè)信號(hào)包含多種按和聲結(jié)構(gòu)存在的樂(lè)器和歌聲,頻譜重疊現(xiàn)象普遍,音樂(lè)識(shí)譜(Music Transcription)極具挑戰(zhàn)性,是MIR領(lǐng)域的核心問(wèn)題之一.同時(shí),音樂(lè)識(shí)譜具有很多應(yīng)用,如音樂(lè)信息檢索、音樂(lè)教育、樂(lè)器及多說(shuō)話人音源分離[25]、顫音和滑音(Glissando)標(biāo)注等[26].
多聲部/多音音樂(lè)識(shí)譜系統(tǒng)首先將音樂(lè)信號(hào)分割為時(shí)間單元序列,然后對(duì)每個(gè)時(shí)間單元進(jìn)行多音高/多基頻估計(jì)(Multiple Pitch/Fundamental Frequency Estimation).再根據(jù)MIDI音符表將各基頻轉(zhuǎn)換為對(duì)應(yīng)音符的音名,最后利用音樂(lè)領(lǐng)域知識(shí)或規(guī)則對(duì)音符、時(shí)值等結(jié)果進(jìn)行后處理校正,結(jié)合速度和調(diào)高估計(jì)輸出正確的樂(lè)譜.
多音高/多基頻估計(jì)是進(jìn)行音樂(lè)識(shí)譜的核心功能,經(jīng)常使用對(duì)音樂(lè)信號(hào)的短時(shí)幅度譜[27]或常數(shù)Q變換(Constant-Q Transform)[28]進(jìn)行矩陣分解的方法,如獨(dú)立成分分析(Independent Component Analysis, ICA)[29]、非負(fù)矩陣分解(Non-negative Matrix Factorization, NMF)[30]、概率隱藏成分分析(PLCA)[31]等.與此思路不同,文獻(xiàn)[32]基于迭代方法,首先估計(jì)最重要音源的基頻,從混合物中將其減去,然后再重復(fù)處理殘余信號(hào).文獻(xiàn)[33]使用重要性函數(shù)(Salience Function)來(lái)選擇音高候選者,并使用一個(gè)結(jié)合候選音高的頻譜和時(shí)間特性的打分函數(shù)來(lái)選擇每個(gè)時(shí)間幀的最佳音高組合.由于多聲部/多音音樂(lè)信號(hào)中當(dāng)前音頻幀的譜內(nèi)容在很大程度上依賴于以前的幀,最后還需使用譜平滑性(Spectral Smoothness)[34]、HMM、條件隨機(jī)場(chǎng)(Conditional Random Fields, CRFs)等進(jìn)行糾錯(cuò).
音樂(lè)識(shí)譜的研究雖然早在30年前就已開(kāi)始[35],但目前仍是MIR的研究領(lǐng)域中一個(gè)難以解決的問(wèn)題,只能在簡(jiǎn)單情況下獲得一定的結(jié)果.隨著并發(fā)音符數(shù)量的增加,檢測(cè)難度急劇上升,而且性能嚴(yán)重低于人類專家.主要原因在于當(dāng)前識(shí)譜方法使用通用的模型,無(wú)法適應(yīng)各個(gè)場(chǎng)景下的復(fù)雜音樂(lè)信號(hào).一個(gè)可能的改進(jìn)方法是使用樂(lè)譜、樂(lè)器類型等輔助信息進(jìn)行半自動(dòng)識(shí)譜[36],或者進(jìn)行多個(gè)算法的決策融合[37].
音樂(lè)節(jié)奏是一個(gè)廣義詞,包含與時(shí)間有關(guān)的所有因素.把音符有規(guī)律地組織到一起,按照一定的長(zhǎng)短和強(qiáng)弱有序進(jìn)行,從而產(chǎn)生律動(dòng)的感覺(jué).MIR領(lǐng)域與節(jié)奏相關(guān)的子領(lǐng)域包括: 音符起始點(diǎn)檢測(cè)、速度檢測(cè)、節(jié)拍跟蹤、拍子/小節(jié)線檢測(cè)及強(qiáng)拍估計(jì)、節(jié)奏型檢測(cè).由于與英文對(duì)應(yīng)的中文翻譯混亂,本文采用文獻(xiàn)[38]中的術(shù)語(yǔ).
2.2.1 音符起始點(diǎn)檢測(cè)
圖5 理想情況下一個(gè)音符的時(shí)間域信息描述: 起始點(diǎn)(Onset)、上升(Attack)、過(guò)渡(Transient)和下降(Decay)Fig.5 The description of Onset, Attack, Transient and Decay in an ideal note
音符起始點(diǎn)(Note Onset)是音樂(lè)中某一音符開(kāi)始的時(shí)間[39],如圖5所示.對(duì)于鋼琴、吉他、貝斯等具有脈沖信號(hào)特征的樂(lè)器的音符,其起始(Attack)階段能量突然上升,稱為硬音符起始點(diǎn)(Hard Note Onset).而對(duì)于小提琴、大提琴、薩克斯、小號(hào)等弦樂(lè)或吹奏類樂(lè)器演奏的音符,則通常沒(méi)有明顯的能量上升,稱為軟音符起始點(diǎn)(Soft Note Onset).音符起始點(diǎn)檢測(cè)(Note Onset Detection)通常是進(jìn)行各種音樂(lè)節(jié)奏分析的預(yù)處理步驟[40],在音樂(lè)混音(Music Remixing)、音頻修復(fù)(Audio Restoration)、歌詞識(shí)別、TSM、音頻編碼及合成(Audio Coding and Synthesis)中也都有應(yīng)用.
在單聲部/單音音樂(lè)信號(hào)中檢測(cè)音符起始點(diǎn)并不難,尤其是對(duì)彈撥或擊奏類樂(lè)器,簡(jiǎn)單地定位信號(hào)幅度包絡(luò)線的峰值即可得到很高的準(zhǔn)確率.但是在多聲部/多音音樂(lè)信號(hào)中,檢測(cè)整體信號(hào)失去效果,通常需要進(jìn)行基于短時(shí)傅里葉變換(Short-time Fourier Transform, STFT)、小波變換(Wavelet Transform, WT)、聽(tīng)覺(jué)濾波器組的子帶(Subband)分解.如文獻(xiàn)[41]在高頻子帶基于能量的峰值挑選(Peak-picking)來(lái)檢測(cè)強(qiáng)的瞬態(tài)事件,在低頻子帶使用一個(gè)基于頻率的距離度量來(lái)提高軟音符起始點(diǎn)的檢測(cè)準(zhǔn)確性.文獻(xiàn)[42]沒(méi)有檢測(cè)能量峰值,而是通過(guò)觀察相位在各個(gè)音頻幀的分布也可以進(jìn)行準(zhǔn)確檢測(cè).除了常規(guī)子帶分解,還有其他的分解形式.如文獻(xiàn)[43]對(duì)音樂(lè)信號(hào)的頻譜進(jìn)行NMF分解,在得到的線性時(shí)域基(Linear Temporal Bases)上構(gòu)造音符起始點(diǎn)檢測(cè)函數(shù).文獻(xiàn)[44]將音樂(lè)信號(hào)基于MT(Matching Pursuit)方法進(jìn)行稀疏分解(Sparse Decomposition),通過(guò)稀疏系數(shù)的模式判斷信號(hào)是穩(wěn)定還是非穩(wěn)定,之后自適應(yīng)地通過(guò)峰值挑選得到Onset矢量.
除了基于信號(hào)處理的方法,后來(lái)又發(fā)展了多種基于機(jī)器學(xué)習(xí)的檢測(cè)方法.機(jī)器學(xué)習(xí)主要用于分類,但具體應(yīng)用方式并不相同.例如,文獻(xiàn)[45]使用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)對(duì)候選峰值進(jìn)行分類,確定哪些峰值對(duì)應(yīng)于音符起始點(diǎn),哪些由噪聲或打擊樂(lè)器引起.希望避免峰值挑選方法中的門(mén)限問(wèn)題.文獻(xiàn)[46]則使用神經(jīng)網(wǎng)絡(luò)將信號(hào)每幀的頻譜圖(Spectrogram)分類為Onsets和Non-onsets,對(duì)前者使用簡(jiǎn)單的峰值挑選算法.
2.2.2 速度檢測(cè)
速度檢測(cè)/感應(yīng)(Tempo Detection/Induction)獲取音樂(lè)進(jìn)行的快慢信息,是MIR節(jié)奏類的基本任務(wù)之一.通常用每分鐘多少拍(Beats Per Minute, bpm)來(lái)表示.速度檢測(cè)是音樂(lè)情感分析(如歡快、悲傷等)中的一個(gè)重要因素.另一個(gè)有趣的應(yīng)用是給帕金森病人播放與其走路速度一致的音樂(lè),從而輔助其恢復(fù)行動(dòng)機(jī)能[47].
進(jìn)行音樂(lè)速度檢測(cè)通常首先進(jìn)行信號(hào)分解.核心思想是在節(jié)奏復(fù)雜的音樂(lè)中,某些成分會(huì)比整體混合物具有更規(guī)律的節(jié)奏,從而使速度檢測(cè)更容易.如文獻(xiàn)[48]將混合信號(hào)分解為和聲部分和噪聲部分兩個(gè)子空間(Subspace),文獻(xiàn)[49]將混合信號(hào)分解到多個(gè)子帶.打擊樂(lè)器控制速度進(jìn)行,文獻(xiàn)[50]使用非負(fù)矩陣分解(NMF)將混合信號(hào)分解為不同成分(Component),希望把不同的鼓聲甚至頻譜可能重疊的底鼓和貝斯聲分解到不同的成分.與此思想類似,文獻(xiàn)[51]使用概率隱藏成分分析(PLCA)將混合音樂(lè)信號(hào)分解到不同的成分.
針對(duì)各個(gè)子空間或子帶的不同信號(hào)特性,采用不同的軟、硬音符起始點(diǎn)函數(shù),使用自相關(guān)、動(dòng)態(tài)規(guī)劃等方法分別計(jì)算周期性,再對(duì)候選速度值進(jìn)行選擇[52].速度檢測(cè)方法基本上都基于音頻信號(hào)處理方法,文獻(xiàn)[53]提出了一種基于機(jī)器學(xué)習(xí)的方法,該方法使用聽(tīng)覺(jué)譜特征和譜距離,在一個(gè)已訓(xùn)練好的雙向長(zhǎng)短時(shí)記憶單元-遞歸神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short Term Memory-Recurrent Neural Network, BLSTM-RNN)上預(yù)測(cè)節(jié)拍,通過(guò)自相關(guān)進(jìn)行速度計(jì)算,訓(xùn)練集包含不同音樂(lè)流派而且足夠大.以上方法對(duì)于節(jié)奏穩(wěn)定、打擊樂(lè)或彈撥擊奏類樂(lè)器較強(qiáng)的西方音樂(lè),速度檢測(cè)準(zhǔn)確性已經(jīng)很高,而對(duì)于打擊樂(lè)器不存在或偏弱的音樂(lè)準(zhǔn)確性則較差.
在處理弦樂(lè)等抒情音樂(lè)(Expressive Music),或速度發(fā)生漸快(Accelerando)、漸慢(Rallentando)時(shí),速度檢測(cè)仍然具有很大的研究難度,需為每個(gè)短時(shí)窗口估計(jì)主局部周期(Predominant Local Periodicity, PLP)進(jìn)行局部化處理[54].文獻(xiàn)[55]使用概率模型來(lái)處理抒情音樂(lè)中的時(shí)間偏差,用連續(xù)的隱藏變量對(duì)應(yīng)于速度(Tempo),形式化為最大后驗(yàn)概率(Maximum A Posteriori, MAP)狀態(tài)估計(jì)問(wèn)題,用蒙特卡洛方法(Monte Carlo)求解.文獻(xiàn)[56]基于譜能量通量(Spectral Energy Flux)建立一個(gè)Onset函數(shù),采用自相關(guān)函數(shù)估計(jì)每個(gè)時(shí)間幀的主局部周期,然后使用維特比(Viterbi)算法來(lái)檢測(cè)最可能的速度值序列.
以上方法都是分析原始格式音頻,還有少量算法可以對(duì)AAC(Advanced Audio Coding)等壓縮格式音樂(lè)在完全解壓、半解壓、完全壓縮等不同條件下進(jìn)行速度估計(jì)[57].無(wú)論原始域還是壓縮域速度檢測(cè)算法,目前對(duì)于抒情音樂(lè)、速度變化、非西方音樂(lè)、速度的八度錯(cuò)誤(減半或加倍/Halve or Double)等問(wèn)題仍然沒(méi)有很好的解決辦法.
2.2.3 節(jié)拍跟蹤
節(jié)拍(Beat)是指某種具有固定時(shí)長(zhǎng)(Duration)的音符,通常以四分音符或八分音符為一拍.節(jié)拍跟蹤/感應(yīng)(Beat Tracking/Induction)是計(jì)算機(jī)對(duì)人們?cè)诼?tīng)音樂(lè)時(shí)會(huì)無(wú)意識(shí)地踮腳或拍手的現(xiàn)象的模擬,經(jīng)常用于對(duì)音樂(lè)信號(hào)按節(jié)拍進(jìn)行分割[58],是理解音樂(lè)節(jié)奏的基礎(chǔ)和很多MIR應(yīng)用及多媒體系統(tǒng)如視頻編輯、音樂(lè)可視化、舞臺(tái)燈光控制等的重要步驟.早期的算法只能處理MIDI形式的符號(hào)音樂(lè)或者少數(shù)幾種樂(lè)器的聲音信號(hào),而且不能實(shí)時(shí)工作.20世紀(jì)90年代中期以后,開(kāi)始出現(xiàn)能處理包含各種樂(lè)器和歌聲的流行音樂(lè)聲音信號(hào)的算法,基本思想是通過(guò)檢測(cè)控制節(jié)奏的鼓聲來(lái)進(jìn)行節(jié)拍跟蹤[59].節(jié)拍跟蹤可在線或離線進(jìn)行,前者只能使用過(guò)去的音頻數(shù)據(jù),后者則可以使用完整的音頻,難度有所降低[60].
節(jié)拍跟蹤通常與速度檢測(cè)同時(shí)進(jìn)行[61-63],首先在速度圖(Tempogram)中挑選穩(wěn)定的局部區(qū)域[59].下一步就是檢測(cè)候選的節(jié)拍點(diǎn),方法各不相同.文獻(xiàn)[61]將節(jié)拍經(jīng)過(guò)帶通濾波等預(yù)處理后,對(duì)每個(gè)子帶計(jì)算其幅度包絡(luò)線和導(dǎo)數(shù),與一組事先定義好的梳狀濾波器(Comb Filter)進(jìn)行卷積,對(duì)所有子帶上的能量求和后得到一系列峰值.更多的方法依賴于音符起始點(diǎn)、打擊樂(lè)器及其他時(shí)間域局域化事件的檢測(cè)[62].如果音樂(lè)偏重抒情,沒(méi)有打擊樂(lè)器或不明顯,可采用和弦改變點(diǎn)(無(wú)需識(shí)別和弦名字)作為候選點(diǎn)[63-64].
以候選節(jié)拍點(diǎn)為基礎(chǔ),即可進(jìn)行節(jié)拍識(shí)別.文獻(xiàn)[61]用最高的峰值對(duì)應(yīng)于速度并進(jìn)一步提取節(jié)拍.文獻(xiàn)[65]基于感知設(shè)立門(mén)限并得到節(jié)拍輸出.文獻(xiàn)[66]使用簡(jiǎn)單有效的動(dòng)態(tài)規(guī)劃(Dynamic Programming, DP)方法來(lái)找到最好的節(jié)拍時(shí)間.文獻(xiàn)[67]采用機(jī)器學(xué)習(xí)中的條件隨機(jī)場(chǎng)(CRF)這種復(fù)雜的時(shí)域模型,將節(jié)拍位置估計(jì)模擬為時(shí)序標(biāo)注問(wèn)題.在一個(gè)短時(shí)窗口中通過(guò)CRF指定的候選者來(lái)捕捉局部速度變化并定位節(jié)拍.
對(duì)大多數(shù)流行音樂(lè)來(lái)講,速度及節(jié)拍基本維持穩(wěn)定,很多算法都可以得到不錯(cuò)的結(jié)果,但具體的定量性能比較依賴于具體評(píng)測(cè)方法的選擇[68].對(duì)于少數(shù)復(fù)雜的流行音樂(lè)(如速度漸慢或漸快、每小節(jié)拍子發(fā)生變化等)和絕大多數(shù)古典音樂(lè)、交響樂(lè)、歌劇、東方民樂(lè)等,節(jié)拍跟蹤仍然是一個(gè)研究難題.
2.2.4 拍子檢測(cè)、小節(jié)線檢測(cè)及強(qiáng)拍估計(jì)
音樂(lè)中有很多強(qiáng)弱不同的音符,在由小節(jié)線劃分的相同時(shí)間間隔內(nèi),按照一定的次序重復(fù)出現(xiàn),形成有規(guī)律的強(qiáng)弱變化即拍子(Meter/Time Signature).換句話說(shuō),拍子是音樂(lè)中表示固定單位時(shí)值和強(qiáng)弱規(guī)律的組織形式.在樂(lè)譜開(kāi)頭用節(jié)拍號(hào)(如4/4、3/4等)標(biāo)記.拍子是組成小節(jié)(Bar/Measure)的基本單位,小節(jié)則是劃分樂(lè)句、樂(lè)段、整首樂(lè)曲的基本單位.在樂(lè)譜中用小節(jié)線劃分,小節(jié)內(nèi)第一拍是強(qiáng)拍(Downbeat).拍子和小節(jié)提供了高層(High-level)的節(jié)奏信息,拍子檢測(cè)/估計(jì)/推理(Meter Detection/Estimation/Inference)、小節(jié)線檢測(cè)(Bar line/Measure Detection)及強(qiáng)拍檢測(cè)/估計(jì)(Downbeat Detection/Estimation)在音樂(lè)識(shí)譜、和弦分析等很多MIR任務(wù)中都有重要應(yīng)用.
一個(gè)典型的檢測(cè)拍子的方法是首先計(jì)算節(jié)拍相似性矩陣(Beat Similarity Matrix),利用它來(lái)識(shí)別不同部分的重復(fù)相似節(jié)拍結(jié)構(gòu)[69].利用類似的思路,即節(jié)拍相似性矩陣,可進(jìn)行小節(jié)線檢測(cè).使用之前小節(jié)線的位置和估計(jì)的小節(jié)長(zhǎng)度來(lái)預(yù)測(cè)下一個(gè)小節(jié)線的位置.該方法不依賴于打擊樂(lè)器,而且可以在一定程度上容忍速度的變化[70].對(duì)于沒(méi)有鼓聲的音樂(lè)信號(hào),通過(guò)檢測(cè)和弦變化的時(shí)間位置,利用基于四分音符的啟發(fā)式音樂(lè)知識(shí)進(jìn)行小節(jié)線檢測(cè)[64].音樂(lè)并不一定都是勻速進(jìn)行,經(jīng)常會(huì)出現(xiàn)漸快、漸慢等抒情表現(xiàn)形式,甚至出現(xiàn)4/4或3/4拍子穿插進(jìn)行的復(fù)雜小節(jié)結(jié)構(gòu)(如額爾古納樂(lè)隊(duì)演唱的莫尼山),這給小節(jié)推理(Meter Inference)算法帶來(lái)巨大困難.文獻(xiàn)[71]提出一個(gè)基于稀疏NMF(Sparse NMF)的非監(jiān)督方法來(lái)檢測(cè)小節(jié)結(jié)構(gòu)的改變,并進(jìn)行基于小節(jié)的分割.
強(qiáng)拍估計(jì)可以確定小節(jié)的起始位置,并通過(guò)周期性分析進(jìn)一步獲得小節(jié)內(nèi)強(qiáng)拍和弱拍的位置,從而得到拍子結(jié)構(gòu)[72].對(duì)拍子和小節(jié)線檢測(cè)都非常有益.文獻(xiàn)[73]將強(qiáng)拍檢測(cè)和傳統(tǒng)的節(jié)拍相似性矩陣結(jié)合,進(jìn)行小節(jié)級(jí)別(Bar-level)的自動(dòng)節(jié)奏分析.早期強(qiáng)拍序列預(yù)測(cè)方法采用Onset、Beat等經(jīng)典節(jié)奏特征及回歸模型[74],近年隨著深度學(xué)習(xí)(Deep Learning)技術(shù)的成熟,出現(xiàn)了數(shù)個(gè)數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)拍檢測(cè)算法.文獻(xiàn)[75]使用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks, DNN)在音色、和聲、節(jié)奏型等傳統(tǒng)音樂(lè)特征上進(jìn)行自動(dòng)特征學(xué)習(xí)(Feature Learning),得到更能反映節(jié)奏本質(zhì)的高層抽象表示,使用Viterbi算法進(jìn)行時(shí)域解碼后得到強(qiáng)拍序列.類似地,文獻(xiàn)[76]從和聲、節(jié)奏、主旋律(Main Melody)和貝斯(Bass)4個(gè)音樂(lè)特征出發(fā)進(jìn)行表示高層語(yǔ)義的深度特征(Deep Feature)學(xué)習(xí),使用條件隨機(jī)場(chǎng)(CRF)模型進(jìn)行時(shí)域解碼得到強(qiáng)拍序列.文獻(xiàn)[77]使用兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)作為前端,一個(gè)在各子帶對(duì)節(jié)奏建模,一個(gè)對(duì)和聲建模.輸出被結(jié)合送進(jìn)作為節(jié)奏語(yǔ)言模型(Rhythmical Language Model)的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Network, DBN),從節(jié)拍對(duì)齊的音頻特征流中提取強(qiáng)拍序列.
2.2.5 節(jié)奏型檢測(cè)
音樂(lè)節(jié)奏的主體由經(jīng)常反復(fù)出現(xiàn)的具有一定特征的節(jié)奏型(Rhythmic Pattern)組成.節(jié)奏型也可以叫做節(jié)拍直方圖(Beat Histogram),在音樂(lè)表現(xiàn)中具有重要意義,使人易于感受便于記憶,有助于音樂(lè)結(jié)構(gòu)的統(tǒng)一和音樂(lè)形象的確立.節(jié)奏型經(jīng)??梢郧宄乇砻饕魳?lè)的流派類型,如布魯斯、華爾茲等.
該子領(lǐng)域的研究不多,但早在1990年就提出了經(jīng)典的基于模板匹配的節(jié)奏型檢測(cè)方法[78].另一項(xiàng)工作也使用基于模板匹配的思路,對(duì)現(xiàn)場(chǎng)音樂(lè)信號(hào)進(jìn)行節(jié)奏型的實(shí)時(shí)檢測(cè),注意檢測(cè)時(shí)需要比節(jié)奏型更長(zhǎng)的音頻流.該系統(tǒng)能區(qū)分某個(gè)節(jié)奏型的準(zhǔn)確和不準(zhǔn)確的演奏,能區(qū)分以不同樂(lè)器演奏的同樣的節(jié)奏型,以及以不同速度演奏的節(jié)奏型[79].鼓是控制音樂(lè)節(jié)奏的重要樂(lè)器,文獻(xiàn)[80]通過(guò)分析音頻信號(hào)中鼓聲的節(jié)奏信息進(jìn)行節(jié)奏型檢測(cè).打擊樂(lè)器的節(jié)奏信息通??捎梢魳?lè)信號(hào)不同子帶的時(shí)域包絡(luò)線進(jìn)行自相關(guān)來(lái)獲得,具有速度依賴性.文獻(xiàn)[81]對(duì)自相關(guān)包絡(luò)線的時(shí)間延遲(Time-lag)軸取對(duì)數(shù),拋棄速度相關(guān)的部分,得到速度不變的節(jié)奏特征.除了以上信號(hào)處理類的方法,基于機(jī)器學(xué)習(xí)的方法也被應(yīng)用于節(jié)奏型檢測(cè).文獻(xiàn)[82]使用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取單聲部/單音或多聲部/多音符號(hào)音樂(lè)的節(jié)奏型.文獻(xiàn)[83]基于隱馬爾科夫模型從一個(gè)大的標(biāo)注節(jié)拍和小節(jié)信息的舞曲數(shù)據(jù)集中直接學(xué)習(xí)節(jié)奏型,并同時(shí)提取節(jié)拍、速度、強(qiáng)拍、節(jié)奏型、小節(jié)線.
音樂(lè)通常是多聲部/多音,包括復(fù)調(diào)音樂(lè)(Polyphony)和主調(diào)音樂(lè)(Homophony)兩種主要形式.復(fù)調(diào)音樂(lè)擁有漫長(zhǎng)的歷史,從公元9世紀(jì)到18世紀(jì)前半葉流行于歐洲.18世紀(jì)后半葉開(kāi)始到現(xiàn)在,主調(diào)音樂(lè)逐漸取代了復(fù)調(diào)音樂(lè)的主要地位,成為最主要的音樂(lè)思維形式.復(fù)調(diào)音樂(lè)含有兩條或以上的獨(dú)立旋律,通過(guò)技術(shù)處理和諧地結(jié)合在一起.主調(diào)音樂(lè)以某一個(gè)聲部作為主旋律,其他聲部以和聲或節(jié)奏等手法進(jìn)行陪襯和伴奏.特點(diǎn)是音樂(lè)形象明顯,感情表達(dá)明確,欣賞者比較容易融入.其中,和聲(Harmony)是主調(diào)音樂(lè)最重要的要素之一.和聲是指兩個(gè)或兩個(gè)以上不同的音符按照一定的規(guī)則同時(shí)發(fā)聲而構(gòu)成的聲音組合[84].與和聲相關(guān)的MIR子領(lǐng)域有和弦識(shí)別及調(diào)高檢測(cè).
2.3.1 和弦識(shí)別
和弦(Chord)是音樂(lè)和聲的基本素材,由3個(gè)或以上不同的音按照三度重疊或其他音程(Pitch Interval)結(jié)合構(gòu)成,這是和聲的縱向結(jié)構(gòu).在流行音樂(lè)和爵士樂(lè)中,一串和弦標(biāo)簽經(jīng)常是歌曲的唯一標(biāo)記,稱為所謂的主旋律譜(Lead Sheets).此外,和弦的連接(Chord Progressions)表示和聲的橫向運(yùn)動(dòng).和聲具有明顯的濃、淡、厚、薄的色彩作用,還能構(gòu)成樂(lè)句、樂(lè)段,包含了大量的音樂(lè)屬性信息.和弦識(shí)別在音樂(lè)版本識(shí)別、音樂(lè)結(jié)構(gòu)分析等多個(gè)領(lǐng)域具有重要作用,它另一個(gè)有趣的應(yīng)用是為用戶的哼唱旋律自動(dòng)配置和弦伴奏[85].
典型的和弦識(shí)別(Chord Detection)算法包括音頻特征提取和識(shí)別模型兩部分.音高類輪廓(Pitch Class Profile, PCP)是描述音樂(lè)色彩的半音類(Chroma)特征的一個(gè)經(jīng)典實(shí)現(xiàn),是一個(gè)12維的矢量.由于其在12個(gè)半音類(C、#C/bD、D、#D/bE、E、F、#F/bG、G、#G/bA、A、#A/bB、B)上與八度無(wú)關(guān)的譜能量聚集特性,成為描述和弦及和弦進(jìn)行的首要特征(如圖6所示,所有灰色的音符C或c,不管其在哪個(gè)組或八度,其頻譜能量均相加得到C半音類的Chroma值.其余依此類推).對(duì)傳統(tǒng)PCP特征進(jìn)行各種改進(jìn)后,又提出HPCP(Harmonic PCP)、EPCP(Enhanced PCP)、MPCP(Mel PCP)等增強(qiáng)型特征.這些特征在一定程度上克服了傳統(tǒng)PCP特征在低頻段由于各半音頻率相距太近而引起的特征混肴的缺陷,而且增強(qiáng)了抗噪能力[86].文獻(xiàn)[87]沒(méi)有使用所有的頻率來(lái)計(jì)算Chroma,它首先檢測(cè)重要頻率(Salient Frequencies),轉(zhuǎn)換為音符后按照心理物理學(xué)(Psychophysics)規(guī)則為泛音加權(quán).近年來(lái),隨著深度學(xué)習(xí)的流行,文獻(xiàn)[88]采用其特征學(xué)習(xí)能力自動(dòng)獲取更抽象的高層和聲特征.
常規(guī)的和弦檢測(cè)算法以固定長(zhǎng)度的Frame進(jìn)行音頻特征計(jì)算,不符合音樂(lè)常識(shí).更多的算法基于Beat級(jí)別的分割進(jìn)行和弦檢測(cè)[89].這符合和弦基本都是在小節(jié)開(kāi)始或各個(gè)節(jié)拍處發(fā)生改變的音樂(lè)常識(shí),也通常具有更好的實(shí)驗(yàn)結(jié)果[90].例如,文獻(xiàn)[91]使用一個(gè)和聲改變檢測(cè)函數(shù)在各Beat位置分割時(shí)間軸,對(duì)每個(gè)片段的平均Chroma再進(jìn)行和弦識(shí)別.流行音樂(lè)包含鼓、鈸等各種打擊樂(lè)器,對(duì)只依賴于和聲成分的和弦檢測(cè)帶來(lái)干擾.文獻(xiàn)[92]使用HPSS(Harmonic/Percussive Sound Separation)技術(shù)進(jìn)行預(yù)處理,壓制鼓聲,強(qiáng)調(diào)基于和聲成分的Chroma特征和Delta-Chroma特征.
圖6 PCP(Chroma)特征計(jì)算原理圖Fig.6 Principle of PCP(Chroma) feature calculation
在識(shí)別階段,早期的方法采用基于余弦距離等的模式匹配(Pattern Matching)[89,93].隨著研究的深入,隱馬爾科夫模型(HMM)、條件隨機(jī)場(chǎng)(CRF)、支持向量機(jī)(Support Vector Machine, SVM)、遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等機(jī)器學(xué)習(xí)分類方法陸續(xù)被引入來(lái)建立和弦識(shí)別模型[94].和弦序列與根音(Bass Notes)、小節(jié)線位置(Measure Positions)及調(diào)高(Key)等音樂(lè)要素互相關(guān)聯(lián),文獻(xiàn)[95]使用一個(gè)6層的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)從音頻波形中對(duì)它們同時(shí)估計(jì),其中4個(gè)隱藏層聯(lián)合模擬和弦、調(diào)高、根音、小節(jié)線位置,兩個(gè)觀察層模擬對(duì)應(yīng)于低音(Bass)和高音(Treble)音色內(nèi)容的低層(Low-level)特征.
音樂(lè)和弦并非獨(dú)立存在,而是按照特定的音樂(lè)規(guī)則在時(shí)間軸上連接和行進(jìn)[96].使用音樂(lè)上下文(Context)信息進(jìn)行時(shí)間序列后處理通常可以提高性能.常用的方法有考慮和弦相對(duì)穩(wěn)定性的平滑算法[89]、時(shí)間序列解碼Viterbi算法[97]、遞歸神經(jīng)網(wǎng)絡(luò)[94]等.目前的和弦檢測(cè)算法通常只能識(shí)別12個(gè)大小調(diào)的24個(gè)常用三和弦,對(duì)于更復(fù)雜的和弦如七和弦只有少數(shù)算法[98-101]才能實(shí)現(xiàn),而且隨著分類數(shù)量的增加,性能有所下降.
2.3.2 調(diào)高檢測(cè)
調(diào)性(Tonality)是西方音樂(lè)的一個(gè)重要方面.調(diào)性包括調(diào)高(Key)和大小調(diào)(Major/Minor),是調(diào)性分析(Tonality Analysis)的一個(gè)重要任務(wù).在樂(lè)理知識(shí)中,如圖7所示,C、D、E、F、G、A、B是音名(Pitch Names),對(duì)應(yīng)于鋼琴上真實(shí)的鍵.Do、Re、Mi、Fa、So La、Si是唱名(Syllable Names),隨著音樂(lè)的調(diào)高而變化.例如C大調(diào)中的Do就是C,對(duì)應(yīng)的音階(Scale)是C、D、E、F、G、A、B;D大調(diào)的Do就是D,對(duì)應(yīng)的音階是D、E、#F、G、A、B、#C.檢測(cè)一首曲子的調(diào)高及調(diào)高的變化對(duì)于音樂(lè)識(shí)譜、和弦檢測(cè)、音樂(lè)情感計(jì)算、自動(dòng)伴奏、音樂(lè)結(jié)構(gòu)分析、音樂(lè)檢索等領(lǐng)域都有重要作用[102-105].
圖7 音名、唱名對(duì)照?qǐng)DFig.7 The correspondence plot of pitch names and syllable names
一個(gè)典型的調(diào)高檢測(cè)(Key Detection)模型由兩部分組成,即特征提取與調(diào)高分類(Classification)[106]或聚類(Clustering)[107].目前用來(lái)描述對(duì)調(diào)高感知的音頻特征基本都是PCP(Chroma),還有基于音樂(lè)理論和感知設(shè)計(jì)的特征[108].盡管缺乏音樂(lè)理論支持,心理學(xué)實(shí)驗(yàn)表明這是一種有效的方法.比如著名的Krumhansl-Schmukler模型就是通過(guò)提取PCP(Chroma)特征來(lái)描述人們對(duì)調(diào)高的認(rèn)知機(jī)制[109].調(diào)高檢測(cè)通常使用的調(diào)高分類器包括人工神經(jīng)網(wǎng)絡(luò)(ANN)[110-111]、隱馬爾科夫模型(HMM)[112]、支持向量機(jī)(SVM)[108]、集成學(xué)習(xí)(Ensemble Learning-AdaBoost)[113],有的算法還使用平滑方法減少調(diào)高的波動(dòng)[111].大多數(shù)流行歌曲只有一個(gè)固定的調(diào)高,少數(shù)流行歌曲會(huì)在副歌這樣具有情感提升的部分變調(diào).古典音樂(lè)則經(jīng)常發(fā)生更多的變調(diào).對(duì)于這些復(fù)雜情況,需要進(jìn)行調(diào)高的局部化檢測(cè).
音樂(lè)包括聲樂(lè)和器樂(lè)兩種形式.在聲樂(lè)中,歌聲通常承載音樂(lè)的主旋律,與節(jié)奏及和聲一起構(gòu)成音樂(lè)的3大要素.在MIR中與歌聲信息處理(Singing Information Processing)相關(guān)的子領(lǐng)域包括歌聲檢測(cè)、歌聲分離、歌手識(shí)別、歌唱評(píng)價(jià)、歌詞識(shí)別等.其中歌聲檢測(cè)是其他子領(lǐng)域的前處理步驟.
2.4.1 歌聲檢測(cè)
歌聲檢測(cè)(Vocal/Singing Voice Detection)的任務(wù)是判定整首歌曲中哪些部分是歌聲,哪些部分是純樂(lè)器伴奏.歌聲檢測(cè)算法一般包含以下幾個(gè)步驟: 將歌曲分成幾十毫秒長(zhǎng)的音頻幀(Frame),從各幀中提取能夠有效區(qū)分歌聲和伴奏的音頻特征,利用基于規(guī)則的門(mén)限方法或者基于機(jī)器學(xué)習(xí)的統(tǒng)計(jì)分類方法對(duì)特征進(jìn)行歌聲/非歌聲(Vocal/Nonvocal)分類,考慮到歌聲的連續(xù)性,最后還需對(duì)幀級(jí)別的分類結(jié)果進(jìn)行平滑糾錯(cuò)處理.除了Frame,還可以節(jié)拍(Beat)為單位進(jìn)行歌聲檢測(cè)[114].
歌聲檢測(cè)算法使用的音頻特征包括譜特征(Spectral Features)、和聲、頻率顫音(Vibrato)、幅度顫音(Tremolo)、音色(Timbre)、歌聲共振峰(Singing Formant)、主音高(Predominant Pitch)、梅爾頻率倒譜系數(shù)(Mel-frequency Cepstral Coefficients, MFCC)、線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficients, LPCC)、線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficients, LPC)等[115-122],使用的分類器也從高斯混合模型(Gaussian Mixture Model, GMM)[123]、HMM[115]、SVM[114]擴(kuò)展到RNN[124]等深度學(xué)習(xí)手段.
基于監(jiān)督學(xué)習(xí)(Supervised Learning)的歌聲檢測(cè)方法需要大量歌聲/非歌聲片段的手工標(biāo)注,費(fèi)時(shí)費(fèi)力,價(jià)格昂貴.為解決這個(gè)問(wèn)題,文獻(xiàn)[125]將主動(dòng)學(xué)習(xí)(Active Learning)技術(shù)集成進(jìn)傳統(tǒng)的基于SVM的監(jiān)督學(xué)習(xí)方法,極大地減少了標(biāo)注數(shù)據(jù)量.文獻(xiàn)[126]提出另一個(gè)有趣的方法,利用MIDI文件中音符Onset/Offset(起始點(diǎn)/截止點(diǎn))提供的準(zhǔn)確的Vocal/Nonvocal邊界,將MIDI合成的音頻使用動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping, DTW)與真實(shí)音頻進(jìn)行對(duì)齊,從而用極少的代價(jià)獲得大量的真實(shí)音頻的歌聲/非歌聲標(biāo)注訓(xùn)練數(shù)據(jù).文獻(xiàn)[127]使用Vibrato、Attack-decay、MFCC等特征對(duì)基于HMM的Vocal/Nonvocal分類器進(jìn)行協(xié)同訓(xùn)練(Co-training).首先,使用Vibrato訓(xùn)練HMM,從自動(dòng)標(biāo)記的測(cè)試歌曲片段中挑選最可靠的部分加入到標(biāo)注歌曲訓(xùn)練集;然后,對(duì)Attack-decay重復(fù)同樣的過(guò)程;最后,用MFCC得到最后的Vocal/Nonvocal片段.協(xié)同訓(xùn)練充分利用豐富的未標(biāo)注歌曲,大大減少了手工標(biāo)注的工作量和計(jì)算代價(jià).
進(jìn)行歌聲檢測(cè)還有少數(shù)非監(jiān)督學(xué)習(xí)(Unsupervised Learning)算法.文獻(xiàn)[128]使用K奇異值分解法(K-Singular Value Decomposition, K-SVD)進(jìn)行短時(shí)特征稀疏表示的字典學(xué)習(xí)(Dictionary Learning),估計(jì)每個(gè)碼字(Code Word)出現(xiàn)的概率,并用其計(jì)算每幀加權(quán)函數(shù)的值,還使用一個(gè)二值門(mén)限將音樂(lè)分割為Vocal和Nonvocal片段.高階泛音的時(shí)域波動(dòng)是表征歌聲的明顯特征[119].文獻(xiàn)[129]用正弦波模型(Sinusoid Model)將泛音隨時(shí)間變化的頻率模擬為一個(gè)緩慢變化的頻率加上一個(gè)正弦調(diào)制.對(duì)泛音相似性矩陣(Partial Similarity Matrix)進(jìn)行聚類,將和聲相關(guān)的泛音聚類到各個(gè)音源,其中一個(gè)音源很可能是歌聲,有利于對(duì)歌聲檢測(cè)和分離.
上述Frame-level的歌聲檢測(cè)經(jīng)常會(huì)出現(xiàn)碎片化的結(jié)果.考慮到音樂(lè)中的歌唱區(qū)域前后關(guān)聯(lián)并非獨(dú)立存在,還需進(jìn)行時(shí)域平滑后處理(Post-processing)去掉短時(shí)突變點(diǎn).一類方法是通過(guò)一階、二階差分或方差等表示特征級(jí)(Feature-level)時(shí)域上下文關(guān)系[118],另一類方法是使用中值濾波、自回歸滑動(dòng)平均(Auto Regressive Moving Average, ARMA)[123]、考慮過(guò)去時(shí)域信息的模型如LSTM-RNN[118]、或同時(shí)考慮過(guò)去和未來(lái)時(shí)域信息的模型如BLSTM-RNN[124].
2.4.2 歌聲分離
歌聲分離(Vocal/Singing Voice Separation)是指將歌聲與背景音樂(lè)伴奏進(jìn)行分離的技術(shù).在旋律提取、歌手識(shí)別、哼唱/歌唱檢索、卡拉OK伴奏、歌詞識(shí)別、歌唱語(yǔ)種識(shí)別等應(yīng)用領(lǐng)域有十分重要的作用.由于歌聲與由多種音調(diào)類樂(lè)器組成的伴奏都是和聲的(不能被視為噪聲),并按照和聲結(jié)構(gòu)耦合在一起(即基頻或泛音重疊),而且還有多種打擊類樂(lè)器的干擾,因此歌聲分離具有相當(dāng)大的難度和挑戰(zhàn)性.簡(jiǎn)單的去噪(Denoise)方法并不適用[130].一個(gè)通用的方法可以將之視為盲源分離(Blind Source Separation, BSS)問(wèn)題,如文獻(xiàn)[131]結(jié)合獨(dú)立成分分析(ICA)和小波門(mén)限方法(Wavelet Thresholding)來(lái)分離歌聲.但是此類方法沒(méi)有利用任何音樂(lè)信號(hào)本身的信息,通常效果較差.專門(mén)的歌聲分離算法根據(jù)輸入音樂(lè)信號(hào)音軌(Vocal Track)的數(shù)量可分為立體聲歌聲分離(Stereo Vocal Separation)和單聲道歌聲分離(Monaural Vocal Separation).注意不論音軌數(shù)量,輸入都是多聲部/多音音樂(lè).
從立體聲中分離歌聲的傳統(tǒng)方法假設(shè)歌聲位于中央信道,利用聲源的空間差異(Spatial Diversity)來(lái)定位和分離歌聲.空間方法的結(jié)果可以接受,但有很多由于中央信道估計(jì)不準(zhǔn)帶來(lái)的失真和虛假部分(Distortions and Artifacts).文獻(xiàn)[132]將基頻f0信息集成進(jìn)來(lái).首先使用MuLeTs立體聲分離算法預(yù)分離,得到它的f0序列,然后使用HMM對(duì)音高包絡(luò)線進(jìn)行平滑后再分離歌聲及非歌聲區(qū)域.文獻(xiàn)[133]首先利用雙耳信息即信道間強(qiáng)度差(Inter-channel Level Difference, ILD)和信道間相位差(Inter-channel Phase Difference, IPD)進(jìn)行位于中央的歌聲粗略分離,之后使用GMM對(duì)混合信號(hào)頻域的低層分布進(jìn)行聚類.文獻(xiàn)[134]將歌聲部分模擬為源/濾波器模型(Source/Filter Model),伴奏模擬為NMF的成分混合,立體聲信號(hào)被假設(shè)為歌聲與伴奏的瞬時(shí)混合,然后使用最大似然法(Maximum Likelihood)聯(lián)合估計(jì)兩個(gè)信道的所有參數(shù).
近年來(lái)更多的研究集中于從單聲道真實(shí)錄音中提取歌聲,與立體聲歌聲分離相比更加困難.單聲道音樂(lè)信號(hào)分離主要包括以下幾種技術(shù)框架:
(1) 基于音高推理(Pitch-based Inference)獲得歌聲泛音結(jié)構(gòu)的分離技術(shù)[135].具體地說(shuō),就是從混合音樂(lè)信號(hào)中首先估計(jì)歌聲基頻f0包絡(luò)線,然后通過(guò)f0及其泛音成分來(lái)提取歌聲.相反,如果歌聲首先被從混合音樂(lè)信號(hào)中準(zhǔn)確地提取出來(lái),f0的估計(jì)也會(huì)更容易.這實(shí)際是一個(gè)雞生蛋、蛋生雞的問(wèn)題.為克服該限制,文獻(xiàn)[136-137]提出一種迭代的方法,即首先用魯棒主成分分析(Robust Principal Component Analysis, RPCA)算法初步分離歌聲,從分離的歌聲信號(hào)中初步估計(jì)歌聲主旋律的f0包絡(luò)線,并在基頻重要性頻譜圖(f0Salience Spectrogram)中尋找最佳時(shí)域路徑,之后將RPCA的時(shí)頻掩蔽(Time-frequency Mask)和基于f0和聲結(jié)構(gòu)的時(shí)頻掩蔽相結(jié)合,與上一步驟迭代進(jìn)行更準(zhǔn)確的歌聲分離.
(2) 基于矩陣分解技術(shù),如非負(fù)矩陣分解(NMF)、魯棒主成分分析(RPCA)等的分離技術(shù).基于NMF的算法分解音樂(lè)信號(hào)頻譜,選擇分別屬于歌聲和伴奏的成分并合成為時(shí)域信號(hào)[138-139].RPCA算法將混合音樂(lè)信號(hào)分解為一個(gè)低秩成分(Low-rank Component)和一個(gè)稀疏成分(Sparse Component).因?yàn)榘樽啾旧硎侵貜?fù)的,所以被認(rèn)為是低秩子空間.而歌聲根據(jù)其特點(diǎn)則被認(rèn)為是中等稀疏的[140].基于此思想,更適合音頻的RPCA的非負(fù)變種即RNMF(Robust Low-rank Non-negative Matrix Factorization)也被引入進(jìn)行歌聲分離[141].采用矩陣分解技術(shù)有不同的粒度,粗粒度方式如RPCA利用歌聲的特定性質(zhì)直接將音樂(lè)信號(hào)分解為歌聲和伴奏,細(xì)粒度方式如NMF將音樂(lè)信號(hào)分解為一套細(xì)化(Fine-grained)的成分,并重新組合來(lái)產(chǎn)生目標(biāo)聲源估計(jì).文獻(xiàn)[142]將兩種方式以級(jí)聯(lián)的方式結(jié)合,將音樂(lè)信號(hào)分解為一套中粒度成分(Mid-level Components).該分解足夠細(xì)來(lái)模擬歌聲的不同性質(zhì),又足夠粗以保持該成分的語(yǔ)義,使得能直接組裝出歌聲和伴奏.
(3) 基于計(jì)算聽(tīng)覺(jué)場(chǎng)景分析(Computational Auditory Scene Analysis, CASA)的分離技術(shù).CASA是一種新興的聲音分離計(jì)算方法[143],它的基本原理來(lái)自于Bregman提出的聽(tīng)覺(jué)場(chǎng)景分析(Auditory Scene Analysis, ASA)[144],主要思路就是利用感知線索(Cue)把混合音頻信號(hào)分別組織進(jìn)對(duì)應(yīng)于不同聲源的感知數(shù)據(jù)流.聽(tīng)覺(jué)場(chǎng)景分析(ASA)認(rèn)為人類聽(tīng)覺(jué)器官的感知過(guò)程一般可以分成兩個(gè)主要過(guò)程: 分割階段(Segmentation)和聚集階段(Grouping).在分割階段,聲學(xué)輸入信號(hào)經(jīng)各種時(shí)頻變換(Time-frequency Transforms)被分解為時(shí)頻單元(T-F Units),各單元被組織進(jìn)片段(Segments),每個(gè)片段可近似認(rèn)為來(lái)自單一聲源.在聚集階段,來(lái)自同一音源的Segments根據(jù)一套規(guī)則被合并到一起.分割片段和聚集使用的Cues包括時(shí)頻近似度(T-F Proximity)、和聲、音高、Onset/Offset、幅度/頻率調(diào)制、空間信息等.受ASA啟發(fā),CASA利用從人類聽(tīng)覺(jué)系統(tǒng)中獲得的知識(shí)來(lái)進(jìn)行聲音分離,希望獲得接近人類水平的分離性能.與其他聲音分離方法相比,CASA利用聲音的內(nèi)在性質(zhì)進(jìn)行分離,對(duì)聲源進(jìn)行了最小的假設(shè),展現(xiàn)出極大的潛力.
文獻(xiàn)[145-146]是基于CASA的單聲道歌聲分離的創(chuàng)始性算法.首先進(jìn)行Vocal/Nonvocal部分檢測(cè),之后進(jìn)行主音高檢測(cè)得到歌聲區(qū)域的歌聲包絡(luò)線,最后基于分割和聚集進(jìn)行歌聲分離.在分割階段,基于時(shí)域連續(xù)性(Temporal Continuity)和交叉信道相關(guān)(Cross-channel Correlation)將時(shí)域連續(xù)的T-F單元合并成Segments.在聚集階段,直接應(yīng)用檢測(cè)到的音高包絡(luò)線.簡(jiǎn)言之,如果一個(gè)T-F單元的局部周期性與該幀檢測(cè)的音高相匹配,那么該單元被標(biāo)記為歌聲主導(dǎo)(Singing Dominant).如果一個(gè)Frame中大多數(shù)的T-F單元被標(biāo)記為歌聲主導(dǎo),那么這個(gè)Frame就被標(biāo)記為歌聲主導(dǎo).如果一個(gè)Segment有超過(guò)一半的Frames是歌聲主導(dǎo),那么這個(gè)Segment就是歌聲主導(dǎo).標(biāo)記為歌聲的Segments被聚集為代表歌聲的音頻流.文獻(xiàn)[147]使用CASA框架設(shè)計(jì)一個(gè)串聯(lián)(Tandem)算法,迭代地估計(jì)歌聲音高(Singing Pitch)并分離歌聲.首先估計(jì)粗略的音高,然后考慮和聲與時(shí)域連續(xù)性線索(Harmonicity and Temporal Continuity Cues)用它來(lái)分離目標(biāo)歌聲,分離的歌聲再用來(lái)估計(jì)音高,如此迭代進(jìn)行.為提高性能,提出一個(gè)趨勢(shì)估計(jì)(Trend Estimation)算法來(lái)檢測(cè)每個(gè)Frame的歌聲音高范圍,去除了大量錯(cuò)誤的伴奏或歌聲泛音產(chǎn)生的音高候選者.掩蔽函數(shù)(Masking Functions)是CASA類分離算法的核心,最常用的一個(gè)叫做理想二值化掩蔽(Ideal Binary Mask, IBM).標(biāo)記為歌聲的時(shí)頻塊具有緊密的時(shí)頻域上下文關(guān)系,文獻(xiàn)[148-149]使用深度遞歸神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)掩蔽塊的時(shí)頻域連接進(jìn)行優(yōu)化,把分離過(guò)程作為最后一層的非線性過(guò)程,并進(jìn)行網(wǎng)絡(luò)的聯(lián)合優(yōu)化.
2.4.3 歌手識(shí)別
歌手識(shí)別(Singer/Artist Identification)是指判斷一首歌曲是由集合中的哪個(gè)歌手演唱的.在歌手的分類管理、音樂(lè)索引和檢索、版權(quán)管理、音樂(lè)推薦等領(lǐng)域都有重要應(yīng)用.受樂(lè)器伴奏、錄音質(zhì)量、伴唱等的影響,歌手識(shí)別是一個(gè)十分困難的問(wèn)題.此外,一個(gè)歌手每個(gè)專輯中的歌曲通常有很多類似之處.比如風(fēng)格(Style)、配器(Instrumentation)、后處理方式(Post-production)等,使得訓(xùn)練和測(cè)試數(shù)據(jù)分布在同一唱片中時(shí)會(huì)產(chǎn)生偏高的識(shí)別結(jié)果,稱為唱片效應(yīng)(Album Effect)[150].除了少量算法采用半解壓狀態(tài)的修正余弦變換(Modified Discrete Cosine Transform, MDCT)系數(shù)作為特征直接在MP3壓縮域上進(jìn)行歌手分類識(shí)別[151-152],絕大多數(shù)算法都是以原始格式音頻作為輸入.
歌手識(shí)別借鑒了說(shuō)話人/聲紋識(shí)別(Speaker/Voiceprint Recognition)的整體技術(shù)框架[153].人類聽(tīng)覺(jué)系統(tǒng)(Human Auditory System, HAS)到底通過(guò)什么樣的感知特征來(lái)識(shí)別特定的歌聲,目前仍不得而知.由于歌聲和語(yǔ)音之間在時(shí)頻結(jié)構(gòu)上的巨大差別,除了用于聲紋識(shí)別的典型的音頻特征如感知線性預(yù)測(cè)(Perceptual Linear Prediction, PLP)[154]、MFCC[155]等,還需引入更多表示歌聲特性的特征,如音色[156]、反應(yīng)歌手個(gè)性化風(fēng)格的頻率顫音倒譜系數(shù)(Vibrato Cepstral Coefficients)[157]等.音色是人耳區(qū)分不同音樂(lè)聲音的基礎(chǔ)[158].文獻(xiàn)[159]從聲音的正弦泛音的瞬時(shí)幅度和頻率估計(jì)譜包絡(luò)線(Spectral Envelope),作為特征輸入分類器識(shí)別歌手.使用的分類器有GMM[160]、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)[161]、混合模型[162]等.
由于伴奏的干擾,在進(jìn)行歌手識(shí)別前通常需要進(jìn)行歌聲增強(qiáng)(Singing Enhancement)或伴奏消減(Accompany Reduction)等預(yù)處理[163-164].文獻(xiàn)[163]采用基于NMF分解的歌聲分離技術(shù)作為預(yù)處理.文獻(xiàn)[164]首先提取主旋律(Predominant Melody)的和聲結(jié)構(gòu),使用正弦波模型將這些成分重新合成為主旋律,并估計(jì)可靠的旋律幀從而實(shí)現(xiàn)伴奏消減.雖然增強(qiáng)或分離多聲部/多音音樂(lè)中的歌聲部分作為前處理被相信是一個(gè)提高歌手識(shí)別任務(wù)性能的有效方式,但是因?yàn)椴豢杀苊獾卮嬖谑д妫視?huì)傳遞到后續(xù)的特征提取和分類階段,所以只能帶來(lái)有限的提高.文獻(xiàn)[165]是一種基于CASA的歌聲增強(qiáng)預(yù)處理措施.在每個(gè)Frame上的二元時(shí)頻掩蔽(Binary T-F Mask)包括可靠的歌聲時(shí)頻單元,和另外一些不可靠或丟失的歌聲時(shí)頻單元,頻譜不完整.為減輕失真,使用兩個(gè)缺失特征(Missing Feature)方法即重構(gòu)(Reconstruction)和邊緣化(Marginalization)處理不完整的歌聲頻譜(Vocal Spectrum),再進(jìn)行歌手識(shí)別.與上述主要基于音頻分離的方法思路不同,文獻(xiàn)[166]提出了一個(gè)有趣的方法.從一個(gè)很大的卡拉OK數(shù)據(jù)集中手工混合左右聲道的清唱歌聲和伴奏,并研究清唱和帶伴奏歌聲之間在倒譜上的變換模型.當(dāng)一個(gè)未知的帶伴奏的歌聲出現(xiàn)時(shí),即可把帶伴奏歌聲的倒譜轉(zhuǎn)換到接近清唱的水平,從而有助于后續(xù)的歌手分類識(shí)別.
當(dāng)前已有的歌手識(shí)別算法在整體框架上與說(shuō)話人/聲紋識(shí)別相同,需要事先搜集大量的歌聲清唱數(shù)據(jù)并建立歌聲模型.但是與語(yǔ)音數(shù)據(jù)主要來(lái)自普通人群并相對(duì)容易獲取不同,歌唱主要源自各種級(jí)別的藝術(shù)家,而且?guī)缀醵际菐в袠?lè)器伴奏.大量搜集每個(gè)歌手的無(wú)伴奏清唱數(shù)據(jù)幾乎是不可能的.許多歌手識(shí)別算法使用帶伴奏的歌聲進(jìn)行訓(xùn)練,但效果并不如人意.文獻(xiàn)[167]研究了用語(yǔ)音數(shù)據(jù)代替歌唱數(shù)據(jù)來(lái)刻畫(huà)歌唱者聲音的可能性,結(jié)論是很難用說(shuō)話完全代替歌唱的特性,原因在于大多數(shù)人的說(shuō)話和歌唱具有很大的差異.兩個(gè)可能的解決思路是: (1) 將歌手的語(yǔ)音數(shù)據(jù)轉(zhuǎn)換為歌唱數(shù)據(jù)增加訓(xùn)練數(shù)據(jù)量,然后使用歌聲驅(qū)動(dòng)的模型進(jìn)行識(shí)別;(2) 將歌手的歌唱數(shù)據(jù)轉(zhuǎn)換為對(duì)應(yīng)的語(yǔ)音,然后使用大量語(yǔ)音數(shù)據(jù)訓(xùn)練的模型進(jìn)行識(shí)別.
2.4.4 歌唱評(píng)價(jià)
歌唱評(píng)價(jià)(Singing Evaluation)是對(duì)演唱的歌聲片段做出各方面的正面或負(fù)面描述,一直以來(lái)都是音樂(lè)學(xué)界所關(guān)注的課題之一.在歌唱表演、歌唱比賽、卡拉OK娛樂(lè)、聲樂(lè)教育等場(chǎng)合都具有重要應(yīng)用.目前已有的自動(dòng)歌唱評(píng)價(jià)系統(tǒng)基本集中于卡拉OK場(chǎng)景.
早期的算法(如20世紀(jì)90年代中前期)受計(jì)算機(jī)軟硬件的限制,只采用音量(Volume/Loudness)作為評(píng)價(jià)標(biāo)準(zhǔn),經(jīng)常跟人類評(píng)價(jià)的結(jié)果大相徑庭.隨著MIR技術(shù)及計(jì)算資源的發(fā)展,后續(xù)算法有了很大發(fā)展.常規(guī)思路是計(jì)算兩段歌聲中的各種音頻特征如音量、旋律線的音高、音準(zhǔn)(Intonation)、音程、音符時(shí)長(zhǎng)、節(jié)奏、顫音、音頻特征包絡(luò)線、統(tǒng)計(jì)特征等之間的相似度,并給出一個(gè)用戶表現(xiàn)的評(píng)價(jià),如好/壞(Good/Poor)兩個(gè)質(zhì)量分類[168]、高/中/低(High/Medium/Low)3個(gè)質(zhì)量分類[169]或總體評(píng)分[170-171].常用分類器有SVM等,測(cè)量相似性可使用動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù),由不同特征得到的相似性分?jǐn)?shù)可使用權(quán)重結(jié)合到一起[172].
因?yàn)榻^大多數(shù)歌曲都包含伴奏,在很多情況下無(wú)法找到歌星的清唱錄音和用戶歌聲進(jìn)行比較.文獻(xiàn)[173]直接以歌手的CD/MP3帶伴奏歌曲作為參考基準(zhǔn),以音高、強(qiáng)弱、節(jié)奏為特征與用戶的歌聲進(jìn)行比較,除了給出用戶的總體歌唱評(píng)價(jià),還指出哪里唱的好和不好.該技術(shù)比較接近于人類評(píng)價(jià)方式.類似地,文獻(xiàn)[174]的評(píng)價(jià)包括是否跑調(diào)或走音(Off Key/Be in Tune),這需要以很高的頻率分辨率進(jìn)行基頻估計(jì),通常小于幾個(gè)音分(Cent).以上算法雖有一定效果,但很少考慮各個(gè)評(píng)價(jià)要素之間的關(guān)系.以系統(tǒng)評(píng)價(jià)和人類評(píng)價(jià)之間的相關(guān)系數(shù)定量衡量,經(jīng)常與人類評(píng)價(jià)結(jié)果相去甚遠(yuǎn)[175].
另一個(gè)難題是如何進(jìn)行歌唱的高級(jí)評(píng)價(jià).即在跟準(zhǔn)節(jié)奏和音高的前提下,如何像人類專家那樣對(duì)音色具有何種特點(diǎn)、是否有辨識(shí)度,音域(Pitch Range)是否合適,吐字是否清晰,演唱是否感情飽滿等進(jìn)行高級(jí)評(píng)價(jià).這方面的研究工作很少.文獻(xiàn)[176]采用歌聲相關(guān)的特征如頻率顫音、和聲噪音比(Harmonic-to-noise Ratio)針對(duì)中文流行歌曲的6種歌唱音色進(jìn)行分類,這6種音色是渾厚(Deep)、沙啞(Gravelly)、有力(Powerful)、甜美(Sweet)、空靈(Ethereal)、高亢(High pitched).文獻(xiàn)[177]使用基頻、共振峰、和聲及殘差譜(Residual Spectrum)作為特征,識(shí)別用戶的發(fā)音區(qū)域并分析其聲音質(zhì)量.推薦一個(gè)更合適的音域,避免唱破音出現(xiàn)嗓子疼痛等聲帶健康(Vocal Health)問(wèn)題.對(duì)于歌曲來(lái)講,歌詞的正確發(fā)音也是非常重要的一個(gè)方面.好的歌手如鄧麗君經(jīng)常被評(píng)價(jià)為字正腔圓.文獻(xiàn)[178]使用譜包絡(luò)線和音高作為特征,混合高斯模型(GMM)和線性回歸(Linear Regression)作為分類器,自動(dòng)對(duì)歌唱元音(Singing Vowel)的質(zhì)量進(jìn)行分類評(píng)價(jià).除了以上基于聲學(xué)的歌唱評(píng)價(jià)方法,文獻(xiàn)[179]通過(guò)測(cè)量嘴和下頜(Mandible)移動(dòng)的肌電圖(Electromyography,EMG)進(jìn)行歌唱評(píng)價(jià).
2.4.5 歌詞識(shí)別
歌詞識(shí)別(Lyrics Recognition/Transcription)與語(yǔ)音識(shí)別(Speech Recognition)問(wèn)題的總體目標(biāo)類似,都是把語(yǔ)言轉(zhuǎn)換為文本;總體技術(shù)框架也類似,都包括聲學(xué)模型和語(yǔ)言模型.但是由于歌唱和說(shuō)話在聲學(xué)和語(yǔ)言特性上的巨大差別,具體技術(shù)實(shí)現(xiàn)上需針對(duì)歌唱的特點(diǎn)進(jìn)行更有針對(duì)性的設(shè)計(jì).從聲學(xué)模型來(lái)看,歌唱是一種特殊的語(yǔ)音.日常語(yǔ)音基本可視為勻速進(jìn)行,音高變化范圍很小.歌唱?jiǎng)t需要根據(jù)音樂(lè)的旋律和節(jié)奏,以及顫音、轉(zhuǎn)音等藝術(shù)技巧控制聲帶的發(fā)聲方式、時(shí)間和氣息的穩(wěn)定性.一個(gè)普遍的現(xiàn)象是同一個(gè)人歌唱和說(shuō)話的音色具有很大不同.從語(yǔ)言模型來(lái)看,歌詞具有一定的藝術(shù)性,還需要押韻,也與日常交流的語(yǔ)言具有很大區(qū)別.此外,與單純的語(yǔ)音不同,歌聲幾乎都是與各種樂(lè)器伴奏混合在一起,涉及信號(hào)分離的難題.而且搜集清唱歌聲與歌詞對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)十分困難.這些特點(diǎn)使得傳統(tǒng)的語(yǔ)音識(shí)別模型無(wú)法直接使用,帶來(lái)巨大挑戰(zhàn).
雖然很多歌曲的歌詞已經(jīng)被人工上傳到各個(gè)音樂(lè)網(wǎng)站,但是仍然有很多歌曲缺少歌詞.此外,如果歌詞識(shí)別具有一定的準(zhǔn)確率,則可以將基于聲學(xué)特征(Acoustic Features)的歌唱檢索轉(zhuǎn)換為更成熟的基于文本的檢索[180],或者幫助基于音頻特征的歌唱檢索.另外,歌詞識(shí)別在歌曲分類、歌詞與音頻或口型對(duì)齊上也有一定應(yīng)用.
目前為止,僅有極少數(shù)歌詞識(shí)別的算法被提出,而且識(shí)別準(zhǔn)確率很低.類似于經(jīng)典語(yǔ)音識(shí)別框架,文獻(xiàn)[181]使用音樂(lè)特征及HMM模型進(jìn)行歌詞識(shí)別,用合成的歌聲解決缺乏訓(xùn)練數(shù)據(jù)的問(wèn)題,在無(wú)樂(lè)器伴奏的歌聲中(A Cappella)中識(shí)別音節(jié)(Syllable),并且為了響應(yīng)音素(Phoneme)長(zhǎng)度的變化,構(gòu)建一個(gè)依賴于長(zhǎng)度(Duration Dependent)的HMM.文獻(xiàn)[182]利用類似的語(yǔ)音識(shí)別模型,用有限狀態(tài)自動(dòng)機(jī)(Finite State Automaton, FSA)描述識(shí)別語(yǔ)法,將待識(shí)別的歌詞約束為數(shù)據(jù)庫(kù)中存儲(chǔ)的歌詞.文獻(xiàn)[183]對(duì)音樂(lè)中的音素進(jìn)行識(shí)別(Phoneme Recognition)以幫助歌詞識(shí)別.在有視覺(jué)信息的情況下,還可以發(fā)展基于視覺(jué)的歌詞識(shí)別方法.文獻(xiàn)[184]利用光學(xué)字符識(shí)別(Optical Character Recognition, OCR)引擎自動(dòng)識(shí)別YouTube網(wǎng)站上下載的視頻中的歌詞.文獻(xiàn)[185]通過(guò)口型信息幫助歌詞識(shí)別,但效果有限.
音樂(lè)搜索(Music Retrieval)是指在給定某種形式的查詢(Query)時(shí),在數(shù)據(jù)庫(kù)中檢索與之匹配的結(jié)果集并按相關(guān)性從高到低返回的過(guò)程.按查詢輸入的形式,可進(jìn)一步分為5個(gè)子領(lǐng)域: 音樂(lè)識(shí)別、哼唱及歌唱檢索、音樂(lè)版本識(shí)別或翻唱識(shí)別、節(jié)拍檢索、音樂(lè)借用.
2.5.1 音樂(lè)識(shí)別
音樂(lè)識(shí)別(Music Identification/Recognition)在產(chǎn)品上又稱為聽(tīng)歌識(shí)曲.通常用手機(jī)或麥克風(fēng)錄制10s左右的音樂(lè)作為查詢(Query)片段,計(jì)算其音頻指紋后與后臺(tái)音頻指紋庫(kù)中的記錄進(jìn)行匹配,并將最相似記錄的歌曲名字、詞曲作者、歌唱者甚至歌詞等相關(guān)元數(shù)據(jù)返回.音頻指紋是指可以代表一段音頻重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名,音頻指紋技術(shù)(Audio Fingerprinting)是音樂(lè)識(shí)別的核心,當(dāng)擴(kuò)展到一般音頻時(shí)也可稱為基于例子的音頻檢索(Query by Example, QBE).音頻指紋算法首先提取各種時(shí)頻域音頻特征,對(duì)其建模后得到指紋,之后在指紋庫(kù)中進(jìn)行基于相似性的快速匹配和查找[186].
常用的音頻特征有Chroma[187]、節(jié)奏直方圖(Rhythm Histogram)[187]、節(jié)拍[188]、經(jīng)KD樹(shù)量化的旋律線字符集[189]、音高與時(shí)長(zhǎng)[190]、樹(shù)量化的MFCC峰值和譜峰值(Spectral Peaks)字符集[191]、MPEG-7描述子[192]、頻譜圖局部峰值[193]、從音樂(lè)的二維頻譜圖上學(xué)習(xí)到的圖像特征[194]、MP3壓縮域的聽(tīng)覺(jué)Zernike矩(Auditory Zernike Moment)[195]等.各種特征經(jīng)常融合在一起使用.
錄制的輸入片段有可能經(jīng)受保持音高不變的時(shí)間伸縮(TSM)和變調(diào)(PS)這兩種失真.與一般的噪聲類失真影響音頻質(zhì)量不同,這兩種失真主要會(huì)引起音頻指紋在時(shí)頻域上的移動(dòng),產(chǎn)生同步失真(Desynchronization),從而使查詢片段指紋與數(shù)據(jù)庫(kù)音頻指紋集匹配失敗.文獻(xiàn)[196]從二維頻譜圖上提取計(jì)算機(jī)視覺(jué)中的SIFT(Scale Invariant Feature Transform)描述子作為音頻指紋,利用其局部對(duì)齊(Local Alignment)能力抵抗TSM和PS失真.
為使提取的特征更魯棒,還需進(jìn)行去噪、回聲消除(Echo Cancellation)[188]等預(yù)處理.常用的指紋匹配方法包括經(jīng)典的TF-IDF(Term Frequency-Inverse Document Frequency)打分匹配、局部敏感哈希(Local Sensitive Hashing, LSH)、倒排表(Inverted Table)等[189,191].文獻(xiàn)[197]使用一個(gè)有趣的方法加速查詢匹配,即首先自動(dòng)識(shí)別Query和數(shù)據(jù)庫(kù)歌曲的流派,在匹配階段只計(jì)算Query與數(shù)據(jù)庫(kù)中具有同樣流派的歌曲的相似性.
2.5.2 哼唱/歌唱檢索
哼唱/歌唱檢索(Query by Humming/Singing, QBH/QBS)通常用麥克風(fēng)錄制長(zhǎng)短不一的哼唱或歌唱聲音作為查詢片段,計(jì)算音頻特征后在數(shù)據(jù)庫(kù)中進(jìn)行相似性匹配,并按匹配度高低返回結(jié)果列表,最理想的目標(biāo)是正確的歌曲排名第一返回.典型的應(yīng)用場(chǎng)景是卡拉OK智能點(diǎn)歌.與上述音樂(lè)識(shí)別技術(shù)相比,哼唱/歌唱檢索不僅同樣面臨由于在空氣中錄音而引起的信號(hào)質(zhì)量下降,還面臨跑調(diào)、節(jié)拍跟不上等新的困難.哼唱/歌唱檢索的結(jié)果與用戶的哼唱/歌唱查詢片段質(zhì)量高度相關(guān),存在很大的不確定性.
除了常規(guī)時(shí)頻域音頻特征,能夠在一定程度上反應(yīng)音樂(lè)主旋律走向的中高層音頻特征更適合于哼唱/歌唱檢索.早期的哼唱檢索系統(tǒng)[198]根據(jù)音高序列的相對(duì)高低(Relative Pitch Changes)用3個(gè)字符即方向信息來(lái)表示旋律包絡(luò)線,并區(qū)分不同的旋律.這3個(gè)字符是‘U’、‘D’、‘S’,表示當(dāng)前音符的音高分別高于、低于、等于前一個(gè)音符的音高.3個(gè)字符表示的主要問(wèn)題比較粗糙,于是文獻(xiàn)[199]把旋律包絡(luò)線擴(kuò)展為用24個(gè)半音(Semitone)字符來(lái)表示,即當(dāng)前音的一個(gè)正負(fù)八度.類似地,文獻(xiàn)[200]也采用音程作為特征矢量,并增加了分辨率.與以上均不相同,文獻(xiàn)[201]沒(méi)有使用明確的音符信息,而是使用音符出現(xiàn)的概率來(lái)表示旋律信息.除了音高類的特征,文獻(xiàn)[202]利用音長(zhǎng)和音長(zhǎng)變化對(duì)旋律進(jìn)行編碼,以獲得更加精確的旋律表示.文獻(xiàn)[203]采用符合MPEG-7的旋律序列,即一系列音符長(zhǎng)度和長(zhǎng)度比例作為Query.與上述不同,文獻(xiàn)[204]從數(shù)據(jù)驅(qū)動(dòng)出發(fā),用音素級(jí)別(Phoneme-level)的HMM模擬哼唱/歌唱波形的音符片段,用GMM模擬能量、音高等特征,更加魯棒地表示用戶哼唱/歌唱的旋律.
由于用戶音樂(lè)水平不一,哼唱及歌唱的查詢片段經(jīng)常出現(xiàn)音符走音、整體跑調(diào)、速度及節(jié)拍跟不上伴奏等現(xiàn)象.即使用戶輸入沒(méi)有問(wèn)題,音符及節(jié)拍的分割和音高識(shí)別算法也不會(huì)100%準(zhǔn)確,可能產(chǎn)生插入或刪除等錯(cuò)誤[205].給定一個(gè)不完美的Query,如何準(zhǔn)確地從大規(guī)模數(shù)據(jù)庫(kù)里檢索是一個(gè)巨大挑戰(zhàn).為克服音符走音現(xiàn)象,文獻(xiàn)[206]對(duì)查詢片段的音高序列進(jìn)行平滑,去除音高檢測(cè)或用戶歌唱/哼唱產(chǎn)生的異常點(diǎn)(Outlier).絕大多數(shù)算法采用相對(duì)音高序列,而不是絕對(duì)音高.只要保持相對(duì)音高序列的正確,那么對(duì)于個(gè)別音符走音現(xiàn)象以上算法都是具有一定容錯(cuò)性的[207].為克服哼唱和原唱之間的速度差異,文獻(xiàn)[208]首先使用原始Query來(lái)檢索候選歌曲,如果結(jié)果不可靠,Query片段被線性縮放兩倍重新檢索.如果還不可靠,則縮放更多倍數(shù).日本的卡拉OK歌曲選擇系統(tǒng)Sound Compass[209]也采用類似的時(shí)間伸縮方法.為克服整體跑調(diào)現(xiàn)象,絕大多數(shù)算法采用調(diào)高平移(Key Transposition)辦法進(jìn)行糾錯(cuò)[208-209].用戶哼唱的各種錯(cuò)誤經(jīng)常在開(kāi)頭和結(jié)尾處出現(xiàn).基于此假設(shè),文獻(xiàn)[210]認(rèn)為只有Query的中間部分是屬于某個(gè)音樂(lè)的子序列.對(duì)兩個(gè)流行的局部對(duì)齊方法即線性伸縮(Linear Scaling, LS)和DTW擴(kuò)展后進(jìn)行匹配識(shí)別.為抵抗Query可能存在的各種錯(cuò)誤,文獻(xiàn)[205]采用音頻指紋系統(tǒng)描述重要的旋律信息,更好地比較Query和數(shù)據(jù)庫(kù)歌曲.
另一個(gè)影響匹配性能的因素是如何切割Query和數(shù)據(jù)庫(kù)完整歌曲的時(shí)間單元.文獻(xiàn)[211]表明基于音符的切割比基于幀的分割處理更快.文獻(xiàn)[200]表明所有音樂(lè)信息基于節(jié)拍分割會(huì)比基于音符分割對(duì)于輸入錯(cuò)誤更加魯棒.文獻(xiàn)[212]進(jìn)一步提出一種基于樂(lè)句(Music Phrase)分割和匹配的新方法,使得匹配準(zhǔn)確率大大提升.基于節(jié)拍和樂(lè)句的分割不僅性能更好,而且也更符合音樂(lè)語(yǔ)義.類似地,文獻(xiàn)[213]也采用樂(lè)句尺度的分段線性伸縮(Phrase-level Piecewise Linear Scaling),基于DTW或遞歸對(duì)齊(Recursive Alignment)進(jìn)行旋律匹配,并將每個(gè)樂(lè)句的旋律片段約束在一個(gè)有限范圍內(nèi)調(diào)整.
在旋律相似性匹配方面,最直接的技術(shù)是字符串近似匹配/對(duì)齊技術(shù)[203].隨著研究的深入開(kāi)始引入動(dòng)態(tài)時(shí)間規(guī)整(DTW)、后輟樹(shù)索引、隱馬爾科夫模型(HMM)、K近鄰(K-nearest Neighbor)、N-gram、基于距離的相似性(Distance-based Similarity)、基于量化的相似性(Quantization-based Similarity)、基于模糊量化的相似性(Fuzzy Quantization-based Similarity)等各種方法[209,214-215].大多數(shù)哼唱/歌唱檢索方法在時(shí)間域測(cè)量音符序列之間的距離,文獻(xiàn)[216]在快速傅里葉變換(Fast Fourier Transform, FFT)頻域計(jì)算音符序列之間的歐氏距離(Euclidean Distance),匹配速度有所加快.基于動(dòng)態(tài)規(guī)劃(Dynamic Programming, DP)的局部對(duì)齊方法窮盡兩個(gè)音樂(lè)片段之間所有可能的匹配,返回最佳局部對(duì)齊,缺點(diǎn)是計(jì)算代價(jià)太高,在指數(shù)增長(zhǎng)的數(shù)據(jù)庫(kù)規(guī)模下,準(zhǔn)確的局部對(duì)齊已不可能.因此,對(duì)于大規(guī)模數(shù)據(jù)庫(kù)需要更高效的檢索辦法.文獻(xiàn)[217]實(shí)現(xiàn)基于音符音高的LSH索引算法,篩選候選片段,使用線性伸縮來(lái)定位候選者的準(zhǔn)確邊界.文獻(xiàn)[218]使用多譜聚類(Multiple Spectral Hashing, MSH)得到特征矢量,之后用改進(jìn)的DTW進(jìn)行相似性匹配.文獻(xiàn)[219]利用顯卡GPU(Graphic Processing Unit)硬件強(qiáng)大的計(jì)算能力,實(shí)現(xiàn)局部對(duì)齊的快速算法,速度提高超過(guò)100倍.基于不同匹配策略可得到不同的結(jié)果,文獻(xiàn)[220]在打分級(jí)別(Score-level)融合多個(gè)結(jié)果.
2.5.3 音樂(lè)版本識(shí)別或翻唱識(shí)別
音樂(lè)版本識(shí)別(Cover Song Identification, CSI)或翻唱識(shí)別判斷兩首音樂(lè)是否具有同樣的本源.眾所周知,很多音樂(lè)經(jīng)過(guò)重新編曲、演唱和演奏后會(huì)形成很多版本.這些不同的版本會(huì)保持主旋律基本相同,但是音樂(lè)結(jié)構(gòu)、調(diào)高、節(jié)奏(速度)、配器(音色)、歌唱者性別、語(yǔ)言等都可能會(huì)發(fā)生巨大變化[221].人類大腦具有高度的抽象思維、邏輯推理能力,識(shí)別多版本音樂(lè)輕而易舉.但是音頻數(shù)據(jù)的改變,卻使機(jī)器識(shí)別相當(dāng)困難.
絕大多數(shù)音樂(lè)版本識(shí)別算法使用一個(gè)通用框架,包括特征提取和模式匹配兩步.在特征提取階段,對(duì)應(yīng)于各個(gè)音樂(lè)要素的高層特征很難準(zhǔn)確計(jì)算.因此,直接采用高層特征的算法難以得到希望的效果.低層特征無(wú)法反映音樂(lè)語(yǔ)義,僅有少數(shù)CSI算法采用低層特征,如音色形狀序列(Timbral Shape Sequences),即一首歌曲的經(jīng)過(guò)量化的平滑頻譜的相對(duì)改變[222].為彌補(bǔ)高、低層音頻表示之間的鴻溝,在CSI中經(jīng)常使用既能在一定程度上反映高層特征又能比較準(zhǔn)確計(jì)算的中層特征(Mid-level Feature).文獻(xiàn)[223]提出一個(gè)集成旋律和節(jié)奏特性的中層特征.首先進(jìn)行節(jié)拍跟蹤,產(chǎn)生獨(dú)立于速度變化的節(jié)拍對(duì)齊(Beat-synchronous)表示.之后在連續(xù)音頻節(jié)拍上進(jìn)行多音高檢測(cè),在檢測(cè)的音高上提取旋律線用于后續(xù)檢索.文獻(xiàn)[224]也類似地采用主旋律作為特征.多版本音樂(lè)保持主旋律基本不變,會(huì)使在此基礎(chǔ)上配置的和聲在很多情況下也保持基本不變.所以,和聲類的特征也可以用于CSI.文獻(xiàn)[225]采用半音類Chroma/PCP及其變種.文獻(xiàn)[226]采用隨時(shí)間變化的半音類圖(Chromagram).文獻(xiàn)[227]在Chromagram中去掉相位信息,并應(yīng)用指數(shù)分布的頻帶得到一個(gè)對(duì)于樂(lè)器、速度、時(shí)移不敏感的特征矩陣.文獻(xiàn)[228]受心理物理學(xué)啟發(fā),根據(jù)人類聽(tīng)覺(jué)對(duì)相對(duì)音高比絕對(duì)音高敏感的事實(shí),采用描述相對(duì)音高的動(dòng)態(tài)Chroma特征(Chroma-based Dynamic Feature).文獻(xiàn)[229]在Chroma基礎(chǔ)上用深度學(xué)習(xí)中的自編碼器(Auto Encoder)學(xué)習(xí)一個(gè)更能刻畫(huà)音樂(lè)本質(zhì)的中間表示.文獻(xiàn)[230]使用在MIDI訓(xùn)練的HMM識(shí)別的和弦序列.與以上基于原始格式音頻輸入的CSI算法不同,文獻(xiàn)[231]在壓縮域直接從AAC文件中提取一個(gè)低復(fù)雜度的有效特征,即在半解碼(Semi-decoding)的情況下,直接將MDCT系數(shù)映射到12維Chroma特征上.
以上主旋律與和聲類的中層特征對(duì)配器(音色)、歌唱者性別、語(yǔ)言等變化都具有較強(qiáng)的內(nèi)在魯棒性[232].對(duì)于節(jié)奏或速度變化,可采用基于節(jié)拍分割對(duì)齊的同步方法[226].對(duì)于調(diào)高變化,一般采用調(diào)高平移的措施[226].更嚴(yán)重的挑戰(zhàn)來(lái)自多版本音樂(lè)中可能存在的音樂(lè)結(jié)構(gòu)變化.一個(gè)典型的例子是蘇芮演唱的“一樣的月光”.該歌曲有兩個(gè)版本,相差一段長(zhǎng)1分多鐘的副歌,前奏也完全改變.更多的例子體現(xiàn)在CD版歌曲和演唱會(huì)版本的歌曲,通常演唱會(huì)版本會(huì)在間奏處增加一大段樂(lè)手獨(dú)奏的即興表演.在音樂(lè)結(jié)構(gòu)發(fā)生變化時(shí)進(jìn)行CSI必須采用額外措施.首先按照前奏、主歌(一般2個(gè))、副歌(通常大于2個(gè))、橋段、間奏、結(jié)尾等部分分割,之后再調(diào)用上邊的辦法在各個(gè)局部進(jìn)行音樂(lè)版本識(shí)別.文獻(xiàn)[233]基于音樂(lè)結(jié)構(gòu)分析提出一個(gè)新的CSI算法,只匹配重要部分(如主歌、副歌)而忽略次要部分,使用加權(quán)平均來(lái)集成各部分的相似性.
相似性度量一般包括互相關(guān)、歸一化的Frobenius范數(shù)、歐氏距離、點(diǎn)積、動(dòng)態(tài)時(shí)間規(guī)整(DTW)、Smith-Waterman對(duì)齊算法、隱馬爾科夫模型(HMM)的最可能隱含狀態(tài)序列、近似最近鄰檢索(Approximate Nearest Neighbor Search)等[226-227,230,232,234],在大規(guī)模匹配時(shí)還可采用局部敏感哈希(LSH)進(jìn)行索引[223].除了以上常規(guī)方法,文獻(xiàn)[235]基于信息論(Information Theory)方法研究CSI中的音頻時(shí)間序列之間的相似性問(wèn)題.在離散情況下計(jì)算歸一化壓縮距離(Normalized Compression Distance, NCD),在連續(xù)情況下計(jì)算基于信息的相似性度量(Information-based Measures of Similarity).文獻(xiàn)[222]基于矢量量化(Vector Quantization)或聚類的思想設(shè)計(jì)一種CSI相似性匹配方法.將滑動(dòng)窗口的各音頻特征映射到以時(shí)間排序(Time-ordered)的高維空間中的點(diǎn)云(Point Cloud),同一歌曲不同版本對(duì)應(yīng)的點(diǎn)云可近似認(rèn)為由旋轉(zhuǎn)(Rotation)、平移(Translation)或伸縮(Scaling)得到.通常融合不同的CSI檢測(cè)算法能得到更好的結(jié)果,如文獻(xiàn)[236]結(jié)合了DTW和Qmax的結(jié)果.
文獻(xiàn)[234]研究了諸多要素對(duì)CSI的影響.實(shí)驗(yàn)表明: Chroma特征比MFCC等音色類特征更適合此任務(wù),而且增加分辨率可提高識(shí)別準(zhǔn)確性.余弦距離比歐氏距離更適合計(jì)算Chroma序列相似性.最佳平移索引(Optimal Transposition Index, OTI)對(duì)調(diào)高循環(huán)移位,以獲得兩首歌曲之間的最大相似性,比首先估計(jì)調(diào)高再平移的方法更準(zhǔn)確.采用節(jié)拍跟蹤、調(diào)高估計(jì)、旋律提取、摘要提取等中間步驟進(jìn)行CSI,由于它們本身并不完全可靠,反而可能會(huì)使性能降低.考慮到在各個(gè)版本音樂(lè)間可能出現(xiàn)較大的歌曲結(jié)構(gòu)改變,進(jìn)行局部相似性計(jì)算或局部對(duì)齊是唯一可行的CSI檢測(cè)方法.
2.5.4 敲擊檢索
敲擊檢索(Query By Tapping, QBT)是根據(jù)輸入的節(jié)拍信息,從數(shù)據(jù)庫(kù)中返回按節(jié)拍相似度高低排序的音樂(lè)列表.在整個(gè)檢索過(guò)程中沒(méi)有利用音高信息.隨著個(gè)人手持設(shè)備的普及,QBT提供了一個(gè)通過(guò)搖晃或敲擊設(shè)備的新穎有趣的音樂(lè)檢索方式.現(xiàn)在該領(lǐng)域的研究成果還較少.
一個(gè)典型的方法是提取Query中音符時(shí)長(zhǎng)矢量[237]作為特征,歸一化處理后采用動(dòng)態(tài)規(guī)劃方法在輸入時(shí)間矢量和數(shù)據(jù)庫(kù)時(shí)間矢量特征間進(jìn)行比對(duì)并排序返回.類似地,文獻(xiàn)[238]采用與文獻(xiàn)[237]同樣的特征,只是把音符時(shí)長(zhǎng)的名字改為音符起始點(diǎn)間距(Inter-Onset Interval, IOI),建立IOI比例矩陣(IOI Ratio Matrix),通過(guò)動(dòng)態(tài)規(guī)劃與數(shù)據(jù)庫(kù)歌曲匹配.文獻(xiàn)[239]提出的系統(tǒng)叫做BeatBank,用戶在MIDI鍵盤(pán)或電子鼓上敲擊一首歌的節(jié)奏,輸入被轉(zhuǎn)化為符合MPEG-7的節(jié)拍描述子(Beat Description Scheme)作為特征.文獻(xiàn)[240]以音頻中計(jì)算出的峰度(Kurtosis)的變化(Variations)作為節(jié)奏特征,并采用局部對(duì)齊算法匹配計(jì)算相似性分?jǐn)?shù).
2.5.5 音樂(lè)借用
圖8 音樂(lè)借用識(shí)別與翻唱檢索、歌曲片段識(shí)別的區(qū)別與聯(lián)系Fig.8 Difference and relation between music borrowing, cover song identification and music identification
音樂(lè)借用(Music Borrowing)有著長(zhǎng)期的歷史.特別是在當(dāng)今數(shù)字化時(shí)代,一個(gè)藝術(shù)家可以輕易地截取別人作品的某些部分,并將其集成到自己的歌曲中來(lái).借用和被借用歌曲之間共享一個(gè)旋律相似的片段.通常音樂(lè)界認(rèn)為適當(dāng)?shù)慕栌迷谒囆g(shù)創(chuàng)作中是允許的,但是超過(guò)一定長(zhǎng)度(如8小節(jié))就涉嫌抄襲侵權(quán)行為.例如,臺(tái)灣女子組合S.H.E的《波斯貓》借用了柯特爾比的《波斯市場(chǎng)》作為副歌部分的旋律,流行歌手卓亞君的《洛麗塔》的前奏來(lái)自鋼琴曲《致愛(ài)麗絲》,李健的《貝加爾湖畔》則在橋段借用了一段俄羅斯民歌的旋律,這些屬于正常引用的例子.而王力宏的《大城小愛(ài)》和周華健的《讓我歡喜讓我憂》全曲旋律非常相似,花兒樂(lè)隊(duì)兩張專輯中的13首歌曲也與其他歌曲旋律高度相似,這些都被指控涉嫌抄襲.從用戶的角度來(lái)說(shuō),發(fā)現(xiàn)音樂(lè)引用會(huì)給用戶帶來(lái)不少樂(lè)趣,也可以進(jìn)行作曲技巧分析.從法律的角度來(lái)看,檢測(cè)歌曲之間的相似片段將有助于音樂(lè)作品的版權(quán)維護(hù)和盜版檢測(cè),具有重要的現(xiàn)實(shí)意義.
音樂(lè)借用最顯著的特點(diǎn)是兩個(gè)音樂(lè)作品中的相似片段往往都比較短,而且起止位置隨機(jī).對(duì)計(jì)算機(jī)處理而言這是一個(gè)難題.音樂(lè)借用與翻唱檢索和音樂(lè)識(shí)別之間有區(qū)別也有聯(lián)系,如圖8所示.它們的相似點(diǎn)都是檢測(cè)不同歌曲之間的旋律相似的部分,而區(qū)別在于翻唱檢索基本以整首歌曲為單位,有較長(zhǎng)的相似部分,如圖8(a)所示;音樂(lè)識(shí)別則是固定一個(gè)短的片段,在另一首歌曲中檢索與之相似的短片段,片段之間只是音頻質(zhì)量不同,如圖8(b)所示;音樂(lè)借用也是檢測(cè)相似短片段,但難點(diǎn)在于不知道相似片段在歌曲中的起始位置及長(zhǎng)度,而且,類似于CSI,片段之間的音色、強(qiáng)弱、配器、速度、調(diào)高、語(yǔ)言等都可能不同,如圖8(c)所示.據(jù)我們所知該問(wèn)題在國(guó)內(nèi)外MIR領(lǐng)域尚未被研究過(guò).
如果把音高、旋律、節(jié)奏、和弦、調(diào)式、歌聲等核心層的MIR領(lǐng)域理解為低層音樂(lè)語(yǔ)義(Low-level Music Semantics),那么音樂(lè)流派/曲風(fēng)、情感、結(jié)構(gòu)、摘要/縮略圖、作曲家及樂(lè)器識(shí)別等應(yīng)用層的MIR領(lǐng)域則可以理解為高層音樂(lè)語(yǔ)義(High-level Music Semantics).低層音樂(lè)語(yǔ)義的研究有助于高層音樂(lè)語(yǔ)義的分析理解和自動(dòng)標(biāo)注,進(jìn)而基于此進(jìn)行更有效的音樂(lè)搜索和推薦.
2.6.1 音樂(lè)流派/曲風(fēng)分類
音樂(lè)流派/曲風(fēng)(Music Genre/Style)指的是音樂(lè)的不同風(fēng)格.西方音樂(lè)通常劃分為流行(Pop)、搖滾(Rock)、爵士(Jazz)、鄉(xiāng)村(Country)、古典(Classical)、藍(lán)調(diào)(Blues)、嘻哈(Hip-hop)和迪斯科(Disco)等類別.如果考慮世界各地的民族音樂(lè),那么劃分的類別將更多更復(fù)雜.這些分類方法主觀性強(qiáng)而且有爭(zhēng)議,目前還沒(méi)有一種通用的絕對(duì)標(biāo)準(zhǔn).音樂(lè)流派分類在音樂(lè)組織管理、瀏覽、檢索、情感計(jì)算和推薦中都有重要應(yīng)用.
音樂(lè)流派分類是一個(gè)典型的模式識(shí)別問(wèn)題,通常包括特征提取和統(tǒng)計(jì)分類兩步.常用特征包括譜特征、倒譜特征、MFCC、頻譜圖上計(jì)算出的紋理特征、音高直方圖(Pitch Histograms)等[241-242].特征的時(shí)域特性對(duì)分類也很重要[243].常用的分類器有GMM、SVM[244]、深度神經(jīng)網(wǎng)絡(luò)(DNN)[245]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[246]等.為解決流派類別定義的模糊性及有監(jiān)督學(xué)習(xí)訓(xùn)練的困難,另一個(gè)思路是根據(jù)音樂(lè)內(nèi)容分析比如節(jié)奏進(jìn)行聚類,性能與有監(jiān)督學(xué)習(xí)的方法相差不多[247].
2.6.2 作曲家識(shí)別
作曲家識(shí)別(Music Composer Recognition)是指通過(guò)聽(tīng)一段音樂(lè)并分析音頻數(shù)據(jù),識(shí)別出相應(yīng)的作曲家信息,基本應(yīng)用于音樂(lè)理論分析等專業(yè)場(chǎng)景.該領(lǐng)域的典型方法仍然是音頻特征加上統(tǒng)計(jì)分類器.用常規(guī)低層音頻特征刻畫(huà)作曲家風(fēng)格和技巧存在較大缺陷,提取高層音樂(lè)特征會(huì)更有利于挖掘作曲的內(nèi)在風(fēng)格和技巧[248].近些年,隨著深度學(xué)習(xí)方法的流行,其從大數(shù)據(jù)(Big Data)中自動(dòng)學(xué)習(xí)特征的能力也被用來(lái)深入研究作曲家的風(fēng)格和技巧[249].文獻(xiàn)中使用的分類器還包括決策樹(shù)(Decision Trees)、基于規(guī)則的分類(Rule-based Classification)、SVM等[250].
2.6.3 智能樂(lè)器識(shí)別
每個(gè)國(guó)家、民族都有自己獨(dú)特的樂(lè)器,種類繁多.如西方的風(fēng)笛(Bagpipes)、單簧管(Clarinet)、長(zhǎng)笛(Flute)、羽管鍵琴(Harpsichord)、管風(fēng)琴(Organ)、鋼琴(Piano)、長(zhǎng)號(hào)(Trombone)、小號(hào)(Trumpet)、小提琴(Violin)、吉他(Guitar)等管弦樂(lè)器(Orchestral Instruments),還有鼓(Drum)、鐃鈸(Cymbal)等各種打擊樂(lè)器(Percussive Instruments).到現(xiàn)代,還出現(xiàn)了各種模擬和擴(kuò)展相應(yīng)聲學(xué)樂(lè)器音色的電聲樂(lè)器(Electronic Instruments).中國(guó)也有很多的民族樂(lè)器,如古箏(Guzheng)、古琴(Guqin)、揚(yáng)琴(Yangqin)、琵琶(Pipa)、二胡(Erhu)、馬頭琴(Horse-head String Instrument)等.準(zhǔn)確識(shí)別樂(lè)器種類是音樂(lè)制作、樂(lè)器制造及評(píng)估等領(lǐng)域人士必備的專業(yè)技能,對(duì)音樂(lè)搜索、音樂(lè)流派識(shí)別、音樂(lè)識(shí)譜等任務(wù)都十分有益.
隨著音頻信息處理技術(shù)(Audio Information Processing)及人工智能技術(shù)(Artificial Intelligence, AI)的發(fā)展,出現(xiàn)了一些智能樂(lè)器識(shí)別(Intelligent Instrument Recognition)方法.主要的框架仍然是特征+分類器的通用模式識(shí)別框架.已用的特征包括LPC、MFCC、基于常數(shù)Q變換的倒譜系數(shù)、基于頻譜圖時(shí)頻分析的音色特征、基于稀疏特征學(xué)習(xí)(Sparse Feature Learning)得到的特征;已用的分類器包括GMM、SVM、貝葉斯決策(Bayesian Decision)等[251-255].大多數(shù)方法識(shí)別單一樂(lè)器的聲音輸入.但是,在現(xiàn)實(shí)中音樂(lè)基本上都是多種樂(lè)器的混合.識(shí)別多聲部/多音音樂(lè)中的各種樂(lè)器是一個(gè)重要而且更具挑戰(zhàn)性的任務(wù).文獻(xiàn)[256]基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行真實(shí)多聲部/多音音樂(lè)中的主樂(lè)器(Predominant Instrument)的識(shí)別,網(wǎng)絡(luò)以具有單一標(biāo)簽的固定長(zhǎng)度的主樂(lè)器音樂(lè)片段訓(xùn)練,從可變長(zhǎng)度的音頻信號(hào)中估計(jì)主樂(lè)器,并在測(cè)試音頻中采用滑動(dòng)窗口,對(duì)信息輸出進(jìn)行融合.
2.6.4 音樂(lè)結(jié)構(gòu)分析
音樂(lè)通常由按照層次結(jié)構(gòu)組織的多個(gè)重復(fù)片段組成.音樂(lè)結(jié)構(gòu)分析(Music Structure Analysis)的目的就是把音樂(lè)信號(hào)分割為一系列時(shí)間區(qū)域,并把這些區(qū)域聚集到具有音樂(lè)意義的類別[257].這些類別一般包括前奏(Intro)、主歌(Verse)、副歌(Chorus/Refrain)、間奏(Interlude)、橋段(Bridge)和結(jié)尾(Outro).注意主歌、副歌和間奏通常有多個(gè)段落,前奏、橋段、結(jié)尾則只有一個(gè),而且副歌比主歌具有更高的相似度[258].音樂(lè)結(jié)構(gòu)分析既可用于加深對(duì)音樂(lè)本身的理解,也可以輔助多個(gè)其他研究?jī)?nèi)容如音樂(lè)版本識(shí)別、樂(lè)句劃分、音樂(lè)摘要、內(nèi)容自適應(yīng)的音頻水印[259]等.
音樂(lè)內(nèi)部具有高度的重復(fù)性,基于音頻特征構(gòu)造自相似矩陣(Self-similarity Matrix)成為結(jié)構(gòu)分析的主要方法.可使用的音頻特征包括音色、Chroma/PCP等[260-261].對(duì)自相似矩陣進(jìn)行基于閾值的0/1二值化(Binarization)即得到遞歸圖(Recurrence Plot)[262],這種量化處理可以使音樂(lè)中的重復(fù)模式(Repetition Patterns)對(duì)速度、樂(lè)器、調(diào)高的改變具有更強(qiáng)的魯棒性.基于相似性思路文獻(xiàn)[263]提出另一個(gè)更復(fù)雜的方法.首先在節(jié)拍幀上檢測(cè)和弦,用動(dòng)態(tài)規(guī)劃匹配和弦后得到和聲相似的區(qū)域,從而劃分音樂(lè)結(jié)構(gòu).與以上基于重復(fù)模式相似性的方法不同,另一種結(jié)構(gòu)分析的典型思路是基于對(duì)音頻特征(如音色)的子空間聚類(Subspace Clustering),并假設(shè)每個(gè)子空間對(duì)應(yīng)于一個(gè)音樂(lè)段落[264-265].
2.6.5 音樂(lè)摘要/縮略圖
音頻摘要/縮略圖(Music Summary/Thumbnail)是指找到音樂(lè)中可聽(tīng)的最具代表性的音頻片段.但是何謂最具代表性并沒(méi)有很好定義,可以有多個(gè)選擇.音樂(lè)摘要/縮略圖有多個(gè)應(yīng)用,比如制作彩鈴、瀏覽、檢索、購(gòu)買(mǎi)數(shù)字音樂(lè)等[266].
獲取音樂(lè)摘要/縮略圖與音樂(lè)結(jié)構(gòu)分析密切相關(guān).一類方法只進(jìn)行初步的結(jié)構(gòu)分析,即基于音頻特征計(jì)算各片段之間的相似性,再尋找最合適的片段集作為摘要/縮略圖.使用的音頻特征包括和聲特征序列[267]及其直方圖[268]、調(diào)性分析[269]等.另一類方法首先進(jìn)行完整的音樂(lè)結(jié)構(gòu)分析,之后從不同結(jié)構(gòu)部分中提取摘要/縮略圖.文獻(xiàn)[270]使用副歌和它之前或之后的樂(lè)句合并組成摘要/縮略圖,以保證摘要/縮略圖開(kāi)始和結(jié)束點(diǎn)位于有意義的樂(lè)句邊界.文獻(xiàn)[271]從流行音樂(lè)主歌和副歌中選擇兩個(gè)最具代表性的部分作為雙摘要/縮略圖.
2.6.6 音樂(lè)情感識(shí)別
音樂(lè)很容易和人產(chǎn)生情感共鳴,在不同的時(shí)間和環(huán)境下可能會(huì)需要帶有不同感情色彩(如雄壯、歡快、輕松、悲傷、恐怖等)的音樂(lè).音樂(lè)情感識(shí)別(Music Emotion Recognition, MER)在音樂(lè)選擇與推薦、影視配樂(lè)、音樂(lè)理療等場(chǎng)景都有重要應(yīng)用,是近年來(lái)MIR領(lǐng)域的研究熱點(diǎn).
音樂(lè)情感識(shí)別最初被模擬為單標(biāo)簽[272]/多標(biāo)簽分類(Single/Multi-label Classification)問(wèn)題[273].MER需要建立符合人類認(rèn)知特點(diǎn)的分類模型,經(jīng)典的如Hevner情感模型和Thayer情感模型[274].為克服分類字典的模糊性,另一個(gè)思路是將音樂(lè)情感識(shí)別模擬為一個(gè)回歸預(yù)測(cè)(Regression Prediction)問(wèn)題[275].由Arousal和Valence(AV)值構(gòu)成二維AV情感空間,每個(gè)音樂(lè)信號(hào)成為情感平面上的一個(gè)點(diǎn).心理學(xué)實(shí)驗(yàn)表明,Arousal和Valence兩個(gè)變量可以表達(dá)所有情緒的變化.Arousal在心理學(xué)上可翻譯為“活躍度”,表示某種情緒含有能量的大小或活躍的程度,文獻(xiàn)中表達(dá)類似含義的還有Activation, Energy, Tension等單詞.Valence在心理學(xué)上可翻譯為“誘發(fā)力”,表示感到舒適或愉悅的程度,文獻(xiàn)中表達(dá)類似含義的還有Pleasant, Good Mood, Positive Mood等詞匯[276].
目前,絕大多數(shù)MER算法都是基于音樂(lè)信號(hào)的低層聲學(xué)特征如短時(shí)能量、譜特征等.雖然計(jì)算方便,但是與音樂(lè)情感沒(méi)有直接關(guān)系,效果往往并不理想.有些文章利用歌詞作為輔助信息對(duì)音樂(lè)情感進(jìn)行分析[277].未來(lái)需要在音樂(lè)領(lǐng)域知識(shí)的指導(dǎo)下,研究音樂(lè)高層特征(如旋律走向、速度、強(qiáng)弱、調(diào)性、配器等)與音樂(lè)情感之間的關(guān)系,而且需要與音樂(lè)心理學(xué)(Music Psychology)進(jìn)行更緊密的結(jié)合,引入更先進(jìn)的情感模型.
MIR還存在一些相關(guān)子領(lǐng)域,例如音樂(lè)推薦、音樂(lè)自動(dòng)標(biāo)注、歌聲與歌詞同步等.
2.7.1 音樂(lè)推薦
音樂(lè)推薦(Music Recommendation)通過(guò)分析用戶歷史行為,挖掘用戶潛在興趣,發(fā)現(xiàn)適合其喜好的音樂(lè)并進(jìn)行推送.音樂(lè)推薦已在國(guó)內(nèi)外多個(gè)音樂(lè)網(wǎng)站實(shí)現(xiàn)為產(chǎn)品,中文網(wǎng)站通常將此功能起名為“猜你喜歡”.據(jù)少量調(diào)查,目前的音樂(lè)推薦產(chǎn)品用戶體驗(yàn)不佳.客戶需求高度個(gè)性化,如何根據(jù)不同的時(shí)間、地點(diǎn)、年齡、性別、民族、學(xué)歷、愛(ài)好、經(jīng)歷、心情等因素進(jìn)行精準(zhǔn)個(gè)性化推薦仍是未解決的研究難題.
主流的推薦技術(shù)主要有3種: (1) 協(xié)同過(guò)濾推薦(Collaborative Filtering Recommendation),認(rèn)為用戶會(huì)傾向于欣賞同自己有相似偏好的用戶群所聆聽(tīng)的音樂(lè)[278].換句話說(shuō),如果用戶A和B有相似的音樂(lè)喜好,那么B喜歡但是還沒(méi)有被A考慮的歌曲就將被推薦給A.協(xié)同過(guò)濾推薦最主要的問(wèn)題是不能給評(píng)分信息很少的新用戶或新歌曲進(jìn)行推薦,即冷啟動(dòng)(Cold-start)現(xiàn)象[279].(2) 基于內(nèi)容的推薦(Content-based Recommendation),根據(jù)音樂(lè)間的元數(shù)據(jù)或聲學(xué)特征的相似性推薦音樂(lè)[280].如果用戶A喜歡歌曲S,那么具有與S相似音樂(lè)特征的歌曲都將被推薦給A.基于內(nèi)容的推薦方法在一定程度上緩解了冷啟動(dòng)問(wèn)題,更適用于新系統(tǒng).(3) 混合型推薦(Hybrid Recommendation),除了傳統(tǒng)的用戶評(píng)價(jià)信息,還使用多模態(tài)數(shù)據(jù)如幾何位置、用戶場(chǎng)景、微博等社交媒體信息以及各種音樂(lè)標(biāo)簽如流派、情感、樂(lè)器和質(zhì)量等[281].
除了從聆聽(tīng)歷史中挖掘個(gè)人興趣愛(ài)好以進(jìn)行音樂(lè)推薦,現(xiàn)實(shí)生活中還需要其他種類的音樂(lè)推薦.例如,在緩解個(gè)人精神壓力,為家庭錄像選擇最佳配樂(lè)、公共場(chǎng)合選擇背景音樂(lè)時(shí),需要基于情感計(jì)算進(jìn)行推薦[282];在日常生活的不同場(chǎng)合(如工作、睡覺(jué)、運(yùn)動(dòng))下通常需要不同種類的音樂(lè).
2.7.2 音樂(lè)自動(dòng)標(biāo)注
近年來(lái),互聯(lián)網(wǎng)上出現(xiàn)了數(shù)以百萬(wàn)甚至千萬(wàn)計(jì)的數(shù)字音樂(lè)和音頻,這也激發(fā)用戶產(chǎn)生各種各樣復(fù)雜的音樂(lè)發(fā)現(xiàn)(Music Discovery)的需求.例如,在一個(gè)懷舊的夜晚檢索“八十年代溫柔男女對(duì)唱”,在結(jié)婚紀(jì)念日找“紀(jì)念結(jié)婚的樂(lè)曲”,或者“薩克斯伴奏的悠揚(yáng)浪漫的女生獨(dú)唱”[283].這種查詢本身是復(fù)雜甚至模糊的,與之前具有確定查詢形式的音樂(lè)識(shí)別、哼唱/歌唱檢索、翻唱檢索等具有本質(zhì)區(qū)別.
給音樂(lè)和音頻賦予描述性的關(guān)鍵字(Descriptive Keywords)或標(biāo)簽(Tags)是建立符合這樣需求的檢索引擎的一個(gè)可行辦法.音樂(lè)標(biāo)簽屬于社會(huì)標(biāo)簽(Social Tags)的一種,可由用戶人工標(biāo)注或通過(guò)學(xué)習(xí)音頻內(nèi)容與標(biāo)簽之間的關(guān)系進(jìn)行自動(dòng)標(biāo)注.音樂(lè)標(biāo)簽除了檢索特定要求的音樂(lè),還有很多應(yīng)用,如建立語(yǔ)義相似的歌唱播放列表(Playlist)、音效(Sound Effect)庫(kù)管理、音樂(lè)推薦等[284].
用戶人工標(biāo)注通常采用有趣的游戲方式,如文獻(xiàn)[285]中的“Herd It”.用機(jī)器自動(dòng)標(biāo)注通常使用機(jī)器學(xué)習(xí)方式.文獻(xiàn)[286]采用梅爾尺度頻譜圖(Mel-spectrogram)作為進(jìn)行自動(dòng)標(biāo)注的一個(gè)有效的時(shí)頻表示,使用完全卷積網(wǎng)絡(luò)(Fully Convolutional Neural Networks, FCNNs)進(jìn)行基于內(nèi)容的音樂(lè)自動(dòng)標(biāo)注.采用更多的層數(shù)和更多的訓(xùn)練數(shù)據(jù)會(huì)得到更好的結(jié)果.
鑒于待標(biāo)注的標(biāo)簽內(nèi)容本身無(wú)法確定[287](包括音樂(lè)情感、歌手、樂(lè)手、流派、樂(lè)器、語(yǔ)言、音色、聲部、場(chǎng)景、風(fēng)格、年代、唱片公司、歌詞主題、流行度、民族、樂(lè)隊(duì)、詞曲作者等無(wú)法窮盡的描述),對(duì)于海量數(shù)據(jù)也很難采用人類專家之外的客觀評(píng)價(jià),目前該類方法還處于不是很有效的狀態(tài).
音樂(lè)標(biāo)注(Music Annotation/Tagging/Labelling)的主要挑戰(zhàn)是如何減少人類勞動(dòng)并建立可靠的分類標(biāo)簽.一個(gè)經(jīng)典的方法是利用主動(dòng)學(xué)習(xí)進(jìn)行自動(dòng)標(biāo)注,即選擇少數(shù)最有信息量的樣本進(jìn)行人工標(biāo)注并加入到訓(xùn)練集.對(duì)于二類分類問(wèn)題,傾向于在每次迭代中選擇單個(gè)的未標(biāo)注樣本.主動(dòng)學(xué)習(xí)的問(wèn)題是在每次標(biāo)注樣本后都要重新訓(xùn)練,很容易使用戶失去耐心.文獻(xiàn)[288]提出一個(gè)新的多類主動(dòng)學(xué)習(xí)(Multi-class Active Learning)算法,在每個(gè)循環(huán)選擇多個(gè)樣本進(jìn)行標(biāo)注.實(shí)現(xiàn)中需要注意減少冗余,避免選擇異常點(diǎn),以使每個(gè)樣本為模型的改進(jìn)提供獨(dú)特的信息.
2.7.3 歌聲與歌詞同步
在一個(gè)制作優(yōu)良的電影電視、卡拉OK或音樂(lè)電視(Music TV, MTV)節(jié)目中,歌手演唱的聲音、歌手的口型(Mouth Shapes)、屏幕顯示的歌詞這三者之間必須保持同步,否則將嚴(yán)重影響觀眾的欣賞質(zhì)量.三者同步涉及視頻、音頻、文本之間的跨媒體(Cross-media)研究,目前在文獻(xiàn)中尚未發(fā)現(xiàn)完整的工作,僅有少量研究集中于歌聲與歌詞之間的同步(Singing/Lyrics Synchronization).
文獻(xiàn)[289-290]設(shè)計(jì)了一個(gè)叫做LyricAlly的系統(tǒng),將歌唱的聲音信號(hào)與對(duì)應(yīng)的文本歌詞自動(dòng)進(jìn)行時(shí)間配對(duì)對(duì)齊.音頻處理部分結(jié)合低層音頻特征和高層音樂(lè)知識(shí)來(lái)確定層次性的節(jié)奏結(jié)構(gòu)和歌聲部分.文本處理部分使用歌詞來(lái)近似得到歌唱部分的長(zhǎng)度.文獻(xiàn)[291]改進(jìn)了LyricAlly系統(tǒng),把行級(jí)別(Line-level)的對(duì)齊改進(jìn)到音節(jié)級(jí)別(Syllabic-level)的對(duì)齊,該方法同樣使用動(dòng)態(tài)規(guī)劃,但是使用音樂(lè)知識(shí)來(lái)約束動(dòng)態(tài)規(guī)劃的路徑搜索.
在語(yǔ)音信息處理技術(shù)中,使用Viterbi方法可以有效地對(duì)齊單聲部/單音語(yǔ)音和相應(yīng)的文本.但是,該方法卻不能直接應(yīng)用于CD錄音進(jìn)行音樂(lè)信號(hào)和相應(yīng)歌詞之間的自動(dòng)對(duì)齊,因?yàn)楦杪晭缀醵际呛蜆?lè)器伴奏混雜在一起.為解決該問(wèn)題,文獻(xiàn)[292]首先檢測(cè)歌聲部分并進(jìn)行分離,之后對(duì)分離的歌聲采用語(yǔ)音識(shí)別中的音素模型(Phoneme Model)識(shí)別發(fā)聲單元,再與文本對(duì)齊.文獻(xiàn)[293-294]采用了一系列措施對(duì)以上基于Phoneme的模型進(jìn)行改進(jìn): 包括將歌聲元音(Singing Vowels)和歌詞的音素網(wǎng)絡(luò)(Phoneme Network)對(duì)齊;檢測(cè)音頻中摩擦輔音(Fricative Consonant)不存在的地方,阻止歌詞中的摩擦音素(Fricative Phonemes)對(duì)齊到這些區(qū)域;忽略樂(lè)句之間(Inter-phrase)不屬于歌詞的元音發(fā)音;引入新的特征矢量進(jìn)行歌聲檢測(cè).文獻(xiàn)[295]提出一個(gè)基于信號(hào)處理而不是模型的有趣方法.該方法首選使用文本到語(yǔ)音(Text-To-Speech,TTS)轉(zhuǎn)換系統(tǒng)將歌詞合成為語(yǔ)音,這樣將音樂(lè)與文本歌詞的自動(dòng)對(duì)齊問(wèn)題轉(zhuǎn)化為兩個(gè)音頻信號(hào)之間的對(duì)齊問(wèn)題,在詞(Word)級(jí)別上進(jìn)行.
傳統(tǒng)的MIR并不包括算法作曲、歌聲合成、音視頻融合、音頻信息安全等內(nèi)容.但我們考慮到MIR本身也是處于不斷進(jìn)化的過(guò)程,將音頻音樂(lè)技術(shù)領(lǐng)域里其他十分重要的算法作曲、歌聲合成、音視頻融合,甚至音頻信息安全等內(nèi)容納入到擴(kuò)展的MIR范疇將會(huì)是未來(lái)的發(fā)展趨勢(shì).
2.8.1 自動(dòng)/算法/AI作曲
世界上的音樂(lè),無(wú)論東方還是西方,均可以進(jìn)行一定程度的形式化表示[296].這為引入計(jì)算機(jī)技術(shù)參與創(chuàng)作提供了理論基礎(chǔ).自動(dòng)作曲(Automated Composition)也稱算法作曲(Algorithmic Composition)或人工智能作曲(AI Composition),就是在音樂(lè)創(chuàng)作時(shí)部分或全部使用計(jì)算機(jī)技術(shù),減輕人(或作曲家)的介入程度,用編程的方式來(lái)生成音樂(lè).研究算法作曲一方面可以讓我們了解和模擬作曲家在音樂(lè)創(chuàng)作中的思維方式,另一方面創(chuàng)作的音樂(lè)作品同樣可以供人欣賞.
AI和藝術(shù)領(lǐng)域差距巨大,尤其在中國(guó)被文理分割得更為厲害.兩個(gè)領(lǐng)域的研究者說(shuō)著不同甚至非常不同的語(yǔ)言,使用不同的方法,目標(biāo)也各不相同,在合作和思想交換上產(chǎn)生巨大困難[297].自動(dòng)作曲研究中存在的主要問(wèn)題有: 音樂(lè)的知識(shí)表達(dá)問(wèn)題,創(chuàng)造性和人機(jī)交互性問(wèn)題,音樂(lè)創(chuàng)作風(fēng)格問(wèn)題,以及系統(tǒng)生成作品的質(zhì)量評(píng)估問(wèn)題.
自從20世紀(jì)50年代,AI領(lǐng)域的不同技術(shù)已經(jīng)被用來(lái)進(jìn)行算法作曲.這些技術(shù)包括語(yǔ)法表示(Grammatical Representations)、概率方法(Probability Method)、人工神經(jīng)網(wǎng)絡(luò)、基于符號(hào)規(guī)則的系統(tǒng)(Symbolic Rule-based Systems)、約束規(guī)劃(Constraint Programming)和進(jìn)化算法(Evolutionary Algorithms)、馬爾科夫鏈(Markov Chains)、隨機(jī)過(guò)程(Random Process)、基于音樂(lè)規(guī)則的知識(shí)庫(kù)系統(tǒng)(Music-rule based Knowledge System)等[298].算法作曲系統(tǒng)將受益于多種方法融合的混合型系統(tǒng)(Hybrid System),而且應(yīng)在音樂(lè)創(chuàng)作的各個(gè)層面提供靈活的人機(jī)交互,以提高系統(tǒng)的實(shí)用性和有效性.
下邊舉一些有趣的例子.文獻(xiàn)[299]提供一個(gè)交互式終端用戶接口環(huán)境,可以實(shí)時(shí)對(duì)聲音進(jìn)行參數(shù)控制,從而使用進(jìn)化計(jì)算(Evolutionary Computation)進(jìn)行算法作曲,用遺傳算法(Genetic Algorithms)來(lái)產(chǎn)生和評(píng)價(jià)MIDI演奏的一系列和弦.文獻(xiàn)[300]從一段文本或詩(shī)歌出發(fā),給每個(gè)句子分配一個(gè)表示高興或悲傷的情緒(Mood),使用基于馬爾科夫鏈的算法作曲技術(shù)來(lái)產(chǎn)生具有感情的旋律線,然后采用某些歌聲合成軟件如Vocaloid進(jìn)行輸出.馬爾科夫鏈的當(dāng)前狀態(tài)只與前一個(gè)狀態(tài)有關(guān),而旋律預(yù)測(cè)有較長(zhǎng)的歷史時(shí)間依賴性,因此該方法具有先天不足.如何設(shè)計(jì)一個(gè)既容易訓(xùn)練又能產(chǎn)生長(zhǎng)期時(shí)域相關(guān)性的算法作曲模型成為一個(gè)大的挑戰(zhàn).文獻(xiàn)[301]利用最新的深度學(xué)習(xí)技術(shù),即深度遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的加門(mén)遞歸單元(Gated Recurrent Unit, GRU)網(wǎng)絡(luò)模型,在一個(gè)大的旋律數(shù)據(jù)集上訓(xùn)練,并自動(dòng)產(chǎn)生新的符合訓(xùn)練旋律風(fēng)格的旋律.GRU尤其善于學(xué)習(xí)具有任意時(shí)間延遲的復(fù)雜時(shí)序關(guān)系的時(shí)間域序列,該模型能并行處理旋律和節(jié)奏,同時(shí)模擬它們之間的關(guān)系.該模型能產(chǎn)生有趣的完整的旋律,或預(yù)測(cè)一個(gè)符合當(dāng)前旋律片段特性的可能的后續(xù)片段.
2.8.2 歌聲合成
歌聲本質(zhì)上也是語(yǔ)音,所以歌聲合成技術(shù)(Singing Voice Synthesis, SVS)的研究基本沿著語(yǔ)音合成(Speech Synthesis)的框架進(jìn)行.語(yǔ)音合成的主要形式為文本到語(yǔ)音的轉(zhuǎn)換.歌聲則更加復(fù)雜,需要將文本形式的歌詞按照樂(lè)譜有感情,有技巧的歌唱出來(lái).因此,歌聲合成的主要形式為歌詞+樂(lè)譜到歌聲(Lyrics+Score to Singing, LSTS)的轉(zhuǎn)換.歌聲和語(yǔ)音在發(fā)音機(jī)制、應(yīng)用場(chǎng)景上有重大區(qū)別,歌聲合成不僅需要語(yǔ)音合成的清晰性(Clarity)、自然性(Naturalness)、連續(xù)性等要求,而且要具備藝術(shù)性.
歌聲合成涉及音樂(lè)聲學(xué)、信號(hào)處理、語(yǔ)言學(xué)(Linguistics)、人工智能、音樂(lè)感知和認(rèn)知(Music Perception and Cognition)、音樂(lè)信息檢索、表演(Performance)等學(xué)科.在虛擬歌手、玩具、練唱軟件、歌唱的模擬組合、音色轉(zhuǎn)換、作詞譜曲、唱片制作、個(gè)人娛樂(lè)、音樂(lè)機(jī)器人等領(lǐng)域都有很多的應(yīng)用.
跟語(yǔ)音合成類似,歌聲合成早期以共振峰參數(shù)合成法為主.共振峰(Formant)是聲道(Vocal Tract)的傳輸特性即頻率響應(yīng)(Frequency Response)上的極點(diǎn)(Pole),歌唱共振峰通常表現(xiàn)為在3kHz左右的頻譜包絡(luò)線上的顯著峰值.共振峰頻率的分布決定語(yǔ)音/歌聲的音色.以具有明確物理意義的共振峰頻率及其帶寬為參數(shù),可以構(gòu)成共振峰濾波器組,比較準(zhǔn)確地模擬聲道的傳輸特性.精心調(diào)整參數(shù),能合成出自然度較高的語(yǔ)音/歌聲.共振峰模型的缺點(diǎn)是,雖然能描述語(yǔ)音/歌聲中最重要的元音,但不能表征其他影響自然度的細(xì)微成分.而且,共振峰模型的控制參數(shù)往往達(dá)到幾十個(gè),準(zhǔn)確提取相當(dāng)困難.因此共振峰參數(shù)合成法整體合成的音質(zhì)達(dá)到實(shí)用要求還有距離[302].由上可知,高質(zhì)量的估計(jì)聲道過(guò)濾器(Vocal Tract Filter, VTF)即譜包絡(luò)線的共振態(tài)/反共振態(tài)(Resonances/Anti-resonances)對(duì)歌聲合成非常有益.已有算法經(jīng)常使用基于單幀分析(Single-Frame Analysis, SFA)的離散傅里葉變換(Discrete Fourier Transform, DFT)來(lái)計(jì)算譜包絡(luò)線.文獻(xiàn)[303]將多幀分析(Multiple-Frame Analysis, MFA)應(yīng)用于音樂(lè)信號(hào)的VTF構(gòu)型的估計(jì).一個(gè)具有表現(xiàn)力(Expressive)的歌手,在歌唱過(guò)程中利用各種技巧來(lái)修改其歌聲頻譜包絡(luò)線.為得到更好的表現(xiàn)力和自然度,文獻(xiàn)[304]研究共振峰偏移(Formant Excursion)問(wèn)題,用元音的語(yǔ)義依賴約束共振峰的偏移范圍.
與上述基于對(duì)發(fā)聲過(guò)程建模的方法不同,采樣合成/波形拼接合成(Sampling Synthesis/Concatenated-based Singing Voice Synthesis)技術(shù)從歌聲語(yǔ)料庫(kù)(Singing Corpus)中按照歌詞挑選合適的錄音采樣,根據(jù)樂(lè)譜及下文要求對(duì)歌聲的音高、時(shí)長(zhǎng)進(jìn)行調(diào)整,并進(jìn)行顫音、演唱風(fēng)格、情感等藝術(shù)處理后加以拼接.該方法使得合成歌聲的清晰度和自然度大大提高,但需要大量的時(shí)間和精力來(lái)準(zhǔn)備歌聲語(yǔ)料庫(kù),而且占用空間很大.這類方法也稱為基音同步疊加(Pitch Synchronous Overlap Add, PSOLA),以下列舉幾個(gè)例子.
基于西班牙巴塞羅那UPF大學(xué)MTG與日本雅馬哈(Yamaha)公司聯(lián)合研制的Vocaloid歌聲合成引擎,第三方公司出品了風(fēng)靡世界的虛擬歌唱軟件——初音未來(lái).該系統(tǒng)[305]事先將真人聲優(yōu)的歌聲錄制成包含各種元音、輔音片段的歌聲語(yǔ)料庫(kù),包括目標(biāo)語(yǔ)言音素所有可能的組合,數(shù)量大概是2000個(gè)樣本/每音高.用戶編輯輸入歌詞和旋律音高后,合成引擎按照歌詞從歌聲語(yǔ)料庫(kù)中挑選合適的采樣片段,根據(jù)樂(lè)譜采用頻譜伸縮方法(Spectrum Scaling)將樣本音高轉(zhuǎn)換到旋律音高,并在各拼接樣本之間進(jìn)行音色平滑.樣本時(shí)間調(diào)整自動(dòng)進(jìn)行,以使一個(gè)歌詞音節(jié)的元音Onset嚴(yán)格與音符Onset位置對(duì)齊.文獻(xiàn)[306]采用類似思路,在細(xì)節(jié)上稍有不同,而是采用重采樣的方法進(jìn)行樣本到旋律的音高轉(zhuǎn)換,基于基音周期的檢測(cè)算法擴(kuò)展音長(zhǎng).
與早期主要基于信號(hào)處理的方法不同,后期的歌聲合成算法大量使用機(jī)器學(xué)習(xí)技術(shù).基于上下文相關(guān)HMM(Context-dependent HMM)的歌聲合成技術(shù)一度成為主流,用其聯(lián)合模擬歌聲的頻譜、顫音、時(shí)長(zhǎng)等[307].近年來(lái),隨著深度學(xué)習(xí)的流行,更適合刻畫(huà)復(fù)雜映射關(guān)系的DNN技術(shù)被引入到歌聲合成中.文獻(xiàn)[308]用DNN逐幀模擬樂(lè)譜上下文特征(Contextual Features)和其對(duì)應(yīng)聲學(xué)特征之間的關(guān)系,得到比HMM更好的合成效果.文獻(xiàn)[309]采用了另一種方法,沒(méi)有用DNN直接模擬歌聲頻譜等,而是以歌詞、音高、時(shí)長(zhǎng)等為輸入端,用HMM合成歌聲和自然歌聲的聲學(xué)特征的區(qū)別為輸出端,在它們之間用DNN模擬復(fù)雜的映射關(guān)系.歌唱是一種藝術(shù),除了保持最基本的音高和節(jié)奏準(zhǔn)確,還有很多藝術(shù)技巧如Vibrato、滑音等.這些技巧表現(xiàn)為歌聲基頻包絡(luò)線(f0Contour)的波動(dòng),充分反映了歌手的歌唱風(fēng)格.文獻(xiàn)[310]使用深度學(xué)習(xí)中的LSTM-RNN模型來(lái)模擬復(fù)雜的音樂(lè)時(shí)間序列,自動(dòng)產(chǎn)生f0序列.以樂(lè)譜中給定的音樂(lè)上下文和真實(shí)的歌聲配對(duì)組成訓(xùn)練數(shù)據(jù)集,訓(xùn)練兩個(gè)RNN,根據(jù)音樂(lè)上下文分別學(xué)習(xí)f0的音高和Vibrato部分,并捕捉人類歌手的表現(xiàn)力(Expressiveness)和自然性.對(duì)于一個(gè)樂(lè)譜來(lái)說(shuō),可能有很多風(fēng)格迥異的歌唱版本,目前的歌聲合成算法只能集中于模擬特定的歌唱風(fēng)格.文獻(xiàn)[311]首先從帶標(biāo)注的實(shí)際錄音中提取f0參數(shù)和音素長(zhǎng)度,結(jié)合豐富的上下文信息構(gòu)建一個(gè)參數(shù)化模板數(shù)據(jù)庫(kù).然后,根據(jù)目標(biāo)上下文選擇合適的參數(shù)化模板,進(jìn)行具有某種歌唱風(fēng)格的歌聲合成.
除了以上歌詞+樂(lè)譜到歌聲的轉(zhuǎn)換,還有一類語(yǔ)音+樂(lè)譜到歌聲的轉(zhuǎn)換,即語(yǔ)音到歌聲轉(zhuǎn)換(Speech-To-Singing Conversion, STSC).這是在兩個(gè)音頻信號(hào)之間的轉(zhuǎn)換,避免了以前聲道特性估計(jì)不準(zhǔn)或需要預(yù)先錄制大規(guī)模歌唱語(yǔ)料庫(kù)的困難,開(kāi)辟了一條新的思路.文獻(xiàn)[312]提出了一個(gè)簡(jiǎn)單的語(yǔ)音到歌聲轉(zhuǎn)換算法.首先分割語(yǔ)音信號(hào),得到一系列語(yǔ)音基本單元.之后確定每個(gè)基本單元和對(duì)應(yīng)音符之間的同步映射,并根據(jù)音符的音高對(duì)該單元的基頻進(jìn)行調(diào)整.最后根據(jù)對(duì)應(yīng)音符的時(shí)長(zhǎng)調(diào)整當(dāng)前語(yǔ)音基本單元的長(zhǎng)度.文獻(xiàn)[313]采用類似思路,但是對(duì)用戶輸入進(jìn)行了一定約束.輸入的語(yǔ)音信號(hào)是用戶依據(jù)歌曲的某段旋律(如一個(gè)樂(lè)句),按照節(jié)拍誦讀或哼唱歌詞產(chǎn)生的.因此每段語(yǔ)音信號(hào)可以更準(zhǔn)確地在時(shí)間上對(duì)應(yīng)于該旋律片段.后續(xù)處理包括按旋律線調(diào)整語(yǔ)音信號(hào)的音高,按音符時(shí)長(zhǎng)進(jìn)行語(yǔ)音單元時(shí)間伸縮,平滑處理音高包絡(luò)線,加入顫音、滑音、回聲等各種藝術(shù)處理.文獻(xiàn)[314]設(shè)計(jì)了一個(gè)新的歌聲合成系統(tǒng)“SingBySpeaking”,輸入信息為讀歌詞的語(yǔ)音信號(hào)和樂(lè)譜,并假設(shè)已經(jīng)對(duì)齊.為構(gòu)造聽(tīng)覺(jué)自然的歌聲,該系統(tǒng)具有3個(gè)控制模塊: 基頻控制模塊,按照樂(lè)譜將語(yǔ)音信號(hào)的f0序列調(diào)整為歌聲的f0包絡(luò)線,同時(shí)調(diào)整顫音等影響歌聲自然度的f0波動(dòng);譜序列控制模塊,修改歌聲共振峰并調(diào)制共振峰的幅度,將語(yǔ)音的頻譜形狀(Spectral Shapes)轉(zhuǎn)換為歌聲的頻譜形狀;時(shí)長(zhǎng)控制模塊,根據(jù)音符長(zhǎng)度將語(yǔ)音音素的長(zhǎng)度伸縮到歌聲的音素長(zhǎng)度.頻譜特征可以直接反映音色特性,f0包絡(luò)線、音符時(shí)長(zhǎng)以及強(qiáng)弱(Dynamics)等組成韻律特征(Prosodic Features)反映時(shí)域特性.為得到高自然度的歌聲合成,文獻(xiàn)[315]使用適于模擬高維特征的DNN對(duì)這些特征進(jìn)行從語(yǔ)音到歌聲的聯(lián)合模擬轉(zhuǎn)換.
2.8.3 聽(tīng)覺(jué)與視覺(jué)的結(jié)合
人類接收信息的方式主要來(lái)源于視覺(jué)和聽(tīng)覺(jué),現(xiàn)代電影和電視節(jié)目、多媒體作品幾乎都是聲音、音樂(lè)、語(yǔ)音和圖像、視頻的統(tǒng)一.絕大多數(shù)視頻里都存在聲音信息,很多的音樂(lè)節(jié)目如音樂(lè)電視里也存在視頻信息.音視頻密不可分,互相補(bǔ)充,進(jìn)行基于信息融合的跨媒體研究對(duì)很多應(yīng)用場(chǎng)景都是十分必要的.下邊列舉一些音視頻結(jié)合研究的例子.
音樂(lè)可視化(Music Visualization)是指為音樂(lè)生成一個(gè)能反映其內(nèi)容(如旋律、節(jié)奏、強(qiáng)弱、情感等)的圖像或動(dòng)畫(huà)的技術(shù),從而使聽(tīng)眾得到更加生動(dòng)有趣的藝術(shù)感受.早期的音樂(lè)播放器基于速度或強(qiáng)度變化進(jìn)行簡(jiǎn)單的音樂(lè)可視化,在速度快或有打擊樂(lè)器的地方,條形圖或火焰等圖形形狀會(huì)跳得更快或更高.Herman等提出的音樂(lè)可視化理論[316]假定音高和顏色之間具有一定的關(guān)系,基于此理論使用光柵圖形學(xué)(Raster Graphics)來(lái)產(chǎn)生音符、和弦及和弦連接的圖形顯示.音符或和弦的時(shí)域相鄰性被映射為顏色的空間臨近性,經(jīng)常顯示為按中心分布的方塊或圓圈.電影是人類歷史上最重要的娛樂(lè)方式之一,是一種典型的具有藝術(shù)性的音視頻相結(jié)合的媒體.相比于早期的無(wú)聲電影,在現(xiàn)代電影中聲音和音樂(lè)對(duì)于情節(jié)的鋪墊、觀眾情緒的感染、整體藝術(shù)水平的升華起到了無(wú)可替代的作用.文獻(xiàn)[317]基于視頻速度(Video Tempo)和音樂(lè)情感(Music Mood)進(jìn)行電影情感事件檢測(cè),并對(duì)聲音軌跡的進(jìn)程進(jìn)行了可視化研究.文獻(xiàn)[318]結(jié)合MIR中的節(jié)拍檢測(cè)和計(jì)算機(jī)視覺(jué)技術(shù),融合音視頻輸入信息對(duì)機(jī)器人音樂(lè)家和它的人類對(duì)應(yīng)者的動(dòng)作進(jìn)行同步.文獻(xiàn)[319]分別計(jì)算圖片和音樂(lè)表達(dá)的情感,對(duì)情感表達(dá)相近的圖片和音樂(lè)進(jìn)行匹配,從而自動(dòng)生成基于情感的家庭音樂(lè)相冊(cè)(如婚禮的圖片搭配浪漫的背景音樂(lè)).文獻(xiàn)[320]將音視頻信息結(jié)合進(jìn)行運(yùn)動(dòng)視頻的語(yǔ)義事件檢測(cè)(Semantic Event Detection),以方便訪問(wèn)和瀏覽.該文定義了一系列與運(yùn)動(dòng)員(Players)、裁判員(Referees)、評(píng)論員(Commentators)和觀眾(Audience)高度相關(guān)的音頻關(guān)鍵字(Audio Keywords).這些音頻關(guān)鍵字視為中層特征,可以從低層音頻特征中用SVM學(xué)習(xí)出來(lái).與視頻鏡頭相結(jié)合,可有效地用HMM進(jìn)行運(yùn)動(dòng)視頻的語(yǔ)義事件檢測(cè).此外,還有電影配樂(lè)、MTV中口型與歌聲和歌詞同步等有趣的應(yīng)用.
2.8.4 音頻信息安全
音頻信息安全(Audio Information Security)主要包括音頻版權(quán)保護(hù)(Audio Copyright Protection)和音頻認(rèn)證(Audio Authentication)兩個(gè)子領(lǐng)域.核心技術(shù)手段為數(shù)字音頻水印(Digital Audio Watermarking)和數(shù)字音頻指紋.音頻水印是一種在不影響原始音頻質(zhì)量的條件下向其中嵌入具有特定意義且易于提取的信息的技術(shù).音頻指紋技術(shù)的細(xì)節(jié)可參照2.5.1節(jié),本部分主要介紹數(shù)字音頻水印技術(shù).
2.8.4.1 音頻版權(quán)保護(hù)
數(shù)字音頻作品(通常指音樂(lè))的版權(quán)保護(hù)主要采用魯棒數(shù)字音頻水印(Robust Audio Watermarking)技術(shù).除了版權(quán)保護(hù),魯棒音頻水印還可用于廣播監(jiān)控(Broadcast Monitoring)、盜版追蹤(Piracy Tracing)、拷貝控制(Copy Control)、內(nèi)容標(biāo)注(Content Labeling)等.它要求嵌入的水印能夠經(jīng)受各種時(shí)頻域的音頻信號(hào)失真[321].魯棒數(shù)字音頻水印技術(shù)按照作用域可分為時(shí)間域和頻率域算法兩類.時(shí)域算法魯棒性一般較差.頻域算法充分利用人類聽(tīng)覺(jué)特性,主流思路是在聽(tīng)覺(jué)重要的中低頻帶上嵌入水印,從而獲得對(duì)常規(guī)信號(hào)失真的魯棒性.
早期的魯棒音頻水印算法主要集中于獲得嵌入水印的不可聽(tīng)性(Inaudibility)或稱感知透明性(Perceptual Transparency),和對(duì)常規(guī)音頻信號(hào)處理失真(如壓縮、噪聲、濾波、回聲等)的魯棒性.如文獻(xiàn)[322]把音頻切成小片段,直接修改音頻樣本進(jìn)行水印嵌入.水印按照音頻內(nèi)容被感知塑形(Perceptually-shaped),利用時(shí)域和頻域感知掩蔽(Temporal and Frequency Perceptual Masking)來(lái)保證不可聽(tīng)性和魯棒性.文獻(xiàn)[323]將通信系統(tǒng)中借鑒來(lái)的直接序列擴(kuò)頻(Direct Sequence Spread Spectrum, DSSS)思想成功應(yīng)用于數(shù)字水印技術(shù)中.將一個(gè)數(shù)字水印序列與高速偽隨機(jī)碼相乘后疊加到原始音頻信號(hào)上,并利用人類聽(tīng)覺(jué)系統(tǒng)(Human Auditory System, HAS)的掩蔽效應(yīng)(Masking Effect)進(jìn)一步整形水印信號(hào)以保證其不可聽(tīng)到.為在感知質(zhì)量(Perceptual Quality)、魯棒性(Robustness)、水印負(fù)載(Watermark Payload)等相互沖突的因素中間達(dá)到平衡,文獻(xiàn)[324]根據(jù)音頻信號(hào)的內(nèi)容進(jìn)行自適應(yīng)的水印嵌入,將一些低層音頻特征用PCA(Principal Component Analysis)提取主成分后,使用數(shù)學(xué)模型來(lái)評(píng)價(jià)在感知透明性約束下的水印嵌入度.水印自適應(yīng)地嵌入到小波域的第三層細(xì)節(jié)系數(shù)(Detailed Coefficients).
常規(guī)的音頻信號(hào)失真主要通過(guò)降低音頻質(zhì)量來(lái)消除水印,這個(gè)問(wèn)題很快被解決.后來(lái)的挑戰(zhàn)主要集中于抵抗時(shí)頻域的同步失真(Synchronization Distortions).這種失真通過(guò)對(duì)時(shí)頻分量的剪切、插入等操作,使水印檢測(cè)器(Watermark Detector)找不到水印的嵌入位置,從而使檢測(cè)失敗.抵抗同步失真主要有窮舉搜索(Exhaustive Search)、同步碼(Synchronization Code)、恒定水印(Invariant Watermark)和隱含同步(Implicit Synchronization)等4種方法[325].后兩種方法因?yàn)槊鞔_地利用了音頻內(nèi)容分析,與之前將水印嵌入到時(shí)間域樣本或頻率域變換系數(shù)的算法不同,被稱為第二代數(shù)字水印(Second-generation Digital Watermarking)技術(shù)[326].文獻(xiàn)[327]基于恒定水印的思想,提出一種第二代數(shù)字音頻水印算法,即通過(guò)調(diào)整音頻信號(hào)每個(gè)幀的小波域系數(shù)平均值的符號(hào)來(lái)嵌入水印數(shù)據(jù),從而使水印檢測(cè)器對(duì)同步結(jié)構(gòu)的變化不敏感.文獻(xiàn)[328]基于隱含同步的思想,提出基于音樂(lè)內(nèi)容分析的局部化數(shù)字音頻水印算法.通過(guò)3種不同方法提取出代表音樂(lè)邊緣(Music Edges)的局部區(qū)域,利用其感知重要性和局部性獲得對(duì)信號(hào)失真和同步失真的免疫力(Immunity),然后通過(guò)交換系數(shù)法在其中嵌入水印.類似地,文獻(xiàn)[329]基于音頻內(nèi)容分析和傅里葉變換,在時(shí)頻域能量峰值點(diǎn)周圍的ROI(Region of Interest)區(qū)域進(jìn)行水印嵌入,以抵抗音頻編輯和惡意隨機(jī)剪切(Malicious Random Cropping)引起的同步失真.
除了音頻水印,2.5.1節(jié)所述的音頻指紋技術(shù)也可以用于版權(quán)保護(hù).因其不需要往信號(hào)里加入額外信息,也稱為被動(dòng)水印(Passive Watermarking)技術(shù).此外還有一些別名,如音頻魯棒感知哈希(Audio Robust Perceptual Hashing)、基于內(nèi)容的數(shù)字簽名(Content-based Digital Signatures)、基于內(nèi)容的音頻識(shí)別(Content-based Audio Identification)等.
2.8.4.2 音頻認(rèn)證
音頻偽造(Audio Forgery)在當(dāng)今的數(shù)字音頻時(shí)代已經(jīng)變得極其容易.對(duì)于重要錄音信息(比如電話交談的金融信息、領(lǐng)導(dǎo)人講話、軍事指令、時(shí)間地點(diǎn)等)進(jìn)行惡意篡改(Malicious Tampering),或插入虛假信息,刪除關(guān)鍵片段,制造虛假質(zhì)量(Fake Quality)的音頻等都會(huì)給政治、經(jīng)濟(jì)、軍事、法律、商業(yè)等各個(gè)領(lǐng)域帶來(lái)極大的影響.
脆弱及半脆弱數(shù)字音頻水印(Fragile/Semi-fragile Audio Watermarking)主要用于數(shù)字音頻作品的真實(shí)性(Authenticity)和完整性(Integrity)保護(hù).脆弱水印在宿主數(shù)據(jù)發(fā)生任何變化時(shí)都會(huì)無(wú)法檢測(cè)到,類似于密碼學(xué)里的哈希值,典型的例子如LSB(Least Significant Bit)方法[330].半脆弱水印則融合了魯棒水印與脆弱水印的特性,在能夠抵抗有損壓縮、噪聲、濾波、重采樣等可允許操作(Acceptable/Admissible Operations)的同時(shí),對(duì)剪切、插入、替換等惡意操作(Malicious Operations)敏感[331].水印需要逐段嵌入,以便于在發(fā)生惡意操作時(shí)進(jìn)行定位.基于水印的音頻認(rèn)證需要嵌入水印信息,也稱為主動(dòng)音頻認(rèn)證(Active Audio Authentication).
但是,在現(xiàn)實(shí)應(yīng)用場(chǎng)景中,給所有的音頻內(nèi)容都預(yù)先嵌入水印是不可能的.因此,利用被動(dòng)音頻認(rèn)證(Passive Audio Authentication),也稱為音頻取證(Audio Forensics),具有更大的應(yīng)用前景.音頻取證的基本方式包含聽(tīng)覺(jué)測(cè)試(Listening Test)、頻譜圖分析(Spectrogram Analysis)和頻譜分析(Spectrum Analysis)等.高級(jí)方式利用音調(diào)(Tones)、相位、ENF(Electric Network Frequency)、LPCs、MFCCs、MDCT等各種音頻特征及機(jī)器學(xué)習(xí)方法進(jìn)行判斷[332].文獻(xiàn)[333]基于音頻特征及樸素貝葉斯(Na?ve Bayes)分類器確定數(shù)字音頻使用的麥克風(fēng)和錄音環(huán)境.文獻(xiàn)[334]在MP3格式的音頻中發(fā)現(xiàn),從低比特率(Low Bit-rate)轉(zhuǎn)碼得到的虛假高比特率(High Bit-rate)的MP3比正常MP3有更少的小數(shù)值MDCT系數(shù).因此,小數(shù)值MDCT系數(shù)的個(gè)數(shù)可作為一個(gè)有效的特征來(lái)區(qū)分虛假質(zhì)量MP3和正常質(zhì)量MP3.
由于音頻信號(hào)可能很長(zhǎng),有時(shí)需要判斷其中的某一段是否被惡意篡改過(guò),稱為片段認(rèn)證(Fragment Authentication)問(wèn)題.文獻(xiàn)[335]第一次提出一個(gè)解決方法,在音頻頻譜圖上計(jì)算來(lái)自計(jì)算機(jī)視覺(jué)的SIFT描述子,利用其強(qiáng)大的局部對(duì)齊能力將待認(rèn)證片段對(duì)齊到原始音頻的相應(yīng)位置,通過(guò)音頻指紋比對(duì)檢測(cè)可允許操作和惡意操作,精確進(jìn)行篡改定位及分類.該方法需要保留原始音頻,具有較大的局限性.
基于內(nèi)容的音樂(lè)信息檢索以數(shù)字音樂(lè)為研究對(duì)象,覆蓋幾乎一切與數(shù)字音樂(lè)內(nèi)容分析理解相關(guān)的研究課題,是多媒體、信號(hào)處理、人工智能、音樂(lè)學(xué)相結(jié)合的重要學(xué)科分支.相似的技術(shù)框架擴(kuò)展到一般音頻后,統(tǒng)稱為計(jì)算機(jī)聽(tīng)覺(jué),也可稱為音頻與音樂(lè)計(jì)算.從學(xué)科角度講,計(jì)算機(jī)聽(tīng)覺(jué)與語(yǔ)音信息處理最為相關(guān),而且都以物理聲學(xué)為基礎(chǔ).
本文介紹了音樂(lè)信息檢索技術(shù)的發(fā)展歷史、學(xué)科架構(gòu),將幾十個(gè)研究課題按照與各音樂(lè)要素的緊密程度分類歸入核心層與應(yīng)用層.對(duì)每個(gè)研究課題,概述其研究目的和應(yīng)用場(chǎng)景,總結(jié)主要的技術(shù)框架及典型算法.
與自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、語(yǔ)音信息處理等相關(guān)領(lǐng)域相比,計(jì)算機(jī)聽(tīng)覺(jué)在國(guó)內(nèi)外發(fā)展都比較緩慢.幾個(gè)可能的原因包括: (1) 數(shù)字音樂(lè)涉及版權(quán)問(wèn)題無(wú)法公開(kāi),各種音頻數(shù)據(jù)都源自特定場(chǎng)合和物體,難以搜集和標(biāo)注.近20年來(lái),計(jì)算機(jī)聽(tīng)覺(jué)跟其他學(xué)科一樣,絕大多數(shù)方法都是基于機(jī)器學(xué)習(xí)框架.數(shù)據(jù)的獲取及公開(kāi)困難嚴(yán)重影響了算法的研究及比較.(2) 音樂(lè)和音頻信號(hào)幾乎都是多種聲音混合在一起,很少有單獨(dú)存在的情況.音樂(lè)中的各種樂(lè)器和歌聲在音高上形成和聲,在時(shí)間上形成節(jié)奏,耦合成多層次的復(fù)雜音頻流,難以甚至無(wú)法分離處理.(3) 計(jì)算機(jī)聽(tīng)覺(jué)幾乎都是交叉學(xué)科,進(jìn)行音樂(lè)信息檢索研究需要了解最基本的音樂(lè)理論知識(shí),進(jìn)行音頻信息處理則需要了解相關(guān)各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn).(4) 此外,作為新興學(xué)科,還存在社會(huì)發(fā)展水平、科研環(huán)境、科技評(píng)價(jià)、人員儲(chǔ)備等各種非技術(shù)類原因阻礙計(jì)算機(jī)聽(tīng)覺(jué)技術(shù)的發(fā)展.
MIR在娛樂(lè)、音樂(lè)教學(xué)、心理疏導(dǎo)、醫(yī)學(xué)輔助治療、公共及家庭環(huán)境監(jiān)控、目標(biāo)檢測(cè)識(shí)別、智能交通、設(shè)備故障檢測(cè)等方面具有很多應(yīng)用,而且理論上所有視頻應(yīng)用都需要和音頻結(jié)合,是一門(mén)非常實(shí)用具有廣闊前景的技術(shù).
致謝: 感謝4位匿名審稿人和北京大學(xué)陳曉鷗教授提出的寶貴修改意見(jiàn)!