樂音特征識別技術(shù)的發(fā)展和應(yīng)用研究

2020-07-27 16:25孫夢青

現(xiàn)代信息科技 2020年6期

關(guān)鍵詞：特征提取

摘? 要：樂音是構(gòu)成音樂的核心元素。樂音識別是音樂識別的核心工作。首先對“聲音”“音頻”“音樂”“樂音”等若干概念進(jìn)行了定義，然后從狹義和廣義兩個(gè)方面分析了樂音識別的主要任務(wù)和基本流程，無論是狹義還是廣義的樂音識別，單音基本特征的提取和識別，都是基礎(chǔ)內(nèi)容。重點(diǎn)展望了樂音識別技術(shù)的發(fā)展趨勢，其三種基本脈絡(luò)分別為提高非復(fù)調(diào)單音基本特征的識別效率、優(yōu)化非復(fù)調(diào)多音符特征的提、拓展復(fù)調(diào)的識別和提取。最后在音樂噴泉控制器中實(shí)現(xiàn)了樂音特征的自動(dòng)提取。研究結(jié)果可為樂音識別技術(shù)研究與系統(tǒng)應(yīng)用提供參考。

關(guān)鍵詞：樂音識別;特征提取;機(jī)器聽覺;音符分割

中圖分類號：TN912.34? ? ? 文獻(xiàn)標(biāo)識碼：A 文章編號：2096-4706（2020）06-0001-04

Abstract：Musical sound is the core element of music. Music recognition is the core of music recognition. Firstly，some concepts such as “sound”，“audio”，“music” and “musical sound” are defined，then the main tasks and basic processes of musical sound recognition are analyzed from the narrow sense and the broad sense. No matter the narrow sense or the broad sense of musical sound recognition，the extraction and recognition of the basic features of single sound are the basic contents. This paper focuses on the development trend of music recognition technology，and its three basic venation are to improve the recognition efficiency of the basic features of non polyphonic single tone，optimize the extraction of non polyphonic multi note features，and expand the recognition and extraction of polyphony. Finally，the automatic extraction of music features is realized in the music fountain controller. The research results can provide a reference for the research and system application of music recognition technology.

Keywords：music recognition;feature extraction;machine hearing;note segmentation

0? 引? 言

音樂是全人類共通的語言，包含了大量的內(nèi)容信息。音樂識別是對包含音樂的音頻文件進(jìn)行分類、識別、音頻流分割、數(shù)據(jù)檢索和內(nèi)容分析等一系列工作的總稱，本質(zhì)上是基于內(nèi)容的音頻識別和處理，具有高度的復(fù)雜性。

運(yùn)用計(jì)算機(jī)等技術(shù)對聲音和音樂進(jìn)行分析和理解，被稱為“計(jì)算機(jī)聽覺”（Computing Audition，CA），也可以被稱為“機(jī)器聽覺”（Machine Listening，ML），音樂由樂音和噪音組成。樂音是構(gòu)成音樂的核心元素，因此樂音的識別技術(shù)也是計(jì)算機(jī)聽覺的核心部分。

關(guān)于樂音和語音的關(guān)系，研究人員持有不同觀點(diǎn)。一種觀點(diǎn)認(rèn)為，計(jì)算機(jī)聽覺中只針對數(shù)字化的聲音和音樂，語音則是另外一個(gè)獨(dú)立的領(lǐng)域。另一種觀點(diǎn)認(rèn)為，樂音識別是語音識別的一個(gè)分支。事實(shí)上，樂音識別的理論和實(shí)踐都和語音識別有許多共通或相似之處。但是樂音有其自身的特殊性質(zhì)，使其與一般的語音得以區(qū)分：（1）樂音可以用相對嚴(yán)格的數(shù)學(xué)模型進(jìn)行表述，其規(guī)范性高于人聲語音;（2）樂器依照系列音符序列震動(dòng)而產(chǎn)生的樂音具有高度的聲學(xué)相似性和一致性，其個(gè)體差異小于人聲語音;（3）樂音處理可以針對基于鋼琴全部音域的88個(gè)音符做分割、識別，具有更高的可行性;（4）除了針對音調(diào)、響度和音色之外，還對音高、時(shí)值、音量、唱名及節(jié)奏等特征進(jìn)行研究。

2018年，在河南省科技廳科技研發(fā)專項(xiàng)的資助下，對國外樂音識別技術(shù)的發(fā)展、趨勢及有關(guān)產(chǎn)業(yè)前景進(jìn)行研究。對國內(nèi)樂音識別技術(shù)的應(yīng)用現(xiàn)狀進(jìn)行梳理，結(jié)合音樂噴泉控制器等實(shí)際應(yīng)用場景進(jìn)行相關(guān)技術(shù)的完善和應(yīng)用測試。

1? 樂音的基本概念

在諸多文獻(xiàn)中，關(guān)于樂音和樂音提取的許多概念交錯(cuò)混雜。本文試圖在此理清其中的基本概念。

聲音，是由物體振動(dòng)產(chǎn)生的聲波。是通過介質(zhì)（空氣或固體、液體）傳播并能被人或動(dòng)物聽覺器官所感知的波動(dòng)現(xiàn)象。

音頻，即帶有語音、音樂和音效的有規(guī)律的聲波的頻率、幅度變化信息的載體。

音樂，是由有組織的樂音來表達(dá)人們思想感情、反映人類現(xiàn)實(shí)生活情感的藝術(shù)，可以分為聲樂和器樂兩大類型。

樂音，發(fā)音物體有規(guī)律的振動(dòng)而產(chǎn)生的具有固定音高的音稱樂音。樂音是音樂中所使用的最主要、最基本的材料，音樂中的旋律、和聲等均由樂音構(gòu)成。從聲學(xué)角度分析，樂音有三個(gè)要素：音調(diào)（音高）、響度（音強(qiáng)）、音色，也可以用基頻、振幅和倍頻來表示。

2? 樂音識別的主要任務(wù)和基本流程

綜合上述基本概念可知，樂音識別的概念可以有狹義和廣義的理解。

狹義的樂音識別，主要是對單音音頻進(jìn)行基本特征的提取和識別。狹義的樂音識別產(chǎn)出的結(jié)果是音高、響度、音色信息。

廣義的樂音識別則涵蓋了自動(dòng)樂音標(biāo)注的全部內(nèi)容，包括單音的音符識別、音高估計(jì)，多音符的節(jié)拍與節(jié)奏識別、旋律與和聲提取，復(fù)調(diào)的多基頻估計(jì)等多個(gè)方面。廣義的樂音識別產(chǎn)出的結(jié)果就是音頻的內(nèi)容信息，可供音頻信息檢索使用。其關(guān)系如圖1所示。

綜上可以發(fā)現(xiàn)，無論是狹義還是廣義的樂音識別，單音基本特征的提取和識別都是基礎(chǔ)內(nèi)容。本文討論廣義的樂音識別技術(shù)的發(fā)展和應(yīng)用。

3? 樂音識別技術(shù)的發(fā)展

樂音識別技術(shù)的發(fā)展主要體現(xiàn)出三種基本脈絡(luò)。

3.1? 提高非復(fù)調(diào)單音基本特征的識別效率

如前述概念所定義的，“非復(fù)調(diào)”就是指只有一個(gè)聲部的音樂，即同一時(shí)刻只有一個(gè)旋律發(fā)音。單音基本特征包括單音的音高、響度和音色。單音基本特征的提取是樂音識別的基礎(chǔ)，而單音基音（音高）檢測技術(shù)則是基礎(chǔ)中的關(guān)鍵。這里主要介紹單音音高檢測技術(shù)。

現(xiàn)有的單音音高檢測技術(shù)日益豐富。常見的基音提取技術(shù)有以下三種技術(shù)途徑：

（1）時(shí)域估計(jì)。直接由語音波形來估計(jì)基音周期，常見的有自相關(guān)（Autocorrelation）算法、并行處理算法、平均幅度差算法、SIFT濾波器算法等;

（2）時(shí)/頻域變換法。它是一種將音頻信號變換到頻域或者時(shí)域，用以估計(jì)基音頻率的方法。首先利用同態(tài)分析方法將聲道的影響消除，得到屬于激勵(lì)部分的信息，然后估計(jì)基

音頻率。最常用的就是小波變換和倒譜法。后者包括線性預(yù)測倒譜參數(shù)（Linear Prediction Cepstrum Coefficient，LPCC）和梅爾頻率倒譜系數(shù)（Mel-Frequency Cepstral Coefficient，MFCC）等;

（3）混合法。先提取信號聲道模型參數(shù)，然后利用它對信號進(jìn)行濾波，得到音源序列，最后再利用自相關(guān)法或者平均幅度差法求得基音估計(jì)值。

當(dāng)前的單音基音檢測技術(shù)針對非復(fù)調(diào)的單音符音高識別，已經(jīng)實(shí)現(xiàn)了較高的準(zhǔn)確率，并實(shí)現(xiàn)了較好的適應(yīng)性和魯棒性。

3.2? 優(yōu)化非復(fù)調(diào)多音符特征的提取

多音符特征主要包括旋律、節(jié)奏等。提取旋律的主要方法大體可以分為三類：（1）基于歌聲分離的旋律提取法（Singing Separation based Melody Extraction）：根據(jù)音樂信號的波動(dòng)性和短時(shí)性特點(diǎn)進(jìn)行旋律特征的增強(qiáng)，結(jié)合自相關(guān)算法提取主旋律線;（2）基于數(shù)據(jù)驅(qū)動(dòng)的旋律提取法（Data Driven Melody Extraction）：僅僅依靠統(tǒng)計(jì)特性和分類手段，處理多音符的旋律特性。（3）基于音高顯著性的旋律提取法（Pitch Salience based Melody Extraction）：即在每一個(gè)音頻幀上進(jìn)行音高和旋律包絡(luò)線提取。

提取旋律的具體實(shí)現(xiàn)技術(shù)：經(jīng)典信號處理、基于統(tǒng)計(jì)理論、基于信號特征建模、基于支持向量機(jī)（SVM）。

提取節(jié)奏的主要步驟：音符起始點(diǎn)檢測、多音符速度檢測、節(jié)拍模式檢測、小節(jié)線識別、節(jié)奏型識別。其中，音符起始點(diǎn)檢測的主要實(shí)現(xiàn)手段已經(jīng)從基于信號處理的手段發(fā)展為以人工神經(jīng)網(wǎng)絡(luò)分類和機(jī)器學(xué)習(xí)為主的檢測方法;多音符速度檢測則是基于信號處理和分解，開展子空間內(nèi)的信號周期性估計(jì);小節(jié)線識別主要是基于周期性的強(qiáng)弱拍序列估計(jì)，有研究者運(yùn)用深度神經(jīng)網(wǎng)絡(luò)通過音樂特征強(qiáng)化學(xué)習(xí)得到拍子結(jié)構(gòu);節(jié)奏型識別主要是進(jìn)行多種音樂類型的模式匹配，有研究者通過鼓及其他打擊樂器的節(jié)奏信息來識別節(jié)奏型。

3.3? 拓展復(fù)調(diào)的識別和提取

復(fù)調(diào)音樂包含兩條以上的獨(dú)立旋律。識別復(fù)調(diào)主要是區(qū)分并提取同一時(shí)刻存在多個(gè)旋律同時(shí)發(fā)出的音，以音高估計(jì)為主。復(fù)調(diào)樂音存在多個(gè)音在頻譜上的重疊，帶來了諧波偏移和諧波重疊的雙重困難。最早于20世紀(jì)70年代由Moore等人在斯坦福大學(xué)完成，當(dāng)時(shí)能夠識別2個(gè)同時(shí)發(fā)聲的音符。

復(fù)調(diào)識別的技術(shù)途徑也可以分為基于信號處理、基于統(tǒng)計(jì)處理和基于模型，具體實(shí)現(xiàn)過程可以分為迭代估計(jì)和聯(lián)合估計(jì)。其中，迭代估計(jì)是通過逐一提取復(fù)調(diào)中的音高，鎖定某一幀中最突出的音，抑制與之相關(guān)的其他音的信息，在剩余頻譜中重復(fù)上述過程來實(shí)現(xiàn);聯(lián)合估計(jì)是基于同時(shí)估計(jì)一組音高的可能性展開測算，盡管無須多輪次迭代的提取和抑制，但是需要通過基于一組單音估計(jì)的置信度函數(shù)來表征多音的置信度，常通過貝葉斯模型、最大期望算法等統(tǒng)計(jì)學(xué)手段加以實(shí)現(xiàn)。

4? 實(shí)? 驗(yàn)

以噴泉實(shí)驗(yàn)傳統(tǒng)工業(yè)控制為基礎(chǔ)，結(jié)合樂音特征識別技術(shù)、計(jì)算機(jī)仿真技術(shù)和PLC控制技術(shù)，實(shí)現(xiàn)音樂韻律庫的可視化自動(dòng)編輯、計(jì)算機(jī)實(shí)景仿真和PLC直接控制工業(yè)噴泉，達(dá)到音樂對噴泉的智能控制。

軟件系統(tǒng)輸入端對音頻信號進(jìn)行識別、譯碼和編碼、短時(shí)傅立葉變換，以及自動(dòng)和人工輔助生成韻律庫，在通過2D（如圖2所示）或是3D（如圖3所示）的實(shí)景效果仿真檢核后，把韻律輸出到PLC可編程電路控制器。PLC根據(jù)水型組態(tài)規(guī)則控制潛水泵、電磁閥、水下彩燈和變頻器等執(zhí)行機(jī)構(gòu)，對噴泉進(jìn)行控制。噴泉的造型、燈光的變化、音樂的旋律同步，使噴泉水型、燈光及色彩的變化與音樂高低起伏完美結(jié)合，渲染出音樂生動(dòng)、活潑、激昂、悲傷、婉轉(zhuǎn)等各種情緒變化。多感官引起人體聯(lián)覺效應(yīng)，突出音樂噴泉的美好體驗(yàn)和感受。

音樂噴泉控制器，不僅是軟件和硬件的結(jié)合，也是虛擬與現(xiàn)實(shí)的結(jié)合，更是人類心靈與藝術(shù)的結(jié)合。

5? 結(jié)? 論

經(jīng)過多年發(fā)展，樂音識別技術(shù)的發(fā)展體系漸成，日益完備。在單音的提取和識別這一基礎(chǔ)之上，已經(jīng)發(fā)展衍生出對單聲部旋律、多聲部復(fù)調(diào)的提取和識別技術(shù)，其中囊括了對音色、節(jié)奏、速度、響度、和聲等多方面的識別對象。樂音識別技術(shù)的應(yīng)用場景非常廣泛，尤其是在面向互聯(lián)網(wǎng)海量的數(shù)字音樂資源時(shí)，可以對數(shù)字音樂內(nèi)容進(jìn)行高效準(zhǔn)確的理解和分析。

參考文獻(xiàn)：

[1] 張一彬，周杰，邊肇祺，等.基于內(nèi)容的音頻與音樂分析綜述 [J].計(jì)算機(jī)學(xué)報(bào)，2007（5）：5712-5728.

[2] DUBNOV S.Computer audition：an introduction and research survey [C]//Proceedings of the 14th ACM International Conference on Multimedia，Santa Barbara，CA，USA，October 23-27，ACM，2006.

[3] 音樂大咖.關(guān)于音樂組成的基本定義 [M].北京：中央音樂學(xué)院出版社，2000.

[4] 黃力民.樂音體系的數(shù)學(xué)原理 [J].自然雜志，1989（3）：196-204+240.

[5] 李偉，高智輝.音樂信息檢索技術(shù)：音樂與人工智能的融合 [J].藝術(shù)探索，2018，32（5）：112-116.

[6] 徐國慶，楊丹，王彬潔，等.樂音識別方法及應(yīng)用 [J].計(jì)算機(jī)應(yīng)用，2005，25（4）：968-970.

[7] 李偉，李子晉，高永偉.理解數(shù)字音樂——音樂信息檢索技術(shù)綜述 [J].復(fù)旦學(xué)報(bào)（自然科學(xué)版），2018，57（3）：271-313.

作者簡介：孫夢青（1984-），女，漢族，河南鄭州人，講師，碩士，研究方向：音樂理論。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

樂音特征識別技術(shù)的發(fā)展和應(yīng)用研究