国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于內(nèi)容的音樂語義特征描述方法

2013-09-19 10:29張二芬徐淮杰
電子設(shè)計(jì)工程 2013年1期
關(guān)鍵詞:特征向量高斯音頻

張二芬,徐淮杰

(河海大學(xué) 計(jì)算機(jī)與信息學(xué)院,江蘇 南京 211100)

音樂是能夠代表人們情感、個(gè)人風(fēng)格、精神狀況以及有關(guān)人性的其他方面的一種交流方式。盡管很多時(shí)候,對(duì)于同一首歌,不同的聽眾會(huì)給出不同的關(guān)鍵詞來描述,然而聽眾還是常常試圖使用關(guān)鍵詞來描述他們聽到的歌曲。使用關(guān)鍵詞的描述確實(shí)能夠反應(yīng)音樂的一些內(nèi)容,比如音樂的旋律、風(fēng)格、表演樂器和用途等[1]。而且,對(duì)于聽眾來說,人們并不關(guān)心也不熟悉音樂的較底層音頻特征,而對(duì)于較高層的關(guān)鍵詞比較熟悉也比較感興趣。根據(jù)這一觀點(diǎn),本文提出一種方法,能夠找到音樂的低層特征和高層語義描述之間的聯(lián)系,給出音樂的豐富的關(guān)鍵詞的描述,這將在音樂的相似度比較、基于內(nèi)容的音樂檢索及推薦等方面提供很大的方便。

1 總體設(shè)計(jì)

該方法實(shí)現(xiàn)的總體結(jié)構(gòu)圖如圖1所示,這里的每一個(gè)音樂文件都要經(jīng)過短時(shí)窗的特征提取,組成一系列音頻特征向量,關(guān)鍵詞的選擇即是選取將要訓(xùn)練的語義關(guān)鍵詞,并找到與關(guān)鍵詞相關(guān)的歌曲,將這些歌曲作為訓(xùn)練集。這里的參數(shù)模型GMM是針對(duì)要進(jìn)行訓(xùn)練的每一個(gè)關(guān)鍵詞,取得關(guān)于其在音頻特征空間上的一種分布,每一個(gè)分布使用混合高斯模型(GMM)建模。每一個(gè)關(guān)鍵詞的GMM的參數(shù)估計(jì)是由和此關(guān)鍵詞相關(guān)的一系列歌曲組成的音頻內(nèi)容來估計(jì)。通過GMM的參數(shù)估計(jì),得到歌曲的關(guān)鍵詞的概率分布,從而得到語義特征向量,完成基于內(nèi)容的音樂語義特征描述。

圖1 總體結(jié)構(gòu)圖Fig.1 Structure diagram of the overall structure

2 音樂特征提取

音樂是一種重要的音頻類型,具有節(jié)奏、旋律和調(diào)性等要素,是人聲、樂器等發(fā)聲體配合所構(gòu)成的聲音。除了聲波形式以外,音樂還可以用樂譜來進(jìn)行表示,基于聲波形式的信號(hào)可以得到音樂的低層特征。特征提取是指尋找原始音頻信號(hào)的表達(dá)形式,提取能夠代表原始信號(hào)的數(shù)據(jù)[2]。一般采用的技術(shù)路線有2條:1)從疊加音頻幀中提取特征,其原因在于音頻信號(hào)是短時(shí)平穩(wěn)的,所以在短時(shí)提取的特征比較穩(wěn)定。2)從音頻片段中提取,因?yàn)槿魏握Z義都有時(shí)間延續(xù)性,在長(zhǎng)時(shí)間刻度內(nèi)提取的音頻特征可以更好地反映音頻所蘊(yùn)含的語義信息,一般是提取音頻幀的統(tǒng)計(jì)特征作為音頻片段特征,特征參數(shù)提取圖如圖2所示。

圖2 特征參數(shù)提取圖Fig.2 Diagram of the extracting of characteristic parameters

文中對(duì)基于音頻幀的低層特征進(jìn)行了如下內(nèi)容的提取。

1)節(jié)奏(tempo)音樂的節(jié)奏是一個(gè)廣義詞,包括音樂中與時(shí)間有關(guān)的所有因素,它指音樂運(yùn)動(dòng)中音的長(zhǎng)短、強(qiáng)弱的變化規(guī)律,比如語義關(guān)鍵詞標(biāo)注為 happy,excting,powerful等關(guān)鍵詞,相應(yīng)的tempo值比較高,相反,語義關(guān)鍵詞標(biāo)注為sad,tender,sleeping等關(guān)鍵詞,相應(yīng)的 tempo值比較低。

2)旋律清晰度(pulseclarity)估算旋律清晰度,揭示了節(jié)拍的強(qiáng)度,強(qiáng)度越強(qiáng),能量越大,信息量就越大。這一特征對(duì)于關(guān)鍵詞標(biāo)注為流派的genre-pop,genre-soul,genre-rock等的區(qū)分性意義很大。

3)主調(diào)(mode)估計(jì)音樂的主要感覺,返回 major和minor的值,如果值大于0,且越大于0,預(yù)測(cè)的就是 major越多,反之值越小于0,minor越多,主要表征的是音樂信號(hào)的頻率信息。

4)調(diào)性(key)主要包括7個(gè)與主因有固定關(guān)系的音色的調(diào)因系統(tǒng)(如E大調(diào))。在西方音樂中,調(diào)性一直是音樂的結(jié)構(gòu)基礎(chǔ)。

5)清晰度(keyclarity)調(diào)性的清晰程度,找到最好的調(diào)。

6)音調(diào)中心(tonalcentroid)是在色譜圖的基礎(chǔ)上加入了和弦結(jié)構(gòu)信息(五度循環(huán)圈)得到的六維信息,主要表征的是音樂信號(hào)的頻率信息,能夠檢測(cè)和弦的變化,反應(yīng)音樂的旋律特征。

7)調(diào)強(qiáng)度(keystrength)計(jì)算key的強(qiáng)度。

在提取特征參數(shù)過程中,首先將音樂文件轉(zhuǎn)換成單聲道wav格式的音頻,每段音樂的位速是256 kbps,采樣大小是16位,采樣頻率為16 kHz,音頻格式為PCM。參考MIRtoolbox工具包[3],提取時(shí)間采用的是幀長(zhǎng)5 s,幀移0.5 s,提取以上所述特征參數(shù),得到1維的節(jié)奏(tempo),1維的旋律清晰度(pulseclarity),1維的主調(diào) (mode),1維的音調(diào)(key),1維的音調(diào)清晰度(keyclarity),6維的音調(diào)中心(tonalcentroid),24維的調(diào)強(qiáng)度 (keystrength), 最終組成一個(gè)35維的長(zhǎng)時(shí)特征矢量,這個(gè)步驟是在matlab環(huán)境下進(jìn)行的。每首歌曲用一個(gè)txt文檔保存其按幀提取出來的的特征矢量。

3 音樂的語義特征標(biāo)注

如何描述音樂的語義特征是一個(gè)關(guān)鍵問題。隨著生活條件的提高,人們?cè)絹碓阶⒅鼐衿肺兜呐囵B(yǎng),在不同的場(chǎng)合人們將需求不同的音樂,對(duì)音樂的用途提出了越來越明確以及細(xì)致的要求,這就要求我們能夠?qū)σ魳愤M(jìn)行全面的剖析和描述。本文使用 Computer Audio Lab 500(CAL500)數(shù)據(jù)集[1]。其具體做法是,通過用戶一邊試聽音樂一邊對(duì)音樂進(jìn)行關(guān)鍵詞標(biāo)注的方法,對(duì)語義標(biāo)簽給出了一個(gè)清晰的定義集本。這些語義詞包括18種表示情感的標(biāo)注,如emotion-happy,notemotion-happy等;36種表示流派的標(biāo)注,如 genre-pop,genrerock等;29種音樂器具的標(biāo)注,如instrument-bass,instrumentpiano等,等等。這個(gè)數(shù)據(jù)集要反應(yīng)出語義詞與歌曲之間聯(lián)系的程度,因此對(duì)于每一首歌,在給出一系列關(guān)鍵詞標(biāo)簽的同時(shí),也給出了標(biāo)簽對(duì)應(yīng)的分值。這樣每一首歌,都由一個(gè)數(shù)值向量來表示,其數(shù)值分布在0到1之間,0表示這首歌與這個(gè)關(guān)鍵詞不相關(guān),1表示極其相關(guān)。

對(duì)于接下來要做的模型的訓(xùn)練,要進(jìn)行關(guān)鍵詞的選擇,即選擇要進(jìn)行訓(xùn)練的關(guān)鍵詞,找出這個(gè)關(guān)鍵詞分值大于0的這些歌曲,作為訓(xùn)練集,生成基于關(guān)鍵詞的模板。

4 實(shí) 驗(yàn)

4.1 混合高斯模型(Gaussian Mixture Models,GMM)原理

GMM[4]訓(xùn)練的過程,首先需要進(jìn)行樣本的選擇。對(duì)于每一個(gè)單詞來說,要進(jìn)行一個(gè)GMM的訓(xùn)練,訓(xùn)練樣本集的選擇即是與這個(gè)單詞相關(guān)的歌曲。這里選擇單詞標(biāo)注值大于0的歌曲作為訓(xùn)練樣本集,實(shí)驗(yàn)中,500首歌中隨機(jī)選擇85%作為訓(xùn)練集,剩下的15%作為測(cè)試集。

高斯混合模型由M個(gè)多維的高斯概率密度函數(shù)線性加權(quán)求和構(gòu)成,可以用公式表示如下:

其中X是N維音頻信號(hào)特征矢量,M是混合高斯模型的階數(shù),pi(X)是高斯混合模型分量,βi是對(duì)應(yīng)高斯混合分量pi(X)的加權(quán)因子。

在獲得了音樂的低層特征之后,GMM的訓(xùn)練即是估計(jì)模型的參數(shù),即通過最大似然估計(jì)法,給定訓(xùn)練矢量集的情況下,尋找合適的模型參數(shù),使得GMM的似然函數(shù)最大[5-6]。

高斯混合模型的似然函數(shù)表達(dá)式如:

其中 X 為訓(xùn)練矢量集,X={x1,x2,…,xn}。

對(duì)于高斯混合模型的階數(shù)M的選擇,一般情況是M選取的大一些比較好,但也并不是M越大越好,況且隨著M的增大,對(duì)于訓(xùn)練的時(shí)間成本也造成很大了影響。文中使用M為9的混合高斯模型進(jìn)行訓(xùn)練,得到基于關(guān)鍵詞的模板的均值和方差以及對(duì)應(yīng)的權(quán)重。

4.2 語義特征向量的形成

經(jīng)過GMM的訓(xùn)練得到詞匯庫中每一個(gè)關(guān)鍵詞的均值和方差,接下來使用貝葉斯法則去計(jì)算每一個(gè)關(guān)鍵詞的先驗(yàn)概率[1]。i),根據(jù)全概率公式得到

這樣可得

使用公式(5)可以計(jì)算出每一個(gè)單詞在一首歌里出現(xiàn)的概率。對(duì)于一首歌,將得到這首歌的所有關(guān)鍵詞模型的概率向量,在這里將這個(gè)概率向量稱為語義特征向量,這樣完成了由低層音頻特征向高層語義特征的一個(gè)映射。語義特征分布圖如圖3所示,這里是對(duì)于air_sexy_boy.wav這首歌的詞匯庫中關(guān)鍵詞的語義特征向量分布,圖中還標(biāo)注出了對(duì)于這首歌描述的8個(gè)最大概率的關(guān)鍵詞。

5 結(jié) 論

文中提出的基于內(nèi)容的音樂語義特征描述方法,采用提取音樂豐富的較低層音頻特征,訓(xùn)練基于語義關(guān)鍵詞的GMM模型,不僅給夠?qū)Ω枨M(jìn)行語義關(guān)鍵詞的描述,而且還能夠給出關(guān)鍵詞的程度。對(duì)于一首歌來說,使用語義特征分布來代表一首歌是十分有意義的,這將對(duì)于音樂的檢索或是推薦分析工作都提供了很大的方便。使用語義特征向量來表征一首歌,一方面給出了底層音頻特征到高層語義特征的映射關(guān)系,彌補(bǔ)了語義空缺;另一方面,將音頻信息轉(zhuǎn)化成更易于處理的數(shù)值信息,這對(duì)于音樂的相似度比較,提供了一個(gè)很好的入口。

圖3 語義特征分布圖Fig.3 Diagram of the Semantic features distribution

[1]Turnbull D,Barrington L,Torres D,et al.Lanckriet.Towards Musical Query-by-Semantic Description Using the CAL500 Data Set[EB/OL][2012-8-10].http://cosmal.ucsd.edu/cal/pubs/MusicQBSD_SIGIR07.pdf

[2]韓紀(jì)慶,鄭鐵然,鄭貴濱.音頻信息檢索理論與技術(shù)[M].北京:科學(xué)出版社,2011.

[3]Lartillot O.MIRtoolbox1.3.2 User’s Manual[M].Finland:Finnish Center of Excellence in Interdisciplinary Music Research University of Jyvaskyla,2011.

[4]Reynolds A,Rose C.Robust text-independent speaker identification using caussian mixture speaker Models[J].IEEE Transactions on Speech and Audio Processing,1995,3(1):72-83.

[5]Steve Young,Dan Kershaw,Julian Odell,et al.The HTK Book for HTK Version3.4[M].Cambridge University Engineering Department(CUED),2009.

[6]Timo Sorsa and Jyri Huopaniemi Nokia Research Center.Speech and Audio Systems Laboratory.Melodic Resolution in Music Retrieval[EB/OL][2012-8-10].http://ismir2001.ismir.net/posters/sorsa.pdf.

猜你喜歡
特征向量高斯音頻
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
數(shù)學(xué)王子高斯
天才數(shù)學(xué)家——高斯
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
一類特殊矩陣特征向量的求法
EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
Pro Tools音頻剪輯及修正
河间市| 永登县| 高台县| 庆云县| 汕尾市| 五台县| 通江县| 怀安县| 洛阳市| 浠水县| 独山县| 宽甸| 龙井市| 桦南县| 肇东市| 余姚市| 崇阳县| 墨脱县| 雅安市| 蒲江县| 渝北区| 台山市| 灯塔市| 古浪县| 林芝县| 阳山县| 都昌县| 七台河市| 深水埗区| 岐山县| 商城县| 大埔区| 衢州市| 合作市| 托克托县| 丰宁| 恭城| 壤塘县| 建阳市| 靖宇县| 吐鲁番市|