張翔,孫偉,余璇
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
基于LDA模型的音頻分類方法
張翔,孫偉,余璇
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
隨著網(wǎng)絡(luò)的發(fā)展海量音頻文件涌現(xiàn),音頻分類系統(tǒng)也越來越普及。音頻分類,尤其是語音和音樂的分類是提取音頻結(jié)構(gòu)和內(nèi)容語義的重要手段,是基于內(nèi)容的音頻檢索和分析的基礎(chǔ)。介紹一種基于音頻內(nèi)容根據(jù)音頻內(nèi)容間的相似度對音頻進(jìn)行分類的方法。用每個(gè)音頻的音高集代表該音頻文件,以LDA主題模型對音頻進(jìn)行分類。
相似度;音頻內(nèi)容;音高;LDA主題模型
隨著計(jì)算機(jī)技術(shù)與多媒體技術(shù)的發(fā)展大量的音頻文件進(jìn)入我們的生活。在這種情況下的音頻檢索的范圍也越來越大檢索的準(zhǔn)確率也越來越低,且原始音頻文件中所包含的數(shù)據(jù)缺乏語義與結(jié)構(gòu)化的組織很難直到其真實(shí)意義這給音頻檢索帶來很大的困難。因此,縮小音頻檢索的范圍提高檢索效率變得尤為重要。音頻分類技術(shù)可以很大程度上縮小檢索的范圍提高檢索的效率。因此,有關(guān)音頻分類的研究越來越普及。
有關(guān)音頻分類的研究早期主要有文獻(xiàn)[1,2]所示技術(shù),文獻(xiàn)[1]介紹了一種將神經(jīng)元網(wǎng)絡(luò)直接將聲音類別映射到所標(biāo)注的文本。文獻(xiàn)[2]通過使用自組織映射聚類算法將具有相似特征的音頻劃歸為同一類。美國Music Fish公司的Erling Word等人通過分析響度、音高、亮度、諧度實(shí)現(xiàn)了真正意義上的基于內(nèi)容的音頻分類,所用數(shù)據(jù)集包括鈴聲、音樂等16類樣本數(shù)據(jù)[3]。盧堅(jiān)、陳毅松、孫正興、張福炎于2002年12月提出了基于隱馬爾可夫模型的音頻自動(dòng)分類[4]。到2005年白亮、老松楊、陳劍贊、吳玲達(dá)提出了基于支持向量機(jī)的音頻分類[5]。語音和音樂是兩類比較重要的音頻文件是基于內(nèi)容檢索技術(shù)的主要區(qū)分對象,文獻(xiàn)[6,7]采用基于簡單決策樹的語音/音樂多步層次分類方法,即每一步根據(jù)一種或者幾種音頻特征及其閾值判定音頻所屬的類別。
音頻分類屬于模式識別領(lǐng)域,涉及到計(jì)算機(jī)技術(shù)、多媒體數(shù)據(jù)庫技術(shù),主要包括兩個(gè)過程:音頻特征提取和音頻分類兩步。音頻特征提取指應(yīng)用數(shù)字信號處理技術(shù)和信號系統(tǒng)理論來尋找原始音頻信號表達(dá)形式,抽取出能代表原始信號的數(shù)據(jù),抽取出音頻的物理特征。音頻分類是指通過音頻間的相似度將有相似特征的音頻歸為一類。音頻分類問題是基于內(nèi)容的音頻檢索技術(shù)必須解決的關(guān)鍵問題。
隱式狄利克雷(LDA)主題模型原本用于文本分類。LDA模型對文本進(jìn)行分類時(shí)假設(shè)文本沒有任何的詞序和語法、句法,也就是說文本中的所有的詞都是無序的。LDA模型對文本分類的具體過程為:首先給每篇文本的每一個(gè)詞隨機(jī)的賦予一個(gè)主題編號;重新掃描語料庫對每篇文章的每個(gè)詞的主題編號進(jìn)行吉布斯采樣;重復(fù)上一步直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計(jì)算出每篇文本對于主題類別的概率分布。
2.1 音頻特征提取
音高指各種不同高低的聲音,即音的高度。音的高低由振動(dòng)頻率決定的,兩種成正比關(guān)系??紤]到音樂的音高頻率趨向于音高頻率表中的振動(dòng)頻率而平常語音的振動(dòng)頻率有高有底數(shù)值分布比較廣。因此,這里提取音高頻率作為音頻的特征,并寫入文檔,作為LDA模型的輸入?;谟脩糨斎氲姆诸悅€(gè)數(shù)K,LDA模型通過該文檔將音頻分為指定K類。提取音高頻率的算法由python的vamp庫提供。運(yùn)行程序可得每個(gè)文件的音高集,去除其中小于等于0的數(shù)值得到有效的音高集。音頻音高提取關(guān)鍵代碼如下所示這里使用Python語言實(shí)現(xiàn)。
2.2 LDA模型分類
LDA模型假設(shè)每個(gè)音頻的每個(gè)音高之間都是無序的,沒有任何的先后關(guān)系。因此,如圖1所示在LDA模型中每個(gè)音頻可以表示為三層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),一個(gè)音頻由若干個(gè)隱含的主題構(gòu)成,而這些主題由若干個(gè)音高構(gòu)成。基于用戶輸入的分類個(gè)數(shù)K,LDA模型根據(jù)每個(gè)音頻的相對音高之間的相似度對音頻進(jìn)行分類,最終可得到每個(gè)音頻對于文件的概率分布P(topick|audio)。
圖1 三層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)
在生成一個(gè)音高時(shí),LDA模型假設(shè)每個(gè)音高的生成過程如下:首先從若干類別中選擇一個(gè)類別,再根據(jù)該類別生成一個(gè)音高。重復(fù)以上過程便可生成一個(gè)音頻?;谝陨霞僭O(shè)每個(gè)音高的生成原理如圖2所示。
圖2 音高生成原理圖
生成過程如下:
Dirichlet先驗(yàn)分布+多項(xiàng)分布數(shù)據(jù)→Dirichlet后驗(yàn)分布
已知生成所有相對音高的聯(lián)合分布是M+K個(gè)狄利克雷共軛分布,可以根據(jù)狄利克雷共軛來推導(dǎo)吉布斯采樣公式。這里是已知數(shù)據(jù),是隱含變量所以需要采樣的分布是,音高庫中第i個(gè)音高對應(yīng)的topic記為zi,其中i=(m,n)是一個(gè)二維下標(biāo),對應(yīng)第m個(gè)音頻中第n個(gè)音高,用表示去除下標(biāo)為i的音高。按照Gibbs Samping算法的要求,求得任意坐標(biāo)i所對應(yīng)的條件分布為。假設(shè)已經(jīng)觀測到的音高pi=t,根據(jù)貝葉斯法則可得:
由于zi=k,pi=t只涉及到兩個(gè)共軛結(jié)構(gòu),而其他的共軛結(jié)構(gòu)和zi=k,pi=t是獨(dú)立的所以的后驗(yàn)分布依然是狄利克雷分布分別為:
由此可得LDA主題模型的Gibbs Samping公式為:
根據(jù)吉布斯采樣公式可以計(jì)算出每個(gè)音高的主題編號由當(dāng)前的主題編號轉(zhuǎn)移至其他主題編號的轉(zhuǎn)移概率,轉(zhuǎn)移原理如圖3所示。
圖3 吉布斯采樣主題編號轉(zhuǎn)移原理圖
基于LDA模型音頻分類具體流程如圖4所示。
圖4 基于LDA模型音頻分類流程
LDA主題模型對音頻進(jìn)行分類時(shí)首先給每個(gè)音頻的每個(gè)音高隨機(jī)賦予一個(gè)主題編號,并記錄主題編號與每個(gè)音頻以及每個(gè)音高的相關(guān)數(shù)量關(guān)系數(shù)據(jù)用于后期計(jì)算音頻所屬類別(這里的編號最大值為用戶輸入的K);根據(jù)吉布斯采樣公式計(jì)算出當(dāng)前主題編號轉(zhuǎn)移至各主題編號的概率,并根據(jù)轉(zhuǎn)移概率完成主題編號的轉(zhuǎn)移更新相關(guān)記錄數(shù)據(jù);重復(fù)迭代上一步驟直到吉布斯采樣公式收斂;根據(jù)記錄的數(shù)據(jù)計(jì)算出每個(gè)音頻所屬于每一類的概率,以及每個(gè)音高所屬于每一類的概率。在整個(gè)過程中吉布斯采樣過程為整個(gè)分類關(guān)鍵部分其關(guān)鍵代碼如下。
本次實(shí)驗(yàn)所使用的音頻為歌曲、有聲小說(語音)、以及歌曲和有聲小說的混合音。數(shù)量分別有500個(gè)。實(shí)驗(yàn)PC機(jī)為Thinkpad A6-3400M,主頻為1.4GHz。音頻下載自酷我音樂,下載的文件為mp3文件,轉(zhuǎn)換成wav文件。通過python2.7 vamp庫配合melodia插件可取出音頻文件的基頻序列并寫入文本作為LDA模型的輸入。
本次實(shí)驗(yàn)主要以分類結(jié)果的準(zhǔn)確性作為評價(jià)基于LDA模型的音頻分類方法的的指標(biāo)。根據(jù)LDA模型對音頻數(shù)據(jù)分類的結(jié)果數(shù)據(jù),最終可計(jì)算出每個(gè)音頻屬于每個(gè)類別的概率以及每個(gè)音高頻率屬于每一類別的概率,選擇其中所屬概率最大值的類別作為該音頻的所屬類別。
通過多次實(shí)驗(yàn),修改不同的迭代次數(shù)之后分類的結(jié)果也趨于穩(wěn)定。500首歌曲中有440首左右歌曲被歸為同一類,即準(zhǔn)確率0.88,該類音頻中貢獻(xiàn)最高的是音高頻率表中幾個(gè)常用的頻率。500個(gè)有聲小說音頻中有445個(gè)左右的音頻被歸為同一類,即準(zhǔn)確率為0.89,該類音頻中對分類貢獻(xiàn)比較高的是幾個(gè)不在音高頻率表中的音高頻率。有聲小說和歌曲混合部分有400個(gè)左右音頻被歸為同一類,即準(zhǔn)確率為0.80該類音頻中對分類貢獻(xiàn)比較高的音高頻率有部分來自于音高頻率表。平均準(zhǔn)確率為0.856左右。歌曲和有聲小說的準(zhǔn)確率都很不錯(cuò),但混合音的準(zhǔn)確率下降較多。造成這一現(xiàn)象的原因可能是本來音高頻率表中的音高頻率和無規(guī)則的音高頻率對于分類貢獻(xiàn)相近,但實(shí)際試驗(yàn)中卻肯定有部分?jǐn)?shù)據(jù)偏向于某一方從而導(dǎo)致該類音頻被劃歸到歌曲或者有聲小說。文獻(xiàn)[6]分類結(jié)果為語音準(zhǔn)確率0.81、音樂準(zhǔn)確率0.70,平均準(zhǔn)確率為0.75。文獻(xiàn)[7]分類結(jié)果為語音準(zhǔn)確率為0.75、語音準(zhǔn)確率0.89,平均準(zhǔn)確率為0.82?;贚DA模型的音頻分類方法效果明顯好于文獻(xiàn)[6]和文獻(xiàn)[7]所提方法。
本文使用音高頻率為每個(gè)音頻的標(biāo)志數(shù)據(jù),完成了一個(gè)基于LDA模型的分類方法。該方法根據(jù)音頻的音高之間的相似度對音頻進(jìn)行分類。相信用音高標(biāo)志音頻這一方法將會(huì)得到更多的應(yīng)用,LDA模型的作用也將得到巨大的拓展。音頻的分類還可以進(jìn)一步的劃分,例如歌曲按照一定的風(fēng)格劃分。音高標(biāo)志音頻是將來關(guān)于音頻分類的重要研究方向。
[1]Feiten B,Frank R,Ungvary T.Organization of Sounds with Neural Nets.In:Proceedings of the 1991 International Computer Music Conference,International Computer Music Association.San Francisco,1991:441-444.
[2]Feiten B,Gunzel S.Automatic Indexing of a Sound Database Using Self-organizing Neural Nets.Computer Music Journal,1994,18(3):53-65.
[3]Wold E,Blum T,Keislar D,et al.Content-Based Classification,Search,and Retrieval of Audio.IEEE Multimedia Magazine,1996,3(3):27-36.
[4]盧堅(jiān),陳毅松,孫正興,張福炎.基于隱馬爾科夫模型的音頻自動(dòng)分類[J].軟件學(xué)報(bào),2002,13(8):1594-1597.
[5]白亮,老松楊,陳劍赟,吳玲達(dá).基于支持向量機(jī)的音頻分類與分割[J].計(jì)算機(jī)科學(xué),2005,4:87-90.
[6]Srinivasan S,Petkovic D,Ponceleon D.Towards Robust Features for Classifying Audio in the Cudevideo System.In:Proceedings of the 7th ACM International Conference on Multimedia.Orlando:ACM Press,1999:393-400.
[7]Lu Guo-jun,Templar H.A Technique Towards Automatic Audio Classification and Retrieval.In:Proceedings of the 4th International Conference on Signal Processing,ICSP,Vol 2,1998:1142-1145.
[8]CHEN Qiu-xing,YAO Li-xiu,YANG Jie.Short Text Classification Based on Lda Topic Model.ICALIP,2016:749-752.
Audio Classification Based on LDA Model
ZHANG Xiang,SUN Wei,YU Xuan
(College of Information Engineering of Shanghai Maritime University,Shanghai 201306)
With the development of the network mass audio files come to the fore,audio classification system is becoming more and more popular.Au?dio classification,especially classification between pronunciation and music is an important means of extract audio structure and content se?mantics.It is the foundation of audio retrieval and analysis based on content.Introduces a method which classifies audio based on audio contents.And the method classifies audio according to degree of similarity between audio content.In this method,pitch set of every song be?halves the song and audio is classification by LDA model.
張翔(1991-),男,江蘇淮安人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)
2017-03-28
2017-06-10
1007-1423(2017)17-0016-05
10.3969/j.issn.1007-1423.2017.17.003
孫偉(1978-),男,山東萊州人,副教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)
余璇(1994-),女,河南鄭州人,碩士,研究方向?yàn)闄C(jī)器學(xué)習(xí)、自然語言處理
Degree of Similarity;Audio Content;Pitch;LDA Model