?
利用AdaBoost-SVM集成算法和語塊信息的韻律短語識別*
通信地址:030006 山西省太原市山西大學(xué)計算機與信息技術(shù)學(xué)院Address:School of Computer & Information Technology, Shanxi University, Taiyuan 030006, Shanxi,P.R.China
錢揖麗1,2,馮志茹1
(1.山西大學(xué)計算機與信息技術(shù)學(xué)院,山西 太原 030006;
2.山西大學(xué)計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
摘要:提出一種基于漢語語塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法的漢語韻律短語識別方法。首先,對語料進行自動分詞、詞性標注和初語塊標注,然后基于結(jié)合緊密度獲取語塊歸并規(guī)則并利用規(guī)則對初語塊進行歸并,得到最終的語塊結(jié)構(gòu)。其次,基于語塊結(jié)構(gòu)并利用AdaBoost-SVM集成算法,構(gòu)建漢語韻律短語識別模型。同時,該文利用多種算法分別構(gòu)建了利用語塊信息和不利用語塊的多個模型,對比實驗結(jié)果表明,表示淺層句法信息的語塊能夠在韻律短語識別中做出積極有效的貢獻;利用AdaBoos-SVM集成算法實現(xiàn)的模型性能更佳。
關(guān)鍵詞:漢語語塊;AdaBoost-SVM;韻律短語;識別
1引言
語音合成是制造語音的技術(shù)。它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計算機科學(xué)等多個學(xué)科技術(shù),是中文信息處理領(lǐng)域的一項前沿技術(shù)。目前機器合成的語音與人講的話之間還有明顯的差距,其自然度還有待進一步的提高。韻律的差距是影響語音自然度的重要因素之一,合成的語音單調(diào)枯燥,且在節(jié)奏、輕重、停頓等方面的處理不當(dāng)使其聽起來非常別扭。充分掌握和運用自然語言的韻律信息,是提高合成語音自然度的關(guān)鍵。
人在說話時往往會按照話語表達的核心、語義和發(fā)音的生理機能等,自然地在話語中添加必要的停歇。停歇的位置、時長等對于語義表達、語流的生動性和自然度等有著很大的影響。
語音上的停歇與文本的韻律結(jié)構(gòu)緊密相關(guān)。目前比較公認的是將韻律結(jié)構(gòu)從下到上分為三個級別,即:韻律詞、韻律短語和語調(diào)短語。在韻律結(jié)構(gòu)邊界會出現(xiàn)長短不同的停歇,韻律層次越高,停歇的時間就越長。由于韻律詞往往與語法詞相對應(yīng),而語調(diào)短語則通常是一個完整的分句,因此,韻律短語是人們研究的重點。針對韻律短語識別研究,已有的工作有基于語言學(xué)規(guī)則的方法[1],這類方法復(fù)用度低且很容易受到人為因素的限制;有基于統(tǒng)計的方法,如基于二叉樹[2,3]、馬爾科夫模型[4]、最大熵模型[5]、決策樹[6]等等,這些方法使用的特征大多為詞、詞性等詞法特征,或者使用依賴人工標注的語法特征;還有規(guī)則和統(tǒng)計相結(jié)合的方法等,這些工作使得韻律結(jié)構(gòu)劃分問題取得了一定的進展。
通過對大量語料的分析可知,韻律結(jié)構(gòu)和句法結(jié)構(gòu)之間存在著一定的聯(lián)系。韻律結(jié)構(gòu)是以句法結(jié)構(gòu)為基礎(chǔ)的,在句法上不能夠出現(xiàn)停頓的地方(如詞內(nèi)音節(jié)之間),韻律上也不允許出現(xiàn)停頓;而在句法上的高層結(jié)構(gòu)之間,特別是標點符號出現(xiàn)的地方,韻律上一定會出現(xiàn)停頓[7]。但是,由于漢語句子和句法結(jié)構(gòu)的復(fù)雜性和靈活多變性,往往存在著一定的嵌套關(guān)系,且句法分析器的生成較為復(fù)雜,對隨機的句子進行分析得到的結(jié)果還不甚理想。為了降低句法分析難度,語塊在CoNLL-2000被提出。語塊分析能夠?qū)浞ǚ治銎鸬胶芎玫闹薪樽饔?,并為后續(xù)的句法分析提供依據(jù)。另外,通過觀察和統(tǒng)計發(fā)現(xiàn),人們在朗讀或說話的時候往往會自然地將句子切分成一定長度的語塊流,語塊的切分還會把句法上相關(guān)的詞進行整合,對韻律短語的識別起到積極作用。所以,本文在漢語語塊識別的基礎(chǔ)上,提出將語塊結(jié)構(gòu)這種非遞歸嵌套的淺層句法結(jié)構(gòu)應(yīng)用于韻律短語的識別。
另外,要實現(xiàn)韻律短語的自動識別,就需要構(gòu)造一個具有較高泛化能力的高精度學(xué)習(xí)機。但是,由于尋找一種較強的分類算法用于韻律短語識別較為困難,基于強、弱學(xué)習(xí)算法的等價性問題,利用集成學(xué)習(xí)方法能夠使多個準確率略高于隨機猜測的弱分類器進行加權(quán)融合,形成一個強學(xué)習(xí)算法,達到比強分類器更好的分類效果。所以,本文使用AdaBoost集成學(xué)習(xí)算法,用SVM方法訓(xùn)練生成多個基分類器,再將多個基分類器用加權(quán)投票的方法集成,形成一個新的強分類器完成對韻律短語的預(yù)測。多項對比實驗結(jié)果顯示,基于語塊結(jié)構(gòu)并利用AdaBoost-SVM集成學(xué)習(xí)算法構(gòu)建的模型性能更佳。
2AdaBoost-SVM集成算法
實現(xiàn)韻律短語的自動識別,需要構(gòu)造出一個具有較高泛化能力的高精度學(xué)習(xí)機。而領(lǐng)域知識和學(xué)習(xí)數(shù)據(jù)集本身及其分布對泛化能力的制約較大。傳統(tǒng)的數(shù)理統(tǒng)計與模式識別的方法需要盡可能精確地找到預(yù)測的規(guī)則,故構(gòu)造精度高的學(xué)習(xí)機很難;而集成學(xué)習(xí)的思想大大改變了以往研究的思路。
集成學(xué)習(xí)是一種機器學(xué)習(xí)方法,對于分類問題其主要思想是:使用一些分類效率只需略高于隨機猜測的弱分類學(xué)習(xí)算法,學(xué)習(xí)生成多個不同的基分類學(xué)習(xí)機,然后將多個基分類學(xué)習(xí)機組合成強分類學(xué)習(xí)機[8],這個新形成的分類學(xué)習(xí)機具有較強的泛化能力。
從Schapire R E[9]證明一個強分類學(xué)習(xí)機可以被多個弱分類學(xué)習(xí)機通過某些方法得到開始,Boosting算法便得以出現(xiàn)。此后,F(xiàn)reund Y[10]提出了一種更有效的Boost-by-majority算法。但是,這兩種算法在解決實際問題時就會有許多問題產(chǎn)生。在使用弱分類學(xué)習(xí)算法前,必須先知道其最差正確率。1997年,Schapire R E和Freund Y[11]提出的AdaBoost算法解決了這一問題,且其算法效率與Boosting-by-majority相當(dāng),而且極易應(yīng)用于實際問題中。之后,又提出了可以控制投票機制的AdaBoost.M1、AdaBoost.M2和AdaBoost.R算法。
雖然AdaBoost方法自適應(yīng)能力強且實現(xiàn)簡單,可以提高任意一種弱分類器的分類精度,但卻特別容易受到噪聲數(shù)據(jù)的影響[12]。這是由于AdaBoost算法強調(diào)分類錯誤的數(shù)據(jù)更為重要,所以在每次訓(xùn)練結(jié)束后會對訓(xùn)練錯誤的數(shù)據(jù)賦予更大的權(quán)重。這種現(xiàn)象在迭代多次后更為明顯,因此導(dǎo)致最終的集成分類器效果下降。所以,為了保證和提高算法效果,本文在使用AdaBoost算法訓(xùn)練時對數(shù)據(jù)權(quán)重的賦值加入了一個參數(shù)進行調(diào)節(jié)。
AdaBoost-SVM集成算法的主要思想是:選用SVM作為基分類器,再用AdaBoost算法進行迭代生成T個子SVM分類器,在迭代的過程中為保證每次生成的子SVM分類器之間的差異性,對每個子分類器輸入大小相同但內(nèi)容包含前面分類器給出的錯分樣本的子訓(xùn)練集。這樣使得算法更關(guān)注錯分樣本,并不像AdaBoost算法使用的是原始訓(xùn)練數(shù)據(jù)集。最后將這些子SVM分類器按照加權(quán)投票的方法組合生成最終的集成分類器。
本文中的AdaBoost-SVM算法描述為:
輸入:訓(xùn)練樣本集L={(x1,y1),(x2,y2),…,(xi,yi),…,(xN,yN)},其中xi∈Rn,yi={1,-1},迭代次數(shù)T,基分類算法SVM。
輸出:用于韻律短語識別的集成分類器H(x)。
初始化訓(xùn)練集樣本權(quán)重φ1(xi)=1/N,i=1,2,…,N;迭代次數(shù)t=1。
Fort=1,…,T:
②在得到的訓(xùn)練集Lt上利用SVM分類算法訓(xùn)練生成一個基分類器ht:x→{-1,1},并計算分類器在整個訓(xùn)練集L上的分類誤差:
⑤更新樣本權(quán)重:
其中,Zt為歸一化因子,β表示權(quán)重。
EndFor
輸出最終集成分類器:
3語塊結(jié)構(gòu)及其處理
語塊是指介于詞匯和句子之間的模式化的短語。語塊的識別和分析屬于淺層句法分析的范疇。目前中文語塊的定義主要有兩大類:一類是從進行了句法標記的句法樹庫中直接抽取出句法樹的非終結(jié)點作為語塊[12,13],另一類是根據(jù)具體的中文語法現(xiàn)象對句子進行分析,構(gòu)造出具有獨立性和完整性的語塊定義[14]。
本文建立的語塊屬于第二類,共分八種類型,分別是:名詞語塊(NC)、動詞語塊(VC)、形容詞語塊(JC)、副詞語塊(AC)、介詞語塊(PC)、連詞語塊(CC)、數(shù)量詞語塊(QC)和方位語塊(LC)。它們具備兩個特征:一是語塊之間無重疊,句子中的任一詞都只能屬于一個語塊,且語塊之間無嵌套,若有歧義則按照最長匹配的原則進行劃分[10];二是句子中的每個詞都必須進行語塊標注,且語塊內(nèi)部不再進行細分。
初始語塊的標注方法為:首先根據(jù)漢語的句法特征總結(jié)歸納出各類語塊的具體特征,如:助詞“的”往往依附于其前面的成分,數(shù)詞和量詞往往是一個整體等;然后利用正則文法,設(shè)置不同的子文法限制,各子文法結(jié)合有限狀態(tài)自動機嵌套遞歸對文本中的句子進行正則匹配,從而完成初始語塊的標注。
例如,經(jīng)過分詞和詞性標注的句子為:
我們/r 從/p 實際/n 出發(fā)/v,大力/d 種植/v 石榴/n,摸索/v 出/v 了/u 一/m 條/q 治理/v 水土/n和/c 治窮/v 致富/v 相/d 結(jié)合/v 的/u 成功/a 之/u 路/n
上述例句的初始語塊標注結(jié)果為:
【NC 我們/r】【PC 從/p】【NC 實際/n】【VC 出發(fā)/v】,【AC 大力/d】【VC 種植/v】【NC 石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v】【NC 水土/n】【CC 和/c】【VC 治窮/v】【VC 致富/v】【AC 相/d】【VC 結(jié)合/v的/u】【JC 成功/a之/u】【NC 路/n】其中,位于每個“【】”之間的部分就是語塊。
將各類語塊間的結(jié)合緊密度定義為:
(1) VC+NC→VC;
(2) JC+NC/VC→JC;
(3) QC+NC/JC→QC;
(4) CC+NC/VC/JC →CC;
(5) xC+LC→LC,xC表示任意語塊類型;
(6) PC+yC→PC,yC表示除介詞語塊PC外的其余任意語塊類型;
(7) AC+zC→AC,zC表示除連詞語塊CC外的其余任意語塊類型;
(8) mC+xC →mC,mC為以“的”結(jié)尾的任意語塊類型。
例如,3.2.1節(jié)中例句經(jīng)過初始語塊歸并后的結(jié)果為:
【NC 我們/r】【PC 從/p實際/n】【VC 出發(fā)/v】,【AC 大力/d種植/v】【石榴/n】,【VC 摸索/v】【VC 出/v了/u】【QC 一/m條/q】【VC 治理/v水土/n】【CC 和/c治窮/v】【VC 致富/v】【AC 相/d結(jié)合/v的/u】【JC 成功/a之/u路/n】
在初始句子中,共有22個詞間邊界,它們都是潛在的韻律短語邊界;經(jīng)過語塊標注和歸并后,最終待預(yù)測的邊界縮減至12個,共有10個結(jié)合緊密的詞間邊界被首先剔除。
4利用AdaBoost-SVM和語塊信息的韻律短語識別
考慮到SVM具有良好的泛化能力,且本文使用SVM主要用于AdaBoost算法的基分類算法,也就是說,只要SVM分類效果好于隨機猜測的結(jié)果就行,所以基分類器選取的特征為:當(dāng)前語塊內(nèi)容c、當(dāng)前語塊的類型t、當(dāng)前語塊所含詞的個數(shù)wlen和當(dāng)前語塊所含字的個數(shù)clen。特征向量表示為:
另外,為了進行對比實驗,本文也實現(xiàn)了不利用語塊信息的分離器,選用的特征為:當(dāng)前詞的內(nèi)容w、當(dāng)前詞的詞性p和當(dāng)前詞的長度l。特征向量表示為:
使用LibSVM工具包作為SVM分類器進行實驗,由于SVM只能處理數(shù)值型的特征數(shù)據(jù),而本文采用的特征:語塊內(nèi)容、語塊類型、詞、詞性均為文本型數(shù)據(jù),所以本文首先采用構(gòu)建詞袋和詞性袋等方法,對數(shù)據(jù)集中的文本數(shù)據(jù)進行數(shù)值化處理,使其適用于SVM分類器的數(shù)據(jù)處理過程。
在利用2.2節(jié)中描述的算法進行韻律短語識別時,令yi=1表示當(dāng)前邊界是韻律短語邊界,yi=-1表示當(dāng)前邊界不是韻律短語邊界;在利用語塊信息時,xi表示不同類型的語塊;不使用語塊信息時,xi則表示語法詞。
為了使算法更精確,引入?yún)?shù)β來降低被正確分類個體上賦予權(quán)重減少的量,或被錯誤分類個體上賦予權(quán)重增加的量。β的值不宜過大,隨著β的增大算法的誤差有上升趨勢[16],所以本文將β設(shè)定為5。
(6) 上層時鐘源為2套設(shè)備,采用Windows time的SNTP協(xié)議,下一層采用NTP協(xié)議Meinberg工具,此時會出現(xiàn)下層時鐘不能同步上層時鐘源。因為上層2個時鐘源采用的SNTP協(xié)議,時鐘精度僅能保持在秒級,很容易相差50 ms,當(dāng)2個時鐘源相差50 ms,下一層時鐘源采用NTP協(xié)議,將會停止向上一層時鐘源同步。
使用AdaBoost算法每生成一個子SVM分類器,該分類器就會在整個訓(xùn)練集上測試其分類效果,根據(jù)測試結(jié)果更新訓(xùn)練集上樣本的權(quán)重,若錯分則增加權(quán)重,若分類正確則降低權(quán)重,并由分類結(jié)果計算出每個分類器的權(quán)重αt。若分類錯誤的樣本較多,說明分類器的分類效果不好,αt的值較??;若分類錯誤的樣本較少,則說明分類器的分類效果好,αt的值較大。為了保證AdaBoost做種生成的集成分類器的效果,往往更多地集成比較好的分類算法,所以以αt作為各個基分類器ht的權(quán)重。
在進行韻律短語邊界預(yù)測時,對于一個測試語料集L,輸入未標注韻律結(jié)構(gòu)的句子s訓(xùn)練過程中生成的T個子SVM分類器ht,會生成T個韻律短語標注結(jié)果。若ht(x)=yi(i=1,…,N),代表第t個子SVM分類器分類正確,則對子SVM分類器ht投一票。最后,根據(jù)投票結(jié)果,將得票最多的分類作為AdaBoost-SVM對輸入句子s的集成分類結(jié)果。
5實驗結(jié)果及分析
實驗語料是來源于1998年《人民日報》的3 200個句子,經(jīng)過分詞、詞性標注以及人工韻律結(jié)構(gòu)標注,平均每句含有34.61個詞,10.36個韻律短語。隨機抽取2 800句作為訓(xùn)練集,400句用于開放測試。
基于不同加工粒度的實驗語料,即顆粒大小為“詞”的詞標注語料和以“語塊”為單位的語塊標注語料,分別統(tǒng)計和計算自然邊界(詞邊界或語塊邊界)與韻律短語邊界的對應(yīng)關(guān)系,得到結(jié)果如表1所示。
Table 1 Word/block boundary and prosodic phrase boundary
從表1可以看出:一方面,實驗語料經(jīng)過分詞后,韻律邊界僅占所有詞邊界的19.55%;而進行語塊標注和歸并后,由于大量詞邊界被包含到語塊內(nèi)部自然剔除,韻律邊界所占比例大幅提高到54.69%,語塊的引入剔除了大量的噪聲邊界,帶來了積極的影響。另一方面,語塊也會帶來一些負面影響,有4.23%的韻律短語邊界會因被歸并在語塊內(nèi)部而丟失,這類情況大多是多個名詞或多個動詞同時出現(xiàn)導(dǎo)致的,可利用如長度約束機制等來解決。
在生成AdaBoost-SVM的過程中,本文將子訓(xùn)練集大小設(shè)定為N*3/4(N為總訓(xùn)練集的大小)并進行迭代,直到達到訓(xùn)練次數(shù)或分類誤差εt>0.5為止。不同分類器個數(shù)下AdaBoost-SVM的韻律短語識別結(jié)果如表2所示。
Table 2 Comparison of recognition results
從表2中可以看出,隨著分類器個數(shù)的增加,AdaBoost-SVM的分類效果也越來越好?;诸惼鱾€數(shù)為5時韻律短語識別的F值為70.24%;當(dāng)基分類器數(shù)增加到40個時,其F值提高到88.56%,提升了18.32%。但是,基分類器個數(shù)的增加也會增加時間開銷,導(dǎo)致訓(xùn)練時間過長。
基于詞標注和語塊標注兩類語料,分別采用CRFs、SVM、AdaBoost-SVM方法構(gòu)建實現(xiàn)了六個相應(yīng)的韻律短語識別模型。各個模型的實驗結(jié)果對比情況如表3所示。
Table 3 Comparison of experimental results of different models
利用語塊前后CRFs、SVM、Adaboost-SVM這三類模型韻律短語識別F值的比較如圖1所示,同樣利用語塊時SVM算法與Adaboost-SVM算法的性能比較如圖2所示。
Figure 1 F-value comparison of 3 models before and after the use of chunks圖1 利用語塊前后三類模型F值的比較
Figure 2 Performance comparison between the SVM and the Adaboost-SVM圖2 SVM算法與Adaboost-SVM算法性能比較
從以上圖表中可以看出:(1)對于上述三種方法,引入并利用語塊信息之后,模型的總體性能都得到了明顯的提升,CRFs模型韻律短語識別F值提高了9.41%,SVM方法提高了8.35%,AdaBoost-SVM方法提高了11.87%;(2)利用語塊信息的模型,韻律短語識別的正確率都大大提高,這是通過語塊標注將大量的噪聲邊界自然剔除的結(jié)果;(3)同樣基于語塊結(jié)構(gòu),與SVM方法相比,Adaboost-SVM集成算法獲得了更好的效果,召回率、正確率都得到了大幅的提高,其F值提高了約18%。
綜上所述,反映淺層句法信息的語塊結(jié)構(gòu)能夠被應(yīng)用于漢語韻律結(jié)構(gòu)的分析,并做出積極有效的貢獻;而且,集成學(xué)習(xí)方法的識別效果高于其他強分類器的識別效果。通過語塊結(jié)構(gòu)的標注和歸并,實現(xiàn)了對語料中結(jié)合緊密語法詞的整合,從而準確縮小了待識別邊界的范圍。另外,由于語塊的粒度較大,選用語塊特征相當(dāng)于縮小了訓(xùn)練空間上的大小,模型訓(xùn)練的時間開銷也會明顯縮減,尤其在使用集成學(xué)習(xí)算法時,表現(xiàn)更為明顯。
6結(jié)束語
正確劃分句子的韻律結(jié)構(gòu)對于提高機器合成語音的自然度具有重要的意義和作用。本文基于語塊結(jié)構(gòu)并利用AdaBoost-SVM算法實現(xiàn)了一個漢語韻律短語識別模型。首先,對語料進行自動分詞、詞性標注、初語塊標注和歸并處理,建立以“語塊”為單位的語料。然后,基于上述語塊標注語料并利用AdaBoost-SVM集成算法訓(xùn)練生成最終的分類器用于漢語韻律短語的識別。本文利用CRFs、SVM、AdaBoost-SVM共三種算法分別構(gòu)建了利用語塊信息和不利用語塊的六個韻律短語識別模型,并將測試結(jié)果進行了對比。實驗結(jié)果表明,不論是上述哪種方法,引入并利用語塊信息之后,其韻律短語識別效果都能得到明顯的提升,反映淺層句法信息的語塊能夠做出積極有效的貢獻。同時,利用AdaBoos-SVM集成算法實現(xiàn)的模型性能更佳,其韻律短語識別的F值為88.56%,比SVM模型提高了18%左右。
由于集成學(xué)習(xí)算法只要求基分類器的效果大于隨機猜測的即可,故本文中SVM算法選用的特征僅限于當(dāng)前詞的內(nèi)容、詞性和長度,沒有考慮和利用上下文語境信息。而且,在利用LibSVM對數(shù)據(jù)進行訓(xùn)練時,耗時較長,導(dǎo)致AdaBoost-SVM算法的時間復(fù)雜性仍然較高。另外,利用正則匹配的方法進行語塊的識別,不可避免地會使部分韻律短語邊界包含在語塊結(jié)構(gòu)的內(nèi)部。今后的研究中會針對以上問題進行深入的研究與改進。
參考文獻:附中文
[1]Cao Jian-fen.Prediction of prosodic organization based on grammatical information[J].Journal of Chinese Information Processing, 2003,17(3):41-46.(in Chinese)
[2]Xun En-dong,Qian Yi-li,Guo Qing, et al.Using binary tree as pruning strategy to identify prosodic phrase breaks[J].Journal of Chinese Information Processing, 2006,20(3):1-5.(in Chinese)
[3]Qian Yi-li,Xun En-dong.Prediction o f speech pauses based on punctuation information and statistical language model[J].Pattern Recognition and Artificial Intelligence, 2008,21(4):541-545.(in Chinese)
[4]Taylor P,Black A W.Assigning phrase breaks from part-of-speech sequences[J].Computer Speech & Language,1998,12(2):99-117.
[5]Li Jian-feng,Hu Guo-ping,Wang Ren-hua.Prosody phrase break prediction based on maximum entropy model[J].Journal of Chinese Information Processing, 2004,18(5):56-63.(in Chinese)
[6]Wang Yong-xin,Cai Lian-hong.Syntactic information and analysis and prediction of prosody structure[J].Journal of Chinese Information Processing, 2010,24 (1):65-70.(in Chinese)
[7]Cao Jian-fen.The linguistic and phonetic clues in Chinese prosodic segmentation[C]∥Proc of the 5th National Conference on Modern Phonetics(PCC’2001),2001,:176-179.(in Chinese)
[8]Li Xiang.Application and research of Boosting classification algorithm[D].Lanzhou:Lanzhou Jiaotong University,2012.(in Chinese)
[9]Schapire R E.The strength of weak learnability[J].Machine Learning,1990,52:197-227.
[10]Freund Y.Boosting a weak learning algorithm by majority[J].Information and Computation,1995,121(2):256-285.
[11]Freund Y,Schapire R E.A decision-theoretic generalization of on-line learning and an application to boosting[J].Journal of Computer and System Sciences,1997,55(1):119-139.
[12]Zhou Qiang,Zhan Wei-dong,Ren Hai-bo.Building a large scale Chinese functional chunk bank [C]∥Proc of the 6th National Conference on Computational Linguistics (JSCL’2001),2001:102-107.(in Chinese)
[13]Zhou Qiang,Li Yu-mei.Chinese chunk parsing evaluation tasks[J].Journal of Chinese Information Processing, 2010,24(1):123-128.(in Chinese)
[14]Li Su-jian,Liu Qun.Research on definition and acquisition of chunk[C]∥Proc of the 7th National Conference on Computational Linguistics (JSCL’2003),2003:110-115.(in Chinese)
[15]Qian Yi-li,Feng Zhi-ru.Identification of Chinese prosodic phrase based on chunk and CRF[J].Journal of Chinese Information Processing, 2014,28(5):32-38.(in Chinese)
[16]Zhang Chun-xia.Research on the algorithm of ensemble learning[D].Xi’an:Xi’an Jiaotong University,2010.(in Chinese)
[1]曹劍芬.基于語法信息的漢語韻律結(jié)構(gòu)預(yù)測[J].中文信息學(xué)報,2003,17(3):41-46.
[2]荀恩東,錢揖麗,郭慶,等.應(yīng)用二叉樹剪枝識別韻律短語邊界[J].中文信息學(xué)報,2006,20(3):1-5.
[3]錢揖麗,荀恩東.基于標點信息和統(tǒng)計語言模型的語音停頓預(yù)測[J].模式識別與人工智能,2008,21(4):541-545.
[5]李劍鋒,胡國平,王仁華.基于最大熵模型的韻律短語邊界預(yù)測[J].中文信息學(xué)報,2004,18(5):56-63.
[6]王永鑫,蔡蓮紅.語法信息與韻律結(jié)構(gòu)的分析與預(yù)測[J].中文信息學(xué)報,2010,24 (1):65-70.
[7]曹劍芬.漢語韻律切分的語音學(xué)和語言學(xué)線索[C]∥新世紀的現(xiàn)代語音學(xué)—第五屆全國現(xiàn)代語音學(xué)學(xué)術(shù)會議,2001:176-179.
[8]李想.Boosting分類算法的應(yīng)用與研究[D].蘭州:蘭州交通大學(xué),2012.
[12]周強,李玉梅.漢語塊分析評測任務(wù)設(shè)計[J].中文信息學(xué)報,2010,24 (1):123-128.
[13]周強,詹衛(wèi)東,任海波.構(gòu)建大規(guī)模的漢語語塊庫[C]∥自然
語言理解與機器翻譯—全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議,2001:102-107.
[14]李素建,劉群.漢語組塊的定義和獲取[C]∥語言計算與基于內(nèi)容的文本處理—全國第七屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議,2003:110-115.
[15]錢揖麗,馮志茹.基于語塊和條件隨機場(CRFs)的韻律短語識別[J].中文信息學(xué)報,2014,28(5):32-38.
[16]張春霞.集成學(xué)習(xí)中有關(guān)算法的研究[D].西安:西安交通大學(xué),2010.
錢揖麗(1977-),女,山西平遙人,博士,副教授,CCF會員(E200022706M),研究方向為自然語言處理。E-mail:qyl@sxu.edu.cn
QIAN Yi-li,born in 1977,PhD,associate professor,CCF member(E200022706M),her research interest includes natural language processing.
馮志茹(1988-),女,山西代縣人,碩士,研究方向為自然語言處理。E-mail:fengzhiru0321@126.com
FENG Zhi-ru,born in 1988,MS,her research interest includes natural language processing.
Recognition of Chinese prosodic phrasesbased on AdaBoost-SVM algorithm and chunk information
QIAN Yi-li1,2,FENG Zhi-ru1
(1.School of Computer & Information Technology,Shanxi University,Taiyuan 030006;
2.Key Laboratory of Computational Intelligence and
Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China)
Abstract:We propose a recognition method for Chinese prosodic phrases based on Chunk and the AdaBoost-SVM algorithm. Firstly, the initial chunks are marked on the corpus of automatic word segmentation and the part of speech tagging, and then they are merged using the rules based on the closeness between initial Chunks. Secondly, based on the block structure and the AdaBoost-SVM integrated algorithm, a Chinese prosodic phrase recognition model is constructed. Meanwhile we utilize various algorithms to build different models which use or not use Chunk information. Comparative experimental results show that the shallow syntactic information chunks make a positive and effective contribution to Chinese prosodic phrase recognition, and the performance of the AdaBoost-SVM model is better.
Key words:Chinese chunk;AdaBoost-SVM;prosodic phrase;recognition
作者簡介:
doi:10.3969/j.issn.1007-130X.2015.12.020
中圖分類號:TP391.43
文獻標志碼:A
基金項目:國家自然科學(xué)基金資助項目(61175067);國家自然科學(xué)青年基金資助項目(61005053,61100138);山西省科技基礎(chǔ)條件平臺建設(shè)項目(2015091001-0102);山西省青年科技研究基金資助項目(2012021012-1);山西省回國留學(xué)人員科研資助項目(2013-022)
收稿日期:修回日期:2015-10-19
文章編號:1007-130X(2015)12-2324-07