国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MEM和HMM的中文詞性標(biāo)注方法*

2020-09-14 08:15:22莫禮平胡美琪李航程
關(guān)鍵詞:概率分布概率狀態(tài)

周 潭,莫禮平,胡美琪,李航程

(吉首大學(xué)信息科學(xué)與工程學(xué)院,湖南 吉首 416000)

詞性標(biāo)注(Par-of-Speech Tagging,POS Tagging)就是賦予每個(gè)詞語(yǔ)一個(gè)正確候選詞性的過(guò)程,它是自然語(yǔ)言信息處理研究的重要內(nèi)容.2015年,梁喜濤等[1]對(duì)現(xiàn)有詞性標(biāo)注方法進(jìn)行了分析整理,將傳統(tǒng)的詞性標(biāo)注方法歸納為3類:(1)基于規(guī)則的方法.該類方法簡(jiǎn)單,易于實(shí)現(xiàn),但構(gòu)造規(guī)則是一項(xiàng)非常艱難的任務(wù).(2)基于統(tǒng)計(jì)的方法.該類方法客觀性強(qiáng),準(zhǔn)確性較高,但需要處理兼類詞和未登錄詞的問(wèn)題.基于最大熵模型(Maximum Entropy Model,MEM)和隱馬爾科夫模型(Hidden Markov Model,HMM)的詞性標(biāo)注方法是統(tǒng)計(jì)類方法的典型代表,因其能夠獲得一致性很好且覆蓋率較高的標(biāo)注結(jié)果而被廣泛關(guān)注[2].(3)基于規(guī)則和統(tǒng)計(jì)的方法.該類方法有效地利用了規(guī)則類方法和統(tǒng)計(jì)類方法的優(yōu)勢(shì),但標(biāo)注效果依賴于建立的規(guī)則或人工的選取特征,且與任務(wù)領(lǐng)域的資源有很大的相關(guān)性,一旦領(lǐng)域變化,標(biāo)注效果就會(huì)受較大影響.因此,筆者將對(duì)基于MEM和HMM的中文詞性標(biāo)注方法進(jìn)行理論分析和對(duì)比實(shí)驗(yàn).

1 基于MEM的中文詞性標(biāo)注方法

1.1 MEM理論

在熱力學(xué)中,熵是大量微觀粒子的位置和速度的分布概率的函數(shù),用“熱熵”表示分子狀態(tài)混亂程度.1948年,Shannon[3]借鑒熱力學(xué)的概念提出“信息熵”的概念.為了描述信源的不確定度,Shannon將信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式.通常,一種信息源的不確定性越大,其信息熵就越高;反之,其信息熵就越低.1957年,Jaynes[4]提出了基于概率統(tǒng)計(jì)的最大熵方法.最大熵方法通過(guò)將各種不同來(lái)源的信息知識(shí)聚集在一個(gè)框架下面,用以解決一些復(fù)雜的問(wèn)題.1992年,Della 等[5]首次將最大熵方法應(yīng)用于自然語(yǔ)言處理.經(jīng)過(guò)近30年的發(fā)展,基于MEM的自然語(yǔ)言處理技術(shù)取得了令人矚目的成果.

最大熵方法的本質(zhì)就是從滿足約束的模型中選擇熵值最大的.利用MEM需要解決特征選擇和模型選擇這2個(gè)基本問(wèn)題:特征選擇就是選擇一個(gè)能表達(dá)這個(gè)隨機(jī)過(guò)程的統(tǒng)計(jì)特征的集合;模型選擇就是參數(shù)估計(jì)或模型估計(jì),為入選的特征集合估計(jì)權(quán)重.假設(shè)現(xiàn)有n個(gè)特征,約束的集合定義為

(1)

最大熵方法就是求解滿足約束(1)的模型.這樣模型可能不只1個(gè),所以需要找到一個(gè)最均勻分布的概率模型.概率模型的均勻性可以用如下的條件熵來(lái)衡量:

(2)

1.2 MEM在中文詞性標(biāo)注中的應(yīng)用

最大熵方法應(yīng)用于中文詞性標(biāo)注,需要根據(jù)上下文信息確定約束條件,從而建立MEM.基于MEM的中文詞性標(biāo)注方法的重點(diǎn)是根據(jù)中文的特殊性進(jìn)行特征選取.當(dāng)某一現(xiàn)象出現(xiàn)多次時(shí),就認(rèn)為該現(xiàn)象不是偶然的,而是表現(xiàn)了數(shù)據(jù)某一方面的特征.因?yàn)槿斯みx取特征耗時(shí)耗力,所以一般是由機(jī)器自動(dòng)在訓(xùn)練數(shù)據(jù)中尋找這種特征.特征的選取一般分為2步[6]:第1步,利用特征模板從語(yǔ)料中獲取候選的特征;第2步,從候選特征集中選取特征.在國(guó)內(nèi)的詞性標(biāo)注研究中,大多采用基于詞的上下文特征.但漢語(yǔ)不同于英文,漢語(yǔ)的每個(gè)字一般都有其自身的意義,而英文的單個(gè)字母沒(méi)有具體意義,因此在對(duì)漢語(yǔ)進(jìn)行特征選擇時(shí)考慮字的編碼信息,會(huì)有助于有提高詞性標(biāo)注的準(zhǔn)確率[7].

現(xiàn)以對(duì)文本“把這次演講安排一下”中的“下”進(jìn)行詞性標(biāo)注為例,說(shuō)明如何將MEM應(yīng)用于中文詞性標(biāo)注中.首先,將文本標(biāo)注為“把/q-p-v-n這/t次/p演講/v-n安排/v-n一/m-c下/f-q-v”,其中每個(gè)詞后的字母代表該詞所可能具有的詞性.由該標(biāo)注序列可知,“下”在此句子中可能有f,q,v這3種詞性.用t1,t2,t3來(lái)表示這3種詞性,即t1=f,t2=q,t3=v,則根據(jù)“下”的3種詞性得到第1個(gè)約束條件:

P(t1)+P(t2)+P(t3)=1.

(3)

基于約束(3),即可找到詞“下”的詞性標(biāo)注的合適模型.但滿足約束(3)的模型可以有無(wú)限個(gè),例如,M1={P(t1)=0.5,P(t2)=0,P(t3)=0.5},M2={P(t1)=1,P(t2)=0,P(t3)=0}.模型M1和M2都只做了粗略假設(shè),沒(méi)有任何的經(jīng)驗(yàn)判斷.假設(shè)當(dāng)前詞語(yǔ)的詞性只有3種候選,那么最直觀的合適模型就是M3={P(t1)=1/3,P(t2)=1/3,P(t3)=1/3}.在模型M3中,3種可能詞性出現(xiàn)的概率相同,是均勻模型.同時(shí)注意到,在訓(xùn)練樣例中90%的“一下”中的“下”的詞性為t2.據(jù)此可得第2個(gè)約束條件:P(t2)=0.9.此時(shí),還有許多的概率分布都能同時(shí)滿足上述2個(gè)約束條件.在沒(méi)有其他約束條件下,合理的選擇仍然是概率分布最均勻的模型.即在滿足上述2個(gè)約束的同時(shí),盡可能平均分配它的概率分布:P(t1)=0.05,P(t3)=0.05,P(t2)=0.9.

2 基于HMM的中文詞性標(biāo)注方法

2.1 HMM理論

基于統(tǒng)計(jì)的方法是最常使用的一類詞性標(biāo)注算法.對(duì)于給定的輸入詞串,基于統(tǒng)計(jì)的方法先確定其所有可能的詞性串,再對(duì)它們打分,選擇得分最高的詞性串作為最佳的輸出結(jié)果.在所有基于統(tǒng)計(jì)的方法中,基于HMM的詞性標(biāo)注算法最常見(jiàn)[8].目前,HMM已應(yīng)用于各種語(yǔ)言的詞性標(biāo)注并取得極高的標(biāo)注準(zhǔn)確率,基于HMM的中文詞性標(biāo)注方法研究也受到人們的重視.HMM是在離散馬爾科夫過(guò)程的基礎(chǔ)上改進(jìn)的.它包含2個(gè)隨機(jī)過(guò)程,一個(gè)是已知的觀察序列,另一個(gè)是隱含的狀態(tài)轉(zhuǎn)移序列.狀態(tài)轉(zhuǎn)移序列是不可觀測(cè)的,需要通過(guò)觀察序列來(lái)推斷[9].

為了理解HMM,先看一個(gè)實(shí)例:缸和球的實(shí)驗(yàn).設(shè)有N個(gè)缸,M種不同顏色的球,每一個(gè)缸都裝有很多不同顏色的球,球的顏色由一組概率分布描述.首先,根據(jù)某種隨機(jī)過(guò)程選擇N個(gè)缸中的某個(gè)缸,記為Z1,再根據(jù)這個(gè)缸中球的顏色概率分布,隨機(jī)選擇一個(gè)球,記該球的顏色為O1,并將球放回缸中;然后,根據(jù)缸的狀態(tài)轉(zhuǎn)移概率分布,隨機(jī)選擇下一個(gè)缸,記為Z2,再根據(jù)該缸中球的顏色的概率分布,隨機(jī)選擇一個(gè)球,記該球的顏色為O2,并將球放回缸中……如此循環(huán),一共進(jìn)行T次實(shí)驗(yàn),得到缸的選取序列Z=(Z1,Z2,…,ZT)和球的顏色序列O=(O1,O2,…,OT).稱可以直接觀察到的球的顏色序列為觀察序列,稱在后臺(tái)進(jìn)行的缸的選取序列為隱藏狀態(tài)序列.通常,HMM可用一個(gè)五元組λ=(N,M,A,B,π)來(lái)表示[9]:(1)N表示模型中隱含狀態(tài)的數(shù)目.用T表示狀態(tài)的集合,T={T1,T2,…,TN},t時(shí)刻的狀態(tài)為T(mén)j,1≤j≤N.(2)M表示模型中觀察值的數(shù)目.用o表示觀察值的集合,o={o1,o2,…,oM},t時(shí)刻的觀察值為ok,1≤k≤M.(3)A表示狀態(tài)轉(zhuǎn)移概率矩陣.A=(aij),其中aij=P(qt=Tj|qt-1=Ti),1≤i≤N,1≤j≤N,表示狀態(tài)從Ti轉(zhuǎn)移到狀態(tài)Tj的概率.(4)B表示符號(hào)的發(fā)射概率矩陣,它描述了HMM模型中每個(gè)狀態(tài)下出現(xiàn)各個(gè)觀察值的概率.B=(bjk),其中bjk=P(xt=ok|qt=Tj),1≤j≤N,1≤k≤M,表示在t時(shí)刻、狀態(tài)Tj時(shí)觀察值為ok的概率.(5)π表示初始狀態(tài)概率向量.π=(πj),其中πj=P(q1=Tj),1≤j≤N,表示在初始時(shí)刻(t=1)、狀態(tài)為T(mén)j時(shí)的概率.

2.2 HMM在中文詞性標(biāo)注中的應(yīng)用

HMM可以用來(lái)解決3個(gè)基本問(wèn)題:第1個(gè)問(wèn)題是評(píng)估問(wèn)題,即根據(jù)給定的HMM求解一個(gè)觀察序列的概率,可用向前算法求解此類問(wèn)題;第2個(gè)問(wèn)題是解碼問(wèn)題,即求解生成一個(gè)觀察序列的最優(yōu)隱藏狀態(tài)序列,可用Viterbi算法求解此類問(wèn)題;第3個(gè)問(wèn)題是學(xué)習(xí)問(wèn)題,即已知觀察序列O,求解HMM的參數(shù),可用向前向后算法求解此類問(wèn)題.

詞性標(biāo)注問(wèn)題實(shí)際上就是解碼問(wèn)題.將HMM應(yīng)用于詞性標(biāo)注,那么在五元組λ=(N,M,A,B,π)中:N為詞性的數(shù)目;M為詞匯的數(shù)目;A為詞性狀態(tài)轉(zhuǎn)移概率矩陣,aij表示詞性從Ti轉(zhuǎn)移到Tj的概率;B為詞匯的發(fā)射概率矩陣,bjk表示詞性標(biāo)注為T(mén)j的情況下輸出詞匯ok的概率;π為初始狀態(tài)概率分布,πj表示初始狀態(tài)詞性為T(mén)j的概率[10].HMM五元組中的參數(shù)N和M易求,故只要計(jì)算出A,B,π這3個(gè)參數(shù)值,就可利用Viterbi算法來(lái)找出最優(yōu)的詞性序列.

3 實(shí)驗(yàn)與結(jié)果

本實(shí)驗(yàn)采用Python語(yǔ)言編程實(shí)現(xiàn)基于MEM和HMM的中文詞性標(biāo)注算法,并在Inter(R) Core(TM) i5-3470 CPU @3.20 GHz、4 G內(nèi)存、Win10操作系統(tǒng)條件下進(jìn)行實(shí)驗(yàn).采用北京大學(xué)加工整理的《人民日?qǐng)?bào)》1998年1月份的新聞?wù)Z料作為訓(xùn)練集和測(cè)試集.為了測(cè)試2個(gè)模型的實(shí)際標(biāo)注效果,從訓(xùn)練的語(yǔ)料庫(kù)中隨機(jī)選取1 000行語(yǔ)料作為測(cè)試樣本1,隨機(jī)選取2 000行語(yǔ)料作為測(cè)試樣本2.2個(gè)模型的詞性標(biāo)注準(zhǔn)確率、召回率和F1這3個(gè)性能指標(biāo)的比較見(jiàn)表1.

表1 2個(gè)模型的中文詞性標(biāo)注的實(shí)驗(yàn)結(jié)果Table 1 Experimental Results of Chinese Part-of-Speech Tagging Based on Two Models %

由表1可知,2個(gè)模型的中文詞性標(biāo)注都獲得了一致性很好且覆蓋率較高的標(biāo)注效果,準(zhǔn)確率、召回率和F1這3個(gè)指標(biāo)都達(dá)到92%以上.MEM的標(biāo)注效果總體上比HMM的稍佳,這與其靈活的特征機(jī)制有利于在詞性標(biāo)注的過(guò)程中更有效地利用上下文的信息有關(guān).

4 結(jié)語(yǔ)

MEM和HMM是詞性標(biāo)注領(lǐng)域研究較多且應(yīng)用較廣的2個(gè)統(tǒng)計(jì)模型.基于MEM和HMM的中文詞性標(biāo)注方法具有更客觀、適應(yīng)性強(qiáng)和耗費(fèi)資源少的優(yōu)點(diǎn),且可以通過(guò)訓(xùn)練更大規(guī)模的語(yǔ)料庫(kù)來(lái)解決數(shù)據(jù)稀疏的問(wèn)題.筆者分析了MEM和HMM所涉及理論、算法,并通過(guò)實(shí)驗(yàn)驗(yàn)證了2個(gè)模型用于中文詞性標(biāo)注的有效性,對(duì)于幫助人們更好地理解和掌握中文信息處理技術(shù)相關(guān)理論與方法具有一定的實(shí)用價(jià)值.接下來(lái),筆者將利用MEM和HMM模型的優(yōu)越性,嘗試結(jié)合新型神經(jīng)網(wǎng)絡(luò)和智能優(yōu)化算法對(duì)統(tǒng)計(jì)類中文詞性標(biāo)注算法進(jìn)行改進(jìn).

猜你喜歡
概率分布概率狀態(tài)
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
概率與統(tǒng)計(jì)(一)
概率與統(tǒng)計(jì)(二)
離散型概率分布的ORB圖像特征點(diǎn)誤匹配剔除算法
狀態(tài)聯(lián)想
生命的另一種狀態(tài)
關(guān)于概率分布函數(shù)定義的辨析
科技視界(2016年19期)2017-05-18 10:18:46
基于概率分布的PPP項(xiàng)目風(fēng)險(xiǎn)承擔(dān)支出測(cè)算
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
西丰县| 海城市| 开鲁县| 上蔡县| 法库县| 嘉鱼县| 峨山| 年辖:市辖区| 宜兰市| 成武县| 定西市| 哈尔滨市| 保康县| 荔浦县| 陆良县| 淳化县| 定安县| 德庆县| 旺苍县| 肇庆市| 武隆县| 方城县| 孟州市| 开化县| 汉沽区| 积石山| 英德市| 定兴县| 茂名市| 汾西县| 岳阳县| 原平市| 双流县| 乌鲁木齐市| 寿阳县| 商丘市| 关岭| 姜堰市| 鞍山市| 莲花县| 苏尼特右旗|