国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

最大熵和條件隨機場模型相融合的藏文人名識別

2014-02-27 05:51加羊吉李亞超宗成慶于洪志
中文信息學報 2014年1期
關鍵詞:藏族人藏文音節(jié)

加羊吉,李亞超,宗成慶,于洪志

(1. 西北民族大學 中國民族語言文字信息技術重點實驗室,甘肅 蘭州 730030;2. 中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190)

1 引言

命名實體識別是自然語言處理領域研究的基礎問題,是信息檢索、機器翻譯、問答系統(tǒng)等應用系統(tǒng)的基礎,其主要任務是識別文本中的人名、地名、組織機構名、時間表達式和數(shù)量表達式等實體名稱。命名實體識別有較大的難度,其識別效果會直接影響到分詞的準確率和相關系統(tǒng)的性能。人名是命名實體中的一種,也是藏文命名實體中識別較困難的一種。本文介紹一種藏文人名識別的新方法。

與漢語人名不同的是,藏文人名與上下文構成詞的可能性較小,但是,普通詞作為人名用詞的現(xiàn)象非常嚴重。我們通過分析藏文語料發(fā)現(xiàn),藏文人名用詞和上下文用詞較為廣泛,但是仍有規(guī)律可循。本文提到的藏文人名包括藏族人名和譯名(主要包括漢族人名和音譯名以及外國人名的音譯名)。

藏文人名識別的主要困難可以歸納為如下幾點。

1) 藏文文本中的每個音節(jié)之間以音節(jié)點分開,詞與詞之間沒有間隔或其他邊界標識,因此,做人名識別工作之前,首先需要對語料進行分詞。

2) 藏文人名本身沒有明顯的形態(tài)特征,與英語等西方語言不同,無法根據(jù)首字母大寫等特征進行區(qū)分。

5) 缺乏人名詞典等相關資源。

目前人名識別的方法粗略地講主要有基于規(guī)則的方法和基于統(tǒng)計的方法,國內外很多學者主要針對中文和英文等大語種中的人名識別問題做了大量工作。羅智勇等[2]從10萬條人名庫、2億字的真實語料庫中將姓名用字分了9類,并總結了21條識別規(guī)則。鄭家恒[3]等在大規(guī)模語料基礎上提取和分析了中文姓氏和名字用字的使用頻率,從而研究中文姓名識別的評價函數(shù)。最近幾年命名實體識別方法研究逐漸從規(guī)則方法轉向機器學習方法[4],李中國等[5]先利用邊界模板識別出可能的人名,然后應用上下文局部統(tǒng)計量及啟發(fā)式規(guī)則對識別結果進行邊界校正。張華平等[6]采取Viterbi算法對詞進行角色標注,提出了一種基于角色標注的中國人名自動識別方法。張素香等[7]利用人名的外表特征和內部顆粒特征,提出了基于條件隨機場的中國人名識別。毛婷婷等[8]提出了一種支持向量機(SVM)和概率統(tǒng)計模型相結合的中國人名自動識別方法。另外,還有最大熵和規(guī)則相結合的方法研究中文姓名識別[9-10],該方法得到了很高的召回率。

有關藏族人名的起名規(guī)律,尕藏卓瑪[11]做出了比較全面的分析,并較深入地探討了藏族人名的文化意義。羅智勇[12]等基于人名實例和語料庫,統(tǒng)計分析了人名用字特征及命名規(guī)則,實現(xiàn)了藏族人名漢譯名自動識別系統(tǒng)。

目前已有的方法[12]在中文語料中研究藏族人名,統(tǒng)計了“才”、“日”、“加”等人名高頻單字,最后提出一種基于可信度的藏族人名識別模型,并證實了藏族人名識別模塊對中文分詞系統(tǒng)的貢獻。我們認為,藏文人名從結構上看,它的構成單位是詞,包括單音節(jié)詞和雙音節(jié)詞。另外,藏文人名的邊界信息較豐富,而且較有規(guī)律可循。因此,我們以人名用詞特征、邊界信息為基礎研究藏文人名識別方法。

本文其余部分按如下方式組織: 第2節(jié)介紹藏文人名的構成特點;第3節(jié)介紹最大熵和條件隨機場相融合的藏文人名識別;第4節(jié)為實驗結果及錯誤分析;第5節(jié)為結論與展望。

2 藏文人名構成特點

2.1 起名規(guī)律

人名是區(qū)別人與人之間的一種符號,它具有豐富的語言、文化現(xiàn)象。藏族人名的起名方式較有規(guī)律,大致有[11]:

我們對《西藏日報》2007年1月的語料中出現(xiàn)的所有藏族人名進行了分析,其中91%的人名是以前三種方式起名的。

2.2 用詞特征

1) 藏文人名的構成單位是詞,包括單音節(jié)詞和雙音節(jié)詞。人名用詞集合比較分散,但音節(jié)數(shù)較有規(guī)律,多數(shù)以雙音節(jié)、三音節(jié)和四音節(jié)為主。在《西藏日報》2007年1月的語料中,雙音節(jié)、三音節(jié)和四音節(jié)的人名約占人名總數(shù)的95%,其中雙音節(jié)人名識別更為重要。大部分三音節(jié)和四音節(jié)人名是在雙音節(jié)人名的基礎上添加單音節(jié)或一個詞構成的,因此,雙音節(jié)人名是藏文人名庫的重要組成部分,

3) 人名位置相對固定,一般可以出現(xiàn)在句首或句中,但不能出現(xiàn)在句尾。藏語是屬于SOV型語序結構,在一個完整的藏語句子中,謂語動詞始終位于句子的結尾部分。因此在包含人名的藏語句子中,句尾同樣是動詞或助動詞。

例如,

2.3 邊界信息

我們從《西藏日報》2007年1月的語料(約3.5MB)中抽取了1 403個人名,其中,藏族人名有995個,譯名有408個。例如,包含人名的句子:

表1 左邊界頻度實例

表2 右邊界頻度實例

其中,表1中的SNR代表人名出現(xiàn)在句首,即左邊界為空。表2中的“”表示語料中出現(xiàn)的5個作格助詞,頻度分別是(140)、(88)、(76)、(61)、(18);“”表示5個屬格助詞,頻度分別是(13)、(13)、(9)、(7)、(3)。

對于藏文句子中包含人名的詞序列我們可以表示成如下形式: W-1W0W1,其中W0表示中心詞人名,W-1為人名左邊界詞,W1為人名右邊界詞。通常情況下,W-1可為空,當W-1為空時,W-1=SNR,表示句首是人名。

3 最大熵和條件隨機場相融合的藏文人名識別

3.1 最大熵原理

最大熵模型最初由E.T.Jaynes在1950年提出,Della Pietra等人于1992年首次將其應用于自然語言處理模型中,最大熵原理的基本思想是,首先利用給定的訓練樣本,選擇一個與訓練樣本一致的概率分布,它必須要滿足所有已知的事實。在沒有更多的約束和假設的情況下,對于那些不確定的部分,則會賦予均勻的概率分布。熵是用來表示隨機變量的不確定性,不確定性越大,熵越大,分布越均勻。

最大熵模型:

其中H(P)是模型P的熵,C是滿足條件約束的模型集合,下面需要尋求P*,P*的形式如式(2)所示。

其中Z(x)是歸一化常數(shù),表示形式如式(3)所示。

其中λi為特征的權重參數(shù)。

3.2 條件隨機場原理

條件隨機場的模型是由Lafferty于2001年提出,是一種新的分類方法。它在觀測序列的基礎上對目標序列進行建模。定義O={O1,O2,...,OT}為被觀察的輸入數(shù)據(jù)序列,S={S1,S2,...,ST}為被預測的狀態(tài)序列,那么,在給定一個輸入數(shù)據(jù)序列的情況下,參數(shù)為Λ={λ1,λ2,...,λT}的線性鏈CRF,其輸出的狀態(tài)序列的條件概率為:

其中,fk(st-1,st,o,t)是一個任意的特征函數(shù),λk是對應于每個特征函數(shù)的權值,Z0是歸一化因子,定義為:

3.3 最大熵和條件隨機場模型相融合的藏文人名識別

自然語言處理中的很多問題都可被視為語言學上的分類問題,人名識別也是如此,針對語料中的每個候選詞,可以根據(jù)左右邊界詞的標注信息判斷是否為人名。

特征函數(shù)f(x,y)是二進制的函數(shù),是對所獲取的特征的一種表示方法。在藏文人名識別中,對于特征(xi,yi),定義特征函數(shù)如式(6)所示。

其中,y為人名實體結果輸出,表示在條件x下,中心詞W0是Y(是人名)還是N(不是人名),x是與y相對應的邊界特征信息。

3.3.1 特征描述

1) 邊界特征集

目標詞W0的左右邊界詞的窗口大小取為正負1,邊界特征是由左邊界特征和右邊界特征構成:

① 人名左邊界特征集: W-1在人名左邊界詞表(ZNR)中出現(xiàn),即znr(W-1)=true,則滿足左邊界特征,如式(7)所示。

②人名右邊界特征集: W1在人名右邊界詞表(YNR)中出現(xiàn),即ynr(W-1)=true,則滿足左邊界特征,如式(8)所示。

2) 模版特征集

結合W-1、W1信息,聯(lián)合起來作為邊界模板特征。

3) 人名詞典特征集

人名詞典是人名識別非常重要的資源之一,本文從《常見藏語人名地名詞典》中選擇2058個常用人名建立了藏文人名詞典。

4) 譯名用字特征集

3.3.2 特征提取

對于目標詞W0,當考慮其左右邊界窗口大小取±1時,可以抽取的信息有: 1)左邊界詞W-1,2)目標詞W0,3)右邊界詞W1。利用這些信息構建邊界、人名用詞模板,然后按照這些模板從訓練語料中提取大量的特征。

3.3.3 融合方法

由于最大熵模型本身特征選擇比較靈活,應用于不同領域時的可移植性較強、魯棒性高,因此,在實驗中一直保持較好的召回率;而條件隨機場能夠較好地解決最大熵模型的標注偏置等問題,從而大幅度地提高準確率。針對兩種模型的優(yōu)劣特點,我們提出了兩種模型相融合的識別方法,定義評價函數(shù)為:

Total=(λ×CRF)+((1-λ)×Maxent)

(9)

其中,λ表示權重,我們可以通過調節(jié)λ值的大小,從而取得最優(yōu)結果。CRF、Maxent分別表示用條件隨機場方法、最大熵方法測試人名識別的實驗結果。

我們從融合后的實驗數(shù)據(jù)看出,通過兩種模型相融合,可以達到取長補短的效果,能夠更有效地解決藏文人名識別問題。

4 實驗結果及錯誤分析

本文的實驗采用了《西藏日報》2007年1月的語料(大小約3.5MB)用作訓練語料,《西藏日報》2007年2月1日至20日的語料(大小約2.1MB)用作開放測試。測試中我們采取了三個評測指標:

(1) 準確率(Precision)

(10)

(2) 召回率(Recall)

(11)

(3)F測試值(F-measure)

(12)

在實驗中我們首先分別測試了最大熵方法和條件隨機場方法兩種情況下的藏文人名識別性能,實驗結果如表3、表4所示。

表3 識別結果(1)

從表4可以看出,用最大熵模型能夠有較好的召回率,但準確率相對偏低;利用條件隨機場模型的識別方法,可以到達很高的準確率,但是很多人名不能被召回,系統(tǒng)的召回率大幅度降低。

我們用式(9)的融合方法把兩種模型進行融合后的實驗結果如下。

表4 識別結果(2)

從表5可以看出,系統(tǒng)的準確率隨著λ的增大的逐漸提高,召回率沒有很明顯的規(guī)律。當λ取值為0.73時,準確率比條件隨機場提高0.15%;當λ取值為0.58時,召回率比最大熵提高0.39%;系統(tǒng)的F值以λ取0.61為基準在發(fā)生變化,當λ≤0.61時,F(xiàn)值隨著λ的增大而提高;當λ<0.61時,F(xiàn)值隨著λ的增大而降低。當λ取值為0.61時,系統(tǒng)的F值比最大熵提高1.53%,比條件隨機場提高了0.7%。實驗結果表明,我們提出的最大熵和條件隨機場模型相融合的藏文人名識別方法是很有效的。

在實驗中我們發(fā)現(xiàn)如下四類較典型的錯誤,如表5所示。

從表5中的典型錯誤可以看出,雖然我們的方法可以達到很好的識別效果,但是由于識別方法對人名詞典和邊界信息的依賴性較強,導致了表5中的前兩類錯誤。當出現(xiàn)與普通詞沖突、邊界特征不明顯等情況時,目前的方法尚難以處理,可能需要借助句法結構和更多的上下文信息,才能準確地認識。

5 結論與展望

本文從藏文人名本身的特性出發(fā),通過分析藏文人名的起名規(guī)律、人名用詞特征、邊界信息等特征, 提出了最大熵和條件隨機場模型相融合的藏文人名識別方法。該方法融合了最大熵和條件隨機場兩種方法的優(yōu)勢,提高了系統(tǒng)的性能。另外,我們建立了邊界詞表、譯名詞表等用于輔助實現(xiàn)藏文人名的自動識別。實驗結果表明,本文提出的方法能夠達到較好的識別效果。

表5 錯誤分析

根據(jù)實驗分析, 目前的藏文人名識別上存在數(shù)據(jù)稀疏、人名用詞與普通詞沖突等問題,因此,我們將在下一步的研究中進一步提高語料質量,擴大訓練語料的規(guī)模,同時優(yōu)化邊界信息庫、擴充特征模板,并試驗其他可能的識別模型,如支持向量機(SVM)等,進一步提高人名識別的準確率。

[1] 王貴.藏族人名研究[M].北京: 民族出版社,1991: 20.

[2] 羅智勇,宋柔.現(xiàn)代漢語自動分詞中專名的一體化、快速識別方法[C]//Ji Dong-Hong,國際中文電腦學術會議,新加坡, 2001: 323-328.

[3] 鄭家恒,李鑫,譚紅葉.基于語料庫的中文姓名識別方法研究[J].中文信息學報,2000,14(1): 7-12.

[4] 宗成慶,統(tǒng)計自然語言處理[M].清華大學出版社,2008: 122.

[5] 李中國,劉穎.邊界模板與局部統(tǒng)計相結合的中國人名識別[J].中文信息學報,2006,20(5): 44-50.

[6] 張華平,劉群.基于角色標注的中國人名自動識別研究[J].計算機學報,2004,27(1): 44-50.

[7] 張素香,高國洋,戚銀城.基于條件隨機場的中國人名識別方法[J].鄭州大學學報(理學版),2009,41(2): 40-43.

[8] 毛婷婷,李麗雙,黃德根.基于混合模型的中國人名自動識別[J].中文信息學報,2007,21(2): 22-28.

[9] 錢晶,張玥杰,張濤.基于最大熵的漢語人名地名研究[J].小型微型計算機系統(tǒng),2006,27(9): 1701-1765.

[10] 賈寧,張全.基于最大熵模型和規(guī)則的中文姓名識別[J].計算機工程與應用,2007,43(45): 1-4.

[11] 尕藏卓瑪.淺談藏族人名的文化含義及其翻譯原則[J].西北民族大學學報(哲學社會科學版),2008,5: 113-116.

[12] 羅智勇,宋柔,朱小杰.藏族人名漢譯名識別研究[J].情報學報,2009,28(3): 478-480.

猜你喜歡
藏族人藏文音節(jié)
敦煌本藏文算書九九表再探
r(re)音節(jié)單詞的拼讀規(guī)則
到拉薩途中
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
拼拼 讀讀 寫寫
黑水城和額濟納出土藏文文獻簡介
基于條件隨機場的藏文人名識別研究
看音節(jié)說句子
藏族人為何能適應缺氧環(huán)境?
藏族人為何能適應缺氧環(huán)境?
望城县| 彭山县| 旺苍县| 大冶市| 和顺县| 波密县| 龙南县| 隆子县| 大石桥市| 娄底市| 兴和县| 沂水县| 浏阳市| 扶沟县| 云浮市| 白玉县| 松滋市| 武鸣县| 长岛县| 洛宁县| 光泽县| 丰城市| 平泉县| 辰溪县| 高淳县| 东丽区| 鹰潭市| 喀什市| 老河口市| 祁阳县| 东宁县| 峨眉山市| 高唐县| 克拉玛依市| 玛纳斯县| 临江市| 永康市| 横峰县| 莱芜市| 神池县| 成安县|