国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CRFs的哈薩克語名詞短語自動獲取

2016-01-19 02:52孫瑞娜a新疆財經(jīng)大學a統(tǒng)計與信息學院社會經(jīng)濟統(tǒng)計研究中心烏魯木齊830012
圖書館理論與實踐 2015年8期
關鍵詞:哈薩克語互信息

●孫瑞娜a,b(新疆財經(jīng)大學a.統(tǒng)計與信息學院,b.社會經(jīng)濟統(tǒng)計研究中心,烏魯木齊 830012)

基于CRFs的哈薩克語名詞短語自動獲取

●孫瑞娜a,b(新疆財經(jīng)大學a.統(tǒng)計與信息學院,b.社會經(jīng)濟統(tǒng)計研究中心,烏魯木齊830012)

[關鍵詞]哈薩克語;名詞短語;互信息;條件隨機場

[摘要]基于哈薩克語文本語料特點,分析名詞短語構成規(guī)則,結合互信息(MI)知識,建立了哈薩克語名詞短語特征模板,利用條件隨機場(CRF)模型實現(xiàn)哈薩克語名詞短語自動獲取。實驗表明,哈薩克語名詞短語獲取正確率達到95.2%,獲取性能高于基于規(guī)則、基于規(guī)則與互信息結合的抽取方法。

隨著web2.0的迅速發(fā)展,互聯(lián)網(wǎng)成為民眾獲取信息的重要來源,同時也是人們傳播信息和表達觀點的重要渠道。民眾通過網(wǎng)絡平臺對國家政策或突發(fā)事件發(fā)表意見,及時對這些評論信息進行有效處理分析,可以幫助決策者了解社情民意。

網(wǎng)絡評論文本由句子組成,表示句子語義的主要成分是主語、謂語和賓語。在進行評論文本主題識別時,主語和賓語是識別文本主題的關鍵因素,而主語和賓語的用詞中名詞和名詞短語是語義表達的主題,也是評論文本主題識別研究中的一個重要特征。本文結合哈薩克語名詞短語構成規(guī)則,以互信息(MI)為工具,利用規(guī)則和條件隨機場(CRF)結合的方法,針對哈薩克語評論文本中名詞短語的自動獲取,輔助后期進行哈薩克語網(wǎng)絡輿情分析中web評論文本主題識別的研究工作。

1 需求及技術思路

1.1研究現(xiàn)狀

目前,英語、漢語等語言的信息處理在理論方法和具體應用上已經(jīng)有了大量研究成果。大多數(shù)學者對短語的識別都是在語料庫的基礎上進行的,有基于規(guī)則、統(tǒng)計、規(guī)則和統(tǒng)計集成三種識別方法。Church[1]較早展開了英語名詞短語的識別,將英語的基本名詞短語識別問題轉換為和詞性標記同構的問題,并利用基于詞性標記N元同現(xiàn)的統(tǒng)計最優(yōu)法來實現(xiàn)識別;文獻[2]在Church的研究基礎上,采用了基于轉換的錯誤驅(qū)動學習方法來解決基本名詞短語抽取問題,并得到了召回率88%的實驗結果;文獻[3]利用最大熵方法進行日語實體名詞抽??;文獻[4]利用基于韓語名詞短語左右邊界規(guī)則的方法,在語料庫中抽取名詞短語;文獻[5]結合基于支持向量機與基于條件隨機場的方法進行漢語最長名詞短語識別;文獻[6]結合語料特點,對“N1+N2”型結構的名詞短語進行特征分析;文獻[7]利用短語結構構成特征與清華樹庫語料短語特征混合方法,提高短語識別率。查閱近年來國內(nèi)外的重要文獻,哈薩克語在名詞短語自動獲取已經(jīng)有了前期的研究工作,但是識別的正確率與其他語言相比還較低。

哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,書寫方式是從左到右,語法結構理論上有四種排列,即SOV、SVO、OSV、OVS,通常用SOV(主+賓+謂)結構確定句子詞序和語類,這與漢語詞序有很大不同,并且哈薩克語是黏著語言類型,形態(tài)結構比漢語、英語復雜。同時,哈薩克文沒有像漢語、英語中建立好的語義網(wǎng),因此,對哈薩克語名詞短語的自動獲取與漢語、英語相比更困難。

1.2需求分析

哈薩克語名詞短語是一種重要的組塊類型,其自動獲取對文本語義理解、信息檢索、網(wǎng)絡輿情分析等領域都有重要意義。在對Web評論文本進行主題識別過程中,能否準確的獲取其中的名詞短語起著重要的

作用。雖然哈薩克語名詞短語自動獲取已經(jīng)有了前期的研究工作,如文獻[8]使用基于規(guī)則的方法進行了探討,封閉測試準確率為80%;文獻[9]等利用N-gram和互信息相結合的方法實現(xiàn)了哈薩克語名詞短語的抽取,封閉測試準確率82.5%,但是識別的正確率與其他語言相比還較低。因此,為避免名詞短語獲取的錯誤累積對后期網(wǎng)絡輿情分析中Web評論文本主題識別等研究工作的影響,需要進一步提高哈薩克語名詞短語獲取的正確率。

1.3技術思路

哈薩克語名詞短語自動獲取的具體實現(xiàn)思路如圖1所示。(1)將從網(wǎng)站獲取的哈薩克語版網(wǎng)頁中的評論文本,進行去噪處理,僅保留哈薩克語文本,按照哈薩克語句子結束的標點符號對文本進行自動分句。(2)采用新疆大學的哈薩克語詞干切分、詞綴提取及詞性標注系統(tǒng),將文本進行詞干切分及詞性標注,保存為XML文檔。(3)分析哈薩克語文本語料特點,歸納名詞短語構成規(guī)則,結合互信息知識,建立哈薩克語名詞短語特征模板,利用條件隨機場模型最終實現(xiàn)哈薩克語名詞短語的自動獲取。

圖1 技術思路

2 實現(xiàn)方案

2.1哈薩克語名詞短語自動獲取

正確判斷評論文本的傾向性,需要先確定文本的主題,而名詞短語是評論文本主題識別研究中的一個重要特征,高效的名稱短語自動獲取技術,能有效降低人工標注的工作量。本文通過分析哈薩克語文本語料特點,歸納名詞短語構成規(guī)則,將規(guī)則與CRFs模型相結合,并將互信息知識作為CRFs模型中的一個特征屬性,建立了哈薩克語名詞短語識別特征模板,實現(xiàn)哈薩克語名詞短語自動獲取。

(1)條件隨機場模型。條件隨機場(Conditional Random Field,CRF)是Lafferty等[10]提出的一種用于序列數(shù)據(jù)標注的條件概率模型。其原理是:給定的數(shù)據(jù)序列隨機變量X,標注結果序列隨機變量Y的條件概率分布P(Y|X),要求條件概率P(Y/X)最大。令x={x1,x2……xn}表示輸入的需要標注的觀察序列集,y={y1,y2……yn}表示標注序列集。在給定觀察序列條件下的標記序列的概率可以寫成:

其中,每個fk是觀察序列x中位置為i和i-1的輸出節(jié)點的特征;每個gk是位置為i的輸入節(jié)點和輸出節(jié)點的特征;λ和u是特征函數(shù)的權重;Z(x)是歸一化因子。對于輸入句子的詞語序列x,最佳名詞短語標注序列y滿足如下公式

CRFs建模時,能夠充分地利用上下文信息作為特征,特征選擇靈活,移植性強,獲取的信息豐富,廣泛應用于序列標注,詞性標注[11]、語塊識別[12]等問題,取得令人滿意的結果。

(2)基于CRFs的哈薩克語名詞短語的語法規(guī)律。在利用CRFs模型進行哈薩克語名詞短語獲取時,特征模板的選取是名稱短語獲取的關鍵,而CRFs模型特征模板的設計來源于語言的語法規(guī)律。因此,結合《現(xiàn)代哈薩克語實用語法》[13]知識,通過觀察大量名詞短語以及上下文后,總結出了哈薩克語名詞短語的一般規(guī)律。

①短語特征規(guī)律。哈薩克語的詞序與漢語詞序有很大不同,通常用SOV(主+賓+謂)結構確定句子詞序和語類,其最基本的短語規(guī)則為:Rule:IP→SI,S→KP VP,KP→NP K,VP→KP V。其中:S-句子,KP-格短語,NP-名詞性短語,VP-動詞性短語。例如:(我們學校明天開課)(我們的學校)是由代詞和名詞構成的名詞性短語NP(在漢語中是偏正短語),(我們的學校開課)是由名詞短語和動詞構成的動詞性短語VP(在漢語中是主謂短語),(明天開課)是由副詞和動詞構成的動詞性短語VP(在漢語中是偏正短語),因此哈語名詞短語獲取需要結合該短語結構特點。

②詞的構成特征規(guī)律。哈薩克語作為一種典型的黏著性語言,單詞是通過在詞干后按一定的順序連接各種詞綴(又稱構形附加成分)來構成的,如(在你們的班里)是由詞干(班)和附加成分構成的。這種特征規(guī)則可以有效識別哈薩克語的名詞短語,因此,本文歸納了對識別名詞短語有幫助的部分名詞構形附

加成分,并將其作為CRFs模型的一個特征屬性。部分名詞構形附加成分見表1。

表1 名詞構形附加成分

③名詞搭配結構規(guī)律。哈薩克語的名詞短語,中心詞多為名詞。該規(guī)律可以分為五種搭配結構。第一種,名詞和名詞搭配,如:新疆日報;第二種,數(shù)量詞和名詞搭配,如:一首詩歌;第三種,動詞和名詞搭配,如:要講的話;第四種,形容詞和名詞搭配,如:明亮眼睛;第五種,以副詞與形容詞修飾,中心詞為名詞的搭配,如:非常困難的任務。因此,該規(guī)律能夠作為名詞短語發(fā)現(xiàn)的特征在CRFs模型中使用。

④連接詞所連接的并列結構規(guī)律。以連接詞所連接的并列結構多為名詞短語,如:連接詞所連接的形容詞結構高而且美觀;連接詞所連接的名詞結構:新疆和甘肅。該規(guī)律可以作為名詞短語獲取特征。

(3)特征模板定義。依據(jù)對哈薩克語語料中名詞短語特征的分析,本文選擇了常用的特征:詞(word)、詞性(pos)、構形附加成分(affix)、互信息(MI)來進行CRFs模型的模板定義。

互信息是用來度量一個集合中兩個事件之間的相互依賴程度的信息度量單位,二元互信息是兩個事件的概率的函數(shù),公式如下

c(x,y)指語料中,詞x和詞y的共同出現(xiàn)的頻率,c(x)指詞x在語料庫中出現(xiàn)的頻率。通過對c(x, y)和c(x)的統(tǒng)計,利用互信息公式(4)計算詞與詞之間的互信息。如果詞x和詞y結合非常緊密,互信息就越大,反之越小。通過互信息特征可以判斷該類字串組是否可以拆分標記。

結合哈薩克語名詞短語的規(guī)律,制定了實驗中使用基于CRFs的四類特征模板。在詞序選擇上,重點考慮當前詞以及其前后兩個詞內(nèi)的詞序列,即當前詞word(0)、當前詞前1個詞word(-1),當前詞后1個詞word(1),當前詞前第2個詞word(-2),當前詞后第2個詞word(2),具體設計見表2。

表2 特征模板示例

①詞性搭配特征模板。名詞短語與其詞語的詞性特征高度相關,可以得到特征模板:當前詞詞性與其相關的前后詞的詞性。如特征模板pos(-1)pos (0),pos(0)pos(1),pos(-1)pos(1);當前詞詞性與其前后各1個詞詞性pos(-1)pos(0)pos(1);當前詞詞性與其前1,2個詞詞性、與后面1,2個詞詞性pos(-2)pos(-1)pos(0);pos(0)pos(1)pos(2)。

②詞和詞性搭配特征模板。以當前詞為中心,抽取與其相關的前后詞及詞性。如當前詞與其前后各1個詞的詞性pos(0)word(0)pos(1);當前詞與前1個詞詞性pos(-1)word(0)、當前詞與后1個詞的詞性,word(0)pos(1)等。

③詞性和構形附加成分搭配特征模板。哈薩克語詞的構形附加成分對名詞短語的識別有一定幫助,抽取當前詞性與前后詞的詞性及附加成分,可以得到特征模板,如:當前詞的詞性及附加成分、前1

詞的詞性pos(-1)pos(0)affix(0);當前詞的詞性、后1詞的詞性及附加成分pos(0)pos(1)affix(1);當前詞的詞性、前1詞的詞性及附加成分affix(-1)pos(-1)pos(0)等。

④詞和詞之間的MI值搭配特征模板。詞和詞之間的MI值可以衡量詞和詞結合的緊密程度,能判斷該字串組是否可以拆分標記為名詞短語,為此定義特征模板為:當前詞與前1詞及二者的MI值MI(-1)word(-1)word(0);當前詞與后1詞及二者的MI值word(0)word(1)MI(1)。

3 系統(tǒng)實現(xiàn)

采用C#語言,改寫CRF工具包,整理語料進行哈薩克語名詞短語的抽取。系統(tǒng)主要包括三個模塊。

(1)語料預處理模塊。進行名詞短語識別前需要先對識別文件進行預處理工作,將語料組織成符合識別模塊接口標準的形式。將從網(wǎng)站獲取的哈薩克語版網(wǎng)頁中的評論文本,進行去噪處理,僅保留哈薩克語文本,按照哈薩克語句子結束的標點符號對文本進行自動分句。采用新疆大學的哈薩克語詞干切分及詞性標注系統(tǒng),將文本進行詞干切分、詞綴的提取及詞性標注,保存為XML文件,具體格式見圖2。

圖2 XML文件

(2)訓練模塊。通過定義的四類特征模板對語料庫文本進行特征抽取,建立特征集,利用CRFs模型對特征集合進行訓練,計算特征權值并進行保存。

(3)識別模塊。識別模塊的主要任務是對一條待識別名詞短語的哈語句子,給出對應的名詞短語標注序列,本實驗采用IB02的表示方法進行名詞短語抽取標識,將每個詞分為三類標記:“B”名詞短語首部、“I”名詞短語內(nèi)部、“O”名詞短語外部,對測試語料中的每個詞進行BIO標注,即輸出y∈{B,I,O}。識別結果見圖3。

4 應用效果評估

4.1實驗過程

實驗語料主要來自天山網(wǎng)、人民網(wǎng)的哈薩克文版以及一些大型的哈薩克文BBS網(wǎng)站,內(nèi)容涵蓋新聞、文學、生活等,充分保證了語料的多樣性。對網(wǎng)頁中的文本進行去噪處理,僅保留哈薩克語文本,將獲取的335個評論文本,進行詞干切分、詞綴提取及詞性標注,保存為XML文檔,再利用文獻[8]基于規(guī)則的方式對語料文檔進行名詞短語標注,后期人工校正。

圖3 名詞短語識別結果

將整理后的語料分為訓練語料和測試語料進行名詞短語的抽取,實驗采用5倍交叉驗證的方法,即將語料分為相等的5份,其中4份作訓練語料,1份作測試語料進行名詞短語獲取實驗。首先在訓練模塊用訓練語料對CRFs模型進行訓練,然后在識別模塊自動標注測試語料中的名詞短語。CRFs的特征模板采用上表2所示的4類特征模板。

4.2實驗結果

對名詞短語識別的實驗結果進行評估時,有三個重要的評測指標,分別是正確率、召回率和F值,定義如下

其中a指名詞短語正確獲取的個數(shù),b指名詞短語錯誤獲取的個數(shù),d指未獲取的名詞短語個數(shù)。實驗結果見表3。

表3 實驗結果

從結果來看,實驗達到了較滿意的效果,目前獲取方法的正確率與漢語、英語等語言的名詞短語在封閉測試下自動獲取的正確率基本接近,達到了95.2%,但相比其他語言實驗結果獲取的召回率較低,尚需進一步提高。

4.3實驗比較

將文獻[8]、文獻[14]所進行的名詞短語識別的實驗過程重現(xiàn),進行封閉測試,并與本文中的實驗

結果進行比較,結果見表4。

表4 實驗數(shù)據(jù)比較

從表4可以看出,在使用相同語料的情況下,進行封閉測試,本實驗采用的規(guī)則和CRFs結合的方式,實驗結果的正確率高于基于規(guī)則方法,高于基于規(guī)則和互信息結合的方法,達到95.2%。

4.4實驗分析

從以上實驗結果來看,名詞短語獲取的方法是有效的,正確率提高到95.2%,但目前獲取方法的召回率較低,尚需進一步提高。對名詞短語獲取模型的錯誤結果進行分析,便于將來進一步改進。(1)在CRFs模型中,抽取所用的特征:詞性和構形附加成份,在目前語料庫加工中存在標注及切分的錯誤,對實驗有一定影響,后期需要修正語料庫錯誤。(2)在特征選擇上,后期還可以借助更豐富的信息,如結合語義等信息。(3)實驗所用的語料是需要人工校對,由于精力有限,使得名詞短語獲取的語料規(guī)模有限,這也使得統(tǒng)計不夠全面。

[參考文獻]

[1]ChruchKW.AStochasticPartsProgramand Noun Phrase for Unrestricted Test:proceedings of the 2nd Conference on Applied Natural Language Processing,Austin,TX [C].USA:Kluwer Academic Publicshers,1988:136-142.

[2]Ramshaw L,Marcus M.Text Chunking Using Transformation-Based Learning[C]//Proceedings of 3rd Workshopon Very Large Corpora.Massachusetts:Association forComputational Linguistics,1995:82-94.

[3]K Uehimoto,et al.Named entity extraction based on a maximum entropy model and transformation rules[C]//Proceedingsof the38th Annual Meeting ofthe AssociationforComputational Linguistics,2000:326-335.

[4]安帥飛,畢玉德.韓國語名詞短語結構特征分析及自動提取[J].中文信息學報,2013,27(5):205-210.

[5]錢小飛,侯敏.基于混合策略的漢語最長名詞短語識別[J].中文信息學報,2013,27(6):16-22.

[6]劉志杰,等.搜索引擎日志中“N1+N2”型名詞短語研究[J].現(xiàn)代圖書情報技術,2010,26(12):58-63.

[7]謝靖,等.CSSCI語料中短語結構標注與自動識別[J].現(xiàn)代圖書情報技術,2012(12):32-38.

[8]孫瑞娜,古麗拉·阿東別克.基于規(guī)則的哈薩克語基本名詞短語識別研究[J].計算機應用研究, 2010,27(12):4511-4513.

[9]Gulila Altenbek,Ruina Sun.Kazakh Noun Phrase Extraction based on N-gram and Rules:2010 International Conferenceon Asian Language Processing[C].Harbin,Heilongjiang,China:IEEE computer society,2010:305-308.

[10]Lafferty J.et al.Conditional Random Fields:ProbabilisticModelsfor Segmentingand Labeling Sequence Data[C]//Proceedings of the 18th International Conf on machineLearning,2001:282-289.

[11]S Lakshmana Pandian,T V Geetha.CRF Models for Tamil Part of Speech Tagging and Chunking[C].International Conferenceonthe Computer Processingof Oriental Languages-ICCPOL,Hong Kong,2009:11 -22.

[12]He Saike,et al.Multi-task learning in conditional random fields for chunking in shallow semantic parsing [J].PACLIC23-Proceedings of the 23rd Pacific Asia Conferenceon Language,InformationandComputation,2009,1:180-189.

[13]張定京.現(xiàn)代哈薩克語實用語法[M].北京:中央民族大學出版社,2004:98-167.

[14]孫瑞娜,古麗拉·阿東別克.哈薩克語基本名詞短語自動識別研究與實現(xiàn)[J].中文信息學報. 2010,24(6):114-119.

[收稿日期]2014-10-27 [責任編輯]劉丹

[作者簡介]孫瑞娜(1982-),女,新疆財經(jīng)大學講師,研究方向:網(wǎng)絡輿情,信息檢索。

[基金項目]本文系國家自然科學基金項目“基于網(wǎng)絡社群的網(wǎng)絡輿情演化分析及突發(fā)事件預警機制研究”(項目編號:71261025),新疆財經(jīng)大學社會經(jīng)濟統(tǒng)計研究中心項目“新疆互聯(lián)網(wǎng)輿情傾向性調(diào)查與分析研究”(項目編號:050313C08),“新疆區(qū)情民意網(wǎng)絡調(diào)查系統(tǒng)設計與網(wǎng)絡輿情調(diào)查分析”(項目編號:050312C08),新疆財經(jīng)大學校級科研基金項目“基于統(tǒng)計方法的新疆民文網(wǎng)絡輿情情感傾向性分析技術研究”(項目編號:2013XYB005)階段性成果之一。

[文章編號]1005-8214(2015)08-0101-05

[文獻標志碼]B

[中圖分類號]TP391.1;G254.29

猜你喜歡
哈薩克語互信息
淺談中文食品名稱的哈薩克語翻譯
基于規(guī)則及N—gram模型的數(shù)字數(shù)據(jù)轉換成哈薩克語讀音文字的方法
基于改進互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
基于粒子群優(yōu)化算法和煙花算法的圖像配準
回鶻文文獻《金光明經(jīng)》與現(xiàn)代哈薩克語詞匯比較
基于互信息的圖像分割算法研究與設計
基于互信息的貝葉斯網(wǎng)絡結構學習
新疆青河縣阿熱了鄉(xiāng)哈薩克族聚居區(qū)居民的語言生活
基于增量式互信息的圖像快速匹配方法
石阡县| 武陟县| 嘉义市| 武威市| 西充县| 温泉县| 肃宁县| 嵊泗县| 平远县| 桂林市| 辛集市| 原阳县| 广水市| 玉山县| 颍上县| 高邮市| 普陀区| 定襄县| 延边| 饶平县| 郸城县| 界首市| 海原县| 蒙城县| 深州市| 阳东县| 闵行区| 洪雅县| 铁岭县| 佛冈县| 太仓市| 平乐县| 家居| 枣庄市| 康定县| 隆尧县| 伊春市| 黑龙江省| 白山市| 微博| 九寨沟县|