国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MMSeg分詞的多部主題詞表聯(lián)合標注研究與實現(xiàn)

2015-06-07 05:56:54陳曉燕
關鍵詞:詞表主題詞表詞條

陳曉燕

(紹興職業(yè)技術學院,浙江 紹興312000)

基于MMSeg分詞的多部主題詞表聯(lián)合標注研究與實現(xiàn)

陳曉燕

(紹興職業(yè)技術學院,浙江 紹興312000)

為了解決多部主題詞表聯(lián)合標注中標注詞條數(shù)量大、子串較多等問題,本文提出了基于MMSeg分詞的標注方法.采用MMSeg分詞算法將待標注文本先切分形成詞串再進行標注,并改進了分詞詞典從而支持子串的標注,保證了較高的召回率.還就相關內容進行了研究并給出了具體實現(xiàn).運行結果表明基于MMSeg分詞的多部主題詞表聯(lián)合標注在標注速度、召回率和精確率方面均達到了實用要求.

分詞詞典;MMSeg算法;標注;消歧;主題詞表

基于主題詞表的標注研究中,閆瑩瑩[1]等利用漢語科技詞系統(tǒng)對文獻自動賦詞標引進行了應用研究,其將人工標引的文獻主題詞作為訓練集,采用貝葉斯分類算法,將符合人工標引結果作為正集,不符合的作為反集,形成訓練模型,對新文獻計算候選詞權值作為人工標引的輔助.李鵬[2]等提出了敘詞表多表聯(lián)合標注系統(tǒng)的設計方案,采用自動標注與手工標注相結合的方式進行標注,并以皮膚病領域為例進行總結了多表聯(lián)合標注可能的應用場景.

利用多部主題詞表進行聯(lián)合標注,存在以下幾個難點:(1)詞表多,詞表之間詞條的包含關系較常見.最大匹配存在問題,在詞表內部可以最大匹配,但多個詞條之間有詞條之間的包含關系.(2)系統(tǒng)基于BS結構,存在多個用戶,每個用戶存在多個詞表.多用戶多詞表出現(xiàn)詞條數(shù)量大、效率要求高.筆者測試對當詞條達到30萬條時,對單篇200字的文檔,耗時約46秒,嚴重影響用戶體驗.(3)詞條中存在一些特殊符號.例如醫(yī)學類,連接符,數(shù)字等比較常見.本文就以上問題進行了研究.

1 基于MMSeg分詞的多部主題詞表聯(lián)合標注研究

1.1 MMSeg分詞算法

MMseg分詞算法[3]是利于詞典進行分詞基于正向最大匹配的算法,是將待切分詞組從詞典中找到最長的字符串的一種匹配算法,其又可以分為簡單最大匹配和復雜最大匹配兩種方法.若S1,S2,…Sn代表一個字符串中的漢字,其基本算法是:(1)從字符串的第一個字符開始,判斷S1是否為詞典中的單詞,(2)如果是,繼續(xù)判斷S1S2來看是否為詞典中的詞組,(3)直至S1S2…Sn+1字典中無法匹配時,則S1S2…Sn

相應的算法規(guī)則如下,優(yōu)先秩序分別為:規(guī)則1>規(guī)則2>規(guī)則3>規(guī)則4,從而選擇最合理的分詞組合.

規(guī)則1:優(yōu)先取最大匹配的詞長詞組;

規(guī)則2:取Ax最大的詞長詞組;

規(guī)則3:取Sx最小的詞長詞組;

規(guī)則4:取Dx最大的詞長詞組.

1.2 分詞詞典的改進

MMseg的分詞效果與詞典關系較大,專業(yè)領域等細分詞典能夠實現(xiàn)更好的分詞效果[4].主題詞表具有典型的專業(yè)領域特色,因此非常適合使用MMseg等詞典分詞算法.將計算機專業(yè)主題詞表、醫(yī)學專業(yè)主題詞表以及各種定制專業(yè)主題詞表,轉化為相應的專業(yè)詞典來進行分詞,能夠產生較高的分詞效果.

利用多部主題詞條進行聯(lián)合標注時,由于涉及多部主題詞表,而且標注的主題詞表一般涉及交叉領域,因此存在詞條重復或者包含關系等問題,導致普通的MMseg的分詞算法難以勝任.因此,必須對MM-seg進行相關的改進.本文相應的改進包括特殊詞條處理以及詞典文件更新等.本文使用jcseg中文分詞器對應的詞典文件說明詞典文件的更新.jcseg是使用Java開發(fā)的一款基于MMseg算法的開源的中文分詞器.

原分詞詞典內容比較簡單,一個詞條對應的詞典內容主要包括詞條名稱、詞性、漢詞拼音,以及備注等信息.改進的分詞詞典,在原有的內容基礎上,增加了每個詞條對應的主題詞表、包含子詞條等信息.原詞典文件與改進后的詞典如圖1所示.就是最可能的單詞,也是最長的匹配.(4)取這個單詞,待切分詞組去掉相關詞條,依據(jù)同樣的方法,直至待切分詞條為0,即所有單詞都被切分完成.

最大匹配算法不涉及語法和語義知識,其優(yōu)勢是切分速度快,不足之處在于無法解決切分歧義的問題,因此切分精度不夠.歧義的產生,是因為可能產生多種不同的切分結果,每一種切分結果對應不同的理解,但是根據(jù)待處理文本所在的上下語境只有一種符合作者要闡述的意思.歧義消解就是要尋找最符合原文闡述的切分方法.MMseg在基本算法的基礎上,充分考慮了平均長度,標準差以及自由語素度三個因素,并對應形成四個規(guī)則.規(guī)則1考慮的基本算法的最大匹配長度;規(guī)則2考慮的因素為平均長度;規(guī)則3考慮的因素為標準差;規(guī)則4考慮的因素為自由語素度.四個規(guī)則的應用,較好地解決了歧義切分的問題.

假設單詞條集合為L,對應的詞頻為fx,令L為待切分詞組字數(shù),Ix為詞組中各詞的長度和,則可計算平均長度Ax,標準差Sx,以及自由語素度Dx.相應計算公式如下:

圖1 原分詞詞典與改進后的分詞詞典

其中kos代表系統(tǒng)使用的知識組織系統(tǒng)代碼,3對應相應的主題詞表ID,100對應的詞表中詞條ID.示例中詞條“中華人民共和國”包含了“中華”“人民”兩個子詞條,而“中華民國”,只包含了“中華”一個字詞條.在詞典文件中添加詞表ID目的是分詞后,可根據(jù)需要標注的文檔庫的詞表進行過濾,不是當前文檔典設置的標注詞表,直接在結果中刪除.在詞典文件中添加詞條ID目的是分詞后,可以直接根據(jù)數(shù)字類型為整型的詞條ID到數(shù)據(jù)庫中查詢對應的信息,從而增加處理速度.

原處理方式的弊端:長詞條覆蓋短詞條.只能標注長詞條,不能標注單獨出現(xiàn)的長詞條所包含的短詞條.詞表A中有:中華人民共和國、人民.詞表B中有:中華、共和國.用戶選擇A、B兩個詞表標注“我們是中華人民共和國的國民”.只能分出“中華人民共和國”,“中華”分不出來.改進后的詞典,能夠按照系統(tǒng)的需要,將各主題詞表中的詞條均標注出來.

改進后的分詞詞典,處理了每個詞條對應的子詞條信息,因此維護詞條之間的關系表是一項非常重要的工作.

1.3 特殊詞條處理

特殊詞條分為兩類,一種是存在一些特殊符號如醫(yī)學類,連接符,數(shù)字等比較常見的詞條,另一種是超長詞條.對于特殊詞條,采用直接采用字符串匹配查找文檔中是否存在.

在根據(jù)詞條進行分詞時,受分詞算法中詞典的限制,詞條中不能包含特殊字符,如果包含特殊字符,則分詞算法在加載詞典時失敗.標注系統(tǒng)可能出現(xiàn)的一些特殊符號如表1所示.這些符號禁止出現(xiàn)在詞典文件中.

表1 特殊符號列表

具體來說,本文基于MMSeg分詞的多部主題詞表聯(lián)合標注流程如圖2所示.

1.4 標注

基于多部主題詞表進行聯(lián)合標注的目的是盡可能將主題詞表中出現(xiàn)的詞條在待標注文本中標引出來,即盡可能標全.標注為一項基本工作,為其后的知識庫的建立和詞條及其關系的挖掘提供基礎.基于多部主題詞表聯(lián)合進行標注時,由于詞典中詞條數(shù)目較大,采用逐條取詞表中的所有詞條一一與原文匹配看是否存在原文中的方式,耗時太長.因此,本文采用從待標注文本入手先分詞形成詞串,然后去數(shù)據(jù)庫中匹配該詞串是否在所屬詞表的詞條中,這樣匹配的速度更快,能夠大幅度節(jié)省時間.由于只需要對切分詞表中存在的詞,因此分詞速度大大提高.利用詞典分詞有利于自動標注,能夠實現(xiàn)大批量與自動化標注,是手工標注的前提和工程化應用的基礎.基于MMseg分詞的多表聯(lián)合標注包含三個步驟:分詞、標注及著色.對文獻進行標注時,要判斷文獻內容是否包含詞典中的詞條.標注功能需要考慮的因素如下:

(1)支持多次標注,不影響以前的標注.

(2)每次標注后,用戶選擇的文本及位置信息記錄在數(shù)據(jù)庫中.

1.5 著色

要實現(xiàn)對標注文本的著色,需要知道標注文本對應在全文中的位置,著色能夠讓用戶看到標注的效果.可以使用不同的顏色,分別對應不同的主題詞表.由于標注時,已經在數(shù)據(jù)庫中存儲了標注文本對應的位置信息,因此著色相對比較簡單.著色可以直接在待標注文本前添加IE等瀏覽器支持的標簽,實現(xiàn)在瀏覽器中顯示相關的顏色.為將原文中標簽同標注的標簽區(qū)分開,同時為了網頁上顯示效果,著色代碼均遵照特定的格式:

2 基于MMSeg分詞的多部主題詞表聯(lián)合標注實現(xiàn)

2.1 數(shù)據(jù)預處理

數(shù)據(jù)預處理工作的目的主要是將原主題詞表的詞條轉換成詞典文件,為將來的詞條切分做好準備工作.利用詞典分詞的方式,需要建立用戶自己的詞典.但是,當出現(xiàn)用戶詞典時,多用戶多純種服務器壓力較大,因此,建立統(tǒng)一的詞典進行分詞.

數(shù)據(jù)預處理的另外一項內容是主題詞表中如果出現(xiàn)詞典文件避免的特殊字符時,應該將其標志設為特殊詞條,方便標注時專門按特殊詞條處理方式進行處理.

2.2 建立詞條關系表

詞條關系表是為了維護詞條之間的包含關系而建立的表.

表2 詞條關系表s_Relation

計算一個詞條的關系時步驟:查找本詞條包含的詞條信息,寫入關系表.一個詞條可能包括多個詞條.如“人民共和國”可能包括的詞條有“人民”“共和國”.如一個詞條不包含任何子詞條,則需在關系表中添加一條數(shù)據(jù)(其中:ChildtheasurusID,ChildID,ChildTermName等列為空).

#-是否詞庫更新自動加載(1開啟,0關閉)

lexicon.autoload=1

#-詞庫更新輪詢時間(單位:秒)

lexicon.polltime=120

建立詞條關系表后,定時將關系表數(shù)據(jù)按照固定格式寫入詞典文件中.

2.3 建立詞典文件

為保證詞表中詞條信息同詞典中詞條信息保持一致,每天晚上重新生成詞庫文件.根據(jù)測試30萬條數(shù)據(jù)寫入詞庫文件需要8min.

2.4 詞條的更新

為保證詞典文件的準確性,需在詞條內容發(fā)生變更后記錄詞條的變動信息,以便及時更新詞典文件.引起詞條內容變動的原因包括:新增詞條、修改詞條、導入詞條、刪除詞條.詞典文件更新策略如圖3所示.在刪除一個詞條時,需要將本詞條包含的詞條關系刪除,還需將包含本詞條的詞條關系刪除.例如刪除詞表ID為2,詞條ID為300的詞條,刪除關系語句為:

Delete from Relation

Where(ThesaurusID=2 and Term ID=300)or(ChildtheasurusID=2 and Child ID=300)

3 運行結果

基于MMSeg分詞的多部主題詞表聯(lián)合標注系統(tǒng)較好地達到了系統(tǒng)預計的要求,本文從標注速度、標注召回率、標注準確率三個指標進行了評價和驗證.

分詞速度對于分詞系統(tǒng)是一項重要指標,通常分詞系統(tǒng)對于分詞速度要求十分嚴格[5].準確性作為核心指標,是指在進行分詞處理后分得的正確的詞或者短語的個數(shù)與分得的所有的詞的個數(shù)之間的比值,分詞系統(tǒng)的準確率應用達到99.9%以上才能基本滿足其他領域的使用要求.分詞準確率與分詞速度兩者相矛盾,在設計系統(tǒng)時要充分考慮兩者的關系.召回率是檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率.

標注速度=文本長度/分詞時間?100%(單位:字/秒)

標注準確率=正確切分詞數(shù)/文本總詞數(shù)?100%

標注召回率R=標注的詞條/應該標注的全部詞條

使用MMSeg分詞后再進行標注,標注的性能達到了質的變化,前后兩者對比如表3所示.運行硬件環(huán)境:CPU:AMD 3.2G;內存4G.

表3 標注速度對比表

標注的準確率,未分詞標注時,直接采用待切分詞條去數(shù)據(jù)庫中匹配該詞條是否出現(xiàn)在主題詞表中,因此準確率為100%,采用分詞標注后,由于涉及部分特殊字符,準確率稍有下降,但仍然完全滿足系統(tǒng)的需要.表4為標注的準確率對比.

表4 標注準確率對比表

標注的召回率,由于改進了分詞詞典,相當于犧牲了部分分詞的效率,保證了標注的召回率.標注召回率取得了大幅度的提升.標注的召回率對比如表5所示.

表5 標注召回率對比表

4 結束語

多部主題詞表詞條較多,同時由于存在交叉領域,因此詞條之間存在包含或者重復等較復雜的關系,但是盡可能地標全是系統(tǒng)作為一項基礎研究的條件,因此給實際工作帶來了困難.本文將MMSeg分詞引入到標注中,實現(xiàn)基于多部主題詞表的聯(lián)合標注,能夠大大提高標注的速度和精度.但是由于MMSeg分詞無法解決召回率的問題,本文改進了分詞詞典,將詞表及其詞條和子詞條關系引入至詞典中,從而保證了標注的召回率.多部主題詞表聯(lián)合標注作為一項基礎性工作,使其后的專業(yè)知識庫的構建以及深度數(shù)據(jù)挖掘成為可能.

[1]閆瑩瑩,許德山.漢語科技詞系統(tǒng)在文獻自動賦詞標引中的應用研究[J].數(shù)字圖書館論壇,2013, (11):2-8.

[2]李鵬,朱禮軍.敘詞表多表聯(lián)合標注系統(tǒng)設計與實現(xiàn)[J].數(shù)字圖書館論壇,2013,(11):21-26.

[3]MMSEG:AWord Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm[EB/OL].(2000-03-12)[2014-12-08],http://technology.chtsai.org/mmseg/.

[4]蔣建洪,趙嵩正,羅玫.詞典與統(tǒng)計方法結合的中文分詞模型研究及應用[J].計算機工程與設計, 2012,33(1):387-391.

[5]劉延吉.基于詞典的中文分詞歧義算法研究[D].吉林:東北師范大學,2009.

Research and Implementation of Multi-Thesaurus Joint Labeling System Based on MMSeg Algorithm

Chen Xiaoyan

(Shaoxing Vocational and Technical College,Shaoxing,Zhejiang 312000)

In order to solve the problems that there are a greatnumber of terms and substrings in the Multi-Thesaurus joint labeling system,this paper presents the annotation method based on the MMSeg algorithm.The paper proposes adopting the MMSeg segmentation algorithm to cut text strings for annotating and improve the dictionary for substring annotation,thus ensuring a higher recall rate.The specific implementation of the relevant content and the operation result show that the Multi-Thesaurus joint labeling system based on the MMSeg segmentation algorithm meets the practical requirements in terms of the annotation speed,recall rate and precision rate.

dictionary;annotation;MMSeg algorithm;ambiguity processing;thesaurus

TP393

A

1008-293X(2015)07-0039-06

0 引言

表,又稱敘詞表,由詞與詞之間用代屬分參等關系組成,是文獻與情報檢索中用以標引主題的一種檢索工具.主題詞表作為一種結構化的概念集合,在信息資源的描述、組織和檢索中發(fā)揮重要的作用.利用主題詞表進行標注工作,尤其是利用多部主題詞表進行聯(lián)合標注,能夠進一步描述和組織信息資源,從多視角,多角度地揭示文章的內容,將非結構化文本進行結構化,為信息抽取、深度檢索、智能推理,以及知識庫的建立提供了基礎.

(責任編輯 魯越青)

10.16169/j.issn.1008-293x.k.2015.07.09

2015-02-06

陳曉燕(1973-),女,浙江溫州人,講師,主要研究方向:信息處理.

猜你喜歡
詞表主題詞表詞條
《〈漢語主題詞表〉構建研究》
《〈漢語主題詞表〉構建研究》
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
英語世界(2021年13期)2021-01-12 05:47:51
《〈漢語主題詞表〉構建研究》
《〈漢語主題詞表〉構建研究》
2016年4月中國直銷網絡熱門詞條榜
2016年3月中國直銷網絡熱門詞條榜
敘詞表與其他詞表的互操作標準
2016年9月中國直銷網絡熱門詞條榜
大數(shù)據(jù)相關詞條
肃北| 曲阜市| 平定县| 阿拉善左旗| 漳州市| SHOW| 遂川县| 九龙城区| 新建县| 理塘县| 陵水| 双桥区| 康保县| 通化县| 靖江市| 定远县| 安徽省| 临江市| 五家渠市| 镶黄旗| 锡林浩特市| 东安县| 延吉市| 台江县| 滁州市| 长武县| 海盐县| 巫溪县| 买车| 南丰县| 芒康县| 通河县| 翁源县| 江达县| 高尔夫| 兴城市| 化州市| 桃江县| 定陶县| 沈阳市| 南通市|