劉里 劉小明
(北京理工大學計算機學院,北京100081)
術語是某種語言中專門指稱某一專業(yè)領域一般(具體或者抽象)理論概念的詞匯單位[1].領域術語集體現(xiàn)了領域的核心知識.自動術語抽取是信息抽取領域的重要研究課題,其在特定領域的應用需求越來越大:醫(yī)療、生物、計算機科學等領域均需要術語集來構建領域知識庫.
傳統(tǒng)的術語自動抽取技術可以歸納為基于統(tǒng)計和基于語言學知識兩種方式.廣泛采用的統(tǒng)計類術語抽取技術有基于語言模型統(tǒng)計領域相關性、領域一致性的方法[2]、基于互信息的方法[3]等.這些方法對候選結果按照統(tǒng)計指標進行排序,提取指標排序靠前的結果作為最終結果.基于語言學知識的術語抽取普遍采取利用術語的上下文環(huán)境,運用機器學習方法訓練模型,進行自動抽取,這在特定領域取得了不錯的效果[4].近期的術語抽取技術常常面臨3個難點:(1)部分術語可以利用的上下文特征比較少,使得基于上下文的術語抽取算法無能為力;(2)傳統(tǒng)算法是建立在待處理文本正確分詞的基礎上的;(3)對前期的領域知識(如領域詞庫)有較高依賴性,不便于跨領域移植.
傳統(tǒng)的名詞性術語抽取方法較多利用術語的領域特性,并對其賦予權重來識別[5].然而,這些方法常常碰到的困難是:對于非名詞性術語,少量特征難以將其識別出來,過多的特征又會匹配多個特征而對術語識別產(chǎn)生沖突.針對這些問題,文中對領域現(xiàn)象術語提出了一種有效的抽取方法.
領域現(xiàn)象術語一般都是動詞性復合詞.動詞性復合詞是指由至少一個動詞性語素構成的復合詞[6].例如,在電腦故障診斷領域,“停轉”、“藍屏”、“掉線”等都是動詞性復合詞.文中選取復合型領域現(xiàn)象術語作為考察對象是基于以下考慮:(1)在特定領域,現(xiàn)象術語作為術語出現(xiàn)的概率較高,且可能和名詞性術語一同出現(xiàn)在特定領域的詞庫中,然而這一類復合型術語往往不具備專門的詞庫,難以與名詞性術語區(qū)分開來;(2)領域現(xiàn)象術語可以作為故障診斷領域的“條件屬性+取值”的組合,抽取結果可以作為問句的條件值,推動問答系統(tǒng)的發(fā)展.復合詞的一個突出特點是難以與短語劃清界限,這是漢語研究中長期存在的一個難題.在自然語言處理(NLP)研究中,如果將這一類術語作為短語處理,由于短語結構的不確定性,難以得到理想的結果.文中從詞語的角度進行處理,如果能夠取得較高的正確率,會對此類復合詞的處理有所啟發(fā).
句子是由實詞和虛詞連接構成的,常見的領域現(xiàn)象術語傾向于實詞.對于句子中的一個詞,與它相鄰的前后兩個詞,分別稱為它的前驅與后驅,有研究者將這兩個詞稱作分隔符[7].
與領域術語相比,分隔符更有可能是虛詞或一般性的實詞,并且具有一定的領域獨立性,更容易被識別出來.文中利用分隔符的特征進行術語抽取,即通過識別術語的前驅與后驅來標記術語,在兩個術語分隔符之間的字符串可看作是候選術語.
先分析下面的兩個例子:“云計算是一種基于因特網(wǎng)的超級計算模式”來源于計算機領域的一篇學術文章,其中的“云計算”、“因特網(wǎng)”和“超級計算模式”是計算機領域的術語,它們以術語分隔符“是”、“的”和“基于”為邊界;“人民代表大會制度是中華人民共和國的基本政治制度”來源于《中華人民共和國憲法》,其中的“人民代表大會制度”、“中華人民共和國”和“基本政治制度”是法律領域術語,它們被分隔符“是”和“的”所標記.可以看出“是”和“的”在兩個不同領域均是術語分隔符,由此可見分隔符具有一定的領域無關性.分隔符與術語關聯(lián),在使用時也較穩(wěn)定,因此分隔符可以作為術語的邊界標志.
為了獲得更好的抽取效果,文中采取停用詞表與詞頻相結合的分隔符抽取方法.
1.2.1 基于詞頻的分隔符抽取方法
基于詞頻的分隔符抽取方法是統(tǒng)計領域中術語的高頻前驅后繼,并過濾掉領域術語,具體步驟如下:(1)對術語詞典中的每個術語,如果其在訓練語料中出現(xiàn)則進行標記;(2)對訓練語料進行分詞,對標記過的術語不進行切分;(3)抽取每個術語的前驅和后繼,組成候選分隔符集;(4)對每個候選分隔符,如果其是術語詞典中的術語,則將其從候選分隔符集中移除;(5)統(tǒng)計候選分隔符在訓練語料中的詞頻,選取詞頻較高的候選分隔符作為分隔符.
1.2.2 領域停用詞與分隔符的關系
停用詞是指出現(xiàn)頻率較高、沒有太大檢索意義的詞,如“的”、“了”、“太”、“of”、“the”等.在知識抽取中幾乎沒有真正的停用詞,只是把出現(xiàn)頻率較高的虛詞作為臨時的停用詞,切分完后仍然需要標記[8].主謂結構的上下文以常用虛詞為主.可見,主謂結構的上下文相當于領域停用詞,并成為主謂結構的分隔符.
經(jīng)統(tǒng)計,領域現(xiàn)象術語在主謂結構中出現(xiàn)的概率較高.因此,將領域停用詞表中的詞加入領域現(xiàn)象術語的分隔符表,可以使分隔符表更加完善,提升領域現(xiàn)象術語抽取的效果.
1.2.3 分隔符混合抽取方法
將1.2.1節(jié)中基于詞頻方法抽取得到的分隔符表加上1.2.2節(jié)中的領域停用詞表,得到分隔符抽取的最終結果.
在分隔符抽取階段需要進行分詞,且難免出現(xiàn)分詞錯誤.不過分詞錯誤不會對領域現(xiàn)象術語抽取的最終結果造成影響,因為分詞錯誤出現(xiàn)在分隔符抽取階段而不是領域現(xiàn)象術語抽取階段,而且分隔符的權重算法也大大降低了分詞錯誤造成的影響.
文中算法是建立在術語抽取經(jīng)典算法NC-value基礎上的,NC-value算法利用上下文統(tǒng)計和語言學信息進行術語抽取[9].抽取出來的上下文信息根據(jù)頻率與術語的共現(xiàn)信息被賦予權重.
經(jīng)典的NC-value算法在抽取術語的過程中僅僅利用了術語上下文.經(jīng)統(tǒng)計,名詞性術語與領域現(xiàn)象術語有著較高的共現(xiàn)頻率.根據(jù)這一特性,在基于分隔符的基礎上,文中利用名詞性術語進行領域現(xiàn)象術語的抽取.文中在NC-value算法的基礎上進行如下假設:(1)名詞性術語作為上下文術語對領域現(xiàn)象術語的決策能力要高于普通的分隔符;(2)名詞性術語和分隔符與待抽取術語的距離越近,其對術語的決策能力越強.
通過對與領域現(xiàn)象術語共現(xiàn)的詞分配權重來實現(xiàn)上述假設.候選領域現(xiàn)象術語的抽取算法如式(1)所示:
式中,a為候選術語,P(a)為a成為候選術語的概率,Sa為a的分隔符集合,b為Sa中的一個分隔符,fa(b)為在訓練語料中b作為a的分隔符出現(xiàn)的頻率,weight(b)為分隔符b的權重,dis(b,a)為b與a的句法距離,Ta為a的上下文術語集合,d為Ta集合中的一個詞為在訓練語料中d作為a的上下文術語出現(xiàn)的頻率,syn(d,a)為d與a的句法權重,dis(d,a)為d與a的句法距離.式(1)中等號右邊第一項表示分隔符在抽取中所起的作用,第二項表示上下文術語在抽取中所起的作用.
1.3.1分隔符的作用
不同的分隔符對確定術語所起的作用不同.文中通過分隔符在訓練語料中與術語共現(xiàn)的頻率占其所有出現(xiàn)頻率的比值來確定分隔符的權重,即
式中:t(b)為訓練語料中與b一起出現(xiàn)的術語數(shù)目;n為訓練語料中b出現(xiàn)的頻率總和;Nb,a為b和a之間的詞語數(shù)目(根據(jù)分詞的結果),相鄰關系詞的Nb,a定義為1.可以看出:訓練語料中與一個詞共現(xiàn)的術語頻率越高,這個詞作為術語分隔符的權重就越大;一個詞與權重大的分隔符共現(xiàn)的頻率越高,它就越可能是一個術語,成為術語的概率與分隔符的距離成反比,即一個詞與分隔符的距離越小,其成為術語的可能性越大.
1.3.2 上下文術語的作用
文中通過與上下文術語在同一個句子中的句法關系和距離來確定領域現(xiàn)象術語的概率.領域現(xiàn)象術語的出現(xiàn)常有以下幾種情況:(1)與“對象”類術語(常常是名詞性術語)以主謂句法模式出現(xiàn),但主謂關系有可能存在于其它類型的句法成分中,如臺式機的顯示器(對象)突然間藍屏(現(xiàn)象)了;(2)與其它領域現(xiàn)象術語并列存在,但并列關系也可能存在于其它類型的句法成分中,如臺式機的顯示器(對象)不停地抖動(并列現(xiàn)象),接著就藍屏(并列現(xiàn)象)了;(3)與“對象”類術語組合,作為狀語存在,如臺式機的顯示器藍屏時(狀語),CPU風扇運轉正常.
文中利用依存句法分析器[10]來識別句子成分.句法模式得分由句法模式(與上下文之間屬于主謂、并列關系等)和距離(與作用元素相隔的詞語數(shù)目)來決定.文中通過實驗得到句法模式得分的經(jīng)驗值:主謂模式時取值為1.0,并列模式時取值為0.8,狀語模式時取值為0.6.距離得分為
式(4)表明,在同一個句子中,作用因素與候選領域現(xiàn)象術語的距離越近,在句法上的關系越密切,其對術語的決定作用就越高.
1.3.3 非領域現(xiàn)象術語的過濾
采用式(1)得到的只是候選領域現(xiàn)象術語,其中包含著大量非領域現(xiàn)象術語.利用領域詞表過濾掉其它類型的術語,得到的結果才是領域現(xiàn)象術語.
為了和其它抽取算法進行比較,文中采用了傳統(tǒng)的評測標準:準確率與召回率,
實驗在抽取的“百度知道”語料庫上進行,范圍是計算機故障診斷領域.語料庫采用問答的形式,包含用戶在“百度知道”上完整的問題與答案.選擇這個語料庫有以下幾個原因:(1)計算機故障診斷領域包含的領域術語數(shù)量不多,比較容易保證人工標注的工作量和準確性;(2)一問一答的模式集中了豐富的領域信息,領域術語的密度較高;(3)“百度知道”的格式規(guī)范,利于語料庫的抽取和預處理.
文中選取700組計算機故障診斷領域的問答作為訓練語料,2885組(約1.83MB)問答作為實驗語料.由于領域現(xiàn)象術語不容易得到局部上下文信息,文中利用傳統(tǒng)的機器學習方法進行抽取,所以只將文中方法的抽取結果與傳統(tǒng)的基于詞頻的方法[11]及基于分隔符的方法[7]做比較.
(1)利用文中方法進行抽取按照1.2節(jié)方法對訓練語料進行分隔符抽取,在基于詞頻的方法中設置頻率閾值為3(如果一個詞與術語共現(xiàn)的頻率超過3次,就將其選為分隔符).利用訓練語料,抽取到有效前驅分隔符251個,有效后驅分隔符297個.停用詞庫采用Stopword List,包含了507條停用詞.將兩者進行結合,最終得到有效前驅分隔符337個,有效后驅分隔符385個.
對“搜狗”計算機詞庫進行過濾,得到“搜狗”計算機名詞性詞庫.利用訓練語料得到分隔符,并將“搜狗”計算機名詞性詞庫作為上下文術語對實驗語料按照式(1)進行抽取,得到候選領域現(xiàn)象術語集.然后參照“搜狗”計算機名詞性詞庫,在候選領域現(xiàn)象術語集中把名詞性術語過濾掉,得到最終領域現(xiàn)象術語.
(2)利用基于詞頻的方法進行抽取首先對語料進行分詞,分詞結果的好壞直接關系到最后的抽取結果,文中采用中國科學院的ICTCLAS[12]系統(tǒng)并加入“搜狗”計算機詞庫進行分詞;然后利用基于詞頻的方法對分詞結果進行術語抽取,采用“搜狗”計算機名詞性詞庫在結果中過濾掉名詞性術語,得到抽取結果.
(3)利用基于分隔符的方法進行抽取基于分隔符的抽取方法可以理解為只利用式(1)中的前半部分進行抽取,即
采用前面抽取到的分隔符,利用“搜狗”計算機名詞性詞庫在候選領域現(xiàn)象術語集中把名詞性術語過濾掉,得到最終結果.
3種方法的實驗結果如表1所示.從表1可知,文中提出的領域現(xiàn)象術語抽取方法具有較高的召回率,但準確率相對較低.這是因為文中方法對領域現(xiàn)象術語的過濾主要集中在名詞性術語上,還有一定數(shù)量的動詞性術語沒有過濾掉.如“打開機箱,開始清掃灰塵”中的“清掃”被認為是領域現(xiàn)象術語,實際上它只符合普通動詞性術語的特征.如果文中算法能將領域現(xiàn)象術語中的動詞性術語過濾掉,那么抽取的結果會更加準確.
表1 3種方法的抽取結果比較Table 1 Comparison of extraction results obtained by three methods
文中將基于局部上下文的抽取方法應用到分隔符抽取中,利用分隔符和上下文術語進行術語抽取,同時過濾掉詞性不符的術語,在一定程度上解決了領域現(xiàn)象術語難以利用特征進行抽取的問題.這種方法在小規(guī)模語料庫上取得了較為顯著的效果,如果語料庫選取得當,可以被應用于多種限定領域,對多種復合詞進行抽取.實驗結果表明,文中方法沒有達到很高的準確率.這是由于利用式(1)方法抽取到了大量的非領域現(xiàn)象術語,而能夠過濾掉的術語類型又比較有限.下一步將針對如何更加合理地過濾掉更多類型的非領域現(xiàn)象術語進行研究.
[1]馮志偉.現(xiàn)代術語學引論[M].北京:語文出版社,1997:31.
[2]傅繼彬,樊孝忠,毛金濤,等.基于語言特性的中文領域術語抽取算法[J].北京理工大學學報,2010,30(3):307-310.Fu Ji-bin,F(xiàn)an Xiao-zhong,Mao Jin-tao,et al.An algorithm of Chinese domain term extraction based on language feature[J].Transactions of Beijing Institute of Technology,2010,30(3):307-310.
[3]張鋒,許云,侯艷,等.基于互信息的中文術語抽取系統(tǒng)[J].計算機應用研究,2005,22(5):72-73.Zhang Feng,Xu Yun,Hou Yan,et al.Chinese term extraction system based onmutual information[J].Application Research of Computers,2005,22(5):72-73.
[4]Argamon S,Dagan I,Krymolowski Y.A memory-based approach to learning shallow natural language patterns[C]∥Proceedings of the 17th International Conference on Computational Linguistics.Montreal:Association for Computational Linguistics,1998:67-73.
[5]Itagaki M,Aikawa T,He X.Automatic validation of terminology translation consistency with statisticalmethod[C]∥Proceedings of MT Summit XI.Copenhagen:[s.n.],2007:269-274.
[6]董秀芳.動詞性并列式復合詞的歷時發(fā)展特點與詞化程度的等級[J].河北師范大學學報:哲學社會科學版,2000,23(1):57-63.Dong Xiu-fang.The features of the diachronic development of verbal coordinate compound words in the Chinese language and their etymological changes[J].Journal of Hebei Normal University:Social Science Edition,2000,23(1):57-63.
[7]Qin L.Chinese term extraction using minimal resources[C]∥Proceedings of the 22nd International Conference on Computational Linguistics.Manchester:Association for Computational Linguistics,2008:1033-1040.
[8]化柏林.知識抽取中的停用詞處理技術[J].現(xiàn)代圖書情報技術,2007(8):48-51.Hua Bo-lin.Stop-word processing technique in knowledge extraction[J].New Technology of Library and Information Service,2007(8):48-51.
[9]Frantzi K,Ananiadou S,Mima H.Automatic recognition of multi-word terms:the C-value/NC-valuemethod[J].International Journal on Digital Libraries,2000,3(2):115-130.
[10]李彬,劉挺,秦兵,等.基于語義依存的漢語句子相似度計算[J].計算機應用研究,2002(12):15-17.Li Bin,Liu Ting,Qin Bing,et al.Chinese sentence similarity computing based on semantic dependency relationship analysis[J].Application Research of Computers,2002(12):15-17.
[11]Joachims T.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C]∥Proceedings of the 14th International Conference on Machine Learning.San Francisco:Morgan Kaufmann Publishers Inc,1997:143-151.[12]Zhang H P,Yu H K,Xiong D Y,et al.HHMM-based Chinese lexical analyzer ICTCLAS[C]∥Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Sapporo:Association for Computational Linguistics,2003:184-187.