朱玲玲 楊?lèi)?ài)琴 魏曉寧
摘要:現(xiàn)實(shí)生活中,中文自由短文本大量出現(xiàn),而短文本處理技術(shù)在話題跟蹤與發(fā)現(xiàn)、流行語(yǔ)分析、輿情預(yù)警等領(lǐng)域都得到廣泛的發(fā)展和利用。雖然信息抽取技術(shù)在一些領(lǐng)域已經(jīng)得到了很好的研究應(yīng)用,但針對(duì)中文自由短文本數(shù)據(jù)的抽取技術(shù)的研究則比較少。該文主要總結(jié)了當(dāng)前中文短文本信息抽取方法的研究情況及存在的問(wèn)題。提出了一種基于HNC的中文自由短文本信息抽取中的過(guò)濾、分類(lèi)、聚類(lèi)、模板生成等算法的開(kāi)發(fā)及對(duì)其進(jìn)行研究。
關(guān)鍵詞:短文本;信息抽取
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)15-3691-02
近年來(lái),大量短文本,如電子郵件,網(wǎng)絡(luò)聊天,網(wǎng)絡(luò)博客等已經(jīng)成為信息交流和情感溝通手段,深刻改變了我們的生活習(xí)慣和溝通方式。中文的自由短文在比如網(wǎng)絡(luò)輿情與公安預(yù)警等很多領(lǐng)域都有廣闊發(fā)展前景,雖然英文信息提取技術(shù)得到很好研究應(yīng)用,中文的信息抽取研究較晚,但也取得了一些效果。孫斌在他的博士論文[1]中提出了一種對(duì)事件抽取的研究,并且提出了一種InfoX的原型系統(tǒng)。對(duì)人民日?qǐng)?bào)語(yǔ)料庫(kù)中調(diào)職、辭職和任命三個(gè)事件,召回分別為50%,44%,42%,精度為75%,47%,54%,取得了一些成績(jī)。
但相對(duì)長(zhǎng)度短,結(jié)構(gòu)各異的中文短文本的提取技術(shù)研究則相對(duì)更少。
1中文信息抽取方法的研究
目前對(duì)中文信息抽取方法的研究主要有以下四種。
1.1基于頻繁的詞集的方法
該方法的基本思想是,利用關(guān)鍵字出現(xiàn)在多少確定,雖然關(guān)鍵字在一個(gè)短文中出現(xiàn)的次數(shù)少,但是在總的預(yù)料中依然會(huì)出現(xiàn)很多次。Sebastiani利用該方法對(duì)數(shù)字圖書(shū)館中關(guān)于摘要部分進(jìn)行了適當(dāng)?shù)谋容^[2],最后指出這個(gè)方法比較適合中文短文本的分類(lèi),但對(duì)于噪聲大的短文準(zhǔn)確度依然不高。
1.2模板匹配法
指在一些特定的模式指導(dǎo)下對(duì)于某類(lèi)事件的識(shí)別和抽取,而這個(gè)特定的模式是可以通過(guò)人工或自動(dòng)方法來(lái)取得的。采用這個(gè)方法來(lái)進(jìn)行事件抽取的IE系統(tǒng)一般由兩個(gè)模塊組成分別是信息抽取模塊和模式獲取模塊。
1.3基于語(yǔ)義的方法
song等人提出了一種基于空間概念[3]和流動(dòng)的信息分類(lèi)的方法。該方法利用概念之間的關(guān)系來(lái)確定的語(yǔ)義關(guān)系,并使用此語(yǔ)義關(guān)系來(lái)指導(dǎo)分類(lèi),以達(dá)到短文本分類(lèi)結(jié)果,這個(gè)方法能夠得到比一般的向量空間模型好的效果。zelikovitz等提出了一個(gè)使用潛在語(yǔ)義索引來(lái)對(duì)短文本分類(lèi)方法[4]。該方法定義了潛在的語(yǔ)義索引詞之間的語(yǔ)義聯(lián)系,從而提高了文章分類(lèi)的準(zhǔn)確性。
1.4基于本體的信息抽取
在CNKI中就是使用這種信息抽取的方法,主要原理是,利用本體這個(gè)概念抽取出關(guān)鍵字,然后在計(jì)算本體概念中這些字詞之間的相似度[5]。本體論描述某個(gè)領(lǐng)域中所有事物和事物之間的關(guān)系,但只有這些認(rèn)識(shí)能得到一個(gè)很好的信息抽取嗎?答案是否定的。即使我們已經(jīng)知道了客觀世界中某些事物有一定屬性,該事物也有一定的屬性(例如,狗有四條腿,是一種哺乳動(dòng)物),我們?nèi)匀徊恢肋@一段文字中提取文字說(shuō)明是本體(狗),以及哪些文字或段落描述這個(gè)事物(狗)的屬性,更不能由此推理知道短文介紹的是一種哺乳動(dòng)物。
由此可知信息提取的現(xiàn)有技術(shù)不能滿足要求。無(wú)論從可擴(kuò)展性和準(zhǔn)確性方面,中文短文本信息提取還有待進(jìn)一步研究。尤其是存在如精度不高,可擴(kuò)展性不強(qiáng),高緯度的數(shù)據(jù)問(wèn)題等。如何高效、準(zhǔn)確提取信息成為短文本信息抽取技術(shù)的發(fā)展難點(diǎn),由此文中提出了一種基于中文的HNC的短文本信息提取,過(guò)濾,分類(lèi),聚類(lèi),模板生成算法的開(kāi)發(fā)和研究。
單個(gè)短文本由于信息有限,其有價(jià)值信息和相關(guān)屬性有效特征都很難挖掘,因此,我們所說(shuō)的中文自由短文本信息抽取一般都是針對(duì)整個(gè)短文本語(yǔ)料,從大量的短文語(yǔ)料庫(kù)中進(jìn)行信息抽取,通過(guò)詞與詞之間的相關(guān)性,挖掘有價(jià)值的信息。這樣就是因?yàn)槎涛耐诰虿皇菍?duì)某個(gè)短文而是對(duì)語(yǔ)料庫(kù)而言,所以我們使用的抽取技術(shù)與傳統(tǒng)信息處理技術(shù)是不同的,相應(yīng)的關(guān)鍵技術(shù)也有較大差異。
2短文本信息抽取流程
圖1顯示了本文研究的短文本信息抽取流程。
首先,我們進(jìn)行信息的收集,這些信息來(lái)源很多比如先確定大量BBS、QQ聊天信息、論壇等諸如此類(lèi)有大量短文本網(wǎng)站,然后根據(jù)當(dāng)前熱點(diǎn)確定監(jiān)控內(nèi)容從而再確定需要跟蹤的熱點(diǎn)。采用信息自動(dòng)收集和人工干預(yù)模式相結(jié)合的網(wǎng)絡(luò)信息采集,對(duì)網(wǎng)絡(luò)采集到的信息要進(jìn)行初步處理,即過(guò)濾掉某些與熱點(diǎn)無(wú)關(guān)的文本和語(yǔ)句;按主題自動(dòng)分類(lèi)、聚類(lèi)、淺層語(yǔ)義分析等。
其次,利用HNC知識(shí)和語(yǔ)義詞典,對(duì)經(jīng)過(guò)預(yù)處理的信息進(jìn)行深層語(yǔ)義分析(句類(lèi)分析),包括:主語(yǔ)義塊的識(shí)別、命名實(shí)體識(shí)別、語(yǔ)義消歧、指代解析等。最后經(jīng)過(guò)概念建模、語(yǔ)義模板生成、模板匹配得到最終的短文本的結(jié)構(gòu)化信息。
根據(jù)圖1,提出了如下5點(diǎn)主要技術(shù)。
(1)短文本語(yǔ)義詞典的構(gòu)建
語(yǔ)義詞典在自然語(yǔ)言處理研究中占有相當(dāng)關(guān)鍵的位置。首先從語(yǔ)料庫(kù)中抽取待聚類(lèi)詞的上下文相關(guān)的詞,并利用信息增益對(duì)特征詞進(jìn)行選擇,然后借鑒信息檢索模型中的TFIDF計(jì)算特征向量中每一個(gè)特征的權(quán)重,最后將構(gòu)造好的待聚類(lèi)詞的特征向量作為自組織映射神經(jīng)網(wǎng)絡(luò)SOM的輸入,經(jīng)過(guò)網(wǎng)絡(luò)的迭代計(jì)算將不同類(lèi)別的詞映射在SOM輸出網(wǎng)格的不同結(jié)點(diǎn)。
(2)短文本多余信息過(guò)濾
短文本多余檢測(cè)與一般文本多余檢測(cè)最大的不同在于前者要求具有實(shí)時(shí)性比較高,要求系統(tǒng)能在有限時(shí)間內(nèi)快速處理發(fā)布、更新的短文本語(yǔ)料,這就要求短文本多余檢測(cè)比一般文本多余檢測(cè)具有更好的擴(kuò)展性和更高的效率。
圖1
(3)識(shí)別短文本中有特定含義的字符串
隨著社會(huì)發(fā)展出現(xiàn)了越來(lái)越多的新的詞語(yǔ),在短文本語(yǔ)料庫(kù)中就有這些詞,我們指的短文本中特定含義的字符串也叫有意義串指的就是這些新的縮寫(xiě)語(yǔ)、術(shù)語(yǔ)、詞匯等。對(duì)短文本語(yǔ)料中有意義串的挖掘,不僅能幫助有關(guān)部門(mén)及時(shí)掌握當(dāng)前社會(huì)輿情,民生關(guān)注,社會(huì)熱點(diǎn),從而發(fā)現(xiàn)社會(huì)問(wèn)題,為維護(hù)社會(huì)穩(wěn)定制訂相關(guān)政策等提供依據(jù),還為語(yǔ)義模板的構(gòu)造的提供了素材。
根據(jù)HNC理論和有意義串局部原理合并同義詞和近義詞,構(gòu)造四個(gè)二維表:文件-詞二維表。
時(shí)間-詞二維表。
主題-詞二維表
地點(diǎn)-詞二維表。
(4)語(yǔ)義標(biāo)注
實(shí)驗(yàn)采用HNC和語(yǔ)義角色相結(jié)合的語(yǔ)義標(biāo)注策略。
第一步,語(yǔ)義塊感知和句類(lèi)假設(shè)。
第二步,句類(lèi)檢驗(yàn)。運(yùn)用句類(lèi)知識(shí)對(duì)假設(shè)的句類(lèi)進(jìn)行合理性分析,最終判定句子的句類(lèi);
第三步,分析語(yǔ)義塊構(gòu)成。在句類(lèi)確定的前提下,對(duì)各個(gè)語(yǔ)義塊的內(nèi)部語(yǔ)義結(jié)構(gòu)進(jìn)行分析。
(5)關(guān)于短文本語(yǔ)義的分類(lèi)聚類(lèi)算法的設(shè)計(jì)
由于短文本中關(guān)鍵詞出現(xiàn)的次數(shù)不多,即難從“理解”的層次處理用戶(hù)需求。針對(duì)這些問(wèn)題,本文設(shè)計(jì)了根據(jù)分類(lèi)原理研究的基于語(yǔ)義的分類(lèi)聚類(lèi)算法。
通過(guò)以上分析和流程,可得到如下效果:
(1)適用了互聯(lián)網(wǎng)中大量中文短文本信息自動(dòng)聚類(lèi)、主題檢測(cè)、自動(dòng)獲取、專(zhuān)題聚焦的算法。(2)實(shí)現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)測(cè)和分析需求,對(duì)帖吧、聊天室等分析研判后,生產(chǎn)出標(biāo)準(zhǔn)化的人、事、物、組織、地點(diǎn)等信息的情報(bào)產(chǎn)品。為公安全面掌握輿情動(dòng)態(tài),做出正確決策,提供分析依據(jù)。(3)F-指數(shù)有明顯提高。從而達(dá)到一定效果。
參考文獻(xiàn):
[1]孫斌.繼承—?dú)w納機(jī)制及其在對(duì)象系統(tǒng)和信息提取技術(shù)中的應(yīng)用[D].北京大學(xué)博士論文,2000,6.
[2] F.Sebastiani. Machine Learning in Automated Text Categorization. ACM。Computing Surveys, 2002,34(1):1-47.
[3] D.Song,P.D.Bruza. Based on Information Inference.In proceedings of the 14th International Symposium on Methodolog- ies for Intelligent Systems,2003: 297-306.
[4] Sarah Zelikovitz. Transductive LSI for Short Text Classification Problems. Proceedings of the 17th International FLAIRS Conference,2004.
[5]熊云波.文本信息處理的若干關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué)博士論文,2006.