林 波,林偉佳,郭靖羽,丁東輝,黃 翰
(1.中國移動通信集團廣東有限公司,廣東 廣州 510006;2.華南理工大學軟件學院,廣東 廣州 510006)
互聯(lián)網(wǎng)在給予人們豐富信息的過程中,也給予人們急切獲取第一手重要熱點信息帶來的困擾。在信息爆炸的時代,人們被動地接受大量無效的垃圾信息,也花費大量的時間和精力去尋找關注感興趣的網(wǎng)絡話題[1-2]。盡管目前的搜索引擎能在一定程度上引導用戶去獲取特定的信息,針對時效性較高的網(wǎng)絡話題,還是無法提供較為深入的隱含話題信息挖掘以及話題跟蹤的統(tǒng)計顯示。人們迫切需要在網(wǎng)絡信息搜索方面能提供較為全面的網(wǎng)絡話題挖掘與跟蹤的服務,能夠無論從時間線或者熱門程度方面都能有直觀的話題信息演化過程。人們不僅需要獲知網(wǎng)絡話題所涉及的概括性描述,也希望從中獲知其他人針對該話題的具體細節(jié)評價和討論。
國外針對短文本的提取已經(jīng)有很多指導性工作。例如Mehran Sahami[3]等采用以Web 語義核函數(shù)為基礎方法來抽取概念類似的短語,應用于文檔的信息語義概括。D.Metaler[4]等從相似性的度量角度來挖掘發(fā)現(xiàn)短文本之間的關聯(lián)程度。W.Yih[5]等通過對前人的工作進行方法完善,結合當時Web 的發(fā)展趨勢適時擴展Web 語義核函數(shù),深化了語義核函數(shù)的影響。Xuan-Hieu Phan[6]等人為了解決短文本的稀疏性問題,嘗試性地提供采用隱匿的文檔主題來建立較為廣泛的模型架構。J.Hyneck 擴展了Apriori 的詞集分類方法,并應用于文獻的文檔分類工作中。D.Song 以領域知識庫的建立作為基本出發(fā)點,通過采集消息流和研究并預測其趨向來對短文本實現(xiàn)分類工作。S.Tant[7]等結合專利知識數(shù)據(jù)以及術語庫來進行跨領域的術語提取。Dacheng Liu[8]等提出半自動的語料分割器針對專利知識數(shù)據(jù)進行專利術語的信息抽取。K.K.Bharti[9]等通過對文本不同維度的特征重要度進行排序,提出混合維度的文本特征選擇方法來改進文本特征表示。
由于中文漢字的復雜性以及前期缺乏相關研究,學者未針對短文本進行系統(tǒng)分析,國內針對短文本的研究相對比較晚,其研究方向基本可以分為2 類:
1)基于詞語規(guī)則的方法?;谠~語規(guī)則方法本質是總結并分析不同詞語之間相互關系來進行規(guī)則歸納,并對待處理文本執(zhí)行后續(xù)工作。例如吳薇[10]利用正則表達式規(guī)則初始化步驟來對海量文本實現(xiàn)規(guī)則過濾。王鵬[11]使用詞語之間的依存關聯(lián)來進行詞語的提煉,進而擴充文本的基本維度屬性。王細薇[12]首先對短文本抽象概念詞進行統(tǒng)計,然后使用詞語的關聯(lián)關系對候選詞實現(xiàn)表征擴充。胡吉祥[13]基于短文本中詞頻或短語串頻的統(tǒng)計信息來進行細粒度信息的提取以及特征表示。
2)基于文本語義的規(guī)則方法?;谡Z義方法本質是搜索通用知識庫來進行文本語義信息的抽取。如寧亞輝[14]首先利用《知網(wǎng)》來獲取不同層次的基礎詞匯本體,在這些候選種子詞的基礎上采用中心鄰近的分類方法。盛宇利[15]基于“熟悉原理”、“典型原理”的心理認知學知識對文本進行初步的預處理,包括引入白名單詞庫以及典型詞庫來進行分詞,提高詞語的辨別準確度。王永恒利用詞語語義特征構建了特征網(wǎng)絡圖,然后通過描述網(wǎng)絡圖的中心鄰近程度來實現(xiàn)分類。
本文以文本短語為基本語義信息單位,針對中文短語抽取進行研究,提出基于雙層語料過濾器(詞性過濾器與短語擴展規(guī)則過濾器)的方法來進行文本語料的冗余信息過濾,并抽取文本主題短語信息。其中詞性過濾器從通用的中文本質的詞性規(guī)則出發(fā)來進行初步候選短語過濾,短語擴展規(guī)則過濾器從特點語料知識的統(tǒng)計分析規(guī)則來進行二次過濾。
從中文的自然語言角度分析,漢語的語言結構的語義表達單元為:漢字-詞匯-短語-句子-段落-文檔[16]。其語義單元的級別越高,其包含的信息量也越多。由于漢語本身并非只有漢字的語義信息進行拼接,其信息內容本身存在上下文關系,因此隨著語義表達單元包含的基本語素(漢字)單元數(shù)目增加,其信息內容的豐富程度遠超于線性增長,其信息粒度也是隨著層次的增加而逐步增大[17]。在日常的人類社會中,句子是作為常見的溝通交流的語義表達單元,能夠清晰傳遞信息。句子盡管可作為基本的信息載體單元,但由于句子受限于客觀的語法結構,其中也包含了大量冗余的無價值信息。其語義表達不夠簡練,人們理解句子的語義也是需要無意識地快速篩選出句子的主干意思來進行消息接收。
本文考慮采用相比句子較低層次的短語來作為語義表達單元。中文短語串相對于句子而言也有類似的詞法結構(主謂結構、動賓結構等),在語義表達方面滿足最基本的要求。中文短語串相對于低層次級別的詞匯,其信息豐富量更多,短語串中的詞匯間通過特定的組合搭配結構,能夠表達出遠多于純粹詞匯之間拼湊而成的信息。
目前在文本特征表示步驟中,詞匯作為文檔的特征項實際上僅僅作為一個標簽屬性值的形式存在,詞匯自身并沒有為特征表征提供更多的語義信息。然而通過短語抽取,在文本特征表達的同時還可以直觀地理解文本的語義含義。在探索和挖掘中文短語結構組成的同時,有助于對中文自然語言處理研究提供可參考性的意見。
語料過濾器主要是基于中文短語本質的詞性規(guī)則組成方式和基于統(tǒng)計分析理論來進行設計。
1)從詞性規(guī)則組成方式:適用于大多數(shù)符合中文詞法語法規(guī)則的中文短語,具有一般普遍性。
2)從統(tǒng)計分析理論出發(fā):適用于針對某一類專有知識資料的語料過濾。由于針對特定某類的專有知識的短語特征較為明顯,許多詞語形成固定的短語搭配,容易從統(tǒng)計角度來獲取詞語之間的基于前后位置的頻次關聯(lián)關系。
圖1 短語抽取方法的主要處理步驟流程
短語抽取方法的主要處理流程步驟(見圖1):
1)預處理階段。在預處理階段主要包括了常規(guī)的文本分析的預處理步驟,包括中文分詞、停用詞處理和詞性標注。針對本文需要處理的文本語料由于其專有性比較強,語料中存在大量的專有名詞,因此引入另外的擴展詞庫來提高中文分詞的準確度和精度,擴展詞庫可不斷進行知識術語關鍵詞的存儲和更新維護。
2)第一層過濾器處理階段。第一層語料過濾器的輸入文本是基于結構化的文本集合,該文本集合由最基本的中文詞語所構成,每個詞語都已經(jīng)標注了詞性。其中由于并非所有詞性的詞都能構成句子的細粒度短語,因此重點研究其中的名詞、形容詞、動詞和副詞4 種詞性的詞語,并根據(jù)中文的短語語法知識歸納出這4 種詞性短語所構成的所有可能形式。從短語的結構考查分析,其中并列短語、偏正短語、動賓短語、主謂短語構成了句子的主要短語信息,因此根據(jù)這4 種基本短語規(guī)則組成方式作為第一層語料過濾器的模式匹配規(guī)則。通過輸入短語規(guī)則組成的正則表達式,建立了相對應的第一層語料過濾器的短語抽取確定性有限狀態(tài)自動機(Deterministic Finite Automaton,DFA),進而作為具體的算法處理來得到初步的短語篩選結果,這部分短語篩選結果將作為第二層語料過濾器的輸入樣本。
3)第二層過濾器處理階段。第二層語料過濾器是基于詞語串頻的統(tǒng)計分析而建立的。詞語串頻信息是在測試樣本中指前后2 個詞同時出現(xiàn)的頻次,同時包括2 個詞語的字符內容以及位置信息。由于第一層過濾器是基于短語本質的規(guī)則組成方式而建立,其抽取出來的短語結果中有部分顯然不是實際的短語,會出現(xiàn)信息冗余或者信息截斷的現(xiàn)象。因此,針對包含了大量固定短語搭配的專有語料,分析詞語串頻次的信息來獲取其中固定短語串的詞語組成方式。在對所有初次篩選過后的短語結果中,以詞語為單位來統(tǒng)計詞語串頻信息,然后在短語結果中選取候選種子詞,并從最基本的候選種子詞出發(fā),從前向和后向2 個方向進行短語擴展,其擴展的主要判斷依據(jù)也是依賴詞語串頻信息。當短語擴展達到了擴展的終止條件,則停止擴展步驟,獲取最終的短語抽取結果。
第一層語料過濾器是從短語結構構成的詞性角度出發(fā),采用正則表達式的規(guī)則來進行數(shù)學模型描述。詞性過濾器的設計是通過DFA 的處理來進行實現(xiàn)。
筆者從搜狗實驗室下載了100 篇較短的新聞語料文章,其中包含的句子數(shù)目為1 610 個,從中標注了句子的短語數(shù)目,進行統(tǒng)計分析,中文短語的含詞量基本分布在1~7 個,因此以7 個詞語作為短語長度的上限,見圖2。
圖2 搜狗新聞語料含詞量占比
對其中的語料短語進行結構上的分析,短語的詞性包括4 種詞語詞性:名詞n、動詞v、形容詞adj 和副詞adv。參考目前的中文漢語語法,用于表達中文語義的短語類型主要分類如下:
1)并列短語。地位平等,互不修飾,其形式包括:n+n/v+v/adj+adj/adv+adv。
2)偏正短語。前一個詞語對后一個詞語進行修飾限制,其形式包括:adj+n/adv+adj/adv+v。
3)動賓短語。動詞和賓語是支配關系,其形式包括:v+n/v+v/v+adj。
4)主謂結構。形式包括:n+v/n+adj。
正則表達式(Regular Expressions)的本質核心是通過字符的格式匹配來進行詞法分析。目前已經(jīng)被ISO 國際標準組織批準認定,已經(jīng)廣泛應用到信息技術領域,許多計算機應用平臺和腳本語言支持正則表達式的詞法規(guī)則?;谏鲜鲋形亩陶Z的長度上限為7個詞語,根據(jù)短語結構的詞性組成內容,在短長度內能夠枚舉相對可能出現(xiàn)的詞性短語組成的正則表達式:
1)以名詞作為短語首詞:
2)以動詞作為短語首詞:
3)以形容詞作為短語首詞:
4)以副詞作為短語首詞:
以上基本包含了7 個或7 個詞語長度以下的短語結構的組成方式,通過3.2 節(jié)中的DFA 處理和代碼實現(xiàn)來獲取初步的短語抽取結果。
基于3.1 節(jié)所列舉的基于詞性的正則表達式,設計確定性有限狀態(tài)自動機來進行短語的抽取。圖3~圖6 分別為以不同詞性(n,v,adj,adv)為開頭的DFA 匹配處理過程。
圖3 以名詞n 為開始的有限狀態(tài)自動機
圖4 以動詞v 為開始的有限狀態(tài)自動機
其中,在以上確定性有限狀態(tài)自動機的狀態(tài)中的轉移條件如下:
1)n:匹配到名詞n。
2)v:匹配到動詞v。
3)adj:匹配到形容詞adj。
4)adv:匹配到副詞adv。
5)c1:匹配到除了adv 和v 以外的詞。
6)c2:匹配到除了n、v、adj 和adv 以外的詞。
7)c3:匹配到除了adj 和n 以外的詞。
圖5 以形容詞adj 為開始的有限狀態(tài)自動機
圖6 以副詞adv 為開始的有限狀態(tài)自動機
在代碼實現(xiàn)中,采用DFA 作為短語文本匹配的主要實現(xiàn)方式,并得到最初的短語抽取實驗結果。由于在進行詞性規(guī)則匹配的過程中,詞語的詞性有限并且可枚舉,其狀態(tài)轉移條件相對簡單,使用DFA 能夠直觀地表示整個詞性規(guī)則匹配的過程。同時DFA 也具有良好的擴展性,例如在進行詞性規(guī)則重構時出現(xiàn)了另外的詞性需要處理(介詞、代詞等),只需要在原有的DFA 基礎上增加狀態(tài)轉移條件即可完成擴展。
詞語串頻信息包括前綴詞語串頻集合和后綴詞語串頻集合。前綴詞語串頻集合是指候選種子詞的前綴詞語所組成的集合,包括前綴詞語的詞語內容以及出現(xiàn)頻次。本文用數(shù)學集合進行表示,對于某一種子詞t,前綴詞語串頻集合p_set(prefix-set)定義如下:
其中,pwi是第i 個前綴詞,pfi是第i 個前綴詞出現(xiàn)的頻次。
類似地,后綴詞語串頻集合是指候選種子詞的后綴詞語所組成的集合,也包含了詞語的詞語內容以及出現(xiàn)頻次。對于某一種子詞t,后綴詞語串頻集合s_set(suffix-set)定義如下:
其中,swi是第i 個后綴詞,sfi是第i 個后綴詞出現(xiàn)的頻次。
對于種子詞,最頻繁前綴詞是前綴詞語集合中頻次最高的前綴詞,最頻繁后綴詞是后綴詞語集合中頻次最高的后綴詞。其定義分別如下:
前綴詞最高頻比max_p_freqt是最頻繁前綴詞的頻次與所有前綴詞頻次求和的比率。
后綴詞最高頻比max_s_freqt是最頻繁后綴詞的頻次與所有后綴詞頻次求和的比率。
針對目前熱門詞“股市”在網(wǎng)絡上進行搜索,摘錄了一些句子文本集合進行舉例說明。
1)安本亞洲高管周二警告稱,中國股市資金流動情況已經(jīng)“有點像賭場”。
2)因全球股市上漲和美元走堅,打擊了黃金作為避險資產(chǎn)的魅力。
3)股市市場是已經(jīng)發(fā)行的股票轉讓、買賣和流通的場所,包括交易所市場和場外交易市場2 大類別。
4)繁榮股市幫助實體經(jīng)濟擴大股權融資、降低過高負債、減少財務成本創(chuàng)造了條件。
5)比如,16 日中國股市上漲,創(chuàng)5 年來的新高,就在于市場預期央行降準降息會陸續(xù)出臺。
6)在其看來,股市上漲的根本原因是均值回歸。
7)近日有一種觀點認為,股市上漲與樓市低迷是密不可分的,是樓市釋放了大量資金,提供了強有力的貨幣基礎。
8)股市行情大盤指數(shù)飆高,同時余額寶收益受影響。
9)GDP 在增長,卻導致股市低迷。
通過對文本集合進行分詞并統(tǒng)計詞語串頻信息,候選種子詞“股市”的詞語串頻信息如下(見圖7):
圖7 基于種子詞“股市”的前綴詞語串頻集合和后綴詞語串頻集合
前綴詞語串頻集合p_set 和后綴詞語串頻集合s_set 包含了種子詞在上下文中的詞語串共現(xiàn)的信息。p_set 和s_set 的集合越大,表示該種子詞越容易和其他詞語進行組合,從而完成詞語的擴展。然而對于文本的大規(guī)模統(tǒng)計分析而言,p_set 和s_set 中每個前綴詞語或者后綴詞語相對應的頻次pf 和sf 大小決定了該前綴詞語或者后綴詞語是否會成為種子詞擴展。本文定義一個閾值thresholdt來進行pf 和sf 的對比,當pf 和sf 的值高于閾值threshold,則判斷前綴詞語或者后綴詞語符合短語擴展的條件從而進行短語擴展。假設qi,t為布爾變量對應于某個前綴或后綴詞語能否作為種子詞t 的擴展詞來進行短語擴展,那么:
因此對于4.1 節(jié)的例子,當threshold=2 時,那么“股市”作為其種子詞將會在文本1)中擴展為“中國股市”,在文本2)、6)、7)中將擴展為“股市上漲”,在文本5)中將擴展為“中國股市上漲”。然而當threshold=4 時,“股市”作為其種子詞只能擴展為在文本2)、5)~7)中擴展成為“股市上漲”。
基于4.2 節(jié)對于種子詞的分析,p_set 和s_set 的集合大小越大越容易成為種子詞。單純計算p_set和s_set 的集合元素的個數(shù)進行求和是有所欠缺考慮的。
假設某種子詞p 的p_set 元素個數(shù)為10,s_set 的元素個數(shù)為2,其元素個數(shù)總和為12。然而同一短語中的另外一個種子詞q 的s_set 元素個數(shù)為5,s_set的元素個數(shù)為2,其元素個數(shù)總和為7。直觀而言,在集合元素大小的比較中,種子詞q 與種子詞p 相比處于劣勢。從詞語擴展性的角度而言,種子詞p 很有可能作為其他詞語的后綴詞而出現(xiàn)(因為其p_set 的元素個數(shù)遠遠大于s_set 的個數(shù)),其后綴擴展性比較差,而種子詞q 的p_set 與s_set 的元素個數(shù)相當,因此種子詞q 容易作為文本短語中位置處于中心的詞,起著聯(lián)系前后的作用。因此在候選種子詞的選擇上,仿照笛卡兒乘積的思想,選取p_set 和s_set 的集合元素的個數(shù)分別加上1,再進行乘積計算作為判斷依據(jù),用candidate-value 表示:
2 個乘數(shù)之所以要加上1,主要是避免某些詞語的p_set 或者s_set 中元素個數(shù)為0 直接導致其candidate-value 的值為0,但是實際上該詞語在進行候選種子詞時依然有其貢獻度。
假設seed_word 是所需尋找的候選種子詞用于擴展,{t1,t2,...,tn}是短語中的詞語集合,那么:
在選取種子詞后就能夠對短語進行擴展,因此其主要的第二層語料過濾器的流程步驟如下:
1)輸入中間短語結果。
2)遍歷短語中每一個詞,統(tǒng)計每個詞語的詞語串頻信息,包括得到p_set 和s_set,max_pw,max_p_freq,max_sw,max_s_freq。
3)根據(jù)公式(10)選取候選種子詞。
4)進行并行操作:向前進行短語擴展和向后進行短語擴展。在擴展的過程中,如果達到短語的擴展邊界則認為達到擴展終止條件,或者當找不到前綴詞或者后綴詞作為新的擴展種子詞時則停止擴展。
5)輸出短語抽取結果。
第二層語料過濾器的流程步驟如圖8 所示。
圖8 第二層語料過濾器的流程步驟
第二層語料過濾器的偽代碼如下:
算法1 第二層語料過濾器算法描述
本文根據(jù)第一層語料過濾器設計了DFA 進行初步的短語抽取,同時根據(jù)算法1 設計第二層語料過濾器,并對目前已有的文本數(shù)據(jù)資源進行實驗結果分析。算法采用Java 語言編寫實現(xiàn)。
本實驗運行在CPU 為Intel(R)Core(TM)i5-3210M,內存為DDR3 1333,4 GB,顯卡為NVIDIA Ge-Force GT 540M,硬盤容量為500GB,操作系統(tǒng)為Window 7 x64 的機器上(見表1)。
表1 軟硬件系統(tǒng)環(huán)境
該文本數(shù)據(jù)資源來源于廣東移動公司的投訴文本記錄(已經(jīng)對移動客戶的私隱信息進行消除),抽取了其中500 條投訴文本記錄,并逐條擬定其關鍵短語并進行實驗對比。該500 條投訴文本記錄分成10組進行測試。平均每條投訴文本記錄的長度為51.7個漢語字符。
采用準確率、召回率來評價實驗的結果,定義如下:
其中,{result_phrase}是自動抽取的關鍵短語結果,{tag_phrase}是筆者擬定的關鍵短語結果。
表2 是基于實驗結果的數(shù)據(jù),圖9~圖11 是實驗的P 值、R 值、F1 值曲線圖。
表2 基于10 個結果測試集的P 值、R 值、F1 值
圖9 基于10 組結果測試集的P 值曲線圖
圖10 基于10 組結果測試集的R 值曲線圖
圖11 基于10 組結果測試集的F1 值曲線圖
從實驗結果來看,雙層語料過濾器在查全率的效果比較優(yōu)異,R 值基本上都位于0.8 以上(除了第6組測試數(shù)據(jù)比較低),這說明抽取出來的短語集合里包含了大多數(shù)預期中的短語。
P 值基本在0.4~0.6 之間波動,主要原因是在文本中會出現(xiàn)一些修飾意義比較高的短語成分,這些成分對于文本的表達起著補充的作用,但并非文本的主旨意思。然而雙層語料過濾器也會把這些修飾的短語提取出來,如何進一步通過語義的方法把這些噪聲信息剔除出去是值得研究的改進之處。
雙層語料過濾器目前只考慮了4 種詞性的規(guī)則關系,具有較強的擴展性。對于不同的文檔數(shù)據(jù)集,通過分析文本數(shù)據(jù)詞性規(guī)則還能夠加入其他詞性的詞語進行規(guī)則重構,進一步提高P 值以及F1 值。
本文首先對目前在文本信息抽取研究領域進行了介紹和分析,梳理了目前技術發(fā)展的主流趨勢以及遇到的瓶頸問題,并基于中文短語串在文本主題語義表達上的優(yōu)勢,論證了短語串在細粒度主題抽取方面的重要性,為下一步對文本片段的信息抽取奠定了一定的基礎。從語料知識的通用性和專有性2 方面出發(fā),設計了雙層的語料過濾器。第一層語料過濾器是從通用的語料詞性規(guī)則組成出發(fā),研究了最為常見的短語搭配形式,枚舉所有可能的詞性組成規(guī)則,通過分詞后對文本片段進行詞性分析處理,過濾掉規(guī)則以外的冗余信息。第二層語料過濾器是從語料知識的統(tǒng)計出發(fā),研究了某一專有語料知識在短語構成中特有的短語規(guī)則組成形式,在第一層語料過濾器的結果的基礎上選取候選詞進行短語擴展,直至滿足擴展終止條件,最終完成短語抽取。雙層語料過濾器不需要對語料樣本進行先行的知識庫輸入或者詞性語義的模型建立,通用性較強。隨著語料樣本的規(guī)模擴大,語料過濾器的短語抽取效果會更好。
[1]中國互聯(lián)網(wǎng)絡信息中心.第35 次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[DB/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/201502/P020150203551802054676.pdf,2015-03-26.
[2]魯明羽,姚曉娜,魏善嶺.基于模糊聚類的網(wǎng)絡論壇熱點話題挖掘[J].大連海事大學學報(自然科學版),2008,34(4):52-54.
[3]Sahami Mehran,Heilman Timothy D.A Web-based kernel function for measuring the similarity of short text snippets[C]// Proceedings of ACM the 15th International Conference on World Wide Web.2006:377-386.
[4]Metaler D,Dumais S,Meek C.Similarity measures for short segments of text[C]// European Colloquium on IR Research-ECIR.2007:16-27.
[5]Yih W,Meek C.Improving similarity measures for short segments of text[C]// National Conference on Artificial Intelligence-AAAI.2007:1489-1494.
[6]Phan Xuan-Hieu,Nguyen Le-Minh,Horiguchi Susumu.Learning to classify short and sparse Text&Web with hidden topics from large-scale data collections[C]// World Wide Web Conference Series-WWW.2008:91-100.
[7]Tantanasiriwong Supaporn,Haruechaiyasak Choochart,Guha Sumanta.A comparative study of key phrase extraction for cross-domain document collections[C]// The 16th International Conference on Asia-Pacific Digital Libraries.2014:393-398.
[8]Liu Dacheng,Peng Zhiyong,Liu Bin,et al.Technology effect phrase extraction in Chinese patent abstracts[C]//Web Technologies and Applications,Lecture Notes in Computer Science.2014,8709:141-152.
[9]Bharti Kusum Kumari,Singh Pramod Kumar.Hybrid dimension reduction by integrating feature selection with feature extraction method for text clustering[J].Expert Systems with Applications,2015,42(6):3105-3114.
[10]吳薇.大規(guī)模短文本的分類過濾方法研究[D].北京:北京郵電大學,2007.
[11]王鵬.文本分類中利用依存關系的實驗研究[J].計算機工程,2010,46(3):131-133.
[12]王細薇.基于特征擴展的中文短文本分類方法[J].計算機應用,2009,29(3):843-845.
[13]胡吉祥.基于頻繁模式的消息文本聚類研究[D].北京:中科院研究生院,2006.
[14]寧亞輝.基于領域詞語本體的短文本分類[J].計算機科學,2009,36(3):142-145.
[15]盛宇利.自然語言理解心理學在短文本分類中的實證研究[J].現(xiàn)代情報,2009,29(8):4-7.
[16]桂卓民.基于事件的多文檔自動文摘系統(tǒng)的研究[D].武漢:華中師范大學,2010.
[17]馮琴榮,苗奪謙,程昳.決策表屬性約簡的相對劃分粒度表示[J].小型微型計算機系統(tǒng),2008,29(12):2305-2308.