宋曉雷,王素格,2,李紅霞
(1. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;
2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006)
隨著Internet的迅猛發(fā)展和電子商務(wù)的不斷普及,客戶評(píng)論的數(shù)量迅速增長(zhǎng),僅靠人名、地名、機(jī)構(gòu)名這三種傳統(tǒng)的命名實(shí)體識(shí)別越來(lái)越不能滿足文本傾向分析中關(guān)鍵信息抽取的需要,尤其是產(chǎn)品的相關(guān)信息抽取的研究。因此,針對(duì)這一問(wèn)題國(guó)內(nèi)外學(xué)者[1-9]開(kāi)展了相關(guān)的研究。
在國(guó)際評(píng)測(cè)中,TREC BlogTrack以及NTCIR等將產(chǎn)品命名實(shí)體識(shí)別作為其任務(wù)之一。在國(guó)內(nèi)首次評(píng)測(cè)COAE2008[4]中,有20個(gè)國(guó)內(nèi)知名研究機(jī)構(gòu)參與了此次評(píng)測(cè),其中有13個(gè)單位參加了任務(wù)3產(chǎn)品屬性抽取,文獻(xiàn)[5]和文獻(xiàn)[6]分別采用最大熵模型和CRF模型取得了不錯(cuò)的成績(jī);然而采用有監(jiān)督的學(xué)習(xí)方法[5-6]進(jìn)行產(chǎn)品命名實(shí)體識(shí)別時(shí)需要大量的標(biāo)注語(yǔ)料,且費(fèi)時(shí)較多。文獻(xiàn)[7-8]都是利用外部資源信息來(lái)構(gòu)造相應(yīng)的詞典,但詞典的構(gòu)建本身是一個(gè)難題。趙軍等[1]在2006年提出了一種基于層級(jí)隱馬爾可夫模型的產(chǎn)品命名實(shí)體識(shí)別方法,該方法很好地處理了多尺度嵌套序列問(wèn)題;Minqing Hu[9]使用關(guān)聯(lián)規(guī)則挖掘頻繁項(xiàng)作為候選產(chǎn)品命名實(shí)體,并對(duì)其進(jìn)行了剪枝處理,然而規(guī)則的簡(jiǎn)單性使其得到的產(chǎn)品命名實(shí)體識(shí)別效果不佳。Hongye Tan等[2]對(duì)模板進(jìn)了泛化,分別使用軟模板和特征向量模板對(duì)產(chǎn)品命名實(shí)體進(jìn)行了識(shí)別,將產(chǎn)品命名實(shí)體識(shí)別看作分類問(wèn)題,取得了令人滿意的結(jié)果;然而文獻(xiàn)[2]采用了多領(lǐng)域協(xié)同識(shí)別,在提高識(shí)別性能的同時(shí)也限制了它的廣泛應(yīng)用;文獻(xiàn)[10-11]采用自舉學(xué)習(xí)方法結(jié)合上下文模板進(jìn)行英文命名實(shí)體識(shí)別,通過(guò)在評(píng)價(jià)候選命名實(shí)體之前進(jìn)行一些簡(jiǎn)便有效的預(yù)處理使其性能得到進(jìn)一步提高。
總的來(lái)說(shuō),目前關(guān)于產(chǎn)品命名實(shí)體識(shí)別任務(wù)的相關(guān)方法還存在以下問(wèn)題:一是需要大量的基礎(chǔ)工作且不便于遷移,代價(jià)太大;二是結(jié)果不太理想,有待于進(jìn)一步提高。上述研究都是對(duì)產(chǎn)品名稱或產(chǎn)品屬性分別抽取,并沒(méi)有同時(shí)抽取產(chǎn)品名稱和產(chǎn)品屬性。若能正確地識(shí)別出產(chǎn)品名稱和產(chǎn)品屬性,就可以獲取更加詳細(xì)和精確的產(chǎn)品信息。因此,在沒(méi)有充分的外部信息的前提下,同時(shí)識(shí)別出產(chǎn)品名稱和產(chǎn)品屬性,顯得更為重要。
文獻(xiàn)[10]的研究表明,特定領(lǐng)域的模板可以極大的提高模板的性能。因此,本文從特定領(lǐng)域開(kāi)展研究,同時(shí)鑒于產(chǎn)品名稱和產(chǎn)品屬性作為評(píng)價(jià)對(duì)象在語(yǔ)境中具有相似性,在抽取評(píng)價(jià)對(duì)象時(shí)采用了同時(shí)抽取出產(chǎn)品名稱和產(chǎn)品屬性的策略。從小種子集出發(fā),綜合使用了詞形模板和詞性模板,通過(guò)模糊匹配的方法,提高候選評(píng)價(jià)對(duì)象的召回率;在評(píng)估候選評(píng)價(jià)對(duì)象之前對(duì)其進(jìn)行預(yù)處理,提高候選評(píng)價(jià)對(duì)象的精確率;在進(jìn)行產(chǎn)品評(píng)價(jià)對(duì)象識(shí)別時(shí),采用雙向Bootstrapping;最后采用K均值聚類進(jìn)一步對(duì)識(shí)別結(jié)果進(jìn)行聚類,將其自動(dòng)識(shí)別為產(chǎn)品名稱和產(chǎn)品屬性。
1) 產(chǎn)品評(píng)價(jià)對(duì)象
在產(chǎn)品評(píng)論中,用戶通常關(guān)心被評(píng)價(jià)的對(duì)象,但對(duì)產(chǎn)品評(píng)價(jià)對(duì)象人們很難給出統(tǒng)一的定義。通過(guò)對(duì)大量真實(shí)產(chǎn)品評(píng)論文本的觀察發(fā)現(xiàn),產(chǎn)品評(píng)價(jià)對(duì)象經(jīng)常是以如下三種方式出現(xiàn):
① 產(chǎn)品的整體;② 產(chǎn)品的某個(gè)部件;③產(chǎn)品的特性及其外延。
例如:在汽車評(píng)論文本中,被評(píng)價(jià)的對(duì)象通常有:寶馬依舊表現(xiàn)出色;速騰的變速箱真是不錯(cuò);Polo的安全、質(zhì)量和口碑也還不錯(cuò)。
為了敘述的方便,我們將第1類的評(píng)價(jià)對(duì)象稱為“產(chǎn)品名稱”,第2類和第3類的評(píng)價(jià)對(duì)象統(tǒng)稱為“產(chǎn)品屬性”。
2) 評(píng)價(jià)詞
J.Wiebe[12]的研究表明:形容詞可以作為判別句子主客觀性的依據(jù),此外,通過(guò)大量評(píng)論語(yǔ)料觀察發(fā)現(xiàn),成語(yǔ)和習(xí)慣用語(yǔ)也經(jīng)常用于評(píng)論句。因此,本文選用形容詞、成語(yǔ)和習(xí)慣用語(yǔ)作為評(píng)價(jià)詞。
通過(guò)對(duì)大量真實(shí)的產(chǎn)品評(píng)論文本的觀察,我們發(fā)現(xiàn)產(chǎn)品評(píng)價(jià)對(duì)象往往是名詞或名詞短語(yǔ),何婷婷[13]的工作也證明了將名詞或名詞短語(yǔ)作為候選評(píng)價(jià)對(duì)象是可行的,因此,本文將形式為n、n n、n n n的名詞短語(yǔ)作為候選評(píng)價(jià)對(duì)象。
模板1:“slot-len,…,slot-i,…,slot-1,word,#”;
模板2:“#,word,slot+1,…,slot+i,…,slot+len”;
模板3:“slot-len,…,slot-i,…,slot-1,word,slot+1,…,slot+i,…,slot+len”;
其中:word表示抽取的評(píng)價(jià)對(duì)象;#表示句子的開(kāi)始或結(jié)束或任意的詞或詞性;slot-i(slot+i)表示評(píng)價(jià)對(duì)象word左面(右面)的第i個(gè)槽;len表示窗口的長(zhǎng)度。當(dāng)模板中所有的槽用詞形(詞性)來(lái)表示時(shí),該模板為詞形(詞性)模板;評(píng)價(jià)對(duì)象與槽可以相鄰,也可以不相鄰。
例句:“哈飛賽豹 n 的 u 安全性能 n 還是 d 值得 v 信賴 v 的 u”。
由評(píng)價(jià)對(duì)象“哈飛賽豹”從句子中抽取出窗口長(zhǎng)度為1的詞形和詞性模板分別為: “#,word,的”,“#,word,u”。
為了獲得候選評(píng)價(jià)對(duì)象,本文利用上述模板1~3,依次搜索評(píng)論語(yǔ)料中的每個(gè)句子,采用模糊匹配方法對(duì)模板與句子進(jìn)行匹配,僅抽取與模板匹配且距離slot-1或slot+1最近的名詞短語(yǔ)(除去時(shí)間、人名、地名、方位名等名詞短語(yǔ))作為候選評(píng)價(jià)對(duì)象。
為了提高候選評(píng)價(jià)對(duì)象的精確率,在對(duì)候選評(píng)價(jià)對(duì)象打分之前對(duì)其進(jìn)行如下預(yù)處理。
〈1〉去除停用詞。這里的停用詞包括通用停用詞和領(lǐng)域停用詞[14];
〈2〉中心詞剪枝。采用如下規(guī)則:
如果head(hx)=“車”,則去除hx中的中心詞。若余下的部分長(zhǎng)度大于1,則將其作為新的候選評(píng)價(jià)對(duì)象,這里的hx為候選評(píng)價(jià)對(duì)象。
〈3〉名詞剪枝[8]:有些名詞本身并不是商品屬性,但它出現(xiàn)在某個(gè)商品屬性中(例如“高度”與“底盤高度”),而且與該商品屬性同時(shí)作為候選評(píng)價(jià)對(duì)象被抽取,為了排除此類名詞(如“高度”)作為候選評(píng)價(jià)對(duì)象,我們采用規(guī)則:如果A?B,并且count(A)
為了獲取評(píng)價(jià)對(duì)象,我們采用雙向Bootstrapping方法,其過(guò)程為:從小種子集(以模板種子集為例)出發(fā),抽取候選評(píng)價(jià)對(duì)象后,對(duì)其采用第3節(jié)中的方法進(jìn)行預(yù)處理和評(píng)分(利用公式(1)進(jìn)行評(píng)分),選取分值最高的前5個(gè)候選評(píng)價(jià)對(duì)象加入到評(píng)價(jià)對(duì)象集,然后從評(píng)價(jià)對(duì)象集再抽取新的模板,根據(jù)已有的評(píng)價(jià)對(duì)象集對(duì)其進(jìn)行評(píng)分,選擇分值最高的前5個(gè)模板加入到模板集,然后再利用現(xiàn)有的模板抽取新的評(píng)價(jià)對(duì)象。重復(fù)上述過(guò)程,直到?jīng)]有發(fā)現(xiàn)新的符合條件的模板為止。
上述過(guò)程中采用的候選評(píng)價(jià)對(duì)象評(píng)分標(biāo)準(zhǔn)如下:
(1)
其中:Scorepjc(hx)表示相鄰評(píng)價(jià)詞信息,即候選評(píng)價(jià)對(duì)象前后十個(gè)位置含有的評(píng)價(jià)詞的數(shù)目。Scorec-s(hx)表示詞匯(短語(yǔ))支持度,即詞匯或短語(yǔ)在語(yǔ)料中出現(xiàn)的次數(shù)。Scorep-s(hx)表示純支持度[8],即指候選評(píng)價(jià)對(duì)象作為名詞或名詞短語(yǔ)在句中出現(xiàn),并且句中不再包含其他候選評(píng)價(jià)對(duì)象的句子數(shù)目。Scorem-s(hx)表示模板支持度,即候選評(píng)價(jià)對(duì)象被模板從語(yǔ)料中抽取出來(lái)的次數(shù)。本文中,α、β、γ均取0.25。
為了把評(píng)價(jià)對(duì)象區(qū)分為產(chǎn)品名稱和產(chǎn)品屬性,本文利用前向選擇算法選取文檔頻率、詞頻和段落信息(即候選評(píng)價(jià)對(duì)象在文中的位置信息)三個(gè)特征作為聚類特征,進(jìn)一步采用K-means方法對(duì)評(píng)價(jià)對(duì)象進(jìn)行聚類,其中所用的度量?jī)蓚€(gè)向量之間的距離的方法為夾角余弦。
例如,通過(guò)對(duì)評(píng)價(jià)對(duì)象集中詞語(yǔ)聚類,可以找到如下的聚類結(jié)果:
{寶馬,奧迪,駿捷,思域…};{動(dòng)力,空間,發(fā)動(dòng)機(jī),內(nèi)飾…}。
實(shí)驗(yàn)數(shù)據(jù)采用COAE2008的Dataset2中的汽車評(píng)論作為語(yǔ)料庫(kù),共有156篇評(píng)論,平均每篇語(yǔ)料包含6~10個(gè)句子。
評(píng)價(jià)對(duì)象的評(píng)價(jià)指標(biāo):由于產(chǎn)品評(píng)價(jià)對(duì)象表達(dá)形式非常靈活,本文采取了軟評(píng)測(cè)方法[1],并采用三個(gè)評(píng)價(jià)指標(biāo):精確率、召回率和F值。這里的評(píng)價(jià)對(duì)象包括產(chǎn)品名稱和產(chǎn)品屬性。
產(chǎn)品名稱和產(chǎn)品屬性的評(píng)價(jià)指標(biāo):通過(guò)對(duì)評(píng)價(jià)對(duì)象聚類,可以得到產(chǎn)品名稱與產(chǎn)品屬性。本文參考文獻(xiàn)[15],采用以下評(píng)價(jià)指標(biāo)。
其中,Ti表示評(píng)價(jià)對(duì)象中應(yīng)有的某個(gè)類別,ni表示Ti中含有的元素個(gè)數(shù),Cj表示對(duì)評(píng)價(jià)對(duì)象聚類所得的某個(gè)類別,nj表示Cj中含有的元素個(gè)數(shù),C表示聚類的總類別,nij表示Ti與Cj共有的元素個(gè)數(shù)。
為了驗(yàn)證第4章中基于Bootstrapping方法的識(shí)別評(píng)價(jià)對(duì)象方法的有效性,我們采用了如下方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表1。本實(shí)驗(yàn)中的窗口長(zhǎng)度均選為2,種子集中種子的個(gè)數(shù)均選為7。初始評(píng)價(jià)對(duì)象種子集為:“寶馬”、“內(nèi)飾”、“空間”、“寶來(lái)”、“發(fā)動(dòng)機(jī)”、“做工”、“奧迪”;初始詞形模板種子集為:“#,word,是,汽車”、“的,word,#”、“#,word,車型”、“#,word,系”、“試駕,word,#”、“#,word,公司”、“#,word,方面”。
方法1:候選評(píng)價(jià)對(duì)象未經(jīng)過(guò)預(yù)處理,以初始模板種子集出發(fā),采用Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別。
方法2:候選評(píng)價(jià)對(duì)象經(jīng)過(guò)預(yù)處理后,以初始模板種子集出發(fā),采用Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別。
方法3:候選評(píng)價(jià)對(duì)象經(jīng)過(guò)預(yù)處理后,以初始評(píng)價(jià)對(duì)象種子集出發(fā),采用Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別。
方法4:候選評(píng)價(jià)對(duì)象經(jīng)過(guò)預(yù)處理后,以初始評(píng)價(jià)對(duì)象種子集出發(fā),采用Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別。
方法5:候選評(píng)價(jià)對(duì)象經(jīng)過(guò)預(yù)處理后,以初始模板種子集+初始評(píng)價(jià)對(duì)象種子集出發(fā),采用Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別。
方法1~方法3模板采用詞形模板,方法4模板采用詞性模板,方法5模板采用詞形十詞性模板。
由表1可知:
1) 方法2的結(jié)果優(yōu)于方法1的結(jié)果,說(shuō)明在每次迭代前對(duì)候選評(píng)價(jià)對(duì)象經(jīng)過(guò)預(yù)處理比未經(jīng)過(guò)預(yù)處理的效果好,也說(shuō)明對(duì)候選評(píng)價(jià)對(duì)象進(jìn)行預(yù)處理后,一定程度上可以減少錯(cuò)誤的蔓延,避免因錯(cuò)誤的累積而造成識(shí)別性能的急劇下降。
2) 方法3和方法2相比,前者的召回率高于后者,但精確率卻低于后者,使得前者和后者的F值相當(dāng),說(shuō)明它們?cè)谡倩芈屎途_率上具有一定的互補(bǔ)性。
3) 方法4與方法3、方法2相比,評(píng)價(jià)對(duì)象識(shí)別的各項(xiàng)指標(biāo)均最低,說(shuō)明模板采用詞性模板,在以評(píng)價(jià)對(duì)象種子集出發(fā)的Bootstrapping方法進(jìn)行評(píng)價(jià)對(duì)象的識(shí)別不能得到令人滿意的結(jié)果。
4) 方法5與方法2相比,前者的召回率高于后者,但精確率卻低于后者,說(shuō)明詞性模板在某種程度上是詞形模板的泛化,使得F值略高于后者。
為了驗(yàn)證第5章方法的有效性,我們將評(píng)價(jià)對(duì)象分為已校對(duì)和未校對(duì)兩種情況進(jìn)行實(shí)驗(yàn),將評(píng)價(jià)對(duì)象分為產(chǎn)品名稱和產(chǎn)品屬性兩類,實(shí)驗(yàn)窗口長(zhǎng)度為1,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
表2 產(chǎn)品名稱與產(chǎn)品屬性識(shí)別結(jié)果
由表2可知:
1) 對(duì)已校對(duì)的評(píng)價(jià)對(duì)象進(jìn)行聚類,得到產(chǎn)品名稱和產(chǎn)品屬性的F值分別達(dá)到了84.88%和60.76%。說(shuō)明本文的聚類方法用于區(qū)分產(chǎn)品名稱和產(chǎn)品屬性是可行的。此外,我們發(fā)現(xiàn)實(shí)驗(yàn)中識(shí)別產(chǎn)品名稱的效果顯然優(yōu)于產(chǎn)品屬性的效果,主要是由于本文的聚類特征能對(duì)產(chǎn)品名稱進(jìn)行很好的描述,因此更傾向于將產(chǎn)品名稱聚為一類。
2) 對(duì)評(píng)價(jià)對(duì)象未校對(duì)與已校對(duì)相比,評(píng)價(jià)對(duì)象未校對(duì)在區(qū)分產(chǎn)品名稱和產(chǎn)品屬性的性能上下降了很多。說(shuō)明利用Bootstrapping識(shí)別的評(píng)價(jià)對(duì)象直接進(jìn)行聚類,不可避免地引入了Bootstrapping識(shí)別評(píng)價(jià)對(duì)象時(shí)各種噪聲(即非評(píng)價(jià)對(duì)象),使得產(chǎn)品屬性的識(shí)別效果不太理想。因此,應(yīng)進(jìn)一步加強(qiáng)產(chǎn)品屬性識(shí)別的研究。
本文給出了特定領(lǐng)域的產(chǎn)品評(píng)價(jià)對(duì)象的定義,提出了一種不依賴外部資源的無(wú)指導(dǎo)評(píng)價(jià)對(duì)象自動(dòng)識(shí)別方法。首先對(duì)傳統(tǒng)的模板匹配方法進(jìn)行了改進(jìn),綜合使用了詞形模板和詞性模板,在評(píng)估候選評(píng)價(jià)對(duì)象之前對(duì)其進(jìn)行預(yù)處理;然后,從小種子集出發(fā),識(shí)別出產(chǎn)品評(píng)價(jià)對(duì)象后自動(dòng)對(duì)結(jié)果進(jìn)行了聚類,進(jìn)一步將其分為產(chǎn)品名稱和產(chǎn)品屬性。整個(gè)過(guò)程沒(méi)有用到外部資源,在外部資源不充分的未知領(lǐng)域或新領(lǐng)域處理海量冗余網(wǎng)絡(luò)數(shù)據(jù)有一定的指導(dǎo)意義。由于目前還沒(méi)有同時(shí)識(shí)別出產(chǎn)品名稱和產(chǎn)品屬性的相關(guān)實(shí)驗(yàn),我們無(wú)法找到已有的研究與我們的實(shí)驗(yàn)同時(shí)做比較;文獻(xiàn)[5]其與位置無(wú)關(guān)的產(chǎn)品屬性抽取的Lenient結(jié)果的F值為0.159 7,我們的0.271 6與之相比稍高,然而與所有評(píng)測(cè)結(jié)果平均值(與位置無(wú)關(guān)的Lenient結(jié)果)——0.491 03相比,我們還有很大的差距。文獻(xiàn)[4]采用自舉的學(xué)習(xí)方法結(jié)合HMM進(jìn)行英文命名實(shí)體識(shí)別,在產(chǎn)品名稱命名實(shí)體(相當(dāng)于本文的產(chǎn)品名稱)識(shí)別中獲得69.18 %的F值,與本文產(chǎn)品名稱識(shí)別的F值(69.48%)相近,然而文獻(xiàn)[4]的模型復(fù)雜度較高;文獻(xiàn)[3]在汽車領(lǐng)域的產(chǎn)品名識(shí)別中獲得73.1%的F值,比本文性能有所提高,但我們的方法有更廣的使用范圍。此外,我們的方法還有很大的提升空間,聚類中適當(dāng)添加其他的特征以便減少噪聲或者考慮聚為3類(產(chǎn)品名稱、產(chǎn)品屬性以及非評(píng)價(jià)對(duì)象)。
[1] 劉非凡,趙軍,呂碧波,等. 面向商務(wù)信息抽取的產(chǎn)品評(píng)價(jià)對(duì)象識(shí)別研究[J].中文信息學(xué)報(bào),2006,20(1):17-20.
[2] Hongye Tan,Tiejun Zhao,Jianmin Yao. A Study on Pattern Generalization in Extended Named Entity Recognition[J]. Chinese Journal of Electronic,2007,16(4):675-678 .
[3] Cheng Niu,Wei Li,Jihong Ding,etc. A Bootstrapping Approach to Named Entity Classification Using Successive Learners[C]// Proceedings of the 41st ACL,Sapporo,Japan,2003:335-342.
[4] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評(píng)測(cè)技術(shù)報(bào)告[C]// Proceedings of The COAE2008,Harbin,2008:1-20.
[5] 何慧,李思,肖芬,等. PRIS中文情感傾向性分析技術(shù)報(bào)告[C]// Proceedings of the COAE2008,Harbin ,2008:46-55.
[6] 張姝,賈文杰,夏迎炬,等.基于CRF的評(píng)價(jià)對(duì)象抽取技術(shù)研究[C]//Proceedings of the COAE2008,Harbin,2008: 32-37.
[7] 王俞霖,孫樂(lè). 中國(guó)科學(xué)院軟件研究所COAE2008報(bào)告[C]// Proceedings of the COAE2008,Harbin ,2008:1-20.
[8] 趙妍妍,劉鴻宇,秦兵,等. HIT_IR_OMS:情感分析系統(tǒng)[C]//Proceedings of the COAE2008,Harbin ,2008:81-88.
[9] Mingqing Hu and Bing Liu. Mining and Summarizing Customer Reviews[C]//Proceedings of the tenth ACM SIGKDD.2004:168-177.
[10] O. Etzioni,M. Cafarella,D. Downey,etc. Unsupervised Named-Entity Extraction from the Web: An Experimental Study[J].Artificial Intelligence,2005,165(1):91-134.
[11] E. Riloff,J. Wiebe,and T. Wilson. Learning Subjective Nouns Using Extraction Pattern Bootstrapping[C] // Proceedings of the Seventh Conference on Natural Language Learning,2003: 25-32.
[12] J. Wiebe,T. Wilson,R. Bruce,etc. Learning Subjective Language [J].Computational Linguistics,2004,30(3): 277-308.
[13] 何婷婷,聞彬,宋樂(lè),等. 詞語(yǔ)情感傾向性識(shí)別及觀點(diǎn)抽取研究[C]//Proceedings of the COAE2008,Harbin ,2008: 89-93.
[14] 黃雄. “小靈通”問(wèn)答式搜索引擎[R].北京: 中科院計(jì)算技術(shù)研究所,2007.
[15] 趙世奇,劉挺,李生. 一種基于主題的文本聚類方法[J].中文信息學(xué)報(bào),2007,21(02): 58-62.