周亦鵬,杜軍平
(1.北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048;2.北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室,北京 100876)
主題分析通常采用概率生成模型,如LDA、PLSA等方法,以語義詞概率分布的形式描述主題[1-2],這使得一般用戶較難理解主題的內(nèi)容.通常的方法是取概率較高的若干個(gè)語義詞來表示主題含義[3],但這種方法也常常不能準(zhǔn)確表示整個(gè)分布所覆蓋的全部語義.因此,提出一種主題模型的自動標(biāo)注方法,提取具有一定語義覆蓋度和區(qū)分度的主題關(guān)聯(lián)詞來描述主題的內(nèi)容.
主題模型的自動語義標(biāo)注通常包括2個(gè)步驟:首先構(gòu)造能夠表達(dá)各種主題語義的候選標(biāo)簽集,標(biāo)簽可以是詞、短語,也可以是句子;然后,為不同的主題模型選擇與其語義相關(guān)的一個(gè)或多個(gè)標(biāo)簽進(jìn)行標(biāo)注.最常用的方法是最大概率主題詞標(biāo)注[4],這種方法的標(biāo)簽集由從文檔中抽取的單個(gè)詞語構(gòu)成,標(biāo)簽的選擇是根據(jù)詞語在主題模型當(dāng)中的分布概率來決定的.
相對于單個(gè)詞語的標(biāo)注方法,采用短語作為標(biāo)簽進(jìn)行標(biāo)注更容易表達(dá)主題模型的語義,因此需要生成短語標(biāo)簽集合.常用的短語生成方法是基于統(tǒng)計(jì)模型的短語抽取[5-6],即根據(jù)同現(xiàn)概率獲得同現(xiàn)詞,并通過互信息或χ2測試從文本集中抽取可能的短語.但是,這些方法會受到同義詞等問題的影響,因此抽取出的標(biāo)簽會出現(xiàn)語義重復(fù)問題,并且僅僅根據(jù)概率統(tǒng)計(jì)獲得的標(biāo)簽也存在語義相關(guān)性低或語義覆蓋性低的問題.此外,如果選擇多個(gè)標(biāo)簽對主題模型進(jìn)行標(biāo)注,還存在如何比較多標(biāo)簽與主題模型的語義相關(guān)度、語義覆蓋度以及標(biāo)簽間的語義區(qū)分度等問題.本文提出一種基于關(guān)聯(lián)詞的主題模型自動語義標(biāo)注方法,其框架如圖1所示.
圖1 基于關(guān)聯(lián)詞的主題模型語義標(biāo)注框架Fig.1 Framework of topic model tagging based on associated words
首先從參考文本集中抽取詞語,并根據(jù)語言本體將其映射為義原,實(shí)現(xiàn)詞語在概念上的歸并,從而獲得描述語義概念的主題詞,同時(shí)主題模型也從一般的詞語分布轉(zhuǎn)換為概念主題詞分布;然后根據(jù)實(shí)體、環(huán)境、活動等不同語義類別對概念主題詞進(jìn)行分類,同時(shí)采用基于語義分類的關(guān)聯(lián)規(guī)則挖掘獲得具有語義關(guān)聯(lián)的主題詞,從而建立候選標(biāo)簽集;最后,將標(biāo)簽也以主題詞概率分布的形式進(jìn)行描述,并計(jì)算其與主題模型的語義相關(guān)度,選擇具有高語義覆蓋度和區(qū)分度的多個(gè)標(biāo)簽進(jìn)行標(biāo)注.
關(guān)聯(lián)詞是依據(jù)上下文關(guān)系經(jīng)常搭配使用的詞,在自然語言中,為了表達(dá)的需要,文本中常常會出現(xiàn)大量關(guān)聯(lián)詞.例如,在旅游信息中,“杭州”與“西湖”同時(shí)出現(xiàn)的幾率非常大,在食品安全事件中,“嬰兒”、“奶粉”與“三聚氰胺”同時(shí)出現(xiàn)的幾率較大.如果將這些關(guān)聯(lián)詞作為多個(gè)語義單元,一方面會增加主題模型的維數(shù),另一方面也降低了主題模型對文檔的表達(dá)精度.雖然文本特征抽取可以通過預(yù)先設(shè)定的閾值來降低特征向量的維數(shù),但它不是在保證語義精度的前提下,因此常常適得其反.
而在另一方面,為了解決主題的表達(dá)問題,也必須分析詞與詞之間的聯(lián)系,不單是對文本中詞的概率統(tǒng)計(jì)描述更應(yīng)從語義上加以理解,此時(shí)就需要將具有語義關(guān)聯(lián)性的詞語抽取出來用于描述主題的內(nèi)容.因此,利用關(guān)聯(lián)規(guī)則挖掘構(gòu)造關(guān)聯(lián)詞集是一個(gè)簡單可行的方法,挖掘具有關(guān)聯(lián)性的詞語作為一個(gè)語義單元,既可以實(shí)現(xiàn)特征向量的降維,又可以增大主題表達(dá)的準(zhǔn)確性.使用關(guān)聯(lián)詞集合可以有效地對文本特征空間的關(guān)聯(lián)詞進(jìn)行歸并,改進(jìn)主題標(biāo)注的效率和精度.
構(gòu)造關(guān)聯(lián)主題詞集合需要解決2個(gè)問題:
1)同義詞問題.由于中文文本存在語法修飾,不同的詞匯表示相同的概念,因此,關(guān)聯(lián)規(guī)則算法無法根據(jù)中文文本中的深層語義信息挖掘關(guān)聯(lián)詞,影響了關(guān)聯(lián)詞歸并的質(zhì)量.
2)語義相關(guān)性問題.雖然關(guān)聯(lián)規(guī)則挖掘可以發(fā)現(xiàn)特征詞的同現(xiàn)關(guān)系,但因?yàn)橹饕从车氖且环N統(tǒng)計(jì)規(guī)律,所以存在某些規(guī)則不能很好反映特征詞之間語義相關(guān)性的問題,即某些關(guān)聯(lián)規(guī)則在語義上是無效的.
因此,本文采用“知網(wǎng)”作為概念空間,將特征詞映射到概念空間,解決同義詞問題,同時(shí)提出基于語義概念分類的關(guān)聯(lián)規(guī)則挖掘方法來提高關(guān)聯(lián)詞的語義相關(guān)性.
“知網(wǎng)”[7](HowNet)是著名的采用漢語描述的本體論.它將漢語和英語的詞語所代表的概念作為描述對象,同時(shí)描述了概念之間、概念所具有的屬性之間的關(guān)系,并建立了反映這些概念和關(guān)系的知識庫.“知網(wǎng)”中,單個(gè)或復(fù)雜的概念以及各個(gè)概念之間、概念的屬性和屬性之間的關(guān)系是通過義原或義原的組合來進(jìn)行標(biāo)注的.這樣的好處是雖然新詞不斷出現(xiàn),但義原的增加卻極少.因此,在“知網(wǎng)”中,詞義就被定義為各種義原的組合.
在主題的詞語概率分布模型中引入“知網(wǎng)”作為背景知識,將主題詞映射到義原,可以在一定程度上解決同義詞替換的問題,使得相同概念、不同描述的詞可以進(jìn)行歸并.
為了獲得主題信息的概念集,首先對文本集D={d1,d2,…,dN}進(jìn)行預(yù)處理,抽取每篇文本 di中權(quán)重較高的特征詞,構(gòu)成基于特征詞集的特征向量:
式中:tfi為特征詞ti在網(wǎng)頁di中出現(xiàn)的頻率,n為特征詞的數(shù)量.
然后引入知網(wǎng),將特征詞映射到義原.在將文本di中的每個(gè)特征詞t映射為義原時(shí),首先對具有2個(gè)或2個(gè)以上語義解釋的詞t進(jìn)行語義排歧,獲取其對應(yīng)每個(gè)語義解釋的概率p,然后以p作為權(quán)重為語義解釋涉及到的每個(gè)義原a所對應(yīng)的特征向量賦值.由于目前知網(wǎng)收錄的詞條有限,有些特征詞沒有被知網(wǎng)收錄,對于這些特征詞予以保留,這樣就形成了義原加特征詞的特征向量:
式中:ti(1≤i≤k)為沒有被知網(wǎng)收錄的特征詞,w(di,ai)為義原ai在文本di中的權(quán)值:
式中:tw(di,tj,ai)為文檔 di中詞條 tj對義原 ai的權(quán)重貢獻(xiàn):
式中:ref(tj)為詞條tj對應(yīng)的義原集合,λ為該義原類別的權(quán)重系數(shù).
為了進(jìn)一步縮減向量維度并提高關(guān)聯(lián)規(guī)則挖掘的支持度和置信度,通過計(jì)算義原間的相似度[8]可以進(jìn)一步將相似義原進(jìn)行歸并.義原相似度的計(jì)算方法如下:
式中:dis(a1,a2)是義原a1和a2在知網(wǎng)層次結(jié)構(gòu)中的語義距離,α是一個(gè)可調(diào)節(jié)的參數(shù).
經(jīng)過分析,各類事件信息中的主題詞根據(jù)語義可以分為5類,分別反映了信息中涉及的實(shí)體對象、環(huán)境、活動、事件和結(jié)果,它們從不同角度描述了事件信息的語義內(nèi)容.因此,在建立主題詞的概念空間之后,文本特征向量中的義原和主題特征詞分量被分為實(shí)體對象、環(huán)境、活動、事件和結(jié)果5類,并且根據(jù)其概率分布,對主題語義的貢獻(xiàn)度賦予不同的權(quán)重系數(shù).通過挖掘這5類特征分量間的關(guān)聯(lián)規(guī)則,在發(fā)現(xiàn)關(guān)聯(lián)詞的同時(shí)也有助于反映它們之間的語義聯(lián)系.為了避免同類特征項(xiàng)出現(xiàn)在關(guān)聯(lián)規(guī)則之中,定義基于語義分類的關(guān)聯(lián)規(guī)則如下.
設(shè)文檔特征空間中包含的所有義原和特征詞構(gòu)成集合:W={a1,a2,…,al,t1,t2,… ,tk},其中每個(gè)元素屬于一個(gè)語義類別K.則定義基于語義分類的關(guān)聯(lián)規(guī)則 A→ B,其中A?W,B?W,A∩B=?,并且,對于規(guī)則左部A和右部B中包含的任意項(xiàng)u、v,滿足 Ku≠Kv.
對于文本集D,規(guī)則 A→ B的支持度為s=P(A·B),置信度為 c=P(B|A).
基于語義分類關(guān)聯(lián)規(guī)則的關(guān)聯(lián)詞集構(gòu)造算法如下:
1)利用關(guān)聯(lián)規(guī)則算法[9]挖掘基于語義分類的關(guān)聯(lián)規(guī)則,獲得所有支持度和置信度分別大于s和c的關(guān)聯(lián)規(guī)則;
重復(fù)2)~5),對獲得的每一條關(guān)聯(lián)規(guī)則的左右部包含的關(guān)聯(lián)詞進(jìn)行歸并;
2)將關(guān)聯(lián)規(guī)則右部包含的主題詞從主題詞集合中刪除;
3)在歸并后的主題詞集合中查找含有關(guān)聯(lián)規(guī)則任一邊的主題詞的歸并主題詞組合;
4)如果找到,則將另一主題詞加入到該歸并主題詞組合中;
5)如找不到歸并主題詞組合,則以關(guān)聯(lián)規(guī)則左右部的2個(gè)主題詞構(gòu)造一個(gè)新的主題詞組合,并放入歸并后的主題詞集合中去;
6)在完成所有關(guān)聯(lián)規(guī)則的歸并后,得到新的主題詞集合,集合內(nèi)包含多個(gè)關(guān)聯(lián)主題詞組合,即得到關(guān)聯(lián)詞集合.
在抽取出主題詞并得到關(guān)聯(lián)主題詞集合后,需要從其中選擇與主題語義相關(guān)性高的詞作為主題模型的標(biāo)注詞——標(biāo)簽,實(shí)現(xiàn)對主題模型的自動語義標(biāo)注.而語義相關(guān)性計(jì)算的難點(diǎn)在于標(biāo)簽和主題模型(主題詞的概率分布)之間的匹配.因此本文將標(biāo)簽也以概率分布的方式表示,這樣就可以直接與主題模型相比較.
假設(shè)標(biāo)簽l以語義詞分布{p(w|l)}來表示,則可以使用 Kullback-Leibler(KL)距離算法計(jì)算{p(w|l)}與主題{p(w|θ)}之間的相似度.為了獲得標(biāo)簽l的語義詞分布{p(w|l)},本文采用一種近似方法,通過數(shù)據(jù)集D來估計(jì){p(w|l,D)},以代替{p(w|l)}.標(biāo)簽和主題之間的語義相似性通過式(1)進(jìn)行計(jì)算.
好的標(biāo)簽應(yīng)該對主題的語義內(nèi)容有較高的覆蓋度,語義相關(guān)性僅能保證所選擇的標(biāo)簽與主題信息具有高相關(guān)性,但可能僅表達(dá)了該主題的部分語義.因此,當(dāng)選擇多個(gè)標(biāo)簽對主題進(jìn)行標(biāo)記時(shí),希望選擇的新標(biāo)簽?zāi)軌蚋采w主題其他的語義部分,而不是已有標(biāo)簽已經(jīng)涵蓋的內(nèi)容.
本文采用最大邊緣相關(guān)(maximal marginal relevance,MMR)方法來選擇高語義覆蓋度標(biāo)簽.MMR方法常常用于多文檔摘要問題,是一種十分有效的去冗余并且取得最大相關(guān)性和差異性的方法.本文對MMR進(jìn)行了一定簡化以實(shí)現(xiàn)對標(biāo)簽的選擇,通過最大化MMR來逐個(gè)選擇標(biāo)簽,如式(2):
式中:S是已經(jīng)選擇的標(biāo)簽,λ是經(jīng)驗(yàn)參數(shù).
以上標(biāo)簽選擇方法僅考慮了對單一主題的標(biāo)注,當(dāng)對多個(gè)主題進(jìn)行標(biāo)注時(shí),則需要考慮不同主題間的區(qū)分,因?yàn)槿绻粋€(gè)標(biāo)簽在多個(gè)主題內(nèi)都具有較高的相關(guān)度,則該標(biāo)簽對于人們區(qū)分不同的主題是缺乏幫助的,因此為多個(gè)主題選擇標(biāo)簽既需要考慮相關(guān)度,也需要考慮區(qū)分度,在這種情況下,對式(1)進(jìn)行修正,提出了考慮區(qū)分度的語義相似性計(jì)算方法:
式中:θ-i表示除主題θi之外的其他k-1個(gè)主題,即θ1,2,…,i-1,i+1,…,k,k 為主題數(shù).
式(3)通過S'(l,θi)計(jì)算跨主題的標(biāo)簽語義相似度并進(jìn)行排序,可以為多個(gè)主題生成語義相關(guān)且具有一定覆蓋度和區(qū)分度的標(biāo)簽.
實(shí)驗(yàn)選擇旅游信息和食品安全事件信息中的4 200條文本數(shù)據(jù)構(gòu)成訓(xùn)練文檔集,采用LDA主題分析方法[10]在文本集上建立主題模型,利用快速Gibbs采樣進(jìn)行參數(shù)估計(jì),設(shè)定主題數(shù)K=30,超參數(shù) α =50/K,β=0.1,迭代次數(shù)為1 000.
采用本文提出的主題詞生成方法進(jìn)行主題詞的提取和關(guān)聯(lián)詞集構(gòu)造,將其作為主題標(biāo)注的候選標(biāo)簽集,然后在候選標(biāo)簽集合上,采用本文提出的語義相關(guān)度計(jì)算方法選取能夠描述主題語義的標(biāo)簽進(jìn)行自動標(biāo)注.
實(shí)驗(yàn)抽取主題詞數(shù)N=1 000,為了控制程序運(yùn)行時(shí)間,設(shè)定概念空間維數(shù)為20,關(guān)聯(lián)歸并的支持度s=1%,置信度c=1.5%.最后選擇286個(gè)關(guān)聯(lián)主題詞,每個(gè)關(guān)聯(lián)主題詞對應(yīng)1~3個(gè)主題詞,構(gòu)成主題的候選標(biāo)簽,該標(biāo)簽集記為TagSet-1.同時(shí),為了與本文的候選標(biāo)簽生成方法進(jìn)行對比,采用N-gram方法(n=1,2)抽取關(guān)鍵詞,并通過χ2測試選擇前300個(gè)主題詞建立另一個(gè)候選標(biāo)簽集,記為TagSet-2,從而利用這2個(gè)標(biāo)簽集分別進(jìn)行主題標(biāo)注,以評價(jià)標(biāo)簽集的有效性.在食品安全和旅游信息領(lǐng)域采用以上2種方法分別建立的部分候選標(biāo)簽如表1所示.
表1 部分候選標(biāo)簽Table 1 Some candidate labels
表2和表3分別列出了食品安全和旅游領(lǐng)域的部分主題的標(biāo)注結(jié)果.
表2 部分食品安全主題及相應(yīng)標(biāo)簽Table 2 Some food safety topics and corresponding labels
表3 部分旅游主題及相應(yīng)標(biāo)簽Table 3 Some tourism topics and corresponding labels
表2、3中列出了每個(gè)主題模型中概率最大的前15個(gè)詞,以及根據(jù)本文方法自動標(biāo)注的標(biāo)簽.為了便于比較,表中也給出了每個(gè)主題模型的人工標(biāo)注標(biāo)簽.人工標(biāo)注的具體方法是將每一主題的主題模型(主題詞概率分布)、代表性文檔及候選標(biāo)簽集展示給志愿者,由他們選擇合適的標(biāo)簽進(jìn)行人工標(biāo)注.
可以看出,自動標(biāo)注的標(biāo)簽基本涵蓋了主題的語義,尤其在食品安全領(lǐng)域,例如“嬰兒奶粉”、“患”、“腎結(jié)石”、“蛋”、“含有”、“蘇丹紅”等標(biāo)簽已經(jīng)很好地表達(dá)了主題語義,與“問題奶粉”、“紅心鴨蛋”等人工標(biāo)注結(jié)果較為吻合.某些情況下比人工標(biāo)注還要準(zhǔn)確,例如志愿者因受媒體報(bào)道等的影響,將禽蛋類食品中發(fā)現(xiàn)蘇丹紅的主題標(biāo)注為“紅心鴨蛋”,這是因?yàn)樽钤绨l(fā)現(xiàn)蘇丹紅是在鴨蛋中,所以媒體將此類事件報(bào)道為“紅心鴨蛋事件”;而實(shí)際上,主題模型中包括雞蛋和鴨蛋,本文標(biāo)注方法將它們映射為義原“蛋”并據(jù)此生成標(biāo)簽,因此語義上更為準(zhǔn)確.
為了能夠準(zhǔn)確評價(jià)主題標(biāo)注的有效性,采用評分法將本文標(biāo)注方法與人工標(biāo)注和最大概率主題詞標(biāo)注方法進(jìn)行比較.其中,最大概率主題詞標(biāo)注根據(jù)主題模型中詞語的概率分布選擇概率最高的前3個(gè)詞作為主題標(biāo)簽.
標(biāo)注結(jié)果的具體評分方法是:通過5名志愿者對3種方法的標(biāo)簽進(jìn)行打分,即將隨機(jī)排序的主題及其主題詞分布、標(biāo)簽和該主題的最相關(guān)文檔提供給志愿者,由志愿者對3種方法產(chǎn)生的標(biāo)簽分別打分,然后統(tǒng)計(jì)平均得分.打分規(guī)則是總分為5分,由志愿者將這5分按照其對標(biāo)簽準(zhǔn)確性的評估分別分配給3種方法生成的標(biāo)簽.并且,要求志愿者對僅使用1個(gè)標(biāo)簽和使用3個(gè)標(biāo)簽進(jìn)行標(biāo)注的情況分別打分,結(jié)果如表4所示.
表4 主題標(biāo)注的有效性對比Table 4 Comparison of topic labeling methods
從表4中可以看出,雖然在所有情形下人工標(biāo)注的得分都是最高的,但本文標(biāo)注方法的得分明顯高于最大概率主題詞標(biāo)注方法.在食品安全領(lǐng)域,本文方法已經(jīng)接近于人工標(biāo)注的得分,這主要是因?yàn)樵谑称钒踩I(lǐng)域中,不同主題的主題詞之間具有更高的區(qū)分度,尤其是一些專有名詞和術(shù)語主要在特定主題中出現(xiàn).
此外,在食品安全領(lǐng)域僅采用1個(gè)標(biāo)簽的情況下,本文方法相比最大概率標(biāo)注方法優(yōu)勢明顯,但若采用3個(gè)標(biāo)簽,則優(yōu)勢不大.然而在旅游領(lǐng)域使用3個(gè)標(biāo)簽的情況下,本文方法仍具有較大優(yōu)勢,這主要是因?yàn)槁糜晤I(lǐng)域除特定地點(diǎn)或景點(diǎn)主題外,主題詞多是一些通用詞,且某些高概率詞的語義類別單一,并不能充分表達(dá)主題語義.而通過概念映射和建立關(guān)聯(lián)詞,則可以將屬于不同語義類別且具有語義相關(guān)性的主題詞組織起來,從而提供更為豐富的語義.例如,“菜”、“肉”、“茶”等主題詞被映射為概念“食物”,與關(guān)聯(lián)詞“制作”共同構(gòu)成標(biāo)簽“食物制作”,這樣可以表達(dá)更明確的語義.
為了比較不同標(biāo)簽集生成方法的有效性,采用本文提出的語義相似性計(jì)算方法,分別利用TagSet-1和TagSet-2 2個(gè)候選標(biāo)簽集對主題進(jìn)行標(biāo)注,并對標(biāo)注結(jié)果打分,總分2分,評分結(jié)果如表5所示.
表5 標(biāo)簽集的有效性對比Table 5 Comparison of tag sets
從表5可以看出,本文方法建立的關(guān)聯(lián)詞集TagSet-1在總體得分上均高于N-gram關(guān)鍵詞集TagSet-2,這主要是因?yàn)門agSet-2中存在的多個(gè)同義或同語義類別詞分散了語義相似度的計(jì)算結(jié)果,如“鴨蛋”、“雞蛋”和“禽蛋”被作為3個(gè)標(biāo)簽分別計(jì)算語義相似度,導(dǎo)致計(jì)算結(jié)果偏低,影響了標(biāo)簽的選擇.而且,TagSet-2中的標(biāo)簽也存在語義類別單一的問題,降低了每個(gè)標(biāo)簽的語義表達(dá)能力.
提出了一種概率主題模型的自動標(biāo)注方法,通過主題詞提取和語義概念空間上的關(guān)聯(lián)詞挖掘方法來生成候選主題詞,并且給出了主題詞語義相關(guān)性計(jì)算以及高語義覆蓋度和區(qū)分度標(biāo)簽的選擇方法,實(shí)現(xiàn)了主題模型的自動語義標(biāo)注,解決了對主題詞模型進(jìn)行語義理解的問題.該方法被用于食品安全主題和旅游信息主題的自動標(biāo)注,實(shí)驗(yàn)證明該方法的標(biāo)注效果優(yōu)于最大概率主題詞標(biāo)注方法.尤其在食品安全等專業(yè)領(lǐng)域,由于充分考慮了專業(yè)術(shù)語與一般詞匯的語義區(qū)分度和語義覆蓋度,使得本文方法能夠取得更好的效果
[1]BLEI D M,NG A Y,JORDAN M I,et al.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(7):993-1022.
[2]COHN D,HOFMANN T.The missing link—a probabilistic model of document content and hypertext connectivity[EB/OL].[2010-05-10].http://books.nips.cc/nips13.html.
[3]GILDEA D,JURAFSKY D.Automatic labeling of semantic roles[J].Computer Linguist,2002,28(3):245-288.
[4]石晶,李萬龍.基于LDA模型的主題詞抽取方法[J].計(jì)算機(jī)工程,2010,36(19):81-83.
SHI Jing,LI Wanlong.Topic words extraction method based on LDA model[J].Computer Engineering,2010,36(19):81-83.
[5]BANERJEE S,PEDERSEN T.The design,implementation,and use of the ngram statistics package[C]//Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics.Mexico City,Mexico,2003:370-381.
[6]劉銘,王曉龍,劉遠(yuǎn)超.基于詞匯鏈的關(guān)鍵短語抽取方法的研究[J].計(jì)算機(jī)學(xué)報(bào),2010,33(7):1246-1255.
LIU Ming,WANG Xiaolong,LIU Yuanchao.Research of key-phrase extraction based on lexical chain[J].Chinese Journal of Computers,2010,33(7):1246-1255.
[7]孫景廣,蔡東風(fēng),呂德新,等.基于知網(wǎng)的中文問題自動分類[J].中文信息學(xué)報(bào),2007,21(1):90-95.
SUN Jingguang,CAI Dongfeng,Lü Dexin,et al.HowNet based Chinese question automatic classification[J].Journal of Chinese Information Processing,2007,21(1):90-95.
[8]夏天.漢語詞語語義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007,33(6):191-194.
XIA Tian.Study on Chinese words semantic similarity computation[J].Computer Engineering,2007,33(6):191-194.
[9]黃名選,嚴(yán)小衛(wèi),張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào),2009,20(7):1854-1865.
HUANG Mingxuan,YAN Xiaowei,ZHANG Shichao.Query expansion of pseudo relevance feedback based on matrixweighted association rules mining[J].Journal of Software,2009,20(7):1854-1865.
[10]石晶,范猛,李萬龍.基于 LDA模型的主題分析[J].自動化學(xué)報(bào),2009,35(12):1586-1592.
SHI Jing,F(xiàn)AN Meng,LI Wanlong.Topic analysis based on LDA model[J].Acta Automatica Sinica,2009,35(12):1586-1592.