龔 浩,崔運(yùn)鵬,錢 平(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所)
21世紀(jì)第二個(gè)十年即將走完,文獻(xiàn)計(jì)量三大定律依然發(fā)揮其重要的計(jì)量指導(dǎo)作用。布拉德福定律是由英國(guó)著名文獻(xiàn)學(xué)者B.C.Bradford于20世紀(jì)30年代率先提出的描述文獻(xiàn)分散規(guī)律的經(jīng)驗(yàn)定律。其文字表述為:如果將科技期刊按其刊載某學(xué)科專業(yè)論文進(jìn)行統(tǒng)計(jì)并以遞減順序排列,那么可以把期刊分為專門面對(duì)這個(gè)學(xué)科的核心區(qū)、相關(guān)區(qū)和非相關(guān)區(qū)。各個(gè)區(qū)的文章數(shù)量相等,此時(shí)核心區(qū)、相關(guān)區(qū)和非相關(guān)區(qū)期刊數(shù)量成1:n:n2的關(guān)系。[1]洛特卡定律是由美國(guó)學(xué)者A.J.洛特卡在20世紀(jì)20年代率先提出的描述科學(xué)生產(chǎn)率的經(jīng)驗(yàn)規(guī)律,又稱“倒數(shù)平方定律”。[2]它描述的是科學(xué)工作者人數(shù)與其所著論文之間的關(guān)系:寫兩篇論文的作者數(shù)量約為寫一篇論文的作者數(shù)量的1/4;寫三篇論文的作者數(shù)量約為寫一篇論文作者數(shù)量的1/9;寫N篇論文的作者數(shù)量約為寫一篇論文作者數(shù)量的1/n2……,而寫一篇論文作者的數(shù)量約占所有作者數(shù)量的60%,該定律被認(rèn)為是第一次揭示了作者與數(shù)量之間的關(guān)系。1932年,哈佛大學(xué)的語(yǔ)言學(xué)專家齊普夫在研究英文單詞出現(xiàn)的頻率時(shí),發(fā)現(xiàn)如果把單詞出現(xiàn)的頻率按降序排列,則每個(gè)單詞出現(xiàn)的頻率與它的名次的常數(shù)次冪存在簡(jiǎn)單的反比關(guān)系,這種分布就稱為齊普夫定律,[3]它表明在英語(yǔ)單詞中,只有極少數(shù)的詞被經(jīng)常使用,而絕大多數(shù)詞很少被使用。實(shí)際上,包括漢語(yǔ)在內(nèi)的許多國(guó)家的語(yǔ)言都有這種特點(diǎn)。[4]這個(gè)定律后來在很多領(lǐng)域得到了同樣的驗(yàn)證,包括網(wǎng)站的訪問數(shù)量、城鎮(zhèn)的大小和每個(gè)國(guó)家公司的數(shù)量。各類圖書資源增長(zhǎng)依舊符合文獻(xiàn)三大定律,呈指數(shù)增長(zhǎng)趨勢(shì),時(shí)至今日,傳統(tǒng)的分類已經(jīng)無(wú)法滿足其處理任務(wù),就像農(nóng)科院農(nóng)業(yè)圖書館這樣的傳統(tǒng)圖書館,如何結(jié)合現(xiàn)代的物聯(lián)網(wǎng)技術(shù)、適應(yīng)現(xiàn)代數(shù)字化要求的問題丞待解決。
數(shù)字化的要求已經(jīng)日益廣泛,各高校以及科研院所紛紛投入巨額資金來建設(shè)數(shù)字圖書館,以應(yīng)對(duì)學(xué)者以及科研人員對(duì)于擴(kuò)張性增卡的電子資源的需求。1999年物聯(lián)網(wǎng)概念提出時(shí),各互聯(lián)網(wǎng)跨國(guó)巨頭企業(yè)就開始倡導(dǎo)全球互聯(lián),以IBM為代表的互聯(lián)網(wǎng)科技公司提出了“智慧地球”。這一概念由IBM的CEO彭明盛提出,“智慧地球”指的是將傳感器嵌入或者裝備到電網(wǎng)、鐵路、橋梁、公路、家庭設(shè)備、移動(dòng)設(shè)備和航空器等物體上,形成所謂的“物聯(lián)網(wǎng)”,目的在于實(shí)現(xiàn)全球物體和信息的共聯(lián)與交互。以中國(guó)農(nóng)業(yè)科學(xué)院為例,每年國(guó)家農(nóng)業(yè)部以及研究生院投入幾百萬(wàn)甚至上千萬(wàn)的資金,力圖打造面向農(nóng)業(yè)科研人員的數(shù)字圖書館,盡管目前還在艱難建設(shè)中,但各院所對(duì)農(nóng)業(yè)圖書館電子資源的建設(shè)積極支持,其效益有待進(jìn)一步提升。因此,為加緊數(shù)字圖書館的建設(shè),院所構(gòu)建數(shù)據(jù)共享平臺(tái),并采購(gòu)物聯(lián)網(wǎng)設(shè)備,利用RFID射頻技術(shù)對(duì)原有文獻(xiàn)資源進(jìn)行數(shù)據(jù)收集,[5]然而利用物聯(lián)網(wǎng)技術(shù),必然對(duì)傳統(tǒng)的圖書分類編碼技術(shù)提出新的要求。過去圖書管理人員按照《中國(guó)圖書館分類法》或者《中國(guó)科學(xué)院圖書館分類法》,對(duì)圖書文獻(xiàn)進(jìn)行必要的編碼,如今圖書以在線出版為主,且符合大數(shù)據(jù)的四大特征。借鑒人工智能進(jìn)行文獻(xiàn)分類,是開發(fā)面向農(nóng)業(yè)圖書資源語(yǔ)義挖掘自然語(yǔ)言處理系統(tǒng)面臨的新挑戰(zhàn)。
在自然語(yǔ)言處理方面,主要有兩種思路:① 傳統(tǒng)的語(yǔ)言學(xué)處理流派認(rèn)為,語(yǔ)義理論和邏輯符號(hào)理論可以指導(dǎo)計(jì)算機(jī)進(jìn)行學(xué)習(xí)并處理自然語(yǔ)言;② 基于統(tǒng)計(jì)學(xué)的概率論流派,他們認(rèn)為計(jì)算機(jī)可以從文檔集和文本語(yǔ)料等訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)自然語(yǔ)言處理。自20世紀(jì)80年代各學(xué)者針對(duì)自然語(yǔ)言處理提出自己的觀點(diǎn)以來,其發(fā)展熱度至今未見減弱,其中Deerwester等人提出的 LSI,[6]Hofmann 等人提出的pLSI,[7]David Blei等人提出的 LDA 模型[8]應(yīng)用較為廣泛。
S.Deerwester等研究了信息檢索中用戶檢索詞序列與文檔詞序列匹配時(shí)存在的基本問題,他們提出借助文檔內(nèi)部隱含的高階“語(yǔ)義結(jié)構(gòu)”提高檢索的查準(zhǔn)率。先將文檔表示成向量空間模型,使用詞頻-倒文檔頻率TF-IDF將文檔集表示成以文檔為行、單詞為列的矩陣,再利用奇異值分解(SVD)方法進(jìn)行降維,SVD基本公式:N=U∑Vt,此時(shí)U和V是正交矩陣,UtU=VtV=1,∑是對(duì)角矩陣,包含N的奇異值。[1]從繪制類似于詞頻向量的高維詞向量空間,轉(zhuǎn)而向低維潛在語(yǔ)義空間轉(zhuǎn)變。最終的目標(biāo)是在語(yǔ)義空間中,找到詞與詞、詞與文檔、文檔與文檔之間的鄰域的語(yǔ)義關(guān)系。他們以MED語(yǔ)料庫(kù)實(shí)驗(yàn)證明,利用LSI去除不相關(guān)文檔后,文檔維度越高檢索匹配效果越好,冗余度減少后數(shù)據(jù)壓縮量越有優(yōu)勢(shì)。但作者也承認(rèn)目前概念模型很難解決一詞多義現(xiàn)象,其次方法論基礎(chǔ)有待進(jìn)一步完善;SVD方法在概率統(tǒng)計(jì)學(xué)上存在高斯噪聲假設(shè)的可疑性,而這導(dǎo)致很難在可數(shù)的文本變量中驗(yàn)證其結(jié)果準(zhǔn)確性的問題。LSI的基本思路是從繪制類似于詞頻向量的高維詞向量空間,向低維潛在語(yǔ)義空間轉(zhuǎn)變,最終的目標(biāo)是在語(yǔ)義空間中,找到詞與詞、詞與文檔、文檔與文檔之間的鄰域的語(yǔ)義關(guān)系。它存在如下缺點(diǎn):首先,方法論基礎(chǔ)有待進(jìn)一步完善;其次,SVD方法在概率統(tǒng)計(jì)學(xué)上存在高斯噪聲假設(shè)的可疑性;最后,LSA所具有的概念模型很難解決一詞多義現(xiàn)象。
由此,T.Hofmann提出引入概率統(tǒng)計(jì)推斷的pLSI,針對(duì)同樣的文檔檢索匹配問題,pLSI旨在改進(jìn)LSI模型最終結(jié)果缺乏概率解釋的問題,它繼承了LSI的自動(dòng)文檔索引、文檔降維和構(gòu)建語(yǔ)義空間的優(yōu)點(diǎn)的同時(shí),利用潛在的層次模型提供概率混合組成分解,以似然函數(shù)的最優(yōu)化作為結(jié)果,配合退火EM算法適應(yīng)模型擬合,提供了檢索匹配結(jié)果在統(tǒng)計(jì)推斷上更加合理的方法。[2]作者分別以LOB語(yǔ)料庫(kù)、MED文檔作為測(cè)試數(shù)據(jù),[6-9]以復(fù)雜度為測(cè)量指標(biāo),對(duì)比評(píng)價(jià)了LSI和pLSI,發(fā)現(xiàn)pLSI模型的匹配準(zhǔn)確率更高。存在的缺點(diǎn)如下:① 模型中的參數(shù)數(shù)量會(huì)隨著文本語(yǔ)料的增長(zhǎng)而增長(zhǎng),這會(huì)引起過度擬合的問題;② 如何分配訓(xùn)練文檔以外的文檔概率不甚明確。pLSI的啟示主要有以下兩點(diǎn):① 它有效消除了一詞多義的語(yǔ)義分歧問題;② 它通過把具有相同主題的詞聚類以揭示主題的相似性來解決同義詞的問題。文檔信息檢索的重要應(yīng)用模型就是VSM(向量空間模型),使用的方法是TF-IDF。它存在的缺點(diǎn)如下:① 模型中的參數(shù)數(shù)量會(huì)隨著文本語(yǔ)料的增長(zhǎng)而增長(zhǎng),這會(huì)引起過度擬合的問題;② 如何分配訓(xùn)練文檔以外的文檔概率不甚明確。
圖1 pLSI概率圖
隨著主題模型的發(fā)展,研究人員發(fā)現(xiàn)了pLSI中存在的問題,并逐步開始改進(jìn),其間產(chǎn)生了很多優(yōu)秀的算法模型,其中以Blei的博士論文提出的LDA模型最為優(yōu)異。LDA是一個(gè)三層貝葉斯模型,可用于分類、新穎性檢測(cè)、總結(jié)、相似性和相關(guān)性判斷。[3]適合于文檔建模、文檔分類和協(xié)同過濾等領(lǐng)域,Blei認(rèn)為Hofmann的pLSI沒有解決文檔間層次的概率模型的問題,他基于詞包假設(shè),即詞在文檔中的順序?qū)ξ臋n檢索沒有影響,[10]在LDA文章中使用了變分法近似估計(jì)[11]和EM算法推斷經(jīng)典的貝葉斯參數(shù)。[12,13]基于經(jīng)典的Finetti定理,[14]可以發(fā)現(xiàn)文檔內(nèi)部混合分布的統(tǒng)計(jì)結(jié)構(gòu),更好地解決文檔建模、文檔分類和協(xié)同過濾等問題。[15]在文檔建模方面,測(cè)試語(yǔ)料庫(kù)選擇的是TREC AP語(yǔ)料庫(kù),測(cè)試指標(biāo)是對(duì)比平滑混合一元模型和pLSA模型復(fù)雜度,結(jié)果顯示LDA復(fù)雜度最低,模型表現(xiàn)最好。[16]在文檔分類方面,測(cè)試文檔是路透社新聞?wù)Z料,指標(biāo)是精確度和復(fù)雜度,依然顯示LDA模型表現(xiàn)最好。[17]LDA的基本思路是:文檔群由隨機(jī)潛在主題構(gòu)成,而主題是由其中的詞項(xiàng)分布來組成。LDA認(rèn)為文檔d是從語(yǔ)料D中這樣生成的:①選擇N~泊松分布(ξ);② 選擇θ~狄利克雷分布(α);③ 對(duì)于每一個(gè)詞Wn,Wn>選擇主題Zn~多項(xiàng)式分布(ρ),Wn> 從ρ(Wn|Zn,b)選擇Wn
值得提醒的是LDA模型區(qū)別于一般的狄里克雷多項(xiàng)聚類模型,狄里克雷多項(xiàng)聚類模型的文檔一般是單主題,而LDA模型的文檔可以是多主題的。LDA比相關(guān)潛在模型優(yōu)勢(shì)之一就是它對(duì)于原先沒有見過的文檔也能提供較好的推理程序。它存在的劣勢(shì)在于它的基礎(chǔ)詞包假設(shè)允許多個(gè)詞從同一個(gè)主題產(chǎn)生,同時(shí)這些詞又可以分配到不同的主題。為了解決這個(gè)問題,我們需要擴(kuò)展基礎(chǔ)的LDA模型,釋放詞包假設(shè),允許詞序列的部分具有可交換性或馬卡洛夫鏈性。
目前,國(guó)內(nèi)語(yǔ)義挖掘的系統(tǒng)或者說平臺(tái)較成功有中科院語(yǔ)義挖掘平臺(tái)與哈工大的自然語(yǔ)言處理平臺(tái),兩者在語(yǔ)義挖掘方面各有千秋,[18]但是其中的缺憾是農(nóng)業(yè)領(lǐng)域的自然語(yǔ)言處理缺乏針對(duì)性,其次在圖書分類方面尤其是農(nóng)業(yè)文獻(xiàn)分類方面的信息資源管理大有提高的空間。下面先以一般的自然語(yǔ)言處理流程出發(fā),然后再借助目前算法及機(jī)器學(xué)習(xí)等文本語(yǔ)義挖掘技術(shù),開發(fā)出小型的面向某科研機(jī)構(gòu)農(nóng)業(yè)圖書資源的自然語(yǔ)言處理系統(tǒng),結(jié)合目前的自然語(yǔ)言處理系統(tǒng)實(shí)驗(yàn)評(píng)估方法檢測(cè)其性能。
自然語(yǔ)言處理的流程包括詞項(xiàng)選擇、分詞處理、詞性標(biāo)注、文法表示、語(yǔ)義挖掘。[19]相應(yīng)地,語(yǔ)義挖掘的自然語(yǔ)言處理系統(tǒng)應(yīng)該包括以下的基本步驟:得到一個(gè)訓(xùn)練的文檔數(shù)據(jù)集、確定包含所有可能的模型的假設(shè)空間、確定模型選擇的準(zhǔn)則、實(shí)現(xiàn)求解最優(yōu)模型的算法、通過學(xué)習(xí)方法確定最優(yōu)模型、利用學(xué)習(xí)的最新模型預(yù)測(cè)或處理最新的文檔數(shù)據(jù)集。
圖2 LDA主題概率圖
在相應(yīng)的算法中,輸入與輸出進(jìn)行相應(yīng)的比較,只有在誤差小于某一特定統(tǒng)計(jì)量允許范圍時(shí),該算法提出的模型才是有效的,否則即拋棄。LSA之前的TF-IDF確定的VSM(向量空間模型),在諸多學(xué)者驗(yàn)證之下,[6-8,20-24]對(duì)文檔分類檢索來說其精確度與召回率都不是很理想。因此本文在樸素貝葉斯的算法理念上使用更成熟的LSA、更進(jìn)一步的EM算法上的pLSA以及進(jìn)化版EM算法上的LDA模型。LDA的推理算法有拉普拉斯估計(jì)[25-26]、多項(xiàng)式估計(jì)[27]以及最著名的馬卡洛夫鏈蒙特卡洛。[28]
EM算法的流程如下:① 初始化分布參數(shù);②迭代更新直至收斂。
>(E步):對(duì)每個(gè)文檔來說,若參數(shù)θ已知,根據(jù)訓(xùn)練數(shù)據(jù)找到隱變量Z最優(yōu)值。
>(M步):若Z值已知,則方便最大化對(duì)模型參數(shù)的極大似然估計(jì)。這與發(fā)現(xiàn)每個(gè)文檔的充分統(tǒng)計(jì)數(shù)據(jù)的最大期望估計(jì)有關(guān),這一估計(jì)與E步驟計(jì)算的后驗(yàn)概率有聯(lián)系。
傳統(tǒng)的語(yǔ)義挖掘的主題模型參數(shù)估計(jì)算法較為著名的有變分貝葉斯EM算法[29-31]、馬爾科夫鏈蒙特卡洛方法的吉布斯抽樣[32-33]、層次貝葉斯算法[8,34-36]等。其中應(yīng)用最廣泛的是EM算法,利用EM算法迭代計(jì)算貝葉斯后驗(yàn)分布的概率,優(yōu)點(diǎn)在于其速度較快,缺點(diǎn)在于計(jì)算量大,且模型計(jì)算的參數(shù)不準(zhǔn)確;而利用馬爾科夫鏈蒙特卡洛方法的吉布斯抽樣模型參數(shù)估計(jì)較準(zhǔn)確,但收斂速度較慢,終止條件不明確。
目前較成熟的文檔處理模型是LDA模型,雖說現(xiàn)在在樸素LDA模型上已經(jīng)有了很多改進(jìn)版本,[37]但是毫無(wú)疑問都是LDA的版本,以Blei和Hoffmann來說,他們于2010年合作開發(fā)的Online-LDA模型,[38]證明的LDA模型的成功之處。LDA處理的問題領(lǐng)域有文檔建模、文檔分類和協(xié)同過濾。具體以文檔分類為例,本文中的系統(tǒng)具體可以實(shí)現(xiàn)文檔模型語(yǔ)位學(xué)模塊、形態(tài)規(guī)劃形態(tài)學(xué)模塊、詞匯與語(yǔ)法句法模塊、話語(yǔ)背景語(yǔ)義、領(lǐng)域知識(shí)推理模塊。
文檔模型語(yǔ)位學(xué)模塊,可以實(shí)現(xiàn)文檔層分析、文檔形態(tài)合成,借助Python模塊的Gensim與NLTK實(shí)現(xiàn)。形態(tài)規(guī)劃形態(tài)學(xué)模塊,可以實(shí)現(xiàn)形態(tài)與詞法分析、形態(tài)實(shí)現(xiàn)功能,這一模塊的實(shí)現(xiàn)主要依靠Python的Scikit-learn與gensim的word2vec實(shí)現(xiàn)。詞匯與語(yǔ)法句法模塊,可以實(shí)現(xiàn)話語(yǔ)背景語(yǔ)義,這可以用于物聯(lián)網(wǎng)的語(yǔ)音收入設(shè)備,實(shí)現(xiàn)解析和句法分析的功能,利用Java實(shí)現(xiàn)的weka分析其統(tǒng)計(jì)量,句法實(shí)現(xiàn)交給numpy、scipy以及NLTK模塊包。話語(yǔ)背景語(yǔ)義模塊,可以達(dá)到上下文推理和話語(yǔ)規(guī)劃的功能效果,這在系統(tǒng)中顯得至關(guān)重要,利用Scikit-learn中相應(yīng)的推演算法可以實(shí)現(xiàn),當(dāng)然需要NLTK的輔助實(shí)現(xiàn)。應(yīng)用推理模塊,借鑒哈工大以及中科院自然語(yǔ)言處理系統(tǒng)的成功點(diǎn),實(shí)現(xiàn)本系統(tǒng)。
關(guān)鍵的難點(diǎn)在于其模型的參數(shù)估計(jì),對(duì)于主題模型和其他流行的貝葉斯模型,模型的參數(shù)很難精確計(jì)算,研究者一般訴諸于大致的后驗(yàn)概率推斷。較普遍的后驗(yàn)概率推斷算法包括兩類:取樣接近和最優(yōu)化接近。取樣接近一般基于馬卡洛夫鏈蒙特卡洛取樣(MCMC);最優(yōu)化接近基于變分推理,在貝葉斯層次模型中使用稱為變分貝葉斯(VB)。經(jīng)驗(yàn)表明,VB比MCMC效率高而且精確度一樣。
赫爾伯特·西蒙(Herbert A.Simon)曾對(duì)“學(xué)習(xí)”給出以下的定義:“如果某個(gè)系統(tǒng)可以通過執(zhí)行某個(gè)過程改進(jìn)它的性能,這就是學(xué)習(xí)”。[39]按照這一觀點(diǎn),自然語(yǔ)言處理的性能改進(jìn)也就是模型“學(xué)習(xí)”的過程。其中語(yǔ)言模型的性能通常用交叉熵和復(fù)雜度(Perplexity)來衡量。
交叉熵的意義是計(jì)算文本識(shí)別的難度,從壓縮的角度來看,每個(gè)詞平均要用幾個(gè)位來編碼。復(fù)雜度的意義是用該模型表示這一文本平均的分支數(shù),其倒數(shù)可視為每個(gè)詞的平均概率,復(fù)雜度越高,模型的性能越低。平滑是指對(duì)沒觀察到的N元組合賦予一個(gè)概率值,以保證詞序列總能通過語(yǔ)言模型得到一個(gè)概率值。通常使用的平滑技術(shù)有圖靈估計(jì)、刪除插值平滑、Katz平滑和 Kneser-Ney平滑。[40]
歧義的描述和消除是制約計(jì)算語(yǔ)言學(xué)發(fā)展的瓶頸問題。將交叉熵引入計(jì)算語(yǔ)言學(xué)消岐領(lǐng)域,采用語(yǔ)句的真實(shí)語(yǔ)義作為交叉熵的訓(xùn)練集的先驗(yàn)信息,將機(jī)器翻譯的語(yǔ)義作為測(cè)試集后驗(yàn)信息,計(jì)算兩者的交叉熵,并以交叉熵指導(dǎo)對(duì)歧義的辨識(shí)和消除。實(shí)例表明,該方法簡(jiǎn)潔有效,易于計(jì)算機(jī)自適應(yīng)實(shí)現(xiàn)。交叉熵不失為計(jì)算語(yǔ)言學(xué)消歧的一種較為有效的工具。
pLSA與一般的一元混合模型(LSA)都包括了過度擬合問題,雖然原因大小不一。以一元混合模型為例,過度擬合是訓(xùn)練數(shù)據(jù)集峰值后驗(yàn)概率的結(jié)果。這一現(xiàn)象與樸素貝葉斯模型類似,在E步中訓(xùn)練文檔中聚類的不變性造成了M步中詞項(xiàng)概率的趨同性。一個(gè)原先沒有在訓(xùn)練文檔中出現(xiàn)的文檔可能很好地?cái)M合了混合模型,但是其中的可能未出現(xiàn)在訓(xùn)練模型中的詞項(xiàng)被分配了很小的概率,這導(dǎo)致了隨著文檔主題數(shù)的增加,其中包含未知詞項(xiàng)的概率增多,最終導(dǎo)致復(fù)雜度或者說困惑度的激增。
[參考文獻(xiàn)]
[1] S.C.Bradford.Sourcesofinformationon specific subjects[J].Journalof Information Science,1934,10(4):173-180.
[2] Lotka A J.The frequency distribution ofscientific productivity [J].Journal of theWashington Academy of Sciences,1926,16 (12):317-323.
[3] Zipf G K.Selected studies of the principle of relative frequency in language[J].Language,1933,9 (1):89-92.
[4]王崇德.文獻(xiàn)計(jì)量學(xué)教程[M].天津:南開大學(xué)出版社,1990:51-52.
[5]卓文飛.中國(guó)農(nóng)業(yè)數(shù)字圖書館信息集成服務(wù)系統(tǒng)研究[D].北京:中國(guó)農(nóng)業(yè)科學(xué)院,2008.
[6] DeerwesterS,etal.Indexingby latentsemanticanalysis[J].JournaloftheAmerican Society for Information Science,1990,41(6):391-407.
[7] Hofmann T.Probabilistic latentsemanticanalysis[J].Uncertainty in Artificial Intelligence,1999,7(3):289-296.
[8] BleiDM,etal.Latentdirichletallocation[J].Journal ofMachine Learning Research,2003,3 (1):993-1022.
[9] Papadimitriou CH,etal.Latentsemantic indexing:A probabilistic analysis[C]//Symposium on Principlesof Database Systems, New York: ACM Press, 1998:159-168.
[10] Salton G,McGillM J.Introduction tomodern information Philadelphia,PA [J].American Association forArtificial IntelligenceRretrieval,1983,47 (158):112-125.
[11] Blei D M,Jordan M I.Variationalmethods for the Dirichletprocess[C]//Proceedingsof the Twenty-first International Conference on Machine Learning,New York:ACMPress,2004:12.
[12] Cheeseman P,etal.AutoClass:Abayesian classification system [J].Machine Learning Proceedings,1988(9):54-64.
[13] NealRM,Hinton G E.A view of the EM algorithm that justifies incremental,sparse, and other variants[M].Berlin:Springer,1998:355-368.
[14] DiaconisP.Recentprogresson de Finetti’snotionsof exchangeability [J].Bayesian Statistics,1988,3:111-125.
[15] Hill BM,De FinettiB.Theory of probability[J].Journalof the American Statistical Association,1975,17(2):126-127.
[16] BleiDM,JordanM I.Modelingannotated data[C]//International Acm Sigir Conference on Research and Ddevelopment in Information Retrieval, New York:ACMPress,2003:127-134.
[17] Baker LD,Mccallum A.Distributional clusteringof words fortextclassification[C]//InternationalAcm Sigir Conferenceon Research and Development in Information Retrieval, New York: ACM Press, 1998:96-103.
[18]徐戈,王厚峰.自然語(yǔ)言處理中主題模型的發(fā)展 [J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1423-1436.
[19]孫海霞,成穎.潛在語(yǔ)義標(biāo)引(LSI)研究綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2007,2(9):49-53.
[20] Dickey JM.Multiplehypergeometric functions:Probabilistic interpretationsand statisticaluses[J].Journalof the American StatisticalAssociation,1983,78(383):628-637.
[21] DumaisST.Latentsemantic indexing (LSI):TREC-3 report[J].NistSpecialPublication SP,1995,57 (134):219-219.
[22] JoachimsT.Making large-scale SVM learningpractical[R].Dortmund:Universita..tDortmund,1998.
[23] WolfeM BW,etal.Learning from text:Matching readersand textsby latentsemanticanalysis[J].DiscourseProcesses,1998,25 (2-3):309-336.
[24] Hofmann T,et al.Learning from dyadic data[C]//Advances in Neural Information Processing Systems,Cambridge,MA:TheMITPress,1999:466-472.
[25] CaniniK,etal.Online inferenceof topicswith latent Dirichlet allocation[C]//Artificial Intelligence and Statistics,Cambridge,MA:JMLR,2009:65-72.
[26] BraunM,McAuliffe J.Variationalinference for large-scalemodels of discrete choice [J].Journal of the American StatisticalAssociation,2010,105(489):324-335.
[27] Florentin JJ,etal.Handbook ofmathematical functions[J].American Mathematical Monthly, 1966,73(10):1143.
[28] JordanM I,etal.An introduction tovariationalmethods for graphical models[J].Machine Learning,1999,37(2):183-233.
[29] Dempster A P,etal.Maximum likelihood from incompletedatavia theEM algorithm [J].Journalofthe RoyalStatisticalSociety,1977,39 (6):1-38.
[30] SatoM A,IshiiS.On-lineEM algorithm for thenormalized Gaussian network [J].Neural Computation,2000,12(2):407-432.
[31] Liang P,Klein D.Online EM forunsupervisedmodels[C]//Human LanguageTechnologies:Conference of the North American Chapter of the Association of ComputationalLinguistics,NewYork:DBLP,2009:611-619.
[32] Liu JS,Chen R.SequentialMonteCarlomethods for dynamic systems[J].Journalof theAmerican StatisticalAssociation,1998,93(443):1032-1044.
[33] HastingsW K.Monte Carlo samplingmethods using Markov Chainsand theirapplications[J].Biometrika,1970,57 (1):97-109.
[34] Chang J,etal.Reading tea leaves:How humansinterpret topicmodels[C]//Advances in Neural Information ProcessingSystems,New York:Curran Associates Inc.,2009:288-296.
[35] Song X,etal.Modelingand predicting personal information dissemination behavior[C]//Proceedingsof theEleventh ACMSIGKDD InternationalConferenceon Knowledge Discovery in Data Mining, New York:ACMPress,2005:479-488.
[36] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedingsof theNationalacademyofSciences,2004,101(s1):5228-5235.
[37] Yao L,etal.Efficientmethods for topicmodelinferenceonstreamingdocumentcollections[C]//Proceedingsofthe15th ACMSIGKDD InternationalConference on Knowledge Discovery and Data Mining,New York:ACMPress,2009:937-946.
[38] Hoffman M D,et al.Online Learning for Latent DirichletAllocation[C]//Neural Information Processing Systems, New York: Curran Associates Inc.,2010:856-864.
[39] AnzaiY,Simon H A.The theoryof learningby doing[J].PsychologicalReview,1979,86(2):124.
[40] Chen S F,Goodman J T.An empirical study of smoothing techniques for languagemodeling[J].Computer Speech&Language,1999,13(4): 359-394.