国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向LDA主題模型的文本分類(lèi)研究進(jìn)展與趨勢(shì)①

2018-08-17 12:06張興旺
關(guān)鍵詞:分類(lèi)器文檔分類(lèi)

趙 樂(lè),張興旺

1(桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,桂林 541004)

2(桂林理工大學(xué) 圖書(shū)館,桂林 541004)

1 引言

隨著互聯(lián)網(wǎng)的發(fā)展和迅速普及,面對(duì)著網(wǎng)絡(luò)中呈爆炸式增長(zhǎng)且雜亂無(wú)章的數(shù)據(jù),文本挖掘的工作就顯得愈發(fā)重要,人們希望能夠從海量的信息文本中準(zhǔn)確的獲取想要的信息[1].那么,如何有效的獲取有價(jià)值的信息,如何對(duì)浩如煙海的文本數(shù)據(jù)進(jìn)行自動(dòng)分類(lèi)、組織和管理就變得愈發(fā)困難[2].因此,面對(duì)這些問(wèn)題和需求,利用計(jì)算機(jī)進(jìn)行智能信息處理便得到了廣泛的研究.文本自動(dòng)分類(lèi)技術(shù)作為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn),得到了快速發(fā)展和廣泛應(yīng)用.

文本自動(dòng)分類(lèi)技術(shù)作為文本數(shù)據(jù)挖掘的重要組成部分,在信息抽取、信息檢索、搜索引擎、個(gè)性化推薦等多個(gè)領(lǐng)域得到發(fā)展和應(yīng)用,是自然語(yǔ)言處理的熱點(diǎn)和關(guān)鍵技術(shù)之一[3].其中,文本分類(lèi)在處理大規(guī)模數(shù)據(jù)時(shí),如何提高分類(lèi)速度和準(zhǔn)確性,如何進(jìn)行特征方法選擇實(shí)現(xiàn)更好的降維操作,是當(dāng)前的重要研究方向.LDA主題模型具有良好的降維性能,因此把它作為特征模型,再結(jié)合分類(lèi)器設(shè)計(jì)能夠達(dá)到很好的分類(lèi)效果.

LDA主題模型是符合文本生成規(guī)律的全概率生成模型,具有很好的文本表示能力,提取具有語(yǔ)義信息的主題.為了解決傳統(tǒng)意義上文本分類(lèi)在語(yǔ)義相似性度量和文檔主題分布問(wèn)題的不足,應(yīng)用LDA主題模型方法[3].LDA主題模型的應(yīng)用有助于降低特征向量空間維度,有助于提高文本分類(lèi)性能.因此本文主要針對(duì)基于LDA主題模型的文本分類(lèi)進(jìn)行分析.

本文首先介紹了文本分類(lèi)和LDA主題模型的相關(guān)理論;其次,從技術(shù)、方法和應(yīng)用三個(gè)方面分析了面向LDA主題模型的文本分類(lèi)的研究現(xiàn)狀;然后,分析了目前研究中存在的一些問(wèn)題和研究策略;最后,分析并討論了文本分類(lèi)未來(lái)的一些發(fā)展趨勢(shì).

2 研究現(xiàn)狀分析

近些年來(lái),信息資源呈現(xiàn)指數(shù)增長(zhǎng),大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨,關(guān)于文本信息分類(lèi)處理的研究和應(yīng)用得到快速發(fā)展,成為自然語(yǔ)言處理領(lǐng)域重要的研究方向.

對(duì)于文本分類(lèi)的研究現(xiàn)狀分析可從理論、技術(shù)和方法三個(gè)角度.理論分析了當(dāng)前國(guó)內(nèi)外關(guān)于文本自動(dòng)分類(lèi)技術(shù)和LDA主題模型的發(fā)展概述;相關(guān)技術(shù)對(duì)當(dāng)前在文本分類(lèi)中應(yīng)用較為廣泛的分類(lèi)器做了簡(jiǎn)單介紹,并指出不足之處;最后是近幾年一些研究者在傳統(tǒng)方法的基礎(chǔ)上進(jìn)行改進(jìn)而提出的方法.

2.1 理論分析

2.1.1 文本分類(lèi)分析

文本分類(lèi)(text categorization),是在預(yù)先劃定好的文本類(lèi)別集合中,根據(jù)文本的主題內(nèi)容,把文本劃分為不同類(lèi)別的過(guò)程.因?yàn)橐粋€(gè)文本可能有一個(gè)或多個(gè)主題,所以一個(gè)文本也就可能對(duì)應(yīng)一個(gè)或多個(gè)類(lèi)別.一個(gè)文本分類(lèi)系統(tǒng)不僅是一個(gè)自然語(yǔ)言處理系統(tǒng),也是一個(gè)典型的模式識(shí)別系統(tǒng),因此可以把一個(gè)文本分類(lèi)系統(tǒng)看成是簡(jiǎn)單的輸入輸出問(wèn)題,系統(tǒng)輸入的是文本,輸出是文本對(duì)應(yīng)的類(lèi)別,如圖1所示[4].

圖1 文本分類(lèi)系統(tǒng)示意

國(guó)外關(guān)于文本分類(lèi)技術(shù)的研究起步較早,發(fā)展歷程如表1所示[5],當(dāng)前已得到廣泛發(fā)展,應(yīng)用于信息檢索、數(shù)據(jù)挖掘、模式識(shí)別等多種領(lǐng)域.由于在準(zhǔn)確率和穩(wěn)定性方面具有明顯的優(yōu)勢(shì),基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文本分類(lèi)方法日益受到重視.

表1 文本分類(lèi)的發(fā)展

在過(guò)去的幾十年里,國(guó)內(nèi)外學(xué)者提出及改進(jìn)了一系列經(jīng)典的機(jī)器學(xué)習(xí)算法,如樸素貝葉斯(Na?ve Bayes,NB)、支持向量機(jī)(Support Vector Machine,SVM)、K-最近鄰法(K-Nearest Neighbors,KNN)和神經(jīng)網(wǎng)絡(luò)(Neural Networks,NNet)等.

這些方法具有很好的可移植性,將其成功應(yīng)用于文本分類(lèi)領(lǐng)域,取得了良好的效果.后來(lái)提出的LDA主題模型,以及在此基礎(chǔ)上改進(jìn)的半監(jiān)督和弱監(jiān)督文本分類(lèi)算法都取得了較好的分類(lèi)效果,文本分類(lèi)技術(shù)也有了很大的進(jìn)步.

而漢語(yǔ)不同于其他語(yǔ)言,研究起來(lái)比較困難,所以國(guó)內(nèi)的研究借鑒了國(guó)外的一些研究成果,是在侯漢清[6]關(guān)于自動(dòng)文本分類(lèi)技術(shù)方面的概述性報(bào)告之后才逐漸興起的.之后,一些專(zhuān)家學(xué)者開(kāi)始熱衷于文本分類(lèi)技術(shù)的研究,并提出了一些切實(shí)可行,具有很好分類(lèi)性能的方法.

2.1.2 LDA主題模型概述

在2003年Blei等人在LSA和pLSA基礎(chǔ)上提出了LDA(Latent Dirichlet Allocation)主題生成模型[7].該模型是全概率生成模型,內(nèi)部結(jié)構(gòu)清晰,即文檔-主題-特征詞三層結(jié)構(gòu),可以利用高效的概率推斷算法進(jìn)行計(jì)算,并且參數(shù)空間的規(guī)模與訓(xùn)練文本數(shù)量無(wú)關(guān),因此可以處理大規(guī)模語(yǔ)料.它的基本思想是:語(yǔ)料庫(kù)中的每個(gè)文本可以看成是若干潛在主題構(gòu)成的一個(gè)概率分布,每個(gè)主題是由若干個(gè)特定詞匯組成的,并且以一定的概率出現(xiàn).它解決了LSA的性能受損和計(jì)算復(fù)雜性的問(wèn)題以及pLSA模型參數(shù)隨著文檔數(shù)量增加出現(xiàn)的過(guò)擬合問(wèn)題,因此得到了廣泛應(yīng)用.

2.2 相關(guān)技術(shù)分析

文本分類(lèi)系統(tǒng)一般包括文本表示、特征選擇、權(quán)重計(jì)算、分類(lèi)器設(shè)計(jì)和性能評(píng)測(cè)等五大功能模塊,而系統(tǒng)中的關(guān)鍵問(wèn)題就是文本表示和分類(lèi)器設(shè)計(jì).

2.2.1 文本表示

文本是有文字和符號(hào)組成的非結(jié)構(gòu)化信息表示方式,要使計(jì)算機(jī)能夠高效的處理真實(shí)文本,就必須找到一種理想的形式化表示方法,把非結(jié)構(gòu)化的文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)學(xué)模型.常用的文本表示模型有布爾邏輯模型、向量空間模型、概率模型等.目前通常采用應(yīng)用較多且效果較好的向量空間模型(Vector Space Model,VSM);另外,由Blei等人[7]提出的LDA主題模型,因其能夠利用隱含主題表示文本,不僅合理降低了特征詞矩陣的維度,還能保持元數(shù)據(jù)集的全面性,不影響分類(lèi)性能,也備受人們關(guān)注.

1)向量空間模型(VSM)

VSM是由Salton等人提出的,最初用于SMART信息檢索.VSM模型將文檔用向量(t1,w1;t2,w2;···;tn,wn)表示,tk是特征項(xiàng),一個(gè)文檔可以看成是它含有的所有的特征項(xiàng)的集合,wk是特征項(xiàng)的權(quán)重,表示它們?cè)谖臋n中的重要程度.把特征項(xiàng)看作是n維坐標(biāo)系,權(quán)重就是相應(yīng)的坐標(biāo)值,那么一個(gè)文本就表示為n維空間的一個(gè)向量.因此就將非結(jié)構(gòu)化的文本信息轉(zhuǎn)化到向量空間來(lái)表示.

2)LDA主題模型

即潛在狄利克雷分布模型,是一種文檔主題生成模型,也是一種包含詞、主題和文檔三層結(jié)構(gòu)的三層貝葉斯概率模型.LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),主要是針對(duì)離散數(shù)據(jù)集進(jìn)行建模,通過(guò)對(duì)語(yǔ)料庫(kù)建??梢杂脕?lái)識(shí)別大規(guī)模文檔集(document collection)或語(yǔ)料庫(kù)(corpus)中潛在的主題信息.它運(yùn)用詞袋(bag of words)將每一篇文檔視為一個(gè)詞頻向量,忽略了詞與詞之間的順序和文檔在語(yǔ)料庫(kù)中的順序,這簡(jiǎn)化了問(wèn)題的復(fù)雜性,同時(shí)也為模型的改進(jìn)提供了契機(jī).

2.2.2 分類(lèi)器設(shè)計(jì)

分類(lèi)器實(shí)際上就是一個(gè)映射函數(shù),完成從需要映射的文本到預(yù)定義的類(lèi)別集合的映射關(guān)系.常用的分類(lèi)方法有:樸素的貝葉斯分類(lèi)法(na?ve Bayesian classifier)、基于支持向量機(jī)(Support Vector Machines,SVM)的分類(lèi)器、K-最近鄰法(K-Nearest Neighbor,KNN)、神經(jīng)網(wǎng)絡(luò)法(Neural Network,NNet)、決策樹(shù)(decision tree)分類(lèi)法等.

(1)樸素貝葉斯分類(lèi)器

樸素貝葉斯分類(lèi)器是基于貝葉斯定理與特征條件獨(dú)立假設(shè)的分類(lèi)方法[8],是利用特征項(xiàng)和類(lèi)別的聯(lián)合概率來(lái)估計(jì)給定文檔的類(lèi)別概率的方法.它假定詞與詞之間是獨(dú)立的,這在實(shí)際情況中很難保證,因此當(dāng)假設(shè)條件不滿(mǎn)足時(shí),會(huì)嚴(yán)重影響分類(lèi)的準(zhǔn)確率和性能.根據(jù)貝葉斯公式,文檔Doc屬于Ci類(lèi)的概率如公式(1).

(2)基于支持向量機(jī)的分類(lèi)器

支持向量機(jī)在解決小樣本、非線性及高緯模式識(shí)別中有許多優(yōu)勢(shì),基于支持向量機(jī)的分類(lèi)方法主要用于解決二元模式分類(lèi)問(wèn)題,基本思想是在向量空間中找到一個(gè)最優(yōu)超平面,即決策平面(decision surface),而這個(gè)平面能夠很好的分割不同類(lèi)別的數(shù)據(jù)點(diǎn),從而達(dá)到分類(lèi)的目的.但是在處理具體分類(lèi)問(wèn)題時(shí)無(wú)法選取正確有效的核函數(shù)是它的不足之處,另外,訓(xùn)練時(shí)間與數(shù)據(jù)集規(guī)模大小有關(guān),訓(xùn)練時(shí)計(jì)算量通常比較大,這也會(huì)影響分類(lèi)器的效率.

(3)K-最近鄰法

K-最近鄰法的基本思想是:給定測(cè)試文檔和數(shù)據(jù)類(lèi)別,系統(tǒng)在訓(xùn)練集中查找與目標(biāo)文本相似度最高的k個(gè)文本,并根據(jù)這些文本來(lái)給其候選類(lèi)別評(píng)分.K-最近鄰算法簡(jiǎn)單直接,但計(jì)算量大,時(shí)間復(fù)雜度較高,而且訓(xùn)練樣本質(zhì)量對(duì)分類(lèi)器性能有著很大影響.

(4)基于神經(jīng)網(wǎng)絡(luò)的分類(lèi)器

神經(jīng)網(wǎng)絡(luò)(NNet)是目前比較成熟的技術(shù)之一,是一種應(yīng)用類(lèi)似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行分布式并行信息處理的數(shù)學(xué)模型.其基本思想是:給每一類(lèi)文檔建立一個(gè)神經(jīng)網(wǎng)絡(luò),輸入單詞或是特征向量,通過(guò)機(jī)器學(xué)習(xí)獲得從輸入到分類(lèi)的非線性映射.神經(jīng)網(wǎng)絡(luò)分類(lèi)效果比KNN和SVM較差,而且時(shí)間復(fù)雜度比較大,實(shí)際應(yīng)用很少.

2.2.3 方法

文本分類(lèi)技術(shù)興起之后,大批專(zhuān)家學(xué)者對(duì)此進(jìn)行了研究,提出了一些具有良好效果的分類(lèi)方法.如Yang等人[9]提出的基于聚類(lèi)的決策樹(shù)方法,用于解決在線文本分類(lèi)問(wèn)題;Animashree等人[10]在LDA的基礎(chǔ)上利用統(tǒng)計(jì)中的三元或四元模型,通過(guò)兩個(gè)奇異值分解來(lái)訓(xùn)練文檔中的主題模型,進(jìn)而實(shí)現(xiàn)對(duì)文本的分類(lèi).Chakraborti等人[11]通過(guò)引入關(guān)鍵詞,提出了基于LDA和關(guān)鍵詞的弱監(jiān)督文本分類(lèi)算法,也取得了較好的效果.

雖然國(guó)內(nèi)起步較晚,但也取得了不少成果.繼侯漢清教授之后,李榮陸等人[12]提出了基于最大熵模型的文本分類(lèi)算法,來(lái)構(gòu)建分類(lèi)器對(duì)文本進(jìn)行分類(lèi);尚文倩等人[13]提出了基于基尼指數(shù)的新的文本特征算法.這些算法的提出在一定程度上提高了分類(lèi)性能,推動(dòng)了文本分類(lèi)的發(fā)展.

LDA主題模型是一種可以挖掘大型文檔數(shù)據(jù)集合中潛在主題信息和實(shí)現(xiàn)文本信息的分類(lèi)的概率模型,自從提出以來(lái)得到了廣泛的應(yīng)用,并取得良好效果.應(yīng)用至今,已有不少專(zhuān)家學(xué)者對(duì)其進(jìn)一步的改進(jìn),其分類(lèi)效果得到進(jìn)一步提升.因此,把LDA主題模型和其他方法相結(jié)合得到了廣泛研究,并取得不錯(cuò)效果.

基于Labeled-LDA(附加類(lèi)別標(biāo)簽的LDA)模型的文本分類(lèi)[2],將類(lèi)別信息融入傳統(tǒng)LDA模型,進(jìn)而支持文檔在全部類(lèi)別的隱含主題上的協(xié)同分配,解決了傳統(tǒng)LDA模型用于分類(lèi)時(shí)強(qiáng)制分配隱含主題的缺陷;基于mRMR和LDA主題模型的文本分類(lèi)[14],預(yù)先使用mRMR特征選擇算法將輸入空間映射到低維空間,去除較大不相關(guān)信息和重疊信息,使得LDA能夠在更簡(jiǎn)潔的文本上建模,從而得到更精確的主題分布;基于詞向量與 LDA 相融合的短文本分類(lèi)方法[15],能有效克服短文本的主題聚焦性差及特征稀疏性問(wèn)題,提高短文本分類(lèi)性能.基于LDA的微博生成模型MRT-LDA[16],利用微博之間的轉(zhuǎn)發(fā)、對(duì)話、支持(贊)和評(píng)論等關(guān)系來(lái)計(jì)算微博之間的相關(guān)性,綜合考慮微博之間的相關(guān)性和同一用戶(hù)微博信息間的關(guān)系,來(lái)輔助對(duì)微博的主題進(jìn)行挖掘.Fu等人[17]針對(duì)開(kāi)放類(lèi)別文本(文檔類(lèi)別未知)進(jìn)行分類(lèi),提出了新的基于多重潛在狄利克雷分配模型的分類(lèi)系統(tǒng)和方法,聚類(lèi)主題并提取關(guān)鍵字幫助分類(lèi)注釋,最后應(yīng)用到綜合預(yù)測(cè)類(lèi)別.Pavlinek等人[18]提出基于主題模型表示的自訓(xùn)練半監(jiān)督式文本分類(lèi)方法,有助于改進(jìn)文本分類(lèi)任務(wù),這在許多高級(jí)專(zhuān)家和智能系統(tǒng)中是必不可少的.

但是隨著網(wǎng)絡(luò)的發(fā)展,文本數(shù)量龐大,內(nèi)容更為復(fù)雜,因此上述方法中不可避免會(huì)存在一些問(wèn)題.pLSA模型[19]對(duì)文檔中主題的混合權(quán)重沒(méi)有做任何假設(shè),可能會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象.sLDA模型[20]為每篇文檔關(guān)聯(lián)一個(gè)代表著該文檔類(lèi)別標(biāo)識(shí)的變量,然后用EM算法進(jìn)行最大似然估計(jì),但是該模型只能處理單一類(lèi)別標(biāo)識(shí)文檔.Labeled-LDA模型[2]在訓(xùn)練主題模型之前沒(méi)有去處停用詞,沒(méi)有考慮到詞與其他各類(lèi)別的關(guān)聯(lián)問(wèn)題,并且使用此模型獲得的主題分布傾向于高頻詞,降低了主題的表達(dá)能力等;使用最大熵模型進(jìn)行中文文本分類(lèi)的研究發(fā)現(xiàn),基于最大熵模型的分類(lèi)器穩(wěn)定性比KNN方法要差,使用不同的訓(xùn)練文檔測(cè)試結(jié)果相差較大,另外實(shí)驗(yàn)規(guī)模有待擴(kuò)大;MRT-LDA模型[16]對(duì)于微博中的圖片、表情等非文本信息利用不足,微博信息挖掘有待提高.

2.3 應(yīng)用現(xiàn)狀分析

2.3.1 文本分類(lèi)

文本分類(lèi)(text classification)是利用計(jì)算機(jī)系統(tǒng)對(duì)文本按照預(yù)定義類(lèi)別進(jìn)行劃分的技術(shù).文本分類(lèi)問(wèn)題的關(guān)鍵技術(shù)之一就是文本表示,目前在文本分類(lèi)應(yīng)用中較為流行、分類(lèi)效果較好的就是VSM向量空間模型和LDA主題模型.LDA主題模型是一種無(wú)監(jiān)督的全概率生成模型,它本身不能直接判斷文本類(lèi)別,因此它可以把文檔表示為一系列潛在主題的概率分布,然后選擇一種合適的分類(lèi)算法構(gòu)造分類(lèi)器.LDA主題模型實(shí)現(xiàn)了對(duì)大規(guī)模文本數(shù)據(jù)的降維操作,能夠挖掘文本中潛藏的主題信息、分析語(yǔ)義信息.傳統(tǒng)的LDA主題模型在分類(lèi)過(guò)程中可能會(huì)存在強(qiáng)制主題分配問(wèn)題,因此李文波等人[2]提出了Labled-LDA模型,通過(guò)引入類(lèi)別標(biāo)簽信息,協(xié)同計(jì)算新文本在各類(lèi)別隱含主題的分配量,從而克服了傳統(tǒng)LDA主題模型的強(qiáng)制分配問(wèn)題.另外傳統(tǒng)LDA主題模型沒(méi)有考慮詞順序問(wèn)題,可能會(huì)造成詞信息的損失,因此田寶明等人[21]提出了一種基于隨機(jī)森林的多視角文本分類(lèi)方法,利用改進(jìn)的隨機(jī)森林方法結(jié)合基于詞的和基于LDA主題的兩種文本表示方法,有效的提高了文本分類(lèi)性能.吳建軍等人[22]提出的基于互信息的特征項(xiàng)加權(quán)樸素貝葉斯算法,部分消除了特征項(xiàng)獨(dú)立性和特征項(xiàng)重要性相等假設(shè),提高了樸素貝葉斯算法的分類(lèi)效果;針對(duì)短文本信息,劉澤錦等人[23]提出快速雙詞主題模型,用于解決大規(guī)模短文本語(yǔ)料庫(kù)主題模型參數(shù)大導(dǎo)致求解慢的問(wèn)題.

2.3.2 文本聚類(lèi)

文本聚類(lèi)(text clustering)是依據(jù)相同類(lèi)別的文檔相似度較大,不同類(lèi)別的文檔相似度較小的這一聚類(lèi)假設(shè)提出的非監(jiān)督的機(jī)器學(xué)習(xí)方法.文本聚類(lèi)因?yàn)椴恍枰獙?duì)文本進(jìn)行訓(xùn)練和分類(lèi)標(biāo)注,所以具有一定的靈活性和自動(dòng)化處理能力,應(yīng)用廣泛.針對(duì)熱點(diǎn)新聞,對(duì)搜索引擎返回的結(jié)果,對(duì)用戶(hù)感興趣的文檔進(jìn)行聚類(lèi)處理,并且文本聚類(lèi)還可以用于改善文本分類(lèi)結(jié)果.對(duì)搜索引擎返回的結(jié)果進(jìn)行聚類(lèi),有助于用戶(hù)快速瀏覽返回的信息,找到滿(mǎn)足自己需要的信息.阮光冊(cè)等人[24]將LDA主題模型和k-means算法相結(jié)合開(kāi)展了基于主題模型的檢索結(jié)果應(yīng)用研究,利用LDA模型實(shí)現(xiàn)文本潛在語(yǔ)義的識(shí)別,用于幫助用戶(hù)快速瀏覽系統(tǒng)返回的檢索結(jié)果.車(chē)?yán)俚热薣25]融合新聞命名實(shí)體、新聞標(biāo)題、新聞重要段落、文本語(yǔ)義等多特征影響,提出基于多特征融合文本聚類(lèi)的新聞話題發(fā)現(xiàn)模型,并將三種相似度算法最優(yōu)融合,改進(jìn)了用于新聞話題發(fā)現(xiàn)的Single-Pass算法,有效提高了算法效率,并且具有一定的自適應(yīng)能力.對(duì)于熱點(diǎn)話題,可以先進(jìn)行聚類(lèi)分析,然后利用LDA進(jìn)行建模,把文檔支持率作為話題熱度用于區(qū)分熱點(diǎn)話題和一般話題,方小飛等人[26]依據(jù)這些方法提出了基于LDA模型的移動(dòng)投訴文本熱點(diǎn)話題識(shí)別等.

2.3.3 情感挖掘

情感挖掘也是文本分類(lèi)的研究?jī)?nèi)容,它是對(duì)民眾關(guān)于社會(huì)中一些現(xiàn)象或是問(wèn)題的態(tài)度、觀點(diǎn)等的分析,以此可以了解民眾觀點(diǎn),預(yù)測(cè)事件走向.例如銷(xiāo)售公司可以利用該技術(shù)了解用戶(hù)對(duì)產(chǎn)品的評(píng)價(jià)、反饋等,政府部門(mén)利用該技術(shù)可以分析民眾對(duì)政府做出的決策或是管理辦法的評(píng)論,可以實(shí)時(shí)的了解大眾的態(tài)度.因此,這需要情感分析作為支撐.因?yàn)槿嗽谶@過(guò)程中并不能完全客觀的進(jìn)行分析,所以情感分析已經(jīng)成為情感挖掘的基本技術(shù).此外,該技術(shù)還涉及文本挖掘、觀點(diǎn)挖掘等各方面問(wèn)題.對(duì)于網(wǎng)絡(luò)中出現(xiàn)的短文本的情感挖掘,以微博為代表,黃發(fā)良等人[27,28]提出了基于社交關(guān)系的微博主題情感挖掘和基于多特征融合的微博主題情感挖掘,這兩種方法都用LDA主題模型進(jìn)行建模,更好的挖掘出用戶(hù)性格情緒特征,用于分析微博短文本主題情感特征,把握用戶(hù)情感動(dòng)向.基于在線評(píng)論文本,王偉等人[29]構(gòu)建較完整的情感詞典,依據(jù)情感單元搭配模式,構(gòu)建情感單元,提出了基于LDA評(píng)論文本情感分類(lèi)方法,取得了較好的效果,但缺乏對(duì)更復(fù)雜句子語(yǔ)境的討論.

另外隨著網(wǎng)絡(luò)購(gòu)物的發(fā)展,用戶(hù)對(duì)商品評(píng)價(jià)也越來(lái)越多,要從這些評(píng)價(jià)信息中了解用戶(hù)對(duì)產(chǎn)品的態(tài)度,就要用到情感挖掘,彭云等人[30]提出了一種基于語(yǔ)義關(guān)系約束的主題模型SRC-LDA,用于提取商品特征和從用戶(hù)評(píng)價(jià)中挖掘出用戶(hù)情感詞,網(wǎng)絡(luò)購(gòu)物平臺(tái)可以以此來(lái)很好的改進(jìn)自己的商品和服務(wù).黃章樹(shù)等人[31]對(duì)某通信公司投訴文本進(jìn)行實(shí)驗(yàn),提出了改進(jìn)的卡方統(tǒng)計(jì)方法,并將其運(yùn)用到特征選擇,通過(guò)降低負(fù)相關(guān)低頻詞在特征選擇算法中的權(quán)重,減小其對(duì)模型的影響,實(shí)驗(yàn)表明該方法能更準(zhǔn)確的對(duì)業(yè)務(wù)投訴工單進(jìn)行分類(lèi),進(jìn)而為通信公司后續(xù)改進(jìn)服務(wù)提供數(shù)據(jù)支持.

2.3.4 個(gè)性化推薦

個(gè)性化推薦(personalized recommender)是根據(jù)用戶(hù)的興趣愛(ài)好或是購(gòu)買(mǎi)特點(diǎn),推薦用戶(hù)感興趣的話題信息或是商品.隨著網(wǎng)絡(luò)中信息和商品的大量增加,用戶(hù)在瀏覽信息或是選擇商品時(shí)往往需要大量的時(shí)間和精力.為了使用戶(hù)更便捷的使用社交網(wǎng)絡(luò)或是購(gòu)物平臺(tái),個(gè)性化推薦系統(tǒng)應(yīng)運(yùn)而生.對(duì)于一段文本中可能涉及多個(gè)主題,而LDA主題模型主要是挖掘文本中潛在主題,得到廣泛應(yīng)用.高明等人[32]基于LDA主題模型推斷微博的主題分布和用戶(hù)的興趣去向,提出了微博系統(tǒng)上用戶(hù)感興趣微博的實(shí)時(shí)推薦方法;但是未考慮用戶(hù)興趣隨時(shí)間的變化,因此陳杰等人[33]提出了一種基于用戶(hù)動(dòng)態(tài)興趣和社交網(wǎng)絡(luò)的微博推薦方法;對(duì)于文獻(xiàn)推薦,杜永萍等人[34]提出了一種基于主題效能的學(xué)術(shù)文獻(xiàn)推薦算法,利用LDA主題模型對(duì)候選文獻(xiàn)和用戶(hù)發(fā)表的文獻(xiàn)進(jìn)行建模,挖掘出具有高效能的主題集合,并根據(jù)主題分布計(jì)算與用戶(hù)興趣間的相似度,最后向用戶(hù)推薦有價(jià)值的文獻(xiàn).王日芬等人[35]通過(guò)全局和學(xué)科視角的對(duì)比來(lái)探究基于LDA主題模型的科學(xué)文獻(xiàn)主題識(shí)別.

個(gè)性化推薦在網(wǎng)絡(luò)購(gòu)物平臺(tái)上應(yīng)用,電商可以根據(jù)用戶(hù)的瀏覽和購(gòu)買(mǎi)記錄推薦一些相關(guān)的產(chǎn)品,省去了用戶(hù)進(jìn)行大量瀏覽的時(shí)間;對(duì)于社交平臺(tái),微博、論壇等,可以向用戶(hù)推薦一些當(dāng)前的熱點(diǎn)話題,或是根據(jù)用戶(hù)平時(shí)的瀏覽記錄來(lái)推薦用戶(hù)可能感興趣的話題.因此崔金棟等人[36]從演化發(fā)展角度對(duì)LDA運(yùn)行機(jī)理進(jìn)行解析,分析研究了微博用戶(hù)信息個(gè)性化推薦的主題模型LDA演化方向.

2.3.5 網(wǎng)絡(luò)安全

隨著網(wǎng)絡(luò)的迅速發(fā)展和普及,網(wǎng)絡(luò)中信息量太過(guò)于龐大,需要對(duì)網(wǎng)絡(luò)中信息進(jìn)行內(nèi)容管理、監(jiān)控和垃圾信息過(guò)濾.這時(shí)的文本分類(lèi)已不再是傳統(tǒng)的客觀分類(lèi)了,這需要分析文本內(nèi)容的主觀因素,分析作者表達(dá)的目的意圖,因此應(yīng)用到主觀傾向性分類(lèi).如何準(zhǔn)確的把郵件進(jìn)行很好的分類(lèi),進(jìn)而處理掉垃圾郵件是文本分類(lèi)技術(shù)的又一應(yīng)用熱點(diǎn).張紹成等人[37]利用LDA主題模型對(duì)郵件內(nèi)容進(jìn)行主題提取,實(shí)現(xiàn)郵件分類(lèi),提出了代價(jià)敏感多主題學(xué)習(xí)的郵件過(guò)濾算法,實(shí)現(xiàn)了垃圾郵件過(guò)濾.廖曉鋒等人[38]LDA主題模型和SVM支持向量機(jī)結(jié)合的方法,在主題向量空間構(gòu)造一個(gè)漏洞分類(lèi)器,以國(guó)家信息安全漏洞庫(kù)數(shù)據(jù)進(jìn)行測(cè)試,實(shí)驗(yàn)表明分類(lèi)準(zhǔn)確度比詞匯向量構(gòu)建的分類(lèi)器有所提高.

對(duì)于網(wǎng)絡(luò)安全方面,一般用戶(hù)的應(yīng)用主要是過(guò)濾垃圾郵件.對(duì)于企業(yè),公司或是軍事領(lǐng)域不僅是要過(guò)濾掉垃圾信息,更重要的是要防止病毒的入侵,保障機(jī)密文件的安全.

3 存在問(wèn)題和研究策略

通過(guò)對(duì)文本分類(lèi)研究現(xiàn)狀的分析,可以發(fā)現(xiàn),對(duì)于文本分類(lèi)的研究和分析,有利于對(duì)網(wǎng)絡(luò)中數(shù)量龐大的信息進(jìn)行有效的管理和分類(lèi),方便用戶(hù)檢索和瀏覽;有利于分析文本情感傾向,把握用戶(hù)情感特征;有利于分析數(shù)據(jù)安全特性,過(guò)濾垃圾信息和監(jiān)管不安全因素.然而,已有的研究在理論和方法層面雖然已經(jīng)取得了一定的成就,但是目前還存在一些不足,還需進(jìn)一步完善和提高.

文本分類(lèi)存在問(wèn)題和研究策略分析主要圍繞理論體系和方法兩個(gè)方面進(jìn)行.通過(guò)對(duì)已有的研究進(jìn)行分析,總結(jié)出文本分類(lèi)目前存在的一些問(wèn)題和相應(yīng)的研究策略.

(1)理論層面

自然語(yǔ)言處理涉及詞法、語(yǔ)法、語(yǔ)義、和語(yǔ)用學(xué)等多個(gè)層次,實(shí)際上關(guān)鍵問(wèn)題就是歧義消解和未知語(yǔ)言現(xiàn)象的處理問(wèn)題.文本分類(lèi)的理論研究在國(guó)外已經(jīng)取得重大突破,趨于完善,但是我國(guó)中文文本分類(lèi)涉及內(nèi)容較多,分類(lèi)比較困難.在漢語(yǔ)中,存在同義詞,一詞多義的問(wèn)題,而且一個(gè)詞可有不同詞性,理解詞義還需結(jié)合上下文語(yǔ)境,因此給文本分類(lèi)帶來(lái)很大困難.另外,還存在一些數(shù)學(xué)模型不夠奏效和算法復(fù)雜度過(guò)高等理論問(wèn)題.例如,文本分類(lèi)需要處理的數(shù)據(jù)一般是成千上萬(wàn)的稀疏矩陣,矩陣維數(shù)過(guò)于巨大,因此需要有效的降維操作;文本的特征詞中存在多義詞、同義詞現(xiàn)象,還包含大量的噪音,因此要形成有效的特征矢量;文本分類(lèi)在小量數(shù)據(jù)中應(yīng)用較好,但實(shí)際應(yīng)用中數(shù)據(jù)量是非常巨大的,因此需要研究大規(guī)模文本.另外在知識(shí)資源方面也存在一些問(wèn)題,例如,數(shù)據(jù)資源匱乏、覆蓋率低、知識(shí)表示困難等.

近幾年來(lái),中文文本分類(lèi)研究發(fā)展迅速,一大批專(zhuān)家學(xué)者進(jìn)行了分析研究,并且提出了很多切實(shí)可行的改善理論和方法.基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的文本分類(lèi)方法在準(zhǔn)確率和穩(wěn)定性方面具有明顯優(yōu)勢(shì),日益受到重用.目前文本表示、特征選擇和分類(lèi)方法眾多,性能評(píng)測(cè)指標(biāo)也愈發(fā)成熟.文本分類(lèi)的應(yīng)用也更加廣闊,深入到人們的日常生活,例如社交網(wǎng)絡(luò)評(píng)價(jià),輿情分析,情感挖掘,個(gè)性化推薦等.

(2)方法層面

常用的文本表示方法詞向量空間模型,存在向量空間維度過(guò)高,詞項(xiàng)之間缺乏語(yǔ)義關(guān)系等問(wèn)題.因此有國(guó)外學(xué)者提出語(yǔ)義向量空間模型,嘗試?yán)脻撛谡Z(yǔ)義索引技術(shù)或本體的概念語(yǔ)義關(guān)系挖掘詞項(xiàng)之間的語(yǔ)義關(guān)系,構(gòu)建低維的語(yǔ)義向量空間模型.

通過(guò)對(duì)面向LDA主題模型的文本分類(lèi)研究進(jìn)展與趨勢(shì)的分析,可以發(fā)現(xiàn),應(yīng)用LDA主題模型于文本分類(lèi),有利于處理大規(guī)模文本,不僅合理地降低了特征詞矩陣的維度,還能保持原數(shù)據(jù)集的全面性,不影響分類(lèi)器性能,解決了傳統(tǒng)文本分類(lèi)中相似性度量和主題單一性問(wèn)題.然而,盡管LDA主題模型得到進(jìn)一步改進(jìn)和完善,但還尚有一定缺陷和不足.LDA是非監(jiān)督學(xué)習(xí)模型,不能直接用于文本分類(lèi),因此必須嵌入到合適的分類(lèi)算法中.傳統(tǒng)的LDA主題模型存在分類(lèi)過(guò)程中將文檔強(qiáng)制在單個(gè)類(lèi)別上分配隱含主題的缺陷;并且由于實(shí)際情況中大規(guī)模的數(shù)據(jù),可能會(huì)出現(xiàn)主題范圍過(guò)大,不能對(duì)主題單詞的潛在語(yǔ)義進(jìn)行準(zhǔn)確定位,限制了模型的魯棒性和有效性;沒(méi)有考慮詞序問(wèn)題,是典型的詞袋模型等.

另外在分類(lèi)器設(shè)計(jì)方面,樸素的貝葉斯分類(lèi)法假定詞與詞之間是獨(dú)立的,這在實(shí)際情況中很難保證,因此當(dāng)假設(shè)條件不滿(mǎn)足時(shí),會(huì)嚴(yán)重影響分類(lèi)的準(zhǔn)確率和性能.基于支持向量機(jī)的分類(lèi)器在處理具體分類(lèi)問(wèn)題時(shí)無(wú)法選取正確有效的核函數(shù),另外,訓(xùn)練時(shí)間與數(shù)據(jù)集規(guī)模大小有關(guān),訓(xùn)練時(shí)計(jì)算量通常比較大,這也會(huì)影響分類(lèi)器的效率.k-最近鄰法計(jì)算量大,時(shí)間復(fù)雜度較高,而且訓(xùn)練樣本質(zhì)量對(duì)分類(lèi)器性能有著很大影響.神經(jīng)網(wǎng)絡(luò)法分類(lèi)效果比kNN和SVM較差,而且時(shí)間復(fù)雜度比較大.

針對(duì)這些問(wèn)題,多種方法的融合、改進(jìn)可以改善分類(lèi)效果.特征選擇和特征重構(gòu)是降維操作的關(guān)鍵技術(shù),二者融合有助于改善降維效果.例如把互信息和聚類(lèi)融合,通過(guò)互信息最大化從原始特征空間中選擇次優(yōu)特征子集,借助特征空間的聚類(lèi)來(lái)剔除冗余特征,從而實(shí)現(xiàn)特征空間的再次降維.把多種分類(lèi)算法相融合,利用它們的優(yōu)點(diǎn),剔除缺點(diǎn),從而可以改善分類(lèi)性能.例如LDA分別與卡方統(tǒng)計(jì)、互信息和信息增益進(jìn)行結(jié)合,利用改進(jìn)后的特征提取方法提取特征詞,實(shí)驗(yàn)表明結(jié)合后的方法比原來(lái)的方法分類(lèi)效果好;另外隨著特征詞個(gè)數(shù)的增多,每一種方法的分類(lèi)性能也有提高.

4 發(fā)展趨勢(shì)

根據(jù)目前國(guó)內(nèi)外已有的研究成果和存在問(wèn)題來(lái)看,文本分類(lèi)已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)和重點(diǎn),雖然在理論體系和技術(shù)層面還不夠完善,但其重要性已經(jīng)逐步展現(xiàn)出來(lái),引起了研究者的重視.基于此,本文總結(jié)歸納出了文本分類(lèi)未來(lái)的一些研究方向,供讀者參考.

(1)文本分類(lèi)在對(duì)話系統(tǒng)中的應(yīng)用

人機(jī)對(duì)話系統(tǒng)有智能聊天、知識(shí)問(wèn)答、任務(wù)執(zhí)行和信息推薦等四個(gè)方面的內(nèi)容.當(dāng)前的主要任務(wù)就是研究如何能夠讓對(duì)話系統(tǒng)更自然,具備人一樣的情感,如何能夠在場(chǎng)景化任務(wù)執(zhí)行中做到高效的場(chǎng)景切換.

聊天機(jī)器人不僅要理解人類(lèi)語(yǔ)言,而且還要感知用戶(hù)情緒變化,分析用戶(hù)情感特征,實(shí)現(xiàn)和用戶(hù)的交流.通過(guò)對(duì)大規(guī)模聊天語(yǔ)料的標(biāo)注,訓(xùn)練和對(duì)上下文語(yǔ)境信息的分析,從而進(jìn)行分類(lèi),得到對(duì)話模型,計(jì)算機(jī)可以生成表達(dá)不同情緒類(lèi)別的內(nèi)容來(lái)與人進(jìn)行對(duì)話.如微軟的小冰.以后聊天機(jī)器人不僅要能夠通過(guò)文字、語(yǔ)音、表情、動(dòng)作等識(shí)別情感情緒信息,還要進(jìn)化到道德、精神層面的高級(jí)情感,進(jìn)行更深層次的自主學(xué)習(xí).

對(duì)話系統(tǒng)中個(gè)性化推薦在很多領(lǐng)域都有廣泛的應(yīng)用,如電商購(gòu)物、社交網(wǎng)絡(luò)、新聞資訊等.在以后的發(fā)展中旨在提高推薦的精準(zhǔn)度和更加個(gè)性化,提高用戶(hù)的滿(mǎn)意度.

(2)文本分類(lèi)在人工智能知識(shí)服務(wù)體系中的應(yīng)用

人工智能知識(shí)服務(wù)體系就是把分散于個(gè)人的知識(shí)技能集中起來(lái),實(shí)現(xiàn)知識(shí)共享,把人工智能涉及的技術(shù)和領(lǐng)域知識(shí)組織起來(lái),讓計(jì)算機(jī)能夠像專(zhuān)家一樣,輔助決策,成為綜合知識(shí)集合,結(jié)合人工智能的體系框架、技術(shù)方法,以及涉及到的眾多知識(shí)學(xué)科和應(yīng)用領(lǐng)域,將各種顯性和隱性知識(shí)按照需求進(jìn)行提煉,從而解決用戶(hù)需求的過(guò)程.那么如何獲取如此龐大的知識(shí),并且進(jìn)行分析整合,最后反饋給用戶(hù)呢?可以使用機(jī)器學(xué)習(xí),包括文本分析、自然語(yǔ)言理解、計(jì)算機(jī)視覺(jué)和數(shù)據(jù)挖掘等技術(shù),向用戶(hù)智能推送.這需要持續(xù)累積大量的訓(xùn)練樣本和數(shù)據(jù),讓機(jī)器學(xué)習(xí)系統(tǒng)不斷地學(xué)習(xí),改善和進(jìn)化.

在信息流的場(chǎng)景中,人們可以更便捷的獲得更多的標(biāo)注數(shù)據(jù)和顆粒度更細(xì)的標(biāo)注,用于幫助自然語(yǔ)言理解和自然語(yǔ)言生成等.語(yǔ)義化的進(jìn)一步研究,使得人工智能能夠處理、分析、挖掘和理解信息流里的每一個(gè)環(huán)節(jié),可以利用這一技術(shù)進(jìn)行知識(shí)的獲取、分析和整合,然后把內(nèi)容反饋給用戶(hù).以此讓人工智能更多元,更智慧的為人們服務(wù),例如幫助用戶(hù)進(jìn)行內(nèi)容的創(chuàng)作,幫助消費(fèi),以及機(jī)器閱讀等.

(3)文本分類(lèi)在文化遺產(chǎn)數(shù)字化與數(shù)字人文中的應(yīng)用

對(duì)于種類(lèi)龐雜,信息總量龐大的文化遺傳的采集,可以把多源數(shù)據(jù)融合、自動(dòng)紋理映射和影像建模等技術(shù)結(jié)合將大規(guī)模、高精度文化遺產(chǎn)數(shù)字化,利用文本分類(lèi)技術(shù)對(duì)信息進(jìn)行分類(lèi)、整理為不同類(lèi)別,建立檔案庫(kù).然后采用虛擬現(xiàn)實(shí)和數(shù)字動(dòng)畫(huà)技術(shù),建立虛擬的數(shù)字博物館,對(duì)文化遺產(chǎn)的現(xiàn)象、場(chǎng)景和過(guò)程進(jìn)行復(fù)原或再現(xiàn).以此做到更好的保證文化遺產(chǎn)數(shù)字化檔案質(zhì)量和客觀性.

利用VR(虛擬現(xiàn)實(shí))和AR(增強(qiáng)現(xiàn)實(shí))技術(shù)對(duì)文化遺產(chǎn)進(jìn)行保護(hù),實(shí)現(xiàn)人機(jī)交互.例如,可以通過(guò)VR技術(shù)進(jìn)行對(duì)非物質(zhì)文化遺傳進(jìn)行全方位的展現(xiàn),可以通過(guò)人機(jī)交互了解文化遺傳的演變與發(fā)展等.利用AR技術(shù)將現(xiàn)實(shí)文化遺產(chǎn)增加一層虛擬維度,通過(guò)復(fù)原再現(xiàn)、展示傳播等賦予文化遺產(chǎn)鮮活的生命,具有很高的互動(dòng)性和參與性.

(4)文本分類(lèi)在突發(fā)事件監(jiān)測(cè)中的應(yīng)用

我國(guó)每年突發(fā)事件頻發(fā),交通事故、火災(zāi)等不計(jì)其數(shù).如何對(duì)這些突發(fā)事件進(jìn)行監(jiān)測(cè),并實(shí)施有效的救援,這是一個(gè)難題.現(xiàn)在網(wǎng)絡(luò)技術(shù)發(fā)達(dá),其實(shí)可以把網(wǎng)絡(luò)信息進(jìn)行詳細(xì)分類(lèi),針對(duì)網(wǎng)絡(luò)中出現(xiàn)的信息進(jìn)行分析、挖掘,過(guò)濾出敏感詞匯,如地震,失火,車(chē)輛相撞,追尾等,分析出可能發(fā)生的隱患事件和對(duì)已經(jīng)發(fā)生的事件進(jìn)行追蹤,從而實(shí)施有效的預(yù)防和救援措施,保障人們的生命財(cái)產(chǎn)安全.應(yīng)用于公安系統(tǒng)可以預(yù)防犯罪發(fā)生和快速破案.也可應(yīng)用于軍隊(duì),對(duì)我國(guó)領(lǐng)海、領(lǐng)土、領(lǐng)空進(jìn)行監(jiān)測(cè),一旦發(fā)現(xiàn)事故發(fā)生或是外部入侵,可以及時(shí)采取有效措施,保障我國(guó)國(guó)民和領(lǐng)域安全.

(5)文本分類(lèi)在智慧醫(yī)療系統(tǒng)中的應(yīng)用

我國(guó)人口眾多,排隊(duì)看病是一個(gè)難題,病人流量太大,醫(yī)院環(huán)境嘈雜,可能會(huì)影響病人描述病情和醫(yī)生進(jìn)行更有效診斷.因此,將文本分類(lèi)和信息抽取應(yīng)用于醫(yī)療健康系統(tǒng),將用戶(hù)輸入的咨詢(xún)信息進(jìn)行分類(lèi)和整理,提取出用戶(hù)的病癥信息,然后根據(jù)處理后的病癥內(nèi)容進(jìn)行分類(lèi),診斷出可能的病癥名稱(chēng),然后推送給不同的科室醫(yī)生進(jìn)行在線回復(fù),還可以根據(jù)分析出的病情推薦合理的看病科室.將文本分類(lèi)應(yīng)用于醫(yī)療健康后,病人可以更方便的對(duì)自己的病情進(jìn)行咨詢(xún)和就診,醫(yī)生也可以根據(jù)這些信息對(duì)病人病情進(jìn)行更好、更快捷的診斷.這不僅對(duì)病人、醫(yī)生,還是醫(yī)院都提供了有利的條件,因此可以在這方面進(jìn)行更深一步的研究.

5 總結(jié)

文本分類(lèi)是自然語(yǔ)言處理的熱點(diǎn)研究?jī)?nèi)容之一.文本分類(lèi)的研究和分析,有助于對(duì)網(wǎng)絡(luò)中數(shù)量龐大的信息進(jìn)行有效的管理和分類(lèi),方便用戶(hù)檢索和瀏覽;有助于分析文本情感傾向,把握用戶(hù)情感特征,對(duì)于商家可以據(jù)此提高產(chǎn)品質(zhì)量,提升服務(wù)水平;有助于分析數(shù)據(jù)安全特性,過(guò)濾垃圾信息和監(jiān)管不安全因素,政府、高校、公司等可以據(jù)此來(lái)提高部門(mén)數(shù)據(jù)安全,防止不利或是有害信息傳播,并為自然語(yǔ)言處理的應(yīng)用提供有力的支持.然而,已有的研究在理論和方法層面雖然已經(jīng)取得了一定的成就,但是文本分類(lèi)研究涉及內(nèi)容、領(lǐng)域和技術(shù)等多個(gè)方面,各學(xué)科研究錯(cuò)綜復(fù)雜,因此還有很多缺陷和不足,需要進(jìn)一步進(jìn)行系統(tǒng)和深入的研究.

本文針對(duì)文本分類(lèi)這一研究?jī)?nèi)容,探討了文本分類(lèi)和LDA主題模型的相關(guān)理論;然后,從技術(shù)、方法和應(yīng)用三個(gè)方面分析了面向LDA主題模型的文本分類(lèi)的研究現(xiàn)狀;總結(jié)了目前研究中存在的一些問(wèn)題和研究策略;最后,展望了文本分類(lèi)未來(lái)的一些發(fā)展趨勢(shì).

文本分類(lèi)的最終目的還是為自然語(yǔ)言處理服務(wù),因此,可以將文本分類(lèi)的研究成果應(yīng)用到信息檢索、信息抽取、輿情分析和個(gè)性化推薦、網(wǎng)絡(luò)安全等研究中,以期取得更好性能.

猜你喜歡
分類(lèi)器文檔分類(lèi)
淺談Matlab與Word文檔的應(yīng)用接口
學(xué)貫中西(6):闡述ML分類(lèi)器的工作流程
有人一聲不吭向你扔了個(gè)文檔
基于樸素Bayes組合的簡(jiǎn)易集成分類(lèi)器①
一種自適應(yīng)子融合集成多分類(lèi)器方法
按需分類(lèi)
教你一招:數(shù)的分類(lèi)
說(shuō)說(shuō)分類(lèi)那些事
Word文檔 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
万盛区| 万全县| 如皋市| 福建省| 高台县| 修水县| 白朗县| 太仆寺旗| 三穗县| 河北省| 嘉兴市| 三亚市| 巴里| 汤阴县| 平罗县| 清水县| 贵州省| 浦县| 丹寨县| 定结县| 荣昌县| 莆田市| 宁河县| 宜宾县| 同仁县| 长葛市| 吴忠市| 松潘县| 大洼县| 镇康县| 淳化县| 邯郸市| 浦城县| 南木林县| 寻乌县| 花垣县| 神木县| 永靖县| 湘阴县| 靖江市| 大石桥市|