方玉峰
摘 要隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展和應(yīng)用,很多領(lǐng)域已經(jīng)積累了海量數(shù)據(jù)資源,文本數(shù)據(jù)占據(jù)了85.6%,因此文本數(shù)據(jù)挖掘和分析成為人們研究的熱點,并且引起了百度、Google、京東、騰訊等互聯(lián)網(wǎng)公司關(guān)注??梢栽谖谋緮?shù)據(jù)挖掘中引入支持向量機、BP神經(jīng)網(wǎng)絡(luò)、K均值算法,但是這些算法需要依賴經(jīng)驗知識,不能夠從多維度挖掘文本數(shù)據(jù)。因此,為了解決上述問題,本文提出構(gòu)建一種基于信息論的文本數(shù)據(jù)挖掘算法,該算法可以從海量文本數(shù)據(jù)集中發(fā)現(xiàn)潛在的有價值的信息,提高文本分類的準(zhǔn)確度。
【關(guān)鍵詞】信息論 文本數(shù)據(jù) 數(shù)據(jù)挖掘 準(zhǔn)確度
1 引言
文本數(shù)據(jù)挖掘包括兩個大類別,一種是有監(jiān)督學(xué)習(xí)方法,比如BP神經(jīng)網(wǎng)絡(luò)、支持向量機、貝葉斯理論;一種是無監(jiān)督學(xué)習(xí)方法,比如譜聚類、密度聚類、K均值、信息論等方法。有監(jiān)督文本數(shù)據(jù)挖掘方法需要利用人們的經(jīng)驗,預(yù)先構(gòu)建一個分析模型,然后盡可能地提高這個學(xué)習(xí)模型的準(zhǔn)確性,從而保證文本數(shù)據(jù)挖掘的精確度;無監(jiān)督學(xué)習(xí)方法卻不需要任何先驗知識,系統(tǒng)自動地將文本數(shù)據(jù)按照不同的關(guān)注角度進(jìn)行分類。
2 文本數(shù)據(jù)處理發(fā)展現(xiàn)狀
文本數(shù)據(jù)處理自從誕生之后,從簡單的人工標(biāo)注發(fā)展到當(dāng)前的自動挖掘,文本數(shù)據(jù)挖掘取得了顯著的應(yīng)用成效。本文結(jié)合筆者實踐知識,簡要介紹BP神經(jīng)網(wǎng)絡(luò)、支持向量機、K均值三種具有代表性的文本數(shù)據(jù)挖掘算法。BP神經(jīng)網(wǎng)絡(luò)能夠按照統(tǒng)計學(xué)規(guī)則,實現(xiàn)文本數(shù)據(jù)處理,輸入層可以接收所有數(shù)據(jù),并且將這些數(shù)據(jù)傳輸給中間層的神經(jīng)元,神經(jīng)元負(fù)責(zé)數(shù)據(jù)信息處理、變換,并且能夠根據(jù)信息變化能力的需求,改變和整合中間層結(jié)構(gòu)。文本數(shù)據(jù)流經(jīng)過識別和處理之后,就可以從中間層分發(fā)到輸出層,這樣就可以完成一次學(xué)習(xí)過程,將BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練成為一個準(zhǔn)確度非常高的模型,還可以通過誤差梯度下降等修正各個層次的權(quán)值,向隱藏層逐級反饋,實現(xiàn)反向傳播和修正,提高文本數(shù)據(jù)識別精確度。支持向量機是一種基于統(tǒng)計學(xué)習(xí)理論的模式識別算法,是一個二類分類模型,在文本數(shù)據(jù)分析過程中,可以將文本數(shù)據(jù)劃分為正常數(shù)據(jù)或非法數(shù)據(jù),并且可以對文本數(shù)據(jù)進(jìn)行深度分析。支持向量機是一種性能強大的文本數(shù)據(jù)分析技術(shù),其可以解決樣本數(shù)量較少、非線性或高維模式數(shù)據(jù)分析的問題,比如推廣到函數(shù)擬合的其他類型數(shù)據(jù)分析問題中,可以更好地分析數(shù)據(jù)、識別模式,用于分類和回歸分析。K均值(K-means)算法是一種基于距離的聚類算法,其可以把距離作為相似性評價和度量指標(biāo),采用無監(jiān)督學(xué)習(xí)模式,通常兩個文本數(shù)據(jù)對象的距離越近,這兩個文本數(shù)據(jù)對象的相似性就會越高,不需要指定數(shù)據(jù)的類別標(biāo)簽就可以獲取文本內(nèi)部結(jié)構(gòu),將文本數(shù)據(jù)匯聚在一起,實現(xiàn)數(shù)據(jù)解釋。
3 一種基于信息論的文本數(shù)據(jù)挖掘算法設(shè)計
在信息論中,熵是最基本的概念之一,熵可以用來度量隨機變量中的各種不確定性,服從p(x)分布的離散隨機變量X的熵H(X)的計算過程如公式1所示。
(1)
互信息可以描述任意兩個概率分布之間的信息量,假設(shè)給定了任意兩個隨機變量(X,Y)服從概率分布p(x,y),同時變量X的邊緣概率分布p(x)=∑Y p(x,y),變量Y的邊緣概率分布p(y)=∑X p(x,y),則隨機變量X和隨機變量Y之間包含的互信息如公式2所示。
(2)
其中,如果隨機變量X和隨機變量Y之間是相互獨立的,則兩個隨機變量之間的互信息I(X;Y)=0。
在使用文本數(shù)據(jù)挖掘算法的過程中,可以使用變量X描述文本數(shù)據(jù)對象集合,x可以具體指代某一篇文檔;使用變量Y描述單詞特征變量集合,y可以具體指代某一篇文檔的單詞特征?;诨バ畔⒌奈谋拘畔⑻幚硭惴◤腦和Y兩個方向開始聚類,詳細(xì)描述如下:
從X方向挖掘文本數(shù)據(jù)過程中,可以將Y作為相關(guān)信息;從Y方向挖掘特征數(shù)據(jù)過程中,可以將X作為相關(guān)信息;X和Y在聚類過程中都是動態(tài)地減少,如果將所有的文本數(shù)據(jù)劃分為多層聚類模式,就可以更加準(zhǔn)確地挖掘數(shù)據(jù)內(nèi)容,實現(xiàn)對數(shù)據(jù)的操作和處理。具體地,為了能夠度量文本數(shù)據(jù)挖掘的內(nèi)容,可以把互信息作為信息保存的量進(jìn)行設(shè)置,如果互信息損失達(dá)到閾值,則可以停止算法執(zhí)行。
為了能夠驗證本文算法的有效性,采用Lang收集2000篇信息文檔進(jìn)行實驗,分為9個子數(shù)據(jù)集,每一個文本數(shù)據(jù)集包含了500篇文檔,Binary_1,2,3表示擁有兩個真實類別的文檔數(shù)據(jù)集;Multi5_1,2,3可以描述擁有五個真實類別文檔數(shù)據(jù)集;Multi10_1,2,3可以描述擁有十個真實類別文檔數(shù)據(jù)集。通常情況下,文本數(shù)據(jù)挖掘采用精確度作為評價算法運行結(jié)果的標(biāo)準(zhǔn),算法運行結(jié)果精確度評價公示如公式3所示。
(3)
其中,t∈T,其可以描述相關(guān)的數(shù)據(jù)對象;c∈C,其可以描述相關(guān)的類別號或簇標(biāo)號;A1(c,T)可以描述相關(guān)的已經(jīng)正確分配到c中的文檔或元組的數(shù)量;A2(c,T)可以描述相關(guān)的算法不正確的分配到c中的文檔或元組的數(shù)量;A3(c,T)可以描述相關(guān)的不正確的沒有分配到c中的文檔或元組的數(shù)量。
4 結(jié)束語
實驗結(jié)果顯示,本文提出的基于信息論的文本數(shù)據(jù)挖掘算法可以精準(zhǔn)發(fā)現(xiàn)文檔類別,文本數(shù)據(jù)挖掘精確度達(dá)到了96.7%,能夠根據(jù)用戶的輸入請求推薦更加準(zhǔn)確地挖掘結(jié)果,可以為百度搜索、搜狗、騰訊、京東等網(wǎng)站的搜索引擎提供服務(wù),具有重要的作用和意義。
參考文獻(xiàn)
[1]黃蓉.基于聚類分析的數(shù)據(jù)挖掘方法研究[J].山東農(nóng)業(yè)大學(xué)學(xué)報(自然科學(xué)版),2017,48(01).
[2]張軍,劉文杰.一種新的基于鄰居樣本分布特征的異常值檢測算法研究[J].科技通報,2017(01):86-88.
[3]尹治華,張大鵬,譚明,等.一種改進(jìn)的基于FP-Tree的高效挖掘最大頻繁項目集算法[J].濟南大學(xué)學(xué)報:自然科學(xué)版,2017,31(02).
作者單位
云南科技信息職業(yè)學(xué)院 云南省昆明市 650224