孫 劍
摘要:隨著信息量以爆炸般的速度在急劇增長,當(dāng)前在信息管理方面所面臨的最嚴(yán)峻的挑戰(zhàn)不再是信息匾乏,而是缺少時(shí)間和精力來對如此眾多的信息進(jìn)行分析、歸類與操作。本文探討了在內(nèi)容管理系統(tǒng)中內(nèi)容分類的實(shí)現(xiàn)方法。
關(guān)鍵詞:內(nèi)容管理系統(tǒng) 內(nèi)容分類 方法
0 引言
隨著信息量以爆炸般的速度在急劇增長,當(dāng)前在信息管理方面所面臨的最嚴(yán)峻的挑戰(zhàn)不再是信息匾乏,而是缺少時(shí)間和精力來對如此眾多的信息進(jìn)行分析、歸類與操作。因此內(nèi)容的分類不僅有利于更快捷地實(shí)現(xiàn)內(nèi)容的查詢,而且有效的分類方法同樣有助于對紛雜的信息進(jìn)行組織與歸類,有助于人們縮小查詢的范圍,節(jié)省時(shí)間和精力。可見內(nèi)容管理對內(nèi)容分類的要求是十分必要的。
現(xiàn)在分類的方法大體上分為人工分類、自動(dòng)化分類以及人機(jī)結(jié)合的混和方法三種。顯而易見,人工分類是最容易被想到的。但是這種方法顯而易見的過多的依賴于個(gè)人,且成本太高。并且當(dāng)內(nèi)容量過大的時(shí)候,單單依靠手工方法進(jìn)行分類也不太現(xiàn)實(shí),很容易成為系統(tǒng)的瓶頸。因此,人們更加關(guān)注于自動(dòng)化分類方法?,F(xiàn)在主要應(yīng)用的自動(dòng)化分類方法主要有以下幾種方法。
1 自動(dòng)化分類方法
1.1 基于規(guī)則的分類方法:這種方法需要由對相關(guān)內(nèi)容極為了解的專家創(chuàng)建與維護(hù)一套規(guī)則用于將某篇文檔劃分到某個(gè)類中。專家使用If-Then的規(guī)則形式組織歸類的相關(guān)概念。規(guī)則能夠支持復(fù)雜的操作,而且建立在規(guī)則之上的決策樹也相當(dāng)準(zhǔn)確。規(guī)則衡量了一個(gè)給定的文檔是否符合某個(gè)主題的判斷標(biāo)準(zhǔn)。顯然,建立這樣一種規(guī)則并不容易,并且專家對相關(guān)內(nèi)容知識(shí)的了解程度也相當(dāng)重要。
1.2 基于自然語言的學(xué)習(xí)算法:該方法利用神經(jīng)網(wǎng)絡(luò)的方法,通過分析文檔的內(nèi)容區(qū)分文檔并將文檔進(jìn)行分類。由于這種方法具有較高的容錯(cuò)能力及語言獨(dú)立的操作性等特點(diǎn),正在成為一種相對穩(wěn)定的分類方法。這種方法通過選擇文檔的表示方式或可能的格式,利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對內(nèi)容的分類,可以被應(yīng)用到文本文檔或文本片斷的分類中去。
1.3 語義分析:這是以從文檔中提取關(guān)鍵的概念作為分類與檢索的基礎(chǔ)。語義分析過程共分為兩個(gè)階段,第一個(gè)階段的工作主要集中于一系列的語言算法以及語言獨(dú)立的統(tǒng)計(jì)技術(shù)的實(shí)現(xiàn)。當(dāng)用戶對系統(tǒng)中收集的信息進(jìn)行查詢時(shí)則觸發(fā)該過程的第二階段,系統(tǒng)可以根據(jù)用戶的查詢需求以及可視化的分類結(jié)構(gòu)呈現(xiàn)給用戶個(gè)性化的、相關(guān)的查詢結(jié)果。
1.4 模式匹配:這種方法是指尋找經(jīng)常聚在一起的一組詞或詞組的過程。一個(gè)主題可能通過語義分析進(jìn)行處理。其他的識(shí)別模式還包括詞在文檔當(dāng)中的出現(xiàn)頻率、詞的位置、詞與詞之間的親近程度以及相關(guān)詞的聚類。模式匹配方法具有語言獨(dú)立的特點(diǎn)。
1.5 聚類分析:這是通過識(shí)別內(nèi)容中的共性元素將內(nèi)容劃分為相似內(nèi)容子集。每篇文檔可以看作一些內(nèi)容的合集,聚類本質(zhì)上就是將每一袋中的相似內(nèi)容聚為一組。
以上每一種分類方法都有其自身的優(yōu)點(diǎn)與不足,沒有哪一種單一的分類方法是十全十的。每種方法都有其適用的方面。所以,現(xiàn)在人們往往采用混合的分類方法。下面我們著重分析一種基于神經(jīng)網(wǎng)絡(luò)的分類方法。
2 基于聚類分析的分類方法
聚類分析是一種解決分類問題的探測性的數(shù)據(jù)分析方法。它的目標(biāo)是把人、事務(wù)、事件等聚為組或類,每一類描述它的對象所屬的類。該方法是通過建立一個(gè)對象間的相似性度量,使得類間的相似性盡量小,而類內(nèi)的相似性盡量大,從而得到在某種判別準(zhǔn)則之下的最佳分類,這種分類的結(jié)果未必使用簡單的概念就可以描述的。換言之,其分類的標(biāo)準(zhǔn)并不是顯而易見的。
假設(shè)特征向量由n個(gè)特征參數(shù)x,x,…,x組成聚類分析按照一定的準(zhǔn)則,將這些特征向量點(diǎn)劃分為若干個(gè)群。聚類也用于將一個(gè)內(nèi)容的集合劃分為子集,也就是類。每一類內(nèi)的對象之間都比該類對象與屬于其它類的對象之間具有更大的相似性。
芬蘭學(xué)者T.Kohonen提出一種可以使得輸入信號映射到低維空間,且保持相同特征的輸入信號在空間上對應(yīng)鄰近區(qū)域的學(xué)習(xí)方式,稱為Kohonen自組織特征映射(self-organizing feature maps, SOFM)也稱Kohonen自組織神經(jīng)網(wǎng)絡(luò)。
Kohonen自組織神經(jīng)網(wǎng)絡(luò)是一種前饋型網(wǎng)絡(luò)。在這種類型的神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元接受前一層的輸入,并輸出給下一層,沒有反饋。節(jié)點(diǎn)分為兩類,即輸入單元和計(jì)算單元,每一計(jì)算單元可有任意多個(gè)輸入,但只有一個(gè)輸出。前饋網(wǎng)絡(luò)可分為不同的層,第I層的輸入只與第I-1層的輸出相連,輸入和輸出節(jié)點(diǎn)與外界相連,而其它中間層則稱為隱層。
前饋型網(wǎng)絡(luò),由于Kohonen自組織特征映射網(wǎng)絡(luò)除了具備以下主要性能,因此采用Kohonen自組織神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)內(nèi)容的聚類。①對輸入數(shù)據(jù)有聚類作用,并可用聚類中心代表原輸入,起到數(shù)據(jù)壓縮作用。②保持拓?fù)溆行蛐?,輸入中特性相似的點(diǎn)映射后在空間上是鄰近的。③分布密度匹配,原數(shù)據(jù)中分布密的區(qū)域在映射圖上對應(yīng)較大的區(qū)域,分布稀的則對應(yīng)的區(qū)域也較小。
自組織網(wǎng)絡(luò)采用沒有指導(dǎo)的學(xué)習(xí)過程,不必給定應(yīng)有的輸出,訓(xùn)練數(shù)據(jù)只有輸入而沒有輸出,網(wǎng)絡(luò)只靠輸入模式本身的特征,根據(jù)一定的判斷標(biāo)準(zhǔn)自行修改單元連接的強(qiáng)度,使權(quán)矢量在輸入向量空間中的分布近似于樣本的分布。這也就是為什么采用自組織神經(jīng)網(wǎng)絡(luò)來解決內(nèi)容的分類問題的原因和依據(jù),因?yàn)樵趯?nèi)容進(jìn)行聚類前,可以分成什么樣的類以及不同的內(nèi)容歸屬的類別本來就是未知的。
3 實(shí)現(xiàn)的步驟及方法
在此研究一種利用智能技術(shù)得到內(nèi)容的分類結(jié)構(gòu)的方法。該方法通過人或統(tǒng)計(jì)工具對文本內(nèi)容進(jìn)行預(yù)處理,將文本內(nèi)容以標(biāo)準(zhǔn)化的特征向量表示,然后利用Kohonen自組織特征映射網(wǎng)絡(luò)實(shí)現(xiàn)內(nèi)容的自動(dòng)聚類?,F(xiàn)將對文本內(nèi)容進(jìn)行聚類的方法與步驟簡單描述如下:
3.1 用標(biāo)準(zhǔn)的矢量形式表示文本內(nèi)容。要實(shí)現(xiàn)內(nèi)容的自動(dòng)聚類,首先要把待聚類的內(nèi)容集用標(biāo)準(zhǔn)的矢量形式表示出來。由于給不同的文本內(nèi)容建立關(guān)鍵字是可行的,而且關(guān)鍵字又是最易于代表文本內(nèi)容語義的,因此可以通過文本內(nèi)容的關(guān)鍵字作為中間橋梁將內(nèi)容表示成標(biāo)準(zhǔn)的矢量形式。用標(biāo)準(zhǔn)的矢量形式表示文本內(nèi)容,這是利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)內(nèi)容的自動(dòng)聚類的基礎(chǔ)。
3.2 選擇樣本文檔。Kohonen網(wǎng)絡(luò)采用的是無監(jiān)督學(xué)習(xí)算法,因此在通過該網(wǎng)絡(luò)對內(nèi)容進(jìn)行聚類前需要選擇樣本內(nèi)容作為訓(xùn)練集,使自組織網(wǎng)絡(luò)學(xué)習(xí)如何對內(nèi)容進(jìn)行聚類。樣本的選擇應(yīng)當(dāng)具有代表性與廣泛性。
3.3 初始化網(wǎng)絡(luò)的輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)以及連接權(quán)值。將以n個(gè)關(guān)鍵字或文本特征表示文本內(nèi)容的n維矢量作為輸入向量,同時(shí)生成含有m個(gè)輸出節(jié)點(diǎn)的二維映射。
3.4 將代表文本內(nèi)容的特征向量輸入到網(wǎng)絡(luò)中。
3.5 在輸出節(jié)點(diǎn)中選擇最佳匹配節(jié)點(diǎn)。計(jì)算輸入節(jié)點(diǎn)與所有的輸出節(jié)點(diǎn)權(quán)值的接近程度,選擇距離最小,即輸出節(jié) 點(diǎn)權(quán)值與輸入值最接近的節(jié)點(diǎn)作為獲勝節(jié)點(diǎn)。
3.6 調(diào)整權(quán)值。調(diào)整獲勝節(jié)點(diǎn)及其鄰域的節(jié)點(diǎn)的權(quán)值,從而使這些輸出節(jié)點(diǎn)的權(quán)值與輸入值更接近。
3.7 標(biāo)注代表不同類的輸出節(jié)點(diǎn)。不斷重復(fù)以上過程,學(xué)習(xí)算法結(jié)束后,各輸出節(jié)點(diǎn)的權(quán)值顯示了聚類中心,將不同的類加以標(biāo)注,以示區(qū)分。經(jīng)過訓(xùn)練的網(wǎng)絡(luò)可以用上述同樣的方法對新的文本內(nèi)容進(jìn)行聚類。
3.8 對分類結(jié)果中包含大量輸入樣本的類別,遞歸應(yīng)用以上步驟,繼續(xù)在大類下劃分更小的類。
經(jīng)過以上過程便可以得到文本內(nèi)容的分類結(jié)構(gòu),該分類結(jié)構(gòu)可能是類與類之間相互獨(dú)立的結(jié)構(gòu),也可能是層次結(jié)構(gòu)?;谶@種由智能聚類得到的分類結(jié)構(gòu),我們便可以利用經(jīng)過訓(xùn)練的網(wǎng)絡(luò)用同樣的方法實(shí)現(xiàn)對不同文本內(nèi)容的分類。
參考文獻(xiàn):
[1]朱愛華.基于語義網(wǎng)格的內(nèi)容管理系統(tǒng)[J].廣播與電視技術(shù).2009.(01).
[2]薛勤,何險(xiǎn)峰.內(nèi)容分類與元數(shù)據(jù)在內(nèi)容管理系統(tǒng)中的應(yīng)用[J].四川氣象.2007.(04).