譚建平 劉波 肖燕珊
摘要:隨著互聯(lián)網(wǎng)的快速發(fā)展,文本信息量巨大,大規(guī)模的文本處理已經(jīng)成為一個(gè)挑戰(zhàn)。文本處理的一個(gè)重要技術(shù)便是分類,基于SVM的傳統(tǒng)文本分類算法已經(jīng)無法滿足快速的文本增長分類。于是如何利用過時(shí)的歷史文本數(shù)據(jù)(源任務(wù)數(shù)據(jù))進(jìn)行遷移來幫助新產(chǎn)生文本數(shù)據(jù)進(jìn)行分類顯得異常重要。文章提出了基于半監(jiān)督的SVM遷移學(xué)習(xí)算法(Semi-supervised TL_SVM)來對(duì)文本進(jìn)行分類。首先,在半監(jiān)督SVM的模型中引入遷移學(xué)習(xí),構(gòu)建分類模型。其次,采用交互迭代的方法對(duì)目標(biāo)方程求解,最終得到面向目標(biāo)領(lǐng)域的分類器。實(shí)驗(yàn)驗(yàn)證了基于半監(jiān)督的SVM遷移學(xué)習(xí)分類器具有比傳統(tǒng)分類器更高的精確度。
關(guān)鍵詞:文本分類;半監(jiān)督學(xué)習(xí);遷移學(xué)習(xí);算法
文本分類是挖掘文本信息的處理技術(shù),在傳統(tǒng)文本分類方法中,大部分都是有監(jiān)督的,即用帶標(biāo)簽的數(shù)據(jù)來訓(xùn)練分類模型,并且只局限于目標(biāo)數(shù)據(jù)域。然而,收集標(biāo)注數(shù)據(jù)是非常困難且耗費(fèi)巨大的,未標(biāo)注數(shù)據(jù)卻相當(dāng)巨大,很容易獲取。如果只有少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)可用,那么半監(jiān)督學(xué)習(xí)的方式在一定程度上便能彌補(bǔ)因訓(xùn)練數(shù)據(jù)不足而導(dǎo)致過擬化的分類誤區(qū)。
很多機(jī)器學(xué)習(xí)的方法,無論是傳統(tǒng)的機(jī)器學(xué)習(xí)還是半監(jiān)督學(xué)習(xí)問題,都建立在一個(gè)共同假設(shè)上:測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)屬于統(tǒng)一數(shù)據(jù),分布于同一特征空間。一旦數(shù)據(jù)分布有差異,很多學(xué)習(xí)方法便無法表現(xiàn)得很好。于是又要重新標(biāo)記大量數(shù)據(jù)去訓(xùn)練模型來適應(yīng)新的數(shù)據(jù)分布,這樣的代價(jià)是昂貴的?;谶@個(gè)局限,便引入了遷移學(xué)習(xí),目的是從其他相關(guān)輔助數(shù)據(jù)域中遷移知識(shí)去幫助目標(biāo)域中解決學(xué)習(xí)任務(wù)。例如,在網(wǎng)頁分類中,能利用遷移學(xué)習(xí)從大學(xué)網(wǎng)頁遷移知識(shí)來幫助Facebook. com分類任務(wù)訓(xùn)練一個(gè)分類器。雖然大學(xué)網(wǎng)頁與社交網(wǎng)絡(luò)的數(shù)據(jù)分布十分不同,但是始終存在一些共同的分類知識(shí)來構(gòu)建知識(shí)遷移的橋梁幫助提高分類器性能。
近年來,隨著研究的深入,基于SVM的半監(jiān)督、遷移學(xué)習(xí)等方法也逐漸應(yīng)用于數(shù)據(jù)分類、社交網(wǎng)絡(luò)分析和圖像處理等方面。如Qiang Yang等人遷移學(xué)習(xí)對(duì)于文本挖掘的應(yīng)用。目前,在解決實(shí)際的文本分類問題中,人們提出了不同的基于SVM的分類方法。隨后在這些基本方法的基礎(chǔ)上引入了當(dāng)今熱點(diǎn)研究的遷移學(xué)習(xí),形成了如跨域SVM方法。遷移學(xué)習(xí)在各領(lǐng)域的應(yīng)用也是層出不窮,如在社交網(wǎng)絡(luò)的推薦系統(tǒng)中便提出了跨域推薦(CDR)和社交網(wǎng)絡(luò)中的異構(gòu)遷移對(duì)于圖像聚類的方法,在圖像處理和信號(hào)處理方面也有應(yīng)用。
在這篇文章中,筆者提出了一種基于半監(jiān)督的SVM遷移學(xué)習(xí)方法,此法的貢獻(xiàn)有:(l)本文合理地利用了目標(biāo)域中未標(biāo)注的文本數(shù)據(jù)與少量標(biāo)注的文本數(shù)據(jù),采用局部化SVM(LSVM)進(jìn)行局部和全局一致學(xué)習(xí)(LLGC),并通過半監(jiān)督的學(xué)習(xí)方式來加強(qiáng)分類器精度。并給出了這種方法的目標(biāo)方程。(2)為了給分類器得到更好的泛化誤差,本文引入了遷移學(xué)習(xí)的方法對(duì)目標(biāo)方程進(jìn)行迭代,給出了迭代終止目標(biāo)函數(shù),產(chǎn)生更為精確的分類器,并得到數(shù)據(jù)標(biāo)簽。
1 相關(guān)工作
由于本文關(guān)注的是基于半監(jiān)督的SVM遷移學(xué)習(xí)文本分類方法,所以著重研究算法,而在文本數(shù)據(jù)上進(jìn)行實(shí)驗(yàn)。接下來先回顧半監(jiān)督文本分類學(xué)習(xí)與遷移學(xué)習(xí)等方法。
1.1 半監(jiān)督文本分類學(xué)習(xí)
近年來,半監(jiān)督學(xué)習(xí)在文本分類上受到了廣泛的關(guān)注。所謂半監(jiān)督學(xué)習(xí)就是利用目標(biāo)域中未帶標(biāo)簽的數(shù)據(jù)與帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集一同訓(xùn)練分類器。這在某種程度上克服了傳統(tǒng)機(jī)器學(xué)習(xí)中因?yàn)閹?biāo)簽訓(xùn)練數(shù)據(jù)集不足而導(dǎo)致的分類器不準(zhǔn)確的問題。各式各樣的半監(jiān)督文本分類方法也被陸續(xù)地提出。Wajeed提出基于KNN的半監(jiān)督文本分類方法,這種半監(jiān)督方法使用了不同的相似度測(cè)量與不同向量產(chǎn)生技術(shù)來提高分類的準(zhǔn)確度。v.Vapnik提出的自訓(xùn)練半監(jiān)督SVM算法,很好地利用了大量未標(biāo)記數(shù)據(jù)結(jié)合少量帶標(biāo)簽數(shù)據(jù)共同訓(xùn)練分類器。接著Yong Ma在v.Vapnik的自訓(xùn)練半監(jiān)督SVM算法上提出了一種改進(jìn)的方法,這個(gè)方法將類別之間的差異性用一個(gè)散度矩陣表示出來,然后優(yōu)化了目標(biāo)方程。
1.2 遷移學(xué)習(xí)
隨著互聯(lián)網(wǎng)信息的高速發(fā)展,遷移學(xué)習(xí)越來越受到數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的關(guān)注,已經(jīng)成為當(dāng)今的一個(gè)研究熱點(diǎn)。遷移學(xué)習(xí)就是利用一個(gè)新環(huán)境中學(xué)習(xí)的相關(guān)知識(shí)去指導(dǎo)當(dāng)前環(huán)境目標(biāo)任務(wù)的學(xué)習(xí),而在數(shù)據(jù)挖掘中,本文定義新環(huán)境為輔助域,當(dāng)前環(huán)境為目標(biāo)域。現(xiàn)階段的遷移學(xué)習(xí)工作方式分為3個(gè)主要部分:同構(gòu)空間下基于實(shí)例的遷移學(xué)習(xí)、同構(gòu)空間下基于特征的遷移學(xué)習(xí)和異構(gòu)空間下的遷移學(xué)習(xí)。
現(xiàn)在各個(gè)研究方面陸續(xù)有不同的遷移學(xué)習(xí)方法被提出。Feng Yu提出了文本分類的遷移學(xué)習(xí),這個(gè)方法利用了遷移知識(shí)采樣源數(shù)據(jù)域數(shù)據(jù)構(gòu)建了遷移知識(shí)庫,進(jìn)而幫助目標(biāo)數(shù)據(jù)進(jìn)行分類。C.Do針對(duì)文本分類問題提出了一種通過SoftmaxRegres sion學(xué)習(xí)一個(gè)參數(shù)函數(shù)來分類新的任務(wù),而QiangYang在社交網(wǎng)絡(luò)分析中提出了一種異構(gòu)遷移學(xué)習(xí)的圖像聚類方法,旨在通過社交網(wǎng)絡(luò)中不相關(guān)的帶注釋的圖片遷移知識(shí)來提高目標(biāo)圖片搜尋的精度。
盡管對(duì)遷移學(xué)習(xí)在文本分類、社交網(wǎng)絡(luò)等不同領(lǐng)域的研究已經(jīng)比較深入,但是在遷移知識(shí)的過程中,不同的遷移方法往往效果差別很大,不能很好地體現(xiàn)出分類器的效果?,F(xiàn)階段的遷移方式用得比較好的還是基于同構(gòu)空間下遷移(分為基于實(shí)例的遷移和基于特征的遷移),而基于異構(gòu)的遷移學(xué)習(xí)方法比較復(fù)雜多變,且實(shí)現(xiàn)起來比較困難,容易造成負(fù)遷移而導(dǎo)致分類器性能下降。
本文引入了一種基于鄰域的SVM方法對(duì)源數(shù)據(jù)知識(shí)進(jìn)行遷移,以便使與目標(biāo)域帶標(biāo)簽數(shù)據(jù)分布相近的數(shù)據(jù)更大程度地幫助訓(xùn)練目標(biāo)分類器而提高分類器性能。本文利用基于SVM的半監(jiān)督學(xué)習(xí)方法和局部和全局一致性方法(LLGC)進(jìn)行模型構(gòu)建,并給出了目標(biāo)方程。這種半監(jiān)督的學(xué)習(xí)方法所獲得的方程能很好地結(jié)合鄰域SVM方法,從而解決遷移學(xué)習(xí)方法運(yùn)用于數(shù)據(jù)分類的問題。
2 半監(jiān)督的SVM遷移學(xué)習(xí)方法
在這一節(jié)中,本文結(jié)合以前提出的半監(jiān)督SVM分類算法與現(xiàn)在的遷移學(xué)習(xí)算法,提出了一種比較新穎的半監(jiān)督遷移學(xué)習(xí)的方法。其原理如圖1所示。
2.1 半監(jiān)督遷移算法的模型
Sem-isupervised_based TL_SVM算法是利用相關(guān)輔助域數(shù)據(jù)遷移合適的知識(shí)來幫助目標(biāo)域任務(wù)的學(xué)習(xí),并利用了半監(jiān)督迭代的思想來訓(xùn)練分類模型。
首先,定義輔助數(shù)據(jù)集用表示 ,目標(biāo)數(shù)據(jù)集用表示 。目標(biāo)數(shù)據(jù)集中帶標(biāo)簽的數(shù)據(jù)集為 ,包含 個(gè)樣本數(shù)據(jù) ,不帶標(biāo)簽的為 ,包含l2個(gè)樣本 。對(duì)于輔助數(shù)據(jù)域 ,先對(duì)其相應(yīng)的預(yù)處理,找到在輔助數(shù)據(jù)域中的一組SVM支持向量 ,并且學(xué)習(xí)到輔助數(shù)據(jù)域判別函數(shù) 。
定義一個(gè)基本的跨域遷移SVM分類器對(duì)于2類問題:
約束條件:
其中, 是一個(gè)訓(xùn)練實(shí)例的特征向量, 是其通過一個(gè)核函數(shù)映射到高維空間, 是樣本數(shù)據(jù) 所帶的類別標(biāo)記, 是一個(gè)正規(guī)常數(shù)。
類似于LSVM,輔助數(shù)據(jù)集 的知識(shí)遷移的影響能被目標(biāo)域訓(xùn)練集所限制。這個(gè)限制的基本原理就是一個(gè)支持向量 落入目標(biāo)數(shù)據(jù) 的近鄰,它有一個(gè)類似于 的分布并且能被用來幫助分類 指代輔助域中支持向量 和帶標(biāo)簽?zāi)繕?biāo)數(shù)據(jù)集 之間的相似度測(cè)量。
在遷移SVM的優(yōu)化中 ,原來從中學(xué)習(xí)得到支持向量適應(yīng)于新的訓(xùn)練數(shù)據(jù) ,支持向量與新的訓(xùn)練數(shù)據(jù)結(jié)合一起學(xué)習(xí)一個(gè)新的分類器。特別地,讓 ,則方程(1)可被改寫如下:
類似A_SVM,本文也想要保證這個(gè)新的決策邊界在舊的輔助數(shù)據(jù) 的判別屬性,但是這個(gè)技術(shù)有一個(gè)特別的優(yōu)點(diǎn):就是沒有強(qiáng)迫這個(gè)正規(guī)項(xiàng)限制新決策邊界相似于舊的。代替這個(gè),基于本地化的主意,這個(gè)判別屬性僅在與目標(biāo)數(shù)據(jù)有相似分布的重要輔助數(shù)據(jù)樣本中被處理。特別地,δ采用了高斯函數(shù)的形式:
β控制來自Vs的重要支持向量的退化速度。β越大,支持向量的影響就越小,同時(shí)也就遠(yuǎn)離 。當(dāng)盧非常大,一個(gè)新的決策邊界單獨(dú)基于新的訓(xùn)練數(shù)據(jù) 學(xué)習(xí)得到。相反,當(dāng)β非常小,來自Vs的支持向量和目標(biāo)數(shù)據(jù)集 同等對(duì)待并且算法相當(dāng)于運(yùn)用 共同訓(xùn)練一個(gè)SVM分類器。通過這樣的控制,與傳統(tǒng)方法對(duì)比,這個(gè)算法更加一般化和靈活??刂茀?shù)β實(shí)際上能通過系統(tǒng)驗(yàn)證試驗(yàn)來優(yōu)化。
對(duì)于上面所產(chǎn)生的一個(gè)初始弱SVM分類器,本文得到了目標(biāo)域中未標(biāo)記數(shù)據(jù) 的一組初始標(biāo)簽,接著把 加入訓(xùn)練集中一起訓(xùn)練,就形成了本文所提出的半監(jiān)督遷移的方法。其基于半監(jiān)督的SVM遷移學(xué)習(xí)算法的分類器對(duì)于2類問題的定義如下:
2.2 半監(jiān)督遷移算法的描述
對(duì)于目標(biāo)域數(shù)據(jù) ,假設(shè) 是包含 個(gè)樣本 且給定標(biāo)簽 的訓(xùn)練集, 是包含 個(gè)樣本 且未帶標(biāo)簽。
本文提出的基于半監(jiān)督的SVM遷移算法詳細(xì)描述如下:
算法:Semi-supervised TL_SVM
輸入:目標(biāo)數(shù)據(jù)集 (包含 和 ),經(jīng)過預(yù)處理的輔助域支持向量xt,閾值δ0。
輸出:D的類別標(biāo)簽
(1)利用 和xt訓(xùn)練初始TLSVM分類器。
(2)得到 的初始標(biāo)簽 和TLSVM分類器的初始參數(shù) , 。
(3)將獲得初始標(biāo)簽的 加入到訓(xùn)練集中一起訓(xùn)練分類器,假設(shè)經(jīng)過k次訓(xùn)練后構(gòu)建一目標(biāo)函數(shù)
(4) Loop k=2,訓(xùn)練TLSVM對(duì) 進(jìn)行類別測(cè)試,并得到每次分類器參數(shù)。
的預(yù)測(cè)標(biāo)簽就為
End If
Else
k++;
End If
3 實(shí)驗(yàn)
本文選取Enron公司提供的內(nèi)部員工通信郵件數(shù)據(jù)集Enron數(shù)據(jù)集作為本文的實(shí)驗(yàn)數(shù)據(jù),它包含1702封郵件,53個(gè)類別。
3.1 數(shù)據(jù)集說明
Enron數(shù)據(jù)集的描述如表1所示。
3.2 數(shù)據(jù)預(yù)處理
文本采用此空間向量表示文本數(shù)據(jù),即:
上式中, 是詞頻的集合, 是其對(duì)應(yīng)的權(quán)重。首先,將一些沒有實(shí)際分類意義的詞去掉,再根據(jù)有分類意義的詞進(jìn)行統(tǒng)計(jì),最后根據(jù)TF-IDF算法將文本表述成文本向量空間,就形成了可以利用的SVM標(biāo)準(zhǔn)數(shù)據(jù)集了。然后便可以利用LIBSVM來實(shí)現(xiàn)本文的實(shí)驗(yàn)。
3.3 實(shí)驗(yàn)分析
首先,利用本文提出的基于半監(jiān)督的SVM遷移學(xué)習(xí)算法遷移輔助域數(shù)據(jù)知識(shí)來對(duì)本文的目標(biāo)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并與半監(jiān)督SVM進(jìn)行對(duì)比。其次,還要調(diào)整參數(shù)β,用來控制輔助域數(shù)據(jù)的退化速度。將隨機(jī)抽取的輔助數(shù)據(jù)集F加入經(jīng)過數(shù)據(jù)知識(shí)遷移幫助目標(biāo)域訓(xùn)練集進(jìn)行分類器的訓(xùn)練,然后找到最佳參數(shù)β。
首先,本文選取152封作為目標(biāo)數(shù)據(jù)集(其中訓(xùn)練數(shù)據(jù)100封,測(cè)試數(shù)據(jù)52封),剩余1650封用來作為輔助數(shù)據(jù)集。也就是目標(biāo)數(shù)據(jù)約占輔助數(shù)據(jù)集的10%。對(duì)比本文提出的算法與半監(jiān)督SVM算法在數(shù)據(jù)集Enron上的分類性能評(píng)估如表2所示,單位(%)。
β參數(shù)的變化就是控制著遷移知識(shí)在訓(xùn)練模型時(shí)所起的作用。在目標(biāo)域數(shù)據(jù)僅占1%時(shí)本文調(diào)整最佳參數(shù),接下來在不同β的下的進(jìn)行實(shí)驗(yàn),這里本文選取了p=[O.OOI,O.O1,0.1,1】這4個(gè)參數(shù)值上實(shí)驗(yàn)。并與半監(jiān)督SVM形成對(duì)照,遷移性能與β的關(guān)系如圖2所示。
通過上面β來控制遷移知識(shí)對(duì)分類器的影響。由圖2可知β越小,遷移知識(shí)越多,遷移數(shù)據(jù)所起的作用越大,然而當(dāng)達(dá)到一定的量時(shí),遷移學(xué)習(xí)所起的作用可能跟傳統(tǒng)的方法差不多,甚至可能存在負(fù)遷移的情況,所以實(shí)驗(yàn)中本文得到的最佳β是lx 10-2。
接下來,在確定最佳β參數(shù)值的情況下,本文提高目標(biāo)數(shù)據(jù)占輔助數(shù)據(jù)的比例,利用本文提出的算法進(jìn)一步分析,如圖3所示。
由圖3可知,隨著目標(biāo)域數(shù)據(jù)增多,遷移效果也在提升。當(dāng)目標(biāo)數(shù)據(jù)集占30%時(shí),遷移學(xué)習(xí)的效果與傳統(tǒng)的算法效果接近。
實(shí)驗(yàn)結(jié)果表明,當(dāng)目標(biāo)數(shù)據(jù)集較小時(shí),本文提出的基于SVM的半監(jiān)督遷移學(xué)習(xí)算法效果明顯,而當(dāng)目標(biāo)數(shù)據(jù)集變大到一定數(shù)量時(shí),本文所提出的算法與半監(jiān)督SVM算法效果接近,可以使用傳統(tǒng)的半監(jiān)督SVM算法。
4 結(jié)語
在本文中,筆者提出了基于SVM的半監(jiān)督遷移學(xué)習(xí)的方法,其主要是在減少目標(biāo)域帶標(biāo)簽訓(xùn)練數(shù)據(jù)的同時(shí),增加了相關(guān)域帶標(biāo)簽數(shù)據(jù)。本文在以前方法SVM的基礎(chǔ)上提出了一種新的文本分類方法。將本文所提出的方法與半監(jiān)督SVM方法相比較,證明本文的方法比半監(jiān)督SVM方法好。
基于SVM的半監(jiān)督遷移學(xué)習(xí)方法在數(shù)據(jù)分類中取得了明顯的效果。而考慮利用本文所提的方法對(duì)在線增量進(jìn)行分類將成為筆者的下一個(gè)研究目標(biāo)。