国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

上下文廣告中的一種文本分類方法

2011-01-29 10:32:58陳志敏
關(guān)鍵詞:類別分類器文檔

趙 耀,陳志敏

(揚州大學(xué) 信息工程學(xué)院,江蘇 揚州 225127)

0 引言

隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的迅猛發(fā)展,廣告已成為電子商務(wù)中極為重要的一部分業(yè)務(wù).廣告給出版商、廣告商、網(wǎng)站等帶來的巨大利潤使得人們更加重視廣告推薦方法的應(yīng)用.廣告的推薦方法作為推薦系統(tǒng)中最為關(guān)鍵的部分,很大程度上決定了推薦效果的優(yōu)劣.[1]上下文廣告中文本分類的關(guān)鍵之一是分類器的創(chuàng)建.在傳統(tǒng)的先驗學(xué)習(xí)框架中,分類器的首要任務(wù)是在一個標(biāo)簽過的數(shù)據(jù)上訓(xùn)練一個數(shù)據(jù)模型,然后用這個模型對測試數(shù)據(jù)集分類.通常在這種框架下,此學(xué)習(xí)算法必須依賴大量的標(biāo)簽數(shù)據(jù),而實際上高質(zhì)量的標(biāo)簽數(shù)據(jù)很難獲取,尤其對新類別中的學(xué)習(xí)任務(wù)而言.在不同但是相關(guān)的類別中存在大量的標(biāo)簽數(shù)據(jù),當(dāng)這些標(biāo)簽數(shù)據(jù)過期而再從類似的信息源中獲取新數(shù)據(jù)比較困難,在動態(tài)變化的網(wǎng)頁環(huán)境下這種情況尤其嚴(yán)重.傳統(tǒng)學(xué)習(xí)方法不能很好地解決這種問題,如文獻(xiàn)[2]所描述,因為特征項之間的聯(lián)系有很大的不同,因此傳統(tǒng)模型直接應(yīng)用于對網(wǎng)頁的分類效果很差.傳統(tǒng)的分類器學(xué)習(xí)都是假設(shè)給分類數(shù)據(jù)類別做標(biāo)簽,包括監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的方法都這樣使用過.監(jiān)督學(xué)習(xí)關(guān)注于哪里的標(biāo)簽數(shù)據(jù)比較充裕.NBC(native bayesian classifier)[3]和SVM(support vector machines)[4]是其中兩種最為有效的方法.半監(jiān)督學(xué)習(xí)認(rèn)為標(biāo)簽數(shù)據(jù)太少而不能建立一個好的分類器,但可利用大量的未標(biāo)簽數(shù)據(jù)和少部分標(biāo)簽數(shù)據(jù)來提高分類器性能,如轉(zhuǎn)換學(xué)習(xí)[5]和基于EM(expectation-maximization)的方法[6]等.無論是監(jiān)督學(xué)習(xí)還是半監(jiān)督學(xué)習(xí),都需要標(biāo)簽數(shù)據(jù)和非標(biāo)簽數(shù)據(jù)有相同的分布;然而,此問題中標(biāo)簽數(shù)據(jù)和非標(biāo)簽數(shù)據(jù)均來自不同的類別,它們的基本分布也是不同的,這就違背了傳統(tǒng)分類學(xué)習(xí)的最基本的設(shè)想.修改選擇實例的方法是另一個與跨領(lǐng)域分類相關(guān)的工作.如果設(shè)想類別的差異僅僅是由于實例選擇的方法不同,而其他因素都忽略,就能簡單地應(yīng)用這個理論去解決跨領(lǐng)域分類問題.以上方法最初應(yīng)用在經(jīng)濟(jì)學(xué)中,后來才應(yīng)用于機器學(xué)習(xí).ZADROZNY提出了一個修改選擇實例的兩步方法,BLITZER等也分析了基于即時權(quán)重的跨領(lǐng)域?qū)W習(xí),然而這些算法都沒有充分調(diào)查測試數(shù)據(jù)的豐富結(jié)構(gòu).[7]

在本文中,筆者僅就上下文廣告中的文本分類方法進(jìn)行研究,旨在找到性能更好的分類算法來實現(xiàn)上下文的廣告匹配,本文的重點放在交叉類別的文本分類上.從兩個相關(guān)但是不同的類別中選取數(shù)據(jù)集DL和DU,這里的DL是一個已有類別中的標(biāo)簽數(shù)據(jù),而DU是一個新類別中需要被分類的數(shù)據(jù)集.假設(shè)DL中的標(biāo)簽和即將在DU中預(yù)測的標(biāo)簽都是同一個類標(biāo)簽C中的,本文的目標(biāo)是完全利用舊類別數(shù)據(jù)DL及其標(biāo)簽來準(zhǔn)確地對DU中的文檔分類.這里提出一個對交叉類別分類的方法NLSA(new latent semantic analysis).假設(shè)兩個類別是相關(guān)的,那么它們會使用一些共同的標(biāo)題.這里的關(guān)鍵思想是將LSA(latent semantic analysis)[8]擴(kuò)展到建立一個主題鏈接,然后在這兩個類別中轉(zhuǎn)換共同的主題.利用NLSA模型,可將兩個類別中共有的模型作為先驗知識抽取出來,再通過預(yù)測的相關(guān)標(biāo)題轉(zhuǎn)換到測試類別中,最后把這些知識和在測試類別中對文本分類的未標(biāo)簽數(shù)據(jù)的新知識相結(jié)合,用在與訓(xùn)練類別不同的測試類別中.

1 算法NLSA

1.1 算法思想

在本文中,借用半監(jiān)督聚類的方法處理NLSA中在同一個聚類和無需在同一個聚類的情況.半監(jiān)督聚類是在一些傳統(tǒng)的通過一部分標(biāo)簽數(shù)據(jù)提供的限制下建立的聚類,它在合適的限制聚類目標(biāo)函數(shù)中找到平衡.本文的分類算法通過訓(xùn)練數(shù)據(jù)獲得限制,以提供一個類結(jié)構(gòu).下面將在理論和實驗的基礎(chǔ)上證明這種算法對于跨領(lǐng)域分類的有效性,而且還利用從原類別訓(xùn)練數(shù)據(jù)中獲得的標(biāo)簽知識幫助目標(biāo)領(lǐng)域中的文檔進(jìn)行分類,這也是傳統(tǒng)的半監(jiān)督聚類算法尚未解決的問題.

首先,將PLSA(probabilistic latent semantic analysis)應(yīng)用于標(biāo)簽和未標(biāo)簽的數(shù)據(jù).利用一些隱藏的PLSA的可能性作為標(biāo)題(或者分類器中設(shè)置的類別)在訓(xùn)練和測試類別文檔中建立鏈接,然后在關(guān)聯(lián)的概率模型下進(jìn)行學(xué)習(xí).這樣,在新建立的基于相鄰表的模型中,文檔中的特征項都是相關(guān)的,訓(xùn)練數(shù)據(jù)中規(guī)律的標(biāo)題標(biāo)識與支持這些主題測試文檔一樣清楚.隨后,這些主題就作為訓(xùn)練和測試領(lǐng)域中的橋梁,而且越早從訓(xùn)練數(shù)據(jù)中獲得的優(yōu)先知識在文檔的限制條件下越早地被封鎖,包括屬于同一個聚類的必須鏈接限制的和不屬于同一個聚類的不能進(jìn)行的鏈接.這些先驗知識被學(xué)習(xí)分類器學(xué)習(xí)和應(yīng)用到不同領(lǐng)域的測試數(shù)據(jù)集上.應(yīng)用上述算法,得到一個包括所有數(shù)據(jù)的相似性和訓(xùn)練數(shù)據(jù)的目標(biāo)函數(shù),而EM算法就是應(yīng)用重復(fù)的最大化這樣的目標(biāo)函數(shù)來獲得測試數(shù)據(jù)的最終類目.

1.2 問題定義

假設(shè)每一個訓(xùn)練數(shù)d都是一個文本文檔,而且從一個主題集C={c1,c2,…,ck}中分配一個唯一的輸出標(biāo)簽.一個詞匯集W={w1,w2,…,wv},假設(shè)每一個輸入文檔都將表示成一個詞匯特征向量的特征項頻率.這些標(biāo)簽數(shù)據(jù)是DL={d1,d2,…,dm},每一個dl∈DL都會分配一個標(biāo)簽.測試數(shù)據(jù)是預(yù)測的一個未標(biāo)記文檔集DU={d1,d2,…,dn},假設(shè)訓(xùn)練集DL和測試集DU相關(guān)但不在同一個類別中.本文算法的目的是利用訓(xùn)練集DL在其他類別中盡可能準(zhǔn)確地將標(biāo)簽ci分配到du中.

1.3 NLSA 算法

隨機初始化P(d1|z),P(d1|w),P(du|w),因為DL和DU中的文檔通常由特征項構(gòu)成,故用NLSA分別在DL和DU上分解成z和w.通過觀察DL和W,可在DL×W 上執(zhí)行一次PLSA得到P(d1|w)和P(du|w),這里的DL,DU分別來自不同類別,可以得到

并定義文檔dl與du的相似度為

假設(shè)y是代表一個文檔類別或者隱藏特征的函數(shù),那么y(d)為一文檔的類別,y(z)是通過一個隱藏特征值表示的類別.對于DU類別中的每一個文檔d和z,可以得到

NLSA算法的具體步驟描述如下,見圖1.

2 實驗

2.1 測試數(shù)據(jù)集

為了檢測算法NLSA的總體性能,筆者選取復(fù)旦大學(xué)李榮陸博士提供的中文語料庫作為本次測試數(shù)據(jù)集.實驗選取15個類別中的3 518篇作為訓(xùn)練語料,856篇作為測試語料,將NLSA 與NB(native bayesian),SVM(support vector machines),KNN-SVM(k-nearest neighbor support-vector machines),TSVM(transductive support vector machines)測試集進(jìn)行比較,結(jié)果如表1所示.

圖1 NLSA算法的具體步驟Fig.1 Steps of NLSA algorithm

2.2 實驗結(jié)果與分析

由表1可見,因為SVM和NB的監(jiān)督方法并未考慮測試集與訓(xùn)練集在不同的類別上,所以這兩種算法的性能相對較差;而半監(jiān)督方法TSVM由于能夠預(yù)測測試數(shù)據(jù),所以獲得比監(jiān)督方法稍好的性能[9];然而這些方法都是假設(shè)測試集與訓(xùn)練集在同一個類別,而未完全利用不同領(lǐng)域中訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)信息;因此,半監(jiān)督不是最好的算法[10].在傳統(tǒng)的潛在語義分析概率基礎(chǔ)上進(jìn)行擴(kuò)展,將標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)相結(jié)合,用共有的主題作為橋梁構(gòu)建一個概率模型,實驗結(jié)果證明其性能要好于其他現(xiàn)有的分類算法.

表1 5種算法的準(zhǔn)確率比較Tab.1 Comparison of precisionwith 5algorithms

3 結(jié)語

本文提出一種與主題關(guān)聯(lián)的NLSA算法來處理文本分類中的交叉類別問題.通過將一個類別中對文檔學(xué)習(xí)到的知識轉(zhuǎn)換到另一個類別中使用,對其他文檔進(jìn)行分類.[11]該方法在傳統(tǒng)的潛在語義分析概率基礎(chǔ)上進(jìn)行擴(kuò)展,將標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)結(jié)合起來,用共有的主題作為橋梁建立一個概率模型.實驗結(jié)果證明:將NLSA算法應(yīng)用在上下文廣告的文本分類中,性能要優(yōu)于其他現(xiàn)有的分類算法.

[1]RIBEIRO-NETO B,CRISTO M,GOLGHER P B,et al.Impedance coupling in content-targeted advertising[C]//Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2005:496-503.

[2]王國才,張聰.一種基于粗糙集的特征加權(quán)樸素貝葉斯分類器 [J].重慶理工大學(xué)學(xué)報,2010,24(7):86-90.

[3]JI Xiang,XUwei.Document clustering with prior knowledge[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval SIGIR 06(2006).Washington,USA:ACM,2006:405-412.

[4]JOACHIMS T.Text categorization with support vector machines:learningwith many relevant features[J].Comput Inf Sci,1998,1398(23):137-142.

[5]NIGAM K,MCCALLUM A K,THRUN S,et al.Text classification from labeled and unlabeled documents using EM [J].Mach Learn,2000,39(2/3):103-134.

[6]YANG Yi-ming.An evaluation of statistical approaches to text categorization[J].J Inf Retr,1999,1(1/2):69-90.

[7]COHN D,CARUANA R,MCCALLUM A.Semi-supervised clustering with user feedback [R]//Computer Science Technical Report.New York:Cornell University,2003:16-21.

[8]康楠,金蓓弘,李京.面向Blog的興趣挖掘和推薦系統(tǒng) [J].計算機工程,2008,34(2):72-74.

[9]AHN H J.A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem[J].Inf Sci,2008,178(1):37-51.

[10]許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究 [J].軟件學(xué)報,2009,20(2):350-362.

[11]何中市,劉里.基于上下文關(guān)系的文本分類特征描述方法 [J].計算機科學(xué),2007,34(5):183-186.

猜你喜歡
類別分類器文檔
有人一聲不吭向你扔了個文檔
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于RI碼計算的Word復(fù)制文檔鑒別
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
尚志市| 磴口县| 昭通市| 安龙县| 张家界市| 盐津县| 大英县| 泽州县| 枝江市| 南木林县| 崇文区| 宝丰县| 武胜县| 西藏| 合阳县| 凤阳县| 浙江省| 襄垣县| 塔城市| 九龙县| 郧西县| 淮滨县| 奉贤区| 柏乡县| 宁蒗| 巴彦淖尔市| 长乐市| 藁城市| 佛冈县| 句容市| 弥渡县| 郯城县| 富平县| 锡林浩特市| 县级市| 南漳县| 镇巴县| 陕西省| 长顺县| 腾冲县| 延津县|