国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

信息增益對于提取新聞特征向量的優(yōu)勢

2016-05-14 14:34錢怡陶
新媒體研究 2016年5期

錢怡陶

摘 要 信息增益是當下國內(nèi)外文本分類熱門方法之一,擁有廣泛的應(yīng)有領(lǐng)域。通過對傳統(tǒng)基礎(chǔ)的新聞推薦算法的模型原理進行詳細分析解釋,選取各自的優(yōu)點,指出算法融合改造的優(yōu)勢,將一種基于信息增益的新聞推薦模型,用以達到挑選出最合適的新聞推送給最有興趣的用戶的目的。

關(guān)鍵詞 信息增益;新聞推薦;TF-IDF

中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2016)05-0019-02

近年來,許多國外購物網(wǎng)站如Amazon采用信息增益的方法來幫助客戶做出消費決定,這個方法可以有效縮短客戶閱讀大量評論的時間,從而達到更好的購物體驗感,也加速了每一筆訂單的消費時長[1]。而采用信息增益的文本分類方法的應(yīng)用領(lǐng)域十分廣泛,例如網(wǎng)絡(luò)輿情的挖掘[2],煙絲致香成分分析[3],甚至應(yīng)用于地震趨勢的估計預測中[4]。

1 新聞推薦的原理

新聞閱讀與線上購物的原理類似,只不過在這里將所有的商品替代為新聞,用戶也在海量的新聞中搜索自己感興趣的,如同在挑選產(chǎn)品,因此可以借鑒此種方法。在新聞推薦中主要包含的技術(shù)步驟包括提取新聞特征向量來簡化對原新聞的分析,用戶聚類來對不同類群的客戶提供個性化的推薦,進行新聞關(guān)聯(lián)將有聯(lián)系的新聞建立聯(lián)系,最后再向客戶提供因人而異的有興趣和緊密聯(lián)系的新聞。

2 一般新聞特征提取方法

提取新聞特征向量最傳統(tǒng)和經(jīng)典的方法之一是TF-IDF法[5]。下面簡單介紹一下它的原理。

若采用向量空間模型VSM(Vector Space Model)作為新聞文本表示模型,那么新聞文本就好似在一個矢量空間中的某一點,而其中的特征量能夠給予這個點矢量值[6]。那么從中提取特征向量的過程就是對新聞內(nèi)容進行降維處理,將冗余的信息和不重要的無關(guān)信息篩選掉,從而能夠使文本在矢量空間中定點。常用的方法是詞頻法TF(Terms Frequency),通過計算一個詞在整個新聞中出現(xiàn)的次數(shù)來判斷這個詞對于文本的重要性和代表性。詞頻法可以在一定程度上防止同一個詞在長文本中出現(xiàn)的頻度,很可能大于短文本而帶來的干擾。

假設(shè)在文本中,詞頻的計算公式如下:

其中,分子代表某一選定詞在整個文本中的計數(shù),而分母則表示文本中所有詞的計數(shù)和。

但是這樣的方法會有很大偏差,如會有很多沒有實際意義的詞語干擾,如“的”“和”等等。因此需要對特征項進行加權(quán)處理,對高價值能夠更多提供文本分類信息的特征詞給予較高權(quán)重[7]。逆向文件頻率IDF(Inverse Document Frequency)加權(quán)是普遍的一種處理計算,其計算公式如下:

其中,分子表示表示新聞庫中新聞的總和,而分母是包含特定特征詞的新聞總數(shù),再將商做對數(shù)處理。

那么TF-IDF的公式可以整理為

經(jīng)過IDF加權(quán)處理過后的TF法,可以有效降低數(shù)據(jù)維度,剔除冗余詞匯。但是這種方法只能夠判斷單文本的關(guān)鍵詞權(quán)重,不能夠給出文本類內(nèi)類外分布對關(guān)鍵詞權(quán)重的影響。下面將介紹一種可以優(yōu)化文本類間的權(quán)重計算方法。

3 信息增益的優(yōu)勢及改良

信息增益IG(Information Gain)被認為是鑒定機器學習(Machine Learning)效果的良好標準之一[8],也是通過提取特征向量來進行文本分類的常用方法[5]。信息增益的定義為某一特征詞選定后在文本中前后的信息熵IE(Information Entropy)之差。而信息熵在信息論中表示一個隨機事件出現(xiàn)的概率,而如果在隨機事件發(fā)生之后計算某一特征詞信息熵,則可以從中獲得這個特征詞的信息價

值[9]。在一個文本類型中,如果一個詞的信息熵越大,代表它在文本類中分布得越廣,越能夠代表這個文本類的普遍特征。信息增益的表達公式

如下[10]:

上式中,t為新聞中的特征詞,C為新聞類別。特征詞的信息增量越大,則說明這個詞對新聞分類的貢獻越大,越具有代表性。在“今日頭條”上挑選50條最新的新聞(2016年1月8日至2016年1月11日期間),財經(jīng)、體育、汽車、科技、歷史五個板塊各選取10個文本,挑選“股市”“中國”“自燃”“售價”“古代”為特征項。結(jié)果如表1所示。

IG(股市)=-log(0.2,2)+5/50×(3/5×log

(3/5,2)+1/5×log(1/5,2)+1/5×log(1/5,2))+

45/50×(7/45×log(7/45,2)+10/45×log(10/45,

2)×2+9/45×log(9/45,2)×2)=0.105 139

IG(中國)=-log(0.2,2)+25/50×(6/25×log (6/25,2)+1/5×log(1/5,2)+3/25×log(3/25,

2)+4/25×log(4/25,2)+7/25×log(7/25,2))+

25/50×(6/25×log(6/25,2)+1/5×log(1/5,2)+

3/25×log(3/25,2)+4/25×log(4/25,2)+7/25×

log(7/25,2))=0.059 103

IG(自燃)=-log(0.2,2)+24/25×(5/24×log (5/24,2)×4+4/24×log(4/24,2))=0.097 907

IG(售價)=-log (0.2,2)+6/50×(1/2×log (1/2,2)×2)+44/50×(10/44×log(10/44,2)×3+

7/44×log(7/44,2)×2)=0.176 845

IG(古代)=-log(0.2,2)+21/25×(10/42×log (10/42,2)×4+2/42×log(2/42,2))=0.489 924

由數(shù)據(jù)可以看出IG(古代)>IG(售價)>IG(股市)>IG(自燃)>IG(中國)?!肮糯边@個特征項只出現(xiàn)在“歷史”類別的新聞中,而且占比較大,因此能夠很好的代表這類文章,IG值較高;而“中國”這個特征項在五類新聞中都有出現(xiàn),且分布較為均勻,且此不具有能代表某一類新聞典型特征的特點,IG值較低。

可見特征詞的信息增益可以有效提供特征詞在文本類間的分布情況,但是不能提供文本內(nèi)部特征詞的情況。因此,可以考慮結(jié)合TF-IDF和IG共同考慮來優(yōu)化特征項的提取,提高其權(quán)重的準確性。

中科院魯松團隊從1996—1997年的《人民日報》上選取了6 518篇文本,分別用TF-IDF和TF-IDF-IG兩種方法計算召回率(recall)和正確率(precision)進行比較[11]。結(jié)果用TF-IDF-IG方法來表示文本從召回率和正確率兩個測試結(jié)果上都要好于TF-IDF法。

4 結(jié)論

可見信息增益的加入相較于傳統(tǒng)的TF-IDF法,使新聞推薦更加高效和準確。但其中必須指出的是,該方法的前提是用戶的新聞偏好在一段較長的時間內(nèi)保持不變[12]。對新發(fā)布的新聞與用戶閱讀過的新聞進行對比,當兩篇新聞的相似度大于某一閾值,且這個閾值于不同類型的文本各異,我們才能將新錄入的新聞推薦給用戶。

參考文獻

[1]Richong Zhang · Thomas Tran (2011) An information gain-based approach for recommending useful product reviews. Knowl Inf Syst 26.

[2]萬源.基于語義統(tǒng)計分析的網(wǎng)絡(luò)輿情挖掘技術(shù)研究[D].武漢:武漢理工大學,2012.

[3]劉孝良,丁香乾,門月.基于信息增益的特征選擇在煙絲致香成分中的應(yīng)用[J].現(xiàn)代電子技術(shù),2012(18):92-94.

[4]齊玉妍,孫麗娜,邱玉榮,等.河北及鄰區(qū)地震時空概率增益綜合預測研究[J].中國地震,2015(1):78-88.

[5]劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展[J].自然科學進展,2009,19(1):1-15.

[6]王博.文本分類中特征選擇技術(shù)的研究[D].長沙:國防科學技術(shù)大學,2009.

[7]陳瀅.基于個性化推薦技術(shù)的“新聞客戶端”的使用與滿足研究[D].廣州:暨南大學,2015.

[8]Lee C,Lee GG (2006) Information gain and divergence-based feature selection for machine learningbased text categorization. Inform Process Manag 42.

[9]李海瑞.基于信息增益和信息熵的特征詞權(quán)重計算研究[D].重慶:重慶大學,2012.

[10]YangY,Pedersen JO (1997)Acomparative study on feature selection in text categorization. In:Proceedings of the fourteenth international conference on machine learning:412–420.

[11]魯松,李曉黎,白碩,等.文檔中詞語權(quán)重計算方法的改進[J].中文信息學報,2000(6):8-13.

[12]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點及構(gòu)建[J].企業(yè)科技與發(fā)展,2013(15):39-40.

隆化县| 宁国市| 临武县| 蕉岭县| 蒙阴县| 冀州市| 攀枝花市| 五大连池市| 和龙市| 剑河县| 上虞市| 双桥区| 读书| 涞水县| 密山市| 临清市| 曲松县| 博乐市| 巨鹿县| 富川| 合阳县| 辛集市| 克拉玛依市| 大兴区| 崇州市| 长岛县| 靖安县| 古交市| 宁陕县| 资中县| 东海县| 白朗县| 芜湖县| 宁明县| 莫力| 桃源县| 宣威市| 西吉县| 临漳县| 顺昌县| 乌兰察布市|