趙磊 金蕾 黃俊濤 張乾坤 宋云奎
摘要:本文講述機(jī)器學(xué)習(xí)通過計(jì)算信息增益值降低特征維數(shù),選擇云用戶隱性反饋信息特征,利用篩選后的特征構(gòu)建特征子集,進(jìn)而通過反饋信息文本來處理,統(tǒng)計(jì)每個(gè)特征項(xiàng)的文本頻率,識(shí)別篩選反饋信息,實(shí)現(xiàn)對(duì)云用戶隱性反饋信息的分類。
關(guān)鍵詞:機(jī)器學(xué)習(xí);隱性反饋;信息分類
中圖分類號(hào):TP181 ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):1007-9416(2020)06-0000-00
0 引言
隨著互聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展,數(shù)據(jù)信息的傳播速度和傳播范圍遠(yuǎn)超出人工可以觀察和總結(jié)的范疇,互聯(lián)網(wǎng)上的云用戶隱性反饋信息數(shù)據(jù)變得越來越多。想要快速在大量的互聯(lián)網(wǎng)數(shù)據(jù)中找到想要的云用戶隱性反饋信息,需要先對(duì)云用戶隱性反饋信息進(jìn)行分類[1]。傳統(tǒng)的用信息分類方法分類準(zhǔn)確度有限,且應(yīng)用范圍較窄,己經(jīng)無法應(yīng)對(duì)當(dāng)前的數(shù)據(jù)量,因此,基于機(jī)器學(xué)習(xí)的云用戶隱性反饋信息分類方法成為研究的熱點(diǎn)。
1 基于機(jī)器學(xué)習(xí)的云用戶隱性反饋信息分類方法設(shè)計(jì)
1.1 選擇云用戶隱性反饋信息特征
為達(dá)到提升分類效率、增強(qiáng)分類準(zhǔn)確度的目的,需要進(jìn)行云用戶隱性反饋信息特征選擇。反饋信息特征的選取需要通過計(jì)算特征的信息增益值來實(shí)現(xiàn)[2]。第一步,計(jì)算特征增益數(shù)據(jù);第二步,以上述增益數(shù)據(jù)為依據(jù),對(duì)特征項(xiàng)進(jìn)行排列;第三步,根據(jù)預(yù)設(shè)的特征項(xiàng)數(shù)據(jù),剔除與之不相符的特征項(xiàng)[3]。若存在特征和類別,需計(jì)算特征對(duì)類別的信息增益值,需要分別計(jì)算類別中出現(xiàn)特征的概率和類別中不出現(xiàn)特征的概率,計(jì)算公式如(1)所示:
其中,表示類別為的信息在訓(xùn)練信息集中出現(xiàn)的概率,表示包含特征的文本信息集中出現(xiàn)的概率,表示包含特征的文本信息且屬于類別的條件概率,與對(duì)應(yīng),可知=1-,表示不包含特征的文本信息且屬于類別的概率,m表示類別數(shù)。
由公式(1)可得各特征的信息增益值,以增益值作為排序依據(jù),選取出最具代表性的反饋信息特征,以此形成原始特征集合的子集。
1.2 進(jìn)行反饋信息文本處理
利用特征選擇后構(gòu)成的特征子集,進(jìn)行反饋信息文本處理。文本處理過程主要分為文本標(biāo)記、分詞處理和去除停用詞處理。文本標(biāo)記通過標(biāo)記反饋信息中一些控制文本顯示形式的標(biāo)記,比如圖片、鏈接、動(dòng)態(tài)圖等,解決無法識(shí)別反饋信息的內(nèi)容的問題。以分割單詞的形式將文本中的分詞加以處理,根據(jù)相鄰字出現(xiàn)次數(shù),分析其是詞語(yǔ)的可能性并。根據(jù)分類,對(duì)字符串中字的組合頻率進(jìn)行統(tǒng)計(jì),當(dāng)這個(gè)組合頻率高于一定的閾值時(shí),則認(rèn)為字的組合是可以組成一個(gè)詞語(yǔ)的,將該字視為無詞組。并且刪除停用詞處理,設(shè)計(jì)停用詞表,即不需要的用戶反饋信息,將分詞后的詞匯和停用詞表內(nèi)詞匯做對(duì)比,若能匹配成功,則需要?jiǎng)h除。若未匹配成功,則表示該詞匯為有用特征,保存。反饋信息文本處理提高了文本分類效率,降低了處理復(fù)雜度。
1.3 識(shí)別篩選云用戶隱性反饋信息
在對(duì)云用戶隱性反饋信息文本進(jìn)行處理后,開始識(shí)別篩選所需的反饋信息,以便于進(jìn)行歸納分類。先統(tǒng)計(jì)每個(gè)特征項(xiàng)的文本頻率,也就是計(jì)算文本集中包含某個(gè)特征詞條的文本數(shù)。應(yīng)預(yù)先設(shè)置大、小極值文本頻率閾值,統(tǒng)計(jì)所有特征項(xiàng)的文本頻率,并將統(tǒng)計(jì)值與預(yù)設(shè)閾值作對(duì)比,若屬于預(yù)設(shè)閾值范圍,則予以保留,若不屬于預(yù)設(shè)閾值范圍,則刪掉該項(xiàng)。文本頻率越小,說明該特征項(xiàng)蘊(yùn)含的反饋信息越少,越應(yīng)予以剔除;反之,文本頻率越大,該特征項(xiàng)蘊(yùn)含的反饋信息越多,越應(yīng)予以保留,基于此實(shí)現(xiàn)云用戶隱性反饋信息的識(shí)別篩選。
2 對(duì)比實(shí)驗(yàn)
2.1 實(shí)驗(yàn)設(shè)計(jì)
為保證云用戶隱性反饋信息分類方法的可行性,需要進(jìn)行對(duì)比實(shí)驗(yàn)。本次實(shí)驗(yàn)在PyCharm4.5.4編譯器上進(jìn)行,通過SVM算法進(jìn)行仿真實(shí)驗(yàn)。在本實(shí)驗(yàn)中,設(shè)置基于機(jī)器學(xué)習(xí)的云用戶隱性反饋信息分類方法為實(shí)驗(yàn)組,傳統(tǒng)的云用戶隱性反饋信息分類方法為對(duì)照組,實(shí)驗(yàn)次數(shù)設(shè)置為實(shí)驗(yàn)?zāi)繕?biāo)為測(cè)試不同反饋信息分類方法的分類準(zhǔn)確率。
2.2 實(shí)驗(yàn)結(jié)果分析論證
根據(jù)上述提出的實(shí)驗(yàn)環(huán)境及實(shí)驗(yàn)步驟,將云用戶隱性反饋信息分類方法的分類準(zhǔn)確率作為此次實(shí)驗(yàn)的關(guān)鍵對(duì)比指標(biāo),將實(shí)驗(yàn)結(jié)果描繪成折線圖,如圖1所示。
通過圖1分析可知,基于機(jī)器學(xué)習(xí)的云用戶隱性反饋信息分類方法的分類準(zhǔn)確率明顯高于傳統(tǒng)分類方法,證明了該方法的可行性和有效性。
3 結(jié)語(yǔ)
基于機(jī)器學(xué)習(xí)的云用戶隱性反饋信息分類方法有效解決了傳統(tǒng)信息分類方法準(zhǔn)確度低、應(yīng)用范圍較小的問題。但是云用戶隱性反饋信息分類是一個(gè)不斷完善的方法過程,機(jī)器學(xué)習(xí)理論本身也是一個(gè)漫長(zhǎng)的發(fā)展進(jìn)程。此次進(jìn)行該信息分類方法相關(guān)研究的整理和評(píng)述,對(duì)學(xué)術(shù)研究以及實(shí)際應(yīng)用都具有較大的指導(dǎo)意義。
參考文獻(xiàn)
[1] 崔鴻雁,徐帥,張利鋒,等.機(jī)器學(xué)習(xí)中的特征選擇方法研究及展望[J].北京郵電大學(xué)學(xué)報(bào),2018,41(1):1-12.
[2] 只瑩瑩.機(jī)器學(xué)習(xí)在圖書館知識(shí)發(fā)現(xiàn)系統(tǒng)中的應(yīng)用初探——以基于知識(shí)圖譜的發(fā)現(xiàn)工具Yewno為例[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2018,30(7):47-50.
[3] 艾達(dá),盧雪磊,高陽(yáng),等.基于機(jī)器學(xué)習(xí)的HEVC快速幀內(nèi)預(yù)測(cè)算法研究進(jìn)展[J].現(xiàn)代電子技術(shù),2018,41(18):178-181+186.
收稿日期:2020-05-11
作者簡(jiǎn)介:趙磊(1979—),男,河南焦作人,本科,網(wǎng)絡(luò)工程師,研究方向:云計(jì)算、云災(zāi)備、網(wǎng)絡(luò)分布式系統(tǒng)。