彭達 馮超
摘要:使用微博等短文本信息,識別判斷用戶的消費意圖,對于電商以及數(shù)據(jù)分析者而言具有積極的意義。因此,借鑒Co-Class算法框架,借鑒微博特有特征信息,提出文本特征選擇方法,設(shè)計語義距離計算方法,基于期望最大化算法(EM),使用SVM設(shè)計分類器,最終提出一種基于語義距離的遷移學(xué)習(xí)算法。通過實驗,驗證了算法的有效性,給出結(jié)論。
關(guān)鍵詞:短文本;語義距離;遷移學(xué)習(xí)算法;消費意圖
中圖分類號:TP391.1? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)08-0210-02
隨著微博、微信朋友圈,甚至運動軟件等社交網(wǎng)絡(luò)用戶群的迅速增長,通過海量微博文本等短文本中識別某一用戶是否具有消費意圖,對于電子銷售平臺、信息分析公司或者大眾消費者而言都有明顯積極的意義[1]。由于微博等社交平臺的短文本限制,使用詞袋模型表示會產(chǎn)生特征矩陣稀疏導(dǎo)致識別效率低下等問題。所以,研究跨領(lǐng)域中文短文本消費意圖探測識別,設(shè)計基于語義距離的半監(jiān)督統(tǒng)計方法,對數(shù)據(jù)建模,具有重要的意義。
本文提出的基于語義距離的遷移學(xué)習(xí)算法主要工作可以分為以下幾個步驟:文本預(yù)處理、特征的提取以及選擇、語義距離計算、分類器的訓(xùn)練。其中文本預(yù)處理主要是切詞、分詞、轉(zhuǎn)化標點符號以及去除明顯錯誤,從而消除語料對于算法性能的影響,為算法的仿真實驗做好鋪墊工作。特征的提取以及選擇是本文的一項主要工作,傳統(tǒng)的遷移學(xué)習(xí)算法會丟失掉微博中標簽等特征信息,降低了識別成功率,本文提出將微博中其他標簽信息融入識別算法中,從而提升了算法的識別率。語義距離的計算主要是為了訓(xùn)練分類器,最終分類結(jié)果為積極的消費意圖(P)、消極的消費意圖(N)、無消費意圖(E)。本文借用標準化谷歌語義距離,提出標準化百度語義距離,提升了算法的識別率。最后,本文改進了Co-Class算法,設(shè)計了一種基于語義距離的遷移學(xué)習(xí)算法(EM Method based on Semantic Distance, S-EM)(記為S-EM算法,下同),給出了算法框架,設(shè)計仿真實驗,實驗結(jié)果驗證了算法的有效性。
1 基于語義距離的遷移學(xué)習(xí)框架
本章節(jié)提出一種基于語義距離的遷移學(xué)習(xí)框架,用以研究跨領(lǐng)域中文短文本消費意圖探測識別。本章節(jié)從基于信息增益算法的文本特征選擇、基于微博特有特征的文本特征選擇、基于EM算法的遷移學(xué)習(xí)、文本語義距離的計算方法四個方面展開,最終給出基于語義距離的遷移學(xué)習(xí)框架算法,用以研究跨領(lǐng)域中文短文本消費意圖的探測識別。
1.1 基于信息增益算法的文本特征選擇
通過比較不同特征的信息增益,可以有效地選擇更為重要的語料特征,從而為后續(xù)的遷移學(xué)習(xí)算法提供基礎(chǔ)支撐。
1.2 基于微博特有特征的文本特征選擇
考慮到現(xiàn)在中文微博平臺的自身特有特征,對于文本選擇具有重要的意義??梢钥紤]的特有特征有:
FEATURE1:對于微博而言,“@”通常表示喊話某人,對于消費意圖的識別沒有幫助;而“#”通常包含某條標簽,有無標簽對于消費意圖的識別也沒有特別大的影響,將“#”和“@”包含的標簽刪除是一個比較有效的特征選擇方法。
FEATURE2:微博用戶通常會帶有“學(xué)生”“IT”“北京”等標簽,這些用戶自身的標簽,對于文本的分類以及用戶活躍性的判斷有重要的作用,所以可以將這些用戶標簽用于特有特征的甄別。
FEATURE3:由于微博用戶發(fā)表消息時并不會認真檢查文本內(nèi)容,對于海量文本信息,輸入法導(dǎo)致的錯別字幾乎不可避免,通過對人名、地名以及動詞“買”“賣”等關(guān)鍵詞轉(zhuǎn)化為拼音可以一定程度上減少錯別字帶來的影響。
1.3 基于EM算法的遷移學(xué)習(xí)
Nigram等人將最大期望算法(Expectation Maximization, EM)與樸素貝葉斯算法(Naive Bayes, NB)結(jié)合作為遷移學(xué)習(xí)的算法[2],可以有效地提升分類器模型的有效率。本文采用的遷移學(xué)習(xí)框架基于EM算法,這里簡要介紹一下EM算法的基本原理:
STEP1:初始化參數(shù)[θ],開始迭代過程;
STEP2:對迭代過程求期望,記[θi]是第[i]次迭代后參數(shù)[θ]的值,在下一次迭代,即[i+1]次迭代,計算參數(shù)的期望:
其中,[DL]為標注數(shù)據(jù),[DU]為隱含數(shù)據(jù),聯(lián)合分布為[PDL,DU|θ],條件分布為[PDU|DL,θ],而[PDU|DL,θi]是在給定標注數(shù)據(jù)[DL]和當(dāng)前迭代次的參數(shù)[θi]下的數(shù)據(jù)[DU]的條件概率分布。
STEP3:最大化期望,求[Qθ,θi]最大化的參數(shù)[θ],并求得第[i+1]次迭代過程后參數(shù)[θ]的估計值[θi+1]:
STEP4:重復(fù)步驟2和步驟3直至算法收斂。
1.4 文本語義距離的計算方法
Cilibrasi等人提出,將消費意圖整個網(wǎng)絡(luò)當(dāng)作一個詞庫性質(zhì)的數(shù)據(jù)庫,利用搜索引擎,例如Google或者Baidu,用以衡量網(wǎng)絡(luò)中任意兩個詞匯的相似程度[3]。提出了一種新的距離模式,叫作標準化谷歌距離(Normalized Google Distance, NGD),計算任意兩個詞匯[w1]和[w2]的谷歌距離:
對于中文文本而言,使用Baidu搜索引擎計算文本語義距離更為適合本土化語言的特點。本文定義了標準化百度距離(Normalized Baidu Distance, NBD),用于計算中文詞匯的文本距離。
2 實驗
本章節(jié)主要根據(jù)提出的基于語義距離的遷移學(xué)習(xí)框架,對比其他學(xué)習(xí)算法,通過實驗仿真,證明基于語義距離的遷移學(xué)習(xí)框架可以有效提升消費意向探測以及識別的準確率。這里需要說明的是,仿真實驗的初始數(shù)據(jù)經(jīng)過了基礎(chǔ)的數(shù)據(jù)處理過程,以消除語料錯誤對于算法識別率的影響。
2.1 算法特征有效性實驗
準確率和召回率是目前應(yīng)用于信息檢索領(lǐng)域和統(tǒng)計學(xué)分類領(lǐng)域的兩個主要度量值,反映了檢索系統(tǒng)實驗結(jié)果的質(zhì)量。實驗采用的微博文本特征設(shè)置如下表1所示。
2.2 算法特征有效性實驗
使用本文提出的基于語義距離的遷移學(xué)習(xí)算法S-EM進行仿真實驗,選擇最優(yōu)的特征。實驗結(jié)果如下所示。
根據(jù)上表所示,比較不同維度后的實驗數(shù)據(jù),主要對比F值,可以得到以下兩條結(jié)論:
結(jié)論1:三詞(trigram)特征整體比雙詞(bigram)性能要好;
結(jié)論2:3000維的搭配性能要強于1000維和5000維的搭配。
2.2 拼音特征搭配實驗
使用單詞模型(unigram)將本文分詞轉(zhuǎn)化為拼音,設(shè)置1000維、1500維以及2000維三種類型,對比F值,實驗結(jié)果如下表4所示。
根據(jù)上表所示,比較不同維度后的實驗數(shù)據(jù),主要對比F值,可以得到以下一條結(jié)論:
結(jié)論3:3000維trigram與1500維拼音特征搭配性能要好。
3 結(jié)束語
本文提出了一種基于語義距離的遷移學(xué)習(xí)算法,通過不同條件下的仿真實驗,可以認為三詞(trigram)特征整體比雙詞(bigram)性能要好;3000維的搭配性能要強于1000維和5000維的搭配;3000維trigram與1500維拼音特征搭配性能要好。通過設(shè)置相同的仿真條件和語料,可以證明本文提出的S-EM算法的性能略微優(yōu)于Co-Class算法。適用于微博等短文本媒體平臺,對于博客等長文本消費意圖的識別將成為下步研究的重點。
參考文獻:
[1] 賈云龍,韓東紅,林海原等.面向微博用戶的消費意圖識別算法[J].北京大學(xué)學(xué)報:自然科學(xué)版, 2020(1):68-74.
[2] 盧晨陽,康雁,楊成榮等.基于語義結(jié)構(gòu)的遷移學(xué)習(xí)文本特征對齊算法[J].計算機工程,2019, 45(05):116-121.
[3] 魯強,劉興昱.基于遷移學(xué)習(xí)的知識圖譜問答語義匹配模型[J].計算機應(yīng)用,2018, 38(07):1846-1852.
【通聯(lián)編輯:張薇】