基于語義距離的遷移學(xué)習(xí)算法在消費意圖識別上的運用

2021-04-22 17:09彭達馮超

電腦知識與技術(shù) 2021年8期

彭達馮超

摘要：使用微博等短文本信息，識別判斷用戶的消費意圖，對于電商以及數(shù)據(jù)分析者而言具有積極的意義。因此，借鑒Co-Class算法框架，借鑒微博特有特征信息，提出文本特征選擇方法，設(shè)計語義距離計算方法，基于期望最大化算法（EM），使用SVM設(shè)計分類器，最終提出一種基于語義距離的遷移學(xué)習(xí)算法。通過實驗，驗證了算法的有效性，給出結(jié)論。

關(guān)鍵詞：短文本;語義距離;遷移學(xué)習(xí)算法;消費意圖

中圖分類號：TP391.1? ? ? 文獻標識碼：A

文章編號：1009-3044（2021）08-0210-02

隨著微博、微信朋友圈，甚至運動軟件等社交網(wǎng)絡(luò)用戶群的迅速增長，通過海量微博文本等短文本中識別某一用戶是否具有消費意圖，對于電子銷售平臺、信息分析公司或者大眾消費者而言都有明顯積極的意義[1]。由于微博等社交平臺的短文本限制，使用詞袋模型表示會產(chǎn)生特征矩陣稀疏導(dǎo)致識別效率低下等問題。所以，研究跨領(lǐng)域中文短文本消費意圖探測識別，設(shè)計基于語義距離的半監(jiān)督統(tǒng)計方法，對數(shù)據(jù)建模，具有重要的意義。

本文提出的基于語義距離的遷移學(xué)習(xí)算法主要工作可以分為以下幾個步驟：文本預(yù)處理、特征的提取以及選擇、語義距離計算、分類器的訓(xùn)練。其中文本預(yù)處理主要是切詞、分詞、轉(zhuǎn)化標點符號以及去除明顯錯誤，從而消除語料對于算法性能的影響，為算法的仿真實驗做好鋪墊工作。特征的提取以及選擇是本文的一項主要工作，傳統(tǒng)的遷移學(xué)習(xí)算法會丟失掉微博中標簽等特征信息，降低了識別成功率，本文提出將微博中其他標簽信息融入識別算法中，從而提升了算法的識別率。語義距離的計算主要是為了訓(xùn)練分類器，最終分類結(jié)果為積極的消費意圖（P）、消極的消費意圖（N）、無消費意圖（E）。本文借用標準化谷歌語義距離，提出標準化百度語義距離，提升了算法的識別率。最后，本文改進了Co-Class算法，設(shè)計了一種基于語義距離的遷移學(xué)習(xí)算法（EM Method based on Semantic Distance， S-EM）（記為S-EM算法，下同），給出了算法框架，設(shè)計仿真實驗，實驗結(jié)果驗證了算法的有效性。

1 基于語義距離的遷移學(xué)習(xí)框架

本章節(jié)提出一種基于語義距離的遷移學(xué)習(xí)框架，用以研究跨領(lǐng)域中文短文本消費意圖探測識別。本章節(jié)從基于信息增益算法的文本特征選擇、基于微博特有特征的文本特征選擇、基于EM算法的遷移學(xué)習(xí)、文本語義距離的計算方法四個方面展開，最終給出基于語義距離的遷移學(xué)習(xí)框架算法，用以研究跨領(lǐng)域中文短文本消費意圖的探測識別。

1.1 基于信息增益算法的文本特征選擇

通過比較不同特征的信息增益，可以有效地選擇更為重要的語料特征，從而為后續(xù)的遷移學(xué)習(xí)算法提供基礎(chǔ)支撐。

1.2 基于微博特有特征的文本特征選擇

考慮到現(xiàn)在中文微博平臺的自身特有特征，對于文本選擇具有重要的意義?？梢钥紤]的特有特征有：

FEATURE1：對于微博而言，“@”通常表示喊話某人，對于消費意圖的識別沒有幫助;而“#”通常包含某條標簽，有無標簽對于消費意圖的識別也沒有特別大的影響，將“#”和“@”包含的標簽刪除是一個比較有效的特征選擇方法。

FEATURE2：微博用戶通常會帶有“學(xué)生”“IT”“北京”等標簽，這些用戶自身的標簽，對于文本的分類以及用戶活躍性的判斷有重要的作用，所以可以將這些用戶標簽用于特有特征的甄別。

FEATURE3：由于微博用戶發(fā)表消息時并不會認真檢查文本內(nèi)容，對于海量文本信息，輸入法導(dǎo)致的錯別字幾乎不可避免，通過對人名、地名以及動詞“買”“賣”等關(guān)鍵詞轉(zhuǎn)化為拼音可以一定程度上減少錯別字帶來的影響。

1.3 基于EM算法的遷移學(xué)習(xí)

Nigram等人將最大期望算法（Expectation Maximization， EM）與樸素貝葉斯算法（Naive Bayes， NB）結(jié)合作為遷移學(xué)習(xí)的算法[2]，可以有效地提升分類器模型的有效率。本文采用的遷移學(xué)習(xí)框架基于EM算法，這里簡要介紹一下EM算法的基本原理：

STEP1：初始化參數(shù)[θ]，開始迭代過程;

STEP2：對迭代過程求期望，記[θi]是第[i]次迭代后參數(shù)[θ]的值，在下一次迭代，即[i+1]次迭代，計算參數(shù)的期望：

其中，[DL]為標注數(shù)據(jù)，[DU]為隱含數(shù)據(jù)，聯(lián)合分布為[PDL，DU|θ]，條件分布為[PDU|DL，θ]，而[PDU|DL，θi]是在給定標注數(shù)據(jù)[DL]和當(dāng)前迭代次的參數(shù)[θi]下的數(shù)據(jù)[DU]的條件概率分布。

STEP3：最大化期望，求[Qθ，θi]最大化的參數(shù)[θ]，并求得第[i+1]次迭代過程后參數(shù)[θ]的估計值[θi+1]：

STEP4：重復(fù)步驟2和步驟3直至算法收斂。

1.4 文本語義距離的計算方法

Cilibrasi等人提出，將消費意圖整個網(wǎng)絡(luò)當(dāng)作一個詞庫性質(zhì)的數(shù)據(jù)庫，利用搜索引擎，例如Google或者Baidu，用以衡量網(wǎng)絡(luò)中任意兩個詞匯的相似程度[3]。提出了一種新的距離模式，叫作標準化谷歌距離（Normalized Google Distance， NGD），計算任意兩個詞匯[w1]和[w2]的谷歌距離：

對于中文文本而言，使用Baidu搜索引擎計算文本語義距離更為適合本土化語言的特點。本文定義了標準化百度距離（Normalized Baidu Distance， NBD），用于計算中文詞匯的文本距離。

2 實驗

本章節(jié)主要根據(jù)提出的基于語義距離的遷移學(xué)習(xí)框架，對比其他學(xué)習(xí)算法，通過實驗仿真，證明基于語義距離的遷移學(xué)習(xí)框架可以有效提升消費意向探測以及識別的準確率。這里需要說明的是，仿真實驗的初始數(shù)據(jù)經(jīng)過了基礎(chǔ)的數(shù)據(jù)處理過程，以消除語料錯誤對于算法識別率的影響。

2.1 算法特征有效性實驗

準確率和召回率是目前應(yīng)用于信息檢索領(lǐng)域和統(tǒng)計學(xué)分類領(lǐng)域的兩個主要度量值，反映了檢索系統(tǒng)實驗結(jié)果的質(zhì)量。實驗采用的微博文本特征設(shè)置如下表1所示。

2.2 算法特征有效性實驗

使用本文提出的基于語義距離的遷移學(xué)習(xí)算法S-EM進行仿真實驗，選擇最優(yōu)的特征。實驗結(jié)果如下所示。

根據(jù)上表所示，比較不同維度后的實驗數(shù)據(jù)，主要對比F值，可以得到以下兩條結(jié)論：

結(jié)論1：三詞（trigram）特征整體比雙詞（bigram）性能要好;

結(jié)論2：3000維的搭配性能要強于1000維和5000維的搭配。

2.2 拼音特征搭配實驗

使用單詞模型（unigram）將本文分詞轉(zhuǎn)化為拼音，設(shè)置1000維、1500維以及2000維三種類型，對比F值，實驗結(jié)果如下表4所示。

根據(jù)上表所示，比較不同維度后的實驗數(shù)據(jù)，主要對比F值，可以得到以下一條結(jié)論：

結(jié)論3：3000維trigram與1500維拼音特征搭配性能要好。

3 結(jié)束語

本文提出了一種基于語義距離的遷移學(xué)習(xí)算法，通過不同條件下的仿真實驗，可以認為三詞（trigram）特征整體比雙詞（bigram）性能要好;3000維的搭配性能要強于1000維和5000維的搭配;3000維trigram與1500維拼音特征搭配性能要好。通過設(shè)置相同的仿真條件和語料，可以證明本文提出的S-EM算法的性能略微優(yōu)于Co-Class算法。適用于微博等短文本媒體平臺，對于博客等長文本消費意圖的識別將成為下步研究的重點。

參考文獻：

[1] 賈云龍，韓東紅，林海原等.面向微博用戶的消費意圖識別算法[J].北京大學(xué)學(xué)報：自然科學(xué)版， 2020（1）：68-74.

[2] 盧晨陽，康雁，楊成榮等.基于語義結(jié)構(gòu)的遷移學(xué)習(xí)文本特征對齊算法[J].計算機工程，2019， 45（05）：116-121.

[3] 魯強，劉興昱.基于遷移學(xué)習(xí)的知識圖譜問答語義匹配模型[J].計算機應(yīng)用，2018， 38（07）：1846-1852.

【通聯(lián)編輯：張薇】

電腦知識與技術(shù)2021年8期

電腦知識與技術(shù)的其它文章: 基于人體感應(yīng)的智能紫外線消毒控制系統(tǒng)設(shè)計; 基于個性化推薦系統(tǒng)的視頻App的設(shè)計; 基于博弈論-VIKOR法的科研項目立項評審研究; 基于eNSP的DHCP仿真實驗設(shè)計與分析; 基于任務(wù)相似度的增量學(xué)習(xí)優(yōu)化方法; 高職院?！稊?shù)據(jù)庫基礎(chǔ)》實驗教學(xué)綜述

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語義距離的遷移學(xué)習(xí)算法在消費意圖識別上的運用