基于隱語義模型的推薦算法研究

2020-08-28 08:56:32王子嵐曹路舟

吉林化工學院學報 2020年7期

王子嵐，曹路舟

(1.黃山職業(yè)技術(shù)學院工業(yè)與財貿(mào)系，安徽黃山 245000；2.安徽黃梅戲藝術(shù)職業(yè)學院圖文信息中心，安徽安慶 246000)

隨著當前網(wǎng)絡信息量的不斷增加，信息過載現(xiàn)象逐漸涌現(xiàn)，并造成搜索引擎精確度下降等問題，為此隱語義模型逐漸成為推薦搜索系統(tǒng)領(lǐng)域的熱點名詞.傳統(tǒng)的關(guān)鍵詞推送方法在進行數(shù)據(jù)迭代尋優(yōu)的過程中，通常使用梯度下降類算法中的隨機梯度下降法完成任務，且傳統(tǒng)人工信息分類不能滿足用戶的需求，在一定程度上很難控制分類的質(zhì)量，對于不同用戶行為數(shù)據(jù)很難給出多種相對應分類，隱語義模型充分考慮傳統(tǒng)人工信息分類的不足，很大程度上改善問題[1].隱語義模型是指從用戶的行為數(shù)據(jù)角度考慮，自動找到這些分類規(guī)則，然后進行適合用戶的個性化推薦，以此完成用戶行為數(shù)據(jù)算法推薦，相關(guān)方面的研究越來越得到眾多專家和學者的關(guān)注.

楊辰等[2]提出融合語義和社交特征的電子文獻資源推薦方法，在基于用戶的協(xié)同過濾方法的基礎(chǔ)上引用隱語義主題模型，充分考慮用戶的信息數(shù)據(jù)的推薦方式，運用相似性的非監(jiān)督體系進行信息融合，在此基礎(chǔ)上實現(xiàn)對電子文獻資源推薦方法進行優(yōu)化.李艷娟等[3]提出基于蜂群K-means聚類模型的協(xié)同過濾推薦算法，首先設計用戶隱語義聚類模型，以此為依據(jù)計算用戶與目標用戶之間的聚類模型中各聚類中心的連接距離，通過蜂群K-means聚類模型完成協(xié)同過濾推薦算法的計算，最后根據(jù)計算結(jié)果同時通過相識度計算搜索目標用戶的推薦信息.

基于隱語義模型的推薦算法，可實現(xiàn)根據(jù)關(guān)鍵詞來獲得更多有效信息，進一步解決當前用戶信息搜索結(jié)果不精確的問題.基于隱語義模型的推薦算法成為現(xiàn)階段人們從信息海洋中獲取有效信息的關(guān)鍵途徑之一，通過對用戶歷史行為記錄數(shù)據(jù)進行整合分析，獲取其特征數(shù)值，從而有效判斷用戶的偏好，準確推送用戶所需的信息.不考慮隱語義模型推薦過程中常見的數(shù)據(jù)損失現(xiàn)象，結(jié)合傳統(tǒng)的信息特征推薦梯度下降算法進行優(yōu)化，分析兩類梯度下降算法的優(yōu)缺點，并進行結(jié)合和優(yōu)化處理，從而更好地提高基于隱語義模型的推薦算法的準確性.

1 基于隱語義模型的推薦算法

1.1 隱語義模型數(shù)據(jù)特征值采集

為保障信息推薦的準確性，首先對隱語義模型數(shù)據(jù)特征進行采集，獲取用戶的個性化喜好信息，并針對采集到的特征數(shù)據(jù)及搜索關(guān)鍵詞，進行信息分類和推薦.為保障信息推送的準確性，結(jié)合最小梯度下降算法和隱語義模型對數(shù)據(jù)信息特征采集和分類算法進行規(guī)范[4].首先采用小樣本梯度下降法對用戶興趣信息進行隨機抽取，并對收取到的特征信息進行挖掘，則采集到的信息特征相關(guān)性數(shù)值算法可記為

(1)

(2)

式中，Qa和Qb分別表示為相似度預選評分數(shù)值和相似度評分均值.根據(jù)數(shù)據(jù)特征系數(shù)進一步對不同的數(shù)據(jù)相似性結(jié)果進行分類，若ΔV>1則可將數(shù)據(jù)歸類至相似特征集；若ΔV≤1則進一步對數(shù)據(jù)特征進行挖掘分類，計算其特征相似類別[5].針對不同的信息特征相似度數(shù)值進行特征等級劃分，并整合為特征集合，以便對不同等級中的差異性特征數(shù)值進行評價，并選擇最優(yōu)評價尺度進行記錄.結(jié)合模糊控制算法對網(wǎng)絡流量信息特征進行采集，進一步對用戶檢索信息趨向進行挖掘數(shù)，并規(guī)范參考特征數(shù)值，其限制條件可記為Y，則信息特征數(shù)據(jù)挖掘興趣度算法為

I(n)=Sij×ΔV×C(Yi+Yj),

(3)

(4)

式中，h表示每一個特征等類別都會包含一個組列，u表示各個特征子集之間的共性特征屬性，e表示差異性特征數(shù)值，t表示數(shù)據(jù)中的隱語義信息挖掘次數(shù)，n表示數(shù)據(jù)特征類別數(shù)量.基于以上算法有效對用戶非重要性關(guān)鍵詞進行排查和檢測，根據(jù)特征數(shù)值進行特征類別劃分，從而更好地幫助用戶篩選喜愛的興趣信息.基于上述算法對用戶興趣信息進行評價，判斷信息共性特征的評分向量，確定用戶新相似性及相似程度，以便更好地進行隱語義特征數(shù)據(jù)類別的分類篩選和有效推薦.

1.2 隱語義模型信息推薦步驟優(yōu)化

基于上述算法進行信息數(shù)據(jù)的篩選和推薦，為保障數(shù)據(jù)推薦的準確性，對篩選步驟進行優(yōu)化，并在人際交互界面上對特征信息進行顯示，以便提供給用戶進行判斷，并對隱語義模型的行為特征數(shù)據(jù)進行篩選.在信息推薦過程中，對興趣信息相似度是提高推薦精度很重要的一部分.在不同的推薦場景中，選擇的相似度的計算方法也不相同.設An點特征向量取值范圍為(a1,a2,a3,…,an)，Bm點特征向量取值范圍為(b1,b2,b3,…,bn)，則An點與Bm點的共性特征表示公式為

(5)

根據(jù)用戶歷史信息瀏覽和收藏情況進行反饋和檢測，判斷用戶最高檢索情況和數(shù)據(jù)點擊率，同時分析數(shù)據(jù)搜索結(jié)果，進行有效信息的篩選，并提供個性化推薦列表.結(jié)合協(xié)同信息原理進行數(shù)據(jù)特征過濾，對任意指定的興趣信息進出篩選.假設在進行信息篩選的過程中存在與用戶搜索興趣相似的一組特征集，結(jié)合隱語義原理對采集到的特征信息相似度標準進行規(guī)劃和搜索，評價過的興趣信息的評分來預測對篩選信息的評分[7].信息推薦的聯(lián)系方式主要分為用戶與用戶聯(lián)系、與項目聯(lián)系以及與特征聯(lián)系，從而通過推薦系統(tǒng)聯(lián)系到推薦的項目.具體的數(shù)據(jù)推薦管理關(guān)聯(lián)原理如圖1所示.

圖1 數(shù)據(jù)推薦管理關(guān)聯(lián)原理

基于以上原理，結(jié)合網(wǎng)絡信息協(xié)同過濾原理進行用戶興趣信息的特征采集處理，對于任意一個用戶，假設其擁有與之興趣相似的一組數(shù)據(jù)特征類別，則基協(xié)同過濾原理和隱語義模型進行信息相似度對比，為保障特征采集的準去性需要進行特殊分類標準的規(guī)劃，需要對用戶以往的搜索行為進行興趣類別比分析，并對比其他用戶的相似搜索信息進行信息特征類別的篩選，根據(jù)篩選結(jié)果進行分類評價，獲取用戶潛在興趣項目的評分，根據(jù)評分內(nèi)結(jié)構(gòu)推送相似信息[8].對不同信息的相似度計算并劃分相似度等級，從而在推薦系統(tǒng)中得到不同等級的差異結(jié)果數(shù)值，根據(jù)差異數(shù)值對不同用戶需求選擇不同的相似度評價方法進行分類處理，并進行多種排列嘗試，構(gòu)建了基于大數(shù)據(jù)的電子商務框架圖，如圖2所示.

圖2 基于語義模型的信息處理塊

基于以上模塊進行用戶信息的篩選分類，并構(gòu)建隱語義信息庫模型，選取信息的最優(yōu)行為路徑，然后對篩選出的相似信息和并向推薦庫發(fā)送傳輸請求，并按照用戶興趣計算推薦信息，最后對客戶端響應結(jié)果進行顯示[9].進一步利用隱語義模型找到用戶搜索趨向及采集到的相似數(shù)據(jù)進行篩選和推薦，當用戶對該信息給予高度評價時，推薦給用戶與該信息相似度較高的其他信息，保障信息推薦的快速和精準.

1.3 基于隱語義模型信息推薦的實現(xiàn)

1.3.1 信息重要性影響排序

為了更好地實現(xiàn)對用戶信息進行推薦，首先對隱語義模型中的模糊數(shù)據(jù)進行統(tǒng)一評價，并根據(jù)評價結(jié)果對語義模型推薦功能進行改善，在進行隱語義信息的推薦過程中，受到的語義模型多元化重要性因素影響，對推薦信息進行分步評估和加固處理，所推薦的相關(guān)特征信息數(shù)據(jù)的最大有效性特征范圍在Kmax范圍內(nèi)，其計算公式為

(6)

式中，Hj表示隱語義模型篩查出的相似特征內(nèi)容數(shù)據(jù)信息推薦要求，Ni表示特征信息的初始推薦功能偏好.在上述算法中，若i=(1，2，3，…，n)，j=(1，2，3，…，m)，設篩選出的相似信息重要性特征影響度為P，推薦信息的評估體系構(gòu)成要素為n，每個評估體系的重要性影響度數(shù)據(jù)編碼集合為Pij，且Pij={P1，P2，…，Pi}，通過對隱語義模型特征信息推薦的重要性影響進度數(shù)值S進行數(shù)據(jù)編碼和集中分類管理，繼而從篩選的數(shù)據(jù)結(jié)果中劃分出數(shù)據(jù)推送的重要程度等級，最后再對隱義模型數(shù)值特征行為所受重要性影響等級進行計算，得到公式(7)：

(7)

若G為隱語義模型數(shù)據(jù)的總體信息評測有效度，在進行信息推薦的過程中，受到zij個重要性因素干擾，且干擾程度為D，則篩選出的信息重要性影響排序算法為:

(8)

采用上述步驟對隱語義模型信息特征的多元化屬性影響因素進行優(yōu)化，獲取關(guān)聯(lián)性信息的最終特征相似性測評影響數(shù)值，利用計算機網(wǎng)絡用戶的相關(guān)動作數(shù)據(jù)特征，輔助區(qū)別正常推薦數(shù)據(jù)與異常推薦數(shù)據(jù)，并對這些推薦數(shù)據(jù)的特征進行匹配，以此實現(xiàn)對隱語義數(shù)據(jù)數(shù)據(jù)的挖掘和分類[10].再對獲取到的信息特征規(guī)則進行統(tǒng)一歸類和數(shù)據(jù)更新，構(gòu)建出相對較完備與精準的信息儲備庫，以便對信息數(shù)據(jù)進行準確推薦.

1.3.2 用戶興趣數(shù)據(jù)信息推薦

由于在進行數(shù)據(jù)推薦的操作過程中，需要進行大范圍的數(shù)據(jù)搜索，為保障數(shù)據(jù)搜索的有效性需要對采集到的全部信息特征值匯總潛在關(guān)鍵詞進行提取，最大程度上縮小信息搜索的范圍，由于隱語義模型關(guān)鍵詞存在一定的隱藏性，因此在進行信息推薦的過程中存在較大的信息挖掘難度，為此需要結(jié)合模糊聚類隱語義融合模型推薦算法對不同數(shù)據(jù)特征類別集合進行挖掘訓練，并整合出數(shù)據(jù)的相應特征的聚類簇集合，并將采集到的集合信息特征存入隱語義模型中的分布式數(shù)據(jù)庫數(shù)據(jù)處理模塊，設計隱語義模型訓練因子排列等級評估模型，具體模型結(jié)構(gòu)如圖3所示.

圖3 隱語義模型訓練因子排列等級評估模型

為保障信息推薦的合理性，進一步對隱語義模型推薦流程進行優(yōu)化，分別在離線和在線狀態(tài)下對信息推薦流程進行優(yōu)化處理，判斷相似信息及特征集，從而進行信息推薦，具體信息推薦流程如圖4所示.

圖4 基于隱語義模型的信息推薦流程

根據(jù)以上流程對推薦信息進行相似性篩查和排序處理，可更好的提高對用戶興趣數(shù)據(jù)推薦的有效性，同時保障在海量數(shù)據(jù)環(huán)境下對特征數(shù)據(jù)的準確挖掘.

2 實驗結(jié)果分析

為驗證基于隱語義模型的推薦算法，對比傳統(tǒng)推薦算法進行了準確性對比檢測，為保障檢測結(jié)果的準確性，首先對實驗環(huán)境及參數(shù)進行統(tǒng)一設置.

實驗采用的集群由三臺機器組成，其種一臺為Master，作為Name Node節(jié)點來配置，其余兩臺為Slave來配置，處理器CPU為lntel(R) Core(TM)i7-7700 CPU@3.60GHZ，內(nèi)存128G，操作系統(tǒng)為CentOS6.6.實驗數(shù)據(jù)來源為Group Lens Research項目組提供的Movielens數(shù)據(jù)集，在數(shù)據(jù)集內(nèi)排除限定條件較多的樣本集，排除與本文研究擬合程度較低的樣本集，排除特征不明顯的樣本集，剩余樣本集合90個.

將樣本集合分為9組，進行9次測試實驗.為在上述實驗環(huán)境下進行多次對比檢測，將用戶興趣值作為數(shù)據(jù)推薦有效性的評價標準，為方便對實驗結(jié)果進行觀察和記錄，將本文算法檢測結(jié)果記為A，將文獻[2]算法檢測結(jié)果記為B，將文獻[3]算法檢測結(jié)果記為C.具體用戶興趣值對比檢測結(jié)果如圖5所示.

由圖5可知，對比文獻[2]算法、文獻[3]算法以及本文方法大致可分為兩種模式，文獻[2]算法、文獻[3]算法在10～30個樣本集下的用戶感興趣程度最高，而本文與之相反，可滿足不同樣本集的不同需求，且其整體用戶感興趣程度始終高于其他兩種文獻方法，說明本文提出的基于隱語義模型的推薦算法在進行信息推薦的過程中，用戶興趣值相對較高.為進一步驗證本文算法的合理性，對比本文算法和文獻[2]算法和文獻[3]算法的準確性進行驗證，其準確率公式如式(9)所示.

用戶樣本集/個圖5 用戶興趣值對比實驗檢測結(jié)果

(9)

在公式(9)中，G(a)表示a最終選擇對象集合的總量；H(a)表示a最終選擇對象集合的數(shù)值量；F表示對象集合.利用準確率公式計算本文算法和文獻[2]算法和文獻[3]算法的分布等級準確性，其中誤差最大值為20%，區(qū)段誤差最大值為1%，誤差值越低則表示模型越準確，其結(jié)果如表1所示.

表1 三種方法準確性分布等級對比

由表1可知，與文獻[2]算法和文獻[3]算法對比，本文算法的對比誤差僅為5%，遠遠低于允許取值誤差；文獻[2]算法和文獻[3]算法誤差分別處于25%和26%，遠遠高于允許取值誤差20%，且區(qū)段誤差只有本文算法保持在規(guī)定極限以內(nèi)，文獻[2]算法和文獻[3]算法的區(qū)段誤差值超出允許區(qū)段誤差值.由此證實基于隱語義模型的推薦算法具有較高的準確性和實用性，為用戶行為數(shù)據(jù)的推薦奠定了基礎(chǔ)，增加了推薦結(jié)果的完整性和可行性.

3 結(jié) 論

用戶需要花費大量的時間從眾多數(shù)據(jù)獲得自己想要的信息，造成信息過載過重，這時就需要有技術(shù)或工具能夠幫用戶過濾掉不感興趣或者與所想要的信息不相關(guān)的信息，為此提出了基于隱語義模型的推薦算法，通過采集用戶興趣信息特征數(shù)值，對近鄰特征信息進行評估分類，并針對采集到的特征數(shù)據(jù)及搜索關(guān)鍵詞，根據(jù)用戶平均興趣度以及不相似度懲罰系數(shù)設置向量特征信息值，劃分特征等級，以便對興趣信息進行有效劃分.最后通過實驗分析，結(jié)果表明本文提出的基于隱語義模型的推薦算法能夠滿足不同用戶的需求信息的推薦，且提高信息推薦的準確性，在未來的研究中，可就如何縮短基于隱語義模型推薦算法的推薦時間進行深入的研究.