国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于在線評論的商品推薦方法*

2023-08-22 03:47:14丁嘉鳴
計算機時代 2023年8期
關鍵詞:特征詞詞頻排序

丁嘉鳴

(江南大學商學院,江蘇 無錫 214122)

0 引言

隨著互聯網的不斷發(fā)展,消費者的購物方式發(fā)生巨變,越來越多的消費者傾向于在第三方購物平臺上商品購買,這些購物平臺支持消費者發(fā)表在線評論,即商品使用一段時間后對該商品或服務的綜合感受[1]。商品的在線評論往往是用戶真實的使用體驗,讓其他消費者能直觀地了解商品或服務的優(yōu)缺點。在線評論很大程度上會影響消費者的購買決定[2],其對于商家優(yōu)化資源配置也至關重要[3]。

如今對于大量的和非結構化的在線評論信息的處理,得益于機器學習、深度學習等技術的發(fā)展,如在線評論挖掘算法[4],在線評論特征提取算法[5],在線評論的推薦算法[6]相繼提出,用于對在線評論信息進行挖掘分析。這些算法為基于在線評論的商品排序方法研究提供了支撐。

目前大多數基于在線評論商品排序的研究均是在商品的屬性確定或者提前給出的情況下展開的[7]。此外,在線評論商品排序方法本質也屬于多屬性決策,目前較少研究將在線評論挖掘算法與多屬性決策方法結合。因此,本文使用TF-IDF 特征提取算法,確定商品特征屬性,在此基礎上借助情感分析[8]方法對評論進行量化,使用離差最大化方法確定商品屬性權重,最后提出一種改進的MULTIMOORA 的商品推薦方法,為消費者提供決策支持。

1 數據預處理及商品特征提取

為了解決以上問題,首先要對評論信息進行預處理以及獲取消費者關注的備選商品特征。首先,通過爬蟲軟件和Python 工具對消費者關注的備選商品的在線評論信息進行獲取和預處理。然后,通過TF-IDF算法提取商品特征,并通過計算相似度建立特征詞集合。

1.1 在線評論數據獲取和數據處理

獲取消費者關注的備選商品在線評論信息是進行數據挖掘的基礎性工作。針對消費者關注的備選商品,可以借助爬蟲軟件對商品評論進行獲取,之后再對評論進行預處理,包括噪聲處理、分詞及詞性標注、停用詞刪除和干擾特征詞處理。

1.2 商品特征的挖掘

特征提取算法一般分為兩類,第一類是無監(jiān)督的特征詞提取方法,第二類是有監(jiān)督的特征詞提取方法。考慮到無監(jiān)督的特征詞提取方法速度快、效果較好。因此本文采用無監(jiān)督的TF-IDF 方法進行特征詞提取,再通過計算特征詞與商品標準特征詞之間的相似度對特征詞進行歸類。

⑴TF-IDF

詞頻(TF)

詞頻是指某個詞語在評論中出現的次數。詞頻數越高,這個詞被提及的次數就越多。

其中,A是為特征詞,NA為該特征詞出現的次數,V為所有特征詞出現的總次數。

逆文本頻率(IDF)

逆文檔頻率(IDF):衡量詞或詞組所在的文檔在整個語料庫中的頻率。

其中,N*表示所有評論的數量表示包含特征詞A的評論數

詞頻-逆文檔頻率(TF-IDF)

TF-IDF 是結合詞頻和逆文檔詞頻度量候選特征詞的指標,如果某個詞或短語在一篇文章中出現的頻率TF 高,并且在其他的文章中很少出現,則認為該詞或短語具有較好的類別區(qū)分能力,適合用來分類。詞頻-逆文檔頻率的計算公式如下:

⑵特征詞篩選

在特征詞提取環(huán)節(jié),計算詞或短語的詞頻-逆文檔頻率并按照從大到小的順序進行排序,可以得到與商品屬性相關的特征詞。由于提取到的特征詞語義粒度差異大,特征詞維度高,因此必須對特征詞進行篩選。本文通過計算特征詞與商品標準特征詞之間的相似度對特征詞篩選,并建立商品特征詞集合,計算公式如下:

其中,Dis(WA,Wnorm)表示商品特征WA和商品標準特征詞Wnorm之間的距離,α一般取1.6。如果sim(WA,Wnorm)≥0.5,則認為特征WA和商品標準特征Wnorm是一類。之后,可以得到特征詞類集合,每個特征詞類代表商品的一個屬性。

2 基于在線評論的商品推薦方法

2.1 情感分析

考慮到不同特征詞對應的情感詞不同,為提高特征情感分析的準確性,本文借助情感詞典進行評論情感分詞。首先,將副詞-形容詞合并為一個詞語并借鑒知網的情感詞典,建立關于各類特征的積極、中立、消極情感詞典分別用表示,否定詞集合用Dneg表示。接著計算每條評論關于各類特征的情感值。

統(tǒng)計所有評論中積極和消極情感比率的均值,確定備選商品各類特征下的評價值aij:

進一步,可得到商品評價矩陣R=(aij)m×n,i=1,2,…,m,j=1,2,…,n

2.2 商品推薦方法

在對評論進行情感分析之后,通過公式⑸~⑻可以得到備選商品關于各屬性的評價值。之后,使用離差最大化法計算商品屬性權重,最后使用本文提出的改進的MULTIMOORA方法對備選商品進行排序。

⑴計算備選商品屬性權重

在獲得商品的評價矩陣R之后,對其進行無量綱規(guī)范化處理,可得到規(guī)范化的決策矩陣K。其中K=(bij)m×n,i=1,2,…,m,j=1,2,…,n。假設備選商品的屬性權重向量為ω={ω1…ωj…ωn}且滿足約束條件=1。基于離差最大化思想,對于某一商品屬性,如果所有備選商品評價值都差不多,則認為商品屬性j對于所以的備選商品無差異,該商品屬性對于商品排序不起作用;反之,對于對于某一商品屬性,如果所有備選商品評價值差異很大,則認為商品屬性j對于所以的備選商品有顯著影響,應該賦予較大權重。因此,構建如下的離差最大化模型:

構建拉格朗日函數,對此模型求最優(yōu)解,可以得到最優(yōu)解

再對其進行歸一化處理可得ωj:

⑵改進MULTIMOORA方法對備選商品進行排序

MULTIMOORA 是一種由三種不同的方法組成的產品排序方法,包括比率系統(tǒng)法、參考點法以及完全乘法法,本文將商品特征權重納入考慮,提出一種改進的MULTIMOORA 備選商品推薦方法。該方法由以下四個步驟組成。

Step 1比率系統(tǒng)法計算備選商品的評價值。

其中,s代表效益型屬性的數量,n?s代表成本型屬性的數量。

Step 2參考點法計算。

Step 3完全相乘法計算。

Step 4基于占優(yōu)理論對備選商品進行排序[9]。

3 實驗分析

下面以消費者購買筆記本電腦為例驗證本文提出的方法。假設一消費者想購買一臺筆記本電腦,并且在京東購物網站上挑選商品,其關注了聯想、小米、戴爾、榮耀品牌下的四款筆記本電腦,并分別用A1,A2,A3,A4 表示。這四款筆記本電腦總體評分相近,每款電腦下都有超過一萬條的商品評論,消費者很難做出選擇。因此,需要分析各款筆記本線評論信息,為消費者提供備選商品推薦排序,幫助消費者做出購買決策。

首先,對備選筆記本電腦在線評論信息進行數據預處理及特征提取,得到消費者關注的筆記本屬性,部分結果如表1所示。

表1 部分商品特征

之后,借助本文提出的情感分析方法對在線評論進行情感分析,借助公式⑸~⑻得到商品評價矩陣。然后,借助公式⑼~⑾計算得到備選商品各屬性權重。計算得到,外觀,性能,屏幕,服務的屬性權重分別0.24,0.32,0.21,0.23。最后,使用本文提出的改進的MULTIMOORA 方法,對備選商品排序,最終得計算結果如表2所示。

表2 改進MULTIMOORA排序結果

此外,為驗證本文提出方法的可行性,將本文提出的方法與其他文獻中的方法進行比較,實驗結果如表3所示。

表3 方法對比排序結果

從最終的排序結果來看,本文提出的方法與使用其他方法得出的結果大致相同,基本都認為A4最值得推薦,A2 最不值得推薦。實驗結果表明,本文提出的方法有效。

4 結束語

本文提出一種基于在線評論的商品推薦方法。首先對評論數據進行預處理,使用TF-IDF 算法提取消費者關注的商品特征,再使用情感分析方法確實商品屬性評價值,并使用離差最大化方法確定商品屬性權重,最后提出一種改進的MULTIMOORA 的商品推薦方法,為消費者提供決策支持。

為了給消費者提供更好的購物體驗,高效合理的商品推薦方法必不可少。未來還需要考慮虛假評論信息識別,進一步提高商品推薦的效果。

猜你喜歡
特征詞詞頻排序
排序不等式
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
恐怖排序
節(jié)日排序
基于改進TFIDF算法的郵件分類技術
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
產品評論文本中特征詞提取及其關聯模型構建與應用
詞頻,一部隱秘的歷史
面向文本分類的特征詞選取方法研究與改進
云存儲中支持詞頻和用戶喜好的密文模糊檢索
普陀区| 镇巴县| 邯郸县| 香河县| 轮台县| 祥云县| 交城县| 内江市| 津南区| 沂南县| 双柏县| 潼关县| 新竹县| 邢台县| 克什克腾旗| 增城市| 治县。| 平昌县| 钟山县| 株洲市| 珠海市| 邵东县| 晋城| 奎屯市| 凌云县| 奉化市| 陇西县| 盈江县| 海盐县| 伊宁县| 蒙城县| 天柱县| 永年县| 永顺县| 安康市| 珲春市| 青川县| 天门市| 平原县| 新邵县| 高淳县|