王 穎,王 盼
(西安交通工程學(xué)院人文與管理學(xué)院,陜西 西安 710300)
網(wǎng)絡(luò)技術(shù)縱深發(fā)展對(duì)人類社會(huì)的進(jìn)步發(fā)揮著巨大作用,電子商務(wù)是當(dāng)前網(wǎng)絡(luò)應(yīng)用技術(shù)對(duì)人類社會(huì)行為模式改變與促進(jìn)最顯著的特征之一[1]。電子商務(wù)最顯著的優(yōu)勢(shì)體現(xiàn)在開(kāi)放性與全球性上[2],消費(fèi)者利用電子商務(wù)平臺(tái)均可通過(guò)最小化的成本獲取最大化的滿足度。消費(fèi)者在購(gòu)買所需商品過(guò)程中往往會(huì)參考其他消費(fèi)者對(duì)該商品的評(píng)論作出消費(fèi)決策[3],但當(dāng)前電子商務(wù)平臺(tái)中存在部分虛假評(píng)論者為獲取相關(guān)利益給予商品虛假評(píng)論誤導(dǎo)消費(fèi)者的現(xiàn)象[4]。部分商家與虛假評(píng)論者達(dá)成金錢(qián)交易,使其對(duì)自己的商品給予夸張的積極評(píng)論提升自己商品的好評(píng)度,或?qū)ν愋蜕唐方o予消極評(píng)論降低其信譽(yù)度。虛假評(píng)論者的這些行為不利于電子商務(wù)平臺(tái)商品競(jìng)爭(zhēng)的公平性,同時(shí)也給消費(fèi)者帶來(lái)經(jīng)濟(jì)上的損失,長(zhǎng)此以往嚴(yán)重影響電子商務(wù)平臺(tái)的發(fā)展[5]。
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人工智能技術(shù)成為當(dāng)前科技領(lǐng)域中的寵兒,其綜合計(jì)算機(jī)、數(shù)理邏輯、控制理論等多領(lǐng)域知識(shí),基于機(jī)器語(yǔ)言與深度學(xué)習(xí)通過(guò)模擬、拓展人類智能思維理論完成機(jī)器認(rèn)知與數(shù)據(jù)分析的功能[6]。人工智能技術(shù)在各領(lǐng)域中的普遍應(yīng)用標(biāo)志著人類由此邁進(jìn)新的信息時(shí)代。統(tǒng)計(jì)學(xué)習(xí)理論中的支持向量機(jī)SVM能避開(kāi)依據(jù)人數(shù)定理且樣本無(wú)窮大的傳統(tǒng)統(tǒng)計(jì)學(xué)推斷,并能較好地解決小樣本、非線性、過(guò)學(xué)習(xí)、維數(shù)災(zāi)難和局部極小等問(wèn)題,具有很強(qiáng)的泛化能力。人工智能技術(shù)中的D-S證據(jù)理論屬于不確定推理算法[7],與貝葉斯概率論相比,其滿足條件更低,能夠直接處理不確定信息。將二者結(jié)合后應(yīng)用于電子商務(wù)虛假評(píng)論者檢測(cè)中,提出基于人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)方法,使待識(shí)目標(biāo)的不確定性下降,能有效地提高目標(biāo)的識(shí)別能力,完成更準(zhǔn)確的虛假評(píng)論者檢測(cè)。
研究采用分布式評(píng)論信息采集系統(tǒng)采集電子商務(wù)評(píng)論信息,如圖1所示。圖1中抓取機(jī)在試件觸發(fā)器控制下從網(wǎng)絡(luò)中采集電子商務(wù)平臺(tái)在線商品信息,預(yù)處理模塊針對(duì)采集到的商品信息進(jìn)行統(tǒng)一資源定位器(URL,uniform resoure locator)鏈接,初始化商品采集周期、當(dāng)前評(píng)論量以及最近一次評(píng)論時(shí)間等參數(shù),調(diào)度模塊管理商品URL,基于采集周期調(diào)整模塊的采集周期設(shè)定將商品URL放置在待采集隊(duì)列內(nèi)。根據(jù)商品URL排序利用分布式增量抓取模塊和Hbase模塊分別對(duì)電子商務(wù)平臺(tái)商品評(píng)論信息進(jìn)行增量式采集與增量式存儲(chǔ)[8]。通過(guò)該系統(tǒng)可以對(duì)電子商務(wù)評(píng)論信息實(shí)時(shí)垂直搜索,實(shí)時(shí)跟蹤新的評(píng)論信息,根據(jù)評(píng)論信息確定評(píng)論者。
圖1 分布式評(píng)論信息采集系統(tǒng)Fig.1 Collection system of distributed comment information
基于上述電子商務(wù)評(píng)論信息采集結(jié)果,分析評(píng)論者r評(píng)論內(nèi)容情感特征、商品關(guān)注特征[9],以此為依據(jù)進(jìn)行電子商務(wù)虛假評(píng)論者檢測(cè)。
(1) 評(píng)論內(nèi)容情感特征 評(píng)論者評(píng)價(jià)內(nèi)容情感特征可通過(guò)屬性詞包含率、第一人稱代詞使用率、情感詞使用率、平均評(píng)分差異度、與初始評(píng)論的時(shí)間間隔、初次評(píng)論與末次評(píng)論時(shí)間間隔進(jìn)行描述[10]。
① 屬性詞包含率。虛假評(píng)論者對(duì)商品的評(píng)價(jià)是虛構(gòu)的,因此評(píng)論內(nèi)容中商品具體屬性描述較少。由此定義評(píng)論內(nèi)容全部詞匯q(rp)中商品屬性詞s(rp)包含率越低,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
② 第一人稱代詞使用率。第一人稱代詞可在評(píng)論內(nèi)容中突出評(píng)論者,提升評(píng)論的真實(shí)性。由此定義評(píng)論內(nèi)容全部詞匯q(rp)中第一人稱代詞d(rp)使用率越高,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
③ 情感詞使用率。消費(fèi)者評(píng)論內(nèi)容中情感表達(dá)線性度體現(xiàn)其商品使用感受,虛假評(píng)論者通常未實(shí)際使用商品。由此定義評(píng)論內(nèi)容全部詞匯q(rp)中,情感詞w(rp)使用率越低,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
⑤ 初始評(píng)論間隔。虛假評(píng)論者往往會(huì)在早期對(duì)商品進(jìn)行評(píng)價(jià)以此來(lái)誤導(dǎo)消費(fèi)者。由此定義評(píng)論者評(píng)論時(shí)間t(rt)距離商品初始評(píng)論時(shí)間f(rt)間隔越短,該用戶為虛假評(píng)論者的概率越高,公式描述為
其中:ε=180,表示設(shè)定的時(shí)間間隔閾值。
⑥初次評(píng)論與末次評(píng)論時(shí)間間隔。虛假評(píng)論者通常流連于不同電子商務(wù)平臺(tái)之間,在同一電子商務(wù)平臺(tái)中發(fā)表評(píng)論的頻率較低。由此定義評(píng)論者初次評(píng)論時(shí)間tc(rt)與末次評(píng)論時(shí)間tm(rt)間隔越長(zhǎng),該用戶為虛假評(píng)論者的概率越高,公式描述為
其中:δ=90,表示設(shè)定的時(shí)間間隔閾值。
(2) 商品關(guān)注特征 評(píng)論者在電子商務(wù)商品評(píng)論內(nèi)包含的商品類別、商家及品牌數(shù)量能夠描述其對(duì)于電子商務(wù)產(chǎn)品的特殊關(guān)注特征,同時(shí)也能夠描述虛假評(píng)論者的職責(zé)范圍。評(píng)論者對(duì)商品的關(guān)注特征可通過(guò)商品類別包含率、品牌數(shù)量包含率與商家數(shù)量包含率描述[11]。
① 商品類別包含率。虛假評(píng)論者與真實(shí)評(píng)論者相比較,其評(píng)論中的商品類別局限于小范圍內(nèi)。由此定義商品評(píng)論者的全部評(píng)論中包含商品類別的評(píng)論數(shù)量c(rp),商品的全部評(píng)論數(shù)量為C(rp),前者與后者的比值越低,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
② 品牌數(shù)量包含率。高品的虛假評(píng)論者與真實(shí)評(píng)論者相比較,其評(píng)論中的品牌數(shù)量通常較少。因此商品評(píng)論者的全部評(píng)論中包含品牌數(shù)量h(rp)與商品的全部評(píng)論數(shù)量H(rp)的比值越低,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
③ 商家數(shù)量包含率。虛假評(píng)論者與真實(shí)評(píng)論者相比較,其評(píng)論中的商家數(shù)量也較少。由此定義商品的全部評(píng)論中包含商家數(shù)量b(rp)與全部評(píng)論數(shù)量B(rp)的比值越低,該評(píng)論者為虛假評(píng)論者的概率越高,公式描述為
在目標(biāo)識(shí)別級(jí)融合中,D-S證據(jù)理論采用信任函數(shù)而不是概率作為度量,在無(wú)需知道先驗(yàn)概率的情況下,進(jìn)行不確定性推理。評(píng)論者評(píng)論內(nèi)容情感特征和商品關(guān)注特征可作為評(píng)論者身份檢測(cè)的證據(jù)[12],基于這些證據(jù),采用D-S證據(jù)理論進(jìn)行虛假評(píng)論者檢測(cè)。
用ζ表示虛擬空間,其特征為窮舉、存在邊界、互斥,以其作為檢測(cè)結(jié)構(gòu),2ζ表示其全部子集集合。利用D-S證據(jù)理論算法,根據(jù)證據(jù)合成原理確定評(píng)論者是否為虛假評(píng)論者。
檢測(cè)結(jié)構(gòu)定義:ζ={r1,r2}表示檢測(cè)結(jié)構(gòu)是由檢測(cè)結(jié)果中真實(shí)評(píng)論者r1和虛假評(píng)論者r2共同組成的集合,2ζ表示為2ζ={φ,{r1},{r2},{r1,r2}}。
Mass函數(shù)定義:Mass函數(shù)表示人們對(duì)目標(biāo)假設(shè)的可信程度的推理,是一種人的判斷,這種判定受各種因素的影響,不同的思想會(huì)構(gòu)成不同的Mass函數(shù),因此根據(jù)已知的信息以一定條件自動(dòng)生成函數(shù)可以排除個(gè)人主觀因素帶來(lái)的誤差,結(jié)果相對(duì)客觀[13-15]。
檢測(cè)結(jié)構(gòu)ζ的Mass函數(shù)可表示為
v∶2ζ→[0,1],
由于D-S理論具有不確定性,獲取有效的Mass函數(shù)從而確定信任函數(shù)是該理論應(yīng)用于實(shí)際的關(guān)鍵。
多源信息融合(即多傳感器融合)的關(guān)鍵是對(duì)具有相似或不同特征模式的多源信息進(jìn)行處理,以獲得具有相關(guān)和集成特性的融合信息。決策級(jí)融合是三級(jí)融合的最終結(jié)果,D-S證據(jù)理論作為決策級(jí)融合常用的方法之一,因其基本概率賦值(BPA)對(duì)決策結(jié)果的影響很大,現(xiàn)有的BPA方法主要依賴主觀經(jīng)驗(yàn),其實(shí)用效果不是很好。支持向量機(jī)因具有良好的理論基礎(chǔ)和分類效果,與D-S證據(jù)理論相結(jié)合后可以構(gòu)造合理有效的BPA,從而得到更高、更穩(wěn)定的識(shí)別率。
SVM的性能主要取決于2個(gè)因素:①核函數(shù)的選擇;②懲罰因子的選擇。研究中,以評(píng)論者評(píng)論內(nèi)容情感特征和商品關(guān)注特征這2個(gè)證據(jù)理論作為SVM的懲罰因子,共同決定最后結(jié)果。
假設(shè)評(píng)論者各特征相互獨(dú)立,則v1和v2可分別表示評(píng)論者評(píng)論內(nèi)容情感特征和商品關(guān)注特征的Mass函數(shù)。利用支持向量機(jī)模型獲取贊同度,vi(r1)、vi(r2)和vi(ζ)分別為第i個(gè)Mass函數(shù)中真實(shí)評(píng)論者、虛假評(píng)論者和不確定的贊同度。
Mass函數(shù)Dempster合成原則定義,針對(duì)?J?ζ,v1和v2的合成原則如下:
g=∑J1∩J2≠φv1(J1)v2(J2)=
1-∑J1∩J2=φv1(J1)v2(J2),
其中:g和J分別表示歸一化因子和評(píng)論者數(shù)量;∑J1∩J2=φv1(J1)v2(J2)=1-g和⊕分別表示特征對(duì)立水平和特征組合算子,J1,J2?2ζ。
虛假評(píng)論者檢測(cè)過(guò)程:
(1) 構(gòu)建檢測(cè)結(jié)構(gòu)ζ={r1,r2};
(2) 根據(jù)評(píng)論者特征構(gòu)建不同Mass函數(shù),構(gòu)建2個(gè)特征的支持向量機(jī)模型為
(1)
其中:Pn(w)表示給定w時(shí)的概率密度函數(shù),在式(1)的基礎(chǔ)上,利用sigmoid函數(shù)將支持向量機(jī)模型的無(wú)閾值輸出轉(zhuǎn)換為后驗(yàn)概率輸出,得到各Mass函數(shù)的基本概率分配,分別為
將應(yīng)其用于Mass函數(shù)合成;
(3) 根據(jù)基本概率分配合成2個(gè)Mass函數(shù),獲取合成Mass函數(shù)下真實(shí)評(píng)論者、虛假評(píng)論者和不確定的贊同度;
(4) 根據(jù)表1中的檢測(cè)標(biāo)準(zhǔn),確定虛假評(píng)論者。
表1 檢測(cè)標(biāo)準(zhǔn)Table 1 Test standard
為測(cè)試基于人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)方法的應(yīng)用性能,對(duì)其進(jìn)行仿真測(cè)試。由于電子商務(wù)平臺(tái)評(píng)論信息采集與檢測(cè)過(guò)程包含海量數(shù)據(jù)信息,因此仿真平臺(tái)選取Storm平臺(tái),在該平臺(tái)中構(gòu)建包含4個(gè)虛擬節(jié)點(diǎn)的Storm集群。各虛擬節(jié)點(diǎn)均采用免費(fèi)的Ubuntn19.04操作系統(tǒng),CPU與內(nèi)存分別為intel i5-7400LGA 1151 14 nm 3.0 GGHz和8 GB,Storm組件采用Nimbus績(jī)效管理軟件和Supervisor管理維護(hù)軟件。同時(shí)在本地利用ECSHOP獨(dú)立網(wǎng)店系統(tǒng)構(gòu)建一個(gè)虛擬電子商務(wù)平臺(tái)為研究目標(biāo),并設(shè)定評(píng)論者為2 000個(gè),其中真實(shí)評(píng)論者與虛假評(píng)論者數(shù)量相等。在該仿真環(huán)境下,驗(yàn)證研究方法的檢測(cè)性能。
單位時(shí)間內(nèi)數(shù)據(jù)處理規(guī)??赏ㄟ^(guò)吞吐量描述。在仿真環(huán)境中,采用研究提出的方法采集目標(biāo)中的評(píng)論信息,確定評(píng)論者。對(duì)比不同虛擬節(jié)點(diǎn)數(shù)量下全部商品評(píng)論信息采集過(guò)程花費(fèi)的時(shí)間,驗(yàn)證研究所提方法的吞吐量,結(jié)果見(jiàn)表2和表3。不同虛擬節(jié)點(diǎn)數(shù)量下的采集過(guò)程重復(fù)10次,取均值。
由表2和表3可知,當(dāng)節(jié)點(diǎn)數(shù)量為1時(shí),研究所提
表2 傳統(tǒng)方法的集群吞吐量測(cè)試結(jié)果Table 2 Test results of cluster throughout by conrentional method
表3 研究所提方法的集群吞吐量測(cè)試結(jié)果Table 3 Test results of cluster throughput by reseorch method
方法在采集全部評(píng)論信息過(guò)程中所花費(fèi)的時(shí)間遠(yuǎn)少于采用傳統(tǒng)方法采集信息所花費(fèi)的時(shí)間,且隨著節(jié)點(diǎn)數(shù)量的提升,研究所提方法采集評(píng)論信息的加速比也呈現(xiàn)上升趨勢(shì),上升速度高于傳統(tǒng)方法,說(shuō)明該方法的可擴(kuò)展性較好。若研究目標(biāo)擴(kuò)大,可提升節(jié)點(diǎn)數(shù)量來(lái)提升此方法效率。
(1) 支持向量機(jī)模型準(zhǔn)確率測(cè)試 研究所提方法檢測(cè)過(guò)程中支持向量機(jī)模型準(zhǔn)確率直接影響單特征條件下虛假評(píng)論者檢測(cè)的不確定度,模型準(zhǔn)確率越低,最終檢測(cè)結(jié)果準(zhǔn)確率越低。設(shè)定支持向量機(jī)模型具有不同的懲罰因子與核函數(shù),對(duì)比研究所提方法中支持向量機(jī)模型準(zhǔn)確率隨著評(píng)論者數(shù)量提升所產(chǎn)生的變化,結(jié)果如圖2所示。
圖2 支持向量機(jī)模型準(zhǔn)確率測(cè)試Fig.2 Accuracy test of support vector machine model
圖2(a)中設(shè)定懲罰因子分別為1、10和100,圖2(b)中設(shè)定核函數(shù)分別為線性核函數(shù)、RBF核函數(shù)和多項(xiàng)式核函數(shù)。由圖2得到,研究方法中支持向量機(jī)模型準(zhǔn)確率隨著評(píng)論者數(shù)量的提升整體上表現(xiàn)出上升狀態(tài)。
圖2(a)中3個(gè)不同懲罰因子條件下,支持向量機(jī)模型準(zhǔn)確率呈現(xiàn)不同狀態(tài),其中懲罰因子為10時(shí),模型準(zhǔn)確率上升狀態(tài)最顯著,雖然在評(píng)論者數(shù)量較少時(shí)其準(zhǔn)確率略低于懲罰因子1,但當(dāng)評(píng)論者數(shù)量提升至1 300個(gè)左右時(shí),其模型準(zhǔn)確率已經(jīng)超過(guò)其他2個(gè)懲罰因子。因此研究所提方法將支持向量機(jī)模型懲罰因子設(shè)定為10,圖2(b)結(jié)果是在其基礎(chǔ)上得到的。
圖2(b)中3個(gè)不同核函數(shù)條件下,支持向量機(jī)模型準(zhǔn)確率呈現(xiàn)不同程度的上升狀態(tài),其中RBF核函數(shù)條件下模型準(zhǔn)確率上升狀態(tài)最顯著,因此支持向量機(jī)模型采用RBF核函數(shù),該核函數(shù)下評(píng)論者特征中評(píng)論內(nèi)容情感特征和商品關(guān)注特征準(zhǔn)確率分別達(dá)到96.28%和95.52%。
(2) 虛假評(píng)論者檢測(cè)結(jié)果 利用支持向量機(jī)模型得到各Mass函數(shù)的基本概率分配后融合各Mass函數(shù),得到真實(shí)評(píng)論者、虛假評(píng)論者和不確定的贊同度,設(shè)定y1和y2分別為0.1和0.2,得到虛假評(píng)論者檢測(cè)結(jié)果,其中部分檢測(cè)結(jié)果如表4、表5所列。
表4 采用傳統(tǒng)方法檢測(cè)得到的部分結(jié)果Table 4 Partial results tested by conventional method
表5 采用研究所提方法檢測(cè)得到的部分結(jié)果Table 5 Partial results tested by research method
由表4、表5可知,采用兩種方法進(jìn)行虛假評(píng)論者檢測(cè)時(shí),均呈現(xiàn)出虛假評(píng)論者贊同度隨著真實(shí)評(píng)論者贊同度的升高而降低的趨勢(shì),且不確定贊同度隨虛假評(píng)論者贊同度升高而升高。但采用傳統(tǒng)方法在選取的部分研究對(duì)象中,檢測(cè)的準(zhǔn)確度為80%,而采用研究所提方法在選取的部分研究對(duì)象中,檢測(cè)的準(zhǔn)確度為100%,表明研究所提方法能夠更加準(zhǔn)確檢測(cè)電子商務(wù)平臺(tái)中的虛假評(píng)論者。
研究提出基于人工智能技術(shù)的電子商務(wù)虛假評(píng)論者檢測(cè)方法,通過(guò)設(shè)計(jì)分布式評(píng)論信息采集系統(tǒng)來(lái)確定評(píng)論者;從評(píng)論內(nèi)容情感特征、商品關(guān)注特征兩方面分析評(píng)論者特征;構(gòu)建D-S證據(jù)理論算法的檢測(cè)結(jié)構(gòu),利用支持向量機(jī)模型確定真實(shí)評(píng)論者、虛假評(píng)論者和不確定的贊同度,完成虛假評(píng)論者檢測(cè)。結(jié)果顯示,該方法具有接近100%的準(zhǔn)確度,能有效實(shí)現(xiàn)虛擬評(píng)論者的檢測(cè)。在后續(xù)優(yōu)化過(guò)程可主要針對(duì)評(píng)論者特征分析進(jìn)行詳細(xì)全面的研究,通過(guò)增加評(píng)論者特征項(xiàng),提升檢測(cè)結(jié)果的準(zhǔn)確率。