国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于無(wú)監(jiān)督集成學(xué)習(xí)的虛假評(píng)論檢測(cè)方法

2021-12-30 09:01:36慧,王
關(guān)鍵詞:列表排序權(quán)重

李 慧,王 琢

(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110159)

網(wǎng)絡(luò)購(gòu)物的虛假評(píng)論,不僅會(huì)誤導(dǎo)消費(fèi)者的購(gòu)買(mǎi)決策,而且也會(huì)擾亂市場(chǎng)競(jìng)爭(zhēng)秩序,損害其他經(jīng)營(yíng)者或消費(fèi)者的合法權(quán)益。據(jù)調(diào)查[1],美國(guó)網(wǎng)站Yelp上虛假評(píng)論的比例已從2006年的5%漲至2013年的20%。

虛假評(píng)論問(wèn)題由Jindal N等[2]在2008年美國(guó)紐約網(wǎng)絡(luò)搜索與數(shù)據(jù)挖掘國(guó)際會(huì)議上首次提出。Ott M等[3]在2011年美國(guó)計(jì)算機(jī)語(yǔ)言協(xié)會(huì)第49屆會(huì)議上強(qiáng)調(diào)標(biāo)準(zhǔn)數(shù)據(jù)集的重要性和困難性。

對(duì)虛假評(píng)論檢測(cè)集成學(xué)習(xí)方法,王琢等[4]提出基于有監(jiān)督學(xué)習(xí)的店鋪類(lèi)虛假評(píng)論檢測(cè),抽取店鋪類(lèi)評(píng)論的作弊特征,然后利用機(jī)器學(xué)習(xí)的算法,對(duì)店鋪類(lèi)虛假評(píng)論進(jìn)行檢測(cè)。張大鵬等[5]提出基于異質(zhì)集成學(xué)習(xí)的虛假評(píng)論檢測(cè),通過(guò)特征提取,然后結(jié)合多個(gè)分類(lèi)器分類(lèi),在此基礎(chǔ)上選取效果較好的模型進(jìn)行集成。由于虛假評(píng)論的多樣性,還沒(méi)有單一的檢測(cè)模型可以檢測(cè)出所有的垃圾評(píng)論[6],而集成模型的檢測(cè)效果往往更好,且在相關(guān)領(lǐng)域的研究非常少。關(guān)于虛假評(píng)論檢測(cè),研究人員在手動(dòng)標(biāo)記參考評(píng)論數(shù)據(jù)集時(shí)經(jīng)常采用投票的方式,如三名評(píng)估人員根據(jù)幾個(gè)共同認(rèn)可的證據(jù)為檢測(cè)到的可疑評(píng)論人貼上標(biāo)簽[7]。另外,大多數(shù)虛假評(píng)論檢測(cè)算法是通過(guò)人工調(diào)節(jié)找出一組最佳參數(shù),從而得到最佳虛假評(píng)論排序列表;這種傳統(tǒng)的調(diào)參方式既費(fèi)時(shí)又費(fèi)力,而且當(dāng)數(shù)據(jù)集為無(wú)標(biāo)簽數(shù)據(jù)集時(shí),無(wú)法判斷出哪組參數(shù)得到的排序列表是最佳排序列表。因此本文提出一種基于排序的無(wú)監(jiān)督集成方法,利用多個(gè)不同的虛假評(píng)論排序列表,以投票方式進(jìn)行集成。通過(guò)本文提出的集成方法,可以對(duì)不同參數(shù)產(chǎn)生的排序列表進(jìn)行集成,得出一個(gè)與被集成列表相比最優(yōu)或較優(yōu)的一個(gè)排序列表,省去了算法調(diào)參的麻煩。本文的集成方法可以在同一算法不同參數(shù)的排序列表間進(jìn)行集成,也可以在不同算法的排序列表間進(jìn)行集成。

1 模型的建立

1.1 問(wèn)題形式化

1.2 算法模型

該模型方法是一種基于無(wú)監(jiān)督的集成方法,與其它虛假評(píng)論檢測(cè)集成模型不同的是,本方法通過(guò)各個(gè)算法的虛假評(píng)論排序列表進(jìn)行集成,在集成過(guò)程中不需要改變被集成排序列表中項(xiàng)目的排序順序。

1.2.1 集成前準(zhǔn)備

(1)

1.2.2 項(xiàng)目在不同算法中的權(quán)重rij

為準(zhǔn)確估算出項(xiàng)目的排序位置,給每個(gè)排序列表中的所有項(xiàng)目都設(shè)置了權(quán)重。當(dāng)一次迭代結(jié)束后,將會(huì)得到一個(gè)排序列表A*,這里可以用loc*j和locij的位置差做比較,如果|loc*j-locij|越小,說(shuō)明項(xiàng)目vj在排序列表Ai中的排序位置和在排序列表A*中的排序位置越接近,那么項(xiàng)目vj在Ai中的權(quán)重較大,否則較小。最終,將得到一個(gè)N×P的項(xiàng)目權(quán)重矩陣。關(guān)于rij的計(jì)算,使用Sigmoid函數(shù)[8];Sigmoid函數(shù)是單調(diào)增函數(shù),且可以將一個(gè)實(shí)數(shù)映射到(0,1)區(qū)間;因此通過(guò)變換Sigmoid函數(shù),使0≤rij≤1,Sigmoid函數(shù)圖像如圖1所示。Sigmoid函數(shù)公式、rij公式分別為

圖1 Sigmoid函數(shù)圖像

(2)

rij=(-2)(1/(1+e-|loc*j-locij|/σ)-1)

(3)

式中σ的取值可以通過(guò)|loc*j-locij|(1≤i≤P)的標(biāo)準(zhǔn)差計(jì)算。

1.2.3 項(xiàng)目作弊分?jǐn)?shù)的計(jì)算方式

第二次迭代后作弊分?jǐn)?shù)scorej計(jì)算公式為

(4)

式中:當(dāng)rij=0.5時(shí),項(xiàng)目在A*列表和Ai列表中的權(quán)重一樣;當(dāng)rij>0.5時(shí),項(xiàng)目在A*列表中的權(quán)重小于項(xiàng)目在Ai列表中的權(quán)重;當(dāng)rij<0.5時(shí),項(xiàng)目在A*列表中的權(quán)重大于項(xiàng)目在Ai列表中的權(quán)重。該作弊分?jǐn)?shù)分值越小說(shuō)明項(xiàng)目的作弊概率越大。

根據(jù)項(xiàng)目的作弊分?jǐn)?shù)scorej,重新對(duì)項(xiàng)目進(jìn)行排序,得出新的排序列表A*,然后不斷調(diào)整項(xiàng)目權(quán)重rij,更新A*和scorej,進(jìn)行迭代直至收斂,停止迭代。

1.2.4 收斂條件(滿(mǎn)足任一條件,迭代終止)

(1)當(dāng)t+1次迭代和t次迭代的rij間的最大差小于閾值時(shí),終止迭代。本實(shí)驗(yàn)中閾值eps設(shè)置為10-6,計(jì)算公式為

(5)

(2)當(dāng)A*趨于穩(wěn)定,迭代終止。計(jì)算公式為

(6)

(3)迭代次數(shù)大于預(yù)定的次數(shù),終止迭代。

2 算法詳細(xì)過(guò)程

算法過(guò)程如表1所示。

表1 算法過(guò)程

8:A?= A;9:iter=1;10:while(iter

3 實(shí)驗(yàn)結(jié)果評(píng)估

3.1 數(shù)據(jù)準(zhǔn)備

本文在兩個(gè)有標(biāo)注的數(shù)據(jù)集(YelpNYC和YelpZip)上分別做了2個(gè)實(shí)驗(yàn),數(shù)據(jù)集信息如表2所示。

表2 數(shù)據(jù)集信息

實(shí)驗(yàn)1,用一個(gè)算法生成的虛假評(píng)論排序列表進(jìn)行集成。該實(shí)驗(yàn)選擇使用ColluEagle模型[9]。ColluEagle分為ALL先驗(yàn)和NT先驗(yàn),分別對(duì)不同先驗(yàn)使用不同的最小相似度參數(shù)δ,得出對(duì)應(yīng)的排序列表。實(shí)驗(yàn)1用到了由ColluEagle模型生成的排序列表,共8個(gè)。

實(shí)驗(yàn)2,用不同算法生成的虛假評(píng)論排序列表進(jìn)行集成。該實(shí)驗(yàn)選擇使用ColluEagle、SpEagle[10]模型生成的排序列表及根據(jù)ColluEagle中的ALL先驗(yàn)生成的排序列表和NT先驗(yàn)生成的排序列表。實(shí)驗(yàn)2用到了由所有模型生成的排序列表,共5個(gè)。

根據(jù)排序列表中前3000項(xiàng)目數(shù)的歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain,NDCG)衡量和評(píng)價(jià)搜索結(jié)果算法。對(duì)實(shí)驗(yàn)1和實(shí)驗(yàn)2用到的所有排序列表進(jìn)行人工評(píng)估,并做性能排名。排序列表如表3所示。

表3 排序列表說(shuō)明

3.2 實(shí)驗(yàn)及性能評(píng)估

圖2 YelpZip數(shù)據(jù)集(實(shí)驗(yàn)1)

圖3 YelpNYC數(shù)據(jù)集(實(shí)驗(yàn)1)

圖4 YelpZip數(shù)據(jù)集(實(shí)驗(yàn)2)

圖5 YelpNYC數(shù)據(jù)集(實(shí)驗(yàn)2)

通過(guò)實(shí)驗(yàn)可知,在沒(méi)有標(biāo)注數(shù)據(jù)的情況下,本集成算法會(huì)以較大概率得到較為理想的排序結(jié)果。

4 結(jié)束語(yǔ)

針對(duì)虛假評(píng)論檢測(cè)缺乏有標(biāo)注數(shù)據(jù)集問(wèn)題,本文提出了一種基于無(wú)監(jiān)督的多個(gè)排序列表的集成方法。實(shí)驗(yàn)證明,通過(guò)排序列表進(jìn)行無(wú)監(jiān)督集成的方法有效,但由于一些因素(每個(gè)被集成排序列表中的項(xiàng)目(評(píng)論/評(píng)論人)不一致數(shù)過(guò)多、每個(gè)被集成排序列表的排序質(zhì)量差異問(wèn)題、選取參與集成的項(xiàng)目數(shù)等)可能會(huì)對(duì)最終結(jié)果產(chǎn)生影響。期待將來(lái)能夠進(jìn)一步解決這些問(wèn)題。

猜你喜歡
列表排序權(quán)重
巧用列表來(lái)推理
排序不等式
學(xué)習(xí)運(yùn)用列表法
權(quán)重常思“浮名輕”
擴(kuò)列吧
恐怖排序
節(jié)日排序
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
刻舟求劍
兒童繪本(2018年5期)2018-04-12 16:45:32
基于公約式權(quán)重的截短線(xiàn)性分組碼盲識(shí)別方法
玉树县| 奉新县| 巫山县| 临清市| 寻甸| 大余县| 达拉特旗| 玉溪市| 昌图县| 恩施市| 盐源县| 鄂伦春自治旗| 拜城县| 盱眙县| 蓬莱市| 新化县| 广元市| 普宁市| 信丰县| 西青区| 略阳县| 石门县| 绥中县| 那曲县| 防城港市| 岱山县| 息烽县| 辽宁省| 理塘县| 青浦区| 泸定县| 通州区| 明溪县| 自贡市| 江城| 梨树县| 安远县| 万载县| 南陵县| 东丽区| 贵港市|