孫 杰,陳 敏,焦玉全
(1.南京郵電大學(xué) 計(jì)算機(jī)技術(shù)、軟件工程、空間安全學(xué)院,江蘇 南京 210003;2.南京郵電大學(xué),江蘇 南京 210003)
隨著通信基礎(chǔ)設(shè)施和網(wǎng)絡(luò)信息技術(shù)的迅速發(fā)展,依托于網(wǎng)絡(luò)環(huán)境的眾包[1]研究也在逐步深入?;ヂ?lián)網(wǎng)具備的覆蓋面廣、無地域限制等優(yōu)勢,也使得過去只能面向?qū)I(yè)機(jī)構(gòu)的外包可以通過互聯(lián)網(wǎng)擴(kuò)展到全社會(huì),國內(nèi)外眾多網(wǎng)絡(luò)化眾包服務(wù)市場日趨完善。
大量的志愿者得益于眾包提供的工作模式,獲得了不小的報(bào)酬。但是,在這一過程中,有些志愿者并沒有認(rèn)真地完成任務(wù),為了騙取傭金,使利益最大化,往往會(huì)提供虛假數(shù)據(jù)[2],導(dǎo)致眾包任務(wù)結(jié)果準(zhǔn)確度不高。針對這一問題,現(xiàn)有的解決方式多為采用基于黃金標(biāo)準(zhǔn)數(shù)據(jù)策略[3-4]的研究方法,在任務(wù)開始之前,對工作者的工作能力進(jìn)行檢測評(píng)估,篩選出符合要求的工作者來完成任務(wù)。但是這種方式局限性比較大,對于惡意工作者[5-7]的預(yù)防效果比較低,最終所得結(jié)果準(zhǔn)確度不高,無法滿足雇主的需求。
該文提出一種新的方法,在考慮眾包工作者歷史信譽(yù)度的基礎(chǔ)上,對部分任務(wù)結(jié)果采用投票一致性策略[8-9]進(jìn)行分析,然后將二者結(jié)合于貝葉斯模型[10-12],推算出工作者在此次任務(wù)中提交任務(wù)結(jié)果的驗(yàn)后準(zhǔn)確度。下面分別對信任模型構(gòu)建、計(jì)算過程、具體實(shí)施流程以及實(shí)驗(yàn)結(jié)果進(jìn)行介紹。
該文提出貝葉斯信任模型(Bayesian trust model,BTM),主要將工作者歷史信譽(yù)信息[13]和此次任務(wù)結(jié)果結(jié)合于貝葉斯算法來分析,提高對眾包任務(wù)結(jié)果質(zhì)量判別的準(zhǔn)確度。貝葉斯信任模型的流程圖如圖1所示。
圖1 貝葉斯信任模型流程圖
模型構(gòu)建主要分為三步:
首先,評(píng)估工作者的歷史信譽(yù)度。眾包工作者的工作態(tài)度無法直接通過觀察來了解,但是,雇主可以通過分析每次任務(wù)審核方(例如教育眾包平臺(tái)[14])的反饋信息來分析該名眾包工作者的歷史任務(wù)完成滿意度,得出該名工作者對待任務(wù)的態(tài)度,即眾包工作者的可靠性。因?yàn)楣ぷ髡叩墓ぷ鳡顟B(tài)往往在某一段時(shí)間內(nèi)比較穩(wěn)定,所以模型中選取眾包工作者最近完成的k次任務(wù)結(jié)果準(zhǔn)確度來計(jì)算工作者的歷史信譽(yù)值。
其次,分析此次任務(wù)結(jié)果。眾包工作者在提交任務(wù)結(jié)果之后,雇主對任務(wù)結(jié)果進(jìn)行預(yù)處理,然后隨機(jī)選取其中部分任務(wù)結(jié)果,采用投票一致性規(guī)則對選取的任務(wù)結(jié)果進(jìn)行檢測分析,得出工作者精度的條件概率分布。
最后,在求得工作者精度的驗(yàn)前分布和條件概率分布之后,將二者結(jié)合于貝葉斯算法模型,得出工作者本次任務(wù)中的工作精度。
工作者工作精度a,表示工作者完成任務(wù)的準(zhǔn)確度。a的驗(yàn)前分布g(am),m=(1,2,…,m),表示工作者總數(shù)為m。此處,采用貝塔分布來計(jì)算眾包工作者工作精度的驗(yàn)前分布。
貝塔分布的概率密度函數(shù)為:
(1)
其中,α、β分別為貝塔分布的兩個(gè)參數(shù),Γ為伽馬函數(shù),其中:
(2)
Γ(α+β)=αΓ(α),α>0
(3)
當(dāng)α為正整數(shù)時(shí):
Γ(n)=(n-1)!
(4)
貝塔分布的均值為:
(5)
方差為:
(6)
因?yàn)楸姲ぷ髡叩墓ぷ鳡顟B(tài)大多在某段時(shí)間內(nèi)相似,所以,在算法中取眾包工作者最近完成的k次任務(wù)結(jié)果精度來計(jì)算工作者歷史信譽(yù)值,任務(wù)完成精度用a=(a1,a2,…,ak)表示,由此可得:
(7)
(8)
通過式(7)和式(8),可以得到α和β的值分別為:
(9)
(10)
求得α和β的值以后,即可以求得眾包工作者工作精度的驗(yàn)前分布。
以往,雇主在發(fā)放眾包任務(wù)之前,會(huì)先提供一些黃金標(biāo)準(zhǔn)數(shù)據(jù)任務(wù)來讓眾包工作者完成(任務(wù)結(jié)果已知),通過眾包工作者在黃金標(biāo)準(zhǔn)數(shù)據(jù)任務(wù)中的表現(xiàn)來評(píng)估工作者的業(yè)務(wù)能力,達(dá)到篩選可靠眾包工作者的目的。但是,這種篩選方法存在局限性,有些不良工作者為了達(dá)到接任務(wù)的目的,在做黃金測評(píng)時(shí)很認(rèn)真,甚至,有些能力不足的工作者會(huì)通過其他手段來通過測評(píng)。但是,一旦接到眾包任務(wù),在接下來的任務(wù)完成過程中會(huì)出現(xiàn)對待任務(wù)態(tài)度消極的現(xiàn)象,更有甚者會(huì)出現(xiàn)惡意搗亂,草草了事等情況,這些情況會(huì)導(dǎo)致工作者提交的任務(wù)結(jié)果不準(zhǔn)確,無法滿足雇主的要求。所以,針對這一情況,對以往在任務(wù)開始之前對工作者進(jìn)行黃金標(biāo)準(zhǔn)數(shù)據(jù)測評(píng)的方法進(jìn)行改良,改為在工作者提交任務(wù)結(jié)果之后,抽取部分任務(wù)結(jié)果來檢查,評(píng)估所抽取任務(wù)結(jié)果的準(zhǔn)確度。對于抽檢部分,采用投票一致性規(guī)則來進(jìn)行檢測分析。由于完成一個(gè)任務(wù)或者回答一個(gè)問題并不能完全體現(xiàn)工作者的工作精度,對眾包工作者工作情況的判斷存在局限性,所以在文章中,將多個(gè)任務(wù)分給多名工作者來完成,然后通過投票一致性策略來聚合所有的投票結(jié)果,達(dá)到更加精確地計(jì)算工作者的工作精度的目的。
具體過程如下:
假設(shè)將n份任務(wù)發(fā)放給m名工作者去完成(m,n均已知),工作者提交的任務(wù)結(jié)果用Rn,m=(r1,1,r1,2,…,r1,m;r2,1,r2,2,…,r2,m;…;rn,1,rn,2,…,rn,m)表示,其中n表示問題數(shù)量,m表示眾包工作者數(shù)量,r1,1,r1,2,…,r1,m表示所有眾包工作者提交第一個(gè)問題的答案。
根據(jù)眾包工作者提交的任務(wù)結(jié)果,可以得到所有問題結(jié)果的一致性數(shù)據(jù)為:
(11)
式(11)表示m名工作者提交第n個(gè)問題結(jié)果的均值,即工作者提交第n個(gè)問題結(jié)果的一致性數(shù)據(jù)。
m=(1,2,…,m),n=(1,2,…,n)
(12)
由式(12)已知可得,每位工作者提供任務(wù)結(jié)果的準(zhǔn)確度為:
(13)
由式(1)和式(13)可以求得條件概率為:
m=(1,2,…,m)
(14)
其中,0<τ<1是預(yù)置參數(shù)。g(am)表示參與任務(wù)的m名工作者信譽(yù)度,即根據(jù)歷史行為數(shù)據(jù)所求出的綜合信譽(yù)度信息。
求得工作者精度的驗(yàn)前分布和條件概率之后,由貝葉斯公式可得,工作者精度驗(yàn)后分布為:
(15)
在求得工作者精度的驗(yàn)后分布之后,雇主可以根據(jù)自己對任務(wù)準(zhǔn)確度的需求,設(shè)定閾值,篩選出工作者精度符合要求的工作者提交的任務(wù)結(jié)果數(shù)據(jù)。
為驗(yàn)證介紹的信任模型數(shù)據(jù)分析結(jié)果的準(zhǔn)確度,選用Dog and Cat Recognition(DCR)數(shù)據(jù)集[15]和Comment Sense Question(CSQ)數(shù)據(jù)集[16]進(jìn)行仿真實(shí)驗(yàn)。兩種數(shù)據(jù)集都是二元類問題數(shù)據(jù)集,問題答案均為是或否。并將實(shí)驗(yàn)結(jié)果與黃金標(biāo)準(zhǔn)數(shù)據(jù)策略檢測方法(簡稱Gold方法)作對比。
實(shí)驗(yàn)采用的編程語言為Matlab,采用的編輯工具為Matlab R2017(a)。
實(shí)驗(yàn)中選擇數(shù)據(jù)集前20%的問題答案作為評(píng)估數(shù)據(jù)來獲得工作者精度驗(yàn)前分布參數(shù)(α、β)。DCR數(shù)據(jù)集中共包含300名工作者提供的1 000張圖片答案,選擇前200張圖片答案,分為10組,每組20張圖片答案,表示眾包工作者前10次工作完成準(zhǔn)確度。CSQ數(shù)據(jù)集中包含164名工作者提交的164個(gè)問題答案,選擇前80個(gè)問題答案,分為10組,每組8個(gè)問題答案,表示工作者前10次工作完成的準(zhǔn)確度。
在數(shù)據(jù)集剩下的80%數(shù)據(jù)中,選擇20%作為抽檢數(shù)據(jù),對工作者的當(dāng)前表現(xiàn)情況進(jìn)行評(píng)估,剩下的60%數(shù)據(jù)作為正式任務(wù)評(píng)估該方法的有效性。另外,兩個(gè)數(shù)據(jù)集中所有問題的答案均為已知。
對于ω的確定:因?yàn)閱栴}的結(jié)果都已轉(zhuǎn)化為二元類問題答案,所以根據(jù)投票一致性規(guī)則,在式(12)中,r的均值肯定接近0或者接近1,最不可能出現(xiàn)的情況為0.5,所以選擇0.5作為閾值,在此處應(yīng)為最佳,式(14)中,τ=0.1。
在實(shí)際任務(wù)中,雇主對任務(wù)精度的需求各不相同。有的雇主對任務(wù)精度的需求比較低,例如為70%,只要工作者提交的任務(wù)結(jié)果準(zhǔn)確度達(dá)到70%就可以被采納使用。但是有的雇主對任務(wù)結(jié)果的精度要求比較高,例如為90%,他們的任務(wù)比較特殊,任務(wù)精度越高越好,只有達(dá)到90%才可以滿足需要。因此,分別計(jì)算出基于信任模型的魯棒眾包數(shù)據(jù)分析方法(簡稱Trust方法)和黃金標(biāo)準(zhǔn)數(shù)據(jù)策略(簡稱Gold方法)在不同精度需求時(shí)候篩選出的人數(shù),如圖2和圖3所示。
圖2 DCR數(shù)據(jù)集中兩種方法篩選的工作者與實(shí)際合格工作者數(shù)量的比較
圖3 CSQ數(shù)據(jù)集中兩種方法篩選的工作者與實(shí)際合格工作者數(shù)量的比較
通過分析兩種方法在不同數(shù)據(jù)集中的實(shí)際效果,可以發(fā)現(xiàn),選用Trust方法篩選的工作者數(shù)量比使用Gold方法篩選的工作者數(shù)量更多,更接近于數(shù)據(jù)集中實(shí)際合格的人數(shù),并且,雇主需求的精度越高,使用Trust方法篩選出的工作者數(shù)量越接近實(shí)際工作者數(shù)量。
圖4和圖5中將給出兩種方法所選人數(shù)的準(zhǔn)確度信息。
圖4 CSQ數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實(shí)際合格數(shù)量的比較
圖5 DCR數(shù)據(jù)集中兩種方法選擇的工作者數(shù)量和實(shí)際合格數(shù)量的比較
通過圖4和圖5可以發(fā)現(xiàn),使用Trust方法篩選出實(shí)際合格工作者數(shù)量高于使用Gold方法篩選出的實(shí)際合格工作者數(shù)量,且篩選結(jié)果準(zhǔn)確度更高。為了更好地展示實(shí)驗(yàn)效果,表1和表2中詳細(xì)列舉了在不同數(shù)據(jù)集中使用兩種方法篩選出的工作者準(zhǔn)確度情況。
表1 DCR數(shù)據(jù)集中兩種方法實(shí)驗(yàn)結(jié)果比較
表2 CSQ數(shù)據(jù)集中兩種方法實(shí)驗(yàn)結(jié)果比較
如表1和表2所示,可以直觀地發(fā)現(xiàn),使用Trust方法對眾包數(shù)據(jù)結(jié)果進(jìn)行分析篩選出的結(jié)果要比使用Gold方法篩選出的結(jié)果更好,篩選的合格工作者數(shù)量更多,質(zhì)量更高。使用Trust方法篩選出工作者提供的數(shù)據(jù)魯棒性要高于使用Gold方法篩選出工作者提供的數(shù)據(jù)。
主要討論了眾包數(shù)據(jù)分析方法,針對現(xiàn)有數(shù)據(jù)分析方法存在的不足,提出了基于信任模型的魯棒眾包數(shù)據(jù)分析方法,將工作者歷史信譽(yù)信息和此次任務(wù)結(jié)果數(shù)據(jù)結(jié)合于貝葉斯信任模型,提高了數(shù)據(jù)數(shù)據(jù)篩選的準(zhǔn)確性。對于眾包行業(yè)的穩(wěn)定發(fā)展有十分長遠(yuǎn)的意義。