潘慶先 江珊 董紅斌 王瑩潔 潘廷偉 殷增軒
摘 要:由于眾包的組織模式自由松散,致使眾包工人在完成任務(wù)的過(guò)程中存在欺騙行為。如何識(shí)別工人的欺騙行為并降低其影響,從而保障眾包任務(wù)的完成質(zhì)量,已經(jīng)成為眾包領(lǐng)域的研究熱點(diǎn)之一。通過(guò)對(duì)任務(wù)結(jié)果的評(píng)估與分析,針對(duì)眾包工人統(tǒng)一型欺騙行為,提出了一種基于廣義Pareto分布(GPD)的權(quán)重設(shè)置算法(WSABG)。該算法對(duì)GPD進(jìn)行極大似然估計(jì),并用二分法逼近似然函數(shù)的零點(diǎn)以計(jì)算出尺度參數(shù)σ和形狀參數(shù)ε。算法中定義了新的權(quán)重公式,并利用眾包工人完成當(dāng)前任務(wù)的反饋數(shù)據(jù)賦予每位工人一個(gè)絕對(duì)影響權(quán)重,最終設(shè)計(jì)出了基于GPD的眾包工人權(quán)重設(shè)置框架。所提算法可以解決任務(wù)結(jié)果數(shù)據(jù)之間差異性小且容易集中在兩極的問(wèn)題。以煙臺(tái)大學(xué)學(xué)生評(píng)教數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,提出了區(qū)間轉(zhuǎn)移矩陣的概念,證明了WSABG算法的有效性和優(yōu)勢(shì)。
關(guān)鍵詞:眾包;質(zhì)量控制;廣義Pareto分布;統(tǒng)一型欺騙;權(quán)重
中圖分類號(hào):TP393.0
文獻(xiàn)標(biāo)志碼:A
Pareto distribution based processing approach of
deceptive behaviors of crowdsourcing workers
PAN Qingxian1,2, JIANG Shan2*,DONG Hongbin1, WANG Yingjie2, PAN Tingwei2,YIN Zengxuan2
1.College of Computer Science and Technology, Harbin Engineering University, Harbin Heilongjiang 150001, China;
2.College of Computer and Control Engineering, Yantai University, Yantai Shandong 264005, China
Abstract:
Due to the loose organization of crowdsourcing, crowdsourcing workers have deceptive behaviors in the process of completing tasks. How to identify the deceptive behaviors of workers and reduce their impact, thus ensuring the completion quality of crowdsourcing tasks, has become one of the research hotspots in the field of crowdsourcing. Based on the evaluation and analysis of the task results, a Weight Setting Algorithm Based on Generalized Pareto Distribution (GPD) (WSABG) was proposed for the unified type deceptive behaviors of crowdsourcing workers. In the algorithm, the maximum likelihood estimation of GPD was performed, and the dichotomy was used to approximate the zero point of the likehood function in order to calculate the scale parameterσand shape parameterε. A new weight formula was defined, and an absolute influence weight was given to each worker according to the feedback data of the crowdsourcing workers to complete the current task, and finally the GPDbased crowdsourcing worker weight setting framework was designed. The proposed algorithm can solve the problem that the difference between the task results data is small and the data are easy to be centered on the two poles. Taking the data of Yantai University students evaluation of teaching as the experimental dataset, with the concept of interval transfer matrix proposed, the effectiveness and superiority of WSABG algorithm are proved.
Key words:
crowdsourcing; quality control; generalized Pareto distribution; unified type deception; weight
0?引言
眾包(crowdsourcing)是指“一種把過(guò)去由專職員工執(zhí)行的工作任務(wù)通過(guò)公開(kāi)的Web平臺(tái),以自愿的形式外包給非特定的解決方案提供者群體來(lái)完成的分布式問(wèn)題求解模式”[1]。眾包有三個(gè)基本要素:眾包參與者、眾包平臺(tái)、眾包任務(wù),其基本流程為:任務(wù)請(qǐng)求者通過(guò)眾包平臺(tái)發(fā)布眾包任務(wù),眾包工人通過(guò)平臺(tái)選擇任務(wù),完成任務(wù)之后向平臺(tái)提交結(jié)果,最后平臺(tái)檢驗(yàn)結(jié)果質(zhì)量并對(duì)眾包工人進(jìn)行激勵(lì)或懲罰。由于眾包面向不確定大眾群體,而且眾包工人具有自私性,所以導(dǎo)致工人在完成任務(wù)過(guò)程中容易產(chǎn)生欺騙行為,從而導(dǎo)致完成質(zhì)量不高。如何識(shí)別工人的欺騙行為,并對(duì)其科學(xué)化處理,已經(jīng)成為眾包質(zhì)量控制中亟須解決的問(wèn)題。
本文工作主要包括以下幾個(gè)方面:1)對(duì)存在統(tǒng)一欺騙型任務(wù)結(jié)果進(jìn)行研究;2)基于廣義Pareto分布(Generalized Pareto Distribution, GPD)為每一位眾包工人設(shè)置影響權(quán)重,提出了基于GPD的權(quán)重設(shè)置算法(Weight Setting Algorithm Based on GPD, WSABG),并對(duì)任務(wù)數(shù)據(jù)進(jìn)行擬合;3)提出區(qū)間轉(zhuǎn)移矩陣,驗(yàn)證不同算法之間輸出結(jié)果的差異;4)以煙臺(tái)大學(xué)學(xué)生評(píng)教數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)集,驗(yàn)證了WSABG算法的有效性。
1?相關(guān)工作
1.1?質(zhì)量控制
目前關(guān)于眾包中質(zhì)量控制的研究主要集中在3個(gè)方面:1)控制參與人群,主要指控制任務(wù)請(qǐng)求者和眾包工人的信譽(yù)程度。 2)優(yōu)化任務(wù)設(shè)計(jì),眾包任務(wù)的構(gòu)造方式對(duì)獲取高質(zhì)量的結(jié)果起到了極其重要的作用。例如Gaikwad等[2]通過(guò)預(yù)先使用樣本任務(wù),利用工作者的反饋形成更佳的任務(wù)設(shè)計(jì)方案。3)評(píng)估反饋數(shù)據(jù),主要評(píng)價(jià)數(shù)據(jù)的可靠性,Daniel等[3]提到高質(zhì)量的輸出數(shù)據(jù)是眾包的關(guān)鍵驅(qū)動(dòng)因素之一。
參與人群主要是指任務(wù)請(qǐng)求者和眾包工人,Allahbakhsh等[4]提到一個(gè)良好請(qǐng)求者需要具備慷慨、公平的品質(zhì),公平的態(tài)度和優(yōu)秀的溝通能力。而對(duì)眾包工人有更嚴(yán)格的要求,比如:工人的基本信息,包括年齡、性別、所在位置、人格特征、責(zé)任心、行為動(dòng)機(jī)等;工人的個(gè)人能力,包括專業(yè)技能、等級(jí)、憑據(jù)等;工人的工作經(jīng)驗(yàn),包括歷史行為信息、聲譽(yù)分?jǐn)?shù)、可信度等。例如Eickhoff等[5]深入研究了惡意眾包工人的行為模式;Khudabukhsha等[6]提出了一種聲譽(yù)評(píng)估方法,通過(guò)正確率對(duì)眾包工人進(jìn)行等級(jí)劃分。Awwad等[7]提出一種離線算法,將歷史任務(wù)分組到同類集群中,并為每個(gè)集群學(xué)習(xí)工作人員特性,然后算法利用這些特性為每個(gè)傳入的任務(wù)選擇可靠的工人。另外,有些眾包任務(wù)需要眾包工人形成團(tuán)隊(duì)合作完成,所以工作團(tuán)隊(duì)的非共謀性也是研究的重點(diǎn)之一,例如Hossfeld等[8]提出一個(gè)良好的工作團(tuán)隊(duì)?wèi)?yīng)該由非共謀者所組成。
關(guān)于提高眾包任務(wù)的設(shè)計(jì),一方面眾包工人希望請(qǐng)求者對(duì)于任務(wù)的描述清晰[9]、任務(wù)自身復(fù)雜度低,且能保證工人的隱私安全[10]等。Jain等[11]提出如何幫助請(qǐng)求者設(shè)計(jì)有效的眾包任務(wù)。施戰(zhàn)等[12]提出為了保證眾包系統(tǒng)的性能,必須設(shè)計(jì)出高效的任務(wù)分配機(jī)制,挑選出最合適的用戶完成任務(wù),從而保證任務(wù)的完成質(zhì)量。王瑩潔等[13]提出在眾包系統(tǒng)中,如何激勵(lì)用戶積極地參與任務(wù)感知,使得整個(gè)系統(tǒng)的收益最大化,是保證眾包系統(tǒng)性能的重要因素。所以好的任務(wù)設(shè)計(jì)還應(yīng)該為眾包工人提供好的激勵(lì)方式。另一方面從任務(wù)本身來(lái)看,則希望加強(qiáng)法律約束,保障其信息安全以及合規(guī)性[14]。
在眾包中,數(shù)據(jù)是指在執(zhí)行任務(wù)過(guò)程中或者由于執(zhí)行任務(wù)而產(chǎn)生的信息,即輸入、輸出數(shù)據(jù),其中輸入數(shù)據(jù)可以是需要翻譯的文本,那么輸出數(shù)據(jù)就是眾包工人翻譯好的文本。近年來(lái)研究工作主要包括:數(shù)據(jù)的準(zhǔn)確性、一致性、及時(shí)性等。準(zhǔn)確性是估量數(shù)據(jù)正確程度的屬性,Gaunt等[15]提出了一種基于深度神經(jīng)網(wǎng)絡(luò)處理聚合數(shù)據(jù)的方法,以輸出準(zhǔn)確性更高的反饋結(jié)果。一致性通常被解釋為不同眾包工人在響應(yīng)相同輸入時(shí)產(chǎn)生的輸出之間的相似性,Huang等[16]提出使用一致性的評(píng)估結(jié)果要優(yōu)于使用黃金標(biāo)準(zhǔn)數(shù)據(jù)的方式。及時(shí)性[17]多是在時(shí)空眾包中進(jìn)行研究,例如外賣中的送餐服務(wù)、打車軟件中司機(jī)到達(dá)的時(shí)間等。
以上工作多基于眾包系統(tǒng)中的歷史信息進(jìn)行研究,由于信息的龐大雜亂,難以實(shí)現(xiàn)質(zhì)量控制。本文方法基于眾包工人的當(dāng)前任務(wù)數(shù)據(jù)進(jìn)行研究,避免了使用歷史信息這一方式,從而更加具有針對(duì)性。
1.2?Pareto分布
Pareto分布是根據(jù)瑞士經(jīng)濟(jì)學(xué)家Vilfredo Pareto的名字來(lái)命名的,關(guān)于Pareto分布的研究起源于1897年在羅馬出版的由Vilfredo Pareto著的經(jīng)濟(jì)學(xué)書,該書中Pareto通過(guò)研究個(gè)人收入的統(tǒng)計(jì)分布,提出了經(jīng)典的Pareto分布函數(shù):
F(x)=1-cx-a(1)
其中:F(x)為收入不超過(guò)x的個(gè)體所占的比例;c為實(shí)數(shù);a為正數(shù),并且稱a為Pareto指數(shù)。基于Vilfredo Pareto的研究,又有數(shù)種不同的Pareto分布被提出,統(tǒng)稱Pareto分布族,其中以GPD在實(shí)際應(yīng)用中最為常見(jiàn)。
本文中所研究的GPD是由Pickands[18]首次提出的,現(xiàn)已被廣泛應(yīng)用于各個(gè)領(lǐng)域,例如:Dey等[19]通過(guò)使用由自助采樣產(chǎn)生的模擬颶風(fēng)系列來(lái)量化颶風(fēng)損失極端回報(bào)水平推斷的不確定性,發(fā)現(xiàn)颶風(fēng)的破壞數(shù)據(jù)遵循廣義的Pareto分布。Murata等[20]提出了基于廣義Pareto分布的信息檢索模型。關(guān)于GPD二參數(shù)形式的研究,多是利用極大似然估計(jì)求得數(shù)據(jù)所擬合的函數(shù)參數(shù)。Castillo等[21]提出在Akaike和Bayesian信息標(biāo)準(zhǔn)下比較相同數(shù)據(jù)的幾個(gè)模型,從而得到可以在GPD中使用極大似然估計(jì)的一種新方法。
2?問(wèn)題描述及處理方法
2.1?欺騙型眾包工人
本文選取評(píng)價(jià)類眾包任務(wù)為研究對(duì)象,該類任務(wù)應(yīng)用廣泛,比如滴滴打車中乘客對(duì)司機(jī)的評(píng)分、淘寶評(píng)價(jià)、影評(píng)、學(xué)生評(píng)教等。為了獲取高質(zhì)量的評(píng)價(jià)信息,需要眾包工人客觀、公正地進(jìn)行評(píng)價(jià),所以欺騙型眾包工人的存在將會(huì)影響評(píng)價(jià)信息的可靠性。
張志強(qiáng)等[22]提出欺騙類眾包工人的行為主要分為兩種:一種是故意隨機(jī)提交任務(wù)結(jié)果的眾包工人;另一種是統(tǒng)一型欺騙的眾包工人。本文主要研究統(tǒng)一型欺騙行為的眾包工人。以煙臺(tái)大學(xué)學(xué)生評(píng)教數(shù)據(jù)為研究對(duì)象,通過(guò)對(duì)任務(wù)結(jié)果的評(píng)估與分析,發(fā)現(xiàn)數(shù)據(jù)存在“二八分”的現(xiàn)象,即具有統(tǒng)一型欺騙行為的眾包工人所提交的數(shù)據(jù)約占總體的80%,剩余20%的數(shù)據(jù)體現(xiàn)出值得信賴性等特點(diǎn)。其中統(tǒng)一型任務(wù)結(jié)果的頻數(shù)圖如圖1所示。
圖1中的橫坐標(biāo)是指學(xué)生10項(xiàng)指標(biāo)重復(fù)分?jǐn)?shù)的最大值。比如某名學(xué)生在評(píng)價(jià)中10項(xiàng)指標(biāo)的打分為:{8,8,8,7,8,8,6,7,8,8},其中共有7個(gè)8分,2個(gè)7分,1個(gè)6分,則重復(fù)分?jǐn)?shù)的最大值就從{7,2,1}中取最大數(shù),本文定義此值為“統(tǒng)一性數(shù)”。縱坐標(biāo)是指各統(tǒng)一性數(shù)取值的頻數(shù)。從圖中可以看出此數(shù)據(jù)中統(tǒng)一性數(shù)為9和10時(shí),其頻數(shù)非常大。經(jīng)計(jì)算,這兩項(xiàng)占了全部比重的81.2%,說(shuō)明評(píng)分中的統(tǒng)一型欺騙行為非常嚴(yán)重。
定義1?總數(shù)m名眾包工人中,第i名工人的符號(hào)標(biāo)記為wi,全部工人組成的工人集標(biāo)記為W={w1,w2,…,wm}。這些工人所做的任務(wù)都包含在任務(wù)集T={t1,t2,…,tn}中,第j項(xiàng)任務(wù)的符號(hào)標(biāo)記為tj。工人wi所做的任務(wù)集用Ti(TiT)表示,完成任務(wù)tj的工人集用Wj(WjW)表示。
定義2?Tkij(k=1,2,…,K)是評(píng)價(jià)型任務(wù)的一組指示變量。當(dāng)工人wi對(duì)任務(wù)tj的反饋結(jié)果的統(tǒng)一性數(shù)取值為k時(shí),Tkij=1; 若不為k,則Tkij=0。
任務(wù)tj的反饋結(jié)果中統(tǒng)一性數(shù)取k時(shí)的頻率UnityFrekj采用式(2)計(jì)算得到:
UnityFrekj=∑wi∈WjWTkij|Wj|(2)
2.2?GPD的極大似然估計(jì)
GPD是Pareto函數(shù)分布族中的二參數(shù)形式。評(píng)價(jià)類眾包任務(wù)需要對(duì)每一項(xiàng)任務(wù)匯總,所以單獨(dú)考慮每一項(xiàng)任務(wù)的分布情況,那么任務(wù)結(jié)果中的統(tǒng)一性數(shù)服從GPD,其分布函數(shù)如下:
G(x;σ,ε)=1-(1+εx/σ)1/ε,ε≠0
1-exp(-x/σ),ε=0 (3)
其中:σ>0為尺度參數(shù),ε∈R為形狀參數(shù)。樣本值統(tǒng)一性數(shù)用x表示,x∈[0,1]。
為了求取參數(shù)ε和σ,設(shè)X={X1,X2,…,Xn}是一組隨機(jī)變量,(σ,ε)是二維參數(shù)向量。因?yàn)楸姲と酥g完成任務(wù)是相互獨(dú)立的,所以隨機(jī)變量的聯(lián)合密度函數(shù)為:
L(X1,X2,…,Xn;σ,ε)=∏ni=1g(xi;σ,ε)(4)
其中
g(x)=
1σ(1+εx/σ)-1/(ε-1),ε≠0
1σexp(-x/σ),ε=0 (5)
是式(3)的密度函數(shù),將其代入式(4)整理得似然函數(shù)為:
lnL=-nlnσ-(1ε+1)∑ni=1(1+εXi/σ),
ε≠0
-nlnσ-1σ∑ni=1Xi,ε=0 (6)
令θ=ε/σ
ε=ε(7)
當(dāng)θ≠0時(shí),對(duì)式(7)中的參數(shù)求得一階偏導(dǎo)為:
dLdθ=nθ-1+1ε∑ni=1xi1+θxi=0(8)
dLdε=-nε+1ε2∑ni=1ln(1+θxi)=0(9)
由式(9)可求得:
=1n∑ni=1ln(1+θ^xi) (10)
聯(lián)立式(8)、(9)、(10),求得關(guān)于θ的似然方程為:
nθ-(n/∑ni=1ln(1+θxi)+1)∑ni=1xi1+θxi=0(11)
為求此方程的數(shù)值解,考慮采用二分法逼近其零點(diǎn),首先將方程視為關(guān)于θ的函數(shù):
h(θ)=nθ-(n/∑ni=1ln(1+θxi)+1)∑ni=1xi1+θxi(12)
下面進(jìn)行零點(diǎn)存在定理的證明:當(dāng)θ→0時(shí),h(θ)→+∞;當(dāng)θ→1/(n),h(θ) → -∞,其中X(n)是樣本值中的最大值[23]。又因?yàn)楹瘮?shù)f(θ)是連續(xù)函數(shù),根據(jù)零點(diǎn)的存在性定理可知此函數(shù)存在零點(diǎn)。
2.3?基于GPD的眾包工人權(quán)重設(shè)計(jì)框架
眾包工人的統(tǒng)一類型欺騙行為將會(huì)導(dǎo)致數(shù)據(jù)之間差異小,甚至容易集中在兩極的狀況。研究發(fā)現(xiàn)任務(wù)結(jié)果數(shù)據(jù)的統(tǒng)一性現(xiàn)象符合GPD,于是可以利用此分布為每一位工人設(shè)置影響權(quán)重。圖2描述了基于GPD的眾包工人欺騙行為處理辦法的流程。
此流程主要包括以下幾個(gè)方面的工作:
1)利用極大似然估計(jì)求取各任務(wù)結(jié)果服從的GPD參數(shù)。
2)利用GPD為工人設(shè)置影響權(quán)重。本文選取的眾包任務(wù)要求每個(gè)眾包工人都需要完成多項(xiàng)眾包任務(wù),每項(xiàng)眾包任務(wù)由多個(gè)眾包工人完成,所以每一項(xiàng)眾包任務(wù)都對(duì)應(yīng)一個(gè)Pareto分布函數(shù),得到多個(gè)影響權(quán)重后,取其平均值作為工人的絕對(duì)影響權(quán)重。
3)求得任務(wù)輸出結(jié)果的加權(quán)值。本文的最終目標(biāo)是降低欺騙類工人的影響權(quán)重,計(jì)算每一項(xiàng)任務(wù)的可靠輸出值。
2.4?算法設(shè)計(jì)
Pareto法則提出,在眾多現(xiàn)象中,80%的結(jié)果,來(lái)自20%的原因, 因此輸出結(jié)果統(tǒng)一性高的眾包工人將會(huì)被設(shè)置較低的影響權(quán)重,輸出結(jié)果統(tǒng)一性低的眾包工人將會(huì)被設(shè)置較高的影響權(quán)重。由此便可以降低工人的欺騙行為對(duì)任務(wù)匯總結(jié)果產(chǎn)生的不良影響。
為了更客觀地設(shè)置眾包工人的影響權(quán)重,從每一位工人wi的任務(wù)集TiT作為出發(fā)點(diǎn),求得任務(wù)tj∈Ti結(jié)果所服從的GPD的密度函數(shù)gj,則wi關(guān)于任務(wù)tj的影響權(quán)重可以設(shè)置為:
λij=1-gj(ki)-gj(kmin)gj(kmax)-gj(kmin) (13)
其中:k是定義2中提到的統(tǒng)一性數(shù),表示工人提交任務(wù)結(jié)果的重復(fù)數(shù)的最大值; ki是工人wi的統(tǒng)一性數(shù); kmax表示統(tǒng)一性數(shù)的最大取值; kmin表示統(tǒng)一性數(shù)的最小取值。為了得到工人的絕對(duì)影響權(quán)重,對(duì)其任務(wù)集TiT中全部任務(wù)得出的權(quán)重取平均數(shù):
i=∑tj∈TiTλij|Ti| (14)
算法1給出WSABG的算法過(guò)程。此算法中,2)~10)行遍歷任務(wù)集求得相應(yīng)的Pareto分布參數(shù),并在4)~9)行中對(duì)每個(gè)任務(wù)中參與的工人標(biāo)記了權(quán)重;11)~13)行對(duì)每個(gè)工人求取絕對(duì)影響權(quán)重。由于二分法求零點(diǎn)時(shí)算法運(yùn)行在固定區(qū)間,可認(rèn)為時(shí)間復(fù)雜度為O(1),算法第3)行的時(shí)間復(fù)雜度為O(m),其中m為工人人數(shù);4)~9)行中求工人權(quán)重的時(shí)間復(fù)雜度為O(m),于是2)~10)行時(shí)間復(fù)雜度為O(n×m),其中n為任務(wù)數(shù);11)~13)行時(shí)間復(fù)雜度為O(m)。因此,算法1總的時(shí)間復(fù)雜度為O(n×m)。
算法1?基于GPD的權(quán)重設(shè)置算法。
輸入?眾包任務(wù)集T={t1,t2,…,tn},眾包工人集W={w1,w2,…,wm},工人wi∈Wj對(duì)任務(wù)tj∈T的評(píng)價(jià)結(jié)果tj(wi)。
輸出?工人集W的權(quán)重向量。
程序前
1)
初始化Weights,Counters均為長(zhǎng)度為m的空數(shù)組
2)
for tj∈T do
3)
求得極大似然估計(jì)的參數(shù)σ和ε
4)
for wi∈W do
5)
if wj參與并完成了此任務(wù) then
6)
Countersi+=1
7)
Weightsi+=λij(tj(wi))
8)
end if
9)
end for
10)
end for
11)
for Weightsi∈Weights do
12)
Weightsi=Weightsi/Countersi
13)
end for
14)
return Weights
程序后
3?實(shí)驗(yàn)結(jié)果與分析
3.1?實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)數(shù)據(jù)取自煙臺(tái)大學(xué)學(xué)生評(píng)教數(shù)據(jù),共計(jì)269-307條,每一條內(nèi)容包括一名學(xué)生對(duì)一門課程關(guān)于10項(xiàng)指標(biāo)的評(píng)分。此數(shù)據(jù)中,將學(xué)生視為眾包工人,將老師教授的課程視為眾包任務(wù), 則眾包任務(wù)集中的每一個(gè)集合元素都對(duì)應(yīng)一門課程。眾包工人集中的每一個(gè)集合元素都對(duì)應(yīng)一名學(xué)生。
3.2?擬合結(jié)果分析
圖3是隨機(jī)選取的4門課程的評(píng)教數(shù)據(jù)呈現(xiàn)出一致性的頻數(shù)圖。
圖4是廣義Pareto的密度函數(shù)在幾種不同參數(shù)下的圖像,由圖可見(jiàn)當(dāng)σ的值不變時(shí),ε的值越大,函數(shù)圖像的彎曲程度越高;當(dāng)ε的值不變時(shí),σ的值越大,函數(shù)圖像的值越大。
圖5(a)~(d)是圖3中4門課程的頻度折線圖及其擬合后密度函數(shù)所形成的對(duì)比,表1是函數(shù)對(duì)應(yīng)的相關(guān)參數(shù)。從圖中以看出,此4門課程的擬合圖像在形狀上十分接近,所以表1中的參數(shù)值也十分接近。
為了驗(yàn)證擬合效果,本文采用假設(shè)檢驗(yàn)中的方差檢驗(yàn)法對(duì)擬合前后的數(shù)據(jù)進(jìn)行分析。原假設(shè)為擬合前后數(shù)據(jù)值差異不顯著,記為H0; 備擇假設(shè)為擬合前后數(shù)據(jù)值差異顯著,記為H1。在顯著性水平α=0.05的情況下,表2給出了對(duì)此四門課程進(jìn)行方差檢驗(yàn)相關(guān)的數(shù)據(jù)值。
其中,p>α接受原假設(shè),p<α接受備擇假設(shè)。F值等于組間均方和組內(nèi)均方的比值,表示隨機(jī)誤差作用的大小。在自由度為13的情況下,F(xiàn)查表值為4.667, 且當(dāng)F實(shí)際值小于F查表值時(shí),p>α;當(dāng)F實(shí)際值大于F查表值時(shí),p<α。h和p1是判斷正態(tài)性假定的輸出值,當(dāng)h=0時(shí),認(rèn)為數(shù)據(jù)服從正態(tài)分布,h=1則認(rèn)為不服從正態(tài)分布。p2是方差齊次性假定的輸出值,p2>0.05時(shí),滿足方差齊次性。其中,滿足正態(tài)性假定和方差齊次性假定是采用方差檢驗(yàn)法的前提條件。從表3數(shù)據(jù)可知四門課程的檢驗(yàn)結(jié)果皆符合原假設(shè),說(shuō)明擬合前后的數(shù)據(jù)之間并沒(méi)有顯著差異,擬合效果良好。
3.3?算法結(jié)果分析
處理統(tǒng)一型欺騙行為中常用的算法為加權(quán)平均法,后文稱之為傳統(tǒng)算法。此法是對(duì)10項(xiàng)指標(biāo)進(jìn)行加權(quán),再?gòu)娜繉W(xué)生打的分?jǐn)?shù)中求取平均數(shù)作為課程的最后輸出結(jié)果。本文對(duì)兩種算法作了對(duì)比,結(jié)果如圖6所示,圖中將兩種算法的輸出結(jié)果區(qū)間按升序平均分為50份,視為50個(gè)區(qū)間并作為橫坐標(biāo)。之后取各區(qū)間內(nèi)取值的頻數(shù)作為縱坐標(biāo)。其中,左側(cè)部分的山峰是WSABG輸出結(jié)果頻數(shù)取值,右側(cè)部分的山峰是傳統(tǒng)算法輸出結(jié)果頻數(shù)取值。
從圖6中可以看出,傳統(tǒng)算法的輸出結(jié)果集中在第40~50區(qū)間,且圖像截止在高分?jǐn)?shù)區(qū)間,分布圖右側(cè)沒(méi)有尾巴,說(shuō)明此算法對(duì)大部分課程的評(píng)教結(jié)果都取了高分,在高分區(qū)對(duì)課程的區(qū)分程度較低。然而傳統(tǒng)算法在第0~10區(qū)間也存在小部分課程,此類區(qū)間的課程分?jǐn)?shù)很低。由此可知,由于學(xué)生敷衍或欺騙性地進(jìn)行評(píng)教,對(duì)部分老師的評(píng)教結(jié)果是不公平的,因此難以達(dá)到學(xué)生評(píng)教真正的目的和意義。
WSABG所輸出的結(jié)果更接近正態(tài)分布,其中大部分的課程都取了普通的分?jǐn)?shù),左側(cè)是分?jǐn)?shù)較低的課程,右側(cè)是優(yōu)秀的課程。此算法可以將課程更好地區(qū)分開(kāi),從而達(dá)到學(xué)生評(píng)教的目的, 所以本文基于Pareto分布為學(xué)生設(shè)置權(quán)重的算法取得了較好的效果,可以解決傳統(tǒng)算法高分區(qū)間數(shù)據(jù)之間差異小,以及課程在高分區(qū)嚴(yán)重集中的問(wèn)題。
下面考察算法評(píng)級(jí)結(jié)果的準(zhǔn)確率。將課程等級(jí)標(biāo)記為“1級(jí)”“2級(jí)”和“3級(jí)”,級(jí)別越高表示課程越優(yōu)秀。等級(jí)的劃分需要在分?jǐn)?shù)區(qū)間內(nèi)設(shè)置兩個(gè)分割點(diǎn),驗(yàn)證在不同的分隔點(diǎn)下,算法的準(zhǔn)確率。圖7(a)給出了WSABG的準(zhǔn)確率在不同分割點(diǎn)下的具體數(shù)值,圖7(b)給出了傳統(tǒng)算法的準(zhǔn)確率在不同分割點(diǎn)下的具體數(shù)值。圖中的第X行第Y列的元素值表示將等級(jí)區(qū)間分成{0~(X*10)%,(X*10)%~(Y*10)%, (Y*10)%~100%},如第4行第7列表示將等級(jí)分成{0%~40%, 40%~70%, 70%~100%}三個(gè)區(qū)間。0%~40%區(qū)間代表“1級(jí)”,40%~70%區(qū)間代表“2級(jí)”, 70%~100%區(qū)間代表“3級(jí)”。從圖7中可以看出,本文的算法在多數(shù)等級(jí)區(qū)間劃分下的準(zhǔn)確率均要高于傳統(tǒng)算法。
為了更加直觀地觀察兩種算法的準(zhǔn)確率對(duì)比。圖8給出了描述準(zhǔn)確率如何相對(duì)兩個(gè)分割點(diǎn)變化而變化的三維圖像。由三維圖可以看出,WSABG在1~2級(jí)分割點(diǎn)約為0.5,2級(jí)分割點(diǎn)約為0.8時(shí)取最大值,而傳統(tǒng)方法中,三維圖的最大值點(diǎn)出現(xiàn)在2~3分割點(diǎn)約為1時(shí),且對(duì)于大多數(shù)的分割點(diǎn),WSABG分類精度高于傳統(tǒng)方法。為了方便觀察,對(duì)三維圖較有代表性意義的位置進(jìn)行了兩次切片,切片展示成了折線圖9。圖9(a)表示2~3級(jí)分割點(diǎn)固定為0.7時(shí),兩種算法的準(zhǔn)確率對(duì)比。圖9(b)表示2~3級(jí)分割點(diǎn)固定為0.8時(shí)的準(zhǔn)確率對(duì)比。可以明顯地看出,WSABG的準(zhǔn)確率普遍更高。
為了衡量?jī)煞N算法之間的差異,本文提出了區(qū)間轉(zhuǎn)移矩陣如A所示, 矩陣中的元素Aij代表在傳統(tǒng)算法中屬于第i區(qū)間的課程在WSABG中屬于第j區(qū)間的個(gè)數(shù)。將兩種算法進(jìn)行歸一化并對(duì)齊平均值后,按照相同的間隔將評(píng)分劃分成了10個(gè)區(qū)間。從區(qū)間轉(zhuǎn)移矩陣中可以看出,數(shù)值較大的元素均分布于主對(duì)角線及其附近,說(shuō)明原本在傳統(tǒng)算法中屬于平均水平的課程在WSABG中也分布于這個(gè)區(qū)間或其附近。例如區(qū)間轉(zhuǎn)移矩陣中的第6行,也就是傳統(tǒng)算法中的第六區(qū)間,共有723門課程,其中A67=181表示在傳統(tǒng)算法的第六區(qū)間中的課程,有181門在WSABG的第七區(qū)間內(nèi)。由區(qū)間轉(zhuǎn)移矩陣可以看出,大部分的課程在兩種算法中的等級(jí)區(qū)間跳躍不會(huì)太大,但是也存在個(gè)別異常值。
A=001000000000065010000024124100000123638810000046618218010000172460181612010753319317603311072680914914400000000000000000000
異常值主要分布在矩陣的邊緣部分。例如右上邊緣的課程表示在傳統(tǒng)算法中區(qū)間等級(jí)較低,但在WSABG中區(qū)間等級(jí)較高的課程。例如元素A81=1,表示在傳統(tǒng)算法第八區(qū)間內(nèi)的一門課程,在WSABG中被分到了第一區(qū)間。也就說(shuō)傳統(tǒng)算法對(duì)于此門課程的判定是極高的等級(jí),但是在WSABG中給出的等級(jí)卻很低。本文對(duì)此類異常值的評(píng)教數(shù)據(jù)進(jìn)行了調(diào)查,發(fā)現(xiàn)此類課程的數(shù)據(jù)均給了一致性的高評(píng)分(幾乎全為滿分),但是主觀評(píng)價(jià)(學(xué)生自愿填寫)幾乎全部空白。對(duì)于此類課程,本文提出存在師生共謀的猜想,并建議學(xué)校對(duì)此類課程進(jìn)一步調(diào)查。
4?結(jié)語(yǔ)
本文針對(duì)存在統(tǒng)一類型欺騙行為的數(shù)據(jù)展開(kāi)研究,發(fā)現(xiàn)此類數(shù)據(jù)符合GPD。利用極大似然估計(jì)對(duì)此類任務(wù)結(jié)果數(shù)據(jù)進(jìn)行參數(shù)估計(jì),并使用二分法逼近參數(shù)估計(jì)值。得到數(shù)據(jù)擬合的廣義Pareto密度函數(shù)之后,為每一位眾包工人設(shè)置影響權(quán)值,并取各任務(wù)影響權(quán)值的平均值作為工人的絕對(duì)影響權(quán)重。利用工人的絕對(duì)影響權(quán)重為原始結(jié)果進(jìn)行加權(quán),求得眾包任務(wù)反饋結(jié)果的可靠值。經(jīng)過(guò)實(shí)際數(shù)據(jù)測(cè)試,驗(yàn)證了該算法對(duì)于解決存在統(tǒng)一類型欺騙行為眾包工人的任務(wù)具有較好的效果。在后續(xù)工作中,將會(huì)繼續(xù)考察該方法在不同任務(wù)類型下的實(shí)際效果,設(shè)計(jì)更加具有通用性的框架。
參考文獻(xiàn) (References)
[1]SCHEE B A V. Crowdsourcing: why the power of the crowd is driving the future of business[J]. American Journal of HealthSystem Pharmacy, 2010, 67(4): 1565-1566.
[2]GAIKWAD S, CHHIBBER N, SEHGAL V, et al. Prototype tasks: improving crowdsourcing results through rapid, iterative task design[EB/OL].[2017-07-18]. http://web.media.mit.edu/~gaikwad/assets/publications/daemomhcomp.pdf.
[3]DANIEL F, KUCHERBAEV P, CAPPIELLO C, et al. Quality control in crowdsourcing[J]. ACM Computing Surveys, 2018, 51(1):1-40.
[4]ALLAHBAKHSH M, IGNJATOVIC A, BENATALLAH B, et al. Reputation management in crowdsourcing systems[C]// Proceedings of the 8th International Conference on Collaborative Computing: Networking, Applications and Worksharing. Piscataway: IEEE, 2012: 664-671.
[5]EICKHOFF C, de VRIES A. How crowdsourcable is your task[C]// Proceedings of the Workshop on Crowdsourcing for Search and Data Mining at the 4th ACM International Conference on Web Search and Data Mining. New York: ACM, 2011: 11-14.
[6]KHUDABUKHSH A R, CARBONELL J G, JANSEN P J. Detecting nonadversarial collusion in crowdsourcing[C]// Proceedings of the 2nd AAAI Conference on Human Computation and Crowdsourcing. Menlo Park, CA: AAAI Press, 2014: 104-111.
[7]AWWAD T, BENNANI N, ZIEGLER K, et al. Efficient worker selection through historybased learning in crowdsourcing[C]// Proceedings of the 2017 IEEE 41st Annual Computer Software and Applications Conference. Piscataway: IEEE, 2017: 923-928.
[8]HOSSFELD T, KEIMEL C, TIMMERER C. Crowdsourcing qualityofexperience assessments[J]. Computer, 2014, 47(9): 98-102.
[9]GADIRAJU U, YANG J, BOZZON A. Clarity is a worthwhile quality: on the role of task clarity in microtask crowdsourcing[C]// Proceedings of the 28th ACM Conference on Hypertext and Social Media. New York: ACM, 2017: 5-14.
[10]ZHUO G. Privacypreserving and finegrained data aggregation framework for crowdsourcing[C]// Proceedings of the 2017 10th International Conference on Mobile Computing and Ubiquitous Network. Piscataway: IEEE, 2017: 1-6.
[11]JAIN A, SARMA A D, PARAMESWARAN A, et al. Understanding workers, developing effective tasks, and enhancing marketplace dynamics: a study of a large crowdsourcing marketplace[J]. Proceedings of the VLDB Endowment, 2017, 10(7): 829-840.
[12]施戰(zhàn), 辛煜, 孫玉娥,等. 基于用戶可靠性的眾包系統(tǒng)任務(wù)分配機(jī)制[J]. 計(jì)算機(jī)應(yīng)用, 2017, 37(9): 2449-2453.(SHI Z, XIN Y, SUN Y E, et al. An allocation mechanism based on the reliability of users for crowdsourcing systems [J]. Journal of Computer Applications, 2017, 37(9): 2449-2453.)
[13]王瑩潔, 蔡志鵬, 童向榮,等. 基于聲譽(yù)的移動(dòng)眾包系統(tǒng)的在線激勵(lì)機(jī)制[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(8): 2121-2127. (WANG Y J, CAI Z P, TONG X R, et al. Online incentive mechanism based on reputation for mobile crowdsourcing system[J]. Journal of Computer Applications, 2016, 36(8): 2121-2127.)
[14]HANSEN D L, SCHONE P J, COREY D, et al. Quality control mechanisms for crowdsourcing: peer review, arbitration, & expertise at family search indexing[C]// Proceedings of the 2013 Conference on Computer Supported Cooperative Work. New York: ACM, 2013: 649-660.
[15]GAUNT A, BORSA D, BACHRACH Y. Training deep neural nets to aggregate crowdsourced responses[C]// Proceedings of the 32nd Conference on Uncertainty in Artificial Intelligence. Barcelona, Spain: AUAI Press, 2016: 242251.
[16]HUANG S W, FU W T. Enhancing reliability using peer consistency evaluation in human computation[C]// Proceedings of the 2013 Conference on Computer Supported Cooperative Work. New York: ACM, 2013: 639-648.
[17]WU P, NGAI E W T, WU Y. Toward a realtime and budgetaware task package allocation in spatial crowdsourcing[J]. Decision Support Systems, 2018, 110: 107-117.
[18]PICKANDS III J. Statistical inference using extreme order statistics[J]. The Annals of Statistics, 1975, 3(1): 119-131.
[19]DEY A K, DAS K P. Modeling extreme hurricane damage using the generalized Pareto distribution[J]. American Journal of Mathematical and Management Sciences, 2016, 35(1): 55-66.
[20]MURATA M, HIRAMATSU K, SATOH S. Information retrieval model using generalized Pareto distribution and its application to instance search[C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2017: 1117-1120.
[21]CASTILLO J D, SERRA I. Likelihood inference for generalized Pareto distribution[J]. Computational Statistics & Data Analysis, 2015, 83: 116-128.
[22]張志強(qiáng), 逄居升, 謝曉芹, 等. 眾包質(zhì)量控制策略及評(píng)估算法研究[J]. 計(jì)算機(jī)學(xué)報(bào), 2013, 36(8): 1636-1649.(ZHANG Z Q, PANG J S, XIE X Q, et al. Research on crowdsourcing quality control strategy and evaluation algorithm[J]. Chinese Journal of Computers, 2013, 36(8): 1636-1649.)
[23]GRIMSHAW S D. Computing maximum likelihood estimates for the generalized Pareto distribution[J]. Technometrics, 1993, 35(2): 185-191.
This work is partially supported by the National Natural Science Foundation of China (60903098,61502140,61572418).
PAN Qingxian,born in 1979, Ph. D. candidate,associate professor. His research interests include artificial intelligence,group intelligence perception, crowdsourcing.
JIANG Shan,born in 1994, M. S. candidate. Her research interests include crowdsourcing.
DONG Hongbin, born in 1963, Ph. D., professor. His research interests include artificial intelligence,machine learning, multiAgent system.
WANG Yingjie,born in 1986, Ph. D.,associate professor. Her research interests include temporalspatial crowdsourcing.
PAN Tingwei,born in 1992, M. S. candidate. His research interests include crowdsourcing.
YIN Zengxuan, born in 1995, M. S. candidate. His research interests include crowdsourcing.