穆 超
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院 南京 211100)
眾包之基于位置的查詢?
穆 超
(河海大學(xué)計(jì)算機(jī)與信息學(xué)院 南京 211100)
在這個(gè)智能手機(jī)迅猛發(fā)展的網(wǎng)絡(luò)時(shí)代里,大家的生活都已離不開(kāi)移動(dòng)網(wǎng)絡(luò),便捷的查詢以及網(wǎng)絡(luò)支付是它成功的關(guān)鍵。人們更喜歡找到附近的好吃的、好玩的、住所,這使得旅行更加方便。這就有了基于位置的查詢。然而傳統(tǒng)的搜索引擎在主觀問(wèn)題的搜索方面并不是很好,這就促使我們探尋眾包微博上基于位置上的查詢的有效性,更具體地說(shuō),就是研究基于位置服務(wù)的有效性,去尋找一個(gè)合適的人回答基于位置的查詢。通過(guò)幾個(gè)基于查詢的例子,論文主要研究提出方法的可行性,并突出社交軟件搜索引擎的重要性。
智能手機(jī);便捷查詢;位置查詢;搜索引擎
隨著智能手機(jī)的發(fā)展,幾乎每部智能手機(jī)都自帶定位,這所帶來(lái)的機(jī)遇,使得移動(dòng)眾包應(yīng)用在現(xiàn)實(shí)世界中日益普及。很多人可以利用閑暇時(shí)間完成一些簡(jiǎn)單任務(wù),比如用手機(jī)做一份翻譯,抄寫(xiě)或者填寫(xiě)調(diào)查問(wèn)卷來(lái)獲得相應(yīng)的好處[1],還可以充實(shí)自己的生活。從前的搜索只能搜索到基于事實(shí)的問(wèn)題,而現(xiàn)在隨著基于位置查詢的迅猛發(fā)展,人們可以查到更多主觀的問(wèn)題,比如附近有沒(méi)有適合情侶吃飯的餐廳,這些都會(huì)有人去回答你,我們現(xiàn)在做的就是要將回答的時(shí)間縮短,以盡可能滿足你游玩的需要,這就需要我們創(chuàng)建一個(gè)平臺(tái),使大家可以迅速問(wèn)答。我們創(chuàng)建一個(gè)將位置作為參數(shù)的平臺(tái),將任務(wù)分配給工人,通過(guò)研究發(fā)現(xiàn)移動(dòng)用戶的幾條規(guī)律:1)移動(dòng)的工人更喜歡主動(dòng)從平臺(tái)上接任務(wù)而不是等著平臺(tái)去推送任務(wù)給他。2)人們更喜歡拍照片等簡(jiǎn)單的任務(wù)。3)用戶主要選擇靠近自己家的位置的任務(wù)
過(guò)去幾年出現(xiàn)了很多項(xiàng)目,他們的成功都是基于一個(gè)龐大人群的貢獻(xiàn)。百度百科就是一個(gè)典型的例子,它利用了互聯(lián)網(wǎng)上龐大人群的廣泛知識(shí)。高德地圖是另一個(gè)成功的例子,它也是根據(jù)生活在不同地理區(qū)域的人們貢獻(xiàn)、分享和處理他們的位置軌跡做的一個(gè)全面的在線地圖。這僅僅是其中的兩個(gè)成功例子,在這兩個(gè)例子中都是有著很多的人,每個(gè)人都作出自己的一份小小貢獻(xiàn),成就了一個(gè)全新的,適應(yīng)于互聯(lián)網(wǎng)的應(yīng)用類型。
2.1 基于位置查詢的應(yīng)用情景
1)情景一:李剛在回家的路上看到一款照相機(jī)的廣告,這個(gè)店離他家很遠(yuǎn),由于一天工作很累不想親自過(guò)去,與其相信買(mǎi)家秀的照片,更加相信其他顧客親自去店里看到的,他們的評(píng)價(jià)是更有意義的,更具參考價(jià)值,因此他從平臺(tái)上上傳一個(gè)這樣的任務(wù),即到店里拍一張他喜歡相機(jī)的照片。
2)情景二:王宇要去一個(gè)大學(xué)演講,結(jié)果扭傷了膝蓋,而很多學(xué)生都會(huì)出席這個(gè)演講,他為此將這次演講內(nèi)容錄音了,發(fā)到眾包平臺(tái)想要其他人去替她完成這次演講,將這次演講的時(shí)間,位置和它想要講的發(fā)到了平臺(tái)上,過(guò)了幾分鐘,收到李明的積極回饋,李明在完成的任務(wù)中具有很高的評(píng)價(jià)。后來(lái)王宇收到視頻和音頻文件以及李明的筆記副本。
3)情景三:王莎居住在徐州,她最近非常高興,因?yàn)樵谀暇┱业搅艘环莨ぷ?,她將要去南京居住,有熱心的房屋中介為她提供了一些?yōu)惠的房屋選擇,但這些房間在網(wǎng)上找不到任何房子周邊的照片,于是王莎在平臺(tái)上詢問(wèn)房子周邊更多的信息,包括圖片。一個(gè)附近的人將房屋周邊的街道,商店和咖啡店拍了下來(lái)[4]。
2.2 基于位置查詢的國(guó)內(nèi)外研究
2.2.1 基于位置查詢的發(fā)展
由于智能手機(jī)技術(shù)的迅速發(fā)展,基于位置的查詢變得越來(lái)越流行。最近的研究中為可擴(kuò)展的基于位置的網(wǎng)絡(luò)服務(wù)引入了一個(gè)新的數(shù)據(jù)庫(kù)管理系統(tǒng)。這個(gè)目的就是為基于位置查詢提供一個(gè)快速和可擴(kuò)展的數(shù)據(jù)庫(kù)管理系統(tǒng)。
搜索從事于基于位置查詢的數(shù)據(jù)庫(kù)研究者和公司,包括空間索引的問(wèn)題、最鄰近搜索還有基于位置查詢的幾何方法,這些工作本身就是算法。并假設(shè)這些查詢制定了明確的目標(biāo)名稱,所以這個(gè)重點(diǎn)就是用最小的花費(fèi)發(fā)送這些查詢的答案。
2.2.2 眾包與協(xié)作
以前我們的研究都是集中在協(xié)同應(yīng)用,例如描述一下當(dāng)前的天氣狀況,這是一個(gè)只要在那種環(huán)境的人都能回答的問(wèn)題。相比來(lái)說(shuō),我們現(xiàn)在主要研究的是回答基于位置的查詢,通過(guò)問(wèn)題的主題分類以及人們簽到的位置信息來(lái)找到最合適的人去回答問(wèn)題。
最近的研究是關(guān)于眾包圖片搜索,計(jì)算機(jī)很難去很好地識(shí)別一張圖片尤其是在無(wú)限制的環(huán)境下。本文將改進(jìn)這一點(diǎn),將人類的智能和機(jī)器結(jié)合起來(lái),用土耳其機(jī)器人中的人用過(guò)電腦處理查詢的圖片后得到的信息去驗(yàn)證答案。
在下面我們統(tǒng)計(jì)一下我們基于位置的查詢中的位置類型,在當(dāng)前的研究中,我們還只是在以下幾個(gè)位置類型中進(jìn)行研究,我們計(jì)劃在研究成熟后,擴(kuò)展到整個(gè)社會(huì)中去,為人們的便捷生活做出貢獻(xiàn)。
表1 位置類型
基于位置查詢的問(wèn)答系統(tǒng)主要組件是:?jiǎn)栴}收集器、驗(yàn)證器、問(wèn)題請(qǐng)求者、答案收集器、中轉(zhuǎn)站。系統(tǒng)的整體結(jié)構(gòu)如圖1。
圖1 系統(tǒng)結(jié)構(gòu)圖
3.1 問(wèn)題收集器
我們利用微博自帶的搜索功能去收集問(wèn)題,我們要找出問(wèn)問(wèn)題的博文,首先要找到一個(gè)問(wèn)題標(biāo)記,毫無(wú)疑問(wèn),帶有問(wèn)號(hào)“?”標(biāo)記的博文很有可能成為我們的目標(biāo)。因?yàn)槲覀冎饕芯炕谖恢玫牟樵?,所以我們主要收集?中類型的博文。我們想到找?guī)最愱P(guān)鍵詞可以篩選到好的問(wèn)題,例如某人、某些建議、哪里等等關(guān)鍵詞。接下來(lái),我們根據(jù)下面的模板來(lái)收集博文(關(guān)鍵詞順序不重要),問(wèn)題關(guān)鍵詞-正文-位置信息-?。下面是我們用上面模板收集到的例子:某人-吃晚餐去哪里好-南京水游城-?。
最后,我們通過(guò)被拉入黑名單的詞語(yǔ)過(guò)濾掉不合適和含有譏諷意味的博文,并且過(guò)濾掉那些含有連接http://和標(biāo)記@的博文,因?yàn)槲覀儼l(fā)現(xiàn)一般人在提出問(wèn)題時(shí)不會(huì)插入鏈接,@在微博中代表著與朋友的聊天[9]。
表2 問(wèn)題等級(jí)
3.2 驗(yàn)證器
盡管問(wèn)題收集器可以過(guò)濾掉一些明顯的博文,但中國(guó)文字博大精深,完全過(guò)濾掉不合適的博文是不可能的,所以我們還要借助于驗(yàn)證器來(lái)去掉那些文字游戲以及含有譏諷的博文,因此我們?cè)趩?wèn)題得到答案之前,讓問(wèn)題核對(duì)者去驗(yàn)證問(wèn)題。
沒(méi)有通過(guò)驗(yàn)證的問(wèn)題放在一個(gè)隊(duì)列里,并將這些問(wèn)題轉(zhuǎn)發(fā)給其他在線可利用的核對(duì)者。驗(yàn)證一個(gè)問(wèn)題是一個(gè)簡(jiǎn)單的任務(wù)。例如,一個(gè)人詢問(wèn)在南京哪里可以找到便宜,好一點(diǎn)的賓館。作為一個(gè)有效的問(wèn)題,問(wèn)題中并沒(méi)有關(guān)于南京和賓館的詳細(xì)信息。開(kāi)始我們只是使用我們實(shí)驗(yàn)室和大學(xué)的問(wèn)題核對(duì)者,但隨著發(fā)展,漸漸供不應(yīng)求,無(wú)法滿足大眾的要求,我們需要擴(kuò)充核對(duì)者的范圍,從更廣泛的人群中找到我們需要的人才。我們還引入績(jī)效系統(tǒng),來(lái)激勵(lì)人們的積極性,完成相應(yīng)的核對(duì)就會(huì)獲得對(duì)應(yīng)的績(jī)效點(diǎn),那么他可以用績(jī)效點(diǎn)在平臺(tái)上發(fā)布查詢,并且這樣的問(wèn)題優(yōu)先級(jí)更高。
問(wèn)題核對(duì)者的工作就是標(biāo)注問(wèn)題的種類以及質(zhì)量如何。對(duì)于分類的問(wèn)題,表1是核對(duì)者標(biāo)記問(wèn)題的位置類型,表2的問(wèn)題的等級(jí)的標(biāo)注,如果一個(gè)問(wèn)題被標(biāo)記等級(jí)1,它就是不合適的問(wèn)題,不能夠被回答,其他兩個(gè)等級(jí)都是可以被回答的,等級(jí)三比等級(jí)二的問(wèn)表達(dá)更清晰明了。
對(duì)于一個(gè)問(wèn)題的驗(yàn)證,我們的系統(tǒng)會(huì)發(fā)送三個(gè)連續(xù)的消息給問(wèn)題核對(duì)者,第一個(gè)是表二中,博文的種類,第二個(gè)是表2中,問(wèn)題的等級(jí),第三個(gè)就是問(wèn)題核對(duì)者需要去驗(yàn)證的問(wèn)題了。下面舉個(gè)驗(yàn)證問(wèn)題的例子
@用戶名 A:藝術(shù)娛樂(lè),C:大學(xué)教育,F(xiàn):食物N:夜生活P:戶外停車場(chǎng),S:購(gòu)物,T:旅行
@用戶名 1:不恰當(dāng)2:能被回答3:好問(wèn)題
@用戶名(問(wèn)題)
在發(fā)送上面的博文后,我們的系統(tǒng)就等待著問(wèn)題核對(duì)者的回應(yīng)。為了簡(jiǎn)便起見(jiàn),我們?cè)O(shè)定一個(gè)嚴(yán)格的回答格式。問(wèn)題核對(duì)者回答時(shí),首先要用問(wèn)題種類的首字母并且標(biāo)注問(wèn)題的等級(jí),比如“N2”代表著問(wèn)題的種類是夜生活,等級(jí)是2,能夠被回答的問(wèn)題。如果問(wèn)題核對(duì)者不能在給定時(shí)間內(nèi)完成驗(yàn)證,我們會(huì)發(fā)送問(wèn)題給其他可用的核對(duì)者。如果核對(duì)者沒(méi)有完成前一個(gè)問(wèn)題的核對(duì),我們是不會(huì)給他發(fā)下一個(gè)任務(wù)的。這樣的話,如果有的核對(duì)者不想做了,這種機(jī)制為他們提供了一種簡(jiǎn)單的方式。
在完成上述驗(yàn)證步驟后,這個(gè)問(wèn)題就可以用來(lái)“問(wèn)”了。
3.3 詢問(wèn)者
這個(gè)詢問(wèn)者發(fā)出的驗(yàn)證過(guò)的問(wèn)題,想要找到最合適的人去回答這個(gè)問(wèn)題。這里我們使用兩種方法找出最合適的人。第一種方法是我們篩選他們的簡(jiǎn)歷,挑選出居住在問(wèn)題包含的城市的人群。第二種方法是,我們挑選出微博賬號(hào)和玩轉(zhuǎn)四方賬號(hào)綁定在一起的用戶,因?yàn)橥孓D(zhuǎn)四方是一款基于位置查詢的軟件,并且它的用戶每天都頻繁的發(fā)表簽到地點(diǎn)[11]。
接下來(lái)詢問(wèn)者會(huì)通過(guò)微博來(lái)向人們問(wèn)問(wèn)題,假設(shè)一個(gè)人沒(méi)有回答我們的問(wèn)題,那么系統(tǒng)就不會(huì)進(jìn)一步對(duì)這個(gè)人進(jìn)行提問(wèn),這給人們提供了一個(gè)簡(jiǎn)單地退出方式對(duì)我們的研究。
@用戶名請(qǐng)幫助我們的研究項(xiàng)目,通過(guò)回答以下問(wèn)題,問(wèn)題鏈接(網(wǎng)址鏈接)
@用戶名(問(wèn)題)
由于微博也是有頻率限制的,每天過(guò)快的頻率會(huì)出現(xiàn)系統(tǒng)繁忙,稍后再試的調(diào)試,所以我們要在這種限制下找到適當(dāng)?shù)姆椒?。從我們的試?yàn)來(lái)看,超過(guò)百分之五十的人都是在問(wèn)題提出二十分鐘之內(nèi)回答,所以我們主要集中在問(wèn)題提出后收集答案。
3.4 答案收集器
答案收集器通過(guò)民意投票對(duì)一些收到答案的問(wèn)題進(jìn)行篩選,它和問(wèn)題收集器相似,也是將答案中含有黑名單的詞語(yǔ)相比對(duì),含有的話就去掉這個(gè)答案。最后這個(gè)組件使用數(shù)據(jù)庫(kù)的日志數(shù)據(jù)來(lái)找到問(wèn)題的最佳答案,并存儲(chǔ)驗(yàn)證步驟的答案。盡管驗(yàn)證答案的時(shí)候,我們會(huì)過(guò)濾掉一些不合適的答案,但還是會(huì)有一些不符合要求的答案,我們進(jìn)一步對(duì)答案的處理,和對(duì)問(wèn)題的處理相似,我們將答案發(fā)送給核對(duì)者去驗(yàn)證,如果通過(guò)驗(yàn)證,我們將答案整理發(fā)送給任務(wù)的發(fā)布者。
表3 答案等級(jí)
3.5 中轉(zhuǎn)站
在這個(gè)步驟,我們將符合要求的答案和好的答案轉(zhuǎn)發(fā)給相應(yīng)的詢問(wèn)者。
@詢問(wèn)者我們的眾包系統(tǒng)找到了你對(duì)應(yīng)問(wèn)題的答案,答案來(lái)源于用戶@回答者;
@詢問(wèn)者(問(wèn)題);
@詢問(wèn)者(答案)。
在這部分,我們描述我們的實(shí)驗(yàn)結(jié)果,我們使用C語(yǔ)言作為程序語(yǔ)言,利用玩轉(zhuǎn)四方中的數(shù)據(jù),將我們的日志數(shù)據(jù)分成八個(gè)表,分別由問(wèn)題,答案,用戶和核對(duì)者組成。我們的數(shù)據(jù)集包括365個(gè)有效的問(wèn)題。我們將問(wèn)題分成兩大類:事實(shí)問(wèn)題和主觀問(wèn)題,在我們的數(shù)據(jù)集中,主觀問(wèn)題占70%,事實(shí)問(wèn)題占30%,下表展示了每種類型的問(wèn)題樣式。
我們最希望的結(jié)果就是,比起百度的回答率50%多我們的系統(tǒng)回答問(wèn)題率要超過(guò)它,到達(dá)70~80%。然而百度回答80%為事實(shí)問(wèn)題,僅有20%主觀問(wèn)題。這表明我們的系統(tǒng)主要針對(duì)主觀問(wèn)題,同樣不失事實(shí)問(wèn)題回答。
表4 事實(shí)問(wèn)題與主觀問(wèn)題
圖2 基于問(wèn)題等級(jí)的回答率
基于問(wèn)題等級(jí)的回答率:上圖為基于問(wèn)題等級(jí)的回答率,研究發(fā)現(xiàn):人們相對(duì)于一般問(wèn)題更喜歡去回答好的問(wèn)題。由于好的問(wèn)題,描述清楚,定義明確,可以更好地理解詢問(wèn)者的用意,更利于人們完成任務(wù)。盡管人們?cè)谝话銌?wèn)題和好問(wèn)題的回答率上差距不是很大,但我們依然可以將問(wèn)題設(shè)計(jì)的更好,來(lái)提高問(wèn)題的回答率。
圖3 問(wèn)題等級(jí)與答案等級(jí)之間的映射關(guān)系
問(wèn)題等級(jí)與答案等級(jí)之間的映射關(guān)系:隨著問(wèn)題等級(jí)的變化,得到的答案的等級(jí)也隨之變化。如圖所示,等級(jí)越高的問(wèn)題(好問(wèn)題)相應(yīng)得到的答案的等級(jí)也就越高。好問(wèn)題得到的答案,40%都是好答案,還有10%是可以被轉(zhuǎn)發(fā)的答案,轉(zhuǎn)發(fā)的答案可以交給核對(duì)者,經(jīng)過(guò)核對(duì)后也可以發(fā)給詢問(wèn)者。另一方面,等級(jí)二的問(wèn)題得到的好答案為27%,可以被轉(zhuǎn)發(fā)的答案接近為23%。
圖4 玩轉(zhuǎn)四方用戶的回答率與自由用戶的回答率
玩轉(zhuǎn)四方用戶的回答率與自由用戶的回答率:通過(guò)比較玩轉(zhuǎn)四方用戶和自由用戶對(duì)各種問(wèn)題類型的回答率比較,我們發(fā)現(xiàn),玩轉(zhuǎn)四方的用戶更多的是去回答大學(xué)教育、食物、夜生活等問(wèn)題。而自由用戶更多的是去回答藝術(shù)娛樂(lè)、家庭工作、公園和戶外運(yùn)動(dòng)等問(wèn)題。并且,在購(gòu)物、旅游等非常廣泛的領(lǐng)域,想要為一個(gè)專門(mén)的問(wèn)題找到一個(gè)精通的回答者,是很難的。
在本文中,我們對(duì)老的搜索引擎進(jìn)行了剖析,發(fā)現(xiàn)了它的不足。從而針對(duì)它的缺點(diǎn)進(jìn)行了改進(jìn),提出了新的系統(tǒng),完善了基于位置查詢的功能。從進(jìn)行的實(shí)驗(yàn)中,知道該系統(tǒng)能夠回答至少70%的問(wèn)題。此外,對(duì)于娛樂(lè)、美食、夜生活等方面的問(wèn)題,玩轉(zhuǎn)四方的用戶比自由用戶回答的更符合詢問(wèn)者的要求。最后,社交軟件方面為我們提供了散播問(wèn)題的平臺(tái),這有利于我們快速找到問(wèn)題的答案。
[1]Howe,Jeff.The Rise of Crowdsourcing[J].06 Jenkins H Convergence Culture Where Old&New Media Collide,2006,14(14):1-5.
[2]Howe J.Crowdsourcing:Why the Power of the Crowd Is Driving the Future of Business[J].American Journal of Health-System Pharmacy,2009,67(18):1565-1566.
[3]Kittur A,Chi E H,Suh B.Crowdsourcing user studies with Mechanical Turk[C]//CHI 08:Sigchi Conference on Human Factors in Computing Systems.ACM,2008:453-456.
[4]Kamar E,Horvitz E.Collaboration and Shared Plans in the Open World:Studies of Ridesharing[C]//IJCAI 2009,Proceedings of the,International Joint Conference on Artificial Intelligence,Pasadena,California,Usa,July.2009:187-194.
[5] Chen J,Subramanian L,Brewer E.Sms-based web search for low-end mobile devices[C]//International Conference on Mobile Computing and Networking,MOBICOM 2010,Chicago,Illinois,Usa,September.2010:125-136.
[6]Chow C Y,Bao J,Mokbel M F.Towards location-based social networking services[C]//International Workshop on Location Based Social Networks,Lbsn 2010,November 2,2010,San Jose,Ca,Usa,Proceedings.2010:31-38.
[7]Davidov D,Tsur O,Rappoport A.Semi-supervised recognition of sarcastic sentences in twitter and amazon[J].Conll,2010:107-116.
[8] DemirbasM, BayirM A, AkcoraC G, etal.Crowd-sourced sensing and collaboration using twitter[C]//World of Wireless Mobile and Multimedia Networks.IEEE,2010:1-9.
[9]Lange T,Kowalkiewicz M,Springer T,et al.Overcoming challenges in delivering services to social networks in location centric scenarios.[C]//International Workshop on Location Based Social Networks,Lbsn 2009,November 3,2009,Seattle,Washington,Usa,Proceedings.2009:92-95.
[10]Roussopoulos N,Kelley S,Vincent F.Nearest Neighbor Queries[J].Acm Sigmod Record,1995,24(2):71-79.
[11]Ledlie J,Odero B,Minkov E,et al.Crowd translator:on building localized speech recognizers through micropayments[J].Acm Sigops Operating Systems Review,2010,43(4):84-89.
[12]Von Ahn L,Liu R,Blum M.Peekaboom:a game for locating objects in images[C]//Sigchi Conference on Human Factors in Computing Systems.ACM,2006:55-64.
Location Based Query of Crowdsourcing
MU Chao
(School of Computer and Information,HoHai University,Nanjing 211100)
In the rapid development of intelligent mobile phone network era,everyone can not live without the mobile network,convenient query and online payment is the key to its success.More and more people love to find nearby delicious,fun,hotel,which makes travel more convenient.This create the location-based queries.The traditional search engine in the subjective aspect of the problem is not very good,this has prompted us to explore the effectiveness of Crowdsourcing the location-based queries of microblog.More specifically,Tant is to study the effectiveness of location-based service,which can find a suitable answer the location-based queries.Through several query examples based on this paper,The main research method is feasible,and highlight the importance of social software search engine.
smart phone,convenient query,location query,search engines
TP311
10.3969/j.issn.1672-9722.2017.11.031
Class Number TP311
2017年5月15日,
2017年6月18日
穆超,男,碩士研究生,研究方向:眾包。