黃居仁?王世昌
提 要 眾包概念可從眾包策略、眾包策略的實(shí)現(xiàn)方法以及眾包策略的實(shí)現(xiàn)案例三個(gè)層面來理解。眾包策略的要義在于借助互聯(lián)網(wǎng)以公開招募的形式匯聚眾智眾力解決問題。語言資源建設(shè)包括本體語言資源建設(shè)和派生語言資源建設(shè)兩項(xiàng)主要內(nèi)容。眾包在語言資源建設(shè)中可用于語言數(shù)據(jù)的采集和加工、語言生活輿情調(diào)查、為語言資源建設(shè)提供資金和設(shè)施支持、促進(jìn)語言資源建設(shè)的宣傳推廣和語言資源建設(shè)社會力量的培育。眾包為多、快、好、省、可持續(xù)地進(jìn)行語言資源建設(shè)提供了可能。土耳其機(jī)器人在語言資源建設(shè)中有著廣泛的應(yīng)用空間,是目前眾包策略運(yùn)用于語言資源建設(shè)的最具操作性和最為成熟的實(shí)現(xiàn)方法。
關(guān)鍵詞 眾包;眾包策略;眾包平臺;語言資源;土耳其機(jī)器人
Abstract The crowdsourcing concept can be understood from three perspectives: the crowdsourcing strategy, the implementation method of crowdsourcing strategy, and the implementation case of crowdsourcing strategy. The gist of crowdsourcing strategy is to unite the power and wisdom of crowds to solve problems in the form of open call via the Internet. Language resource construction consists of natural language resource construction and extended language resource construction. In language resource construction, crowdsourcing can be used to collect language data, to process language data, to conduct language-related surveys, to fund language resource construction, to promote the publicity of language resource construction, and to cultivate the social forces for language resource construction. This paper provides a relatively detailed explanation of the development of crowdsourcing strategy and how it can be utilized in developing language resources with an illustration of Mechanical Turk, which has extensive applications in language resource construction and is the most well established and operational crowdsourcing implementation method at present. At the end of the article, we further elaborate the strength of this innovative approach that presents a strategic opportunity for users to champion a collaborative digital
enterprise and to tap into the possibility contributed by diverse audience through using a variety of social media and collaborative software solutions, showing our optimism for the prospect of outsourcing work to the crowd for obtaining needed services or ideas in resolving problems.
Key words crowdsourcing; crowdsourcing strategy; crowdsourcing platform; language resource; Mechanical Turk
一、引 言
語言是一種資源已成為人們的共識。語言資源的重要性也日益引起學(xué)術(shù)界乃至全社會的強(qiáng)烈關(guān)注。語言資源只有經(jīng)過合理的建設(shè)才能充分發(fā)揮其價(jià)值,滿足社會日益增長的語言資源需求,實(shí)現(xiàn)健康可持續(xù)發(fā)展。然而,傳統(tǒng)的語言資源建設(shè)方法有其力有不逮、力不從心之處,不能完全滿足語言資源建設(shè)的需求,這使語言資源建設(shè)陷入困境。眾包策略具有突破這一困境的力量,預(yù)示著語言資源建設(shè)的未來。
語言資源主要包括本體資源(或稱自然語言資源)與派生資源(或稱衍生語言資源)兩大類(陳章太 2008;王鐵琨 2010;李宇明 2011,2012)。本體語言資源包括各種語言及其方言的語音系統(tǒng)、詞匯系統(tǒng)、語法系統(tǒng)和文字符號系統(tǒng);派生語言資源,概括地說,囊括了“語言知識、語言產(chǎn)品和語言技術(shù)”(李宇明 2011);具體地說,它至少包括“語言知識所轉(zhuǎn)化的語文辭書、教科書等文化產(chǎn)品及相關(guān)計(jì)算機(jī)軟件產(chǎn)品,以及字庫和基于語言信息處理的語言知識庫、語料庫、數(shù)據(jù)庫等”(王鐵琨 2010)。
語言資源建設(shè)是一個(gè)由語言資源概念衍生出來的概念,主要包括本體語言資源建設(shè)和派生語言資源建設(shè)兩方面的內(nèi)容。本體語言資源建設(shè)要從量與質(zhì)兩方面著眼。在量的方面,一方面要維持現(xiàn)有本體語言資源,另一方面要積極培育新的本體語言資源,促進(jìn)語言多樣性。在質(zhì)的方面,則要不斷提升各種本體語言資源的活力,促使其健康及可持續(xù)發(fā)展。本體語言資源建設(shè)的具體措施主要包括推廣、保護(hù)、保存、培育和規(guī)范等。此外,我們也應(yīng)該看到語言資源監(jiān)測(陳敏 2010;王鐵琨等 2011;崔樂 2011)以及語言普查工作(李宇明 2008;范俊軍、肖自輝 2010)在本體語言資源建設(shè)中也發(fā)揮著重要的作用,它們能為具體的本體語言資源建設(shè)決策提供信息支持。派生語言資源種類繁多,蔚為大觀。派生語言資源建設(shè)包括了語言知識生產(chǎn)、語言產(chǎn)品建造以及語言技術(shù)研發(fā)等豐富的內(nèi)容。正因如此,派生語言資源建設(shè)大有可為。比較而言,本體語言資源建設(shè)更側(cè)重于語言規(guī)劃、語言戰(zhàn)略和語言政策的籌劃與實(shí)踐,而派生語言資源建設(shè)則更側(cè)重于對語言的文化價(jià)值、工具價(jià)值以及市場價(jià)值的開發(fā)與利用。本體語言資源建設(shè)是派生語言資源建設(shè)的基礎(chǔ),派生語言資源建設(shè)反過來又能促進(jìn)本體語言資源建設(shè),兩者互為補(bǔ)充,互相促進(jìn),共同構(gòu)成了語言資源建設(shè)的內(nèi)容。
語言資源建設(shè)有兩種基本模式,即自上而下模式和自下而上模式。自上而下模式一般由政府、機(jī)構(gòu)或企業(yè)發(fā)起、資助、計(jì)劃并主導(dǎo),同時(shí)負(fù)責(zé)組織人員力量,配置資金設(shè)備,協(xié)調(diào)分工協(xié)作并監(jiān)督進(jìn)度、控制質(zhì)量。在這種模式中幾乎每一件事情都是自上而下協(xié)調(diào)安排的。而自下而上模式則主要依靠社會大眾的力量;在一定的條件下,社會大眾的力量能夠匯聚起來,進(jìn)而通過自我組織的方式進(jìn)行協(xié)作,凝結(jié)成強(qiáng)大的生產(chǎn)力進(jìn)行語言資源建設(shè)。在這種模式中幾乎每件事都是自下而上協(xié)調(diào)安排的。
眾包正是在語言資源建設(shè)中運(yùn)用社會大眾力量的有效途徑。曹志耘(2015)在論述中國語言資源保護(hù)工程(“語保工程”)的定位、目標(biāo)和任務(wù)時(shí)曾言,及語保工程涉及全中國56個(gè)民族、135種語言、十大漢語方言、難以計(jì)數(shù)的方言土語、2000多個(gè)縣,工程規(guī)模浩大,任務(wù)艱巨而緊迫;然而,中國“從事語言資源調(diào)查保護(hù)的專業(yè)力量極為有限”,“與保護(hù)需求相比可謂杯水車薪,重新培養(yǎng)則是遠(yuǎn)水救不了近火”;“調(diào)查保護(hù)經(jīng)費(fèi)完全依靠政府投入,金額有限,也難以保證長期持續(xù)支持”;“語言資源保護(hù)工作是在和時(shí)間賽跑,但由于各方面條件的限制,調(diào)查保護(hù)的速度遠(yuǎn)遠(yuǎn)趕不上語言資源衰亡和流失的速度”。對此他提出的對策是社會化,“面向社會開放,吸引社會大眾參與”,并指出:“如能發(fā)動(dòng)廣大社會力量參與和分擔(dān)語保工程任務(wù),則可從根本上解決人力不足、經(jīng)費(fèi)匱乏、時(shí)間緊迫等問題?!边@與我們所說的自下而上模式,即眾包模式不謀而合。語保工程屬于本體語言資源建設(shè)范疇,而在派生語言資源建設(shè)中也存在同樣的問題,也要運(yùn)用同樣的對策。
眾包一詞由英文單詞crowdsourcing意譯而來,它由Jeff Howe和Mark Robinson于2006年創(chuàng)制。從詞源的角度看,crowdsourcing是crowd和outsourcing的混成詞,它字面的意思是將任務(wù)外包給大眾(to outsource tasks to the crowd)(Howe 2006, 2009)。眾包的定義眾說紛紜,但各種定義基本都不會偏離Jeff Howe題為“Crowdsourcing: A Definition”的博客文章中的基本定義:“眾包是將傳統(tǒng)上由指定人員(通常是雇員)承擔(dān)的工作以公開招募的形式外包到一群不確定的人的行為?!倍谝粍t名為“Crowdsourcing: The Trailer”的視頻短片中,Jeff Howe口述了此定義并在其末尾加上了“通常使用互聯(lián)網(wǎng)”的表述。
我們主張按照從抽象到具體的順序?qū)⒈姲譃槿齻€(gè)層次來理解:(1)眾包策略;(2)眾包策略實(shí)現(xiàn)方法;(3)眾包策略實(shí)現(xiàn)案例。從最抽象的層級上講,眾包是一種問題求解策略。眾包策略的要義在于借助互聯(lián)網(wǎng)以公開招募的形式匯聚眾智眾力解決問題。這種抽象的策略具有極為廣泛的適用性。而將這樣一種抽象的策略應(yīng)用于具體的問題和任務(wù)當(dāng)中,便有了眾包策略的實(shí)現(xiàn)方法的問題,即將眾包策略運(yùn)用到具體的問題和任務(wù)中的方式方法。因?yàn)楝F(xiàn)實(shí)中具體的任務(wù)和問題是多種多樣的,有著不同的性質(zhì)和要求,在其中運(yùn)用眾包策略的方式方法勢必就會有所不同。目前已經(jīng)存在一些較為成熟的眾包策略實(shí)現(xiàn)方法,例如開源(open source)(Raymond 1998)、維基(wiki)(Tapscott & Williams 2006)、土耳其機(jī)器人(Mechanical Turk)(Mason & Suri 2012)、有目的的游戲(games with a purpose)(von Ahn 2006)、雙重目的任務(wù)(dual-purpose work)(von Ahn et al. 2008;Quinn & Bederson 2009,2011)等。眾包策略的實(shí)現(xiàn)方法體現(xiàn)出高度的創(chuàng)造性,新的實(shí)現(xiàn)方法還將不斷出現(xiàn)。各種不同的眾包策略實(shí)現(xiàn)方法都應(yīng)按照各自特點(diǎn)去具體地定義和專門地研究。眾包策略的實(shí)現(xiàn)案例則指的是以一定的方式方法運(yùn)用眾包策略對一個(gè)問題或任務(wù)的解決或完成。眾包策略的實(shí)現(xiàn)案例中貫穿著眾包策略的要義,體現(xiàn)著一定的眾包策略的實(shí)現(xiàn)方法。我們所說的眾包即指眾包策略。
可以以是否使用互聯(lián)網(wǎng)為標(biāo)準(zhǔn)區(qū)分現(xiàn)代眾包與傳統(tǒng)眾包。如果不作特別說明,眾包指的是現(xiàn)代眾包。互聯(lián)網(wǎng)是現(xiàn)代眾包的一個(gè)必備要件:只有通過互聯(lián)網(wǎng)這樣一個(gè)覆蓋面廣、傳輸速度快、通信成本低的通信與數(shù)據(jù)傳輸媒介以及便捷的支付渠道,公開招募才能得以便捷、經(jīng)濟(jì)地實(shí)施,眾智眾力才能得以便捷、經(jīng)濟(jì)地匯聚?;ヂ?lián)網(wǎng)使眾包達(dá)到了前所未有的廣度和深度?,F(xiàn)代眾包的很多應(yīng)用,是傳統(tǒng)眾包所難以實(shí)現(xiàn)的。
眾包對互聯(lián)網(wǎng)的運(yùn)用,催生了眾包平臺這一概念。眾包平臺是供眾包發(fā)起者創(chuàng)建、發(fā)布、管理眾包任務(wù),并供任務(wù)參與者參與眾包任務(wù)的網(wǎng)絡(luò)服務(wù)平臺。眾包平臺通過用戶接口與眾包發(fā)起者和任務(wù)參與者進(jìn)行交互。用戶接口可以以網(wǎng)絡(luò)站點(diǎn)、PC客戶端、移動(dòng)客戶端以及可嵌入網(wǎng)頁的在線應(yīng)用等形式來實(shí)現(xiàn)。有些眾包平臺還提供應(yīng)用編程接口(API),用戶可以通過編程的方式與平臺交互,從而實(shí)現(xiàn)一定的自動(dòng)化。
Howe(2009:280)依照貢獻(xiàn)方式列出了四種主要的眾包類型:(1)大眾智慧或群體智能(crowd wisdom or collective intelligence);(2)大眾創(chuàng)造(crowd creation);(3)大眾投票(crowd voting);(4)眾籌(crowdfunding)。雖然我們認(rèn)為Geiger等(2011)的看法“眾包是一個(gè)復(fù)雜的現(xiàn)象,經(jīng)常涉及這些類別的組合,以至于有時(shí)難以區(qū)分”是合理的。但是Howe(2009)的四個(gè)分類,還是區(qū)分不同眾包形式的重要手段。
二、眾包建設(shè)語言資源
眾包在本體語言資源建設(shè)和派生語言資源建設(shè)中有著廣泛的適用性,并能發(fā)揮一系列重要作用,主要有:(1)語言數(shù)據(jù)采集;(2)語言數(shù)據(jù)加工;(3)語言生活輿情調(diào)查;(4)為語言資源建設(shè)提供資金及設(shè)施支持;(5)促進(jìn)語言資源建設(shè)的宣傳和推廣;(6)促進(jìn)語言資源建設(shè)社會力量的培育。其中,前四項(xiàng)是基礎(chǔ)作用,后兩項(xiàng)是附加作用。
語言數(shù)據(jù)采集是眾包在語言資源建設(shè)中的一個(gè)基本應(yīng)用。在很多的語言資源建設(shè)項(xiàng)目中,語言數(shù)據(jù)采集是基礎(chǔ)任務(wù),并且是難點(diǎn)?;ヂ?lián)網(wǎng)、個(gè)人電腦和智能手機(jī)的普及為語言數(shù)據(jù)采集提供了極大的便利,大眾能夠方便地以多媒體的形式采集語言數(shù)據(jù),而通過互聯(lián)網(wǎng)將采集到的數(shù)據(jù)上傳到數(shù)據(jù)庫也十分便捷;它們?yōu)楸姲Z言數(shù)據(jù)收集帶來了無限可能。
語言數(shù)據(jù)加工是眾包在語言資源建設(shè)中的另一個(gè)基本應(yīng)用。采集到的原始語言數(shù)據(jù)只有經(jīng)過加工才能夠充分地顯現(xiàn)出價(jià)值,便于后續(xù)開發(fā)利用。典型的語言數(shù)據(jù)加工任務(wù)包括分類、標(biāo)注、轉(zhuǎn)寫、翻譯等。考慮到效率及成本問題,如果語言數(shù)據(jù)加工任務(wù)能利用計(jì)算機(jī)自動(dòng)完成,則一般不使用人工,但是絕大多數(shù)語言數(shù)據(jù)加工任務(wù)尚不能完全利用計(jì)算機(jī)自動(dòng)完成,而是需要依靠人機(jī)結(jié)合的方式,利用計(jì)算機(jī)粗處理然后再進(jìn)行人工校對;而有些語言數(shù)據(jù)加工任務(wù),由于尚無自動(dòng)工具可以利用,只能依靠人工。對人而言,語言數(shù)據(jù)加工工作是極為枯燥、乏味且機(jī)械的苦差,做起來往往效率低下,要提高速度唯有增加人手,而在傳統(tǒng)的自上而下模式中,增加人手意味著高昂的經(jīng)費(fèi)支出,不增加人手則意味著漫長的工期。這種兩難境地是自上而下模式經(jīng)常要面對的困境,這使它往往無力招架大規(guī)模語言資源建設(shè)項(xiàng)目。眾包所帶來的大規(guī)模、高靈活度、低成本的人力資源,可以有效打破這一困境。
語言生活輿情調(diào)查也是眾包在語言資源建設(shè)中的重要應(yīng)用。利用眾包的方法發(fā)起在線問卷調(diào)查及大眾投票,可以方便快捷地收集有關(guān)語言生活的輿情信息。大到語言政策、語言認(rèn)同方面的調(diào)查,小到大眾對具體語言現(xiàn)象的觀點(diǎn)等,都可以通過眾包的方法去實(shí)施和獲取。眾包還可以為語言資源建設(shè)提供資金及設(shè)施支持,這主要通過眾籌的方式得以實(shí)現(xiàn)。
在組織和發(fā)起語言資源建設(shè)的眾包活動(dòng)時(shí),必然會涉及對動(dòng)員大眾參與語言資源建設(shè)的宣傳,而大眾實(shí)際參與語言資源建設(shè)的實(shí)踐,又能加深他們對語言資源建設(shè)的理解,甚至激發(fā)起他們參與語言資源建設(shè)的熱情,并自覺或不自覺地成為語言資源建設(shè)的宣傳員,所以眾包也能促進(jìn)語言資源建設(shè)的宣傳和推廣。大眾參與語言資源建設(shè)的過程,也是接受語言資源建設(shè)教育和培訓(xùn)的過程,有可能使其中的一部分人轉(zhuǎn)變?yōu)橹С终Z言資源建設(shè)的穩(wěn)定的社會力量;而圍繞著某些語言資源建設(shè)眾包平臺所形成的社區(qū),更是能以自我組織的方式將語言資源建設(shè)的社會力量凝聚起來。所以眾包在語言資源建設(shè)中的應(yīng)用也有助于培育語言資源建設(shè)的社會力量。
眾包雖屬新興事物,但已有很多用于語言資源建設(shè)的成功案例,舉幾例供大家參考。維基式眾包用于語言資源建設(shè)已結(jié)出累累碩果。大家比較熟悉的維基百科(www.wikipedia.org),可以說是人類有史以來最雄心勃勃的多語言百科詞典。另外,維基詞典(www.wiktionary.org)則以為所有語言創(chuàng)建詞典為目標(biāo),是一部與維基百科相配套的多語言詞典。文泉驛(wenq.org)則以維基式眾包創(chuàng)建了一整套開源、自由、免費(fèi)的高質(zhì)量漢字字庫。鄉(xiāng)音苑(www.phonemica.net)正在用維基式眾包創(chuàng)建漢語方言語音故事庫。
土耳其機(jī)器人式眾包在語言資源建設(shè)中也有積極的應(yīng)用,主要是用于語言數(shù)據(jù)的收集和加工。2010年NAACL舉辦了一個(gè)以“運(yùn)用亞馬遜土耳其機(jī)器人創(chuàng)建語音及語言數(shù)據(jù)”(Creating Speech and Language Data with Amazons Mechanical Turk)為主題的專題研討會,會議論文集收錄了35篇文章,內(nèi)容涉及收集加工自然語言處理技術(shù)所需語言數(shù)據(jù)的方方面面,相關(guān)概要可見Callison-Burch & Dredze(2010)。Chen & Kan(2013)用土耳其機(jī)器人式眾包創(chuàng)建了一個(gè)中英雙語的短信(SMS)語料庫。土耳其機(jī)器人式眾包在語言資源建設(shè)中的另一個(gè)重要應(yīng)用是執(zhí)行語言學(xué)實(shí)驗(yàn)(Kuperman et al. 2012;Mason & Suri 2012;Crump et al. 2013;Enochson & Culbertson 2015)。我們也在運(yùn)用土耳其機(jī)器人式眾包執(zhí)行漢語語言學(xué)實(shí)驗(yàn)方面做了探索,運(yùn)用Crowdflower平臺進(jìn)行了漢語復(fù)合詞語義透明度評估實(shí)驗(yàn)以及漢語分詞實(shí)驗(yàn)方面的成功嘗試,驗(yàn)證了在國際土耳其機(jī)器人平臺上執(zhí)行漢語語言學(xué)實(shí)驗(yàn)的可行性,提出了總體框架并創(chuàng)建了語義透明度數(shù)據(jù)集SemTransCNC 1.0和人工分詞數(shù)據(jù)集WordSegCHC 1.0(Wang et al. 2014a,2014b,2015a,2015b)。
其他的眾包策略實(shí)現(xiàn)方法在語言資源建設(shè)中的應(yīng)用也值得關(guān)注。例如雙重目的任務(wù)式眾包可以被巧妙地用于語言數(shù)據(jù)收集。這方面最為著名的例子可能非reCAPTCHA(von Ahn et al. 2008)莫屬。CAPTCHA的意思是“用于區(qū)分計(jì)算機(jī)和人類的全自動(dòng)公共圖靈測試”(Completely Automated Public Turing Test to Tell Computers and Humans Apart),它要求用戶去識別一些圖片中的扭曲的文字,這種任務(wù)對人來說很簡單,但是對機(jī)器人(計(jì)算機(jī)程序)來說則十分困難,由此它可以將人和機(jī)器人區(qū)分開來。大量網(wǎng)站運(yùn)用CAPTCHA技術(shù)來防止惡意訪問。據(jù)估計(jì),在世界范圍內(nèi)人們每天都會有上億次的CAPTCHA鍵入,每次鍵入都只需幾秒鐘的時(shí)間,但是累積起來,這相當(dāng)于每天數(shù)十萬小時(shí)的人工。這是十分可觀的人類智力資源,它做了計(jì)算機(jī)尚不能做好的扭曲字符識別任務(wù),如不加以利用實(shí)屬浪費(fèi)。于是reCAPTCHA被設(shè)計(jì)了出來,將這種人類智力資源用于輔助紙質(zhì)書籍的數(shù)字化。Google圖書項(xiàng)目(books.google.com)正在利用這項(xiàng)技術(shù)建設(shè)世界最大的數(shù)字圖書館。
眾包用于語言資源建設(shè)所帶來的好處可以用“多、快、好、省、可持續(xù)”來概括?!岸唷庇袃蓚€(gè)含義,一個(gè)含義是規(guī)模大,另一個(gè)含義是多樣性高?!翱臁敝刚Z言資源建設(shè)速度快?!昂谩敝刚Z言資源建設(shè)的質(zhì)量好。“省”指的是節(jié)省資金?!翱沙掷m(xù)”包括兩個(gè)方面:一方面,眾包使得語言資源可以以一種不間斷的生長和進(jìn)化的方式進(jìn)行建設(shè);另一方面,眾包平臺或眾包任務(wù)所培育起來的社區(qū)力量,也顯現(xiàn)出世代傳承、生生不息的生命力,這可以使語言資源建設(shè)獲得源源不斷的動(dòng)力。
三、土耳其機(jī)器人
雖然很多眾包實(shí)現(xiàn)方法在語言資源建設(shè)中都有用武之地,但從目前來看土耳其機(jī)器人(Mecha?nical Turk,簡寫為MTurk)具有特殊的重要性。當(dāng)前,關(guān)于眾包在語言資源建設(shè)中的應(yīng)用往往以土耳其機(jī)器人作為范式。它可以用于語言材料的采集、語言材料的標(biāo)注、執(zhí)行語言學(xué)實(shí)驗(yàn)以及語言生活輿情調(diào)查等,在語言資源建設(shè)中有著廣泛的應(yīng)用空間。與其他眾包實(shí)現(xiàn)方法,例如開源、維基、雙重目的任務(wù)等相比較,它在創(chuàng)建和運(yùn)作眾包任務(wù)方面十分簡便易行,是目前眾包策略運(yùn)用于語言資源建設(shè)的最具操作性的方法。另一方面,它用于語言資源建設(shè)的相關(guān)研究和實(shí)踐較多,人們已經(jīng)積累了相當(dāng)多的知識、經(jīng)驗(yàn)與技術(shù),這使它成為了眾包策略用于語言資源建設(shè)的最為成熟的實(shí)現(xiàn)方法。
土耳其機(jī)器人是以經(jīng)濟(jì)利益為主要激勵(lì)因素促使大眾參與任務(wù)的一種眾包策略實(shí)現(xiàn)方法。它以土耳其機(jī)器人平臺作為基礎(chǔ),土耳其機(jī)器人平臺可以看作一個(gè)24小時(shí)在線、靈活、按需分配的人力資源市場。在土耳其機(jī)器人平臺上有兩類用戶,一類是眾包任務(wù)的發(fā)起者(requester),我們稱之為“雇主”;另一類是眾包任務(wù)的參與者(worker),我們稱之為“工人”。雇主在平臺上創(chuàng)建和發(fā)起眾包任務(wù),并設(shè)定酬金及參與條件,符合參與條件的工人可以在線參與任務(wù),并根據(jù)完成任務(wù)的質(zhì)量及數(shù)量獲得酬金(平臺會從雇主那里收取一定比例的服務(wù)費(fèi)用)。通常一個(gè)眾包任務(wù)會按照雇主的設(shè)定被平臺自動(dòng)分解為一系列同質(zhì)且基本等量的“微任務(wù)”,這個(gè)過程稱為任務(wù)分解(microtasking)。被分解出來的小任務(wù)按慣例被稱作“人類智能任務(wù)”(human intelligence task),英文縮寫為HIT。例如,有10 000個(gè)句子需要標(biāo)注,我們可以將其分解為1000個(gè)(每個(gè)10句)微任務(wù)。任務(wù)通過分解化整為零,每個(gè)微任務(wù)只需要很短的時(shí)間便能完成,不同的微任務(wù)可以被不同的工人并行完成,所有微任務(wù)的結(jié)果整合起來便構(gòu)成了對整個(gè)任務(wù)的解決。每個(gè)工人可以完成一個(gè)或多個(gè)微任務(wù),酬金以其完成的微任務(wù)的質(zhì)量和數(shù)量計(jì)算。每個(gè)微任務(wù)也可以由多個(gè)工人完成,從而可以通過冗余濾除噪音,提高數(shù)據(jù)質(zhì)量。由任務(wù)分解這種機(jī)制來看,土耳其機(jī)器人式的眾包往往是集成性眾包,但是,它也可以實(shí)現(xiàn)選擇性眾包。
土耳其機(jī)器人式眾包以土耳其機(jī)器人平臺為基礎(chǔ)。抽象地看,土耳其機(jī)器人平臺由相互聯(lián)系、相互協(xié)作的五大部分構(gòu)成:(1)由平臺上所有的雇主所構(gòu)成的雇主池(requester pool);(2)由平臺上所有的工人所構(gòu)成的工人池(worker pool);(3)由平臺上所有的正在進(jìn)行的眾包任務(wù)所構(gòu)成的任務(wù)池(task pool);(4)用于實(shí)現(xiàn)用戶管理、任務(wù)管理、質(zhì)量控制、財(cái)務(wù)管理等的服務(wù)機(jī)構(gòu);(5)平臺與用戶交互的界面,包括用戶界面及應(yīng)用編程界面(API)。所有的土耳其機(jī)器人平臺的實(shí)現(xiàn)都要包含這些部分。
四、眾包的技術(shù)需求及在中文環(huán)境使用眾包
目前來看,比較重要的土耳其機(jī)器人平臺實(shí)現(xiàn)有兩個(gè),即亞馬遜土耳其機(jī)器人(Amazons Mechanical Turk,簡寫為AMT,www.mturk.com)和Crowdflower(www.crowdflower.com)。亞馬遜土耳其機(jī)器人出現(xiàn)于2005年,是世界上首個(gè)土耳其機(jī)器人平臺的實(shí)現(xiàn),由它開創(chuàng)的眾包策略的實(shí)現(xiàn)方法相應(yīng)地被稱作土耳其機(jī)器人。Crowdflower是另外一個(gè)著名的土耳其機(jī)器人平臺實(shí)現(xiàn)。它們雖然都是典型的土耳其機(jī)器人平臺,但是也有顯著差異。先從平臺用戶構(gòu)成(雇主池、工人池)上看,AMT不支持美國以外的人申請注冊雇主賬戶,而Crowdflower并無此限制。AMT對雇主賬戶的限制,決定了美國之外的人若想在AMT上創(chuàng)建和發(fā)布任務(wù),只能通過某種中介的方式來間接實(shí)現(xiàn)。AMT僅維持一個(gè)平臺本地的工人池,Crowdflower除擁有平臺本地工人池外,還可以將任務(wù)散布到其他數(shù)十個(gè)外部渠道平臺上,從而也可以使用外部渠道平臺的工人池。AMT曾經(jīng)是Crowdflower的渠道平臺之一,可以說Crowdflower有著比AMT更大的工人池。再從質(zhì)量控制方面看,AMT支持一種稱為“資格證”(qualification)的質(zhì)量控制方式,雇主可以發(fā)布資格測試,工人一旦通過了資格測試便獲得了某種資格證,雇主在發(fā)布任務(wù)的時(shí)候可以限定只有具備某種資格證的人才能參與任務(wù);Crowdflower并不支持這種機(jī)制。AMT允許雇主手動(dòng)駁回工人提交的任務(wù)完成結(jié)果,并且不為駁回的結(jié)果支付酬金,而Crowdflower并不支持這一機(jī)制,但它允許任務(wù)自動(dòng)阻止工人提交一些不符合條件的任務(wù)完成結(jié)果(稱為數(shù)據(jù)驗(yàn)證,data validation)。Crowdflower支持一種稱為“測試問題”(test question)的質(zhì)量控制機(jī)制,AMT則不支持這種機(jī)制。測試問題是一些已知正確答案的問題,將它們插入到工人待處理的任務(wù)中,可以通過工人在這些問題上的表現(xiàn)計(jì)算工人的正確率,從而屏蔽掉一些低質(zhì)量的工人的數(shù)據(jù)。同時(shí),工人在測試問題上出現(xiàn)錯(cuò)誤后,能及時(shí)地獲知自己出錯(cuò)的原因,接受實(shí)時(shí)培訓(xùn),從而提升接下來的表現(xiàn)。
這兩個(gè)平臺都設(shè)在美國,但是它們的用戶遍布全球,可以看作是國際平臺。據(jù)我們所知,中國尚沒有本土的土耳其機(jī)器人平臺。以豬八戒網(wǎng)(www.zbj.com)為代表的一些中國本土威客平臺,也可以算作眾包平臺,但并不是土耳其機(jī)器人平臺。它們實(shí)際上支持傳統(tǒng)的外包模式以及新興的選擇性眾包模式,是混合平臺而不是純粹的眾包平臺。土耳其機(jī)器人以集成性眾包為典型特征,支持任務(wù)分解機(jī)制(microtasking)以及各種機(jī)巧的質(zhì)量控制機(jī)制,這些都是中國本土威客平臺所不具備的。威客平臺也可以通過某些變通的方式用于語言資源建設(shè),但是在便利性與可靠性上都難與土耳其機(jī)器人平臺比肩。目前,若想在漢語語言資源建設(shè)中運(yùn)用土耳其機(jī)器人式眾包,則需創(chuàng)建一個(gè)中國本土的土耳其機(jī)器人平臺或使用現(xiàn)有的國際土耳其機(jī)器人平臺。相比而言,后者更有可行性。搭建一個(gè)土耳其機(jī)器人平臺并不難,難的是建立其用戶基礎(chǔ)并使之成為一個(gè)可用的平臺。我們期待一個(gè)實(shí)際可用的本土土耳其機(jī)器人平臺的出現(xiàn),但在此之前,可先嘗試使用國際土耳其機(jī)器人平臺。國際平臺實(shí)際上也有一些本土平臺所不具備的優(yōu)勢,例如可以收集雙語乃至多語數(shù)據(jù),可以收集全球華語數(shù)據(jù)等。
根據(jù)我們所做過的一些實(shí)驗(yàn)(Wang et al. 2014a,2014b,2015a,2015b;Wang 2016),發(fā)現(xiàn)Crowdflower是一個(gè)漢語語言資源建設(shè)的可行平臺(至少在執(zhí)行語言學(xué)實(shí)驗(yàn)、語言材料標(biāo)注方面是可行的),而就目前而言,AMT還不是一個(gè)漢語語言資源建設(shè)的可行平臺。在國際土耳其機(jī)器人平臺上運(yùn)行漢語語言資源建設(shè)任務(wù)時(shí),有一些特殊的問題需要注意,例如:要對工人是否為漢語母語者進(jìn)行驗(yàn)證,一個(gè)任務(wù)要實(shí)現(xiàn)簡體和繁體漢字兩種界面等。
在國際土耳其機(jī)器人平臺上執(zhí)行漢語語言資源建設(shè)任務(wù)要驗(yàn)證工人是否為漢語母語者。漢語語言資源建設(shè)任務(wù)往往需要從漢語母語者那里收集數(shù)據(jù),而在像Crowdflower這種國際平臺上,漢語母語者只占工人池極少的一部分,我們的實(shí)驗(yàn)表明,如不做母語者驗(yàn)證,我們所收到的數(shù)據(jù)絕大部分會是非母語者提交的無用數(shù)據(jù)(Wang et al. 2014b)。對漢語母語者進(jìn)行篩選,可采取下列三項(xiàng)措施。
其一,可以根據(jù)工人來源地進(jìn)行粗粒度篩選。Crowdflower允許為任務(wù)設(shè)置地區(qū)白名單,只允許來自列入白名單的國家和地區(qū)的工人參與任務(wù)。根據(jù)漢語流行程度差異,世界上的國家和地區(qū)可以分為主要漢語區(qū)、次要漢語區(qū)和非漢語區(qū)三類。主要漢語區(qū)包括中國和新加坡等漢語母語者占人口絕大多數(shù)的國家和地區(qū)。次要漢語區(qū)指有相當(dāng)數(shù)量漢語母語者分布的地區(qū),例如印度尼西亞、馬來西亞、美國、加拿大、新西蘭等。非漢語區(qū)指極少有漢語母語者分布的地區(qū),例如印度、阿拉伯國家等。根據(jù)工人來源地進(jìn)行粗粒度篩選可盡量只開放主要漢語區(qū),在主要漢語區(qū)不能滿足要求時(shí)慎重開啟次要漢語區(qū),不開放非漢語區(qū)。
其二,通過漢語知識測試來細(xì)粒度地驗(yàn)證工人是否為漢語母語者。只根據(jù)工人來源地進(jìn)行粗粒度的篩選往往還不能滿足要求,尤其是在開放次要漢語區(qū)以后。我們可以進(jìn)一步地通過漢語知識測試來驗(yàn)證工人是否為漢語母語者。用于漢語知識測試的題目必須要滿足三個(gè)基本條件:(1)它們對漢語母語者而言十分簡單,幾乎不會答錯(cuò);(2)它們對非漢語母語者而言十分困難,幾乎不會答對;(3)它們應(yīng)當(dāng)是開放型問題,盡量排除猜對的可能性。Crowdflower提供的驗(yàn)證機(jī)制(validation)以及條件顯示機(jī)制,使我們可以限制那些未通過測試的工人看到后續(xù)的任務(wù)或提交數(shù)據(jù),從而將他們屏蔽在外。有很多符合要求的測試題目可供選擇,根據(jù)我們的實(shí)驗(yàn)(Wang et al. 2014a,2014b,2015a,2015b;Wang 2016),漢字識別題便是其中十分簡便有效的一種。漢字識別題提供給工人一張含有漢字的圖片,然后讓工人識別出其中的漢字并鍵入到文本框中。我們可以根據(jù)字頻來控制題目難度,也可以采用扭曲的字形來防止光學(xué)字符識別(OCR)。一般情況下,使用中等偏高頻率的漢字為好。同時(shí),因?yàn)槭澜绶秶鷥?nèi)簡體繁體兩套漢字體系并存,應(yīng)當(dāng)選用兩個(gè)體系交集部分的漢字。這類漢字識別題不僅可以用來區(qū)分漢語母語者與非母語者,還可以用來屏蔽機(jī)器人。要對漢字識別題設(shè)置驗(yàn)證條件來判斷工人是否鍵入了正確的漢字,同時(shí)要將其設(shè)為強(qiáng)制(required),意思是工人如不能答對將無法提交數(shù)據(jù)。當(dāng)然,我們還可以采用一些封閉型的、不設(shè)置驗(yàn)證條件的、非強(qiáng)制的漢語知識測試題目,以便于我們對接收到的數(shù)據(jù)進(jìn)行進(jìn)一步的篩選和清洗。
其三,我們不妨在任務(wù)中設(shè)置一個(gè)工人語言背景調(diào)查。這個(gè)調(diào)查可以直接詢問工人是否為漢語母語者,如果不是的話他的母語是什么,學(xué)習(xí)了多長時(shí)間的漢語等,以方便我們對收集到的數(shù)據(jù)做進(jìn)一步的篩選。
在國際土耳其機(jī)器人平臺上執(zhí)行漢語語言資源建設(shè)任務(wù),還應(yīng)實(shí)現(xiàn)簡體繁體兩套任務(wù)界面,供不同的工人進(jìn)行選擇。可以在任務(wù)的開始設(shè)置一個(gè)問題,詢問工人習(xí)慣使用簡體漢字還是繁體漢字。然后根據(jù)用戶的選擇,利用Crowdflower提供的條件顯示機(jī)制來顯示相應(yīng)界面。
五、案例研究
實(shí)施心理語言學(xué)實(shí)驗(yàn)或問卷調(diào)查(Behrend et al. 2011;Mason & Suri 2012)是土耳其機(jī)器人在語言資源建設(shè)中的重要應(yīng)用。本案例將展示如何利用土耳其機(jī)器人實(shí)施心理語言學(xué)實(shí)驗(yàn)并創(chuàng)建漢語人工分詞數(shù)據(jù)集(Wang et al. 2015a)。漢語與英語不同,在其文字記錄形式中,詞與詞之間缺乏空格等標(biāo)記。因此,在漢語中什么是詞的問題顯得撲朔迷離。分詞就是將記錄漢語的短語、句子、篇章等由字串轉(zhuǎn)變?yōu)樵~串的一個(gè)過程。基于直覺的人工分詞數(shù)據(jù)可用來探究人的詞感;詞的定義應(yīng)該與詞感相一致,因而詞感便成了研究什么是詞的問題的一個(gè)突破口(Hoosain 1992;胡明揚(yáng) 1999;王立 2003;王洪君 2006)?;谥庇X的人工分詞數(shù)據(jù)通常通過問卷調(diào)查或?qū)嶒?yàn)室實(shí)驗(yàn)的方法來獲取,但它們往往存在效率低、花費(fèi)高、參與者多樣性差、難以獲得大規(guī)模樣本等問題。眾包策略的運(yùn)用有助于解決這些問題。
(一)眾包任務(wù)的設(shè)計(jì)
我們依據(jù)研究目的從語料庫中選取了152個(gè)句子,選取標(biāo)準(zhǔn)詳見Wang等(2015a)。不計(jì)標(biāo)點(diǎn),這些句子的最小長度為20字,最大長度為46字,平均長度為32.54字(SD=5.46),總長度為4946字。因?yàn)楸姲蝿?wù)不宜過長,所以這些句子被隨機(jī)均分為8組,每組有19個(gè)句子。我們在Crowdflower平臺上為每組句子各創(chuàng)建一個(gè)眾包任務(wù),共創(chuàng)建了8個(gè)任務(wù)。每個(gè)眾包任務(wù)的核心是一個(gè)問卷。問卷有簡體和繁體兩種版本供參與者選擇。問卷包括5個(gè)部分:(1)標(biāo)題;(2)說明;(3)身份信息問題;(4)漢語知識問題;(5)分詞任務(wù)。第3部分身份信息問題,詢問參與者的性別、年齡、教育程度及電子郵箱(可選)等信息。第4部分漢語知識問題,用4個(gè)簡單的問題測試參與者是否為漢語母語者;前兩個(gè)問題是開放型的漢字識別問題,每個(gè)問題給出一張含有一個(gè)簡單漢字的圖片,要求參與者識別出圖片中的漢字并將其鍵入到文本框中;第三個(gè)問題是一個(gè)封閉型的同音字識別問題,問題中給出一個(gè)漢字,要求參與者在選項(xiàng)所列的10個(gè)漢字中找出與其同音的一個(gè);第四個(gè)問題是封閉型的反義字識別問題,要求參與者在選項(xiàng)所列的10個(gè)漢字中找出與給定漢字意思相反的一個(gè)。8個(gè)任務(wù)問卷的第4部分使用相同的問題類型,但使用不同的問題實(shí)例。第5部分分詞任務(wù)呈現(xiàn)給參與者19個(gè)句子,并要求他們在識別出的詞的界限處插入分詞符號(“/”);我們也要求參與者在標(biāo)點(diǎn)符號及每句最后一個(gè)字后插入分詞符號;參與者被告知他們只要按照直覺分詞即可,無須關(guān)心對錯(cuò)。
我們在創(chuàng)建眾包任務(wù)時(shí)使用了下列參數(shù):(1)對于每個(gè)任務(wù),每個(gè)工人賬號只能提交一個(gè)回饋(response,完成問卷并提交數(shù)據(jù)便構(gòu)成了一個(gè)回饋);(2)對于每個(gè)任務(wù),每個(gè)IP地址只能提交一個(gè)回饋;(3)只接受來自下列區(qū)域的回饋:中國、新加坡、印度尼西亞、馬來西亞、泰國、澳大利亞、加拿大、德國、美國及新西蘭;(4)我們?yōu)槊總€(gè)回饋支付0.25美元(約合1.7元人民幣)。
我們使用了下列質(zhì)量控制措施來保證數(shù)據(jù)質(zhì)量:(1)用第4部分漢語知識問題來屏蔽非漢語語者(包括機(jī)器人);(2)第5部分分詞任務(wù)將不可見,除非參與者正確回答了第4部分的前兩個(gè)問題;(3)參與者所提交的分詞答案要符合規(guī)定格式(分詞答案只能由原始句子加分詞符號構(gòu)成,每個(gè)字或標(biāo)點(diǎn)后只能有0個(gè)或1個(gè)分詞符號;分詞答案中每個(gè)標(biāo)點(diǎn)符號后必須有一個(gè)分詞符號;分詞答案要以一個(gè)分詞符號結(jié)束);(4)除非滿足上述所有條件,否則數(shù)據(jù)不能提交;(5)數(shù)據(jù)收集結(jié)束后將進(jìn)行數(shù)據(jù)清洗以濾除無效回饋。
(二)眾包任務(wù)的執(zhí)行
我們首先運(yùn)行了一個(gè)小的測試任務(wù)來驗(yàn)證任務(wù)設(shè)計(jì)的正確性,其結(jié)果顯示任務(wù)設(shè)計(jì)可行。然后我們啟動(dòng)了第1個(gè)任務(wù),使其單獨(dú)運(yùn)行了大約兩天以進(jìn)一步測試任務(wù)設(shè)計(jì)。在信任務(wù)設(shè)計(jì)無誤且能夠正常運(yùn)行后,我們啟動(dòng)了其余的7個(gè)任務(wù),使8個(gè)任務(wù)同時(shí)運(yùn)行。我們的目標(biāo)是每個(gè)任務(wù)收集到200個(gè)回饋;開始的時(shí)候速度很快,8個(gè)任務(wù)都在最初的3—6天內(nèi)收集到了100個(gè)回饋;隨后速度變得越來越慢,最終我們用了約1.3個(gè)月的時(shí)間達(dá)到了目標(biāo)。Crowdflower畢竟不是中國本土平臺,平臺上漢語母語者有限,這種速度是可以接受的。
(三)數(shù)據(jù)清洗及結(jié)果
8個(gè)任務(wù)都分別收集到了200個(gè)回饋,但并非每個(gè)回饋都是有效的。與傳統(tǒng)的實(shí)驗(yàn)室環(huán)境相比,眾包環(huán)境的噪音水平偏高,所以在對數(shù)據(jù)進(jìn)行分析之前,必須進(jìn)行數(shù)據(jù)清洗以濾除無效回饋。一個(gè)回饋如果具有下列特征的一項(xiàng)或多項(xiàng)將被判為無效:(1)語言知識問題的4個(gè)問題未能全部答對;(2)一個(gè)或多個(gè)句子的分詞結(jié)果詞長全部為1字;(3)一個(gè)或多個(gè)詞的詞長長于7字;(4)完成回饋所用的時(shí)間短于5分鐘;(5)完成回饋所用的時(shí)間長于1小時(shí)?;谏鲜鲆?guī)則,無效回饋被過濾掉;8個(gè)任務(wù)的有效回饋統(tǒng)計(jì)見表1,有效回饋的占比平均約為67%(SD=3.68)。最終形成的人工分詞數(shù)據(jù)集包含152個(gè)句子的分詞數(shù)據(jù)(不計(jì)標(biāo)點(diǎn)總長度為4946字),每個(gè)句子被123—143個(gè)人分詞(均值為133.5,SD=7.37)。根據(jù)我們的數(shù)據(jù)評測,分詞結(jié)果的錯(cuò)誤率很低(<5%),因此我們認(rèn)為數(shù)據(jù)質(zhì)量是可靠的。數(shù)據(jù)評測的方法和過程詳見Wang
等(2015a)。
(四)討論
本案例展示了使用土耳其機(jī)器人平臺Crowdflower實(shí)施心理語言學(xué)實(shí)驗(yàn)創(chuàng)建語言數(shù)據(jù)資源的過程。它展現(xiàn)出的一般方法可以直接應(yīng)用到類似的語言資源創(chuàng)建任務(wù)中。整個(gè)實(shí)驗(yàn)共花費(fèi)約540美元,這些花費(fèi)包括支付參與者的費(fèi)用和平臺收取的服務(wù)費(fèi),約合3600元人民幣;如果使用實(shí)驗(yàn)室方法實(shí)施同等規(guī)模的實(shí)驗(yàn),光是支付參與者的費(fèi)用就至少是這個(gè)數(shù)額的2—3倍;使用眾包策略可以有效降低開支。實(shí)驗(yàn)室實(shí)驗(yàn)需要實(shí)驗(yàn)者具體地去組織實(shí)施實(shí)驗(yàn)(例如招募參與者、安排場所等),眾包實(shí)驗(yàn)在很大程度上避免了這方面的精力支出,這是眾包的一個(gè)優(yōu)勢。眾包實(shí)驗(yàn)的參與者來自世界各地,在多樣性上要高于一般的實(shí)驗(yàn)室實(shí)驗(yàn),并且能夠很方便地獲取大的樣本。在速度方面,因?yàn)镃rowdflower并非中國本土平臺,它的工人池中的漢語母語者很少,所以總體速度并不是特別理想(約1.3個(gè)月),但從8個(gè)任務(wù)都在開始的3—6天內(nèi)收集到了100個(gè)回饋這點(diǎn)來看,只要有合適的本土平臺,速度可以非???。作為國際土耳其機(jī)器人平臺,雖然Crowdflower可以實(shí)施漢語語言資源建設(shè)任務(wù),但顯然中國本土平臺是更為合適的選擇,故應(yīng)盡快創(chuàng)建中國本土的土耳其機(jī)器人平臺。
漢語分詞任務(wù)實(shí)際上也可以看作一個(gè)標(biāo)注任務(wù),故本案例也可為標(biāo)注任務(wù)提供借鑒。因?yàn)槲覀円獙?shí)施心理語言學(xué)實(shí)驗(yàn),為了對任務(wù)有更多的控制,采用手工任務(wù)分割的方法創(chuàng)建了多個(gè)眾包任務(wù)。一般的標(biāo)注任務(wù)可以直接使用平臺所提供的任務(wù)分割機(jī)制,上傳待標(biāo)注的語言數(shù)據(jù)(例如以句子為單位,以電子表格形式組織),設(shè)定每個(gè)任務(wù)的規(guī)模(例如每個(gè)任務(wù)6個(gè)句子),設(shè)定標(biāo)注冗余量(例如每個(gè)句子由10個(gè)不同的人標(biāo)注),創(chuàng)建任務(wù)模板,平臺便可以自動(dòng)進(jìn)行任務(wù)分割和創(chuàng)建。在設(shè)定了標(biāo)注冗余量后,可以使用多數(shù)決(majority voting)的方式來聚合出最終標(biāo)注結(jié)果。同時(shí),一般的標(biāo)注任務(wù)不需要設(shè)置每個(gè)工人賬戶及每個(gè)IP地址只能提交一個(gè)回饋的限制。
除了本案例所示的實(shí)驗(yàn)外,我們還實(shí)施了另外兩個(gè)實(shí)驗(yàn)(Wang et al. 2014a,2014b,2015b)。Wang等(2014b)所報(bào)告的實(shí)驗(yàn)主要目的在于驗(yàn)證在國際土耳其機(jī)器人平臺上實(shí)施漢語實(shí)驗(yàn)的可行性;它對在國際土耳其機(jī)器人平臺上實(shí)施漢語實(shí)驗(yàn)的具體技術(shù)細(xì)節(jié)進(jìn)行探索,并證實(shí)了Crowdflower平臺可以用于實(shí)施漢語數(shù)據(jù)相關(guān)的實(shí)驗(yàn);它說明了眾包實(shí)驗(yàn)在速度和經(jīng)濟(jì)性上要優(yōu)于傳統(tǒng)的實(shí)驗(yàn)室實(shí)驗(yàn),而在數(shù)據(jù)質(zhì)量方面也能符合預(yù)期。Wang等(2014a,2015b)所報(bào)告的實(shí)驗(yàn)則在可行性已經(jīng)被驗(yàn)證的基礎(chǔ)上嘗試實(shí)施一個(gè)收集近1200個(gè)復(fù)合詞的語義透明度主觀評估數(shù)據(jù)的大型語言學(xué)實(shí)驗(yàn)。每個(gè)詞分別收集一個(gè)整體透明度、兩個(gè)成分透明度的評估數(shù)據(jù),所以實(shí)驗(yàn)共有大約3600個(gè)問題,我們要求每個(gè)詞由50—60個(gè)人去評估。這種規(guī)模的實(shí)驗(yàn)在傳統(tǒng)的實(shí)驗(yàn)室環(huán)境中實(shí)施是有很大難度的,而采用眾包的方法我們在一個(gè)半月時(shí)間內(nèi)就高效而經(jīng)濟(jì)地完成了(實(shí)驗(yàn)花費(fèi)約1000美元)。實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)室數(shù)據(jù)的比較也印證了眾包實(shí)驗(yàn)數(shù)據(jù)質(zhì)量的可靠性。
眾包實(shí)驗(yàn)?zāi)壳耙呀?jīng)能夠發(fā)揮一些重要且不可替代的作用。一些因?yàn)闀r(shí)間成本和經(jīng)濟(jì)成本等因素而難以在實(shí)驗(yàn)室環(huán)境中實(shí)施的實(shí)驗(yàn),眾包可能是一個(gè)可以接受的選擇。眾包實(shí)驗(yàn)還可為一些研究項(xiàng)目的立項(xiàng)提供初期的數(shù)據(jù)支持,為項(xiàng)目的可行性論證提供數(shù)據(jù)參考。還可用于快速、經(jīng)濟(jì)地測試實(shí)驗(yàn)設(shè)計(jì)并為是否實(shí)施實(shí)驗(yàn)室實(shí)驗(yàn)提供決策依據(jù)。
六、結(jié) 語
語言資源建設(shè)空間廣闊,大有可為;它的社會意義重大、各方需求強(qiáng)烈,因而不可不為。同時(shí),語言資源建設(shè)難度大,有其艱巨性與復(fù)雜性。眾包策略在語言資源建設(shè)中有著廣泛的適用性,能發(fā)揮多方面的重要作用,能為語言資源建設(shè)打開新局面,使得多、快、好、省、可持續(xù)地進(jìn)行語言資源建設(shè)成為可能。
然而,眾包策略在語言資源建設(shè)中的適用范圍尚面臨一些質(zhì)疑,原因是存在一些看似難以應(yīng)用眾包的語言資源建設(shè)任務(wù)。不同的語言資源建設(shè)任務(wù)對參與者的語言學(xué)專家知識的需求程度不同,我們可據(jù)此將語言資源建設(shè)任務(wù)粗略地分為兩類。一類是“大眾型任務(wù)”,即對參與者的專家知識沒有要求或要求較低的語言資源建設(shè)任務(wù),例如方言數(shù)據(jù)收集、語音的文字轉(zhuǎn)寫、指代消歧標(biāo)注、多義詞義項(xiàng)標(biāo)注以及案例所示的基于直覺的分詞等。此類任務(wù)只需要依靠參與者的常識性的語言知識或直覺即可,是比較容易眾包的。另一類是“專家型任務(wù)”,即對參與者的專家知識有較高要求的語言資源建設(shè)任務(wù),例如語音的國際音標(biāo)轉(zhuǎn)寫、詞性標(biāo)注、語義角色標(biāo)注、句子結(jié)構(gòu)標(biāo)注等。在一般的眾包平臺上因?yàn)榫邆湎嚓P(guān)專家知識的人太少,故這類任務(wù)較難眾包,但是通過一些策略也能將它們有效眾包?;镜牟呗杂腥齻€(gè):轉(zhuǎn)化、培訓(xùn)和使用專家平臺。轉(zhuǎn)化是指將專家型任務(wù)轉(zhuǎn)化為大眾型任務(wù),例如兼類詞的不同詞性的義項(xiàng)在語義上往往有明顯區(qū)別,可將詞性標(biāo)注任務(wù)轉(zhuǎn)化為義項(xiàng)標(biāo)注任務(wù)。培訓(xùn)是指在任務(wù)中設(shè)置培訓(xùn)環(huán)節(jié),對任務(wù)參與者進(jìn)行培訓(xùn),使他們具備參與任務(wù)的專家知識。第三種策略是使用專家平臺。眾包是將任務(wù)外包給人群,它的力量根本上取決于目標(biāo)人群的能力結(jié)構(gòu)。創(chuàng)建一個(gè)專門服務(wù)于語言資源建設(shè)的匯聚了大量語言學(xué)專家的土耳其機(jī)器人平臺是可行的。在這樣的平臺上,即便是專家型語言資源建設(shè)任務(wù)也能很方便地眾包。
眾包策略用于語言資源建設(shè)的研究尚處于起步階段,其在漢語語言資源建設(shè)中的應(yīng)用更是如此。首先,數(shù)據(jù)質(zhì)量是運(yùn)用眾包策略時(shí)的主要關(guān)注點(diǎn),因此要進(jìn)一步加強(qiáng)數(shù)據(jù)質(zhì)量控制方面的研究,例如數(shù)據(jù)驗(yàn)證、數(shù)據(jù)清洗、數(shù)據(jù)評測等,以確保能夠運(yùn)用眾包方法收集到高質(zhì)量的數(shù)據(jù)。其次,要進(jìn)一步加強(qiáng)眾包策略和傳統(tǒng)策略的對比研究,在對比中進(jìn)一步摸清眾包策略的特點(diǎn)和規(guī)律,為其設(shè)計(jì)更好的范式與框架。再次,應(yīng)開展眾包策略運(yùn)用于各種語言資源建設(shè)具體問題的研究,為具體的問題尋找基于眾包策略的優(yōu)化解決方案。最后,還應(yīng)加強(qiáng)眾包平臺方面的研究,尤其是土耳其機(jī)器人平臺的研究,進(jìn)而設(shè)計(jì)更好的平臺,并創(chuàng)建中國本土的平臺。
參考文獻(xiàn)
曹志耘 2015 《中國語言資源保護(hù)工程的定位、目標(biāo)與任務(wù)》,《語言文字應(yīng)用》第4期。
陳 敏 2010 《國家語言資源監(jiān)測與研究中心概介》,《術(shù)語標(biāo)準(zhǔn)化與信息技術(shù)》第3期。
陳章太 2008 《論語言資源》,《語言文字應(yīng)用》第1期。
崔 樂 2011 《語言資源監(jiān)測研究發(fā)展態(tài)勢》,《江漢大學(xué)學(xué)報(bào)》(人文科學(xué)版)第3期。
范俊軍、肖自輝 2010 《國家語言普查芻議》,《語言文字應(yīng)用》第1期。
胡明揚(yáng) 1999 《說 “詞語”》,《語言文字應(yīng)用》第3期。
李宇明 2008 《語言資源觀及中國語言普查》,《鄭州大學(xué)學(xué)報(bào)》(哲學(xué)社會科學(xué)版)第1期。
李宇明 2011 《語言也是 “硬實(shí)力”》,《華中師范大學(xué)學(xué)報(bào)》 (人文社會科學(xué)版)第5期。
李宇明 2012 《當(dāng)代中國語言生活中的問題》,《中國社會科學(xué)》第9期。
王洪君 2006 《從本族人語感看漢語的 “詞”——評王立〈漢語詞的社會語言學(xué)研究〉》,《語言科學(xué)》第5期。
王 立 2003 《漢語詞的社會語言學(xué)研究》,北京:商務(wù)印書館。
王鐵琨 2010 《基于語言資源理念的語言規(guī)劃——以 “語言資源監(jiān)測研究” 和 “中國語言資源有聲數(shù)據(jù)庫建設(shè)” 為例》,《陜西師范大學(xué)學(xué)報(bào)》(哲學(xué)社會科學(xué)版)第6期。
王鐵琨、崔 樂、高媛媛 2011 《談?wù)劵跀?shù)據(jù)分析的語言資源監(jiān)測研究工作》,《北華大學(xué)學(xué)報(bào)》(社會科學(xué)版)第4期。
Behrend, Tara S., David J. Sharek, Adam W. Meade, and Eric N. Wiebe. 2011. The Viability of Crowdsourcing for Survey Research. Behavior Research Methods 43(3), 800-813.
Callison-Burch, Chris and Mark Dredze. 2010. Creating Speech and Language Data with Amazons Mechanical Turk. Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazons Mechanical Turk, 1-12.
Chen, Tao and Min-Yen Kan. 2013. Creating a Live, Public Short Message Service Corpus: The NUS SMS Corpus. Language Resources and Evaluation 47(2), 299-335.
Crump, Matthew J. C., John V. McDonnell, and Todd M. Gureckis. 2013. Evaluating Amazons Mechanical Turk as a Tool for Experimental Behavioral Research. PLoS ONE 8(3), e57410.
Enochson, Kelly and Jennifer Culbertson. 2015. Collecting Psycholinguistic Response Time Data Using Amazon Mechanical Turk. PLoS ONE 10(3), e0116946.
Geiger, David, Stefan Seedorf, Thimo Schulze, Robert C. Nickerson, and Martin Schader. 2011. Managing the Crowd: Towards a Taxonomy of Crowdsourcing Processes. Proceedings of the Seventheenth Americas Conference on Information Systems, 1-11.
Hoosain, Rumjahn. 1992. Psychological Reality of the Word in Chinese. Advances in Psychology 90, 111-130.
Howe, Jeff. 2006. The Rise of Crowdsourcing. Wired Magazine 14(6), 1-4.
Howe, Jeff. 2009. Crowdsourcing: Why the Power of the Crowd Is Driving the Future of Business. New York: Three Rivers Press.
Kuperman, Victor, Hans Stadthagen-Gonzalez, and Marc Brysbaert. 2012. Age-of-Acquisition Ratings for 30 000 English Words. Behavior Research Methods 44(4), 978-990.
Mason, Winter and Siddharth Suri. 2012. Conducting Behavioral Research on Amazons Mechanical Turk. Behavior Research Methods 44(1), 1-23.
Quinn, Alexander J. and Benjamin B. Bederson. 2009. A Taxonomy of Distributed Human Computation. University of Maryland 107(2), 263-270.
Quinn, Alexander J. and Benjamin B. Bederson. 2011. Human Computation: A Survey and Taxonomy of a Growing Field. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 1403-1412.
Raymond, Eric S. 1998. The Cathedral and the Bazaar. First Monday 3(3). 2 Mar. 1998. 2 Jul. 2016. http://firstmonday.org/article/view/578/499.
Tapscott, Don and Anthony D. Williams. 2006. Wikinomics: How Mass Collaboration Changes Everything. Region 42(1), 11.
von Ahn, Luis. 2006. Games with a Purpose. IEEE Computer 39(6), 92-94.
von Ahn, Luis, Benjamin Maurer, Colin McMillen, David Abraham, and Manuel Blum. 2008. reCAPTCHA: Human-Based Character Recognition via Web Security Measures. Science 321(5895), 1465-1468.
Wang, Shichang. 2016. Crowdsourcing Method in Empirical Linguistic Research: Chinese Studies Using Mechanical Turk-Based Experimentation. PhD thesis, The Hong Kong Polytechnic University.
Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2014a. Building a Semantic Transparency Dataset of Chinese Nominal Compounds: A Practice of Crowdsourcing Methodology. Proceedings of Workshop on Lexical and Grammatical Resources for Language Processing, 147-156.
Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2014b. Exploring Mental Lexicon in an Efficient and Economic Way: Crowdsourcing Method for Linguistic Experiments. Proceedings of the 4th Workshop on Cognitive Aspects of the Lexicon, 105-113.
Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2015a. Create a Manual Chinese Word Segmentation Dataset Using Crowdsourcing Method. Proceedings of the Eighth SIGHAN Workshop on Chinese Language Processing, 7-14.
Wang, Shichang, Chu-Ren Huang, Yao Yao, and Angel Chan. 2015b. Mechanical Turk-Based Experiment vs Laboratory-Based Experiment: A Case Study on the Comparison of Semantic Transparency Rating Data. Proceedings of the 29th Pacific Asia Conference on Language, Information and Computation, 53-62.
責(zé)任編輯:龔 英