李可兒 陳建
摘? 要:美國波士頓公共圖書館的反奴隸制手稿轉(zhuǎn)錄眾包項目是檔案眾包實踐的杰出代表,該眾包項目在館藏選擇、平臺應(yīng)用、任務(wù)設(shè)計、激勵機制、質(zhì)量控制等方面具有諸多特色和創(chuàng)新。我國檔案眾包實踐應(yīng)積極吸收借鑒其先進(jìn)做法,同時注重結(jié)合自身實際情況,在檔案開放、需求導(dǎo)向、平臺建設(shè)、技術(shù)創(chuàng)新、任務(wù)設(shè)計、社區(qū)建設(shè)、項目宣傳等方面協(xié)同發(fā)力,加快檔案眾包實踐的推進(jìn)步伐,提升公共檔案服務(wù)水平和公眾獲得感。
關(guān)鍵詞:檔案眾包;波士頓公共圖書館;反奴隸制手稿轉(zhuǎn)錄項目;公眾科學(xué)平臺;館藏檔案
Abstract: The Anti-Slavery Manuscripts Transcription Crowdsourcing Project of Boston Public Library in the United States is an outstanding example of Archives crowdsourcing practice, which has many characteristics and innovations in collection selection, platform application, task design, incentive mechanism, quality control and other aspects. China's Archives crowdsourcing practice should actively absorb and learn from its advanced practice. At the same time, we should pay attention to combining actual situation of our own, and make concerted efforts in Archives opening, demand orientation, platform construction, technological innovation, task design, community construction, project publicity and other aspects to accelerate the pace of Archives crowdsourcing practice and improve the service level of public Archives and the sense of public gain.
Keywords: Archives crowdsourcing; Boston public library; Anti-slavery manuscripts transcription project; Citizen science platform; Collection archives
“眾包(crowdsourcing)”是一個由“人群(crowd)”和“來源(source)”組成的術(shù)語,它最早由杰夫·豪于2006年在《連線》雜志中的文章《眾包的崛起》[1]中提出。眾包是指一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定(而且通常是大型的)的大眾網(wǎng)絡(luò)的做法。[2][3]檔案眾包是以檔案機構(gòu)、社會公眾為主體,檔案資源為對象,互聯(lián)網(wǎng)技術(shù)為依托而開展的檔案資源建設(shè)實踐。
本文特選取美國波士頓公共圖書館的反奴隸制手稿轉(zhuǎn)錄項目這一檔案眾包的典型案例作為研究對象,對其進(jìn)行全面深入的分析,總結(jié)其特色及創(chuàng)新之處,并結(jié)合我國實際情況對檔案眾包工作提出具體建議。
1 檔案眾包模式興起的實踐背景分析
檔案眾包模式的興起有其特定的實踐背景,可概括為Web2.0技術(shù)的應(yīng)用、業(yè)余愛好者的崛起、商業(yè)眾包的成功經(jīng)驗三個方面。
1.1 Web2.0技術(shù)的應(yīng)用。Web2.0不只是意味著技術(shù)的進(jìn)步,也使得互聯(lián)互享的精神深入人心,這為眾包的發(fā)展提供了豐富的物質(zhì)和精神基礎(chǔ)。
1.2 業(yè)余愛好者的崛起。業(yè)余愛好者的崛起為眾包提供了豐富的人力資源,一方面,眾包以全世界的人才為基礎(chǔ);另一方面,就像不關(guān)心國籍一樣,眾包也不太關(guān)心專業(yè)資格,崇尚能者為王。[5]
1.3 商業(yè)眾包的成功經(jīng)驗。眾包最先應(yīng)用于商業(yè)領(lǐng)域,各種成功案例為人們提供了許多有益的經(jīng)驗。Threadless公司通過眾包競賽的方式從網(wǎng)絡(luò)上征集T恤設(shè)計方案;Goldcorp公司通過眾包的方式發(fā)動群眾勘探金礦的位置;眾包平臺mturk架起了企業(yè)與眾包工作者之間的橋梁……這些經(jīng)驗為檔案眾包工作指明了方向。
2 波士頓公共圖書館反奴隸制手稿轉(zhuǎn)錄眾包項目探析
2.1 項目簡介。波士頓公共圖書館的反奴隸制收藏是美國最大和最重要的廢奴主義材料收藏,包含從19世紀(jì)30年代至70年代的大約4萬份函件、信封、報紙、手冊、書籍和紀(jì)念品。主要藏品包括威廉·勞埃德·加里森、瑪麗亞·韋斯頓·查普曼等人的文書,馬薩諸塞州、新英格蘭和女性反奴隸制協(xié)會的記錄,以及威廉·勞埃德·加里森、西奧多·帕克等人的藏書。此外,該收藏還包括威廉·勞埃德·加里森的完整版《解放者》,該報紙是廢奴運動的權(quán)威刊物,從1831年至1866年連續(xù)出版了35年。
反奴隸制手稿轉(zhuǎn)錄眾包項目自2018年1月23日開始,到2020年8月12日結(jié)束,有26059人參與其中,共抄寫了12247封信件。
2.2 館藏選擇。反奴隸制手稿十分契合開展檔案眾包工作的要求。其一,價值高、數(shù)量多且必須依靠人力才能完成轉(zhuǎn)錄。波士頓公共圖書館的反奴隸制收藏具有不可估量的歷史價值和現(xiàn)實意義。由于館藏的很大一部分為手寫信件,靠當(dāng)前的文字識別技術(shù)很難保證自動轉(zhuǎn)錄的準(zhǔn)確度,只能依靠人工的力量去完成轉(zhuǎn)錄任務(wù)且只有靠眾包才能解決這眾多的困境。
其二,具有足夠的吸引力。反奴隸制手稿收藏包羅萬象,能夠親自轉(zhuǎn)錄對廣大研究者、學(xué)生和歷史文化愛好者而言是個不可多得的機會。
2.3 平臺選擇。該項目選擇了第三方平臺Zooniverse,它是全球最大、最受歡迎公眾科學(xué)平臺。截至2021年4月,Zooniverse擁有近223萬注冊志愿者,共完成近5.8億次科學(xué)任務(wù)。[6]Zooniverse為公眾科學(xué)項目的全過程提供全方位的技術(shù)和平臺支持服務(wù)[7],這是普通的眾包平臺所不具備的獨特優(yōu)勢。在Zooniverse創(chuàng)建項目十分便捷,同時,Zooniverse也為用戶提供了相當(dāng)強大的社區(qū)支持。[8]
2.4 任務(wù)設(shè)計。由于該項目的數(shù)據(jù)量大,需要人工判斷,且可以分割成若干個小單元,故采取了“微任務(wù)”的眾包形式。與以往的檔案眾包項目不同,反奴隸制手稿轉(zhuǎn)錄項目組將任務(wù)進(jìn)一步細(xì)化,不再以“件”為一個任務(wù),而是以“行”為一個任務(wù)單位,參與者可根據(jù)自身情況轉(zhuǎn)錄一行或幾行。
項目轉(zhuǎn)錄界面簡潔明了,且配有清晰易懂的教程。項目采取協(xié)同轉(zhuǎn)錄的形式,每位轉(zhuǎn)錄者在完成自己的任務(wù)后均須保存,否則轉(zhuǎn)錄內(nèi)容將丟失。當(dāng)一行文字受到了足夠多次數(shù)的轉(zhuǎn)錄之后,行標(biāo)記就會變?yōu)榛疑?,提醒后來的轉(zhuǎn)錄者去轉(zhuǎn)錄其他內(nèi)容。當(dāng)轉(zhuǎn)錄者發(fā)現(xiàn)一組文件的每一行都被轉(zhuǎn)錄過且行標(biāo)記均為灰色時,就可以點擊“完成”按鈕進(jìn)行最后的提交。
2.5 激勵機制
2.5.1 授予勛章。當(dāng)參與者完成了一定量的任務(wù)時,Zooniverse就會向他們頒發(fā)勛章。這些勛章是根據(jù)英國皇家的排名而命名的。最低一級的勛章為士,最高勛章為首長[9],它會被授予完成最多任務(wù)的人。授予勛章是對參與者工作能力的肯定,能讓參與者獲得滿足感與成就感,以此形成良性循環(huán)。
2.5.2 社區(qū)互動。反奴隸制手稿轉(zhuǎn)錄項目擁有一個成熟的社區(qū)環(huán)境,利用Zooniverse的社區(qū)架構(gòu),項目組創(chuàng)建了屬于自己的討論社區(qū)。社區(qū)分為一般討論、主題筆記、團(tuán)隊消息、自我介紹、解決問題等版塊,滿足了大部分的交流需求。良好的社區(qū)氛圍也增強了參與者之間的凝聚力,給予他們一種歸屬感,這種情感上的激勵也有利于人們更為積極地投入到項目中去。
2.6 質(zhì)量控制。該項目質(zhì)量控制包含前期、中期、后期三個方面。
2.6.1 前期——選擇合適的參與者。像Facebook、Twitter這種大眾社交網(wǎng)站上的網(wǎng)民素質(zhì)良莠不齊,如果直接招募,后續(xù)將會花費大量時間和精力在篩選參與者上,不僅如此,被淘汰的網(wǎng)民很可能還會產(chǎn)生不滿情緒,從而做出一些阻礙項目正常開展的行為。因此,相比傳統(tǒng)的“海選”,更好的做法還是在特定的社群選擇合適的參與者。
在Zooniverse注冊成為參與者的人往往都受過科學(xué)教育,并對科學(xué)感興趣,他們的參與無疑為保證項目質(zhì)量提供了強有力的人才支撐,也有利于項目的持續(xù)推進(jìn)。作為全球最大、最受歡迎公眾科學(xué)平臺,Zooniverse自然也不乏資深志愿者,他們不僅有著豐富的經(jīng)驗,還具有強大的影響力,與他們合作不僅可以促進(jìn)項目的發(fā)展完善,也有利于擴大項目的知名度,從而吸引更多的人參與其中。
2.6.2 中期——創(chuàng)新工作方法。反奴隸制手稿轉(zhuǎn)錄項目創(chuàng)新了工作方法,與之前在Zooniverse登錄的檔案眾包項目不同,它不再采用獨立轉(zhuǎn)錄的形式,而是采用了一種新的工作方法——協(xié)同轉(zhuǎn)錄。兩者最大的不同在于采用獨立轉(zhuǎn)錄方法的參與者看不到前人的轉(zhuǎn)錄結(jié)果,而采用協(xié)同轉(zhuǎn)錄方法的參與者則可以看到。
根據(jù)Blickhan等人[10]的研究,2018年1月23日至9月1日,項目組在進(jìn)行轉(zhuǎn)錄工作的同時也開展了一項實驗。參與者被隨機分配到獨立轉(zhuǎn)錄或協(xié)同轉(zhuǎn)錄的系統(tǒng)中,兩個系統(tǒng)均上傳了由2173封信件組成的相同數(shù)據(jù)集,從這個數(shù)據(jù)集中選擇5封信件(共19頁文本)作為樣本集,樣本集由專家提供標(biāo)準(zhǔn)轉(zhuǎn)錄數(shù)據(jù)。
結(jié)果表明,被分配到協(xié)同轉(zhuǎn)錄系統(tǒng)中的參與者產(chǎn)生的轉(zhuǎn)錄數(shù)據(jù)與標(biāo)準(zhǔn)轉(zhuǎn)錄數(shù)據(jù)的差異明顯小于被分配到獨立轉(zhuǎn)錄系統(tǒng)中的參與者提供的轉(zhuǎn)錄數(shù)據(jù)。不僅如此,采用協(xié)同轉(zhuǎn)錄方法的參與者于2018年10月22日完成了轉(zhuǎn)錄任務(wù),與此同時,采用單獨轉(zhuǎn)錄方法的參與者卻只完成了不到50%的任務(wù)。
實驗證明,協(xié)同轉(zhuǎn)錄不僅能產(chǎn)生更高質(zhì)量的數(shù)據(jù),而且花費更少的時間來實現(xiàn)這一結(jié)果,基于此,項目組在實驗結(jié)束之后關(guān)閉了獨立轉(zhuǎn)錄系統(tǒng),之后的參與者均采用協(xié)同轉(zhuǎn)錄的方法來完成任務(wù)。
2.6.3 后期——專家審核。雖然協(xié)同轉(zhuǎn)錄大大提升了項目完成質(zhì)量,但并不能保證得出的數(shù)據(jù)都是完全正確的。對這樣一個參與人數(shù)眾多、體量龐大的檔案眾包項目而言,必須對成果進(jìn)行系統(tǒng)的檢查和整合,否則將難以實現(xiàn)數(shù)據(jù)的有效利用。根據(jù)項目組的官方博客,數(shù)據(jù)現(xiàn)在正由工作人員進(jìn)行審核,審核完成后才能被上傳到數(shù)據(jù)庫中供人們免費利用。
3 美國反奴隸制手稿轉(zhuǎn)錄眾包項目對我國的啟示
3.1 做好檔案開放工作。開放的檔案資源是檔案眾包實施的基礎(chǔ),反奴隸制手稿轉(zhuǎn)錄項目能夠成功上線的背后是海量已經(jīng)開放的數(shù)字檔案。目前,我國檔案的開放程度遠(yuǎn)遠(yuǎn)不能滿足檔案眾包工作開展的需要,因此,必須做好檔案開放工作。
首先,要加強檔案開放的制度建設(shè),促進(jìn)檔案開放工作有序開展。其次,檔案機構(gòu)應(yīng)轉(zhuǎn)變思想,樹立服務(wù)意識,以用戶為導(dǎo)向,優(yōu)化檔案開放評估體系,不斷滿足用戶的多元需求。再次,加快檔案資源數(shù)字化進(jìn)程,建立標(biāo)準(zhǔn)信息數(shù)據(jù)庫,完善檢索機制,降低利用門檻,實現(xiàn)檔案資源更廣范圍的共建共享。最后,處理好“開放”與“保密”的關(guān)系,打破“開放危險、保密保險”的思維定式,要利用科學(xué)制度設(shè)計和專業(yè)技術(shù)手段來保證檔案資源的安全,促進(jìn)檔案開放工作的長遠(yuǎn)發(fā)展。
3.2 以社會需求為導(dǎo)向。為了推廣項目并確保其成功,有必要確定觀眾想從材料中得到什么,而不僅僅是該項目希望推廣什么。[11]正如反奴隸制手稿轉(zhuǎn)錄項目符合了大眾接觸珍貴歷史檔案、體驗新技術(shù)以及促進(jìn)社會公平正義的要求,而大眾需求的滿足反過來又給予了該項目持續(xù)開展的強大動力。
因此,開展檔案眾包工作應(yīng)以社會需求為導(dǎo)向,努力推出社會大眾真正感興趣的項目。檔案機構(gòu)應(yīng)進(jìn)行廣泛且深入的調(diào)查,挖掘大眾的需求所在,并根據(jù)調(diào)查結(jié)果上線眾包項目。在項目運行過程中要虛心聽取來自大眾的意見和建議,博采眾長,不斷修正問題、完善項目,爭取做出令大眾滿意、讓大眾有所得的優(yōu)秀項目。
3.3 聯(lián)動各方建立完善專業(yè)的檔案眾包平臺。目前,我國的檔案眾包平臺建設(shè)工作嚴(yán)重不足,初具規(guī)模的僅“上海圖書館眾包系統(tǒng)”這一個平臺。除了數(shù)量極少,平臺的質(zhì)量也遠(yuǎn)遠(yuǎn)不及國外。
以“上海圖書館眾包系統(tǒng)”為例,一是在互聯(lián)網(wǎng)上很難搜索到關(guān)于該平臺的詳細(xì)資料,甚至連平臺入口都難以尋覓;二是平臺使用體驗不佳,網(wǎng)站的交互系統(tǒng)存在著一定的問題;三是網(wǎng)站缺乏許多必要的說明,初入平臺的用戶需要花費一定的時間去摸索,雖然可以向?qū)<姨釂?,但往往不能及時收到回復(fù);四是上線項目嚴(yán)重不足,網(wǎng)站上只有75組有關(guān)盛宣懷檔案的項目可供轉(zhuǎn)錄,且完成全部轉(zhuǎn)錄任務(wù)的僅有23組。
解決上述諸多問題需要多方攜手合作,就如Zooniverse成功運作的背后,是美國公眾科學(xué)聯(lián)盟、牛津大學(xué)、阿德勒天文館以及其他專家學(xué)者的共同努力。建議以初步建立的檔案眾包平臺為基礎(chǔ),聯(lián)合各檔案機構(gòu)、信息技術(shù)和網(wǎng)絡(luò)多媒體領(lǐng)域的專家學(xué)者,進(jìn)行形式多樣的推廣,擴大平臺的知名度與影響力。
3.4 加強技術(shù)創(chuàng)新。在反奴隸制手稿轉(zhuǎn)錄項目中,組織者創(chuàng)新性地采用了協(xié)同轉(zhuǎn)錄的技術(shù),兼顧了質(zhì)量與效率,大大推進(jìn)了項目進(jìn)程。因此,應(yīng)主動學(xué)習(xí)國外檔案眾包項目的先進(jìn)經(jīng)驗,積極引進(jìn)新技術(shù)、新方法,將其運用到檔案眾包工作中,同時注意結(jié)合實際情況做出相應(yīng)的改進(jìn)。
3.5 合理地設(shè)計任務(wù)。檔案眾包的任務(wù)設(shè)計應(yīng)盡量遵循簡單、清晰、有趣的原則。首先,應(yīng)將任務(wù)盡可能細(xì)分,節(jié)省參與者時間,但也要掌握好分割的度,否則將會大大增加項目匯總的難度。其次,應(yīng)配備簡潔明了的任務(wù)說明,盡量添加相應(yīng)的圖片或視頻進(jìn)行演示,完成撰寫后應(yīng)先交給一部分有經(jīng)驗參與者查看,并根據(jù)他們的意見進(jìn)行相應(yīng)的修改,在使用過程中也應(yīng)針對出現(xiàn)的新問題進(jìn)行及時的修改。最后,任務(wù)設(shè)計應(yīng)富有趣味性,對任務(wù)產(chǎn)生興趣將會大大促進(jìn)參與者的持續(xù)付出。
3.6 注重社區(qū)建設(shè)。建立配套的社區(qū)是檔案眾包項目成功的重要條件,得益于成熟且活躍的社區(qū),反奴隸制手稿轉(zhuǎn)錄項目的參與者才能進(jìn)行更為及時便捷的交流,各種問題才能被更為有效地解決,項目才能被持續(xù)推進(jìn)。反觀國內(nèi)的眾包項目,往往不注重社區(qū)的建設(shè)。以上海圖書館的盛宣懷檔案抄錄項目為例,平臺并沒有配備相應(yīng)的交流社區(qū),參與者只能通過私人渠道進(jìn)行溝通。配套社區(qū)的缺乏使溝通變得低效,既不利于問題的及時解決,也不利于保持參與者的熱情,最終導(dǎo)致項目進(jìn)展緩慢。一個完善的眾包社區(qū)至少應(yīng)由專家、管理者和普通參與者三個群體組成,三者各有分工,專家負(fù)責(zé)統(tǒng)籌規(guī)劃、答疑解惑等專業(yè)性工作,管理者負(fù)責(zé)制定并執(zhí)行社區(qū)規(guī)則、上傳下達(dá)等事務(wù)性工作,普通參與者應(yīng)嚴(yán)格遵守社區(qū)規(guī)則進(jìn)行交流。社區(qū)應(yīng)根據(jù)不同的交流主題分設(shè)不同的版塊,并完善搜索以及添加標(biāo)簽的功能,以便用戶能夠準(zhǔn)確快速地篩選信息。
3.7 加大宣傳力度。反奴隸制手稿轉(zhuǎn)錄項目的成功基于良好的群眾基礎(chǔ),參與者的積極性較高。近年來,我國雖然積極進(jìn)行檔案開發(fā)利用的工作,但大眾參與檔案事業(yè)建設(shè)的熱情依然不高,了解檔案眾包的人更是寥寥無幾。不容樂觀的現(xiàn)實條件為檔案眾包工作的開展造成了很大的阻礙,這意味著必須加大宣傳力度,只有吸引到足夠多的參與者,才能使檔案眾包成為可能。項目啟動前,利用多種渠道,采取生動活潑的形式進(jìn)行宣傳,同時進(jìn)行背景知識的科普,增進(jìn)大眾的理解,獲得大眾的認(rèn)同。項目運行過程中,及時跟進(jìn)最新進(jìn)展,認(rèn)真對待大眾的批評建議并盡快回應(yīng)。項目完成后,做出全面系統(tǒng)準(zhǔn)確的總結(jié),公布項目成果,展示接下來的工作計劃。
*本文系2018年度國家社科基金青年項目——基于過程管理的歷史檔案開發(fā)利用眾包模式研究(18CTQ039)資助成果。
參考文獻(xiàn):
[1]Howe J.The rise of crowdsourcing[J].Wired magazine,2006,14(06):176-183.
[2]Wikipedia.Crowdsourcing[EB/OL].(2021-4-23)[2021-4-24].https://en.m.wikipedia.org/.
wiki/Crowdsourcing.
[3]達(dá)倫·C·布拉漢姆.眾包[M].余渭深,王旭,譯.重慶:重慶大學(xué)出版社,2016:13-14.
[4]蘇君華,姜璐.檔案眾包服務(wù):模式、特征及質(zhì)量控制策略[J].浙江檔案,2020(07):28-31.
[5]杰夫·豪.眾包:群體力量驅(qū)動商業(yè)未來[M].北京:中信出版社,2011:22.
[6]Zooniverse.The Homepage[EB/OL].[2021-4-24]. https://www.zooniverse.org.
[7][8]趙棟祥.公眾科學(xué)平臺:發(fā)展現(xiàn)狀、服務(wù)實踐與啟示——以Zooniverse為例[J].圖書情報工作,2018,62(17):120-128.
[9]大衛(wèi)·艾化·格里爾.眾包[M].肖江波,譯.北京:人民郵電出版社,2015:202.
[10]Blickhan S,Krawczyk C,Hanson D R,et al.Individual vs.Collaborative Methods of Crowdsourced Transcription[J].Journal of Data Mining and Digital Humanities,2019(12):1-33.
[11]Mia Ridge.Crowdsourcing our cultural heritage[M].England:Ashgate Publishing Company,2014:53.
(作者單位:山東大學(xué)歷史文化學(xué)院 來稿日期:2021-04-24)