摘要:歐洲時光機是數(shù)字人文研究的典型項目,它充分運用檔案數(shù)據(jù)來勾勒歷史場景,還原了歐洲歷史和文化源流。本研究采用案例分析法,對歐洲時光機項目展開調(diào)查,梳理其“孕育”和“成長”兩個階段的特征,揭示項目發(fā)展脈絡(luò)。按照歐洲時光機的業(yè)務(wù)步驟,對檔案數(shù)據(jù)收集、掃描識讀、內(nèi)容關(guān)聯(lián)、分布存儲、開發(fā)利用等環(huán)節(jié)進行工具技術(shù)分析。在實際項目開展中,除了對工具技術(shù)關(guān)注外,還應(yīng)考慮項目應(yīng)用場景、檔案敘事功能和協(xié)同合作范疇,進而立體化實現(xiàn)檔案資源價值。
關(guān)鍵詞:歐洲時光機 檔案數(shù)據(jù) 數(shù)字人文 文本識讀
Abstract: European Time Machine (ETM) is a typi? cal project of digital humanities research. It makes full use of archival data to outline historical scenes and restore European history and culture. This study uses case analysis to carry out an investigation on the ETM, sorting out the characteristics of the two stages of“incubation”and“growth”, revealing the development context of the project. According to the business steps of ETM, it carries out tool technology analysis on archive data collection, scanning and read? ing, content association, distributed storage, develop? ment and utilization. During actual project develop? ment, in addition to paying attention to tool technolo? gy, project application scenarios, archive narrative functions, and collaboration scope should also be con? sidered to realize the value of archive resources thor? oughly.
Keywords: European Time Machine; Archival da? ta; Digital humanities; Text understanding
隨著數(shù)字轉(zhuǎn)型升級和新技術(shù)環(huán)境變遷,檔案管理對象由數(shù)字態(tài)轉(zhuǎn)向數(shù)據(jù)態(tài),[1]管理層級由案卷文件級轉(zhuǎn)向內(nèi)容語義級,資源重整由靜態(tài)展示轉(zhuǎn)向動態(tài)模擬,資源開發(fā)由檔案實體保護轉(zhuǎn)向內(nèi)容挖掘。尤其在數(shù)字人文浪潮影響下,檔案數(shù)據(jù)價值逐漸被發(fā)掘。[2]當(dāng)前檔案數(shù)據(jù)開發(fā)研究主要包括:第一,檔案數(shù)據(jù)概念及其生成環(huán)境。于英香等[3]立足于大數(shù)據(jù)環(huán)境歸納了檔案數(shù)據(jù)范疇,同時關(guān)注全過程形成的元數(shù)據(jù)。第二,運用數(shù)字人文技術(shù)展開檔案數(shù)據(jù)挖掘。邁克爾·莫斯(Michael Moss)等[4]認為數(shù)字化歷史檔案也可作為數(shù)據(jù)被挖掘;鄭金月[5]從數(shù)據(jù)態(tài)角度總結(jié)檔案數(shù)據(jù)關(guān)聯(lián)、挖掘和分析的價值。第三,數(shù)字人文項目中的檔案數(shù)據(jù)應(yīng)用。楊茜茜[6]從“威尼斯時光機”和“協(xié)作式歐洲數(shù)字檔案研究基礎(chǔ)設(shè)施”案例入手,探討數(shù)字人文下歷史檔案資源整理和開發(fā),尤其是檔案數(shù)據(jù)層的挖掘與關(guān)聯(lián)。由此可見,檔案數(shù)據(jù)價值正在被驗證和應(yīng)用,具體表現(xiàn)在挖掘、加工、關(guān)聯(lián)、利用等環(huán)節(jié)中,直接體現(xiàn)在數(shù)字人文項目中。其中“威尼斯時光機”作為檔案數(shù)據(jù)發(fā)掘的代表,學(xué)界不乏介紹,[7-8]但是該項目新的動向和進展值得關(guān)注。尤其是在“泛歐洲數(shù)據(jù)庫”推動下,全新的“歐洲時光機計劃”旨在還原歐洲大陸的千年歷史鏡像,優(yōu)化公民接觸歐洲歷史和文化源流的方式。筆者側(cè)重于檔案數(shù)據(jù)挖掘過程中的工具技術(shù)和場景應(yīng)用,為今后開展數(shù)字人文項目提出思考。
“歐洲時光機”(European Time Machine),吸納了跨專業(yè)跨領(lǐng)域知識、多維數(shù)字技術(shù),構(gòu)建跨越千年的歐洲歷史場景,并且經(jīng)歷了兩個階段。
(一)典型孕育期——來自“威尼斯時光機”的探索
“威尼斯時光機”始于2013年,是瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)和威尼斯大學(xué)的聯(lián)合項目,它使用檔案來展現(xiàn)這座歷史名城的演變。[9]該項目以動態(tài)數(shù)字形式捕獲1000多年的檔案,包括了歷史地圖、專題論文、手稿、病歷、法律文書和樂譜。項目負責(zé)人弗雷德里克·卡普蘭(Frédéric Kaplan)表示,利用機器學(xué)習(xí)技術(shù),向?qū)W者開放大量隱藏歷史的檔案,使研究人員能夠搜索和交叉利用信息,[10]本質(zhì)上是將海量的檔案進行數(shù)字化、轉(zhuǎn)錄、建立索引和關(guān)聯(lián),形成了完整威尼斯文獻數(shù)據(jù)庫。在利用方面,它記錄了過去成千上萬普通公民留下的檔案,這有助于揭示威尼斯金融市場的發(fā)展規(guī)律,或推演鼠疫之類疾病的傳播方式。
(二)燎原成長期——構(gòu)建“歐洲時光機”的藍圖
威尼斯時光機的成功,推動了對整個歐洲歷史的重現(xiàn)挖掘。“歐洲時光機”的目標(biāo)在于將歐洲歷史悠久的文化和商業(yè)中心的時間機器連接起來,利用歷史檔案中的細節(jié)來揭示整個歐洲大陸數(shù)百年來社交網(wǎng)絡(luò)、貿(mào)易和知識的發(fā)展情況。超過14 000個機構(gòu)參與該項目,它納入了10萬余名專業(yè)人員,他們包括歷史學(xué)家、建筑學(xué)家、檔案管理員、博物館和圖書館員、公民科學(xué)家、家譜學(xué)者,甚至業(yè)余愛好者。項目總部位于維也納,在洛桑、阿姆斯特丹和布達佩斯均設(shè)有辦事處,50多位宣傳大使遍布歐洲各地,使得該計劃牢固地立足于歐洲大陸。[11]截至2020年12月,歐洲時光機共有23個本地時光機處于在研狀態(tài)(見表1),它已獲得“歐盟Horizon2020研究與創(chuàng)新計劃”資助,保障了資金來源。
數(shù)字人文項目主要由資源層、平臺層和展示層構(gòu)成(見圖1),而工具技術(shù)是平臺加工層的賦能點,檔案數(shù)據(jù)又是實施對象?!稓W洲時光機宣言》指出,在符合歐洲價值觀的前提下,項目重點考慮將大數(shù)據(jù)、人工智能、VR/AR、3D/4D等納入平臺開發(fā)。[12]由于本文聚焦數(shù)字人文工具技術(shù)的施用,因此基于數(shù)字人文項目構(gòu)建框架,按照“源頭數(shù)據(jù)收集—中端內(nèi)容集成—后端場景重現(xiàn)”的邏輯,重點對平臺層的檔案數(shù)據(jù)加工展開層次分析。
(一)檔案文本海量化收集
構(gòu)建時光機場景的基礎(chǔ)在于擁有海量檔案數(shù)據(jù)。據(jù)2018年威尼斯時光機項目報告顯示,當(dāng)?shù)貦n案館已捕獲19萬份檔案、72萬張圖片、200萬張掃描文檔、16萬條注釋和300余本書籍等數(shù)字化檔案。[13]又如阿姆斯特丹時光機(Amsterdam Time Machine)建立在荷蘭主要學(xué)術(shù)和文化遺產(chǎn)機構(gòu)(Adamnet)的鏈接數(shù)據(jù)基礎(chǔ)架構(gòu)上。其中最主要的基礎(chǔ)數(shù)據(jù)是城市地圖檔案,僅阿姆斯特丹檔案館就提供4500余份地圖檔案。用戶最終能實現(xiàn)時光倒流,并在社區(qū)、街道、房屋、房間的水平上導(dǎo)航城市,得益于見證城市更迭變遷的地圖檔案。
(二)檔案數(shù)據(jù)透視化掃描
歷史檔案大多是紙質(zhì),需要通過數(shù)據(jù)化掃描并全文轉(zhuǎn)錄。時光機項目引入了高速掃描儀,實現(xiàn)數(shù)據(jù)“超速運轉(zhuǎn)”。一臺旋轉(zhuǎn)掃描儀配有一個2米寬的轉(zhuǎn)盤,每小時可生成數(shù)千張高清圖像,將海量兆字節(jié)信息提供給存儲器進行長期存儲,再利用高性能計算機將這些數(shù)字圖像進行標(biāo)引著錄。[14]值得一提的是,該項目運用了“斷層掃描”,使其無須打開書本即可連接閱讀儀器。該設(shè)計基于醫(yī)學(xué)上普遍使用的計算機斷層掃描技術(shù),從不同角度拍攝的X射線會逐層構(gòu)成3D圖像,用于應(yīng)對黏連成塊、無法清理的“檔案磚”。
(三)識讀內(nèi)容細粒度關(guān)聯(lián)
檔案數(shù)據(jù)處理的關(guān)鍵在于全文識讀,而非簡單的數(shù)字圖像集合。歐洲時光機采用“機器學(xué)習(xí)識讀+人工輔助識讀”雙重方式,用于克服傳統(tǒng)OCR識別缺陷。因為歷史檔案大多是手寫謄抄,與印刷打印型檔案有較大差異。時光機借助機器學(xué)習(xí)來識別整個單詞形狀,并將其置于手稿數(shù)據(jù)庫。全文識讀之后,將每個單詞進行“本體分析”,即每個單詞都是一個核心,打破以往按照全宗或者案卷為整理單元的模式,按照語法、語義關(guān)系標(biāo)記內(nèi)容,隨后開展社會網(wǎng)絡(luò)分析。如威尼斯時光機中在里亞托(Rialto)檔案中用家族企業(yè)的名稱標(biāo)記建筑物,用姓名標(biāo)識人物,在人物關(guān)系網(wǎng)絡(luò)中描繪社交節(jié)點。同樣,杜布羅夫尼克(Dubrovnik)時光機[15]按照年份整理出大事記表(1400—1450),詳細描述日期、地點、任務(wù)、事件,然后建立人物事件關(guān)系,編制長達586頁的電子書,其中地圖元素逐漸細顆?;恳粋€單元網(wǎng)格清晰可見。
(四)檔案數(shù)據(jù)分布式存儲
歐洲時光機相當(dāng)于建立了一個大型模擬器,映射了兩千年前的歐洲歷史,將檔案館和博物館的大量藏品存儲于數(shù)字信息系統(tǒng)。為解決海量數(shù)據(jù)的高速存儲運算,它創(chuàng)建了一個分布式數(shù)字信息系統(tǒng),以映射歐洲跨時代的社會、文化和地理發(fā)展。這種大規(guī)模的數(shù)字化計算基礎(chǔ)設(shè)施,將歐洲的悠久歷史以及跨民族多語言知識轉(zhuǎn)化為社會文化資源。在阿姆斯特丹時光機中,將檔案數(shù)據(jù)分散存儲在多臺獨立設(shè)備上,并上傳在專題數(shù)據(jù)云ALi? Da。[16]該系統(tǒng)不僅存儲了阿姆斯特丹各類歷史檔案資源,還規(guī)范了檔案數(shù)據(jù)詞匯表,以配合前序環(huán)節(jié)的關(guān)聯(lián)數(shù)據(jù)。除了項目成員可上載檔案數(shù)據(jù)資源,時光機用戶也可靈活添加數(shù)據(jù)集。
(五)歷史場景可視化呈現(xiàn)
時光機后端呈現(xiàn)在于,借助可視化工具展示歐洲城市變遷與發(fā)展,還原真實歷史場景。呈現(xiàn)結(jié)果不僅讓用戶體驗歷史演化,還為人文社會科學(xué)領(lǐng)域提供了研究場景。具體包括:一是追溯了城市疆域和原始版圖。在動態(tài)化演示過程中,城市隨著河流、山脈變化而呈現(xiàn)散點式、條狀式、集團式不同分布,見證運河改造和人口遷徙,再現(xiàn)城市規(guī)劃和建筑設(shè)計。二是探索了流行病學(xué)新發(fā)現(xiàn)。流行病學(xué)家馬塞爾·薩拉特(Marcel Salathé)在體驗時光機時,通過查閱檔案顯示的死者姓名和位置,以及頻繁出現(xiàn)的死亡情況描述,總結(jié)17世紀(jì)中葉瘟疫暴發(fā)的演化特征。這種原始的“健康檔案”蘊含著大量的疫情傳播路徑數(shù)據(jù),有助于攻克疾病治愈難題,也為當(dāng)前新冠肺炎疫情防控檔案利用提供思路。三是提供了文旅融合的新途徑。在錯綜復(fù)雜的社會人物關(guān)系、角色分工網(wǎng)絡(luò)中,尋找名人成長蹤跡和祖先生活遺跡,以及沉浸式體驗歷史場景,如運河修建、戰(zhàn)爭防御、公約制定、環(huán)境保護和社區(qū)教育等。
數(shù)字人文項目的重要特征是將數(shù)字技術(shù)融入人文研究,將檔案文本轉(zhuǎn)化為可模擬、可關(guān)聯(lián)、可重組的檔案數(shù)據(jù)。除了施用工具技術(shù),還應(yīng)考慮其應(yīng)用場景、實現(xiàn)功能和參與范疇,從而更好地發(fā)掘檔案資源。
(一)數(shù)字賦能,理性選擇技術(shù)工具
數(shù)字技術(shù)是整合檔案數(shù)據(jù)的有效方式,掌握數(shù)字技術(shù)能夠賦予檔案以生命力,但同時也要理性選擇技術(shù)工具,按需選取利用。關(guān)鍵工具和用途主要有:第一,檔案數(shù)據(jù)需要經(jīng)過編碼轉(zhuǎn)化為機器可讀的語言。數(shù)據(jù)化后的歷史檔案大部分是非結(jié)構(gòu)化狀態(tài),例如手稿、地圖、繪圖等,需要借助一些內(nèi)容管理工具進行結(jié)構(gòu)化加工(見表2)。第二,檔案數(shù)據(jù)中的標(biāo)記工具(Cited Tools),讓檔案數(shù)據(jù)融入計算機模型之中。歐洲時光機項目中的檔案標(biāo)記工具包括了網(wǎng)絡(luò)工具Web tools:BatchGeo、Geo Extraction、Geo IP、Google Image Scraper、Google My Maps、Image Scraper、Open Refine、Palladio、Raw Graphs、TimeMapper、WorldMap;外掛工具Plugins:DownThemAll和軟件工具Software:Gephi。[17]第三,還原歷史場景中房屋、街道、港口等標(biāo)注數(shù)據(jù)的場景重構(gòu),用3D/4D技術(shù)仿真模擬。通過定性近距離閱讀和定量遠讀識別的模式,即“遙讀+近觸”來研究檔案數(shù)據(jù)。
(二)立足場景,積極構(gòu)建城市記憶
檔案數(shù)據(jù)是歐洲時光機項目的基礎(chǔ),是構(gòu)建城市記憶的真實素材,其首要應(yīng)用場景就是檔案資源的量化積累,以及數(shù)據(jù)化的質(zhì)化加工。檔案館藏資源是實施記憶工程的原料,因而時光機項目都和地方檔案館建立合作關(guān)系,大量收集不同年代的檔案資料,如雷根斯堡(Regens? burg)時光機積極尋求檔案館和歷史遺跡保護的支持,利用數(shù)字檔案實現(xiàn)“時光倒流”。與時光機有異曲同工之妙的還有“美國記憶工程”,該工程收藏了900多萬件記載美國歷史文化、戰(zhàn)爭解放、兒童婦女的館藏,包括了手稿、口述、錄音、影像、樂譜檔案,組織了115類主題集合,并且利用數(shù)字技術(shù)轉(zhuǎn)化為數(shù)字型記錄,保證數(shù)字檔案資源來源廣泛。[18]因此,海量且豐富的數(shù)字檔案是執(zhí)行類似項目的必要條件,而數(shù)據(jù)態(tài)環(huán)境是執(zhí)行的充分條件。
(三)挖掘數(shù)據(jù),發(fā)揮檔案敘事功能
檔案數(shù)據(jù)是數(shù)字人文項目的研究對象,不僅需要深入挖掘、關(guān)聯(lián)和組合,還要回歸人文關(guān)懷——更好地發(fā)揮檔案敘事功能。檔案敘事契合了人們多維視聽融合的需求,超越了以往的機械化文字閱讀。歐洲時光機將海量檔案轉(zhuǎn)化為高清格式數(shù)字圖像、機器可計算的比特,把碎片化的圖片與圖庫對比,勾勒出接近真實的街區(qū)圖景,模擬穿梭千年的歷史地圖。從敘述表達角度來看,時光機在時間維度上將公眾送至千年以前的刻度上,在空間維度上模擬出各時期地理、城鄉(xiāng)、交通、建筑的變遷。用戶可在時光機中體驗來自千年以前生活情景,如見證運河樞紐新建、港口船舶貿(mào)易,瀏覽旅游向?qū)в涗洝⒊鞘芯用袼铣鲂械缺普嫔铒L(fēng)貌。在這場時光旅行中,敘事可按照檔案主題需求采用不同表達方式,如電影的視聽覺環(huán)繞、游戲的互動參與感、戲劇演出的觸覺感、VR的虛擬交互。
(四)項目協(xié)同,持續(xù)推進跨界合作
數(shù)字人文項目中的檔案數(shù)據(jù)研究需要跨界合作。歐洲時光機項目召集了來自45個國家/地區(qū)的600多個組織,超過14 000個行業(yè)機構(gòu)和10萬多名專業(yè)人員參與。它創(chuàng)建了一個交流知識、構(gòu)建最佳實踐和專業(yè)知識的平臺,以實現(xiàn)各領(lǐng)域知識賦能社會,如城市歷史、地理環(huán)境、信息系統(tǒng)、旅游策劃,尤其推動了信息通信技術(shù)(ICT)和社會科學(xué)與人文科學(xué)(SSH)科學(xué)研究的前沿,將為歐洲城市規(guī)劃,土地管理和發(fā)展智慧城市提供新視角。其中檔案館提供豐富的檔案數(shù)據(jù)是資源保障,對未來檔案機構(gòu)參與數(shù)字人文項目提供啟示:一方面,要主動發(fā)掘自身檔案資源亮點、拓寬研究熱點。檔案工作者應(yīng)該及時把握檔案館藏優(yōu)勢,納入數(shù)字人文“傘狀帳篷式”的研究范疇。另一方面,加強與檔案系統(tǒng)外部環(huán)境的對接,積極參與各類數(shù)字人文項目。在保證檔案機密性基礎(chǔ)上,主動聯(lián)合政府、高校、圖書館、博物館、美術(shù)館和其他文化機構(gòu),共同參與文化遺產(chǎn)的保存和重構(gòu)。
注釋及參考文獻:
[1]錢毅.新技術(shù)環(huán)境下電子文件管理縱深發(fā)展關(guān)鍵問題分析[J].檔案學(xué)通訊,2020(2):4-9.
[2]龍家慶,王玉玨,李子林,等.數(shù)字人文對我國檔案領(lǐng)域的影響:挑戰(zhàn)、機遇與對策[J].檔案學(xué)研究,2020(1):104-110.
[3]于英香.大數(shù)據(jù)視閾下檔案信息化建設(shè)新路向——基于《全國檔案事業(yè)發(fā)展“十三五”規(guī)劃綱要》的思考[J].北京檔案, 2017(2):9-12.
[4] MOSS M,THOMAS D,GOLLINS T. The Recon? figuration of the Archive as Data to Be Mined[J]. Archivaria, 2018,86(2):118-151.
[5]鄭金月.數(shù)據(jù)價值:大數(shù)據(jù)時代檔案價值的新發(fā)現(xiàn)[J].浙江檔案,2015(12):11-14.
[6]楊茜茜.數(shù)字人文視野下的歷史檔案資源整理與開發(fā)路徑探析——兼論檔案管理中的歷史主義與邏輯主義思想[J].檔案學(xué)通訊,2019(2):17-22.
[7]董聰穎.穿梭千年:數(shù)字人文對檔案信息資源開發(fā)利用的影響[J].檔案管理,2018(2):11-14.
[8]翟姍姍,張純,許鑫.文化遺產(chǎn)數(shù)字化長期保存策略研究——以“威尼斯時光機”項目為例[J].圖書情報工作,2019(11):140-148.
[9] Venice State Archives. Venice time machine proj? ect- current state of affairs [EB/OL].[2021-03-04].https:// www.timemachine.eu/venice- time- machine- projectcurrent-state-of-affairs/.
[10]Alison Abbott. The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.
[11]Time Machine EU. About Us : Explore the History of Time Machine [EB/OL].[2021- 03- 04].https://www. timemachine.eu/about-us/.
[12]Time Machine EU. Time Machine Manifesto: Big Data of the Past for the Future of Europe[EB/OL].[2020-09- 18].https://www.timemachine.eu/wp- content/up? loads/2019/06/Time-Machine-Manifesto.pdf.
[13]EPFL News.Time Machine in the running to be? come a FET Flagship[EB/OL].[2020-09-18]. https://actu. epfl.ch/news/time- machine- in- the- running- to- be? come-a-fet-flagsh/.
[14]Alison Abbott.The‘Time MachineReconstruct? ing Ancient Venices Social Networks[EB/OL].[2020-09-17].https://www.nature.com/news/the- time- machinereconstructing- ancient- venice- s- social- networks-1.22147.
[15] Dubrovnik Time Machine. Project [EB/OL].[ 2020-09-18 ]. https :// www.timemachine.eu/timema? chines/dubrovnik/.
[16]Amsterdam Time Machine.AboutALida[EB/OL].[2020-09-19].https://amsterdamtimemachine.nl/data/alida/.
[17]Amsterdam Time Machine. Category: Tools [EB/ OL].[2020-09-29].https://amsterdamtimemachine.nl/cate? gory/method/tools/.
[18]Mission and History.American Memory from the Library of Congress[EB/OL].[2020-08-20].http://memo? ry.loc.gov/ammem/about/index.html.
作者單位:1.中國人民大學(xué)信息資源管理學(xué)院2.中國人民大學(xué)數(shù)字人文研究中心