陳婧
通過將歷史進程的可視化,歷史學家可以發(fā)現前人從未注意到的模式和彼此的聯(lián)系,進而提出新的問題。
有沒有可能通過計算機圖像,制作出歷史版的“谷歌地圖”?洛桑聯(lián)邦理工學院與威尼斯卡福斯卡里大學正在用計算機,還原出1000多年前歐洲商業(yè)樞紐城市——威尼斯的生活場景。
這種方式蘊含的信息量極為直觀豐富。英語諺語說“一幅畫面抵過1000個詞”,而谷歌的一項研究曾表明,有時候一幅畫面甚至可以抵過5000億個詞。如果把威尼斯漫長歲月中留存的數百萬份檔案以圖像的方式還原,將提供一種新的探索及學習的方式,因為當代人想把這幾百萬本歷史文獻都讀完,可能性幾乎為零。
物理學家霍金預言:如果一艘太空船能以接近光速的速度在宇宙飛行,就可讓船上乘客進入未來??梢越ㄔ炱疬@艘飛船的并非只有物理學家——歷史學家也運用起大型的數據集,建起了一臺真正的時光機,回到過去。
80公里的文獻
威尼斯卡福斯卡里大學發(fā)起這個項目的意義是去探討:我們有沒有可能做出一種“關于過去”的谷歌地圖?能不能擁有一臺多拉A夢的時光機?這臺炫酷的時光機,可以把觀眾拉回到14世紀的威尼斯共和國?!?323年,誰住在這個宮殿里?”“在里亞托的一個集市里,1公斤的海鯛賣多少錢?” “穆拉諾島的一個玻璃工人的工資是多少?”
想回答這些并不容易。雖然項目組手邊有很多過去的資料,可以把所有這些資料數字化,然而年代越久遠,我們獲得的信息也越少。幸而威尼斯的管理模式非常“官僚主義”:威尼斯共和國的執(zhí)政官們,幾乎記錄下這里發(fā)生的一切。在威尼斯的國家檔案館,你可以找到80公里長的檔案資料, 它們記錄下了過去1000多年中威尼斯人們生活的方方面面。從出生和死亡記錄、納稅記錄、建筑設計圖、城市規(guī)劃方案、去其他領土的旅游導覽圖、和平條約等等。這需要把這些海量的信息完整地串連起來,并重新找到分析的線索。
最早的檔案可以追溯到公元9世紀,一位孀婦的遺囑是把30籃子的橄欖留給她的繼承人。一幅14世紀的水利灌溉圖中,可以看到淡水與海水是如何被分開,從而避免了有害水生微生物在淡水中擴散。另一幅繪畫作品描繪了17世紀威尼斯人與奧斯曼帝國在雅典作戰(zhàn),毀壞了帕臺農神廟,通過強大的陸海力量步步蠶食這個航海巨人的版圖。
還有威尼斯共和國的使節(jié)在國外書寫的上千封函件,敘述了當時其他國家的政治、宗教情況。當時擔任帕多瓦大學數學教師的伽利略的親筆信,向當時的威尼斯議會議員申請經費,用于開發(fā)天文望遠鏡。以及由奧地利向法國割讓威尼斯的《坎波福爾米奧條約》原件。這座城市發(fā)生的每一丁點兒變化,都被記錄在那里。
這些80公里長的文獻檔案中,大概有100億件事件。將這些信息,放回到它們原來的空間中,再用不同的方法將它圖像化,就可以重建出一場威尼斯共和國的旅行,前后穿梭1000多年,令人驚嘆。加上語義編碼,這巨大的地理信息系統(tǒng),最終可以被很多種方法搜索。
擁有這些資料還不夠,要開發(fā)一臺“時光機”,還需要對未知的事實進行推斷。這個模擬的過程,可以看作是獲得了威尼斯船長編寫的某次航海日志,代表了那個年代很多類似航程的航海日志。
如果把它放到更大的歐洲背景下去觀察研究,那么或許可以重新發(fā)現威尼斯如何一步步控制了亞得里亞海,如何變成了最強大的中世紀海上帝國,如何幾乎控制了從東到南的所有海上航線。由此,也可以更深刻地理解這個東西方世界貿易的中轉站。
時光機生產手冊
盡管參與項目合作的研究人員達到了100多人,但如果把從9世紀到20世紀的海量文獻全部轉化成一個信息系統(tǒng), 每天至少要把450本書數字化,而這僅僅是項目工作的起點。
項目組有著非常嚴密的工作流程。首先,把大量的文獻轉化為高清格式的數字圖像。通過與行業(yè)尖端企業(yè)的合作,項目組使用的是每小時可以高精度掃描1000頁的半自動化掃描機器人。 為了考慮古籍保護的需要,使用特定的粒子加速器產生的X光射線,這樣機器人不需要翻動書頁,即可完成掃描的過程。
接著是破譯圖像并轉化為文字??茖W家需要重新開發(fā)算法,把圖像解構,這些碎片式的圖像,與數據庫中的其他圖像進行比對后,能根據它的形狀識別為可能的關聯(lián)性文字,提高識別的幾率。通過比對,還可以對數據庫中上百萬個同樣形狀的圖像,同步完成識別工作。這些成功識別的詞語,再通過文字處理器,組合成為完整的句子。值得一提的是,編程人員使用的算法受到生物技術的啟發(fā),采用的是蛋白質結構分析與功能預測的方法。
從圖像轉化為文字信息的難處還在于,這些檔案很多是用拉丁語、托斯卡納語、 威尼斯方言記錄下的,轉寫它們時首先需要翻譯, 然后將它們編入索引。傳統(tǒng)的光學字符識別方法, 對于印刷本可以使用且非常有效, 但對于這些手寫的檔案似乎并不太行之有效。
項目組的破解方法是從語音識別入手,建立一個語言模型,加上一些限制條件,隨后在數據庫里填入組織條理清晰的檔案文獻,就可以讓這些海量的檔案劃分為更細小的部分。由于每一個部分都和其他部分有近似的特征,那么就有實現破譯的可能。
最后一步,讓識別出的信息之間產生關聯(lián),這也是威尼斯檔案館珍藏文獻的最大價值所在。研究組采用關鍵詞進行組合,使得文獻可搜索。而句子中的關鍵字,把海量圖像重新歸類后,如同一個社交網絡或是一本族譜,交叉中就會產生新的研究線索。
云技術的應用,也是開發(fā)出這臺時光機的關鍵要素。威尼斯的市井、政治、宗教圖像,城市規(guī)劃和設計,城市的發(fā)展脈絡,這些海量的數據在云端建立了一個全新的數字環(huán)境。對歷史研究人員來說,免去了到威尼斯文獻檔案館堆積如山的資料室里苦苦發(fā)現線索的過程。
利用云技術,還進一步創(chuàng)造出了一個模擬系統(tǒng),發(fā)現丟失的信息,或者做出一些相當精準的歷史預測。地中海區(qū)域波譎云詭的歷史,也漸漸透明與可琢磨。例如:如果在1323年6月出海,從科孚島出海前往君士坦丁堡,可以在哪里找到船??需要多少錢?遇到海盜的幾率有多大。
對于這種預測,最核心的考驗在于,能否量化其中的不一致性。因為檔案中到處都有錯誤,可能是船長的名字錯了,或是某些船只從來沒有出過海,翻譯中也可能存在錯誤,因此在加上算法的過程中,在信息識別、信息提取中都存在錯誤的情況下,擁有的是非常不確定的信息資料。
項目組認為,糾正這些偏差,讓時光機更加精準的方法,在于不僅僅翻譯出歷史的信息,而且需要翻譯出元歷史的信息,即歷史是如何建構的,記錄下每一步。例如,威尼斯最可靠的過去,不僅僅有一張地圖,而存在著很多張地圖。這個系統(tǒng)應當承認并接受這些事實,回應歷史信息的不確定性。
數字人文主義
除了生產出一臺可以穿越千年的時光機, 這個項目的研究成果有了更多嶄新的外沿:威尼斯作為一個歷史名城,每年數百萬的游客前來觀光,時光機可以幫助威尼斯建立一座嶄新的博物館??ǜK箍ɡ锎髮W為這個項目專門成立了博士點,并開設了數門本科生與研究生課程,使用這項研究成果。
這個項目的發(fā)起人之一弗雷德里克·凱普蘭(Frederic Kaplan)博士認為, 現在研究人類相關的人文學科,很像 30多年前在生命科學領域發(fā)生的一場革命性的變化?!拔覀兛吹胶芏囗椖浚?它們在做的工作,遠遠超過任何一個單一的研究小組, 這對人文學者來說確實是非常新穎的, 因為他們通常適應在小團隊里工作,或僅和一些研究者一起工作。 當你參觀威尼斯國家檔案館的時候, 你會覺得,這遠遠超過了任何一個團隊能做的事情。 應對這種模式的轉換 ,我們應該培養(yǎng)出新的一代人, 他們便是‘數字人文主義者, 準備好迎接這種轉變?!?/p>
而以美國斯坦福大學為代表的一些學校,已經準備好了。2014年8月,斯坦福大學正式推出了“計算機+人文學科”的人文教育。課程的使命在于培養(yǎng)學生的好奇心、同理心、內省力、聯(lián)想力、口頭和書面溝通能力,培養(yǎng)出分析能力與問題意識更為出色的新一代人文學者,進而重塑人文學科的研究。谷歌高級副總裁、暢銷書作家拉斯洛·波克(Laszlo Bock)也認為,“在進行跨學科思考和探索時,人文學科的重要性便凸顯出來,大多數有趣的發(fā)現都產生于兩個學科的交集處。”
在歷史研究方面,越來越多的學者借助數字技術對歷史事件進行靜態(tài)和動態(tài)的可視化展示。美國弗吉尼亞大學的“視覺”項目就是利用數字化手段,將大量數據轉化為地圖、圖表、圖片等,講述重要的歷史事件,供用戶搜索和了解歷史事件的發(fā)展。
內布拉斯加大學英語系教授馬修·喬卡斯(Matthew Jockers)也曾利用文本數據挖掘技術,對1780~1900年出版的3592部著作進行了詞頻和主題分析,并在自己的新書《宏觀分析:數字化方法和文學史》中表示,窺探出了簡·奧斯丁、馬克·吐溫等著名作家的寫作風格是受何人影響。斯坦福大學的“文本技術”項目,則通過研究東西方的手稿、文檔、書籍、題詞、票券、布告等文字實物的生產、傳播、接收的過程,發(fā)揮了包括文本數據挖掘、數字信息長期保存等技術的全新應用價值。
值得一提的是,歐美學界正涌現一批將古籍數字化、文獻數據庫建設的數字人文領域的新項目。許多大學設立了自己的數字人文研究中心,如美國斯坦福人文實驗室、英國倫敦國王學院人文計算研究中心等;一批數字人文研究機構,如國際數字人文組織聯(lián)盟、數字人文學會也相繼成立,數字技術與人文研究的結合成了學界時下討論的熱門話題。
“數字人文的發(fā)展,需要接受過人文學科訓練的、擁有整體思維能力的人才,也需要專攻某一技術領域的專家。構建其這樣的平衡并不容易。但是一旦做到了,我們便會擁有偉大的組織、偉大的社會。數字人文必將成為人文學科研究的主流之一。” 倫敦大學學院數字人文中心主任梅麗莎·特拉絲(Melissa M. Terras)表示。
不過,數字人文也提出了新的問題:人文研究是否也應該進入數據驅動的研究行列?加拿大作家史蒂芬·馬爾什(Stephen Marche)在文章《文學不是數據:反對數字人文》中,認為“文學應該與數據截然對立,將文學當做數據,會失去文學本身豐富的意蘊?!?/p>
面對這樣的批評,大多數數字人文主義者并不沉默:“數字人文并不會替代人文研究,它只是揭示研究問題,但不闡釋研究問題。技術的真正價值,在于提供了數字化的研究環(huán)境,而不止步于檢索-獲得信息。它以人為中心,幫助人們實現自己的野心,讓他們做真正想要做的事情?!?