數(shù)字人文視角下的古籍整理與閱讀轉(zhuǎn)型

2023-03-22 22:07:39朱翠萍

文學與文化 2023年4期

內(nèi)容提要：數(shù)字化深刻影響且改變了人文學術，促進了研究范式和學術功能的改變。具體到文獻整理領域主要體現(xiàn)在三個方面：文獻生產(chǎn)方式的創(chuàng)革，文獻整理的數(shù)字化轉(zhuǎn)型，以及經(jīng)典閱讀方式的新變。數(shù)字化改變了文本整理方式，使人文學者可以自動化獲取文本、建立目錄與文本的關聯(lián)，且能夠一定程度上進行自動對勘。同時，數(shù)字化也為古籍文獻帶來新的閱讀和呈現(xiàn)方式，從而實現(xiàn)主題聚類、增值性知識關聯(lián)、時空并行、知識重組沉浸式體驗等。未來，數(shù)字化技術到智能化技術的演進，必將對人文學術產(chǎn)生更加深刻的影響。

關鍵詞：數(shù)字人文古籍整理 OCR 自動校勘聚類知識重組沉浸式體驗

社會發(fā)展至今，數(shù)字化浪潮無所不在，深刻影響并改變著人文學術研究。清華大學人文學院院長劉石教授總結了這樣一種現(xiàn)象，說：“我們在數(shù)字時代發(fā)現(xiàn)了前數(shù)字時代難以發(fā)現(xiàn)的現(xiàn)象，提出了前數(shù)字時代難以提出的設想，開展了前數(shù)字時代難以開展的工作，解決了前數(shù)字時代難以解決的問題?！边@一觀察引發(fā)了一股“數(shù)字人文”研究的熱潮?！皵?shù)字人文”是借助計算機和數(shù)據(jù)科學等工具進行的人文研究，其本質(zhì)是一門交叉學科，也是一種方法論。它將數(shù)字技術應用于人文闡釋，代表著知識生產(chǎn)范式因媒介變革而進行的一次轉(zhuǎn)型。在古籍文獻領域，這些轉(zhuǎn)變主要表現(xiàn)為：文獻生產(chǎn)的創(chuàng)革，文獻整理的數(shù)字化轉(zhuǎn)型，以及經(jīng)典閱讀方式的新變。

一文獻生產(chǎn)方式的創(chuàng)革

數(shù)字化興盛之前，人們通常采用人工錄入文本的方式，逐字逐句地閱讀并添加標點，整理完畢后，將其交給出版單位進行編輯和出版。然而，隨著數(shù)字化的普及和發(fā)展，古籍智能整理平臺應運而生，可以實現(xiàn)文本采集、自動標點、繁簡轉(zhuǎn)換、自動排版等一站式工作流程。

在文獻生產(chǎn)領域，最常用的技術就是OCR。OCR是Optical Character Recognition的縮寫，意思是指光學字符識別，它可以將圖像中的文字通過識別軟件轉(zhuǎn)換成文本格式，供文字處理軟件進一步編輯和加工。在數(shù)量龐大的古籍整理工作中，這項技術非常實用，能大幅度提高文本錄入效率。然而，開發(fā)古籍OCR系統(tǒng)并非易事，需要考慮古籍的版式、圖像頁面的完整和平整程度、字體風格、異體關系，以及現(xiàn)有字庫的大小等多種因素。開發(fā)者需要通過對古籍版式的綜合分析、對文本內(nèi)容的智能化理解訓練、對字形風格的模擬，以及在字庫大小和字符使用規(guī)范之間取得平衡等，使古籍OCR工具最大限度地滿足使用者的需求。目前市面上的古籍OCR工具，對于版面清晰、刻寫規(guī)整的古籍來說，識別準確率多已超過90%，識別速度也達到了每臺服務器8萬頁/日，文獻資料的生產(chǎn)效率大大提高。

當然，也存在大量古籍采集不易的情況，如下圖所示：

上圖中間方框中的四個字，從字形上來看都像“月”字，但其解釋是“上偏旁舟，二偏旁丹，三偏旁肉，下魚曰翻”，說明這四個字分別是“舟、丹、肉、月”等不同的字，若用OCR系統(tǒng)進行簡單識別，必定會因為字形極其接近而出錯。但這只是OCR識別困難情況中的一種，在古籍中還存在大量復雜多樣的字符情況，主要表現(xiàn)在以下幾個方面：有古有今、有中有外、有字有符。

所謂“有古有今”是指古籍中包含著甲骨文、金文、小篆、楷書等不同時代的文字符號，即使是流傳至今廣泛應用的楷書字形，由于大量異體字的存在，也對自動識別構成了極大的困難。

所謂“有中有外”是指古籍文獻中，除了漢字（包括一些疑難字的整理）以外，還存在如梵文、巴利文等非漢字的文字符號。

所謂“有字有符”是指古籍文獻中，除了表音、表意的字之外，還包括如音樂文獻中的古琴譜和道教文獻中的符箓等非字符號。

針對這些特殊符號，數(shù)量多的一般都是建立專屬的字庫進行訓練識別；數(shù)量少的，出于經(jīng)濟考量，往往把其納入到某一類特殊符號中采用單個插入的方式使用。

總體來說，數(shù)字化時代，相較于傳統(tǒng)手寫和雕版印刷的方式，在文獻生產(chǎn)的方式方面發(fā)生了根本性的變化，故稱之為“創(chuàng)革”。

二文獻整理的數(shù)字化轉(zhuǎn)型

傳統(tǒng)文獻學主要包含版本目錄學、?？睂W、斷句標點等。

版本，原指雕版刷印的書本，雕版印刷發(fā)明之前，沒有這個概念，雕版印刷發(fā)明之后，主要是從宋代才開始使用此概念。后來，“版本”的含義開始逐漸豐富，不僅僅指雕版印刷的本子，還可以指寫本、活字本、批校本等。近代排印技術出現(xiàn)之后，又出現(xiàn)了石印本、鉛印本等新形式，現(xiàn)代計算機技術出現(xiàn)之后，版本更是不再局限于紙質(zhì)本子，進而擴展到非紙質(zhì)載體的“數(shù)字版”了。故而，版本問題可以算是一個既古老又現(xiàn)代的課題。

數(shù)字化技術出現(xiàn)之后，圍繞古籍整理工作建設大量古籍書目數(shù)據(jù)庫，開發(fā)了自動校勘、自動標點、引文核查、繁簡轉(zhuǎn)換等系統(tǒng)，對古籍整理效率的提高起到至關重要的作用。

（一）版本目錄的數(shù)字化轉(zhuǎn)型

古籍書目數(shù)據(jù)庫改變了傳統(tǒng)的平面化呈現(xiàn)方式，以關聯(lián)性和立體化的面貌呈現(xiàn)。例如《中國古籍總目》數(shù)據(jù)庫①通過數(shù)字化和結構化處理，將題名、責任者、版本、館藏、子目等具體信息拆分出來，使原書條目信息分門別類、清晰明了地呈現(xiàn)。同時，它集中展示了新中國成立以來出版的古籍整理本成果，并與《中國古籍總目》中記錄的古籍條目進行了計算機自動關聯(lián)匹配。

（二）校勘的數(shù)字化轉(zhuǎn)型

在文獻學中，?？钡姆椒ㄒ话惴譃閷π?、他校、本校、理校四類。為了提高古籍整理者的?？毙?，也開發(fā)了相應的技術來進行輔助。

目前來說，應用最廣、效果最明顯的是針對對校場景而開發(fā)的自動對勘技術。自動對勘，就是將不同版本的電子文本上傳至平臺，瞬間完成幾十萬字的不同版本的文字比對工作，同時還會參照?？睂W中錯誤類別“訛衍倒脫”等分類，設置“異①衍倒脫”等差異類型，并配以?？庇浱顚懜袷娇蛴脕頃鴮懶？庇?，然后生成并導出“?？遍L編”。筆者曾以周祖謨先生的《廣韻校本》進行實驗，測試自動對勘系統(tǒng)的效果，以《廣韻校本》所提到的底本和校本作為自動對勘的底本和校本，從時間、速度和比對準確性等方面進行分析，如下表所示：

經(jīng)過驗證，人工需要2個月完成的工作，自動對勘系統(tǒng)幾分鐘就完成了，大大縮減了時間成本，提高了效率。同時，自動對勘系統(tǒng)還十分有效地規(guī)避了人為疏漏，人工可以發(fā)現(xiàn)的問題，計算機都發(fā)現(xiàn)了，人工沒有發(fā)現(xiàn)的問題，計算機也發(fā)現(xiàn)了。但另一方面，由于計算機讀取字形編碼和人類的判定存在差異，以及字形處理規(guī)范的一些規(guī)定，會影響異文數(shù)量。例如，在新舊字形方面，自動對勘系統(tǒng)發(fā)現(xiàn)了210處，人工記錄了0處，這一方面是?？闭邔憽稄V韻校本》時還沒有新舊字形的概念的緣故；另一方面，即使讓現(xiàn)代人進行?？保膊粫堰@些本屬于印刷概念上的字形差異判定為有效的?？辈町悺＿@就是人和自動?？毕到y(tǒng)的差別。

（三）斷句標點的數(shù)字化轉(zhuǎn)型

為了讓現(xiàn)代人看懂古籍，整理者多會采取逐句閱讀、斷句標點的方式，整理周期一般都很長。古籍整理智能技術研發(fā)者便利用前人已經(jīng)標點好的數(shù)據(jù)進行訓練，使系統(tǒng)能夠自動理解并斷點文句，從而提高古籍的斷點效率。目前，多采用的是bert模型，運用一種類似“完形填空”的訓練邏輯讓系統(tǒng)反復預測缺失或故意遮掩的內(nèi)容，從而達到正確填充標點的效果。目前市場上有影響力的古聯(lián)公司自動標點系統(tǒng)，在斷句方面達到了96%的正確率，在標點方面也能達到92%的正確率，整理者完全可以通過自動標點技術形成一個相對成熟的古籍整理作品，然后再發(fā)揮專家優(yōu)勢，將斷句標點的正確率提升到讀者滿意的水平。所以說，在古籍斷句標點方面也實現(xiàn)了很好的轉(zhuǎn)型。

（四）繁簡轉(zhuǎn)換系統(tǒng)

考慮到現(xiàn)代人對繁體字文本閱讀困難，古籍整理者會將繁體字轉(zhuǎn)換為簡體字，古籍整理技術研發(fā)者針對這一需求，開發(fā)了繁簡轉(zhuǎn)換系統(tǒng)。在該系統(tǒng)中，最關鍵的不是轉(zhuǎn)換技術本身，而是復雜的字際關系。一個實用的繁簡轉(zhuǎn)換程序，需要考慮以下幾個方面的因素：一是編碼層面的同碼異形、同形異碼以及誤用私用區(qū)編碼問題；二是繁簡對應方面的一對多、多對一、無對應等問題；三是繁體字的異體字形較多問題。所以，開發(fā)一個相對理想的繁簡轉(zhuǎn)換系統(tǒng)就需要按照一定的邏輯逐層梳理。先進行編碼層面的認同，再將不合法的類推簡化字還原為繁體字形，然后將同一個字的異體字形進行歸并和認同，再根據(jù)一定的場景結合上下文義進行轉(zhuǎn)換，才會得到較為可靠的結果。

正是由于以上系列技術的研發(fā)，文獻整理的很多方面都實現(xiàn)了由傳統(tǒng)方式向數(shù)字化甚至智能化的轉(zhuǎn)型。這不僅大大提高了古籍整理的工作效率，也為古籍的保護和傳承開辟了新的可能。

三經(jīng)典閱讀方式的新變

數(shù)字化技術的出現(xiàn)，不僅在生產(chǎn)端產(chǎn)生了很大的影響，還促成了新的閱讀和研究方式。這主要體現(xiàn)在以下幾個方面：

（一）主題聚類檢索閱讀

在傳統(tǒng)閱讀中，一般是自上而下、自右而左，或者是自左而右、自上而下的線性閱讀方式。然而，在數(shù)字化時代，人們往往以主題詞檢索的方式開展同類主題聚合。然后，再對資料進行集中總結和分析，找到自己需要的信息或得出某種結論。一般來說，文本類數(shù)據(jù)庫大都能夠滿足這種需求，不再贅述。

（二）增值性知識關聯(lián)

傳統(tǒng)知識組織的方式是平面化的，而數(shù)字時代的內(nèi)容組織卻是立體的。前臺的文本資料與后臺的知識體系關聯(lián)在一起，既不影響文本閱讀的流暢，又可在文本閱讀出現(xiàn)困難的時候，可以即時找到延展性知識內(nèi)容，從而掃除閱讀中的障礙。這種關聯(lián)可以是解決疑難字的字典，例如《殷墟甲骨文數(shù)據(jù)庫》配有《甲骨字典》，方便閱讀者閱讀甲骨釋文的時候，遇到不認識的甲骨文進行查詢。

也可以是解決疑難知識的專題詞典，如人名辭典、地名辭典、職官詞典，或者紀年表，例如籍合網(wǎng)（https：//www.ancientbooks.cn）內(nèi)置了各類專題詞典和紀年換算表格，用于支撐平臺各數(shù)據(jù)庫的閱讀查詢所需。這些功能為讀者提供了實時、方便的咨詢工具，大大提升了閱讀的效率和體驗。

還可以是解決疑難現(xiàn)象的同實異稱、同稱異實等事實類考證內(nèi)容，例如中國人民大學李今教授主持的《漢譯文學編年考錄數(shù)據(jù)庫》，為1896年至1949年間期刊上的漢譯文學及其相關現(xiàn)象做了編目、整理和考釋，并為譯介者做了生平簡介以及筆名錄。這樣的功能提供了深入、詳實的背景信息，有助于讀者更深入地理解和研究文本。

（三）可視化知識圖譜

隨著數(shù)字人文研究與實踐的深入開展，越來越多的學者及古籍數(shù)字化從業(yè)者開始由簡單的資料匯集到深入的內(nèi)容加工，他們把平面的文字資料進行人物、時間、地點、事件等方面的提取，并開展各種維度的屬性標引，相同屬性之間可以歸類，甚至可以借助屬性關系進行推理，從而使文獻資料由平面敘述、說明變?yōu)橹R網(wǎng)絡的存在，呈現(xiàn)出基于一定專業(yè)邏輯的結構化關聯(lián)，然后借助現(xiàn)代的知識圖譜技術進行生動展示。例如，北京大學數(shù)字人文研究中心《宋元學案》知識圖譜系統(tǒng)、北京師范大學的《漢字全息資源應用系統(tǒng)》都是很好的例子。

（四）時空并重

在數(shù)字人文的研究中，我們可以通過時空數(shù)據(jù)的整合，以全新的方式理解、解釋歷史和文化現(xiàn)象。我們可以利用地理信息系統(tǒng)（GIS）技術，將歷史事件或文化現(xiàn)象在特定時間和地點的發(fā)生進行可視化，從而在更大的范圍內(nèi)觀察和理解文獻中的信息。例如，歷史學家可以將古代詩人生活軌跡、人口遷移、疾病傳播等信息映射到地圖上，以空間的方式呈現(xiàn)時間的流動，揭示出這些現(xiàn)象背后的歷史規(guī)律和文化模式，四川大學文學與新聞學院王兆鵬老師開發(fā)的《唐宋文學編年地圖》就是很有影響力的例證。

（五）基于閱讀的知識重組

在數(shù)字環(huán)境中，閱讀的方式已經(jīng)發(fā)生了根本性的變化。讀者不再被限制于單一的、線性的文本閱讀，而是可以在廣闊的知識網(wǎng)絡中自由穿行，通過鏈接、搜索和注釋等工具，將來自不同來源、不同領域的信息整合在一起，形成專門的知識體系。例如中國人民大學夏明方教授主持的國家社科基金重大項目成果《清代災荒紀年暨信息集成數(shù)據(jù)庫》①，從清代史書和地方志等文獻中提取與自然災害相關的信息，重組為災害類的專題數(shù)據(jù)庫，詳細梳理了災害類型、災害級別、賑災政策等內(nèi)容，提煉出一個新的知識體系，為史學研究之外的大氣物理研究、地震研究及政府咨詢等多領域提供了很好的參考。

（六）沉浸式體驗

數(shù)字人文技術還為我們提供了全新的、沉浸式的閱讀和學習體驗。例如，虛擬現(xiàn)實（VR）和增強現(xiàn)實（AR）技術可以將讀者帶入歷史現(xiàn)場，讓他們親身體驗歷史事件或文化現(xiàn)象。這種沉浸式體驗，不僅能夠提供更生動、直觀的知識傳遞方式，也能夠激發(fā)讀者的興趣和參與度，從而深化對文獻內(nèi)容的理解和記憶。例如，通過VR技術，讀者可以親身走進古羅馬的街頭，參觀中世紀的教堂，或是親眼看到長城的建設過程，這些都將給讀者帶來深刻的歷史感受和理解。

還可以利用元宇宙技術復活古人，實現(xiàn)跨時空的對話，讓古代文獻的作者以類真人的方式，展示其生活或傳遞其作品中所承載的文化和知識內(nèi)容。例如中華書局構建的“3D超寫實數(shù)字人蘇東坡”，通過數(shù)字全息技術，在中央電視臺2023年度“詩詞大會”中亮相，不僅生動再現(xiàn)了其與友人黃庭堅告別的場景，還與現(xiàn)場的選手互動誦詩。

時至今日，美國OPENAI公司推出了可以聊天、書寫文本摘要、翻譯，甚至可以寫代碼的聊天機器人ChtaGPT，再次引爆了網(wǎng)絡，引發(fā)了以人工智能為代表的新一輪技術革命，并逐漸影響到業(yè)界和學術界。

這些新的數(shù)字技術給人文領域帶來了很大改變，并形成了“數(shù)字人文”這一具有強烈時代特征的學科概念，成為迄今為止理念最為開放、成就最為顯著的跨學科閱讀與研究范式。這不僅打破了學術壁壘，架構了學科橋梁，甚至拉近了讀者與專家的距離，改變了閱讀和接受知識的方式。

（朱翠萍，中華書局古聯(lián)公司副總經(jīng)理）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

數(shù)字人文視角下的古籍整理與閱讀轉(zhuǎn)型