人工智能技術(shù)在檔案工作中的應(yīng)用實(shí)踐與成功經(jīng)驗(yàn)

2024-08-06 00:00:00陳蝶

檔案天地 2024年2期

自 “人工智能”一詞提出以來，人工智能經(jīng)歷三次浪潮逐步發(fā)展成熟，在醫(yī)療、教育、交通等眾多領(lǐng)域應(yīng)用中都取得了開創(chuàng)性進(jìn)展，人工智能呈現(xiàn)出的深度學(xué)習(xí)、跨界融合、人機(jī)協(xié)同、群智開放、自主操控等新特征，為當(dāng)今社會發(fā)展提供了新動能。在此背景下，《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》中著重強(qiáng)調(diào)要加強(qiáng)大數(shù)據(jù)、人工智能等新一代信息技術(shù)在數(shù)字檔案館（室）建設(shè)中的應(yīng)用，努力推動數(shù)字檔案館（室）建設(shè)優(yōu)化升級 [1]。此外隨著國內(nèi)外館藏檔案數(shù)字化進(jìn)程加快，手寫識別、文檔提取、數(shù)據(jù)關(guān)聯(lián)等新興技術(shù)在手寫檔案工作中發(fā)揮了重要作用，提高了手寫檔案字符轉(zhuǎn)錄的工作效率，節(jié)約了工作成本，同時極大程度上提高了檔案工作服務(wù)的質(zhì)量，滿足了社會公眾多方面需求。因此，順應(yīng)新時代發(fā)展的步伐，檔案數(shù)智化戰(zhàn)略轉(zhuǎn)型勢在必行。

近年來，人工智能技術(shù)的發(fā)展也引起了國內(nèi)外眾多檔案學(xué)者的關(guān)注。國外研究中相關(guān)研究范圍較廣、研究程度較深，主要集中在傳統(tǒng)理論創(chuàng)新[2]、檔案開放鑒定[3]、敏感信息處理[4]、元數(shù)據(jù)[5]等方面，其中對于手寫檔案研究，則主要集中在手寫識別[6]、單詞發(fā)現(xiàn)[7]、筆跡分類[8]、文本行分割[9]等技術(shù)。國內(nèi)研究中，學(xué)者們對于人工智能技術(shù)下手寫檔案研究較少，研究重心主要集中在檔案智慧服務(wù)體系[10]、檔案開發(fā)利用[11]、檔案數(shù)據(jù)安全[12]等領(lǐng)域?？偠灾?，國內(nèi)外研究在理論與技術(shù)應(yīng)用中取得了較為突出的成就，但是在實(shí)踐層面還不夠完善，特別是對于手寫檔案中的人工智能技術(shù)深度運(yùn)用仍有待探索。

梵蒂岡秘密檔案館的In Codice Ratio項(xiàng)目，針對梵蒂岡秘密檔案館的珍貴手寫檔案，通過傳統(tǒng)理論技術(shù)與新興AI技術(shù)的結(jié)合，逐步實(shí)現(xiàn)了手寫檔案的自動化轉(zhuǎn)錄。本文在分析該項(xiàng)目手寫檔案自動轉(zhuǎn)錄的基本思路、技術(shù)路徑的基礎(chǔ)上，學(xué)習(xí)其成功經(jīng)驗(yàn)，以期為人工智能背景下我國檔案工作發(fā)展提供些許參考。

一、In Codice Ratio項(xiàng)目手寫檔案轉(zhuǎn)錄的必要技術(shù)

正是基于梵蒂岡館藏手寫檔案數(shù)字化工作進(jìn)展緩慢，難以滿足開發(fā)利用需求以及傳統(tǒng)轉(zhuǎn)錄技術(shù)使用效果不佳，字符識別方式急需優(yōu)化等背景，梵蒂岡秘密檔案館聯(lián)合羅馬特雷大學(xué)的人文和工程系進(jìn)行跨學(xué)科合作，研發(fā)了In Codice Ratio項(xiàng)目，旨在為人文學(xué)者提供一個支持中世紀(jì)手稿自動轉(zhuǎn)錄的系統(tǒng)，以對大量歷史資料進(jìn)行數(shù)據(jù)驅(qū)動的研究。同時將人工智能、卷積神經(jīng)網(wǎng)絡(luò)、統(tǒng)計語言模型與手寫文字識別技術(shù)相結(jié)合來轉(zhuǎn)錄文本，爭取以最簡便的手段努力完成梵蒂岡手寫檔案的轉(zhuǎn)錄，以期為相關(guān)學(xué)者、社會公眾提供更方便、科學(xué)、高效的檢索服務(wù)。因而本文以In Codice Ratio項(xiàng)目為研究對象，總結(jié)歸納出該項(xiàng)目成功的必要技術(shù)。這些信息技術(shù)不僅提升了此項(xiàng)目的工作效率，還為檔案領(lǐng)域其他工作的開展提供了前所未有的發(fā)展空間。通過研究實(shí)踐發(fā)現(xiàn)，In Codice Ratio項(xiàng)目組在手寫檔案數(shù)字化圖像預(yù)處理技術(shù)、手寫檔案資源訓(xùn)練集采集技術(shù)、手寫檔案資源字符識別技術(shù)、手寫檔案資源字符轉(zhuǎn)錄技術(shù)等方面取得了突出成就，成功推動了項(xiàng)目的順利進(jìn)行，也為我國檔案工作提供了成功經(jīng)驗(yàn)。

（一）圖像預(yù)處理技術(shù)：高效裁剪提取

In Codice Ratio項(xiàng)目的必不可少工作之一就是對手寫檔案原始輸入圖像進(jìn)行預(yù)處理。為了確保后續(xù)工作的正常進(jìn)行，每一頁手稿圖像都要經(jīng)過一系列標(biāo)準(zhǔn)的預(yù)處理步驟，從而得到易辨別的單詞圖像。每個詞的圖像最后被提交給In Codice Ratio項(xiàng)目的轉(zhuǎn)錄系統(tǒng)。為了順利得到可用圖像，項(xiàng)目組應(yīng)用了如下技術(shù)：一是利用不同算法進(jìn)行文字裁剪。為了從輸入圖像中分離出含有文字的區(qū)域，需要搜索具有高輪廓密度的區(qū)域，因含有文字的區(qū)域通常顯示出高亮度差異，而非文字區(qū)域則不顯示。項(xiàng)目組首先通過高斯模糊法對輸入圖像進(jìn)行平滑處理，然后通過大津算法進(jìn)行二進(jìn)制化處理，最后使用邊界跟蹤算法進(jìn)行搜索。為了使二進(jìn)制化圖像更加穩(wěn)健和準(zhǔn)確，項(xiàng)目組還采用了局部閾值法，通過對已二進(jìn)制化的圖像像素進(jìn)行計算、處理、細(xì)化，從而準(zhǔn)確達(dá)到文字裁剪的目標(biāo)。二是使用傳統(tǒng)投影輪廓技術(shù)進(jìn)行文本線條檢測。經(jīng)過研究，目前深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)、關(guān)鍵點(diǎn)檢測等方法都可以解決在文檔中定位文本線條的問題。由于項(xiàng)目組目標(biāo)手稿中的文本行數(shù)相當(dāng)有規(guī)律，此項(xiàng)目采用傳統(tǒng)投影輪廓技術(shù)，通過分析每行中黑色像素的數(shù)量來檢測線條。同時，清除掉文本行之外的黑色像素，從而簡化接下來的預(yù)處理步驟。三是通過凸包計算進(jìn)行詞的提取。項(xiàng)目組通過計算每條線所連接組件的凸包（即包含它的最小凸形）來提取單詞。如果它們剛好重疊，一個詞就需要至少一個或更多凸包才能進(jìn)行識別、提取。四是進(jìn)行字符切割點(diǎn)識別。與字符間距均勻的印刷文本不同，手寫文本中往往沒有明確的證據(jù)表明一個符號在哪里開始，另一個符號在哪里結(jié)束。正因?yàn)槿绱?，在圖像預(yù)處理過程中進(jìn)行切割點(diǎn)識別是必備之舉。通過識別字符切割點(diǎn)，既減少了字符可能的組合數(shù)量，也減少了字符排序錯誤的機(jī)會，在一定程度上降低了系統(tǒng)的工作量，提升其工作效率。

（二）訓(xùn)練集采集技術(shù)：眾包平臺合作

最先進(jìn)的轉(zhuǎn)錄系統(tǒng)通常是使用人類注釋者制作的整行轉(zhuǎn)錄集進(jìn)行訓(xùn)練，通過反復(fù)訓(xùn)練進(jìn)而提升轉(zhuǎn)錄系統(tǒng)的正確率。對于古老的手寫檔案而言，這往往需要古代語言和古文字學(xué)知識的專家參與進(jìn)來。但是對于梵蒂岡秘密檔案館巨大的館藏量來說，傳統(tǒng)模式可行性較低。為了準(zhǔn)確搜集訓(xùn)練樣本，項(xiàng)目組采取了不同的方法建立訓(xùn)練集。一是采用基本切片分割技術(shù)進(jìn)行字符剔除。在手寫轉(zhuǎn)錄領(lǐng)域，人們普遍認(rèn)為，在不知道其轉(zhuǎn)寫方式的情況下，沒有先進(jìn)的策略可以將一個詞的圖像分割成其字符成分。為了解決這一疑問，項(xiàng)目組利用切片分割技術(shù)進(jìn)行了實(shí)驗(yàn)。具體實(shí)施情況如下：項(xiàng)目組通過計算編碼圖像矩陣每一列的墨水像素，并選擇最重要的候選點(diǎn)，從而剔除所有小的、大的、錯位的非字符片段，留下清晰明了的圖像，從而為后續(xù)眾包階段工作奠定基礎(chǔ)。二是應(yīng)用眾包平臺進(jìn)行樣本采集。眾包作為網(wǎng)絡(luò)時代一種新興的工作模式，指的是將工作以公開征集的方式外包給非特定的分布式網(wǎng)絡(luò)大眾來完成，具有效率高、大眾化、經(jīng)濟(jì)化等優(yōu)點(diǎn)。項(xiàng)目組開發(fā)了一個定制的眾包平臺，并在羅馬市招收了120名高中生，他們的任務(wù)是負(fù)責(zé)匹配圖像。具體而言是利用切片分割完成后的圖像，當(dāng)圖像與給定樣本相匹配，學(xué)生們就可標(biāo)記圖像上的復(fù)選框，相應(yīng)的圖像就會收到一張投票。最后，該圖像被貼上投票最多的字符符號。如果沒有出現(xiàn)明顯的多數(shù)，那么圖像就被貼上一個特殊的非字符類符號。通過這種方式，項(xiàng)目組能夠較為輕易地收集大量的符號樣本，并訓(xùn)練一個字符的識別模型，從而有利于訓(xùn)練樣本的快速、準(zhǔn)確、完整收集。

（三）字符識別技術(shù)：精確切割分類

通過字符識別，將手寫檔案轉(zhuǎn)化為便于檢索、復(fù)制、利用的電子檔案，對于檔案數(shù)字化相關(guān)工作具有重要意義。為了保障轉(zhuǎn)錄系統(tǒng)的正常運(yùn)行，In Codice Ratio項(xiàng)目組采用了拼圖式分割法以及深度卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)確保字符識別的高效率、正確率。第一，采用拼圖式分割法進(jìn)行字符切割。項(xiàng)目組通過對輸入文字圖像的每個連接組件計算其上下輪廓，然后再分別計算上輪廓的局部最小值和下輪廓的局部最大值。進(jìn)而將這兩個函數(shù)與單詞圖像的列索引對齊，并將上輪廓的每個局部最小值與下輪廓最接近的局部最大值連接起來，以確定分割區(qū)域。通過拼圖式分割法，可以有效減少視覺特征相同的“虛假字符”，進(jìn)而提高字符分類器的精確度以及召回率。第二，基于深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的字符分類器。該分類器是一個深度卷積神經(jīng)網(wǎng)絡(luò)，以56×56的單通道二值化圖像作為輸入對象，并通過卷積層等8個適應(yīng)層傳播，最后利用Softmax函數(shù)、損失函數(shù)進(jìn)行字符真實(shí)性結(jié)果輸出。與傳統(tǒng)光學(xué)字符識別模型相比，該字符分類器可以處理潛在的、不正確的分割，并可以同時執(zhí)行區(qū)分字符和非字符的二元分類、識別單個字符的多類分類等任務(wù)，在多類環(huán)境下有利于提高字符識別的準(zhǔn)確性。

（四）字符轉(zhuǎn)錄技術(shù)：科學(xué)模型解碼

In Codice Ratio項(xiàng)目組主要應(yīng)用以下技術(shù)轉(zhuǎn)錄生成相應(yīng)訓(xùn)練集字符。一是基于集束搜索算法的轉(zhuǎn)錄生成器。為了排除“虛假字符”問題，項(xiàng)目組將分類器中的干擾片段重新組合成一組候選轉(zhuǎn)錄。具體而言，項(xiàng)目組采用了定制的、深度優(yōu)先的集束搜索算法，確保有效生成訓(xùn)練集每行中每個分段單詞圖像的最佳候選轉(zhuǎn)錄。此外，該項(xiàng)目組還使用統(tǒng)計語言模型為輸入詞圖像選擇最佳的n個候選轉(zhuǎn)錄。二是基于高階隱馬爾可夫模型的單詞解碼器。項(xiàng)目組在考慮前一步驟的n個候選轉(zhuǎn)錄的基礎(chǔ)上，通過在高階隱馬爾可夫模型上對最可能的隱藏狀態(tài)序列進(jìn)行搜索，并解決特定解碼問題，進(jìn)而以原則性的方式修改字符識別決策，最終把合理的轉(zhuǎn)錄結(jié)果返回給用戶?？傊?，項(xiàng)目組通過轉(zhuǎn)錄生成器以及單詞解碼器的設(shè)置，解決了訓(xùn)練字符隱藏的問題，成功將手寫字符進(jìn)行了轉(zhuǎn)錄，充分展現(xiàn)了此項(xiàng)目應(yīng)用的高準(zhǔn)確性、高精確性、強(qiáng)召回率。

截至目前，In Codice Ratio項(xiàng)目已成功形成了兩個訓(xùn)練數(shù)據(jù)集，這不僅切實(shí)證明了In Codice Ratio項(xiàng)目的現(xiàn)實(shí)可行性，還充分滿足了相關(guān)學(xué)者、社會公眾的利用需求，為其提供了更方便、科學(xué)、高效的檢索服務(wù)，為轉(zhuǎn)錄系統(tǒng)的下一步發(fā)展打下了堅實(shí)的基礎(chǔ)。

二、In Codice Ratio項(xiàng)目對我國檔案工作發(fā)展啟示

（一）多元主體協(xié)同引領(lǐng)新發(fā)展

In Codice Ratio項(xiàng)目是社會各領(lǐng)域集體協(xié)作的典型，其合作主體主要包括來自梵蒂岡秘密檔案館的工作者，來自羅馬大學(xué)與羅馬第三大學(xué)的教授、專家、研究生、本科生等專家群體，以及由高中生組成的非專家群體。

首先，檔案工作者提供充足資源，滿足項(xiàng)目需求。梵蒂岡秘密檔案館的檔案工作者給予了必不可少的鼓勵與支持，正是在其大力支持下，In Codice Ratio項(xiàng)目有了更為豐富的資源，從而能更深入進(jìn)行研究。該項(xiàng)目以其館藏“梵蒂岡登記冊”為主要實(shí)驗(yàn)對象，這些文件中包含了13世紀(jì)羅馬教廷的官方信件，其中還包括有關(guān)梵蒂岡活動的歷史文件，如報紙、教皇的政治信件、發(fā)布給全球各地的政治文件、教皇的賬簿、重要活動記錄、法律問題的權(quán)威意見等。這些文件由于其特殊的時代性，具有極其重要的研究價值，為此項(xiàng)目提供了不可或缺的資源支撐。其次，專家學(xué)者提供技術(shù)支撐，推動項(xiàng)目進(jìn)行。教授、專家、學(xué)生作為In Codice Ratio項(xiàng)目建設(shè)的研究主體，通過技術(shù)支撐方式為該項(xiàng)目提供源動力。該研究團(tuán)隊(duì)中不僅包含相關(guān)技術(shù)專家，還包括古文字學(xué)家，在相互配合與協(xié)作之下，團(tuán)隊(duì)成功設(shè)計了一種基于卷積神經(jīng)網(wǎng)絡(luò)分類和統(tǒng)計語言模型的解決方案，開發(fā)了基于人工智能的識別轉(zhuǎn)錄系統(tǒng)，為項(xiàng)目的順利進(jìn)行奠定了技術(shù)基礎(chǔ)。最后，非專家群體負(fù)責(zé)數(shù)據(jù)標(biāo)記。為了確保系統(tǒng)的便利可用，In Codice Ratio項(xiàng)目提出了一個“無專家”的眾包方法。該項(xiàng)目組將眾包作為一種可擴(kuò)展的訓(xùn)練數(shù)據(jù)收集手段，搭建了一個定制的眾包平臺，并雇傭了120名高中生來標(biāo)記數(shù)據(jù)集，以期借助非專家群體來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)字符分類器，從而實(shí)現(xiàn)準(zhǔn)確的字符識別。

經(jīng)過研究分析，In Codice Ratio項(xiàng)目建立了一個集合資源、技術(shù)、社會合作的工作機(jī)制，有效推動了項(xiàng)目的成功運(yùn)作，也為我國檔案工作開展提供了許多成功經(jīng)驗(yàn)。一是檔案主管部門大力支持，實(shí)現(xiàn)資源合作。任何項(xiàng)目的實(shí)施都需要充足的資源支持，而任何一個單獨(dú)的檔案機(jī)構(gòu)數(shù)據(jù)都不能獨(dú)立成為大數(shù)據(jù)[13]，小數(shù)據(jù)集難以形成完整可靠的分析結(jié)果，因此國家檔案局、各地方檔案館、其他檔案機(jī)構(gòu)需要打破地域壁壘，建立不受地域、部門限制，組織靈活方便的檔案資源垂直共享平臺，實(shí)現(xiàn)地區(qū)與地區(qū)、部門與部門之間的資源合作。二是學(xué)者專家共同推動，實(shí)現(xiàn)技術(shù)合作。努力建立由檔案主管部門進(jìn)行統(tǒng)籌協(xié)調(diào)，高等院校提供專業(yè)理論人才，科技企業(yè)提供專業(yè)技術(shù)支撐的分工合作機(jī)制，從傳統(tǒng)的收集、存儲、整理等服務(wù)向現(xiàn)代化的管理軟件、電子化、智慧檔案等方向進(jìn)行摸索和轉(zhuǎn)變，推動檔案事業(yè)向科技性、創(chuàng)新性、共享性方向發(fā)展。三是加強(qiáng)眾包理念宣傳，吸引群眾合作。公民是參與公共檔案館事業(yè)的重要社會力量來源，檔案主管部門要主動出擊，采取網(wǎng)絡(luò)媒體、宣傳欄、座談會等線上線下多種方式加強(qiáng)與社會公眾溝通交流，了解公民具體檔案需求。此外，檔案機(jī)構(gòu)應(yīng)主動開展檔案眾包項(xiàng)目，吸引社會公眾加入，組織開放檔案的編目、著錄、編研、開發(fā)等專業(yè)性檔案志愿服務(wù)活動[14]。

（二）技術(shù)運(yùn)用推動工作創(chuàng)新

In Codice Ratio項(xiàng)目運(yùn)用了一系列信息技術(shù)擺脫了傳統(tǒng)手寫識別系統(tǒng)轉(zhuǎn)換準(zhǔn)確率較低的窘境，也避免了因高成本、高復(fù)雜度而導(dǎo)致的系統(tǒng)運(yùn)用“失控”狀態(tài)，借用多種技術(shù)手段極大推動了相關(guān)工作的創(chuàng)新開展。一是實(shí)踐技術(shù)創(chuàng)新。正如前文所述，In Codice Ratio項(xiàng)目通過人工智能、卷積神經(jīng)網(wǎng)絡(luò)、統(tǒng)計語言模型與手寫文字識別等創(chuàng)新技術(shù)的使用，成功對手寫檔案數(shù)字化圖像進(jìn)行了預(yù)處理，并采集了相關(guān)訓(xùn)練集，最終完成了字符識別的任務(wù)，為后續(xù)工作打下了堅實(shí)的基礎(chǔ)。同時，經(jīng)過實(shí)驗(yàn)證明，該項(xiàng)目所研發(fā)的新技術(shù)與傳統(tǒng)Tesseract OCR系統(tǒng)技術(shù)相比，準(zhǔn)確率更高，能夠獲得更好的結(jié)果。二是工作模式創(chuàng)新。與傳統(tǒng)的精英團(tuán)隊(duì)不同，In Codice Ratio項(xiàng)目采用有效的、可擴(kuò)展的專家-非專家工作模式，通過眾包的方法，讓非專家群體參與項(xiàng)目，把專家從重復(fù)的任務(wù)中解脫出來，讓他們?nèi)ネ晟朴玫唾Y源自動產(chǎn)生的結(jié)果，并解決最具挑戰(zhàn)性的問題。同時，專家群體可以以遠(yuǎn)程監(jiān)督的方式掌握工作進(jìn)程，有利于提高工作效率以及工作安全度。

在檔案工作中運(yùn)用信息技術(shù)，不僅對現(xiàn)有工作環(huán)節(jié)具有改造作用，還會對未來工作引發(fā)新的思考。一是運(yùn)用信息技術(shù)，創(chuàng)新工作環(huán)節(jié)。正是基于In Codice Ratio項(xiàng)目的成功經(jīng)驗(yàn)，我國相關(guān)檔案機(jī)構(gòu)開展工作的過程中需要突破自身限制，通過新穎的信息技術(shù)使檔案工作更加便利、利用方式更加多元化。如利用機(jī)器學(xué)習(xí)軟件輔助檔案鑒定工作、使用視覺模板匹配和自動分類技術(shù)進(jìn)行檔案檢索，并努力做到精確查詢結(jié)果以及運(yùn)用軟件工具篩選電子郵件中的機(jī)密、敏感信息等。這些信息技術(shù)的使用給檔案工作者帶來了極大的便利，也使檔案工作實(shí)踐發(fā)生了顛覆性的變化。二是加大相關(guān)立法，規(guī)范技術(shù)使用。人工智能技術(shù)固然能給檔案工作帶來極大的便利，但是在法律規(guī)范層面對人工智能技術(shù)的使用還存在較大爭議。基于對個人隱私和數(shù)據(jù)安全的保護(hù)需求以及對法律責(zé)任承擔(dān)的道德需求等問題，檔案主管部門需要聯(lián)合立法部門，對人工智能技術(shù)的運(yùn)用進(jìn)行詳細(xì)規(guī)定，在《檔案法》等法律文本中明確相應(yīng)的法律責(zé)任，提高社會公眾對其的信任度，在創(chuàng)新和風(fēng)險控制之間找到平衡。

（三）跨學(xué)科合作面對新挑戰(zhàn)

In Codice Ratio項(xiàng)目是檔案學(xué)、古文字學(xué)與人工智能領(lǐng)域合作的產(chǎn)物，是三大學(xué)科專家的智慧結(jié)晶。具體而言，該項(xiàng)目以檔案學(xué)科理論知識為導(dǎo)向，轉(zhuǎn)錄系統(tǒng)設(shè)計過程中始終堅持來源原則，細(xì)致對待梵蒂岡秘密檔案館中的珍貴手寫檔案，努力保證其真實(shí)性、完整性、安全性；以人工智能技術(shù)為根本，轉(zhuǎn)錄系統(tǒng)的成功運(yùn)轉(zhuǎn)離不開相關(guān)人工智能技術(shù)的支撐，這些技術(shù)構(gòu)成了轉(zhuǎn)錄系統(tǒng)的必備框架。同時，通過技術(shù)合作成功采集、處理手寫檔案數(shù)據(jù)資源，增強(qiáng)了轉(zhuǎn)錄系統(tǒng)的整體性能；以古文字學(xué)、語言學(xué)為輔助，古文字學(xué)家、語言學(xué)家在轉(zhuǎn)錄系統(tǒng)設(shè)計前期運(yùn)用專業(yè)知識對館藏手寫檔案進(jìn)行了梳理，成功識別、辨認(rèn)清楚檔案中的生僻、模糊字跡，為后續(xù)對大量歷史資料進(jìn)行數(shù)據(jù)驅(qū)動研究打下了堅實(shí)的基礎(chǔ)。在多種學(xué)科的合作與支持下打破原有的邊界，用跨學(xué)科的原理結(jié)合檔案學(xué)科的要素創(chuàng)新，使手寫檔案轉(zhuǎn)錄系統(tǒng)初步研究規(guī)劃成為可能，極大推動了不同學(xué)科之間知識的交流與共享，有利于激活館藏檔案服務(wù)效能。

從歷史角度來看，檔案學(xué)科本身就是一門跨領(lǐng)域?qū)W科，檔案工作者本身就具備跨領(lǐng)域思維[15]。特別是大數(shù)據(jù)時代，隨著互聯(lián)網(wǎng)的快速發(fā)展，檔案工作實(shí)踐不僅僅是傳統(tǒng)紙質(zhì)檔案的保管與利用，還出現(xiàn)了電子檔案。因此為了確保檔案事業(yè)的持續(xù)發(fā)展，我國檔案主管部門可以借鑒In Codice Ratio項(xiàng)目成功經(jīng)驗(yàn)，作出實(shí)際行動。一是加大合作，打造跨學(xué)科合作平臺。計算機(jī)學(xué)與檔案學(xué)有著千絲萬縷的聯(lián)系，兩者之間的結(jié)合能夠從根本上提升兩個領(lǐng)域的認(rèn)知，人工智能也可以為檔案的保管與利用帶來多樣、有效的組織方式。因此，計算檔案學(xué)的成立具有非凡意義。將以人工智能為代表的計算機(jī)科學(xué)與檔案學(xué)科進(jìn)行有機(jī)結(jié)合，通過跨學(xué)科知識的結(jié)合，能夠?yàn)闄n案工作者開拓獨(dú)特的視角。除此之外，建立一個由檔案學(xué)科牽頭，計算機(jī)學(xué)、歷史學(xué)等學(xué)科為輔助，聯(lián)合檔案主管部門、檔案機(jī)構(gòu)、檔案第三方企業(yè)共同打造的檔案跨學(xué)科實(shí)驗(yàn)中心，為檔案學(xué)的理論與實(shí)踐發(fā)展提供強(qiáng)力平臺支撐。二是加強(qiáng)培養(yǎng)，打造綜合型人才。隨著人工智能技術(shù)在檔案領(lǐng)域的深入應(yīng)用，檔案工作者正經(jīng)歷一個從接收保管紙質(zhì)檔案到接收保管檔案數(shù)據(jù)，從手工操作到信息化、智能化操作，從檔案資源分散利用到網(wǎng)絡(luò)共享檔案資源的變革過程。檔案工作者不僅需要掌握基礎(chǔ)的檔案理論知識，還需要對相關(guān)人工智能技術(shù)有一定了解。因而，檔案主管部門及國家檔案智庫需要以大數(shù)據(jù)時代檔案事業(yè)發(fā)展為導(dǎo)向，了解目前檔案業(yè)務(wù)實(shí)際需求，培養(yǎng)檔案基礎(chǔ)理論與人工智能技術(shù)兼通的復(fù)合型人才。

三、結(jié)語

人工智能不僅是一種技術(shù)，更是一種思維，為檔案工作帶來了前所未有的機(jī)遇。文章梳理了In Codice Ratio項(xiàng)目的實(shí)驗(yàn)過程，了解了該項(xiàng)目的技術(shù)應(yīng)用邏輯，并分析了其多元主體協(xié)同引領(lǐng)新發(fā)展、技術(shù)運(yùn)用推動工作創(chuàng)新、跨學(xué)科合作面對新挑戰(zhàn)的成功經(jīng)驗(yàn)，據(jù)此提出了人工智能技術(shù)下我國檔案事業(yè)未來探索策略。通過多主體合作、工作技術(shù)創(chuàng)新、培養(yǎng)理論與技術(shù)兼通的綜合性人才等措施有助于推動人工智能技術(shù)在檔案領(lǐng)域的應(yīng)用，提升相關(guān)工作的效率，并能夠助力檔案工作的智慧化、科學(xué)化、現(xiàn)代化，實(shí)現(xiàn)其高質(zhì)量發(fā)展。

參考文獻(xiàn)：

[1]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].（2021-06-09）[2023-03-08].https：//www.saac.gov.cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4.shtml.

[2] MOSS M，THOMAS D， GOLLINS T. The reconfiguration of the archive as data to be mined[J]. Archivaria，2018， 86： 118-151.

[3] MAKHLOUF SHABOU B，TIèCHE J， KNAFOU J， et al. Algorithmic methods to explore the automation of the appraisal of structured and unstructured digital data[J]. Rec Manag J， 2020， 30（2）： 175-200.

[4] SCHNEIDER J， ADAMS C， DEBAUCHE S， et al. Appraising， processing， and providing access to email in contemporary literary archives[J]. Arch Manuscr， 2019， 47（3）： 305-326.

[5] BüTTNER G. Auto-classification in an international organization： report from a feasibility study[J]. Comma， 2019， 2017（2）： 15-26.

[6] ASSIS NETO F R， SANTOS C A S. Understanding crowdsourcing projects： a systematic review of tendencies， workflow， and quality management[J]. Inf Process Manag， 2018， 54（4）： 490-506.

[7] ALMAZáN J， GORDO A， FORNéS A， et al. Word spotting and recognition with （下轉(zhuǎn)47頁）

（上接44頁）embedded attributes[J]. IEEE Trans Pattern Anal Mach Intell， 2014， 36（12）： 2552-2566.

[8] BULACU M， SCHOMAKER L. Automatic handwriting identification on medieval documents[C]. //14th International Conference on Image Analysis and Processing （ICIAP 2007）. Modena， Italy. IEEE， 2007： 279-284.

[9] LIKFORMAN-SULEM L， ZAHOUR A， TACONET B. Text line segmentation of historical documents： a survey[J]. IJDAR， 2007， 9（2）： 123-138.

[10] 李靜. “人工智能+檔案” 的醫(yī)院檔案智慧服務(wù)體系建設(shè)探究[J]. 黑龍江檔案， 2023（1）： 143-145.

[11] 鄭慧，劉思含. 人工智能與檔案開發(fā)利用：應(yīng)用、愿景與進(jìn)路[J]. 山西檔案， 2022（5）： 5-10， 28.

[12] 于英香，李雨欣. “AI+檔案” 應(yīng)用的算法風(fēng)險與治理路徑探析[J]. 北京檔案， 2021（10）： 5-9.

[13] 程妍妍，李劍鋒，孫筠. 新一代信息技術(shù)在檔案工作中的運(yùn)用及啟示：以歐盟“時光機(jī)” 項(xiàng)目為例[J]. 浙江檔案， 2022（4）： 33-36.

[14] 邱燕. 檔案事業(yè)公眾參與的實(shí)踐與探索[J]. 蘭臺世界， 2018（11）： 114-116.

[15] 程妍妍，宋瑩，鄭伽. 國外檔案工作與人工智能：潛力和挑戰(zhàn)[J]. 中國檔案， 2022（8）： 78-80.

作者單位：上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院

檔案天地2024年2期

檔案天地的其它文章: 新時代下公立醫(yī)院人事檔案數(shù)字化的意義與路徑探索; 智能廣播電視媒資檔案管理平臺建設(shè)與研究; 新時代高校輔導(dǎo)員兼職學(xué)生檔案管理工作的困境與對策; 養(yǎng)老保險檔案信息化管理的難點(diǎn)與對策探析; 科研項(xiàng)目電子檔案驗(yàn)收環(huán)節(jié)的現(xiàn)實(shí)問題與優(yōu)化對策; 人工智能圖像識別技術(shù)賦能檔案管理的應(yīng)用場景研究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

人工智能技術(shù)在檔案工作中的應(yīng)用實(shí)踐與成功經(jīng)驗(yàn)