面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型構(gòu)建研究*

2021-02-14 03:52:28房小可

數(shù)字圖書館論壇 2021年11期

房小可

（北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院，北京 100191）

自1994年美國(guó)記憶啟動(dòng)以來(lái)，數(shù)字記憶項(xiàng)目在全球范圍生長(zhǎng)蔓延，建設(shè)主體和主題類型豐富多樣，很快形成繁茂景象[1]。不僅成立了國(guó)家記憶項(xiàng)目如美國(guó)記憶、中國(guó)記憶等，地區(qū)層面的記憶項(xiàng)目也層出不窮，如北京記憶、香港記憶等。更有泛在用戶參與的面向數(shù)字記憶建構(gòu)的檔案著錄工具ICA-AtoM（Access to memory）[2]。此外，在《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》[3]中，也強(qiáng)調(diào)要加快數(shù)字化發(fā)展，建設(shè)數(shù)字中國(guó)。檔案學(xué)領(lǐng)域也開(kāi)展了檔案與社會(huì)記憶、城市記憶、國(guó)家記憶之間的探索，提出并論證了“檔案記憶觀”理論[4]?！皺n案記憶觀”重要的內(nèi)核之一是“檔案具有記憶屬性”[5]。在數(shù)字記憶已成為研究重點(diǎn)的當(dāng)下，對(duì)檔案承載的記憶進(jìn)行構(gòu)建和挖掘，從而實(shí)現(xiàn)數(shù)字記憶的開(kāi)發(fā)利用是值得研究的問(wèn)題。對(duì)數(shù)字記憶開(kāi)發(fā)利用比較普遍的方式是構(gòu)建數(shù)字記憶網(wǎng)站，如美國(guó)9·11數(shù)字檔案網(wǎng)站、佛羅里達(dá)州記憶網(wǎng)站等。信息檢索是檔案開(kāi)發(fā)利用的關(guān)鍵方法，檔案檢索程度和質(zhì)量直接關(guān)系著檔案的開(kāi)發(fā)利用程度和質(zhì)量[6]，這些記憶網(wǎng)站均有在線分類瀏覽和檔案主題檢索的功能，用戶通過(guò)關(guān)鍵詞檢索可獲得匹配的檔案資源。然而，記憶是對(duì)過(guò)去的感知與再現(xiàn)，每個(gè)故事均有一定的結(jié)構(gòu)特征，包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局，那些能夠記憶并再現(xiàn)出來(lái)的經(jīng)歷會(huì)成為故事所敘述的基本內(nèi)容[7]。在數(shù)字化轉(zhuǎn)型時(shí)代背景下，針對(duì)大量的數(shù)字記憶僅以數(shù)字化的檔案照片或文件的形式將檢索記憶結(jié)果反饋給用戶是不夠的，需要針對(duì)檔案所承載記憶的結(jié)構(gòu)特征，細(xì)粒度挖掘記憶要素，實(shí)現(xiàn)細(xì)粒度化的檔案檢索。本文正是以此為研究切入點(diǎn)，將數(shù)字記憶網(wǎng)站中的檢索模塊單獨(dú)提出，面向數(shù)字記憶的開(kāi)發(fā)利用來(lái)構(gòu)建檔案檢索模型，為數(shù)字記憶細(xì)粒度開(kāi)發(fā)利用提供借鑒。

1 國(guó)內(nèi)外研究現(xiàn)狀

由于直接面向數(shù)字記憶開(kāi)發(fā)利用而構(gòu)建檔案檢索模型的研究比較少，本文擬分別從檔案視角下數(shù)字記憶開(kāi)發(fā)利用和檔案檢索兩部分來(lái)進(jìn)行梳理。

1.1 檔案視角下數(shù)字記憶的開(kāi)發(fā)利用研究現(xiàn)狀

數(shù)字記憶的開(kāi)發(fā)利用從開(kāi)發(fā)視角上可分為三方面：一是數(shù)字記憶開(kāi)發(fā)路徑研究，即從橫向開(kāi)發(fā)主體到縱向信息資源采集、整理及利用的整體視角提出數(shù)字記憶開(kāi)發(fā)方案。例如：霍艷芳等[8]用數(shù)字人文的理念與方法重新審視城市記憶資源建設(shè)模式，提出從資源采集到資源數(shù)據(jù)庫(kù)搭建的全流程來(lái)優(yōu)化傳統(tǒng)資源整合模式和開(kāi)發(fā)路徑；Mina等[9]認(rèn)為數(shù)字轉(zhuǎn)型下文化傳統(tǒng)與城市生活密不可分，對(duì)此作者梳理當(dāng)?shù)匚幕夹g(shù)方面的舉措，并以歐洲數(shù)字圖書館為例，介紹文化數(shù)字化方面取得的主要成就。二是數(shù)字記憶平臺(tái)建設(shè)研究，即從資源采集到開(kāi)發(fā)整體流程為主線，實(shí)現(xiàn)檔案開(kāi)發(fā)利用的虛擬平臺(tái)。例如：馮惠玲等[10]在數(shù)字記憶理念下，以浙江臺(tái)州古村落為對(duì)象，對(duì)已有資料進(jìn)行數(shù)字化采集、加工，實(shí)現(xiàn)“記·憶高遷”網(wǎng)站平臺(tái)的建設(shè)；Spagnoli[11]認(rèn)為“臨時(shí)展覽虛擬檔案”項(xiàng)目涉及開(kāi)發(fā)在線檔案，從而能夠記錄、保存和提供與臨時(shí)展覽和文化活動(dòng)設(shè)計(jì)有關(guān)的數(shù)字材料，由此可將虛擬檔案館和博物館作為保存和記錄虛擬檔案的主體，從而在文化遺產(chǎn)價(jià)值等方面發(fā)揮作用。三是面向數(shù)字記憶開(kāi)發(fā)利用的檔案資源建設(shè)研究，包括對(duì)檔案資源庫(kù)的建設(shè)、檔案異構(gòu)數(shù)據(jù)整合及檔案知識(shí)圖譜開(kāi)發(fā)等。例如：牛力等[12]從異構(gòu)記憶資源整合對(duì)象、整合基礎(chǔ)、整合思路與整合技術(shù)四方面對(duì)異構(gòu)記憶資源整合的研究現(xiàn)狀進(jìn)行系統(tǒng)梳理并剖析當(dāng)前問(wèn)題，提出解決對(duì)策；Hsieh等[13]針對(duì)我國(guó)臺(tái)灣地區(qū)體育事業(yè)，將體育界重要人物的珍貴文物檔案數(shù)字化，并構(gòu)建數(shù)據(jù)庫(kù)，進(jìn)而通過(guò)線上線下開(kāi)發(fā)提供體育文化多樣性展示。

以檔案為視角的數(shù)字記憶開(kāi)發(fā)利用，其研究更多是基于某些開(kāi)發(fā)手段形成數(shù)字記憶的展示形式（如網(wǎng)站、展覽等），而未對(duì)檔案中記憶的故事性和敘事性內(nèi)容進(jìn)行深度挖掘，且對(duì)于數(shù)字記憶的進(jìn)一步檢索利用研究較少。

1.2 檔案檢索研究現(xiàn)狀

2000年以后，檔案檢索集中在以下三方面。一是檔案網(wǎng)站檢索研究，如趙屹等[14]以美國(guó)網(wǎng)絡(luò)檔案檢索系統(tǒng)ARC為例，從檔案源、著錄項(xiàng)、檢索途徑、檢索新功能、系統(tǒng)數(shù)據(jù)及檢索性能介紹NARA提供的檢索工具。二是信息描述與元數(shù)據(jù)研究，例如：Riley等[15]討論了可共享元數(shù)據(jù)原理及應(yīng)用于檔案描述所涉及的問(wèn)題、工具和策略；王蘭成[16]從語(yǔ)義視角研究基于語(yǔ)義的檔案信息整合及基于XML、EAD異構(gòu)檔案信息組織及其本體方法的應(yīng)用。三是檔案檢索系統(tǒng)研究，例如：趙雪芹[17]通過(guò)分析現(xiàn)行檢索服務(wù)存在的弊端及用戶面臨檢索困境，提出將資源發(fā)現(xiàn)服務(wù)作為一種高效便捷的資源揭示和檢索系統(tǒng)；Ricardo[18]在基于可擴(kuò)展標(biāo)記語(yǔ)言EAC-CPF（編碼檔案上下文）基礎(chǔ)上，提出用于檔案信息系統(tǒng)的協(xié)作框架，該框架支持輔助導(dǎo)航和主題映射，并提供語(yǔ)義豐富的訪問(wèn)層以確保不同歸檔保存記錄的位置，改善了用戶與網(wǎng)絡(luò)的交互體驗(yàn)方式。

上述研究可知，對(duì)檔案檢索的研究大體上是將檔案視為一種普通信息資源來(lái)處理，但檔案承載的記憶具有故事性。未對(duì)檔案承載的記憶特征進(jìn)行分析而直接實(shí)現(xiàn)檢索服務(wù)，難以為用戶提供精準(zhǔn)的檔案服務(wù)，影響檔案價(jià)值的挖掘與傳承。

總的來(lái)說(shuō)，數(shù)字記憶開(kāi)發(fā)利用及檔案檢索具有開(kāi)發(fā)針對(duì)性不夠明確、開(kāi)發(fā)深度不足、展現(xiàn)形式缺乏細(xì)粒度化的問(wèn)題。由此，本文針對(duì)數(shù)字記憶本身的特征，基于語(yǔ)義分析等方法，通過(guò)檢索模型實(shí)現(xiàn)數(shù)字記憶的細(xì)粒度敘事型展現(xiàn)，支持?jǐn)?shù)字記憶的深度開(kāi)發(fā)利用，發(fā)揮檔案所承載記憶的歷史及文化價(jià)值。

2 數(shù)字記憶與檔案檢索的邏輯關(guān)系

2.1 數(shù)字記憶開(kāi)發(fā)利用與檔案檢索模型存在目標(biāo)統(tǒng)一性

信息檢索模型是對(duì)文檔和查詢進(jìn)行表示以及對(duì)它們之間的相關(guān)性進(jìn)行描述的模型，實(shí)際上是為滿足用戶需求對(duì)信息資源進(jìn)行重組而設(shè)計(jì)的一套匹配模式。因此，檔案檢索模型的構(gòu)建目標(biāo)是為了滿足檔案用戶需求，從而促進(jìn)檔案價(jià)值的開(kāi)發(fā)利用。數(shù)字記憶的概念最早由中國(guó)人民大學(xué)馮惠玲教授提出，其本身代表著數(shù)字技術(shù)和社會(huì)記憶的火花碰撞，隨著社會(huì)數(shù)字轉(zhuǎn)型，逐漸從成為社會(huì)記憶的主要形態(tài)。在馮惠玲教授所主持的“北京記憶”項(xiàng)目實(shí)踐中，將其初步定義為應(yīng)用數(shù)字技術(shù)對(duì)各種記憶資源進(jìn)行數(shù)字化組織與再現(xiàn)，使之達(dá)到可解讀、可保存、可關(guān)聯(lián)、可再組、可傳播與共享，進(jìn)而支持?jǐn)?shù)字時(shí)代集體記憶的構(gòu)建與傳承[19]?？梢?jiàn)，數(shù)字記憶開(kāi)發(fā)利用的目標(biāo)之一是對(duì)信息資源組織與再現(xiàn)從而滿足用戶的需求，實(shí)現(xiàn)共享利用。這種對(duì)于檔案資源的重組以滿足用戶的需求，二者的目標(biāo)具有統(tǒng)一性。

2.2 檔案檢索是數(shù)字記憶得以有效利用的途徑

數(shù)字記憶是否得到有效利用與是否滿足用戶需求緊密相關(guān)。筆者在前期研究梳理中發(fā)現(xiàn)，檔案界主要是以檔案館為中心參與社會(huì)記憶構(gòu)建工作，通過(guò)編研、展覽、拍攝視頻等方式進(jìn)行社會(huì)記憶的傳播[20]。這些基本是從價(jià)值論層面來(lái)考慮數(shù)字記憶產(chǎn)品的提供利用問(wèn)題，缺乏從需求論層面即直接從用戶需求的角度探討提供利用；檔案檢索是根據(jù)用戶提出顯性需求（如輸入查詢?cè)~等方式）為用戶提供記憶資源，屬于需求論層面范疇。因此，在數(shù)字社會(huì)的當(dāng)下，檔案檢索不失為數(shù)字記憶有效利用的途徑之一。需要進(jìn)一步說(shuō)明的是，隨著檔案數(shù)據(jù)化的不斷深入發(fā)展，需要將檔案進(jìn)行數(shù)據(jù)化處理，即以數(shù)據(jù)為起點(diǎn)進(jìn)行數(shù)字記憶構(gòu)建及開(kāi)發(fā)利用，對(duì)此也有學(xué)者提出基于數(shù)字人文視角的社會(huì)記憶構(gòu)建[21]。從檔案粒度上看，可構(gòu)建檔案數(shù)據(jù)化范疇下的檔案檢索模型以支持?jǐn)?shù)字記憶的有效開(kāi)發(fā)利用。

2.3 數(shù)字記憶的呈現(xiàn)方式影響檔案檢索模型的信息組織粒度

馮惠玲[1]根據(jù)記憶資源的呈現(xiàn)方式，將數(shù)字記憶粗略劃分為展陳型和敘事型。展陳型主要是將一定專題的記憶進(jìn)行系統(tǒng)化展示，以原生資源訴說(shuō)記憶，體現(xiàn)為語(yǔ)義連續(xù)性。以往的數(shù)字記憶開(kāi)發(fā)利用更多是此種展示形式。敘事型則主要是在該專題研究基礎(chǔ)上，用數(shù)字資源體系化、邏輯化、敘述式地呈現(xiàn)客體記憶，可以是語(yǔ)義分散式的檔案表達(dá)。由前文可知，檔案檢索是根據(jù)用戶提出顯性需求的方式為用戶提供記憶資源，檢索得到的記憶呈現(xiàn)形式既可以是客觀展示的粗粒度全文展示模式，也可以是邏輯化呈現(xiàn)的細(xì)粒度可視化展示模式。

綜上，數(shù)字記憶和檔案檢索模型存在目標(biāo)統(tǒng)一、途徑相通、互為影響的內(nèi)在關(guān)聯(lián)，因此從檔案檢索模型的角度呈現(xiàn)數(shù)字記憶并實(shí)現(xiàn)其開(kāi)發(fā)利用是可行的，也是值得研究的。

3 數(shù)字記憶開(kāi)發(fā)利用視角下的檔案檢索模型構(gòu)建

由前文可知，信息檢索模型有兩個(gè)重要要素，即信息表示和相關(guān)性匹配；數(shù)字記憶基本分為展陳型和敘事型兩種呈現(xiàn)方式。如何基于檔案信息表示和相關(guān)性匹配實(shí)現(xiàn)展陳型和敘事型兩種展現(xiàn)形式是本部分需要解決的問(wèn)題。面向展陳型的檔案檢索與以往的檢索無(wú)差別，即基于著錄項(xiàng)目實(shí)現(xiàn)檢索結(jié)果的某種次序展現(xiàn)即可；需要說(shuō)明的是，面向敘事型的檔案檢索，由文獻(xiàn)[7]可知，記憶是對(duì)過(guò)去的感知與再現(xiàn)，每個(gè)故事均有一定的結(jié)構(gòu)特征，包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局，那些能夠記憶并再現(xiàn)出來(lái)的經(jīng)歷會(huì)成為故事所敘述的基本內(nèi)容。因此，呈現(xiàn)敘事型檢索結(jié)果的前提不只是依據(jù)著錄項(xiàng)目，更重要的是需要對(duì)檔案承載的記憶進(jìn)行記憶實(shí)體的挖掘和語(yǔ)義組織，即記憶要素的識(shí)別以及要素之間的關(guān)聯(lián)構(gòu)建。以此為依據(jù)，本文構(gòu)建的面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型如圖1所示。其中面向展陳型的檔案檢索模塊與當(dāng)前檔案檢索模式基本一致，即將檔案數(shù)字化并建立索引庫(kù)，實(shí)現(xiàn)基于案卷名、文件名、文件形成時(shí)間等著錄項(xiàng)目的檢索，獲取檔案數(shù)字化副本。面向敘事型的檔案檢索模塊構(gòu)建的前提是將檔案數(shù)據(jù)化，進(jìn)而根據(jù)敘事特征和需求提取數(shù)字記憶的敘事要素及其語(yǔ)義關(guān)聯(lián)，通過(guò)建立要素索引獲取敘事網(wǎng)絡(luò)，技術(shù)上實(shí)現(xiàn)語(yǔ)義檢索，服務(wù)上還原事件的來(lái)龍去脈。依據(jù)模型擬解決的關(guān)鍵問(wèn)題，本部分著重闡述面向敘事型的檔案檢索模塊。

圖1 數(shù)字記憶視角下檔案檢索模型

3.1 檔案信息中數(shù)字記憶要素提取

筆者以往的研究中，已對(duì)社會(huì)記憶要素進(jìn)行了分析和揭示，從歷史題材角度提取故事基本內(nèi)容的骨架元素，即為社會(huì)記憶要素[22]，其元素應(yīng)包括時(shí)間、地點(diǎn)、人物、事件、主題五類要素。數(shù)字記憶作為社會(huì)記憶數(shù)字轉(zhuǎn)型的主要形態(tài)，同樣應(yīng)包含這五類要素。時(shí)間要素和地點(diǎn)要素指該事件發(fā)生過(guò)程中出現(xiàn)的重要時(shí)間和重要地點(diǎn)；人物要素包括事件中出現(xiàn)的真實(shí)人物、組織團(tuán)體或機(jī)構(gòu)等；事件要素即一次活動(dòng)或多次活動(dòng)的集合，體現(xiàn)在案卷題名或文件題名中；主題要素是整個(gè)事件的重要故事節(jié)點(diǎn)。

數(shù)字記憶的各要素，時(shí)間、地點(diǎn)、人物、事件，從信息檢索學(xué)科角度看均屬于命名實(shí)體；而主題要素作為事件的主要內(nèi)容可通過(guò)主題模型或聚類等方式提取。因此，數(shù)字記憶要素提取工作可轉(zhuǎn)換為命名實(shí)體識(shí)別及主題挖掘兩項(xiàng)任務(wù)。

3.1.1 基于規(guī)則方法的時(shí)間和地點(diǎn)命名實(shí)體識(shí)別

命名實(shí)體識(shí)別的方法主要分為兩種，一是基于規(guī)則和字典的方法，二是基于統(tǒng)計(jì)的方法。基于規(guī)則的方法和基于字典的方法都是要構(gòu)建大量的規(guī)則集或字典，然后按照需求將需要識(shí)別的漢字串放入制定的規(guī)則集中或與所構(gòu)建的字典進(jìn)行匹配，經(jīng)過(guò)多次修正直到匹配成功。具有代表性的是Colllins等[23]提出先定義種子規(guī)則集Decision List，再根據(jù)語(yǔ)料對(duì)該集合進(jìn)行無(wú)監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則，最終將規(guī)則集用于命名實(shí)體的分類?；谝?guī)則的實(shí)體識(shí)別比較適用于形勢(shì)比較固定、規(guī)則比較容易提取的命名實(shí)體，如時(shí)間、地名。由此，檔案數(shù)字記憶的時(shí)間和地點(diǎn)要素可基于規(guī)則的命名實(shí)體識(shí)別方法。

3.1.2 基于統(tǒng)計(jì)的人物和事件命名實(shí)體識(shí)別

基于統(tǒng)計(jì)的命名實(shí)體識(shí)別，目前比較有效的是序列化標(biāo)注方法，即對(duì)于文本中每個(gè)詞，可以有若干個(gè)候選的類別標(biāo)簽，這些標(biāo)簽對(duì)應(yīng)其在各類命名實(shí)體中所處的位置，對(duì)其進(jìn)行訓(xùn)練進(jìn)而實(shí)現(xiàn)分類。如GU等[24]運(yùn)用條件隨機(jī)場(chǎng)和知識(shí)庫(kù)，通過(guò)分析中文名字的特征，將中文人名的訓(xùn)練集進(jìn)行序列標(biāo)識(shí)，并對(duì)測(cè)試集進(jìn)行命名實(shí)體識(shí)別。

檔案信息中數(shù)字記憶的人物要素和事件要素與時(shí)間和地點(diǎn)實(shí)體不同，表達(dá)形式一般為自然語(yǔ)言，但是也有規(guī)律可循。對(duì)于人名，其上文一般是“稱呼”“職銜”，下文一般是“先生”“同志”“說(shuō)”之類的稱謂詞或動(dòng)詞，根據(jù)具體情況對(duì)數(shù)據(jù)集進(jìn)行序列標(biāo)識(shí)。以一份民國(guó)檔案文件“里昂中法大學(xué)寫給校董蔡元培先生的信件”作為分析，對(duì)于“蔡元培”這一人名要素名稱，人名前是“職銜”的稱呼，即“校董”，人名后是稱謂詞“先生”。如果對(duì)整個(gè)句子從人名內(nèi)部組成、上下文、無(wú)關(guān)詞進(jìn)行標(biāo)注，對(duì)整個(gè)句子進(jìn)行標(biāo)注的結(jié)果是：“里昂中法大學(xué)/RN 寫/RN 給/RN 校董/RQ 蔡/RX 元/RM 培/RM 先生/RH 的/RN 信件/RN”，其中RN表示與人名無(wú)關(guān)的語(yǔ)詞，RQ是人名上文的詞，RX是人名的姓氏，RM是人名的名字，RH是人名后文的詞。然后通過(guò)基于Viterbi算法的自動(dòng)標(biāo)注和識(shí)別得到人名實(shí)體。事件要素同理，這里不再贅述。因此檔案數(shù)字記憶中人物要素和事件要素可考慮基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法。

3.1.3 主題要素的提取

Blei等[25]于2003年提出了隱含狄利克雷分配（Latent Dirichlet Allocation，LDA）模型，該模型對(duì)參數(shù)自身提出了先驗(yàn)假設(shè)，屬于完全概率生成模型，因此是一個(gè)三層貝葉斯模型。與PLSA相同，LDA假設(shè)文檔表示為主題的概率分布，而主題表示為詞語(yǔ)的概率分布，是目前應(yīng)用廣泛的模型之一。學(xué)者基于研究對(duì)象的不同，對(duì)LDA主題模型進(jìn)行了拓展和改良，最具有代表性的改良LDA模型包括：基于ATM（AuthorTopic Model）的主題建模、Twitter-LDA主題建模和基于Labeled LDA的主題建模等。本文選用LDA模型實(shí)現(xiàn)主題挖掘。

基于LDA的檔案信息主題挖掘的主要思想是，認(rèn)為每份文件是若干主題的混合分布，而每個(gè)主題又是由若干詞匯（包含命名實(shí)體）組成的概率分布。因此可以將每份文件表示為這些隱含主題的概率分布（file-topic），而每個(gè)隱含主題可表示為詞匯的概率分布（topic-word）。主題要素豐富了記憶的敘事性，是數(shù)字記憶不可缺少的再現(xiàn)情境。

3.2 數(shù)字記憶要素語(yǔ)義關(guān)聯(lián)抽取

數(shù)字記憶要素語(yǔ)義關(guān)聯(lián)抽取實(shí)際上分為兩種類型的關(guān)系抽?。阂皇菍?shí)體關(guān)系抽取，如人物-地點(diǎn)、人物-事件，或者要素內(nèi)部實(shí)體如人名-機(jī)構(gòu)名、事件1-事件2等；二是主題之間的語(yǔ)義關(guān)系抽取。

對(duì)于實(shí)體關(guān)系抽取，已有的方法主要是從語(yǔ)料信息中提取詞性、句法結(jié)構(gòu)、語(yǔ)義依存關(guān)系等表面特征和結(jié)構(gòu)化特征，并用模式匹配、特征向量和基于核函數(shù)的方法對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行分類[26]。這些實(shí)體關(guān)系抽取方法前期對(duì)自然語(yǔ)言處理工具具有較強(qiáng)的依賴性，因此受到自然語(yǔ)言工具處理結(jié)果的影響。深度學(xué)習(xí)的概念最早是在2006年由Hinton等[27]正式提出?；谏疃葘W(xué)習(xí)的實(shí)體抽取方法能夠自動(dòng)提取特征，減少對(duì)人工的依賴，且具有良好的泛化能力，可用于抽取大規(guī)模文本數(shù)據(jù)。其中，CNN和RNN是實(shí)體關(guān)系抽取中應(yīng)用比較廣泛的網(wǎng)絡(luò)模型，考慮兩種模型對(duì)文本處理的效果，本文選擇RNN作為實(shí)體關(guān)系抽取模型，并引入注意力機(jī)制為每個(gè)實(shí)體計(jì)算一個(gè)關(guān)系權(quán)重，以此提取數(shù)字記憶基因鏈，為后續(xù)數(shù)字記憶檢索敘事化呈現(xiàn)提供數(shù)據(jù)支持。

對(duì)于主題之間的語(yǔ)義關(guān)系抽取，可根據(jù)向量之間的相似度抽取主題之間的語(yǔ)義強(qiáng)弱關(guān)系。由前文可知，每個(gè)主題由若干個(gè)有實(shí)際意義的詞匯組成，若干詞匯概率形成概率分布，因此每個(gè)主題可用一系列具備概率權(quán)值的詞向量表示。運(yùn)用主題向量之間的余弦相似性計(jì)算可得到每個(gè)主題之間的相似度值，值越大說(shuō)明兩個(gè)主題越相關(guān)，反之越不相關(guān)。

3.3 索引庫(kù)建立及檔案信息匹配

索引款目是有關(guān)信息資源所涉及的主題、事物及其他特征的信息單元，并指向其地址的一條記錄[28]。因此，對(duì)于數(shù)字記憶中的索引庫(kù)除了包含構(gòu)建以原有著錄項(xiàng)目中的關(guān)鍵詞索引，還應(yīng)構(gòu)建數(shù)字記憶要素索引，即人物要素包含的人名索引、機(jī)構(gòu)索引，以及其他要素中包含的時(shí)間索引、地名索引、事件索引和主題索引。索引地址指向與索引詞具有語(yǔ)義關(guān)聯(lián)的重要數(shù)字記憶要素，呈現(xiàn)實(shí)體語(yǔ)義關(guān)聯(lián)，體現(xiàn)數(shù)字記憶基因鏈，還原事件來(lái)龍去脈和歷史原貌。

模型根據(jù)用戶輸入查詢?cè)~提取用戶需求，形成布爾邏輯表達(dá)式，如果表達(dá)式提取后只對(duì)應(yīng)一個(gè)語(yǔ)詞，可以直接將提取的語(yǔ)詞與索引進(jìn)行匹配，一方面可得到以該語(yǔ)詞為關(guān)鍵詞的展陳型數(shù)字化檔案；另一方面提取包含該語(yǔ)詞的事件基因鏈。例如，在含有北京聯(lián)合大學(xué)校址記憶的檔案信息中，用戶輸入詞為“北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院”，則可基于關(guān)鍵詞的全文檢索獲取該詞所在的數(shù)字化文件或資料，得到展陳型的檢索結(jié)果；進(jìn)一步地，依據(jù)已有的事件的語(yǔ)義關(guān)聯(lián)，獲取從實(shí)體到實(shí)體的發(fā)展鏈條，如從“中國(guó)人民大學(xué)二分?！钡健氨本┞?lián)合大學(xué)應(yīng)用文理學(xué)院”的關(guān)系鏈條，以及在這一發(fā)展鏈條中所發(fā)生的歷史故事的來(lái)龍去脈。

4 實(shí)證分析

本研究的實(shí)驗(yàn)部分以北京聯(lián)合大學(xué)編著的《校址的故事》為數(shù)據(jù)源。該書在學(xué)校前黨委書記韓憲洲的親自指導(dǎo)下，由檔案（校史）館牽頭編寫，編寫過(guò)程中小組成員不斷挖掘館藏檔案，赴國(guó)家檔案局、北京市檔案局、北京市方志館、平谷區(qū)檔案館等地查詢確認(rèn)每個(gè)信息點(diǎn)，歷時(shí)2年多，記錄了大學(xué)分校時(shí)期至今的校址變遷。以《校址的故事》為研究對(duì)象，通過(guò)本文提出的方法，即命名實(shí)體識(shí)別、實(shí)體關(guān)聯(lián)挖掘還原事件的來(lái)龍去脈。為了清楚展示效果，采用微軟開(kāi)發(fā)的跨平臺(tái)開(kāi)放工具Visual Studio Code，選用jQuery作為優(yōu)化HTML的輔助工具，其他前端可視化工具包括HTML、CSS、JS、Layer和G6。校址檢索選擇界面見(jiàn)圖2。

圖2中左邊一欄中選擇任何一個(gè)校址，即可顯示介紹、時(shí)間線、主題、人名、機(jī)構(gòu)名、關(guān)系圖6個(gè)模塊。介紹模塊主要是對(duì)該校址的整體說(shuō)明；時(shí)間線模塊是對(duì)該校址的重要時(shí)間及其對(duì)應(yīng)的事件進(jìn)行梳理，可基于規(guī)則的方式提取時(shí)間實(shí)體；人名、機(jī)構(gòu)名模塊分別基于統(tǒng)計(jì)的命名實(shí)體識(shí)別得到；主題模塊基于LDA提取得到。

圖2 校址檢索選擇界面

以“西城區(qū)西四豐盛胡同13號(hào)”為例，時(shí)間上從1978—2012年，共經(jīng)歷了9個(gè)校址，包括中國(guó)人民大學(xué)第二分校校址、北京聯(lián)合大學(xué)文法學(xué)院院址等?；贚DA實(shí)現(xiàn)主題挖掘，經(jīng)測(cè)試主題數(shù)為7效果較好：一是校舍的建立和設(shè)計(jì)，二是該地址所在校區(qū)硬件設(shè)施的建設(shè)，三是軟件設(shè)施籌備，四是首次招生活動(dòng)，五是專業(yè)設(shè)置，六是檔案學(xué)專業(yè)的成立，最后是其他方面的支持，通過(guò)主題挖掘能較清晰的反映出有關(guān)該校址闡述的主要環(huán)節(jié)和內(nèi)容；最終，通過(guò)實(shí)體之間的關(guān)系深化用戶對(duì)該校址的理解，從顯性的實(shí)體展示過(guò)渡到隱性的實(shí)體之間的關(guān)系。

5 總結(jié)

當(dāng)前的檔案檢索模型更多將檔案作為普通信息進(jìn)行處理，然而檔案承載的記憶具有一定的結(jié)構(gòu)特征，包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局等，因此需要針對(duì)記憶特征實(shí)現(xiàn)檢索及記憶結(jié)果呈現(xiàn)。數(shù)字記憶的呈現(xiàn)方式主要有展陳型和敘事型兩種方式，對(duì)于面向敘事型的數(shù)字記憶開(kāi)發(fā)利用當(dāng)前研究尚且不足。由此，本文剖析數(shù)字記憶與檔案檢索的邏輯關(guān)聯(lián)，針對(duì)展陳型和敘事型兩種呈現(xiàn)方式，構(gòu)建面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型，并細(xì)致闡述針對(duì)敘事型檢索模型的構(gòu)建過(guò)程和關(guān)鍵點(diǎn)。由于數(shù)據(jù)源的限制，本文的實(shí)證部分是對(duì)一次文獻(xiàn)的二次開(kāi)發(fā)和重組，未來(lái)的研究會(huì)增加數(shù)據(jù)量及不同檔案數(shù)據(jù)類型，完善本文提出的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡