国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型構(gòu)建研究*

2021-02-14 03:52:28房小可
數(shù)字圖書館論壇 2021年11期
關(guān)鍵詞:檢索實(shí)體語(yǔ)義

房小可

(北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院,北京 100191)

自1994年美國(guó)記憶啟動(dòng)以來(lái),數(shù)字記憶項(xiàng)目在全球范圍生長(zhǎng)蔓延,建設(shè)主體和主題類型豐富多樣,很快形成繁茂景象[1]。不僅成立了國(guó)家記憶項(xiàng)目如美國(guó)記憶、中國(guó)記憶等,地區(qū)層面的記憶項(xiàng)目也層出不窮,如北京記憶、香港記憶等。更有泛在用戶參與的面向數(shù)字記憶建構(gòu)的檔案著錄工具ICA-AtoM(Access to memory)[2]。此外,在《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》[3]中,也強(qiáng)調(diào)要加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國(guó)。檔案學(xué)領(lǐng)域也開(kāi)展了檔案與社會(huì)記憶、城市記憶、國(guó)家記憶之間的探索,提出并論證了“檔案記憶觀”理論[4]?!皺n案記憶觀”重要的內(nèi)核之一是“檔案具有記憶屬性”[5]。在數(shù)字記憶已成為研究重點(diǎn)的當(dāng)下,對(duì)檔案承載的記憶進(jìn)行構(gòu)建和挖掘,從而實(shí)現(xiàn)數(shù)字記憶的開(kāi)發(fā)利用是值得研究的問(wèn)題。對(duì)數(shù)字記憶開(kāi)發(fā)利用比較普遍的方式是構(gòu)建數(shù)字記憶網(wǎng)站,如美國(guó)9·11數(shù)字檔案網(wǎng)站、佛羅里達(dá)州記憶網(wǎng)站等。信息檢索是檔案開(kāi)發(fā)利用的關(guān)鍵方法,檔案檢索程度和質(zhì)量直接關(guān)系著檔案的開(kāi)發(fā)利用程度和質(zhì)量[6],這些記憶網(wǎng)站均有在線分類瀏覽和檔案主題檢索的功能,用戶通過(guò)關(guān)鍵詞檢索可獲得匹配的檔案資源。然而,記憶是對(duì)過(guò)去的感知與再現(xiàn),每個(gè)故事均有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局,那些能夠記憶并再現(xiàn)出來(lái)的經(jīng)歷會(huì)成為故事所敘述的基本內(nèi)容[7]。在數(shù)字化轉(zhuǎn)型時(shí)代背景下,針對(duì)大量的數(shù)字記憶僅以數(shù)字化的檔案照片或文件的形式將檢索記憶結(jié)果反饋給用戶是不夠的,需要針對(duì)檔案所承載記憶的結(jié)構(gòu)特征,細(xì)粒度挖掘記憶要素,實(shí)現(xiàn)細(xì)粒度化的檔案檢索。本文正是以此為研究切入點(diǎn),將數(shù)字記憶網(wǎng)站中的檢索模塊單獨(dú)提出,面向數(shù)字記憶的開(kāi)發(fā)利用來(lái)構(gòu)建檔案檢索模型,為數(shù)字記憶細(xì)粒度開(kāi)發(fā)利用提供借鑒。

1 國(guó)內(nèi)外研究現(xiàn)狀

由于直接面向數(shù)字記憶開(kāi)發(fā)利用而構(gòu)建檔案檢索模型的研究比較少,本文擬分別從檔案視角下數(shù)字記憶開(kāi)發(fā)利用和檔案檢索兩部分來(lái)進(jìn)行梳理。

1.1 檔案視角下數(shù)字記憶的開(kāi)發(fā)利用研究現(xiàn)狀

數(shù)字記憶的開(kāi)發(fā)利用從開(kāi)發(fā)視角上可分為三方面:一是數(shù)字記憶開(kāi)發(fā)路徑研究,即從橫向開(kāi)發(fā)主體到縱向信息資源采集、整理及利用的整體視角提出數(shù)字記憶開(kāi)發(fā)方案。例如:霍艷芳等[8]用數(shù)字人文的理念與方法重新審視城市記憶資源建設(shè)模式,提出從資源采集到資源數(shù)據(jù)庫(kù)搭建的全流程來(lái)優(yōu)化傳統(tǒng)資源整合模式和開(kāi)發(fā)路徑;Mina等[9]認(rèn)為數(shù)字轉(zhuǎn)型下文化傳統(tǒng)與城市生活密不可分,對(duì)此作者梳理當(dāng)?shù)匚幕夹g(shù)方面的舉措,并以歐洲數(shù)字圖書館為例,介紹文化數(shù)字化方面取得的主要成就。二是數(shù)字記憶平臺(tái)建設(shè)研究,即從資源采集到開(kāi)發(fā)整體流程為主線,實(shí)現(xiàn)檔案開(kāi)發(fā)利用的虛擬平臺(tái)。例如:馮惠玲等[10]在數(shù)字記憶理念下,以浙江臺(tái)州古村落為對(duì)象,對(duì)已有資料進(jìn)行數(shù)字化采集、加工,實(shí)現(xiàn)“記·憶高遷”網(wǎng)站平臺(tái)的建設(shè);Spagnoli[11]認(rèn)為“臨時(shí)展覽虛擬檔案”項(xiàng)目涉及開(kāi)發(fā)在線檔案,從而能夠記錄、保存和提供與臨時(shí)展覽和文化活動(dòng)設(shè)計(jì)有關(guān)的數(shù)字材料,由此可將虛擬檔案館和博物館作為保存和記錄虛擬檔案的主體,從而在文化遺產(chǎn)價(jià)值等方面發(fā)揮作用。三是面向數(shù)字記憶開(kāi)發(fā)利用的檔案資源建設(shè)研究,包括對(duì)檔案資源庫(kù)的建設(shè)、檔案異構(gòu)數(shù)據(jù)整合及檔案知識(shí)圖譜開(kāi)發(fā)等。例如:牛力等[12]從異構(gòu)記憶資源整合對(duì)象、整合基礎(chǔ)、整合思路與整合技術(shù)四方面對(duì)異構(gòu)記憶資源整合的研究現(xiàn)狀進(jìn)行系統(tǒng)梳理并剖析當(dāng)前問(wèn)題,提出解決對(duì)策;Hsieh等[13]針對(duì)我國(guó)臺(tái)灣地區(qū)體育事業(yè),將體育界重要人物的珍貴文物檔案數(shù)字化,并構(gòu)建數(shù)據(jù)庫(kù),進(jìn)而通過(guò)線上線下開(kāi)發(fā)提供體育文化多樣性展示。

以檔案為視角的數(shù)字記憶開(kāi)發(fā)利用,其研究更多是基于某些開(kāi)發(fā)手段形成數(shù)字記憶的展示形式(如網(wǎng)站、展覽等),而未對(duì)檔案中記憶的故事性和敘事性內(nèi)容進(jìn)行深度挖掘,且對(duì)于數(shù)字記憶的進(jìn)一步檢索利用研究較少。

1.2 檔案檢索研究現(xiàn)狀

2000年以后,檔案檢索集中在以下三方面。一是檔案網(wǎng)站檢索研究,如趙屹等[14]以美國(guó)網(wǎng)絡(luò)檔案檢索系統(tǒng)ARC為例,從檔案源、著錄項(xiàng)、檢索途徑、檢索新功能、系統(tǒng)數(shù)據(jù)及檢索性能介紹NARA提供的檢索工具。二是信息描述與元數(shù)據(jù)研究,例如:Riley等[15]討論了可共享元數(shù)據(jù)原理及應(yīng)用于檔案描述所涉及的問(wèn)題、工具和策略;王蘭成[16]從語(yǔ)義視角研究基于語(yǔ)義的檔案信息整合及基于XML、EAD異構(gòu)檔案信息組織及其本體方法的應(yīng)用。三是檔案檢索系統(tǒng)研究,例如:趙雪芹[17]通過(guò)分析現(xiàn)行檢索服務(wù)存在的弊端及用戶面臨檢索困境,提出將資源發(fā)現(xiàn)服務(wù)作為一種高效便捷的資源揭示和檢索系統(tǒng);Ricardo[18]在基于可擴(kuò)展標(biāo)記語(yǔ)言EAC-CPF(編碼檔案上下文)基礎(chǔ)上,提出用于檔案信息系統(tǒng)的協(xié)作框架,該框架支持輔助導(dǎo)航和主題映射,并提供語(yǔ)義豐富的訪問(wèn)層以確保不同歸檔保存記錄的位置,改善了用戶與網(wǎng)絡(luò)的交互體驗(yàn)方式。

上述研究可知,對(duì)檔案檢索的研究大體上是將檔案視為一種普通信息資源來(lái)處理,但檔案承載的記憶具有故事性。未對(duì)檔案承載的記憶特征進(jìn)行分析而直接實(shí)現(xiàn)檢索服務(wù),難以為用戶提供精準(zhǔn)的檔案服務(wù),影響檔案價(jià)值的挖掘與傳承。

總的來(lái)說(shuō),數(shù)字記憶開(kāi)發(fā)利用及檔案檢索具有開(kāi)發(fā)針對(duì)性不夠明確、開(kāi)發(fā)深度不足、展現(xiàn)形式缺乏細(xì)粒度化的問(wèn)題。由此,本文針對(duì)數(shù)字記憶本身的特征,基于語(yǔ)義分析等方法,通過(guò)檢索模型實(shí)現(xiàn)數(shù)字記憶的細(xì)粒度敘事型展現(xiàn),支持?jǐn)?shù)字記憶的深度開(kāi)發(fā)利用,發(fā)揮檔案所承載記憶的歷史及文化價(jià)值。

2 數(shù)字記憶與檔案檢索的邏輯關(guān)系

2.1 數(shù)字記憶開(kāi)發(fā)利用與檔案檢索模型存在目標(biāo)統(tǒng)一性

信息檢索模型是對(duì)文檔和查詢進(jìn)行表示以及對(duì)它們之間的相關(guān)性進(jìn)行描述的模型,實(shí)際上是為滿足用戶需求對(duì)信息資源進(jìn)行重組而設(shè)計(jì)的一套匹配模式。因此,檔案檢索模型的構(gòu)建目標(biāo)是為了滿足檔案用戶需求,從而促進(jìn)檔案價(jià)值的開(kāi)發(fā)利用。數(shù)字記憶的概念最早由中國(guó)人民大學(xué)馮惠玲教授提出,其本身代表著數(shù)字技術(shù)和社會(huì)記憶的火花碰撞,隨著社會(huì)數(shù)字轉(zhuǎn)型,逐漸從成為社會(huì)記憶的主要形態(tài)。在馮惠玲教授所主持的“北京記憶”項(xiàng)目實(shí)踐中,將其初步定義為應(yīng)用數(shù)字技術(shù)對(duì)各種記憶資源進(jìn)行數(shù)字化組織與再現(xiàn),使之達(dá)到可解讀、可保存、可關(guān)聯(lián)、可再組、可傳播與共享,進(jìn)而支持?jǐn)?shù)字時(shí)代集體記憶的構(gòu)建與傳承[19]??梢?jiàn),數(shù)字記憶開(kāi)發(fā)利用的目標(biāo)之一是對(duì)信息資源組織與再現(xiàn)從而滿足用戶的需求,實(shí)現(xiàn)共享利用。這種對(duì)于檔案資源的重組以滿足用戶的需求,二者的目標(biāo)具有統(tǒng)一性。

2.2 檔案檢索是數(shù)字記憶得以有效利用的途徑

數(shù)字記憶是否得到有效利用與是否滿足用戶需求緊密相關(guān)。筆者在前期研究梳理中發(fā)現(xiàn),檔案界主要是以檔案館為中心參與社會(huì)記憶構(gòu)建工作,通過(guò)編研、展覽、拍攝視頻等方式進(jìn)行社會(huì)記憶的傳播[20]。這些基本是從價(jià)值論層面來(lái)考慮數(shù)字記憶產(chǎn)品的提供利用問(wèn)題,缺乏從需求論層面即直接從用戶需求的角度探討提供利用;檔案檢索是根據(jù)用戶提出顯性需求(如輸入查詢?cè)~等方式)為用戶提供記憶資源,屬于需求論層面范疇。因此,在數(shù)字社會(huì)的當(dāng)下,檔案檢索不失為數(shù)字記憶有效利用的途徑之一。需要進(jìn)一步說(shuō)明的是,隨著檔案數(shù)據(jù)化的不斷深入發(fā)展,需要將檔案進(jìn)行數(shù)據(jù)化處理,即以數(shù)據(jù)為起點(diǎn)進(jìn)行數(shù)字記憶構(gòu)建及開(kāi)發(fā)利用,對(duì)此也有學(xué)者提出基于數(shù)字人文視角的社會(huì)記憶構(gòu)建[21]。從檔案粒度上看,可構(gòu)建檔案數(shù)據(jù)化范疇下的檔案檢索模型以支持?jǐn)?shù)字記憶的有效開(kāi)發(fā)利用。

2.3 數(shù)字記憶的呈現(xiàn)方式影響檔案檢索模型的信息組織粒度

馮惠玲[1]根據(jù)記憶資源的呈現(xiàn)方式,將數(shù)字記憶粗略劃分為展陳型和敘事型。展陳型主要是將一定專題的記憶進(jìn)行系統(tǒng)化展示,以原生資源訴說(shuō)記憶,體現(xiàn)為語(yǔ)義連續(xù)性。以往的數(shù)字記憶開(kāi)發(fā)利用更多是此種展示形式。敘事型則主要是在該專題研究基礎(chǔ)上,用數(shù)字資源體系化、邏輯化、敘述式地呈現(xiàn)客體記憶,可以是語(yǔ)義分散式的檔案表達(dá)。由前文可知,檔案檢索是根據(jù)用戶提出顯性需求的方式為用戶提供記憶資源,檢索得到的記憶呈現(xiàn)形式既可以是客觀展示的粗粒度全文展示模式,也可以是邏輯化呈現(xiàn)的細(xì)粒度可視化展示模式。

綜上,數(shù)字記憶和檔案檢索模型存在目標(biāo)統(tǒng)一、途徑相通、互為影響的內(nèi)在關(guān)聯(lián),因此從檔案檢索模型的角度呈現(xiàn)數(shù)字記憶并實(shí)現(xiàn)其開(kāi)發(fā)利用是可行的,也是值得研究的。

3 數(shù)字記憶開(kāi)發(fā)利用視角下的檔案檢索模型構(gòu)建

由前文可知,信息檢索模型有兩個(gè)重要要素,即信息表示和相關(guān)性匹配;數(shù)字記憶基本分為展陳型和敘事型兩種呈現(xiàn)方式。如何基于檔案信息表示和相關(guān)性匹配實(shí)現(xiàn)展陳型和敘事型兩種展現(xiàn)形式是本部分需要解決的問(wèn)題。面向展陳型的檔案檢索與以往的檢索無(wú)差別,即基于著錄項(xiàng)目實(shí)現(xiàn)檢索結(jié)果的某種次序展現(xiàn)即可;需要說(shuō)明的是,面向敘事型的檔案檢索,由文獻(xiàn)[7]可知,記憶是對(duì)過(guò)去的感知與再現(xiàn),每個(gè)故事均有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局,那些能夠記憶并再現(xiàn)出來(lái)的經(jīng)歷會(huì)成為故事所敘述的基本內(nèi)容。因此,呈現(xiàn)敘事型檢索結(jié)果的前提不只是依據(jù)著錄項(xiàng)目,更重要的是需要對(duì)檔案承載的記憶進(jìn)行記憶實(shí)體的挖掘和語(yǔ)義組織,即記憶要素的識(shí)別以及要素之間的關(guān)聯(lián)構(gòu)建。以此為依據(jù),本文構(gòu)建的面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型如圖1所示。其中面向展陳型的檔案檢索模塊與當(dāng)前檔案檢索模式基本一致,即將檔案數(shù)字化并建立索引庫(kù),實(shí)現(xiàn)基于案卷名、文件名、文件形成時(shí)間等著錄項(xiàng)目的檢索,獲取檔案數(shù)字化副本。面向敘事型的檔案檢索模塊構(gòu)建的前提是將檔案數(shù)據(jù)化,進(jìn)而根據(jù)敘事特征和需求提取數(shù)字記憶的敘事要素及其語(yǔ)義關(guān)聯(lián),通過(guò)建立要素索引獲取敘事網(wǎng)絡(luò),技術(shù)上實(shí)現(xiàn)語(yǔ)義檢索,服務(wù)上還原事件的來(lái)龍去脈。依據(jù)模型擬解決的關(guān)鍵問(wèn)題,本部分著重闡述面向敘事型的檔案檢索模塊。

圖1 數(shù)字記憶視角下檔案檢索模型

3.1 檔案信息中數(shù)字記憶要素提取

筆者以往的研究中,已對(duì)社會(huì)記憶要素進(jìn)行了分析和揭示,從歷史題材角度提取故事基本內(nèi)容的骨架元素,即為社會(huì)記憶要素[22],其元素應(yīng)包括時(shí)間、地點(diǎn)、人物、事件、主題五類要素。數(shù)字記憶作為社會(huì)記憶數(shù)字轉(zhuǎn)型的主要形態(tài),同樣應(yīng)包含這五類要素。時(shí)間要素和地點(diǎn)要素指該事件發(fā)生過(guò)程中出現(xiàn)的重要時(shí)間和重要地點(diǎn);人物要素包括事件中出現(xiàn)的真實(shí)人物、組織團(tuán)體或機(jī)構(gòu)等;事件要素即一次活動(dòng)或多次活動(dòng)的集合,體現(xiàn)在案卷題名或文件題名中;主題要素是整個(gè)事件的重要故事節(jié)點(diǎn)。

數(shù)字記憶的各要素,時(shí)間、地點(diǎn)、人物、事件,從信息檢索學(xué)科角度看均屬于命名實(shí)體;而主題要素作為事件的主要內(nèi)容可通過(guò)主題模型或聚類等方式提取。因此,數(shù)字記憶要素提取工作可轉(zhuǎn)換為命名實(shí)體識(shí)別及主題挖掘兩項(xiàng)任務(wù)。

3.1.1 基于規(guī)則方法的時(shí)間和地點(diǎn)命名實(shí)體識(shí)別

命名實(shí)體識(shí)別的方法主要分為兩種,一是基于規(guī)則和字典的方法,二是基于統(tǒng)計(jì)的方法。基于規(guī)則的方法和基于字典的方法都是要構(gòu)建大量的規(guī)則集或字典,然后按照需求將需要識(shí)別的漢字串放入制定的規(guī)則集中或與所構(gòu)建的字典進(jìn)行匹配,經(jīng)過(guò)多次修正直到匹配成功。具有代表性的是Colllins等[23]提出先定義種子規(guī)則集Decision List,再根據(jù)語(yǔ)料對(duì)該集合進(jìn)行無(wú)監(jiān)督的訓(xùn)練迭代得到更多的規(guī)則,最終將規(guī)則集用于命名實(shí)體的分類?;谝?guī)則的實(shí)體識(shí)別比較適用于形勢(shì)比較固定、規(guī)則比較容易提取的命名實(shí)體,如時(shí)間、地名。由此,檔案數(shù)字記憶的時(shí)間和地點(diǎn)要素可基于規(guī)則的命名實(shí)體識(shí)別方法。

3.1.2 基于統(tǒng)計(jì)的人物和事件命名實(shí)體識(shí)別

基于統(tǒng)計(jì)的命名實(shí)體識(shí)別,目前比較有效的是序列化標(biāo)注方法,即對(duì)于文本中每個(gè)詞,可以有若干個(gè)候選的類別標(biāo)簽,這些標(biāo)簽對(duì)應(yīng)其在各類命名實(shí)體中所處的位置,對(duì)其進(jìn)行訓(xùn)練進(jìn)而實(shí)現(xiàn)分類。如GU等[24]運(yùn)用條件隨機(jī)場(chǎng)和知識(shí)庫(kù),通過(guò)分析中文名字的特征,將中文人名的訓(xùn)練集進(jìn)行序列標(biāo)識(shí),并對(duì)測(cè)試集進(jìn)行命名實(shí)體識(shí)別。

檔案信息中數(shù)字記憶的人物要素和事件要素與時(shí)間和地點(diǎn)實(shí)體不同,表達(dá)形式一般為自然語(yǔ)言,但是也有規(guī)律可循。對(duì)于人名,其上文一般是“稱呼”“職銜”,下文一般是“先生”“同志”“說(shuō)”之類的稱謂詞或動(dòng)詞,根據(jù)具體情況對(duì)數(shù)據(jù)集進(jìn)行序列標(biāo)識(shí)。以一份民國(guó)檔案文件“里昂中法大學(xué)寫給校董蔡元培先生的信件”作為分析,對(duì)于“蔡元培”這一人名要素名稱,人名前是“職銜”的稱呼,即“校董”,人名后是稱謂詞“先生”。如果對(duì)整個(gè)句子從人名內(nèi)部組成、上下文、無(wú)關(guān)詞進(jìn)行標(biāo)注,對(duì)整個(gè)句子進(jìn)行標(biāo)注的結(jié)果是:“里昂中法大學(xué)/RN 寫/RN 給/RN 校董/RQ 蔡/RX 元/RM 培/RM 先生/RH 的/RN 信件/RN”,其中RN表示與人名無(wú)關(guān)的語(yǔ)詞,RQ是人名上文的詞,RX是人名的姓氏,RM是人名的名字,RH是人名后文的詞。然后通過(guò)基于Viterbi算法的自動(dòng)標(biāo)注和識(shí)別得到人名實(shí)體。事件要素同理,這里不再贅述。因此檔案數(shù)字記憶中人物要素和事件要素可考慮基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法。

3.1.3 主題要素的提取

Blei等[25]于2003年提出了隱含狄利克雷分配(Latent Dirichlet Allocation,LDA)模型,該模型對(duì)參數(shù)自身提出了先驗(yàn)假設(shè),屬于完全概率生成模型,因此是一個(gè)三層貝葉斯模型。與PLSA相同,LDA假設(shè)文檔表示為主題的概率分布,而主題表示為詞語(yǔ)的概率分布,是目前應(yīng)用廣泛的模型之一。學(xué)者基于研究對(duì)象的不同,對(duì)LDA主題模型進(jìn)行了拓展和改良,最具有代表性的改良LDA模型包括:基于ATM(AuthorTopic Model)的主題建模、Twitter-LDA主題建模和基于Labeled LDA的主題建模等。本文選用LDA模型實(shí)現(xiàn)主題挖掘。

基于LDA的檔案信息主題挖掘的主要思想是,認(rèn)為每份文件是若干主題的混合分布,而每個(gè)主題又是由若干詞匯(包含命名實(shí)體)組成的概率分布。因此可以將每份文件表示為這些隱含主題的概率分布(file-topic),而每個(gè)隱含主題可表示為詞匯的概率分布(topic-word)。主題要素豐富了記憶的敘事性,是數(shù)字記憶不可缺少的再現(xiàn)情境。

3.2 數(shù)字記憶要素語(yǔ)義關(guān)聯(lián)抽取

數(shù)字記憶要素語(yǔ)義關(guān)聯(lián)抽取實(shí)際上分為兩種類型的關(guān)系抽?。阂皇菍?shí)體關(guān)系抽取,如人物-地點(diǎn)、人物-事件,或者要素內(nèi)部實(shí)體如人名-機(jī)構(gòu)名、事件1-事件2等;二是主題之間的語(yǔ)義關(guān)系抽取。

對(duì)于實(shí)體關(guān)系抽取,已有的方法主要是從語(yǔ)料信息中提取詞性、句法結(jié)構(gòu)、語(yǔ)義依存關(guān)系等表面特征和結(jié)構(gòu)化特征,并用模式匹配、特征向量和基于核函數(shù)的方法對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行分類[26]。這些實(shí)體關(guān)系抽取方法前期對(duì)自然語(yǔ)言處理工具具有較強(qiáng)的依賴性,因此受到自然語(yǔ)言工具處理結(jié)果的影響。深度學(xué)習(xí)的概念最早是在2006年由Hinton等[27]正式提出?;谏疃葘W(xué)習(xí)的實(shí)體抽取方法能夠自動(dòng)提取特征,減少對(duì)人工的依賴,且具有良好的泛化能力,可用于抽取大規(guī)模文本數(shù)據(jù)。其中,CNN和RNN是實(shí)體關(guān)系抽取中應(yīng)用比較廣泛的網(wǎng)絡(luò)模型,考慮兩種模型對(duì)文本處理的效果,本文選擇RNN作為實(shí)體關(guān)系抽取模型,并引入注意力機(jī)制為每個(gè)實(shí)體計(jì)算一個(gè)關(guān)系權(quán)重,以此提取數(shù)字記憶基因鏈,為后續(xù)數(shù)字記憶檢索敘事化呈現(xiàn)提供數(shù)據(jù)支持。

對(duì)于主題之間的語(yǔ)義關(guān)系抽取,可根據(jù)向量之間的相似度抽取主題之間的語(yǔ)義強(qiáng)弱關(guān)系。由前文可知,每個(gè)主題由若干個(gè)有實(shí)際意義的詞匯組成,若干詞匯概率形成概率分布,因此每個(gè)主題可用一系列具備概率權(quán)值的詞向量表示。運(yùn)用主題向量之間的余弦相似性計(jì)算可得到每個(gè)主題之間的相似度值,值越大說(shuō)明兩個(gè)主題越相關(guān),反之越不相關(guān)。

3.3 索引庫(kù)建立及檔案信息匹配

索引款目是有關(guān)信息資源所涉及的主題、事物及其他特征的信息單元,并指向其地址的一條記錄[28]。因此,對(duì)于數(shù)字記憶中的索引庫(kù)除了包含構(gòu)建以原有著錄項(xiàng)目中的關(guān)鍵詞索引,還應(yīng)構(gòu)建數(shù)字記憶要素索引,即人物要素包含的人名索引、機(jī)構(gòu)索引,以及其他要素中包含的時(shí)間索引、地名索引、事件索引和主題索引。索引地址指向與索引詞具有語(yǔ)義關(guān)聯(lián)的重要數(shù)字記憶要素,呈現(xiàn)實(shí)體語(yǔ)義關(guān)聯(lián),體現(xiàn)數(shù)字記憶基因鏈,還原事件來(lái)龍去脈和歷史原貌。

模型根據(jù)用戶輸入查詢?cè)~提取用戶需求,形成布爾邏輯表達(dá)式,如果表達(dá)式提取后只對(duì)應(yīng)一個(gè)語(yǔ)詞,可以直接將提取的語(yǔ)詞與索引進(jìn)行匹配,一方面可得到以該語(yǔ)詞為關(guān)鍵詞的展陳型數(shù)字化檔案;另一方面提取包含該語(yǔ)詞的事件基因鏈。例如,在含有北京聯(lián)合大學(xué)校址記憶的檔案信息中,用戶輸入詞為“北京聯(lián)合大學(xué)應(yīng)用文理學(xué)院”,則可基于關(guān)鍵詞的全文檢索獲取該詞所在的數(shù)字化文件或資料,得到展陳型的檢索結(jié)果;進(jìn)一步地,依據(jù)已有的事件的語(yǔ)義關(guān)聯(lián),獲取從實(shí)體到實(shí)體的發(fā)展鏈條,如從“中國(guó)人民大學(xué)二分?!钡健氨本┞?lián)合大學(xué)應(yīng)用文理學(xué)院”的關(guān)系鏈條,以及在這一發(fā)展鏈條中所發(fā)生的歷史故事的來(lái)龍去脈。

4 實(shí)證分析

本研究的實(shí)驗(yàn)部分以北京聯(lián)合大學(xué)編著的《校址的故事》為數(shù)據(jù)源。該書在學(xué)校前黨委書記韓憲洲的親自指導(dǎo)下,由檔案(校史)館牽頭編寫,編寫過(guò)程中小組成員不斷挖掘館藏檔案,赴國(guó)家檔案局、北京市檔案局、北京市方志館、平谷區(qū)檔案館等地查詢確認(rèn)每個(gè)信息點(diǎn),歷時(shí)2年多,記錄了大學(xué)分校時(shí)期至今的校址變遷。以《校址的故事》為研究對(duì)象,通過(guò)本文提出的方法,即命名實(shí)體識(shí)別、實(shí)體關(guān)聯(lián)挖掘還原事件的來(lái)龍去脈。為了清楚展示效果,采用微軟開(kāi)發(fā)的跨平臺(tái)開(kāi)放工具Visual Studio Code,選用jQuery作為優(yōu)化HTML的輔助工具,其他前端可視化工具包括HTML、CSS、JS、Layer和G6。校址檢索選擇界面見(jiàn)圖2。

圖2中左邊一欄中選擇任何一個(gè)校址,即可顯示介紹、時(shí)間線、主題、人名、機(jī)構(gòu)名、關(guān)系圖6個(gè)模塊。介紹模塊主要是對(duì)該校址的整體說(shuō)明;時(shí)間線模塊是對(duì)該校址的重要時(shí)間及其對(duì)應(yīng)的事件進(jìn)行梳理,可基于規(guī)則的方式提取時(shí)間實(shí)體;人名、機(jī)構(gòu)名模塊分別基于統(tǒng)計(jì)的命名實(shí)體識(shí)別得到;主題模塊基于LDA提取得到。

圖2 校址檢索選擇界面

以“西城區(qū)西四豐盛胡同13號(hào)”為例,時(shí)間上從1978—2012年,共經(jīng)歷了9個(gè)校址,包括中國(guó)人民大學(xué)第二分校校址、北京聯(lián)合大學(xué)文法學(xué)院院址等?;贚DA實(shí)現(xiàn)主題挖掘,經(jīng)測(cè)試主題數(shù)為7效果較好:一是校舍的建立和設(shè)計(jì),二是該地址所在校區(qū)硬件設(shè)施的建設(shè),三是軟件設(shè)施籌備,四是首次招生活動(dòng),五是專業(yè)設(shè)置,六是檔案學(xué)專業(yè)的成立,最后是其他方面的支持,通過(guò)主題挖掘能較清晰的反映出有關(guān)該校址闡述的主要環(huán)節(jié)和內(nèi)容;最終,通過(guò)實(shí)體之間的關(guān)系深化用戶對(duì)該校址的理解,從顯性的實(shí)體展示過(guò)渡到隱性的實(shí)體之間的關(guān)系。

5 總結(jié)

當(dāng)前的檔案檢索模型更多將檔案作為普通信息進(jìn)行處理,然而檔案承載的記憶具有一定的結(jié)構(gòu)特征,包括敘述者、情節(jié)、場(chǎng)景、人物、危機(jī)與結(jié)局等,因此需要針對(duì)記憶特征實(shí)現(xiàn)檢索及記憶結(jié)果呈現(xiàn)。數(shù)字記憶的呈現(xiàn)方式主要有展陳型和敘事型兩種方式,對(duì)于面向敘事型的數(shù)字記憶開(kāi)發(fā)利用當(dāng)前研究尚且不足。由此,本文剖析數(shù)字記憶與檔案檢索的邏輯關(guān)聯(lián),針對(duì)展陳型和敘事型兩種呈現(xiàn)方式,構(gòu)建面向數(shù)字記憶開(kāi)發(fā)利用的檔案檢索模型,并細(xì)致闡述針對(duì)敘事型檢索模型的構(gòu)建過(guò)程和關(guān)鍵點(diǎn)。由于數(shù)據(jù)源的限制,本文的實(shí)證部分是對(duì)一次文獻(xiàn)的二次開(kāi)發(fā)和重組,未來(lái)的研究會(huì)增加數(shù)據(jù)量及不同檔案數(shù)據(jù)類型,完善本文提出的方法。

猜你喜歡
檢索實(shí)體語(yǔ)義
語(yǔ)言與語(yǔ)義
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
2019年第4-6期便捷檢索目錄
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
專利檢索中“語(yǔ)義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
認(rèn)知范疇模糊與語(yǔ)義模糊
語(yǔ)義分析與漢俄副名組合
榆林市| 且末县| 册亨县| 广水市| 丹东市| 丹巴县| 高青县| 福建省| 临洮县| 天长市| 沅陵县| 永昌县| 深泽县| 长丰县| 资兴市| 通渭县| 巴里| 浦城县| 雷州市| 宾阳县| 贵州省| 敦煌市| 汕尾市| 宁夏| 铅山县| 江安县| 额济纳旗| 香港 | 鄱阳县| 马鞍山市| 贡嘎县| 林西县| 刚察县| 舒兰市| 聂荣县| 右玉县| 洛阳市| 津市市| 垦利县| 抚宁县| 石嘴山市|