国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向知識(shí)服務(wù)的文書檔案知識(shí)聚合模型構(gòu)建

2023-06-15 04:05于英香姚倩雯
北京檔案 2023年3期
關(guān)鍵詞:知識(shí)服務(wù)文書檔案

于英香 姚倩雯

摘要:文書檔案主要以文本形式存儲(chǔ),挖掘這些文本檔案潛在的知識(shí)價(jià)值,是政務(wù)服務(wù)背景下檔案工作的重要任務(wù)。論文分析了知識(shí)聚合在文書檔案知識(shí)服務(wù)中的價(jià)值以及進(jìn)行預(yù)處理的必要性,構(gòu)建了由文本分解層、關(guān)聯(lián)聚合層和服務(wù)應(yīng)用層組成的文書檔案知識(shí)聚合模型。依據(jù)該模型可實(shí)現(xiàn)文書檔案由粗粒度的文本分解為細(xì)粒度的檔案知識(shí)元,并由檔案知識(shí)元聚合為可計(jì)算的檔案數(shù)據(jù)集,實(shí)現(xiàn)文書檔案知識(shí)服務(wù)的提質(zhì)增效。

關(guān)鍵詞:文書檔案 知識(shí)聚合 檔案知識(shí)元 知識(shí)服務(wù) 檔案數(shù)據(jù)

Abstract:Administrativearchivesaremainly stored in the form of text, and mining the potential knowledge value of these text archives is an impor? tant task of archives work under the background of government services.This paper analyzes the necessi? ty of knowledge aggregation in the knowledge ser? vice of administrative archives, constructs a knowl? edge aggregation model of administrative archives composed of text decomposition layer, association aggregation layer and service application layer.Accord? ing to this model,the administrative archives can be decomposed from coarse- grained text into finegrained archives knowledge elements, and the ar? chive knowledge elements can be aggregated into a computable archives data set, so as to improve the qualityandefficiencyofadministrativearchives knowledge service.

Keywords:Administrativearchives;Knowledge aggregation; Archives knowledge elements; Knowl? edge service; Archives data

檔案利用向知識(shí)服務(wù)發(fā)展的趨勢(shì),已成為檔案界的共識(shí)。[1]檔案領(lǐng)域的服務(wù)經(jīng)歷了從信息服務(wù)到知識(shí)服務(wù)的演變。信息服務(wù)以分類法、主題法[2]等信息組織方法作為檢索工具實(shí)現(xiàn)非結(jié)構(gòu)化檔案文本的檢索服務(wù);知識(shí)服務(wù)通過基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)組織方法來實(shí)現(xiàn)檔案信息的深度挖掘與可視化,是大數(shù)據(jù)時(shí)代檔案服務(wù)的創(chuàng)新?!丁笆奈濉比珖鴻n案事業(yè)發(fā)展規(guī)劃》中提出:“積極探索知識(shí)管理等技術(shù)在檔案信息深層加工和利用中的應(yīng)用?!盵3]知識(shí)聚合正是基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的一種知識(shí)組織方法。電子政務(wù)時(shí)代,文書檔案井噴式增長(zhǎng),“一網(wǎng)通辦”背景下政府服務(wù)新模式更是加速了這種增長(zhǎng)趨勢(shì),檔案資源的數(shù)量和規(guī)模越來越龐大,如何將這些檔案轉(zhuǎn)變?yōu)橹R(shí)資源,提升政府的知識(shí)服務(wù)能力,是政務(wù)服務(wù)背景下檔案工作的重要課題。

一、知識(shí)聚合應(yīng)用于文書檔案管理的價(jià)值

知識(shí)聚合起源于“數(shù)據(jù)聚合”[4],知識(shí)聚合通過知識(shí)組織技術(shù)實(shí)現(xiàn)知識(shí)元的融聚而產(chǎn)生新的知識(shí)元,[5]其本質(zhì)目的是提供知識(shí)服務(wù)以滿足用戶的知識(shí)需求。[6]近年來,知識(shí)聚合成為領(lǐng)域?qū)<液蛯W(xué)者討論的熱門話題,國外學(xué)者對(duì)知識(shí)聚合的研究大多聚焦于計(jì)算機(jī)科學(xué)、數(shù)學(xué)等領(lǐng)域,國內(nèi)則以圖書情報(bào)領(lǐng)域的學(xué)者為主力軍,[7]近年來成為檔案領(lǐng)域的熱點(diǎn)。牛力等[8-9]最早提出檔案的知識(shí)化組織五層架構(gòu),并在隨后研究中以吳寶康檔案資源作為實(shí)證構(gòu)建人物事件為導(dǎo)向的四層知識(shí)聚合模型;陳海玉等[10]以“南昌起義”數(shù)字檔案資源為實(shí)證構(gòu)建抗戰(zhàn)檔案資源三層知識(shí)聚合模型;郝琦[11]將評(píng)估層融入了知識(shí)聚合實(shí)踐模型;夏天等[12]利用知識(shí)聚合構(gòu)建由數(shù)據(jù)提供層、語義描述層和知識(shí)聚合層三個(gè)核心層次構(gòu)成的語義化重組模型;魏扣等[13]通過服務(wù)平臺(tái)需求分析和搭建結(jié)構(gòu)化服務(wù)平臺(tái)框架構(gòu)建檔案知識(shí)聚合服務(wù)平臺(tái),基于此平臺(tái)可實(shí)現(xiàn)檔案知識(shí)聚合檢索、定制、導(dǎo)航、推薦服務(wù)。

綜合已有研究發(fā)現(xiàn),檔案學(xué)界的知識(shí)聚合研究雖從理論層面逐漸延伸到實(shí)證層面,但針對(duì)文書檔案文本模態(tài)特性的知識(shí)聚合研究較少涉獵。文書檔案數(shù)量龐大,以文本模態(tài)存儲(chǔ),含有大量的知識(shí)價(jià)值,兼具資政價(jià)值、憑證價(jià)值和情報(bào)價(jià)值,無論是政府還是公眾都對(duì)其有較高的知識(shí)需求。傳統(tǒng)基于文書檔案的服務(wù)對(duì)象是機(jī)關(guān),服務(wù)的技術(shù)方法和服務(wù)模式側(cè)重于減少用戶的信息搜尋成本,尚未提升到幫助用戶更好地理解和利用知識(shí)的層面,[14]然而文書檔案內(nèi)含有大量的隱性知識(shí),早在2007年就有學(xué)者指出檔案學(xué)研究邊界的拓展可以以“檔案”為中心適當(dāng)向前(文件流)和向后(知識(shí)流)發(fā)生位移,研究重點(diǎn)聚焦于新技術(shù)環(huán)境下政府信息流與知識(shí)流梳理與設(shè)計(jì)以及隱性知識(shí)的編碼化。[15]張玉芳[16]指出通過整理一份文書檔案相關(guān)的全部檔案,可以了解該檔案所記錄信息的過程、始末等重要信息。陳慧等[17]將檔案資源的隱性知識(shí)分為7類共107個(gè)代碼進(jìn)行編碼。

知識(shí)聚合能深入到檔案信息資源內(nèi)部,在挖掘文書檔案知識(shí)元的基礎(chǔ)上進(jìn)行知識(shí)組織,通過對(duì)知識(shí)元的內(nèi)容、概念、背景關(guān)聯(lián),使得檔案從數(shù)據(jù)、信息層次深入到知識(shí)層次,無論是在聚合強(qiáng)度還是聚合粒度上都有質(zhì)的提升,使得原本隱藏在文書檔案內(nèi)部的隱性知識(shí)顯性化,可向用戶提供體系化的、既可橫向擴(kuò)散又可縱向深入的知識(shí)內(nèi)容。由此,本文以文書檔案為研究對(duì)象,構(gòu)建知識(shí)聚合模型,為知識(shí)服務(wù)平臺(tái)提供可計(jì)算的檔案數(shù)據(jù)集,為政務(wù)服務(wù)精準(zhǔn)化提質(zhì)增效。

二、面向深度知識(shí)服務(wù)的文書檔案預(yù)處理的必要性

文書檔案根據(jù)其形成方式可分為紙質(zhì)文書檔案與原生的文書類電子檔案,紙質(zhì)文書檔案可通過雙層PDF掃描為電子檔案,以便后續(xù)對(duì)文本進(jìn)行數(shù)據(jù)化處理。原生的文書類電子檔案在歸檔過程中為達(dá)到長(zhǎng)期保存目的常常將文件以非結(jié)構(gòu)化版式的形式進(jìn)行歸檔存儲(chǔ)。[18]非結(jié)構(gòu)化形式的版式文件的知識(shí)聚合是指在語義層面挖掘知識(shí)的關(guān)聯(lián)性并以此聚合。版式文件由于其原始形式的內(nèi)在知識(shí)元之間的關(guān)聯(lián)并不顯性,不能直接進(jìn)行知識(shí)組織,因此,在知識(shí)聚合模型構(gòu)建前需對(duì)文書檔案進(jìn)行預(yù)處理。

(一)檔案文本數(shù)據(jù)化處理

文書檔案的非結(jié)構(gòu)化版式形式難以直接為知識(shí)服務(wù)提供數(shù)據(jù)化的資源準(zhǔn)備。從知識(shí)的演進(jìn)來看,文本形式難以直接演進(jìn)為知識(shí)。DIKW(Data to Information to Knowledge to Wisdom)層次演進(jìn)體系描述了“數(shù)據(jù)—信息—知識(shí)—智慧”的四重遞進(jìn)關(guān)系,數(shù)據(jù)是信息的載體,信息通過加工和改造后形成了知識(shí),知識(shí)是人類認(rèn)識(shí)過程的一種結(jié)果形式,在數(shù)據(jù)時(shí)代通過數(shù)據(jù)挖掘與關(guān)聯(lián)的手段可實(shí)現(xiàn)數(shù)據(jù)到知識(shí)的直接演進(jìn),無論知識(shí)是由哪種形式演進(jìn)而成,其層次演進(jìn)的起點(diǎn)都是數(shù)據(jù)。然而,在檔案領(lǐng)域,歸檔文件為滿足長(zhǎng)期保存需求往往以非結(jié)構(gòu)化版式形式固化,而非結(jié)構(gòu)化文本需先通過自然語言處理、分詞等技術(shù)轉(zhuǎn)化為計(jì)算機(jī)可理解的符號(hào)才能進(jìn)行后續(xù)的計(jì)算機(jī)處理與運(yùn)算。版式文本須先轉(zhuǎn)化為數(shù)據(jù),再通過數(shù)據(jù)挖掘與關(guān)聯(lián)才能形成知識(shí)服務(wù)所需要的數(shù)據(jù)儲(chǔ)備(見圖1)。

首先,從知識(shí)組織的角度看,文書檔案的機(jī)器可理解性較差。文書檔案規(guī)模龐大,每一份檔案文本篇幅較長(zhǎng),無論是知識(shí)服務(wù)提供者在提供知識(shí)時(shí)還是被提供者在獲取知識(shí)時(shí)都需花費(fèi)大量的時(shí)間從中獲取信息。其次,人類的語言內(nèi)涵十分豐富,因此在分析時(shí)需要對(duì)內(nèi)容有精準(zhǔn)的語義理解,例如,“人大”一詞可能存在“中國人民大學(xué)”與“人民代表大會(huì)”兩種語義。最后,在對(duì)文本進(jìn)行理解和得出結(jié)論時(shí),閱讀者的受教育水平、知識(shí)結(jié)構(gòu)和主觀認(rèn)知等外部因素都會(huì)對(duì)其準(zhǔn)確性和質(zhì)量產(chǎn)生影響。文書檔案的文本經(jīng)過高度概括,缺少詳細(xì)描述,因此需要具有較高的閱讀理解能力才能準(zhǔn)確理解其語義。此外,由于文書檔案具有較強(qiáng)的領(lǐng)域特征,需要具備一定的領(lǐng)域知識(shí)才能更好地理解其含義。

因此,知識(shí)聚合需先將檔案文本預(yù)處理為檔案數(shù)據(jù),在檔案數(shù)據(jù)的基礎(chǔ)上實(shí)現(xiàn)知識(shí)元的挖掘與關(guān)聯(lián),而經(jīng)過知識(shí)聚合后的檔案數(shù)據(jù)可直接成為知識(shí)服務(wù)的數(shù)據(jù)儲(chǔ)備。

(二)檔案數(shù)據(jù)清洗與質(zhì)量評(píng)估

盡管目前已有41.93%的省級(jí)行政區(qū)提供了數(shù)據(jù)開放平臺(tái),但是約六成平臺(tái)存在質(zhì)量問題,[19]數(shù)據(jù)時(shí)代知識(shí)服務(wù)需要高質(zhì)量的檔案數(shù)據(jù)支撐,因此,為實(shí)現(xiàn)深度知識(shí)服務(wù)應(yīng)對(duì)檔案數(shù)據(jù)進(jìn)行清洗與質(zhì)量評(píng)估。

首先,檔案數(shù)據(jù)需是依據(jù)統(tǒng)一標(biāo)準(zhǔn)數(shù)據(jù)化產(chǎn)生的數(shù)據(jù)。檔案從非結(jié)構(gòu)化文本到數(shù)據(jù)的過程需經(jīng)過分詞、去除停用詞、文本表示等數(shù)據(jù)化過程,而這一過程中數(shù)據(jù)集構(gòu)建規(guī)則的科學(xué)性、系統(tǒng)性和完備性對(duì)于整個(gè)檔案數(shù)據(jù)化工程的運(yùn)行都會(huì)產(chǎn)生決定性的影響,[20]若不依據(jù)統(tǒng)一標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)化,各部門各行其是,會(huì)造成數(shù)據(jù)化質(zhì)量參差不齊,且在跨機(jī)構(gòu)進(jìn)行數(shù)據(jù)關(guān)聯(lián)整合時(shí)會(huì)產(chǎn)生障礙,不利于國家層面的數(shù)據(jù)整合共享。然而,這一領(lǐng)域目前尚無國家層面指導(dǎo)性政策文件出臺(tái),由此有學(xué)者建議我國檔案行政機(jī)關(guān)及時(shí)啟動(dòng)國家層面上的《檔案數(shù)據(jù)化工程技術(shù)規(guī)范》的起草工作。[21]

其次,檔案數(shù)據(jù)應(yīng)用之前應(yīng)進(jìn)行數(shù)據(jù)清洗。梅宏院士指出政府開放數(shù)據(jù)存在數(shù)據(jù)缺失、數(shù)據(jù)格式不規(guī)范不統(tǒng)一、未將數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化形式、數(shù)據(jù)單元名稱及含義不一致、錯(cuò)誤數(shù)據(jù)、亂碼等質(zhì)量問題。[22]非結(jié)構(gòu)化檔案文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)時(shí)也會(huì)存在各種數(shù)據(jù)質(zhì)量問題,而這些質(zhì)量參差不齊的數(shù)據(jù)將會(huì)對(duì)后續(xù)知識(shí)服務(wù)的精度產(chǎn)生影響。因此,檔案數(shù)據(jù)在應(yīng)用于知識(shí)服務(wù)前需先對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,檢測(cè)錯(cuò)誤數(shù)據(jù),并更正、補(bǔ)充或刪除錯(cuò)誤的數(shù)據(jù)項(xiàng),用推測(cè)算法補(bǔ)全缺失的數(shù)據(jù)項(xiàng),提升數(shù)據(jù)質(zhì)量。

最后,檔案數(shù)據(jù)需進(jìn)行質(zhì)量評(píng)估。數(shù)據(jù)質(zhì)量是檔案數(shù)據(jù)賴以生存的生命線,[23]將直接影響知識(shí)服務(wù)的質(zhì)量,在知識(shí)聚合前有必要評(píng)估檔案數(shù)據(jù)的質(zhì)量。我國《信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)》中將數(shù)據(jù)質(zhì)量評(píng)估指標(biāo)歸結(jié)于規(guī)范性、完整性、準(zhǔn)確性、一致性、時(shí)效性、可訪問性六個(gè)維度,[24]本文中的檔案數(shù)據(jù)質(zhì)量評(píng)估體系基本參照此標(biāo)準(zhǔn)。

三、文書檔案知識(shí)聚合模型構(gòu)建

根據(jù)文書檔案的特征,本文構(gòu)建了文書檔案知識(shí)聚合模型,該模型結(jié)構(gòu)可分解為文本分解層、關(guān)聯(lián)聚合層與服務(wù)應(yīng)用層(見圖2)。

(一)文本分解層:檔案文本分解為檔案知識(shí)元

20世紀(jì)70年代后期,美國情報(bào)學(xué)家弗拉基米爾·斯拉麥卡教授在華講學(xué)時(shí)提出,知識(shí)的單位將從文獻(xiàn)深入到其中的數(shù)據(jù)、公式、事實(shí)、結(jié)論、日期等最小的獨(dú)立的“知識(shí)元”,當(dāng)時(shí)他把這稱為“數(shù)據(jù)元”。[25]知識(shí)元是知識(shí)最細(xì)粒度的單位,若將檔案數(shù)據(jù)處理為大量的知識(shí)元,并將知識(shí)元關(guān)聯(lián),將產(chǎn)生知識(shí)增值。文書檔案的形式以文本為主,因此文本分解層是構(gòu)建文書檔案知識(shí)聚合模型中最為基礎(chǔ)的一層,在這一層結(jié)構(gòu)中將文書檔案文本進(jìn)行分解,為知識(shí)聚合提供細(xì)粒度高質(zhì)量的檔案知識(shí)元。文本分解層內(nèi)含有自頂向下的三個(gè)模塊,分別是詞法分析、清洗與消歧及句法分析。[26]

文本可以看作是詞匯的集合,詞法分析也是文本分解層的基礎(chǔ),是對(duì)檔案文本語言的初步處理,其性能將直接影響檔案知識(shí)服務(wù)的質(zhì)量與深度。首先,在詞法分析這個(gè)模塊中需根據(jù)系統(tǒng)內(nèi)預(yù)先收集存儲(chǔ)的詞典進(jìn)行分詞,并識(shí)別出仿詞與新詞;其次,分詞后根據(jù)詞性知識(shí)庫對(duì)其進(jìn)行基本詞性標(biāo)注;最后,通過語義角色標(biāo)注識(shí)別出施事、受事、時(shí)間、地點(diǎn)、主題等關(guān)鍵實(shí)體并標(biāo)記。[27]在這一模塊中,詞典庫與詞性庫可根據(jù)文書檔案的特征進(jìn)行制作,由此檔案從文本分解為檔案知識(shí)元。

經(jīng)過分解的檔案知識(shí)元內(nèi)含有部分詞典庫與詞性庫中不存在的未登錄詞,以及在分詞過程中可能存在的歧義詞,由此造成部分知識(shí)元不可用,且由于歧義的存在將影響數(shù)據(jù)集整體的質(zhì)量,因此,對(duì)這一部分的知識(shí)元需先根據(jù)算法規(guī)則識(shí)別出新詞、仿生詞、派生詞,也就是知識(shí)元清洗與消歧,如北京大學(xué)語料庫中就給出了仿詞對(duì)應(yīng)的ELUSLex腳本元規(guī)則,[28]對(duì)算法無法識(shí)別的知識(shí)元需通過人工處理進(jìn)行識(shí)別,對(duì)錯(cuò)誤知識(shí)元需進(jìn)行清除。

經(jīng)過清洗與消歧后可得到相對(duì)高質(zhì)量的檔案知識(shí)元,但是這些知識(shí)元之間并無聯(lián)系,通過句法分析可識(shí)別檔案文本內(nèi)句子之間的依存關(guān)系、句法內(nèi)部可能存在的主謂動(dòng)賓等核心關(guān)系、句內(nèi)語義依存關(guān)系等,將完整的句子根據(jù)其結(jié)構(gòu)與語義建立內(nèi)部檔案知識(shí)元之間的關(guān)聯(lián)關(guān)系,為知識(shí)聚合奠定基礎(chǔ)。

(二)關(guān)聯(lián)聚合層:檔案知識(shí)元聚合關(guān)聯(lián)形成檔案數(shù)據(jù)集

文本分解層分解的知識(shí)元需按照一定的規(guī)則進(jìn)行聚合形成檔案數(shù)據(jù)集,關(guān)聯(lián)聚合層的聚合規(guī)則按照語義化程度由淺到深可分為三個(gè)聚合規(guī)則。

一是檔案知識(shí)元來源聚合。檔案的原始記錄性是區(qū)別于其他信息資源的獨(dú)特性質(zhì),體現(xiàn)并維護(hù)了檔案的本質(zhì)屬性,被認(rèn)為是檔案學(xué)中最具學(xué)科特色并具有核心地位的基礎(chǔ)理論,[29]因此同一來源的檔案具有隱性的關(guān)聯(lián)關(guān)系,可依據(jù)這個(gè)關(guān)系進(jìn)行知識(shí)聚合。文書檔案按照來源歸檔保存,依據(jù)來源可進(jìn)行檔案知識(shí)元來源聚合,使得同一來源的文書檔案內(nèi)部知識(shí)元及其數(shù)量可視化,例如,對(duì)同一全宗的文書檔案知識(shí)元進(jìn)行來源聚合可較為直觀地呈現(xiàn)出該全宗內(nèi)知識(shí)元數(shù)量與權(quán)重,使用這一聚合規(guī)則將便于各單位進(jìn)行年報(bào)統(tǒng)計(jì),但是這一聚合規(guī)則僅僅是將知識(shí)元進(jìn)行集合,并無基于知識(shí)元自身的語義和關(guān)系,因此聚合效果的精細(xì)化程度較低。

二是檔案知識(shí)元關(guān)系聚合。經(jīng)過文本分解層的檔案知識(shí)元是由關(guān)系與知識(shí)元兩個(gè)部分組成,通過關(guān)系關(guān)聯(lián)可實(shí)現(xiàn)不同知識(shí)元之間的聚合。這種聚合規(guī)則是依據(jù)檔案知識(shí)元自身已顯性化的關(guān)系規(guī)則進(jìn)行聚合,尚無根據(jù)語義挖掘更為深層次的規(guī)則。

三是檔案知識(shí)元語義聚合。檔案知識(shí)元語義聚合是最為深層次的、根據(jù)知識(shí)元的語義概念進(jìn)行聚合的一種規(guī)則,通過語義聚合可實(shí)現(xiàn)對(duì)于檔案文本的知識(shí)深度發(fā)現(xiàn)。但是在語義聚合時(shí)需注意同一概念在不同語義背景下的差異,兼顧知識(shí)元的主題及其背景。

(三)服務(wù)應(yīng)用層:檔案數(shù)據(jù)集應(yīng)用服務(wù)

文書檔案經(jīng)過文本分解和關(guān)聯(lián)聚合形成檔案數(shù)據(jù)集,利用這些檔案數(shù)據(jù)集可根據(jù)不同用戶對(duì)象的知識(shí)需求提供深度知識(shí)服務(wù),服務(wù)應(yīng)用層是知識(shí)聚合模型的最頂層。根據(jù)文書檔案的領(lǐng)域特征,其知識(shí)服務(wù)的對(duì)象主要為政府和社會(huì)公眾兩類群體。從服務(wù)形式分析,基于細(xì)粒度可計(jì)算的檔案數(shù)據(jù)集能提供知識(shí)推薦、可視化、知識(shí)推理、知識(shí)檢索等知識(shí)服務(wù)。

知識(shí)推薦服務(wù)是面向用戶的主動(dòng)知識(shí)服務(wù),從用戶數(shù)據(jù)的獲取和整合起始,通過細(xì)粒度的算法分析,匹配數(shù)據(jù)關(guān)系,錨定用戶個(gè)性化偏好,引導(dǎo)和滿足用戶的知識(shí)需求,是滿足檔案知識(shí)服務(wù)與用戶需求雙向匹配的信息過濾服務(wù)。[30]知識(shí)可視化服務(wù)是指相互關(guān)聯(lián)的檔案知識(shí)元形成了一個(gè)類似于知識(shí)圖譜的知識(shí)網(wǎng)絡(luò),這個(gè)以知識(shí)網(wǎng)絡(luò)形式呈現(xiàn)的檔案數(shù)據(jù)集本身就是可視化的,是“一種基于圖論的數(shù)據(jù)結(jié)構(gòu)”[31]。知識(shí)推理服務(wù)是指知識(shí)網(wǎng)絡(luò)之間的聚合能夠?qū)㈩I(lǐng)域內(nèi)外的知識(shí)單元編織成龐大的知識(shí)網(wǎng)絡(luò),實(shí)現(xiàn)高效的知識(shí)問答與推理。[32]通過知識(shí)推理可實(shí)現(xiàn)非同一來源知識(shí)之間的關(guān)聯(lián),發(fā)現(xiàn)新的知識(shí)。文書檔案在歸檔時(shí)按照預(yù)設(shè)的來源方案對(duì)檔案進(jìn)行管理,其所含知識(shí)為隱性知識(shí)。通過對(duì)每份檔案的知識(shí)元進(jìn)行分解、挖掘與關(guān)聯(lián)聚合,可形成一個(gè)小型知識(shí)網(wǎng)絡(luò),而每份檔案形成的知識(shí)網(wǎng)絡(luò)可通過同一個(gè)知識(shí)元進(jìn)行推理。如在一份檔案中挖掘出行為主體A的身份為B單位局長(zhǎng),在另一份檔案中挖掘出行為主體A在某一時(shí)間于C地發(fā)表講話,將這兩個(gè)知識(shí)網(wǎng)絡(luò)聚合可推理得到B單位局長(zhǎng)在某一時(shí)間做了某事這一知識(shí)(見圖3)。知識(shí)檢索服務(wù)是指用戶基于該知識(shí)網(wǎng)絡(luò)進(jìn)行檢索能夠獲得具有更高精確度和更細(xì)粒度的檢索結(jié)果。此外,服務(wù)應(yīng)用層還可根據(jù)用戶需求定制知識(shí)服務(wù),例如某用戶在學(xué)術(shù)研究時(shí)提出探尋兩份相關(guān)政策法規(guī)之間關(guān)聯(lián)的知識(shí)需求,為用戶提供個(gè)性化知識(shí)服務(wù)。

四、結(jié)語

文書檔案具備極為重要的知識(shí)價(jià)值,但文書檔案在歸檔時(shí)為滿足長(zhǎng)期保存的需求常常以版式文件的形式存儲(chǔ)和呈現(xiàn),運(yùn)用知識(shí)聚合模型對(duì)版式文書檔案進(jìn)行知識(shí)元分解以實(shí)現(xiàn)知識(shí)關(guān)聯(lián)對(duì)于政務(wù)服務(wù)具有重要意義。

本文構(gòu)建了一個(gè)面向知識(shí)服務(wù)的文書檔案知識(shí)聚合模型,該模型分解為文本分解層、關(guān)聯(lián)聚合層與服務(wù)應(yīng)用層。研究表明,依據(jù)該模型可實(shí)現(xiàn)對(duì)文書檔案尤其是文本檔案知識(shí)元的提取與組合,能夠?yàn)橹R(shí)服務(wù)提供更為細(xì)粒度和可計(jì)算的檔案數(shù)據(jù)集。

*本文系國家社科基金項(xiàng)目“大數(shù)據(jù)背景下檔案數(shù)據(jù)管理理論構(gòu)建、技術(shù)選優(yōu)與實(shí)踐創(chuàng)新研究”(項(xiàng)目編號(hào):18BTQ092)的階段性研究成果。

注釋及參考文獻(xiàn):

[1][12]夏天,錢毅.面向知識(shí)服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(2):36-44.

[2]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點(diǎn)與原理解析[J].圖書情報(bào)工作,2021,65(9):3-15.

[3]中華人民共和國國家檔案局.中辦國辦印發(fā)《“十四五”全國檔案事業(yè)發(fā)展規(guī)劃》[EB/OL].[2022-06-08].https://www.saac.gov. cn/daj/yaow/202106/899650c1b1ec4c0e9ad3c2ca7310eca4. shtml.

[4]張海濤,宋拓,孫彤,等.知識(shí)聚合研究的脈絡(luò)與展望[J].情報(bào)科學(xué),2020,38(4):163-170.

[5][7]趙雪芹.知識(shí)聚合與服務(wù)研究現(xiàn)狀及未來研究建議[J].情報(bào)理論與實(shí)踐,2015,38(2):132-135.

[6]董克,程妮,馬費(fèi)成.知識(shí)計(jì)量聚合及其特征研究[J].情報(bào)理論與實(shí)踐,2016,39(6):47-51.

[8]牛力,袁亞月,韓小汀.對(duì)檔案信息知識(shí)化利用的幾點(diǎn)思考[J].檔案學(xué)研究,2017(3):26-33.

[9]牛力,展超凡,高晨翔,等.人物事件導(dǎo)向的多模態(tài)檔案資源知識(shí)聚合模式研究[J].檔案學(xué)通訊,2021(4):36-44.

[10]陳海玉,向前,何劍鋒.面向知識(shí)服務(wù)的抗戰(zhàn)檔案資源聚合與可視化展現(xiàn)探究[J].檔案學(xué)研究,2021(2):111-118.

[11]郝琦.社交媒體環(huán)境下檔案知識(shí)聚合服務(wù)研究[J].檔案學(xué)通訊,2018(6):91-94.

[13]魏扣,李子林,金暢.社交媒體環(huán)境下檔案知識(shí)聚合服務(wù)實(shí)現(xiàn)架構(gòu)研究[J].檔案學(xué)通訊,2018(6):61-66.

[14]陳果.面向網(wǎng)絡(luò)社區(qū)的領(lǐng)域知識(shí)聚合研究[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2019:32.

[15]周毅.變革時(shí)期檔案學(xué)研究邊界的適度拓展[J].檔案學(xué)通訊,2007(4):21-24.

[16]張玉芳.知識(shí)管理背景下如何做好檔案管理創(chuàng)新[C]//中國檔案學(xué)會(huì).檔案事業(yè)發(fā)展與青年檔案工作者的責(zé)任:2010年全國青年檔案工作者研討會(huì)論文集.北京:中國檔案出版社,2010:460-466.

[17]陳慧,王曉曉,南夢(mèng)潔,等.數(shù)字檔案資源整合與服務(wù)過程中的隱性知識(shí)分類——以賦能思維為視角[J].圖書與情報(bào), 2019(6):118-124.

[18]中華人民共和國國家檔案局.版式電子文件長(zhǎng)期保存格式需求[EB/OL].[2022- 11- 18].https://www.saac.gov. cn/daj/hybz/201806/8602fb7e80bf4efea665a6bd97c984f9/ files/a5bc88a072fb49aa8637df70efd2c96d.pdf.

[19][22]梅宏,杜小勇,吳志剛,等.數(shù)據(jù)治理之論[M].北京:中國人民大學(xué)出版社,2020:268-269.

[20][21]趙生輝,胡瑩.檔案數(shù)據(jù)基因系統(tǒng):概念、機(jī)理與實(shí)踐[J].檔案學(xué)研究,2021(1):40-48.

[23]金波,周楓,楊鵬.檔案數(shù)據(jù)研究進(jìn)展與研究題域[J].情報(bào)科學(xué),2021,39(11):187-193.

[24]國家市場(chǎng)監(jiān)督管理總局.信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo):GB/ T36344—2018[S].北京:中國國家標(biāo)準(zhǔn)化管理委員會(huì),2018:6.

[25]徐如鏡.開發(fā)知識(shí)資源發(fā)展知識(shí)產(chǎn)業(yè)服務(wù)知識(shí)經(jīng)濟(jì)[J].現(xiàn)代圖書情報(bào)技術(shù),2002(S1):4-6.

[26]高凱.文本大數(shù)據(jù)情感分析[M].北京:清華大學(xué)出版社, 2019:7.

[27]CHE WX, LI ZH, LIU T. LTP: a Chinese lan? guage technologyplatform[C]// Proceedings of the 23rd In? ternational Conference on Computational Linguistics: Dem? onstrations.Stroudsburg:Association for Computational Lin? guistics,2010:13-16.

[28]姜維.文本分析與文本挖掘[M].北京:科學(xué)出版社,2018:9.

[29]張斌,尹鑫.中國特色檔案學(xué)基礎(chǔ)理論體系的歷史發(fā)展與當(dāng)代構(gòu)建[J].中國圖書館學(xué)報(bào),2021,47(6):36-49.

[30]蔡之玲,陸陽.基于DKN算法的檔案知識(shí)推薦系統(tǒng)模型構(gòu)建[J].檔案學(xué)通訊,2021(2):63-71.

[31][32]張斌,高晨翔,牛力.對(duì)象、結(jié)構(gòu)與價(jià)值:檔案知識(shí)工程的基礎(chǔ)問題探究[J].檔案學(xué)通訊,2021(3):18-26.

作者單位:1.上海大學(xué)文化遺產(chǎn)與信息管理學(xué)院

2.中國人民大學(xué)電子文件管理研究中心

猜你喜歡
知識(shí)服務(wù)文書檔案
探索現(xiàn)代文書檔案管理新路徑的重要作用
淺談文書檔案信息化管理
高職院校文書檔案收集歸檔中存在的問題與對(duì)策分析
淺談新形勢(shì)下電子文件問題與對(duì)策
從西方國家保護(hù)消費(fèi)者權(quán)益政策看用戶信息消費(fèi)的安全管理