蔣紅健
目前,高校數(shù)字檔案資源的傳統(tǒng)檢索方式是通過詞條切分技術(shù)形成關(guān)鍵詞對(duì)元數(shù)據(jù)進(jìn)行檢索,這種檢索方式快速高效并且精準(zhǔn),但是沒有對(duì)數(shù)字檔案資源的知識(shí)管理體系進(jìn)行檢索,缺乏對(duì)元數(shù)據(jù)的分析理解,存在著無法查找或者查全率不夠的情況,需要人工多次篩選[1]69。智能語義檢索通過語義層面判斷用戶檢索意圖,可以通過閾值的選定保證查全率,并可兼容圖書、情報(bào)、出版等其他領(lǐng)域語義本體系統(tǒng),甚至可以和網(wǎng)絡(luò)資源進(jìn)行鏈接,因此,智能語義檢索技術(shù)對(duì)檔案管理來說是一個(gè)全新的檢索手段。
高校數(shù)字檔案資源的主要來源是長(zhǎng)期實(shí)體檔案數(shù)字化的積累和不斷新增的電子文件歸檔,特別是電子文件數(shù)量十分龐大,因此電子文件歸檔將成為高校數(shù)字檔案資源體系未來主要來源渠道。存量檔案數(shù)字化和增量檔案電子化的實(shí)行,使得高校檔案利用的針對(duì)對(duì)象主要為數(shù)字形式的檔案資源,從而要求檔案部門對(duì)檔案檢索的方式作出新的判斷和改變。
服務(wù)網(wǎng)絡(luò)化是高校數(shù)字檔案資源利用的主要方向,而網(wǎng)絡(luò)化利用服務(wù)與傳統(tǒng)利用服務(wù)模式的最大區(qū)別是用戶的泛在化、多樣化和個(gè)性化。數(shù)字檔案資源建設(shè)是網(wǎng)絡(luò)化服務(wù)的前提和保障,網(wǎng)絡(luò)化服務(wù)是數(shù)字檔案資源管理的目標(biāo)、趨勢(shì)和導(dǎo)向。高校數(shù)字檔案資源管理正步入從資源管理為中心轉(zhuǎn)向以用戶服務(wù)為中心的軌道上來,而用戶服務(wù)網(wǎng)絡(luò)化的特點(diǎn)要求檔案檢索技術(shù)走向智能化,語義本體技術(shù)在這樣的形勢(shì)下應(yīng)運(yùn)而生,并博得廣大檔案學(xué)科研究者的關(guān)注和重視。語義本體技術(shù)的本質(zhì)就是建立領(lǐng)域知識(shí)框架,對(duì)數(shù)字檔案資源的信息進(jìn)行提煉,形成語義概念和語義邏輯,進(jìn)而實(shí)現(xiàn)基于知識(shí)的智能語義檢索??梢哉f,服務(wù)網(wǎng)絡(luò)化是高校數(shù)字檔案資源智能語義檢索技術(shù)的內(nèi)在推動(dòng)力,智能語義檢索技術(shù)是檔案領(lǐng)域現(xiàn)代信息技術(shù)發(fā)展的新亮點(diǎn),是實(shí)現(xiàn)數(shù)字檔案資源信息檢索的知識(shí)化、關(guān)聯(lián)化和便捷化的重要技術(shù)保障,將變革傳統(tǒng)檔案利用服務(wù)的慣有模式,在檔案利用服務(wù)這一檔案管理的終極目標(biāo)上具有極大的應(yīng)用前景,也必將對(duì)信息技術(shù)背景下的檔案管理產(chǎn)生深遠(yuǎn)的影響。
本體論屬于哲學(xué)范疇,是希臘哲學(xué)家根據(jù)自然關(guān)系性質(zhì)界定而提出的物質(zhì)存在本原思想,是關(guān)于抽象對(duì)象概念化的領(lǐng)域、集合關(guān)系的描述。簡(jiǎn)言之,本體是關(guān)于知識(shí)的分類和概念屬性有層次性的描述,是共享概念模型明確的形式化的規(guī)范說明。本體通過對(duì)概念的描述、解釋和說明來揭示概念的內(nèi)在屬性,可用于知識(shí)的檢索和共享復(fù)用,因此智能語義檢索技術(shù)與直接搜索元數(shù)據(jù)的形式完全不同,是根據(jù)詞匯、關(guān)系、規(guī)則等要素進(jìn)行語義匹配檢索的方式。
語義本體是本體概念在自然語言處理、異構(gòu)信息集成等信息技術(shù)領(lǐng)域的具體應(yīng)用,對(duì)概念進(jìn)行抽象化描述實(shí)現(xiàn)對(duì)概念的定義,構(gòu)建概念間的關(guān)系,使智能語義檢索技術(shù)擁有語義關(guān)聯(lián)和知識(shí)共享的基礎(chǔ)。語義本體技術(shù)能夠很好地解決知識(shí)表達(dá)、知識(shí)存儲(chǔ)、知識(shí)檢索等基礎(chǔ)性問題,解決知識(shí)的結(jié)構(gòu)性描述及識(shí)別、定位知識(shí)地址問題,不僅能夠明確詳盡地描述概念,構(gòu)建概念間的關(guān)聯(lián)關(guān)系,而且使檔案智能檢索技術(shù)得以合理推理。因此,語義本體技術(shù)使檔案管理從信息存儲(chǔ)層面上升到知識(shí)管理層面,使數(shù)字檔案信息數(shù)據(jù)庫上升到數(shù)字檔案信息知識(shí)庫。語義本體包括概念的類、屬性、實(shí)例、關(guān)系類型以及函數(shù)、公理、規(guī)則等基本要素,其層次劃分可分為頂層本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體。借助語義本體技術(shù),檔案知識(shí)管理成為可能,實(shí)現(xiàn)對(duì)檔案信息的組織、加工、提煉工作,形成基于語義本體的檔案知識(shí)體系。
基于語義本體的智能語義檢索技術(shù)其核心就是知識(shí)管理,根據(jù)本體之間的有機(jī)聯(lián)系,推斷數(shù)字檔案資源之間、數(shù)字檔案資源與其他領(lǐng)域信息資源之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)檔案信息的整理、分類和聚合,達(dá)成檔案檢索的智能化、標(biāo)準(zhǔn)化,從技術(shù)上消除信息孤島。智能語義檢索技術(shù)不僅能夠挖掘出概念體系中的顯性知識(shí),同時(shí)也能夠根據(jù)推理規(guī)則挖掘出隱性知識(shí),使隱性知識(shí)顯性化,更大程度上實(shí)現(xiàn)知識(shí)的關(guān)聯(lián)和共享。本體構(gòu)建是實(shí)現(xiàn)檔案語義轉(zhuǎn)換的重要形式和關(guān)鍵所在,本體構(gòu)建的完善與否決定了高校數(shù)字檔案資源的語義聚合程度,決定了能否與異地、異構(gòu)、異質(zhì)的其他信息資源實(shí)現(xiàn)概念理解和復(fù)用。
高校數(shù)字檔案資源已建立一系列表述豐富的元數(shù)據(jù)集,這些元數(shù)據(jù)對(duì)檔案資源進(jìn)行充分描述,容易借其進(jìn)行資源整合。本體構(gòu)建原則是尊重原有著錄標(biāo)準(zhǔn)和數(shù)據(jù)存儲(chǔ)方式,充分利用原有數(shù)字化建設(shè)的成果,建立知識(shí)概念和合理的檢索推理路徑,同時(shí)充分注意到高校數(shù)字檔案資源中知識(shí)概念、屬性信息動(dòng)態(tài)變化特征,進(jìn)行本體分類動(dòng)態(tài)更新。考慮到檔案的信息保密要求,還必須設(shè)置瀏覽權(quán)限、只讀權(quán)限等檔案信息保護(hù)措施。
高校之間獨(dú)立建立元數(shù)據(jù)庫,導(dǎo)致元數(shù)據(jù)規(guī)范可能不一致,語義本體技術(shù)利用本體描述語言將元數(shù)據(jù)本體化、結(jié)構(gòu)化、形式化,構(gòu)建元數(shù)據(jù)間語義表達(dá)的有機(jī)聯(lián)系,能夠挖掘主題、人物、部門及事件的關(guān)聯(lián)關(guān)系。通過對(duì)元數(shù)據(jù)本體屬性進(jìn)行描述、關(guān)聯(lián)和映射,可以構(gòu)建縱向深遠(yuǎn)、橫向錯(cuò)綜的信息關(guān)聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)字檔案資源內(nèi)及與其他高校、不同領(lǐng)域資源間的智能檢索。因此,元數(shù)據(jù)庫的語義本體化能夠規(guī)范資源描述,又能相互映射,經(jīng)過推理實(shí)現(xiàn)隱性知識(shí)顯性化,同時(shí)能夠與不同類型數(shù)字信息資源互操作,達(dá)到共享知識(shí)信息的目的。高校數(shù)字檔案資源內(nèi)部可以對(duì)人、事、物、機(jī)構(gòu)、時(shí)間等類目建立關(guān)聯(lián)關(guān)系,對(duì)檔案本體概念進(jìn)行語義分析,提煉各類目間的知識(shí)結(jié)構(gòu),從語義角度理解、判斷用戶需求,推送用戶感興趣的目標(biāo)檔案。
本體構(gòu)建方法目前主要為手工構(gòu)建,時(shí)間和勞動(dòng)力成本較高,并且干擾因素大,計(jì)算機(jī)輔助半自動(dòng)構(gòu)建或自動(dòng)構(gòu)建技術(shù)需要時(shí)間的沉淀和發(fā)展,需要進(jìn)一步解決半自動(dòng)或自動(dòng)構(gòu)建本體的質(zhì)量。目前,常用的本體構(gòu)建方法有IDEFS 法、骨架法和七步法等,需要根據(jù)實(shí)際情況進(jìn)行選用。高校數(shù)字檔案資源本體構(gòu)建采用RDF 資源描述框架格式,在XML 語法規(guī)范基礎(chǔ)上,通過對(duì)象、屬性、值三元組描述檔案概念之間的抽象關(guān)系,表示概念等級(jí)關(guān)系,定義概念屬性并創(chuàng)建實(shí)例,具有可擴(kuò)展和可交換的特色。OWL 采用較多的本體網(wǎng)語言,用于定義各個(gè)類的相關(guān)屬性,通過屬性定義實(shí)現(xiàn)語義推理。本體構(gòu)建工具非常多,Protege 是一種獨(dú)立于本體構(gòu)建語言并可導(dǎo)入或?qū)С龆喾N本體構(gòu)建語言的最常見的本體構(gòu)建工具,可以添加pellet、fact、racer、Jess、Jena 等推理插件實(shí)現(xiàn)推理,不需要編寫具體本體語言代碼,通過添加對(duì)象屬性、數(shù)據(jù)屬性和實(shí)例,展示概念間的部分與整體、衍生、實(shí)例和概念、從屬等多種關(guān)系,通過關(guān)系的構(gòu)建聚合各領(lǐng)域本體概念。Protege 作為開源本體構(gòu)建工具,不僅支持中文,而且其插件graphviz 能夠用可視化的方式顯示本體,使查詢結(jié)果更為直觀。高校數(shù)字檔案資源可以通過自上而下法提取領(lǐng)域核心類,建立起本體框架結(jié)構(gòu)及本體間的相互關(guān)系,實(shí)現(xiàn)本體編碼,并可利用基于邏輯或基于規(guī)則的推理工具或者SPARQL 語言實(shí)現(xiàn)隱性知識(shí)的本體推理。
傳統(tǒng)的檢索技術(shù)主要以題名、作者、機(jī)構(gòu)等表層信息進(jìn)行數(shù)據(jù)檢索,也就是根據(jù)主題詞、關(guān)鍵詞對(duì)數(shù)字檔案資源進(jìn)行檢索,檢索方式比較單一,不能檢索出概念間的聯(lián)系,需要根據(jù)檢索結(jié)果人工推理進(jìn)行篩選,檢索的效率較低。而智能語義檢索技術(shù)對(duì)包含概念、屬性及實(shí)例的網(wǎng)狀結(jié)構(gòu)進(jìn)行檢索,通過設(shè)計(jì)推理規(guī)則,搜索以本體形式相互連接的知識(shí)點(diǎn),形成知識(shí)聚類和分析,對(duì)數(shù)字檔案資源庫進(jìn)行條目識(shí)別映射,推送本體框架結(jié)構(gòu)的實(shí)例目標(biāo)對(duì)象,從而提供全面、準(zhǔn)確的知識(shí)檢索結(jié)果。因此,高校數(shù)字檔案資源語義檢索技術(shù)是基于知識(shí)管理角度的檢索技術(shù),對(duì)語義進(jìn)行描述和分析,檢索本體知識(shí)庫中概念間的關(guān)聯(lián),從而解決自然語言的語義多義、同義、相似問題,理解自然語言信息,實(shí)現(xiàn)語義推理,結(jié)合其他領(lǐng)域本體知識(shí),擴(kuò)大檢索覆蓋面,可以檢索出更大范圍的本體庫中的類和實(shí)例。
數(shù)字檔案資源本體可以導(dǎo)入元數(shù)據(jù)中的條目信息,如題名、來源單位、責(zé)任人、發(fā)文時(shí)間等,需要在元數(shù)據(jù)信息基礎(chǔ)上進(jìn)行語義化和知識(shí)關(guān)聯(lián),與其他語義本體對(duì)應(yīng)形成語義信息網(wǎng)絡(luò)。元數(shù)據(jù)在語義本體檢索技術(shù)中起關(guān)鍵作用,是描述數(shù)據(jù)并使各種類型數(shù)據(jù)具有本體結(jié)構(gòu)的相關(guān)數(shù)據(jù),對(duì)于數(shù)字檔案資源中二維表單形式的結(jié)構(gòu)化數(shù)據(jù),不完全結(jié)構(gòu)化的半結(jié)構(gòu)化數(shù)據(jù)和各種載體、格式和內(nèi)容的非結(jié)構(gòu)化數(shù)據(jù)均可進(jìn)行屬性描述。元數(shù)據(jù)需要借助RDF、OWL 等本體描述語言以三元組方式本體化,確定本體所屬領(lǐng)域,查詢可用來復(fù)用的本體,獲取本體元數(shù)據(jù)標(biāo)準(zhǔn)及詞表,定義類目關(guān)系和類目屬性,并創(chuàng)建本體實(shí)例,實(shí)現(xiàn)元數(shù)據(jù)本體關(guān)聯(lián)層次化。智能檢索時(shí)用戶輸入的關(guān)鍵詞將與本體庫中的本體類、屬性與本體實(shí)例等關(guān)鍵信息進(jìn)行匹配,提取本體實(shí)例獲得智能查詢結(jié)果。智能檢索技術(shù)通過設(shè)置閾值擴(kuò)展語義檢索范圍,如果保證查準(zhǔn)率,則閾值為1,如果保證查全率,則閾值大于3,閾值的擴(kuò)大可以增大關(guān)聯(lián)語義范圍,從而獲得新的關(guān)鍵詞集合,以此,關(guān)鍵詞集合再次匹配、檢索本題庫,可獲得基于知識(shí)點(diǎn)集合更大范圍的關(guān)聯(lián)檢索結(jié)果[2]42。
高校數(shù)字檔案資源本體既可與其他資源本體關(guān)聯(lián),又可與網(wǎng)絡(luò)上的開放資源進(jìn)行連接,形成范圍廣泛的關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)。RDF 框架中的三元組方式是構(gòu)建關(guān)聯(lián)數(shù)據(jù)集的基礎(chǔ),通過添加語義邏輯關(guān)系、歸納推理、數(shù)據(jù)挖掘與網(wǎng)絡(luò)互通互連,聚合相關(guān)概念,獲取語義邏輯的隱性知識(shí),產(chǎn)生領(lǐng)域外的本體知識(shí),發(fā)現(xiàn)潛在資源的網(wǎng)絡(luò)地址。因此,智能檢索技術(shù)可以最大范圍和程度上搜索到所有相關(guān)數(shù)據(jù),打通高校數(shù)字檔案資源與網(wǎng)絡(luò)公開資源之間連接的通道。
智能檢索技術(shù)如果對(duì)本體庫進(jìn)行全文讀取,則反應(yīng)時(shí)間過長(zhǎng)、效率較低,因此,也可以根據(jù)本體規(guī)模情況采用關(guān)系型數(shù)據(jù)庫儲(chǔ)存本體數(shù)據(jù),將本體類目、對(duì)象屬性、數(shù)據(jù)屬性、類間關(guān)系、實(shí)例、實(shí)例間關(guān)系以數(shù)據(jù)庫形式儲(chǔ)存,實(shí)現(xiàn)高效查詢本體信息。用戶通過檢索入口提交檢索詞,則檢索詞將與本體概念匹配,根據(jù)語義相似度將相關(guān)閾值的概念加入到檢索式,形成相似度權(quán)重的檢索詞集合,找到符合條件的實(shí)例。其中,語義相似度的計(jì)算方法主要基于語義距離、語義重合度,語義距離為0 時(shí),語義相似度為1,語義距離越小,語義相似度越大;語義距離越大,語義相似度越?。徽Z義距離為無窮大,語義相似度為1,語義相似度決定了智能語義檢索技術(shù)的檢索能力和檢索質(zhì)量。
高校數(shù)字檔案資源本體庫構(gòu)建需要確立分類樹,導(dǎo)入元數(shù)據(jù)進(jìn)行標(biāo)注,形成本體概念,建立語義索引庫。高校內(nèi)尚未建立現(xiàn)成的概念完善的復(fù)用本體,因此可以引用國(guó)家頒布的相關(guān)規(guī)定所含詞表作為敘詞,如《中國(guó)檔案分類法》《中國(guó)檔案主題詞表》《公文主題詞表》《綜合電子政務(wù)主題詞表》等[3]45-46。其中,《中國(guó)檔案分類法》采用上下總分結(jié)構(gòu),非常類似語義本體結(jié)構(gòu),可以作為高校數(shù)字檔案資源的本體框架結(jié)構(gòu)?!吨袊?guó)檔案主題詞表》《公文主題詞表》《綜合電子政務(wù)主題詞表》等收錄檔案管理的規(guī)范術(shù)語,并且收錄非正式主題詞即擴(kuò)充詞表作為參照項(xiàng),非正式主題詞在概念上等同正式主題詞,可用于本體類目詞匯對(duì)應(yīng)和擴(kuò)充。這些國(guó)家頒布的相關(guān)規(guī)定是高校數(shù)字檔案資源可以復(fù)用的符合本體構(gòu)建的規(guī)范本體,可以借其確定概念互不相交的核心類,確定由上而下逐步細(xì)化繼承父類的子類,子類共用父類的通用屬性,父類涵蓋子類所屬的屬性。我們可以使用Protege 軟件的Entities 菜單欄,選取核心概念構(gòu)建高校檔案資源本體,對(duì)各種概念進(jìn)行分類,并標(biāo)注包含關(guān)系、等同關(guān)系等體現(xiàn)類屬結(jié)構(gòu)關(guān)系的層級(jí)。在建立新概念后,根據(jù)上述規(guī)定創(chuàng)建本體分類樹和本體概念關(guān)系,不同本體框架的分類類目可以融合,本體分類樹狀結(jié)構(gòu)可以形成網(wǎng)狀結(jié)構(gòu),產(chǎn)生高校數(shù)字檔案資源語義信息,并將標(biāo)注信息存儲(chǔ)在本體知識(shí)庫,或嵌入式標(biāo)注數(shù)字檔案資源。
高校數(shù)字檔案資源通過Protege 構(gòu)建的頂級(jí)類目可包括檔號(hào)、題名、主題詞、人物、責(zé)任機(jī)構(gòu)、資源格式、日期等關(guān)鍵信息,其中,用戶如果查詢檔號(hào)、題名,因檔號(hào)、題名具有唯一性,則為精準(zhǔn)查詢,如果查詢主題詞或者其他類目,則可實(shí)現(xiàn)語義智能查詢,提供語義推理基礎(chǔ),定位檔案記錄所在位置。資源格式主要指文本、圖片、音頻、視頻等,以此顯示本體實(shí)例的格式。本體類的屬性具體分為對(duì)象屬性和數(shù)值屬性,對(duì)象屬性描述主題詞、創(chuàng)建者、關(guān)系類型、格式、文種等,數(shù)據(jù)屬性包括字符型、整型、時(shí)間型等數(shù)值格式,推理規(guī)則包括繼承、對(duì)稱、整體與部分、函數(shù)關(guān)系等通用規(guī)則或者自定義規(guī)則。因此,選擇具體的類并添加本體特征對(duì)象屬性、參數(shù)特性數(shù)據(jù)屬性及特定實(shí)例,則類屬性和實(shí)例形成對(duì)應(yīng)關(guān)系,對(duì)象屬性之間也有關(guān)聯(lián)。通過Protege 軟件的插件graphviz 選擇列表中的本體圖,通過ontograph 顯示顯性關(guān)系的本體關(guān)聯(lián),用不同顏色的連接線表明本體之間不同的關(guān)聯(lián)關(guān)系,另外,通過Jess、Jena等各種推理引擎實(shí)現(xiàn)隱性關(guān)系推理,或者通過嵌入的SPARQL 菜單智能訪問RDF 框架。
智能檢索技術(shù)可以通過可視化服務(wù)平臺(tái)與用戶交互,用戶既可查詢和瀏覽相關(guān)檔案,又可通過智能問答形式擴(kuò)展語義滿足檢索需求。智能檢索技術(shù)可以通過檔案本體的主題分類和語義標(biāo)注,針對(duì)性地對(duì)語義字段進(jìn)行分類,約束檢索范圍,提供精確檢索結(jié)果,也可以選取上下層級(jí)或者語義相似度高的概念一并推送給用戶。智能檢索技術(shù)不僅可以讓用戶了解知識(shí)脈絡(luò)和邏輯路徑,并在條件成熟后,逐步設(shè)計(jì)主題、任務(wù)或者機(jī)構(gòu)等專題。用戶智能問答交互模式可以利用本體框架結(jié)構(gòu),通過雙向反饋更好地理解自然語言,了解用戶檢索的潛在目的。智能檢索技術(shù)還可以通過分析用戶瀏覽日志,歸納用戶檢索的興趣點(diǎn),提供個(gè)性化利用服務(wù)。
高校數(shù)字檔案資源語義檢索技術(shù)是一項(xiàng)融合現(xiàn)代信息技術(shù)和檔案管理科學(xué)的系統(tǒng)性技術(shù),它的實(shí)現(xiàn)、推廣和使用需要多部門、多專業(yè)的密切配合,需要建立起技術(shù)開發(fā)和利用的組織保障和綜合協(xié)調(diào)機(jī)制,需要結(jié)合檔案部門的人力和財(cái)力情況漸進(jìn)式加以推進(jìn)[4]63?;谡Z義本體的智能檢索技術(shù)不僅適用于高校數(shù)字檔案資源領(lǐng)域,還適用于圖書、情報(bào)、出版、電子政務(wù)、網(wǎng)絡(luò)信息管理等多個(gè)領(lǐng)域,因此智能檢索技術(shù)完全可以與其他領(lǐng)域本體從詞形到詞義實(shí)現(xiàn)互操作,本體概念所具有的規(guī)范性、系統(tǒng)性、靈活性和可擴(kuò)展性將實(shí)現(xiàn)更大范圍的跨平臺(tái)知識(shí)共享。