任妍 龐宇飛 荊欣
摘 要:本文針對數(shù)據(jù)化時(shí)代檔案信息資源深層次組織、管理與服務(wù)問題,提出了全媒體檔案信息資源語義組織與服務(wù)的一般思路,并針對元數(shù)據(jù)語義轉(zhuǎn)換、檔案數(shù)據(jù)語義分析與表述、語義組織與存儲、語義檢索與服務(wù)以及系統(tǒng)實(shí)現(xiàn)等相關(guān)問題進(jìn)行初步探討。
關(guān)鍵詞:全媒體;大數(shù)據(jù);檔案資源;語義組織;語義服務(wù)
Abstract: This paper proposed the general idea for semantic organization and service of omni media Archives information resources in the case of problems faced to deep organization, management and service of Archive information resources in the period of big data. A preliminary discussion was made on related issues such as semantic transformation of meta data, semantic analysis and representation of Archive data, semantic organization and storage, semantic retrieval and service, system implementation and so on.
Keywords: Omni media; Big data; Archive resources; Semantic organization; Semantic service
1 引言
數(shù)字化與數(shù)據(jù)化的過程中,檔案信息資源的載體形態(tài)和載體類型越來越豐富,各類文本、圖形、圖像、音頻、視頻、動(dòng)畫以及各種類型的三維建模數(shù)據(jù)不斷涌現(xiàn),大數(shù)據(jù)和人工智能技術(shù)在信息化進(jìn)程中的不斷普及和應(yīng)用也帶來了檔案工作新的機(jī)遇和挑戰(zhàn)。檔案工作僅僅處于科學(xué)保管和有效利用檔案信息資源層面上,已經(jīng)不能滿足人們對信息的個(gè)性化、便捷化和人性化等方面的更高需求。人們對檔案信息資源的需求不局限于瀏覽檔案的原件,更多的是檔案信息內(nèi)容,檔案信息資源的語義組織就顯得極為重要。
傳統(tǒng)的檔案信息資源組織過程,一般是根據(jù)檔案信息資源載體類型的不同分別進(jìn)行加工和處理。在這種情況下,各類信息資源在語義上的相關(guān)度往往是通過鏈接的形式進(jìn)行描述和處理的,語義上的聚合度不是很高,基于內(nèi)容的檔案信息資源深層次組織、管理與服務(wù)難以開展。對于圖形、圖像等異構(gòu)的檔案全媒體載體形態(tài),單純使用元數(shù)據(jù)描述方式不能滿足檔案信息資源庫語義組織的要求,需要運(yùn)用模式識別和語義標(biāo)注等手段,通過智能代理工具和方法,將這類信息進(jìn)行語義組織和存儲,共同納入檔案信息資源語義知識庫體系[1]。這需要對全媒體檔案信息資源進(jìn)行語義組織與服務(wù),本文擬在這方面初步研討。
2 語義組織與服務(wù)基本思路
全媒體檔案信息資源語義組織與服務(wù)的實(shí)現(xiàn),需要在圖形、圖像、動(dòng)畫、音頻和視頻類數(shù)據(jù)的文本化處理和元數(shù)據(jù)組織基礎(chǔ)上進(jìn)行。非文本數(shù)據(jù)的文本化處理可通過模式識別技術(shù)和深度學(xué)習(xí)算法實(shí)現(xiàn),元數(shù)據(jù)組織通過分詞技術(shù)和自動(dòng)著錄與標(biāo)引技術(shù)實(shí)現(xiàn)。
本文重點(diǎn)分析元數(shù)據(jù)語義轉(zhuǎn)換、語義識別、標(biāo)注、表示、描述、存儲、檢索和提供利用等方面的內(nèi)容,即全媒體檔案信息資源語義組織與服務(wù)的基本流程包括元數(shù)據(jù)語義轉(zhuǎn)換、檔案數(shù)據(jù)語義分析與表述、語義組織與存儲、語義檢索與服務(wù)等四個(gè)方面。
元數(shù)據(jù)語義轉(zhuǎn)換,即利用語義知識庫組織檔案信息的內(nèi)容,運(yùn)用檔案語義詞典進(jìn)行檔案元數(shù)據(jù)語義轉(zhuǎn)換。
語義分析與表述,即運(yùn)用詞法分析技術(shù)進(jìn)行信息內(nèi)容的分詞、詞性標(biāo)注、句法標(biāo)注、語義和語境標(biāo)注。
語義組織與存儲,即通過存儲節(jié)點(diǎn)控制使檔案信息內(nèi)容按語義關(guān)系進(jìn)行鏈接,按語義關(guān)聯(lián)關(guān)系進(jìn)行組織和存儲,形成規(guī)范化的檔案信息內(nèi)容語義網(wǎng)絡(luò)知識體系。
語義檢索與服務(wù),即按一定的技術(shù)方法與手段形成檔案信息語義知識管理服務(wù)體系,提供檔案信息資源語義檢索和智能服務(wù)。
3 語義組織與服務(wù)一般框架
3.1 元數(shù)據(jù)語義轉(zhuǎn)換策略。元數(shù)據(jù)語義轉(zhuǎn)換策略是在自動(dòng)著錄和解析的基礎(chǔ)上通過檔案語義詞典生成檔案信息語義集合的策略。
元數(shù)據(jù)著錄標(biāo)引。檔案著錄標(biāo)引是按照檔案著錄規(guī)則、中國檔案主題詞表、中國檔案分類表進(jìn)行的,其中檔案元數(shù)據(jù)主要包括題名、檔號、檔案館(室)代號、分類號、主題詞、關(guān)鍵詞、提要、文件號、責(zé)任者、載體類型、載體形態(tài)、保管期限、密級、文種、稿本、形成時(shí)間、附件、鏈接地址、正文等。元數(shù)據(jù)著錄標(biāo)引在現(xiàn)有的檔案管理信息系統(tǒng)中已經(jīng)具有一定的積累,是生成檔案信息語義集合的數(shù)據(jù)基礎(chǔ)。
檔案語義詞典的建立。檔案語義詞典可參照國家檔案局頒布的關(guān)于檔案元數(shù)據(jù)和檔案基本數(shù)據(jù)規(guī)范[2],資源基礎(chǔ)是檔案原生數(shù)據(jù)及其元數(shù)據(jù)集合。《中國檔案主題詞表》的基本結(jié)構(gòu)分為主表、附表和輔助索引三大部分,包含字順表、范疇索引、詞族索引、主題詞索引等。字順表作為主題詞表的主體,可以通過詞性分析,進(jìn)行語義關(guān)聯(lián)規(guī)范化組織,建立檔案信息語義分析系統(tǒng)的基本詞匯控制數(shù)據(jù)集合,為檔案信息資源的語義組織和分析提供語義結(jié)構(gòu)標(biāo)準(zhǔn)化和系統(tǒng)化控制基礎(chǔ)[3]。
語義集合的生成。在語義詞典確定的基礎(chǔ)上,通過模式識別等技術(shù)對全媒體信息源進(jìn)行文本化處理,利用分詞技術(shù)實(shí)現(xiàn)詞匯的提取,進(jìn)而進(jìn)行語義關(guān)聯(lián)分析并生成語義信息集合。
檔案信息內(nèi)容的文本語義抽取。從檔案的原生數(shù)據(jù)源之中識別和標(biāo)注相關(guān)信息,并按照一定的標(biāo)準(zhǔn)和規(guī)范對這些信息進(jìn)行語義化描述,形成語義信息集合。在此基礎(chǔ)上,對檔案信息資源的內(nèi)容、背景、時(shí)空環(huán)境、載體形態(tài)等進(jìn)行內(nèi)外多維度語義屬性、特征、句法依存等關(guān)聯(lián)分析,形成檔案信息資源語義詞表和句法關(guān)聯(lián)信息集合[4]。
3.2 語義分析與表述方法。語義分析是運(yùn)用語義區(qū)分量表對信息內(nèi)容進(jìn)行表述的方法。相對于關(guān)鍵詞和元數(shù)據(jù),語義分析對于信息內(nèi)容涉及概念表述更加全面和準(zhǔn)確,所產(chǎn)生的歧義更小,詞語和句法的關(guān)聯(lián)度更強(qiáng)。一般來講,語義關(guān)聯(lián)關(guān)系是基于上下文的語義之間的同一性、隸屬性、相關(guān)性、間接性、直接性等關(guān)系[5]。
通用的語義關(guān)聯(lián)分析方法是檔案信息資源語義分析的重要參考。檔案信息資源是各類社會職能活動(dòng)中所產(chǎn)生的原始記錄,每一份檔案材料內(nèi)容都與人們所從事的社會實(shí)踐活動(dòng)密切相關(guān),都有其相應(yīng)的立檔單位特點(diǎn)、組織和活動(dòng)風(fēng)格、產(chǎn)生的時(shí)代背景、工作性質(zhì)、社會環(huán)境等,有其特定的語境,以及語義和語境的關(guān)聯(lián)關(guān)系。檔案信息資源與其他數(shù)字資源一樣可以運(yùn)用字串語義、文本語義、圖片語義、音頻語義、視頻語義、語義索引、語義匹配等語義關(guān)聯(lián)分析方法進(jìn)行處理。
語義分析與表述的基本方法。首先,通過語義特征分析,進(jìn)行概念標(biāo)注與描述,以明確所涉及的信息內(nèi)容相關(guān)概念以及概念的屬性和相互之間的關(guān)系,通過對檔案信息資源多種媒體元素的內(nèi)容屬性分析與標(biāo)注,揭示相互之間的語義關(guān)聯(lián)性;其次,進(jìn)行語義相關(guān)度分析和語義描述,針對各類詞語在檔案信息資源內(nèi)容上下文之間的關(guān)系,通過一定的模型和算法確定相互之間的語義關(guān)聯(lián)度和相似度并形成檔案信息內(nèi)容語義元素關(guān)聯(lián)網(wǎng)絡(luò)集合[6]。
3.3 語義組織與存儲技術(shù)。檔案信息內(nèi)容的語義組織包括檔案信息資源內(nèi)容體系和知識體系的語義關(guān)系組織、詞匯體系與元數(shù)據(jù)體系的映射關(guān)系組織等各個(gè)方面[7]。
全媒體檔案信息語義組織可以運(yùn)用本體工具對檔案信息內(nèi)容所涉及的概念以及概念之間的關(guān)系進(jìn)行加工處理,據(jù)此完成檔案信息資源的內(nèi)容、需求的語義組織以及建立兩者之間的語義鏈接。
語義描述和組織一般使用融合自然語言處理的語義網(wǎng)技術(shù)進(jìn)行標(biāo)注、表示、描述、組織和存儲。目前所使用的語義網(wǎng)技術(shù)包括資源描述框架RDF(Resource Description Framework)、網(wǎng)絡(luò)本體語言O(shè)WL(Web Ontology Language)。RDF使用SPO(Subject Predicate Object)三元組定義語義模型,并通過類、屬性以及關(guān)系形成語義網(wǎng)絡(luò)模型。OWL使用本體(Ontology)定義的語義模型進(jìn)行描述。在此基礎(chǔ)上可以實(shí)現(xiàn)語義抽取、語義表示、語義融合、語義推理、語義檢索等操作。利用Java工具箱Jana,可以支撐RDF與OWL語義網(wǎng)應(yīng)用并利用Apache Jena Fuseki服務(wù)器完成語義網(wǎng)數(shù)據(jù)的存儲與服務(wù)。
3.4 語義檢索與服務(wù)系統(tǒng)。全媒體檔案信息資源語義組織與服務(wù)系統(tǒng)的基本結(jié)構(gòu)有語義組織層、語義關(guān)聯(lián)層、語義應(yīng)用層等三個(gè)層次。
語義組織層,對檔案信息資源的內(nèi)容進(jìn)行語義分析并形成檔案信息資源語義本體結(jié)合;語義關(guān)聯(lián)層,將檔案信息的內(nèi)容進(jìn)行語義化組織并進(jìn)行語義化關(guān)聯(lián),形成語義關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)集合;語義應(yīng)用層,按照應(yīng)用層的服務(wù)需求,根據(jù)語義關(guān)聯(lián)的檔案信息內(nèi)容,提供語義檢索服務(wù)[8]。
語義檢索與服務(wù)系統(tǒng)的三層結(jié)構(gòu)包含檔案信息本體數(shù)據(jù)庫管理機(jī)制、語義本體推理機(jī)制、語義知識檢索機(jī)制、語義應(yīng)用控制機(jī)制等,通過系統(tǒng)集成共同構(gòu)成人機(jī)交互的全媒體檔案信息資源語義組織與服務(wù)體系。
參考文獻(xiàn):
[1]張倩.語義Web技術(shù)對高校檔案信息檢索工作的應(yīng)用價(jià)值[J].城建檔案,2018(02):85-87.
[2]張素萍.基于語義的電子健康檔案信息組織模式[J].醫(yī)學(xué)信息學(xué)雜志,2015,36(09):65-68.
[3]段榮婷.基于簡約知識組織系統(tǒng)的《中國檔案主題詞表》語義網(wǎng)絡(luò)化應(yīng)用研究[J].檔案學(xué)通訊,2011(02):72-75.
[4]徐一男,李禾.基于藝術(shù)語義特征抽取的藝術(shù)檔案信息聚合初探[J].圖書情報(bào)導(dǎo)刊,2017,2(04):52-56.
[5]呂元智.數(shù)字檔案資源跨媒體語義關(guān)聯(lián)聚合實(shí)現(xiàn)策略研究[J].檔案學(xué)研究,2015(05):60-65.
[6]石秀春.數(shù)字化檔案信息的語義相似性研究[J].檔案學(xué)研究,2013(02):51-53.
[7]林周佳.檔案的語義級檢索技術(shù)研究[J].檔案與建設(shè),2007(09):24-25.
[8]譚靜.基于語義關(guān)聯(lián)的高校圖書情報(bào)檔案數(shù)字資源整合研究[J].圖書館學(xué)刊,2016,38(11):38-40+45.
(作者單位:任妍,武漢大學(xué)信息管理學(xué)院;龐宇飛、荊欣,鄭州航空工業(yè)管理學(xué)院 來稿日期:2018-12-20)