魏扣 李子林 郝琦
摘要:檔案知識(shí)聚合作為知識(shí)經(jīng)濟(jì)時(shí)代檔案開發(fā)利用形式的創(chuàng)新體現(xiàn),為檔案知識(shí)增值與檔案服務(wù)社會(huì)化提供了實(shí)現(xiàn)路徑。本文基于檔案知識(shí)聚合模式的選擇應(yīng)遵循深度性、易操作性、全面性、保密性原則,同時(shí),結(jié)合檔案知識(shí)聚合的自身特點(diǎn),參考各類知識(shí)聚合模式的優(yōu)缺點(diǎn),最終選定基于語(yǔ)義——情景的檔案知識(shí)聚合模式,并從基礎(chǔ)層、聚合層、應(yīng)用層和評(píng)估層四個(gè)維度搭建檔案知識(shí)聚合實(shí)踐模型。
關(guān)鍵詞:檔案知識(shí)聚合知識(shí)服務(wù)實(shí)踐模型
Abstract: Archival knowledge aggregation, as an innovation manifestation of exploitation of ar? chives in the era of knowledge economy, provides a path for the value-added of archives knowledge and the socialization of archives services. This pa? per chooses the semantic- scene based archival knowledge aggregation model, which follows the principles of depth, easy operation, comprehensive? ness and confidentiality. According to the advantag? es and disadvantages of various types of knowl? edge aggregation models. Consequently, we build archival knowledge aggregation practical model from four dimensions: foundation layer, aggrega? tion layer, application layer and evaluation layer.
Keywords: Archives; Knowledge Aggregation; Knowledge Service; Practical Model
早在知識(shí)聚合概念提出前,圖情學(xué)界已對(duì)文獻(xiàn)、數(shù)據(jù)、信息等粗顆粒度信息資源的整合、聚合展開研究。當(dāng)前,我國(guó)圖情學(xué)界在知識(shí)聚合理論、聚合模式、技術(shù)應(yīng)用方面均取得一定研究成果,但檔案學(xué)界對(duì)檔案知識(shí)聚合的研究較為少見。截至2018年4月,在中國(guó)知網(wǎng)、讀秀知識(shí)庫(kù)、萬(wàn)方數(shù)據(jù)資源系統(tǒng)—數(shù)字化期刊全文庫(kù)等主流數(shù)據(jù)庫(kù)中以“檔案+聚合”為關(guān)鍵詞進(jìn)行題名檢索,僅得6篇文獻(xiàn);以“檔案+知識(shí)聚合”進(jìn)行篇名檢索,未檢索出相關(guān)文獻(xiàn)。由此可見,我國(guó)檔案學(xué)界尚未系統(tǒng)開展檔案知識(shí)聚合主題研究。一方面,傳統(tǒng)的檔案文獻(xiàn)借閱、檔案編研等服務(wù)方式無(wú)法滿足知識(shí)經(jīng)濟(jì)時(shí)代檔案用戶的知識(shí)利用需求,這種需求驅(qū)動(dòng)著檔案知識(shí)聚合研究的開展;另一方面,檔案學(xué)界關(guān)于檔案知識(shí)管理、檔案利用服務(wù)的相關(guān)研究成果豐富,為檔案知識(shí)聚合研究奠定了理論和實(shí)踐基礎(chǔ)。檔案學(xué)界現(xiàn)已認(rèn)識(shí)到檔案利用服務(wù)中檔案知識(shí)挖掘、處理、整合的重要性。在此背景下,開展檔案知識(shí)聚合研究,探索檔案知識(shí)聚合的理論模式與實(shí)踐模型成為應(yīng)時(shí)之事。
一、檔案知識(shí)聚合概念分析
檔案知識(shí)聚合屬于組合型概念,由“檔案知識(shí)”與“知識(shí)聚合”兩個(gè)概念組配而成。因此,從基礎(chǔ)性概念“知識(shí)聚合”著手,在界定“知識(shí)聚合”概念的基礎(chǔ)上,逐漸明晰檔案知識(shí)聚合的概念內(nèi)涵。
(一)知識(shí)聚合內(nèi)涵
知識(shí)聚合在信息技術(shù)深度發(fā)展、社會(huì)信息量劇增、用戶信息需求驅(qū)動(dòng)的背景之下應(yīng)運(yùn)而生。該概念最初起源于文獻(xiàn)、資料等粗粒度信息資源的整合思想;隨后,伴隨著日漸興起的數(shù)據(jù)整合、信息聚合等中粒度聚合技術(shù)應(yīng)用而逐漸拓展、深化。知識(shí)經(jīng)濟(jì)時(shí)代,人們意識(shí)到知識(shí)的重要性并將其視為組織的重要資產(chǎn),知識(shí)聚合逐漸引起研究人員關(guān)注。目前,國(guó)內(nèi)學(xué)者雖未對(duì)知識(shí)聚合形成確定一致的概念內(nèi)涵,但多數(shù)學(xué)者認(rèn)同知識(shí)聚合是通過(guò)對(duì)文獻(xiàn)、信息、數(shù)據(jù)等資源進(jìn)行知識(shí)化處理,抽取其中的知識(shí)單元,結(jié)合用戶需求,并將這些知識(shí)單元按照一定關(guān)聯(lián)重新聚集和組合,形成用戶所需的高聚合度、強(qiáng)關(guān)聯(lián)性的新知識(shí)集合。換言之,知識(shí)聚合是從用戶需求和解決用戶實(shí)際問(wèn)題出發(fā)的一種精細(xì)化、細(xì)粒度層次的聚合活動(dòng)和方式。
(二)檔案知識(shí)聚合
檔案知識(shí)聚合概念由“檔案知識(shí)”與“知識(shí)聚合”概念組配而成。綜合以上兩個(gè)概念,總結(jié)出“檔案知識(shí)聚合”即通過(guò)對(duì)數(shù)字檔案資源進(jìn)行相應(yīng)的知識(shí)抽取和知識(shí)表示處理,形成檔案知識(shí)單元并存入檔案知識(shí)庫(kù),再按照檔案用戶需求,充分挖掘檔案知識(shí)單元間的關(guān)聯(lián),對(duì)其進(jìn)行重新聚集和組合,形成用戶感興趣、能解決實(shí)際問(wèn)題、具有較強(qiáng)知識(shí)性的檔案知識(shí)集合。檔案知識(shí)聚合由聚合主體、聚合客體以及聚合環(huán)境構(gòu)成。檔案知識(shí)聚合主體主要是作為檔案知識(shí)聚合的發(fā)起者、實(shí)施者和完成者的檔案工作者。檔案知識(shí)聚合客體是指蘊(yùn)含在檔案資源中,對(duì)檔案用戶有重要價(jià)值,輔助用戶決策或直接幫助其解決實(shí)際問(wèn)題的知識(shí)。檔案知識(shí)聚合環(huán)境要素可分為理論環(huán)境、硬件環(huán)境、技術(shù)環(huán)境、需求環(huán)境。理論環(huán)境主要指檔案知識(shí)、知識(shí)聚合、檔案管理等檔案知識(shí)聚合相關(guān)理論的發(fā)展情況;硬件和技術(shù)環(huán)境主要指檔案知識(shí)聚合所需計(jì)算機(jī)、網(wǎng)絡(luò)、服務(wù)器等基礎(chǔ)實(shí)施完備情況和運(yùn)用的知識(shí)挖掘技術(shù)和聚類技術(shù)等發(fā)展情況;需求環(huán)境是指檔案用戶對(duì)檔案知識(shí)、檔案工作者的要求和期望,這是影響檔案知識(shí)聚合效果的重要因素。
二、檔案知識(shí)聚合模式的選擇
檔案知識(shí)聚合模式的選擇是檔案知識(shí)聚合實(shí)踐模型建構(gòu)的關(guān)鍵,針對(duì)不同的信息資源類型、信息環(huán)境以及用戶需求,應(yīng)選取相應(yīng)的聚合模式。目前,檔案知識(shí)聚合模式的相關(guān)研究較少,因此,檔案知識(shí)聚合模式的選擇需借鑒現(xiàn)有知識(shí)聚合模式研究成果。知識(shí)聚合模式主要分為基于語(yǔ)義的知識(shí)聚合、基于情景的知識(shí)聚合、基于計(jì)量的知識(shí)聚合三大類。這三類知識(shí)聚合模式不是相互獨(dú)立、不相兼容的,可根據(jù)實(shí)際知識(shí)聚合需求進(jìn)行復(fù)合運(yùn)用。
(一)檔案知識(shí)聚合模式選擇原則
原則是一切行事所依據(jù)的準(zhǔn)則,檔案知識(shí)聚合模式的確定也需在一定準(zhǔn)則下進(jìn)行。一是深度性原則。檔案知識(shí)聚合模式選擇首要原則是保證聚合的深度性,只有從檔案知識(shí)語(yǔ)義及其關(guān)聯(lián)角度對(duì)分散的檔案知識(shí)進(jìn)行聚合,才能實(shí)現(xiàn)對(duì)檔案資源的深層次、細(xì)粒度的知識(shí)層面聚合;二是易操作性原則。檔案知識(shí)聚合模式選擇需要考慮具體實(shí)踐操作的難易程度,應(yīng)選擇技術(shù)要求合理、聚合成本可控的聚合模式,盡量在操作性、成本控制和聚合效果之間尋找最佳方案;三是全面性原則。選擇檔案知識(shí)聚合模式時(shí)不僅要保證檔案文獻(xiàn)、檔案信息之間的知識(shí)聚合,還要選取能對(duì)外部資源(圖書、網(wǎng)絡(luò)等)中與目標(biāo)主題相關(guān)知識(shí)進(jìn)行聚合的模式,如此一來(lái),才能保證聚合成果的全面、準(zhǔn)確,進(jìn)一步提升用戶的知識(shí)獲取體驗(yàn)和知識(shí)服務(wù)滿意度;四是保密性原則。在檔案知識(shí)聚合過(guò)程中須保證做到檔案知識(shí)的安全以及檔案用戶隱私不被侵犯。因此,所選知識(shí)聚合模式須能設(shè)計(jì)相應(yīng)的安全擴(kuò)展功能,保障檔案知識(shí)在聚合過(guò)程過(guò)程中不會(huì)泄露到公共網(wǎng)絡(luò)空間中。
(二)基于語(yǔ)義——情景的檔案知識(shí)聚合模式
在檔案知識(shí)聚合模式選擇原則基礎(chǔ)上,參考各類知識(shí)聚合模式優(yōu)劣勢(shì),結(jié)合檔案自身特點(diǎn),最終將檔案知識(shí)聚合模式確定為基于語(yǔ)義——情景的檔案知識(shí)聚合模式。選取該模式的原因有:一是檔案知識(shí)聚合對(duì)象為檔案知識(shí),檔案知識(shí)的深度聚合必須從語(yǔ)義層進(jìn)行操作。基于本體的知識(shí)聚合模式通過(guò)構(gòu)建關(guān)于目標(biāo)主題的檔案知識(shí)領(lǐng)域本體實(shí)現(xiàn)對(duì)檔案知識(shí)語(yǔ)義及其之間關(guān)聯(lián)的準(zhǔn)確描述。在此基礎(chǔ)上,利用關(guān)聯(lián)數(shù)據(jù),將領(lǐng)域本體內(nèi)的知識(shí)與領(lǐng)域外的相關(guān)知識(shí)進(jìn)行聚合,保證了檔案知識(shí)聚合的深度性、全面性。二是檔案內(nèi)容的多樣性決定了在對(duì)檔案資源進(jìn)行知識(shí)聚合時(shí),會(huì)涉及大量自然語(yǔ)言文本和圖形圖像文件。針對(duì)此類高維檔案資源,可利用主題模型、文本聚類方法進(jìn)行降維操作,降低對(duì)這些文件聚合的難度,滿足檔案知識(shí)聚合的可操作性原則。三是用戶檔案需求是檔案知識(shí)聚合重點(diǎn)考慮的因素,如欲實(shí)現(xiàn)聚合的全面性,就需實(shí)現(xiàn)將用戶所處的實(shí)時(shí)情景(時(shí)間、位置等)加入到聚合結(jié)果中,而基于情景的知識(shí)聚合模式正好能實(shí)現(xiàn)上述要求。四是該聚合模式是綜合基于語(yǔ)義的知識(shí)聚合模式、基于情景的知識(shí)聚合模式的各方面優(yōu)點(diǎn)而得到的,具有良好的擴(kuò)展性,可設(shè)計(jì)相應(yīng)的安全保障功能,進(jìn)而確保檔案知識(shí)的信息安全和保密性。
三、檔案知識(shí)聚合實(shí)踐模型的構(gòu)建
檔案知識(shí)聚合實(shí)踐模型的構(gòu)建需要“基于語(yǔ)義——情景”的檔案知識(shí)聚合理論模式和實(shí)際操作要求兩大因素的共同支持,在此基礎(chǔ)上形成包括:基礎(chǔ)層、聚合層、應(yīng)用層、評(píng)估層四級(jí)架構(gòu)的檔案知識(shí)聚合實(shí)踐模型,具體如圖1所示。
(一)基礎(chǔ)層
檔案知識(shí)聚合實(shí)踐模型的基礎(chǔ)層主要包括資源集合、資源預(yù)處理、知識(shí)獲取、基于本體的知識(shí)組織以及知識(shí)存儲(chǔ)五個(gè)組成部分。資源集合是檔案知識(shí)聚合的最原始資源基礎(chǔ),包含檔案資源、圖書情報(bào)資源、專家知識(shí)三類。檔案資源、圖書情報(bào)資源是固定資源,主要指提供知識(shí)聚合服務(wù)的檔案館、圖書館、情報(bào)機(jī)構(gòu)的文獻(xiàn)、檔案、圖書、期刊、報(bào)紙等資料。專家知識(shí)指檔案知識(shí)聚合服務(wù)過(guò)程中領(lǐng)域?qū)<谊P(guān)于資源整理、知識(shí)處理等方面的技能和知識(shí)。這些知識(shí)對(duì)知識(shí)抽取、知識(shí)組織具有重要輔助作用,還可對(duì)檔案知識(shí)聚合結(jié)果進(jìn)行校準(zhǔn)、評(píng)價(jià)和監(jiān)督。資源預(yù)處理是將多種異構(gòu)資源進(jìn)行整合、處理,形成計(jì)算機(jī)可處理的結(jié)構(gòu)化資源的過(guò)程,包括資源清理、資源集成、資源轉(zhuǎn)化、資源歸約、資源離散化以及特征選擇等步驟。[2]知識(shí)獲取主要是在資源預(yù)處理前提下,對(duì)結(jié)構(gòu)化的資源進(jìn)行知識(shí)挖掘、知識(shí)抽取、知識(shí)表示的過(guò)程。基于本體的檔案知識(shí)組織通過(guò)構(gòu)建檔案資源知識(shí)本體,揭示數(shù)字檔案資源中所蘊(yùn)含的檔案知識(shí)內(nèi)在關(guān)聯(lián),將之整理為有序的、相互關(guān)聯(lián)的存在方式,以便檔案知識(shí)庫(kù)的知識(shí)存儲(chǔ)和知識(shí)檢索。[3]最后,知識(shí)庫(kù)是計(jì)算機(jī)中可用來(lái)對(duì)有序組織后的關(guān)聯(lián)知識(shí)進(jìn)行存儲(chǔ)的知識(shí)集合軟件,[4]將合理組織后的檔案知識(shí)存儲(chǔ)到知識(shí)庫(kù)中,可方便用戶對(duì)某一主題知識(shí)的檢索,形成關(guān)于該主題的知識(shí)資源的較淺層次聚類,為深層次知識(shí)聚合打下基礎(chǔ)。
(二)聚合層
檔案知識(shí)聚合實(shí)踐模型的聚合層是對(duì)檔案、圖書和網(wǎng)絡(luò)等知識(shí)進(jìn)行聚集整合的關(guān)鍵模塊。該層以用戶檔案知識(shí)需求為驅(qū)動(dòng),以基礎(chǔ)層提供的各種知識(shí)資源為主要聚合客體,以傳感器提供的實(shí)時(shí)情景信息為知識(shí)聚合的補(bǔ)充,根據(jù)用戶的檔案知識(shí)需求,從知識(shí)語(yǔ)義關(guān)聯(lián)的深度,通過(guò)計(jì)算知識(shí)間的語(yǔ)義相似度進(jìn)行聚類、合并、去重等操作,實(shí)現(xiàn)多種異構(gòu)知識(shí)的深層次聚合。檔案知識(shí)之間的聚合主要通過(guò)比對(duì)檔案知識(shí)中詞匯、句子在語(yǔ)義上的相似度來(lái)實(shí)現(xiàn)。針對(duì)檔案知識(shí)目錄和正文文字部分,采用文檔Shingling改進(jìn)算法來(lái)實(shí)現(xiàn)聚合,針對(duì)正文圖片、圖像部分?jǐn)M通過(guò)構(gòu)建主題模型來(lái)對(duì)圖片、圖像進(jìn)行降維處理,再進(jìn)行聚合操作。檔案知識(shí)與外部知識(shí)的聚合主要基于某一主題相關(guān)知識(shí)的需求,對(duì)檔案知識(shí)、圖書知識(shí)、網(wǎng)絡(luò)知識(shí)實(shí)施綜合的、全面的聚合操作。在聚合過(guò)程中,需要將三種知識(shí)在其各自知識(shí)領(lǐng)域內(nèi)進(jìn)行聚合,再將三者領(lǐng)域內(nèi)知識(shí)聚合結(jié)果進(jìn)行二次聚合,形成完整、全面、高聚合度的知識(shí)聚合實(shí)例。實(shí)時(shí)情景信息的補(bǔ)充聚合是檔案知識(shí)聚合的輔助性活動(dòng)。檔案知識(shí)聚合受用戶檔案知識(shí)需求驅(qū)動(dòng),而用戶檔案知識(shí)需求又受到其所處實(shí)時(shí)情景的影響。因此,在檔案知識(shí)聚合過(guò)程中能準(zhǔn)確獲取用戶的實(shí)時(shí)情景信息,并對(duì)這些情景信息進(jìn)行分析、將之與檔案知識(shí)進(jìn)行聚合十分關(guān)鍵。
(三)應(yīng)用層
檔案知識(shí)聚合結(jié)果的可視化呈現(xiàn)是檔案知識(shí)聚合實(shí)踐模型的應(yīng)用層關(guān)注的重點(diǎn)問(wèn)題。檔案知識(shí)聚合結(jié)果的呈現(xiàn)形式受檔案知識(shí)服務(wù)方式和用戶的檔案知識(shí)需求兩個(gè)關(guān)鍵因素的影響。檔案知識(shí)服務(wù)方式在系統(tǒng)設(shè)計(jì)層面起作用,若選擇在移動(dòng)社交媒體環(huán)境下提供檔案知識(shí)服務(wù),則適合使用專題文本文檔形式展示。在文檔中可加入圖片、鏈接、視頻等多媒體文件,將檔案知識(shí)聚合結(jié)果以簡(jiǎn)潔、明了、列舉知識(shí)點(diǎn)的形式給出,減輕用戶閱讀負(fù)擔(dān),增加檔案內(nèi)容的趣味性;若選擇門戶網(wǎng)站服務(wù)方式,則適合采用知識(shí)地圖展現(xiàn)。知識(shí)地圖能完整展示網(wǎng)頁(yè)上所有知識(shí)間的層次、關(guān)系,便于用戶深入了解整個(gè)知識(shí)內(nèi)容的體系架構(gòu),以領(lǐng)域知識(shí)瀏覽的漸進(jìn)式方式推進(jìn)服務(wù)[5]。另外,立足用戶檔案知識(shí)需求將為用戶提供更加個(gè)性化的展示效果,根據(jù)系統(tǒng)設(shè)計(jì)和技術(shù)手段的要求,盡量滿足用戶對(duì)聚合結(jié)果的展示需求。
(四)評(píng)估層
檔案知識(shí)聚合模型的評(píng)估層作為整個(gè)模型的重要組成部分,對(duì)檔案知識(shí)聚合可持續(xù)發(fā)展具有推動(dòng)作用。首先,評(píng)估層直接影響用戶檔案知識(shí)需求的更新,這是檔案知識(shí)聚合實(shí)施的主要驅(qū)動(dòng)力量。其次,領(lǐng)域?qū)<覍?duì)模型的評(píng)估助于檔案知識(shí)聚合方法的改進(jìn)和檔案知識(shí)聚合結(jié)果的優(yōu)化。領(lǐng)域?qū)<覒{借豐富的理論積累和實(shí)踐工作經(jīng)驗(yàn),對(duì)該模型的聚合方法、聚合效率、聚合結(jié)果進(jìn)行評(píng)估,有利于模型的調(diào)整和改進(jìn),經(jīng)過(guò)“實(shí)施→評(píng)估→實(shí)施→評(píng)估…”的良性循環(huán),整個(gè)聚合模型會(huì)不斷進(jìn)行更新和迭代,最終向最優(yōu)模型靠攏。最后,評(píng)估過(guò)程中用戶的全程參與使評(píng)估過(guò)程更加貼近用戶需求,保證評(píng)估結(jié)果的真實(shí)性、有效性。另外,檔案知識(shí)聚合實(shí)施主體也可從聚合資源、聚合模式、聚合實(shí)踐、聚合結(jié)果四方面設(shè)計(jì)檔案知識(shí)聚合模型評(píng)估指標(biāo)體系,以指導(dǎo)檔案知識(shí)聚合模型評(píng)估工作的穩(wěn)步推進(jìn)。
以臺(tái)灣歷史數(shù)位圖書館項(xiàng)目為例,該歷史數(shù)位圖書館作為收錄“淡新檔案”“明清檔案”“古契書”的全文檔案資料數(shù)據(jù)庫(kù),基本搭建了涵蓋基礎(chǔ)層、聚合層、應(yīng)用層、評(píng)估層在內(nèi)的四級(jí)檔案知識(shí)聚合實(shí)踐模型。在基礎(chǔ)層存儲(chǔ)各類檔案、文獻(xiàn)的全文數(shù)據(jù),系統(tǒng)建設(shè)人員與檔案工作者對(duì)全文數(shù)據(jù)進(jìn)行關(guān)鍵詞(人名、地名、時(shí)間、官名等)抓取,制定全文數(shù)據(jù)的元數(shù)據(jù)方案,實(shí)現(xiàn)檔案文獻(xiàn)的有序化存儲(chǔ),為檔案文獻(xiàn)知識(shí)化處理做準(zhǔn)備。在數(shù)據(jù)庫(kù)的聚合層,立足用戶的檢索和利用需求,搭建“時(shí)間”“空間”“主題”三類檔案文獻(xiàn)組織脈絡(luò),借助關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)檔案文獻(xiàn)的自動(dòng)聚合。該數(shù)據(jù)在應(yīng)用層面提供檢索結(jié)果關(guān)系脈絡(luò)圖,幫助用戶探尋目標(biāo)檔案相關(guān)的知識(shí)。最后,用戶在數(shù)據(jù)庫(kù)評(píng)估層支撐下,借助交互接口向數(shù)據(jù)庫(kù)終端反饋此次檔案知識(shí)服務(wù)的真實(shí)感受及個(gè)人建議,為數(shù)據(jù)庫(kù)的升級(jí)優(yōu)化提供重要參考數(shù)據(jù)。
*本文系國(guó)家社會(huì)科學(xué)基金項(xiàng)目青年項(xiàng)目“社交媒體環(huán)境下公共檔案資源知識(shí)聚合與服務(wù)研究”(項(xiàng)目編號(hào):16CTQ032)階段性研究成果之一。
參考文獻(xiàn):
[1]趙蓉英,王嵩,董克.國(guó)內(nèi)館藏資源聚合模式研究綜述[J].圖書情報(bào)工作,2014(18):138-143.
[2]梁亞聲,徐欣等.數(shù)據(jù)挖掘原理、算法與應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2014:61-93.
[3]張斌,郝琦,魏扣.基于檔案知識(shí)庫(kù)的檔案知識(shí)服務(wù)研究[J].檔案學(xué)通訊,2016(3):51-57.
[4]張斌,魏扣,郝琦.國(guó)內(nèi)外知識(shí)庫(kù)研究現(xiàn)狀述評(píng)與比較[J].圖書情報(bào)知識(shí),2016(3):15-25.
[5]王昊,谷俊,蘇新寧.本體驅(qū)動(dòng)的知識(shí)管理系統(tǒng)模型及其應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2013(3):98-110.