朱純琳
關(guān)鍵詞:關(guān)聯(lián)數(shù)據(jù);數(shù)字圖書館;知識發(fā)現(xiàn)系統(tǒng)模型
摘要:文章介紹了數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)的現(xiàn)實意義和基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程,闡述了基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)模型的功能要素、構(gòu)建過程和模型特征,歸納了基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)的創(chuàng)新之處。
中圖分類號:G250.7文獻標識碼:A文章編號:1003-1588(2017)11-0101-03
近年來,隨著關(guān)聯(lián)數(shù)據(jù)的快速發(fā)展和廣泛應(yīng)用,逐漸呈現(xiàn)給人們一個“數(shù)據(jù)網(wǎng)絡(luò)”的資源環(huán)境。如何把該網(wǎng)絡(luò)資源環(huán)境的潛力和優(yōu)勢充分發(fā)揮到知識發(fā)現(xiàn)應(yīng)用的實現(xiàn)過程中,是值得研究的課題。從問題起源上來說,在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上開展的知識發(fā)現(xiàn)研究是為了對關(guān)聯(lián)數(shù)據(jù)資源進行更加充分的利用,并且通過知識發(fā)現(xiàn)問題的解決更好地促進網(wǎng)絡(luò)發(fā)展。關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的發(fā)展和知識發(fā)現(xiàn)活動的開展需要融合兩個領(lǐng)域的理論體系,并做進一步擴展。在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上開展的知識發(fā)現(xiàn)系統(tǒng),關(guān)聯(lián)數(shù)據(jù)負責把數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)的工具和網(wǎng)絡(luò)資源環(huán)境注入知識發(fā)現(xiàn)中,知識發(fā)現(xiàn)推動著關(guān)聯(lián)數(shù)據(jù)的實現(xiàn)和發(fā)展[1]。
1數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)的現(xiàn)實意義
在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上研究數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng),是在分析處理大數(shù)據(jù)過程中使用知識發(fā)現(xiàn)技術(shù),不僅可以克服傳統(tǒng)圖書館的服務(wù)缺陷,還可以拓展數(shù)字圖書館知識服務(wù)的內(nèi)容。
1.1增強數(shù)字圖書館對潛在知識的挖掘能力,帶動資源的高效利用
圖書館在數(shù)字化進程中,比較注重檢索和傳遞資源能力的提升,忽略了用戶對資源的利用率問題。知識發(fā)現(xiàn)系統(tǒng)能把用戶需求的相關(guān)知識充分地挖掘出來,實現(xiàn)資源利用率最大化[2]。與圖書館傳統(tǒng)服務(wù)模式相比,知識發(fā)現(xiàn)系統(tǒng)具有以下特點:用戶在搜索和獲取知識A的過程中,系統(tǒng)可以自動把與知識A相關(guān)的知識B一同推送給用戶,不僅有助于用戶獲取所需知識,還有助于提升知識B的利用率。因此,知識發(fā)現(xiàn)系統(tǒng)更加注重挖掘知識,在該服務(wù)模式中不僅體現(xiàn)了用戶找知識的過程,還體現(xiàn)出了知識主動“找”用戶的過程。知識發(fā)現(xiàn)系統(tǒng)的應(yīng)用可以使數(shù)字資源的利用率得到有效提升。
1.2有效過濾垃圾信息,增強數(shù)字圖書館的個性化服務(wù)水平
隨著信息技術(shù)的不斷發(fā)展,在全球范圍內(nèi),每天產(chǎn)生的信息量可達l0億UB,如果把它們刻錄到DVD光盤中,需要用掉1.88億張光盤。在海量的數(shù)據(jù)中,必然有大量的垃圾數(shù)據(jù)存在,用戶只有先排除垃圾數(shù)據(jù),才能獲取有價值的信息。在大數(shù)據(jù)時代,由于傳統(tǒng)的信息檢索方式太過單一,已經(jīng)不能滿足用戶日益增長的資源索取需求,該問題通過知識發(fā)現(xiàn)系統(tǒng)可以得到有效的解決[3]。知識發(fā)現(xiàn)系統(tǒng)通過運用聚類、分類、收集以及關(guān)聯(lián)分析方法,可以深度挖掘資源內(nèi)容、用戶信息以及網(wǎng)站結(jié)構(gòu),把其中潛在的關(guān)聯(lián)信息找出來并推送給用戶,使圖書館的信息服務(wù)水平得到提升。
2基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程分析
2.1知識發(fā)現(xiàn)的一般過程
雖然知識發(fā)現(xiàn)過程的描述方式是多樣化的,但是他們只是語言組織與表達方式不同。知識發(fā)現(xiàn)過程的步驟依次是:對知識發(fā)現(xiàn)的目標、任務(wù)以及對象進行確定;對數(shù)據(jù)進行搜集和提取,構(gòu)建關(guān)鍵性指標;根據(jù)具體任務(wù),合法性檢查和清理數(shù)據(jù),把無關(guān)的數(shù)據(jù)去除;對數(shù)據(jù)挖掘算法進行選擇;用可視化的形式表述知識發(fā)現(xiàn)的結(jié)果,并提供給用戶和專家評價。在知識發(fā)現(xiàn)過程中需要反復(fù)修改以上步驟,確保最終形成的知識發(fā)現(xiàn)結(jié)果高效可用。
2.2基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程
在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上,用戶根據(jù)知識發(fā)現(xiàn)的特征、大數(shù)據(jù)以及網(wǎng)絡(luò)環(huán)境特性,基于知識發(fā)現(xiàn)的一般規(guī)律,可以對知識發(fā)現(xiàn)過程模型進行重新思考和定位[4]。在關(guān)聯(lián)數(shù)據(jù)基礎(chǔ)上開展的知識發(fā)現(xiàn)過程有別于一般的知識發(fā)現(xiàn)過程,它的特點是:數(shù)據(jù)源由關(guān)系型向關(guān)聯(lián)開放網(wǎng)絡(luò)轉(zhuǎn)變,整個網(wǎng)絡(luò)中的數(shù)據(jù)源都是知識發(fā)現(xiàn)的基礎(chǔ)和對象;關(guān)聯(lián)數(shù)據(jù)的整合是與具體的數(shù)據(jù)轉(zhuǎn)換和處理過程相一致的,不需要付出額外成本;針對關(guān)聯(lián)數(shù)據(jù)的具體需求和特殊性,在數(shù)據(jù)挖掘和解釋評估環(huán)節(jié)開展特定的設(shè)計?;陉P(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)過程見圖1。
3基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)模型構(gòu)建
3.1功能要素分析
功能要素包括:①數(shù)據(jù)準備功能。數(shù)據(jù)準備工作不僅是數(shù)據(jù)處理的前提,還是知識發(fā)現(xiàn)的基礎(chǔ)。數(shù)據(jù)準備工作是在保證數(shù)據(jù)源的基礎(chǔ)屬性下,篩選出合格的數(shù)據(jù)源,進而保證整個數(shù)據(jù)挖掘工作的準確性和有效性。②數(shù)據(jù)獲取功能。數(shù)據(jù)獲取功能是知識發(fā)現(xiàn)的關(guān)鍵因素,它可以分為數(shù)據(jù)查閱功能和數(shù)據(jù)獲取功能。數(shù)據(jù)獲取功能是在數(shù)據(jù)源中展開搜索并獲取所需數(shù)據(jù),該功能直接影響知識發(fā)現(xiàn)和獲取的結(jié)果。③數(shù)據(jù)處理功能。數(shù)據(jù)處理功能是在數(shù)據(jù)準備功能和數(shù)據(jù)獲取功能基礎(chǔ)上進行的,它的功能是挖掘相關(guān)聯(lián)的有效數(shù)據(jù)源集合。一般情況下,數(shù)據(jù)處理環(huán)節(jié)不僅要保證待處理數(shù)據(jù)的準確性、一致性以及完整性,還要參照知識發(fā)現(xiàn)和數(shù)據(jù)獲取的原則篩選和整理出適合數(shù)據(jù)挖掘的數(shù)據(jù)源集合。④數(shù)據(jù)挖掘功能。數(shù)據(jù)挖掘功能是知識發(fā)現(xiàn)系統(tǒng)的重要組成部分,當數(shù)據(jù)源集合經(jīng)過數(shù)據(jù)處理后會自動進入數(shù)據(jù)挖掘系統(tǒng),該系統(tǒng)會調(diào)用挖掘算法(比如數(shù)據(jù)分類算法、聚類算法以及關(guān)聯(lián)性查找算法等)挖掘出所需數(shù)據(jù)。⑤知識生成功能。知識生成功能包括知識生成模式的解釋功能、知識生成模式的表示功能以及可視化的顯示功能等。知識生成模式的解釋功能是指針對知識生成的方式進行相應(yīng)的解釋,知識生成模式的表示功能是在知識生成模式的解釋功能的基礎(chǔ)上抽取所需信息,并利用易于理解的方式對信息進行重新構(gòu)建,最終形成知識生成模式。⑥評估反饋功能。該功能是一個需要用戶和專業(yè)人員共同參與和相互交流的過程,其可以對生成的知識進行多維形式的評測,并將評測結(jié)果形成反饋意見。
3.2模型的構(gòu)建
基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)模型采用了分層結(jié)構(gòu),并將一般知識發(fā)現(xiàn)系統(tǒng)模型的處理方式應(yīng)用到系統(tǒng)中(見圖2)。資源層為系統(tǒng)提供穩(wěn)定可靠的數(shù)據(jù)庫資源,知識發(fā)現(xiàn)處理層包括關(guān)聯(lián)數(shù)據(jù)的獲取、處理和挖掘,應(yīng)用層是知識發(fā)現(xiàn)系統(tǒng)的操作界面,包括關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)、關(guān)聯(lián)知識發(fā)現(xiàn)和解釋評估。知識發(fā)現(xiàn)過程是一個不斷循環(huán)的過程,數(shù)據(jù)的關(guān)聯(lián)性會隨著循環(huán)次數(shù)增多變得更加明顯[5]。該知識發(fā)現(xiàn)系統(tǒng)還會根據(jù)評價和反饋的結(jié)果及時調(diào)整知識關(guān)聯(lián)策略,進而使知識發(fā)現(xiàn)的結(jié)果更加精確。endprint
3.3模型的特征
基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)模型的特征包括:①底層邏輯控制?;陉P(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)采用關(guān)聯(lián)數(shù)據(jù)的處理方式、標準、技術(shù)、運作機制以及運行環(huán)境等作為底層邏輯控制的基礎(chǔ)[6],因此,底層邏輯控制規(guī)則要遵循關(guān)聯(lián)數(shù)據(jù)的規(guī)則。整個數(shù)據(jù)的準備、獲取、整合以及挖掘過程都需要根據(jù)關(guān)聯(lián)數(shù)據(jù)的控制要求進行處理。②流程方法控制。該模型將知識發(fā)現(xiàn)規(guī)則作為數(shù)據(jù)處理的基本準則,在程序運行過程中關(guān)聯(lián)數(shù)據(jù)的處理過程要與知識發(fā)現(xiàn)的過程相吻合,并以發(fā)現(xiàn)關(guān)聯(lián)知識為目的。由于受到數(shù)據(jù)處理流程的影響,模型的結(jié)構(gòu)為分層結(jié)構(gòu),其結(jié)構(gòu)也要受到關(guān)聯(lián)數(shù)據(jù)整體框架的限制。該模型的關(guān)聯(lián)數(shù)據(jù)應(yīng)用方式與知識發(fā)現(xiàn)方式相互融合,進而更好地實現(xiàn)流程方法控制。③功能操作控制。功能操作控制包括關(guān)聯(lián)數(shù)據(jù)的建立操作和關(guān)聯(lián)數(shù)據(jù)的發(fā)現(xiàn)操作。功能操作控制不僅可以為模型中各個模塊之間的協(xié)調(diào)運轉(zhuǎn)提供技術(shù)支持,還可以提高關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)功能的效率。
4基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)的創(chuàng)新
4.1知識發(fā)現(xiàn)在網(wǎng)絡(luò)規(guī)模上的實現(xiàn)
統(tǒng)一標準的關(guān)聯(lián)數(shù)據(jù)具有低成本和便捷實用等特點,因此,用戶在進行知識發(fā)現(xiàn)操作時,不用考慮數(shù)據(jù)資源的物理存儲位置、接口兼容以及平臺操作等問題。具體來說,根據(jù)相互促進和相互協(xié)調(diào)的原則,知識發(fā)現(xiàn)過程可以在全球范圍內(nèi)進行,授權(quán)用戶根據(jù)自身的數(shù)據(jù)需求擴展信息類數(shù)據(jù)資源以及非信息類數(shù)據(jù)資源,進而為整體知識發(fā)現(xiàn)體系提供更廣泛的范圍。用戶利用關(guān)聯(lián)數(shù)據(jù)操作可以獲得意想不到的關(guān)聯(lián)性數(shù)據(jù)。
4.2實現(xiàn)語義化的知識發(fā)現(xiàn)
基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)采用了機器自動識別的結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu),因此,在進行數(shù)據(jù)處理過程中機器可以直接進行數(shù)據(jù)處理,進而增強了數(shù)據(jù)處理的可靠性和效率。但是,半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)不能被機器自動識別和處理,因此需要人工處理并將它們轉(zhuǎn)換為機器可以識別和處理的類型。在海量數(shù)據(jù)資源的大環(huán)境下,數(shù)據(jù)類型的多樣性會給數(shù)據(jù)處理帶來困難?;陉P(guān)聯(lián)數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)換和語義關(guān)聯(lián)轉(zhuǎn)換可以解決數(shù)據(jù)處理遇到的困難,可以使數(shù)據(jù)能夠被機器直接識別和自動處理,進而提高數(shù)據(jù)處理的速度。語義關(guān)系存在于同一個數(shù)據(jù)集合中,不同的URI對應(yīng)著不同的數(shù)據(jù)集合,因此URI是數(shù)據(jù)資源的語義關(guān)系的重要標識。基于數(shù)據(jù)資源的語義關(guān)系必須滿足語義查詢格式的統(tǒng)一規(guī)范,才可以讓知識發(fā)現(xiàn)操作能夠利用存在的語義關(guān)系去進一步發(fā)現(xiàn)和推斷數(shù)據(jù)資源的關(guān)系,進而更好地擴展語義關(guān)聯(lián)的范圍。
4.3知識發(fā)現(xiàn)的動態(tài)擴展
根據(jù)關(guān)聯(lián)數(shù)據(jù)的非中心性、標準化特點和基于關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)的擴展性、同步性特點,基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)具有開放性、動態(tài)性和可擴展性等特點。隨著關(guān)聯(lián)數(shù)據(jù)的數(shù)量不斷增多,使得關(guān)聯(lián)數(shù)據(jù)的多領(lǐng)域性和多來源性等問題亟須得到解決,而基于數(shù)據(jù)資源中心化的管理方式不能解決上述問題。此外,“用戶查詢—系統(tǒng)響應(yīng)”的問題解決方式也不能真正體現(xiàn)用戶知識需求的多樣化和個性化。現(xiàn)階段,基于關(guān)聯(lián)數(shù)據(jù)的模型已經(jīng)擴展了新的應(yīng)用功能,其可以直接添加動態(tài)的知識發(fā)現(xiàn)子模塊。關(guān)聯(lián)數(shù)據(jù)的標準化和非中心化使得用戶不必深究數(shù)據(jù)底層的具體結(jié)構(gòu)和邏輯關(guān)系。系統(tǒng)可以根據(jù)數(shù)據(jù)集合的動態(tài)性及時發(fā)現(xiàn)和處理新的知識集合,進而保證知識發(fā)現(xiàn)的可靠性和有效性。
5結(jié)語
基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)是在對現(xiàn)有的知識發(fā)現(xiàn)系統(tǒng)加以研究的基礎(chǔ)上進行了擴展和延伸,該系統(tǒng)更加注重關(guān)聯(lián)數(shù)據(jù)的應(yīng)用。筆者試圖找出關(guān)聯(lián)數(shù)據(jù)與知識發(fā)現(xiàn)的相互影響的關(guān)系,使它們能夠相互彌補、相互促進,更好地實現(xiàn)知識發(fā)現(xiàn)系統(tǒng)的價值。
參考文獻:
[1]丁楠,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.
[2]陀向明.圖書館知識發(fā)現(xiàn)系統(tǒng)應(yīng)用狀況分析[J].科技情報開發(fā)與經(jīng)濟,2013(16):153-155.
[3]廖志江.知識發(fā)現(xiàn)及數(shù)字圖書館知識服務(wù)平臺建設(shè)研究[J].情報科學(xué),2012(12):1849-1853.
[4]管進.基于關(guān)聯(lián)數(shù)據(jù)的圖書館知識服務(wù)策略研究[J].圖書館理論與實踐,2012(6):9-11.
[5]林海青,樓向英,夏翠娟.圖書館關(guān)聯(lián)數(shù)據(jù):機會與挑戰(zhàn)[J].中國圖書館學(xué)報,2012(1):58-67.
[6]黃永文,岳笑,劉建華.關(guān)聯(lián)數(shù)據(jù)應(yīng)用的體系框架及構(gòu)建關(guān)聯(lián)數(shù)據(jù)應(yīng)用的建議[J].現(xiàn)代圖書情報技術(shù),2011(9):7-13.
(編校:孫新梅)endprint