于秀慧 李寶山
(1 同方知網(wǎng)(北京)技術有限公司,北京 100192;2 中國人民大學商學院,北京 100872)
近些年來,全世界的信息量呈爆炸式增長。即使在全球遭遇金融危機的2009年,全球信息量仍達到80萬 PB,比上一年度增長62%。[1]美國國際數(shù)據(jù)公司一項名為“數(shù)字世界”的調查顯示,2010年全球共產(chǎn)生近1.2澤它(zetta,10的21次方)字節(jié)的數(shù)字信息。而未來10年,全球總體信息量將是現(xiàn)在的44倍。[2]全球將進入信息和數(shù)據(jù)存儲的“澤它時代”。
信息量的增長使人們從表面看起來不必再為獲取信息而絞盡腦汁,各種各樣的信息似乎觸手可及,信息技術的發(fā)展也為人們隨時隨地獲取信息提供了極大的便利。但是,這樣豐富的信息資源下面卻也隱藏著深層次的問題:一方面,信息和知識的高量級增長給精細的知識獲取造成了非常大的難度,降低了知識獲取的效率;另一方面,紛繁復雜的信息和知識很容易使知識利用者產(chǎn)生“博物館效應”,降低了知識的利用效果。隨著社會的進步和知識經(jīng)濟的快速發(fā)展,人們對獲取知識的精準程度要求越來越高。同時,如何挖掘富有啟示性的隱性知識成為提高知識利用效果的迫切需求。
為了在一定程度上滿足精細化的知識獲取和利用的需求,有必要將承載著圖書、期刊等傳統(tǒng)載體的知識進行碎化,使知識載體的粒度細化為知識元,從而提高知識獲取和利用的效率和精準程度。對于知識元的含義,眾多學者都從不同的角度進行了闡釋,具體如表1所示。
表1 不同學者關于知識元含義的闡釋
根據(jù)知識元的含義,可以看出知識元具有獨立性、拓撲性、鏈接性、外顯性、便于存儲等特點[3],可以為精細化的知識管理提供新的視角。
將傳統(tǒng)載體上的知識碎化成為知識元,并以知識元為基本單位對知識進行組織和集成對于知識的獲取、傳播、普及和利用有著非常重要的意義。
(1)有助于提高人們的知識獲取效率
知識元將傳統(tǒng)文獻載體承載的知識細化,通過知識元人們可以直接檢索并直接深入到所要了解的知識點,而不是必須瀏覽整篇文獻來自己找到自己所需要的知識。
(2)有助于提高人們的學習能力
知識碎化為知識元之后,可以通過知識元組織和整合技術將不同內容特征的知識元和不同載體類型的知識元圍繞特定的領域、問題、目標等集成起來,使人們的學習過程不再依賴于單一的文本形式,而是綜合利用文本、圖片、音頻、視頻等多種形式的知識表現(xiàn)形式,提高知識學習過程形象性和綜合性,有利于人們學習能力的提高。
(3)有助于提高人們的創(chuàng)新能力
不同知識之間可以通過知識元鏈接形成了不同的知識鏈,進而形成整個知識結構的知識網(wǎng)絡。[4]在這個知識網(wǎng)絡中,某些知識元鏈接所揭示的知識關聯(lián)可能是人們從未發(fā)現(xiàn)甚至是意想不到的一種聯(lián)系,通過分析這些知識之間的聯(lián)系有利于發(fā)現(xiàn)新的創(chuàng)新切入點。同時,在創(chuàng)新的過程中,強大的知識元網(wǎng)絡有助于人們快速、全面的了解某一領域的系統(tǒng)知識,為創(chuàng)新奠定基礎,提高創(chuàng)新能力。
以知識元為基本知識單位的知識管理,通過對知識的量級碎化管理和對知識元的整體集成管理,形成各種類型的知識元庫。知識的量級碎化管理主要是通過知識挖掘和知識抽取等相關技術將隱藏在傳統(tǒng)載體中的知識元挖掘和抽取出來,并進行聚類,形成具備不同特點的各種類型知識元。這些知識元在知識的內容表現(xiàn)上更加收斂,能夠獨立的針對某一內容進行清晰地描述,并且可以作為知識的基本單元為知識元庫的構建奠定更細粒度的知識資源基礎。知識元的整體集成管理主要是通過知識組織和知識整合等相關技術將碎化后的知識元按照各種不同邏輯進行知識關聯(lián),形成知識元之間的邏輯關系網(wǎng),同時綜合集成各種知識服務功能和知識平臺建設,構建出針對不同需求的、不同類型、不同層次的知識元庫。上述基于知識元的知識管理框架具體如圖1所示。
圖1 基于知識元的知識管理框架
知識元量級碎化管理主要是指對知識資源進行基于知識元的細粒度碎化、拆分、標引,使內容資源以不可再分割的最小單元進行存儲、聚類和展示等。知識元的量級碎化有多種方式,根據(jù)內容特征的不同,可以將知識資源碎化為數(shù)值型知識元、定義型知識元、術語型知識元等;根據(jù)知識元載體表現(xiàn)形式的不同,可以將知識碎化為文本型知識元、圖片型知識元、音頻型知識元、視頻型知識元等。碎化后各種典型知識元的主要特征如表2所示。
在傳統(tǒng)的知識載體中,多種知識元與該載體是同時綁定在一起的,對于知識元的拆分只能是用戶在瀏覽該知識載體中所包含的所有知識的過程中自行拆分。通過知識資源的知識元量級碎化管理,可以將文獻等傳統(tǒng)載體中隱藏的不同類型的知識元分離和抽取出來,實現(xiàn)細粒度知識的直接檢索和查詢,為知識的深入準確定位奠定基礎。用戶檢索的過程中,可以選擇更精確的關鍵詞與知識庫中知識元進行匹配,在很大程度上可以解決因檢索詞的含義或范圍過窄而導致在知識庫中無精確匹配項的問題。這種底層的數(shù)據(jù)結構不僅可以提高查詢速度,也提高查準率,避免模糊檢索的諸多弊端。同時,知識通過深度加工碎化為知識元后,其內容和形式都實現(xiàn)了有效的收斂,為深入分析知識之間的邏輯關系、進行精細化的知識組織和知識元庫集成管理奠定了細粒度的知識基礎。
表2 各種典型知識元
知識的知識元庫整體集成管理是以知識元為基礎和核心,通過知識關聯(lián)技術建立知識元與知識元之間、知識元與其他知識載體之間的鏈接,并綜合集成相關知識管理和知識服務功能,通過知識組織和知識整合技術建立不同層次的、面向不同用戶需求的知識元數(shù)據(jù)庫。通過知識元庫可以對碎化后的知識元進行重新組合,使不同內容特征和不同載體形式的獨立知識元按照特定的目標和邏輯關系構成一個有機的整體,從而形成面向知識精細化利用的細粒度知識集成。
根據(jù)構成層次和主要用途的不同,可以將知識元庫集成管理中所涉及的知識庫大體分為五大類型,即基礎型知識元庫、相關知識庫、學習型知識元庫、發(fā)現(xiàn)型知識元庫和創(chuàng)新型知識元庫。其中基礎知識元庫由各種基礎類型的知識元組成,它是不同層次知識元庫的最底層、最核心的知識資源基礎,也是知識元庫滿足用戶需求的必要前提;相關知識庫主要由各種與知識元相關的知識庫組成,如來源文獻知識庫、引文知識庫、關聯(lián)關系知識庫等,這些知識庫是知識元庫與其他類型知識資源庫之間重要的連接橋梁,使知識元庫在收斂的同時又具有開放性的特點;學習型知識元庫、發(fā)現(xiàn)型知識元庫和創(chuàng)新型知識元庫是建立在基礎知識元庫和相關知識庫基礎上的綜合性知識元庫,這三大層次的知識元庫可以按照用戶學習和研究過程的深入程度提供不同的知識服務。
(1)學習型知識元庫
學習型知識元庫對現(xiàn)有的顯性知識進行全面梳理和整合,將各種類型的獨立知識元按照學科、行業(yè)、應用領域、研究問題等不同的方式進行聚類,建立知識元之間的關系鏈接,形成針對某一領域相對比較完整的知識架構和體系。在學習型知識元庫中圍繞某一聚類核心,定義知識元、術語知識元、原理知識元等內容型知識元可以結合文本、圖片、音頻、視頻等不同形式的表現(xiàn)形式,全面形象的展示與該聚類核心有關的各方面知識,為學習者提供一個全面、立體、形象的知識體系,提高人們的學習效率和效果。同時,構建知識元與其他各種各類知識資源之間的相互關聯(lián),從而形成知識網(wǎng)絡,滿足人們快速了解各學科知識基本內容的需求和發(fā)現(xiàn)知識之間內容關聯(lián)的需要,促進顯性知識的整合、普及和利用。
(2)發(fā)現(xiàn)型知識元庫
知識發(fā)現(xiàn)的定義是1996年由Fayyyad等人給出的:是指從大量數(shù)據(jù)中獲得有效的、新穎的、有潛在應用價值的和最終可理解的模式的高級處理過程。[5]基于知識元的知識發(fā)現(xiàn)以知識元的內容分析為主,用規(guī)范的方法讀取知識元所包含的內容,獲取知識元中潛層或隱含的本質性信息和知識,通過對已有知識元的深入分析和加工,將大量的知識元以量化的形式表達出來,從而發(fā)現(xiàn)知識元之間的潛在關聯(lián)。
發(fā)現(xiàn)型知識元庫的關鍵是通過統(tǒng)計分析法、人工神經(jīng)網(wǎng)絡、決策樹和關聯(lián)規(guī)則等方法,對海量的知識元進行定量分析、推理分析等,發(fā)現(xiàn)知識元內部的隱性知識及知識元之間的隱性關聯(lián),推動和促進隱性知識的開發(fā)和利用。發(fā)現(xiàn)型知識元庫通過對現(xiàn)有知識的深度挖掘,可以實現(xiàn)可知知識存量的持續(xù)累積和增加,使人們對客觀世界的認識更加全面、更加深入,為創(chuàng)造新知識奠定基礎。
(3)創(chuàng)新型知識元庫
創(chuàng)新型知識元庫在發(fā)現(xiàn)現(xiàn)有知識之間潛在關系的基礎上,分析這些潛在關系的內容、性質和價值,同時綜合利用所挖掘的隱性知識和所積聚的顯性知識輔助研究人員進行科研創(chuàng)新。
創(chuàng)新型知識元庫對海量知識元數(shù)據(jù)按照研究領域、所解決的研究問題、所使用的研究方法、所使用的原始素材和資料等不同方面,進行聚類分析、時間序列分析、拐點分析等統(tǒng)計學分析,使隱藏在海量數(shù)據(jù)中的人腦很難駕馭和分析的現(xiàn)象或規(guī)律利用計算機強大的定量分析能力分析和展示出來。其中,非常重要也是十分具有挑戰(zhàn)性的工作是總結和構造不同領域的創(chuàng)新評價指標和標準,建立相對科學合理的創(chuàng)新評價體系,幫助研究人員對已有的創(chuàng)新成果進行衡量和評價,從而從中獲得持續(xù)創(chuàng)新的啟示。根據(jù)上述分析結果,研究人員可以利用人腦所特有的定性分析能力,結合自身的專業(yè)知識、研究經(jīng)驗、科研嗅覺等探索可能的創(chuàng)新切入點。創(chuàng)新型知識元庫通過輔助人們創(chuàng)造新知識,使整體的知識存量不斷增加,推進知識生命周期的不斷螺旋式上升,進而提高人們改造客觀世界的能力。學習型知識元庫、發(fā)現(xiàn)型知識元庫和創(chuàng)新型知識元庫三種主要類型的知識元庫結合人類認識和改造客觀世界的過程,不斷深入探索、挖掘和開發(fā)知識元的價值,形成逐層遞進、逐層上升的知識元結構體系。在該知識元體系中匹配相應的互動功能設計,加強用戶與知識庫之間的互操作,用戶可以按照自己的研究思路在知識元庫中進行大量數(shù)據(jù)分析,從而推動研究的進展。甚至對于自己的某些大膽猜測或突發(fā)奇想,用戶都可以通過互動功能方便的在知識元庫中進行驗證,從而激發(fā)人們的創(chuàng)新思維。
綜上所述,基于知識元的知識管理一方面可以通過知識元的量級碎化管理,細化知識粒度,提高顯性知識的利用效率和效果,另一方面可以通過知識元庫的整體集成管理對知識元進行不同層次的組織和整合,對開發(fā)困難較大的隱性知識挖掘進行有益的探索,促進顯性知識和隱性知識的綜合利用。
〔1〕何元.基于云計算的海量數(shù)據(jù)挖掘分類算法研究[D].成都:電子科技大學,2011
〔2〕張敏.數(shù)據(jù)庫安全研究現(xiàn)狀與展望[J].中國科學院院刊,2011,26(3):303-309
〔3〕付蕾.知識元標引系統(tǒng)的設計與實現(xiàn)[D].武漢:華中師范大學,2009
〔4〕姜永常.基于知識元的知識倉庫構建[J].圖書與情報,2005(6):73-14,105
〔5〕于春麗.學科服務中的知識發(fā)現(xiàn)策略研究[J].圖書館學研究,2010(7):92-94