賈倩 畢經(jīng)元 王立偉 楊玉 褚厚斌
〔摘 要〕本文探討了面向大型科研機構知識管理系統(tǒng)的設計思路與實現(xiàn)方法。首先分析了大型科研機構建立知識管理系統(tǒng)的必要性,其次根據(jù)其需求描述了知識管理系統(tǒng)應具有的特點。在此基礎上,以某大型科研機構的知識管理系統(tǒng)為例,闡述了功能組成、技術架構,并描述了關鍵模塊的實現(xiàn)方法及實際效果。
〔關鍵詞〕大型科研機構;知識管理系統(tǒng);自動采集;術語地圖;自動分類
知識管理系統(tǒng)是指組織內(nèi)管理知識的信息系統(tǒng),用于支持知識鑒別、創(chuàng)造、獲取、存儲、共享、應用等活動[1]。對于印有“高精尖”特征的大型科研機構而言,知識的積累與傳承對企業(yè)發(fā)展及人才培養(yǎng)具有極其重要的意義,而知識管理系統(tǒng)則提供了知識固化、積累、重用與共享的技術保障。盡管目前市面上涌現(xiàn)出了諸多通用的知識管理平臺,但普遍基于文檔管理與OA系統(tǒng)建設而成,對大型科研機構在知識管理方面的其他需求考慮并不充分,難免或多或少存在適用性不強的弊端。因此,充分考慮大型科研機構的特性,研發(fā)契合其實際的知識管理系統(tǒng),對提升大型科研機構核心競爭力、推進我國科研事業(yè)的發(fā)展具有重要的意義。
1 大型科研機構建立知識管理系統(tǒng)的必要性
作為承載提高國家科技水平重任的組織,大型科研機構在多年的發(fā)展歷程中積累了許多科研理論與工程實踐知識,如基礎理論、試驗數(shù)據(jù)、專利和標準規(guī)范等,這些是大型科研機構競爭優(yōu)勢的最根本也是最主要的體現(xiàn)。如果缺乏有效的知識管理手段、方法和規(guī)范,則會導致理論知識和工程經(jīng)驗在采集、重用、評價和繼承創(chuàng)新中的系統(tǒng)化應用不強,知識資源在研制部門間、項目隊伍間的共享和利用率不高,多項目并舉并且分割作業(yè)的情況屢見不鮮[2],一方面,造成了項目整體水平往往是個別部門、少數(shù)人甚至個人水平的簡單相加,而最高水平得不到充分體現(xiàn);另一方面,導致了知識資源的無謂浪費,從而一定程度上制約技術的傳承和拓展能力,影響核心競爭力的發(fā)揮。
要解決以上問題,實施知識管理是現(xiàn)實有效的重要手段。而知識管理系統(tǒng)是實施知識管理的主要載體,因此,建立契合企業(yè)實際的知識管理系統(tǒng),實現(xiàn)知識的固化、積累與傳承,以知識支撐科學技術的創(chuàng)新,對大型科研機構的發(fā)展尤為重要。
2 大型科研機構知識管理系統(tǒng)的特點
考慮大型科研機構知識資源數(shù)量大、種類多、共享敏感度高等特性,所設計的知識管理系統(tǒng)應具有如下典型需求:
2.1 具有自動化的知識采集功能
大多數(shù)大型科研機構在研發(fā)設計過程中已積累了大量的知識模板,以促進知識的規(guī)范化存儲,提高項目研發(fā)及產(chǎn)品制造效率。因此,適合大型科研機構的知識管理系統(tǒng)應具備模板自動解析功能,對于大量基于模板的知識資源進行自動提取,以實現(xiàn)知識資源的快速便捷上傳與格式化存儲,方便科研人員對知識的積累與重用。
2.2 具備隱性知識管理的功能
對于大型科研機構而言,不乏經(jīng)驗豐富、技術超群的眾多專家及學者。專家頭腦中存在著大量寶貴的隱性知識。相對于顯性知識,隱性知識更難以挖掘、管理,人員流動等原因往往容易造成隱性知識的流失。隱性知識的交流與分享不暢嚴重阻礙了科研生產(chǎn)整體水平的提高,同時也在一定程度上造成了現(xiàn)有成熟技術及經(jīng)驗的掩埋,導致了重復投入、重復開發(fā)等無謂浪費。因此,建設具有隱性知識資源管理模塊的知識管理系統(tǒng),有助于通過隱性知識資源的獲取,推動隱性知識財富的傳承,促進科研生產(chǎn)能力的提高。
2.3 具備科技術語管理的功能
大型科研機構在豐富的研發(fā)設計歷程中往往積累了本領域大量的科技術語。然而,在實際業(yè)務中,由于缺乏得力的宣傳措施以及有效的管理手段,術語的利用并不頻繁,更談不上規(guī)范。已有的術語成果不能在項目研發(fā)中發(fā)揮應有的作用,在造成大量資源浪費的同時,也無形中增加了設計人員的工作量。因此,契合大型科研機構特色的知識管理系統(tǒng)應實現(xiàn)對科技術語的規(guī)范有效管理,促使科技術語真正服務于研發(fā)設計,提高工程技術人員的工作效率,保障相關成果的科學性與嚴謹性。
根據(jù)前面章節(jié)的分析,筆者任務,適合大型科研機構的知識管理系統(tǒng)應包括知識采集、知識問答、知識利用、知識搜索、統(tǒng)計分析及安全管理等諸多模塊。其功能模型見圖1。圖1 大型科研知識管理系統(tǒng)功能設計
3.1 知識采集模塊
為Word標簽類、XML標簽等格式知識采集提供統(tǒng)一數(shù)據(jù)接口,以實現(xiàn)基于模板的知識的自動采集、在線編輯、采集過程中輕量化格式轉換及關鍵詞術語管理等功能。
3.2 知識問答模塊
實現(xiàn)專家領域信息維護、問答空間管理和問答流程管理等功能。專家領域信息維護支持用戶維護與管理員審核確認相結合的機制;問答空間管理包括問答空間配置、問答空間專家選擇、問答空間問題管理等功能;問答流程管理用于實現(xiàn)從問題發(fā)布到問題補充、問題解答、答案推薦的過程管理。
3.3 知識壽命周期元數(shù)據(jù)管理模塊
對知識資源從采集、審批、評論到版本更新、借閱、引用和綜合升級的壽命周期內(nèi)的過程信息進行記錄和管理,為知識的有效化和有效利用提供支持。
3.4 知識利用模塊
按照組件化要求對知識利用模塊進行開發(fā)和完善,包括知識樹管理、知識術語地圖、知識推薦與訂閱等功能,實現(xiàn)對知識系統(tǒng)數(shù)據(jù)庫中知識資源的多維組織和利用。知識術語地圖的建設應基于相應的本體庫,并可以庫中任意術語為根節(jié)點,進行術語體系的樹狀可視化。
3.5 知識搜索模塊
對目前關鍵詞搜索和全文搜索模塊進行性能優(yōu)化及組件化封裝,并將各項搜索功能整合為綜合搜索引擎,針對信息系統(tǒng)集成的需求開發(fā)了跨系統(tǒng)搜索接口。
3.6 統(tǒng)計分析模塊
按照知識管理制度中關于知識評分和統(tǒng)計分析的約定,對知識貢獻度和用戶參與度統(tǒng)計功能進行優(yōu)化,在此基礎上開發(fā)統(tǒng)計數(shù)據(jù)報表輸出功能。該模塊應包括知識貢獻度統(tǒng)計、參與度統(tǒng)計和統(tǒng)計報表輸出等主要功能。
3.7 安全管理模塊
針對某些大型科研機構對安全保密的要求,可實現(xiàn)知識管理系統(tǒng)的權限控制和安全保密管理。包括系統(tǒng)維護、權限管理以及信息輸出、存儲控制、防篡改、訪問控制等。
4 某大型科研機構知識管理系統(tǒng)的實現(xiàn)
A公司是擁有近兩萬名員工的大型科研機構,主要從事軍工產(chǎn)品的研發(fā)、設計與生產(chǎn)。A公司于2009年著手啟動知識管理業(yè)務,并針對本企業(yè)實際,開發(fā)了適應企業(yè)特色的知識管理信息系統(tǒng)。其知識管理系統(tǒng)整體架構見圖2,該系統(tǒng)從文檔自動采集、智能搜索、自動分類及推送、科技術語管理等諸多方面滿足企業(yè)研發(fā)設計的需要,為企業(yè)提高科研水平、增強核心競爭力發(fā)揮了重要作用。
圖2 A公司知識管理信息系統(tǒng)整體架構
該系統(tǒng)的設計與開發(fā)涉及到基于模板的知識自動采集、知識術語地圖建設、知識自動分類等多項關鍵技術,為A公司的業(yè)務能力提升發(fā)揮了重要支撐?,F(xiàn)對典型關鍵技術的實現(xiàn)方法和效果介紹如下:
4.1 基于模板的知識自動采集
知識自動采集模塊基于JACOB實現(xiàn)對基于模板的知識資源的自動解析。使用JACOB組件實現(xiàn)JAVA對OFFICE對象的調(diào)用,從而實現(xiàn)文檔的自動解析、抽取及入庫,實現(xiàn)了知識資源的高效、快速上傳。
JACOB為JAVA和COM橋接的縮寫,即JAVA-COM Bridge[3]。作為一個JAVA到微軟的COM接口橋梁,JACOB可實現(xiàn)JAVA應用程序對COM對象的訪問?;诖朔N原理,利用JACOB,系統(tǒng)可實現(xiàn)JAVA對WINDOWS中MS Word、Excel等組件的操作。因此,在本模塊中,系統(tǒng)開發(fā)了基于書簽的映射機制,如圖3所示,利用OFFICE的書簽特性,通過JACOB識別并讀取書簽內(nèi)容,實現(xiàn)文檔內(nèi)容的解析及存儲。同時,通過格式轉換組件實現(xiàn)不同類型知識向FLASH格式的統(tǒng)一轉換,在保障知識資源規(guī)范性的同時,實現(xiàn)了對知識產(chǎn)權的保護。其實現(xiàn)界面如圖4所示。
4.2 基于本體的知識術語地圖
本體(Ontology)原本是一個哲學的概念,主要研究存在的本質(zhì)[4]。自本體的概念誕生之后,便被應用到多種領域。1996年,波音公司的Michael Uschold博士提出了本體在知識工程領域最常用的概念:“本體是一套術語詞表以及術語含義的規(guī)范說明”[5],此定義也為知識術語地圖的構建提供了直接的理論指導及依據(jù)。
對于知識術語地圖而言,需要依靠本體語義來實現(xiàn)知識術語之間的動態(tài)聯(lián)系及屬性說明。本體語義的介紹如下:
假設c標識一個概念;i標識一個實例;p標識屬性;v代表明文值;vp代表該屬性的取值是明文;op代表該屬性的取值是對象或類。同時C、I、P、V、VP和OP是他們對應的集合,因此P=VP∪OP。同時w標識P上面的權重,類之間的權重由系統(tǒng)管理員設定,這個權重將會初始化該類所有實例的權重,而實例之間的權重將隨著用戶的使用自適應變化。同時該概念還滿足如下定義:
4.2.1 OWL文件
通常,本體語言提供了概念、概念之間的關聯(lián)、概念的實例等基本的建模元素。以RDF和RDFS為基礎的OWL(Ontology Web Language,Web本體語言)既有較強的本體表達能力又能進行推理,而且支持屬性的局部轄域、類不相交、類的布爾組合、基數(shù)約束、屬性的特殊性等多種特性,因此成為描述本體的最通用工具。本模塊采用OWL語言描述術語的概念、關系及實例等,主要包括了名稱空間、引用的文件、類、個體(Individual)、屬性等構成。該文件示例如下:
4.2.2 知識術語地圖
本系統(tǒng)的知識術語地圖為航天敘詞表的圖形化展示。敘詞表(Thesaurus)又稱為主題詞表,它是一種語義詞典,由術語及術語之間的各種關系組成,能反映某學科領域的語義相關概念。中國《漢語主題詞表》將詞匯間的關系歸納為“用、代、屬、分、參”結構。基于此,本系統(tǒng)中的知識術語地圖即為知識術語提供了一種高效快捷的導航系統(tǒng),用于展示不同術語之間的動態(tài)關系,協(xié)助用戶快速定位所需的知識資源。
基于本體的知識術語地圖模型如圖6所示[6],包括展示層、本體層及資源層3個層次,由以下5個元素構成。圖5 基于本體的知識地圖模型
(1)知識節(jié)點。代表從組織的工作流程中提煉出的知識對象,一個知識節(jié)點還可以分解為多個子節(jié)點,從而構成樹狀結構。一組被連接的知識節(jié)點代表一個領域知識集合或一個知識流程。本文中的知識節(jié)點即為知識術語。
(2)知識關聯(lián)。知識節(jié)點之間的連線即為知識關聯(lián),主要用于描述各知識術語之間的相互關系,用戶可以通過知識關聯(lián)了解知識領域的結構或知識的交流、演化情況。
(3)知識鏈接。在可視化界面和知識描述之間建立鏈接,通過知識鏈接,可以為用戶提供多種知識地圖的展示形式。
(4)知識描述。在通過展示層了解整個知識領域的結構和應用背景后,可以通過知識描述來了解單個知識節(jié)點的內(nèi)容、結構、使用條件等信息。
(5)RDF。RDF(Resource Description Framework,資源描述框架)通過描述知識資源的屬性及屬性值,為知識資源提供了定義元數(shù)據(jù)的能力。
在將OWL文件定義完畢之后,本系統(tǒng)利用本體編輯工具Protégé構建知識本體模型。Protégé由Stanford Medical Informatics開發(fā),是一組自由開源的工具軟件,包括眾多的插件,較好的支持多項標準,并支持OWL。友好的界面使得用戶只需在概念層次上進行領域本體模型的構建,且支持中文。本系統(tǒng)構建的術語庫模型見圖6。圖6 知識術語庫模型
術語庫建立完畢后,即為術語展示提供數(shù)據(jù)支撐。當用戶針對關注的術語發(fā)起查看請求時,系統(tǒng)將通過查找術語庫,將術語及術語屬性組織到圖形展示控件prefuse的數(shù)據(jù)對象中,并通過applet將知識術語圖譜顯示在前端頁面。
4.3 知識自動分類
該模塊通過對入庫的知識資源進行屬性解析及分類樹節(jié)點匹配,實現(xiàn)知識資源的自動分類。在減輕了技術人員工作量的同時,提高了知識分類的準確性與高效性。
目前,針對中文的分類算法主要包括以下幾種,樸素貝葉斯分類(Naive Bayes)、向量空間模型(Vector Space Model)、決策樹、K-近鄰分類法以及線性最小二乘LLSF(Linear Least Square Fit)等。其中,樸素貝葉斯算法是在貝葉斯模型的基礎上改進生成,在汲取貝葉斯模型諸多優(yōu)點的同時,克服了其受節(jié)點數(shù)量和節(jié)點間關系復雜性影響大的缺陷,與其他分類方法相比,樸素貝葉斯算法具有結構更簡單、效率更高的特點,同時能夠在分類性能和分類效率間取得較好的折衷,因此,本模塊將選擇樸素貝葉斯分類算法實現(xiàn)知識資源的自動分類。
將匹配度結果從高到底進行排序,如果存在匹配度高于預定閾值的分類節(jié)點,獲取匹配度最高的分類節(jié)點ID值,在數(shù)據(jù)庫中將該知識資源的類別字段置為該ID,如果不存在匹配度高于預定閾值的分類節(jié)點,系統(tǒng)將為該知識資源各知識屬性生成新的類別ID值,并將所屬類別字段置為該ID。自動分類的實現(xiàn)界面見圖9。圖9 自動分類實現(xiàn)界面
5 結 論
本文針對大型科研機構的需求,構建了可支撐其研發(fā)和設計的知識管理系統(tǒng)。該系統(tǒng)有效彌補了市面上通用的知識管理系統(tǒng)在處理大型科研機構特殊需求時面臨的不足,實現(xiàn)了知識資源的采集、分類、搜索、利用、統(tǒng)計的全壽命周期管理,同時采用模塊化、組件化的設計方式,使系統(tǒng)具有簡單、靈活、易擴展、可重用等特點,為大型科研機構中大量知識資源的積累、固化與重用提供了技術保障。
參考文獻
[1]中華人民共和國國家標準GB/T 237032—2010 知識管理 第2部分:術語.
[2]李瑞,李永剛.Java中基于JACOB的COM組件調(diào)用研究[J].微計算機信息,2007,24(5):168-170.
[3]史冊.基于Ontology領域知識模型的高校研究生個性化信息服務研究[J].同濟大學經(jīng)濟與管理學院,2007.
[4]Neches R,F(xiàn)ikes R E.Finin T et al.Enabling technology for knowledge sharing[J].AIMagazine,1991,12(3).
[5]潘有能,丁楠.基于本體的組織知識地圖構建研究[J].情報科學,2008,26(12):1856-1860.
[6]陳彥萍,魏璐璐.基于OWL的旅游領域本體的構建[J].西安郵電學院學報,2011,16(1):78-82.
(本文責任編輯:孫國雷)