郭 韌,謝雨杉
(1.華僑大學工商管理學院,福建 泉州 362021;2.吉林大學管理學院,吉林 長春 130022)
知識及其主體間的交互、合作、聯(lián)接構(gòu)成了知識創(chuàng)新網(wǎng)絡。各主體的知識在結(jié)構(gòu)、表達上存在著差異性,影響著其吸收和應用,導致知識網(wǎng)絡中雖存在大量的知識,卻不能被有效利用的現(xiàn)象。把知識變成各主體可接受的形式,積累和產(chǎn)生新的知識,可以提高創(chuàng)新網(wǎng)絡的效益。如何將知識分解融合為可被創(chuàng)新主體利用的知識,以及如何由知識的相互作用形成新的知識已成為各個領域關注的焦點。
YAGER 等人(1997)利用模糊度量的概念,建立了考慮了多個信息源的融合問題[1];XIE 等人(2005)在信息集成的基礎上,建立一個XML 數(shù)據(jù)知識融合模型和KF-based信息訪問架構(gòu)[2];SAWARAGI 等人(2002)提出了一種將人類專家的數(shù)據(jù)和知識融合在信號理解任務中進行部分自動化的新方法[3];SMIRNOV 等人(2015)進一步研究了基于上下文的知識融合模式[4];狄強(2017)設計實現(xiàn)了對網(wǎng)頁語義數(shù)據(jù)的抽取,知識的鏈接、擴展和融合[5]。知識融合涉及的領域廣泛,在不同的應用領域各有特點,基于流程化的視角尋求研究的簡單歸一化和全面高效化,現(xiàn)有的研究中對融合規(guī)則的定義和流程化算法較少。很難從效率和實用性進行比對,挑選出最適合相應場合的融合算法。在典型流程化算法的基礎上,基于匹配規(guī)則的融合算法更具有實際操作性。
知識因子是知識創(chuàng)新網(wǎng)絡下的最小單位,通過知識因子融合可以產(chǎn)生新的知識,新的知識加入知識創(chuàng)新網(wǎng)絡等待下一次與其他知識結(jié)合產(chǎn)生新的知識,在不斷融合的動態(tài)過程中體現(xiàn)知識創(chuàng)新網(wǎng)絡的價值。網(wǎng)絡中樞組織與網(wǎng)絡附屬組織在知識架構(gòu)平臺上共享知識資源,并就此開展一系列的知識管理和知識創(chuàng)新行為。知識創(chuàng)新網(wǎng)絡不僅包括知識因子,還包括知識之間溝通交流的通道——知識架構(gòu)平臺以及整個知識創(chuàng)新網(wǎng)絡的知識資源總和。知識通過知識架構(gòu)平臺共享交流,原有的和生成的知識資源集合在一起稱為知識資源總和[6]。
把來自不同主體異構(gòu)性的知識進行組合、轉(zhuǎn)化并融合,產(chǎn)生易于流動和符合要求的新知識[7]。不僅可以實現(xiàn)知識集成化與協(xié)同工作、提高知識品質(zhì),還有益于新知識的發(fā)現(xiàn)。知識融合是多要素作用的系統(tǒng)過程,一般包括4 類數(shù)據(jù)模型,即知識源(存儲知識的實體)、知識表達(如本體、元知識等)、融合算法集合與規(guī)則集合以及吸收先驗知識后不斷更新的約束集。主要包括三個功能模塊,分別為知識的表達、融合算法的設計與實現(xiàn)和解知識空間。通過知識融合技術,將知識網(wǎng)絡中海量的知識,變成能夠真正滿足用戶需求的知識,提高網(wǎng)絡服務的效能。概念化表示為KF=〈KN,UN,O,M,R,f〉,其中,KN表示知識創(chuàng)新網(wǎng)絡,是知識融合依賴的環(huán)境;UN表示用戶需求,知識的融合實際上是尋找知識對象,或者是一組知識對象,使他們能夠盡可能地滿足需求;O表示知識融合過程中知識的表達方式,是對知識單元的刻畫與描述;M表示知識對象之間的比較項;R表示融合過程的一切規(guī)則,如匹配規(guī)則和約束規(guī)則;f是函數(shù)化表示的融合過程。
融合知識是以不同創(chuàng)新情景中的需求UN為基礎,通過知識要求組織融合知識元。需要經(jīng)過刻畫本體或元知識O才能消除由于異構(gòu)性產(chǎn)生的摩擦。M與R共同作用下可以判定出知識元之間是否可以融合,M提供比較量度,R提供準則,判定為可以融合的知識將通過函數(shù)f實現(xiàn)融合過程。
本體論是對某一概念化對象明確的描述性說明,知識以其所屬領域為主導。領域本體是與特定領域有關的術語和詞匯,具有良好的共享性、可重用性,在概念領域具有優(yōu)良的特性,為邏輯推理提供了有效支持。知識網(wǎng)絡本體庫O中可被理解與識別的本體對象Oi為:
式(1)中:為知識對象的類;為知識對象的屬性;為知識對象的值;為數(shù)據(jù)類型。
j的取值范圍取決于具體的領域本體。本體對象很難直接在知識本身層面上進行操作,元知識通過數(shù)字量化形式更方便地進行知識表達。采用知識對象結(jié)合二元組集合的方式,知識對象的特征由元知識二元組的形式表現(xiàn),更適合進行知識對象的融合處理。
將位于第k個知識庫中的元知識集記為Sk,該元知識集的第i個特征對象屬性記作,該對象屬性的值記作,被定義為知識對象中的元知識,元知識集表示為:
知識創(chuàng)新網(wǎng)絡中知識對象的數(shù)量、內(nèi)容都存在一定差異,Sk的大小也會有所差別,為了實現(xiàn)元知識集到知識空間的轉(zhuǎn)化,需要識別出元知識指向的是哪個知識單元,元知識集的第一個元素只用來表示對應的知識本體,而不代表具體特征。
對于異構(gòu)知識元,要么將知識對象都轉(zhuǎn)換為特定的表示形式,要么構(gòu)造一種元知識生成算法,使不同知識對象自動用對應的算法進行處理。后者將差異性保留到了融合過程中,會對算法造成一定的局限;而前者的特征描述在融合步驟前就以統(tǒng)一的形式出現(xiàn),有利于提高融合效率。將知識對象都轉(zhuǎn)換為特定的表示形式,再生成元知識。
元知識攜帶著所屬知識單元的特點和主要內(nèi)容,是知識融合過程的參與者??梢詮闹R中抽取出來的關鍵詞,也可以利用人為的手段通過標注提煉出來。為消除知識創(chuàng)新網(wǎng)絡的封閉性、網(wǎng)絡性,用“信息協(xié)同標注”來分析元知識匹配度及關聯(lián)度可以達到對知識對象序化的目的。標注是知識提供者或知識網(wǎng)絡的管理人員對知識單元內(nèi)容基于個人立場的簡明概括。通過測序操作使知識單元按照相關性排列,從而使標注后的知識單元可以實現(xiàn)知識對象之間的融合。參與人員一般會從多個視角選擇最符合知識單元的標注來描述知識對象。參與人員評判標準的統(tǒng)一性,可以避免重復、模糊等不規(guī)范標注的產(chǎn)生。知識創(chuàng)新網(wǎng)絡中的知識是專家頭腦智慧的集合,集中協(xié)同標注機制下,不僅集合了單個專家的智慧,還集合和發(fā)揮了專家群體智慧[8]。標注后的知識需要進行下一步的融合,利用協(xié)同標注生成元知識。
元知識構(gòu)建的偽碼如下:①生成知識對象的本體對象,根據(jù)標準轉(zhuǎn)換成特定的表示形式;②利用集中式協(xié)同標注生成元知識集中除去第一個元素外的剩余(n-1)個元素;③根據(jù)知識對象與本體概念的對應關系,生成元知識集的第一個集合元素若沒有在①中找到相應的描述,則新建此本體對象或關系描述后再執(zhí)行①。
元知識作為知識的一種標記,是知識屬性和值的體現(xiàn)。知識融合中,經(jīng)過了融合算法的處理,知識才可以進行比較、合并、協(xié)調(diào)。有兩個簡單的知識K1 與K2 可能存在很大的異構(gòu)性,可能屬于不同的學科和領域,但當應用于某一實際問題時,兩者之間通過融合,形成了對解決問題有幫助的新知識f(K1,K2),生成的新知識規(guī)范化后加入到現(xiàn)有的知識創(chuàng)新網(wǎng)絡中,同時可能需要對現(xiàn)有的知識K1 與K2 做適當?shù)母?,而f的實現(xiàn)過程就是融合算法的設計過程。
從融合的動因上看,知識融合可以分為主動型與被動型融合,主動型不需要以具體問題求解為驅(qū)動力,融合結(jié)果可能恰好滿足需求,是一種自演化過程。由于知識創(chuàng)新網(wǎng)絡實際上是一種服務型知識網(wǎng)絡,為一定的創(chuàng)新目標服務。知識創(chuàng)新網(wǎng)絡通常是在用戶的需求基礎上,根據(jù)指令進行演化和融合,是一種被動型的融合過程,融合算法中的規(guī)則是提前定義好的,以問題求解為導向的融合算法。
從實現(xiàn)方法上看,構(gòu)建基于匹配規(guī)則的融合算法,精確地實現(xiàn)知識的融合,計算對象是元知識。在元知識層面的匹配通過關系連接的算法得以實現(xiàn),對應于兩個知識本體的匹配就是一個關系全連接的過程。通過在匹配器中的運算,識別出兩者的相似度,當高于相似度閾值時被選中,否則忽略。
3.2.1 匹配函數(shù)與匹配規(guī)則
協(xié)同標注后,用模式匹配函數(shù)將元知識的相似關系進行定量地描述和表示,設X1、X2為兩個待匹配的知識本體,x1、x2分別為其元知識集,p為兩元素之間的匹配度。表示元知識x1和x2的匹配度為p。相似度需要通過匹配規(guī)則進行確定,知識表現(xiàn)為元知識集的形式,即BERNSTEIN 等人(2001)給出了一個用語義和結(jié)構(gòu)兩種匹配來確定相似度的通用匹配規(guī)則[9],章勤等人(2006)還使用了XML Schema 的匹配規(guī)則[10]等,在一定程度解決了地理、語句等方向的語義、結(jié)構(gòu)等匹配問題。在知識創(chuàng)新網(wǎng)絡中,知識統(tǒng)一由元知識表示,不存在結(jié)構(gòu)無法匹配的問題,在于語義部分是否匹配,設置知識融合的匹配規(guī)則如下。
規(guī)則1:若元知識集Si,Sj的第一個元素與具有相同的公共子串St,則Sim1(Si,Sj)=length(St)/max[length(Si),length(Sj)],其中,length(St)為求字符串St的長度。
規(guī)則2:若元知識集Si,Sj第一個元素與是同義詞,則Sim2(Si,Sj)=1,否則,Sim2(Si,Sj)=0。規(guī)則2 需要同義詞庫,需要根據(jù)知識創(chuàng)新網(wǎng)絡的特征進一步建立。
規(guī)則3:計算元知識集Si,Sj的除去首元后的知識間相同屬性比值,即:
規(guī)則4:若知識Si,Sj有相同的取值范圍,則Sim4(Si,Sj)=1,否則,Sim4(Si,Sj)=0。
規(guī)則5:若知識Si,Sj有相同的數(shù)據(jù)類型,則Sim5(Si,Sj)=1,否則,Sim5(Si,Sj)=0。
前3 條規(guī)則是基于語言方面,得到的相似度用L表示,后兩條的匹配規(guī)則是約束層面的規(guī)則,用C表示,由于知識創(chuàng)新網(wǎng)絡的領域有所差別,用戶的需求也可能對規(guī)則的需求有所不同,例如某些領域比較注重語言層面的規(guī)則,約束層面的規(guī)則可忽略不計,按照用戶的需求為兩類規(guī)則設定權值W,WL與WC分別表示用戶設定的語言層面規(guī)則權值與約束層面規(guī)則權值,約定WL+WC=1。相似度加權合并后,元知識x1和x2的匹配度為
3.2.2 構(gòu)建KFA-M 方法
知識創(chuàng)新網(wǎng)絡具有異構(gòu)性,語義邏輯關系之間不能直接協(xié)同工作,雖實現(xiàn)了知識對象的開放式構(gòu)建,但對知識個體間的內(nèi)在關系稍欠考慮,就導致一些匹配度不夠的知識對象出現(xiàn)在結(jié)果中。基于協(xié)同標注與匹配規(guī)則,匹配度是可衡量的、量化參與比較的兩者能否匹配的標準。各知識由元知識表達,可量化其匹配度,構(gòu)建基于匹配規(guī)則的融合方法KFA-M(Knowledge Fusion Algorithm—Matching)。被動融合過程中,KFA-M 算法借助值域為[0,1]的語義貼近度函數(shù)來尋求最優(yōu)化搜索目標,根據(jù)匹配規(guī)則計算出關聯(lián)度達到閾值的知識進行融合。KFA-M 算法偽代碼如下。
初始化知識對象集合S,將元知識規(guī)范化,作為元素納入到S中;
初始化St=φ;
for(i=1,i≤n,i++)
for(j=1,j≤i,j++)
對?KOi∈(S-{KOi}),判定KOi與KOj與之間匹配度大于閾值,則進行下一步處理,可分為3 種情況。
第一,KOi與KOj的同一屬性具有相同的屬性值,提取相同部分,作為處理結(jié)果。此法可提取知識間相同的屬性及其屬性值,得到具有歸一性和代表性的新知識。
第二,KOi與KOj的同一屬性具有相同的屬性值,剔除相同部分的屬性,將不同屬性提取出來頭尾拼接成為新知識對象個體的屬性描述。探索去除掉相同屬性值后的知識對象在拼接后是否會成為新的知識,具有新的特性。
第三,KOi與KOj的同一屬性具有相同的屬性值,剔除相同部分,差異部分各自保留,作為處理結(jié)果。探尋具有差別的兩知識是否會更新產(chǎn)生與原知識完全不同的新知識。
處理過程中,若產(chǎn)生了新知識對象KOnew,則(S∪{KOnew})→S;繼續(xù)循環(huán)執(zhí)行上述步驟,直到對?KOi∈(S-{KOi}),KOi與KOj之間不具有超過閾值的匹配度關系;(S∪{KOi})→St,跳轉(zhuǎn)到第三繼續(xù)執(zhí)行,直到S=?。
在分類研究中短文本相似計算匹配度超過0.6 時可分類準確率可達100%[11];知識比一般文本或數(shù)據(jù)的融合潛在價值高,匹配度較低的知識也可能融合成有價值的知識,在此算法中匹配度的閾值設為0.5。生成的St滿足匹配度大于設定閾值的條件,則將St定義為知識狀態(tài)。St與滿足約束條件的知識集合相對應。知識狀態(tài)St是圍繞著需求的約束而形成的,St可以作為知識空間的求解單位。
在知識融合框架中,經(jīng)過融合算法處理后的結(jié)果是以元知識集的方式表示的,每一組具體的描述對應一個知識對象個體,每一個個體視為一個節(jié)點。全體知識對象節(jié)點組成的集合為解知識空間,記作K,K中的知識域由描述知識狀態(tài)相關或不相關的問題本體組成。知識狀態(tài)是根據(jù)具體問題生成的,在問題求解時可直接使用知識狀態(tài)為問題提供解知識。具體做法如下。
第一,按照問題對象知識對應的本體Op生成元知識Sp。
第二,對于所有與問題狀態(tài)相關的知識狀態(tài)St,在K中搜索與問題狀態(tài)關聯(lián)度最大的知識狀態(tài)StMAX。計算每一個與問題本體關聯(lián)的知識狀態(tài)的關聯(lián)度γ,并選出關聯(lián)度最強的知識狀態(tài),偽代碼如下。
第三,若StMAX對應的關聯(lián)度γ大于等于關聯(lián)度閾值(0.5),則該知識狀態(tài)St與其對應的本體一起構(gòu)成了該問題的解知識。將知識對象演化過程中各個知識節(jié)點間的關聯(lián)度(0~1 之間的數(shù)字)通過矩陣的方式排列,得到了一個矩陣變換描述:知識節(jié)點的初始狀態(tài)矩陣為A,全局演化矩陣為B,第n次演化的矩陣為Bn,B=B1B2B3…,演化結(jié)果狀態(tài)矩陣為R,AB=R。為計算簡便,A為上三角矩陣形式。由于B是A演化得來,B也符合上三角矩陣的特征:
而bij∈(0,1)得到結(jié)果狀態(tài)R之后,矩陣中的元素則表示知識節(jié)點的演化狀態(tài)。如果大于閾值,則坐標對應的兩節(jié)點可以進行歸約處理,歸約的目標由各自的對角元決定。若其中一方以上的對角元節(jié)點取值rii小于湮滅閾值,則該節(jié)點進入湮滅狀態(tài),進入湮滅狀態(tài)的知識對象表明其內(nèi)涵已經(jīng)無法支持需求且被使用的頻率過低,可以被淘汰。
知識創(chuàng)新網(wǎng)絡中知識利用的有效性是網(wǎng)絡性能的重要體現(xiàn),異質(zhì)性知識通過分解和融合能讓更好地為主體吸收和利用。針對知識創(chuàng)新網(wǎng)絡的特性通過本體和元知識表達知識創(chuàng)新網(wǎng)絡中的異構(gòu)知識簡化了知識的結(jié)構(gòu),計算匹配度來確定知識之間的關聯(lián)程度,提出了新的融合算法——基于匹配度的融合算法KFA-M;構(gòu)建了解知識空間的概念模型,歸納了解知識空間的演化過程,為解決知識創(chuàng)新網(wǎng)絡中的知識融合提供了一定的參考借鑒。
但在匹配度計算時權重需要人為設定,較易產(chǎn)生匹配度的誤差。解知識空間僅提出了相應的演化模型,知識創(chuàng)新網(wǎng)絡的不斷更新,尚未使知識融合達到系統(tǒng)自適應的階段。后續(xù)的研究將進一步分析演化的規(guī)律構(gòu)建系統(tǒng)反饋與評估機制,對于知識融合步驟基本完成后根據(jù)實際效果得到反饋,并作用于知識創(chuàng)新網(wǎng)絡,以便使其更加穩(wěn)定。