林 碩,趙 震
(渤海大學 信息科學與技術(shù)學院,遼寧 錦州 121013)
傳統(tǒng)的知識融合一般是靜態(tài)的,在固定的應(yīng)用場景下,以人為應(yīng)用主體的知識融合的過程。然而21世紀是一個信息爆炸的時代,每天都有無數(shù)條信息流入網(wǎng)絡(luò)中,傳播較為迅速。這些傳遞的信息是多元化的,而且缺乏統(tǒng)一的描述規(guī)則,給不同領(lǐng)域的信息獲取和管理帶來了很多挑戰(zhàn)。通過信息抽取,實現(xiàn)了從非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中獲取實體關(guān)系及屬性,然而,這些結(jié)果中可能存在大量的冗余和錯誤信息,因此,需要對其進行清理和融合。如何快速、準確地獲取信息,讓融合后的知識可以更好地滿足不同需求的用戶,且形成特定問題的領(lǐng)域知識庫已成為現(xiàn)階段研究的重點。知識融合是在信息融合的基礎(chǔ)上發(fā)展起來的一個新的概念,它可以看成是信息融合的高級領(lǐng)域。該文的主要貢獻如下:
(1)對國內(nèi)外研究現(xiàn)狀進行了歸納整理并對語義規(guī)則、貝葉斯網(wǎng)絡(luò)等知識融合算法進行了總結(jié),對所用算法的目的和未來研究方向進行了描述。
(2)對知識融合模式及框架進行了綜述,并詳細討論了機器學習方法、深度學習方法等知識融合的前沿方法。
(3)深入分析知識融合應(yīng)用狀況及現(xiàn)階段面臨的挑戰(zhàn),提出未來研究方向,為知識融合相關(guān)研究提供參考。
總體框架如圖1所示。
圖1 總體框架
如圖2所示,在中國知網(wǎng)數(shù)據(jù)庫中,對關(guān)鍵詞“知識融合”進行模糊檢索,共檢索1 721篇文獻。自從2002年中國首次發(fā)表知識融合的論文以來,關(guān)于知識融合的相關(guān)研究不多,說明很長一段時間學者們對此的研究不夠。2015年至今,知識融合的相關(guān)研究已經(jīng)引起了學者們的關(guān)注,文獻數(shù)量逐漸增加,但還沒有到達頂峰,說明現(xiàn)階段知識融合已成為熱門的研究方向。國外知識融合的研究最早出現(xiàn)在20世紀80年代后期。語義規(guī)則、貝葉斯網(wǎng)絡(luò)、D-S理論方面的融合算法是國外研究的重點。國內(nèi)研究主題圖、模糊理論等方面,除此之外還對國外研究的各個方面進行了深入分析。
圖2 知識融合研究趨勢
G Jin等[1]在語義規(guī)則方面提出一種基于GA和語義規(guī)則的知識融合算法,提出調(diào)整參數(shù)和優(yōu)化融合的反饋機制,融合的結(jié)果被結(jié)構(gòu)化地存儲在一個知識空間中。緱錦等[2]利用語義規(guī)則將知識對象分類處理,將其轉(zhuǎn)換為對應(yīng)的本體描述和元知識集。整個框架總體采用分布式結(jié)構(gòu),具有很好的可擴充性、很強的安全性和實用性以及比較低的誤警率。結(jié)果表明,提高了知識對象的可重用性和融合的正確率。
貝葉斯網(wǎng)絡(luò)是研究不確定性知識表達和推理的有效方法,已成為人工智能領(lǐng)域研究的熱點之一。基于貝葉斯模型的方法在知識為真時的先驗概率和從數(shù)據(jù)源觀察到的條件概率都已知的情況下,求出知識為真的后驗概率。后驗概率最大時對應(yīng)的知識就是要找的正確知識[3]。Santosl等人[4]在貝葉斯網(wǎng)絡(luò)方面,將多個貝葉斯融合成單個貝葉斯,更容易聚合和分解多個源的信息,解決了專家對關(guān)系權(quán)重意見不一致的問題。張玉潔[5]提出了一種不需要原始數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)融合方法,在已有的貝葉斯網(wǎng)絡(luò)融合方法的基礎(chǔ)上,利用評分機制,得到最終的融合結(jié)果。張振海等[6]使用K2算法來學習貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。根據(jù)貝葉斯定理,如公式(1):
(1)
其中,p(Sh)表示網(wǎng)絡(luò)結(jié)構(gòu)的先驗概率,p(C)表示與結(jié)構(gòu)無關(guān)的常數(shù),p(Sh|C)表示邊界似然。通過收集不同專家的意見,使用證據(jù)理論排除無意義的因果關(guān)系,減小搜索空間,提高算法的學習效率。結(jié)果表明,基于專家知識融合的貝葉斯網(wǎng)絡(luò)構(gòu)造方法利用專家知識限制學習算法的搜索條件,有效地縮小了搜索空間。
D-S證據(jù)理論的方法是融合不同觀測結(jié)果的信任函數(shù),得到基礎(chǔ)概率分配后,再選擇最大支持度的假設(shè)作為最優(yōu)判斷,從而選擇認為正確的知識。D.Andrade等[7]在D-S理論方面研究了3個組合規(guī)則,包括原始的D-S規(guī)則、墨菲規(guī)則和基于非精確狄利克模型的規(guī)則。結(jié)果表明,前兩者有匯聚的能力,而后者具有數(shù)據(jù)挖掘的能力。Sun等[8]利用知識融合方法D-S理論,對野生鳥類禽流感H5N1病毒全球空間的風險估計進行整合。韓立巖等[9]提出一種新的融合方法:D2S(Dempster2Shafer)證據(jù)理論。利用模糊的概念,選擇一個函數(shù),根據(jù)估計方法將計算出的數(shù)值與閾值的差值,轉(zhuǎn)換為[0,1]之間的數(shù)字,此數(shù)字代表企業(yè)失敗的概率。結(jié)果表明,提高了企業(yè)失敗估計的準確性。
簡單來說,就是根據(jù)圖上的一組現(xiàn)有的邊,預(yù)測其他邊存在的可能性。王海棟等人[10]提出了一種置信度理論知識融合模型,使用自動校正機制,更好地表現(xiàn)置信度的客觀性,加強了在不確定性方面處理的缺點,解決了實體融合過程中信息歧義的問題。魯慧民等[11]提出一種面向多源知識的融合算法。從語法、語義和語用三個方面計算相似度,并考慮了概念結(jié)構(gòu)和語境的相似性。結(jié)果表明算法在查準率(Precision)、查全率(Recall)和F值(F-measure)均有所提升。評價標準如公式(2)所示:
(2)
其中,PN是通過人工比對認為應(yīng)該融合的元素對數(shù),AN是算法判定應(yīng)該融合的元素對數(shù),RN是各元素中正確的元素對。模糊集理論的方法是在D-S證據(jù)理論的基礎(chǔ)上工作的。
模糊集理論的方法在D-S證據(jù)理論的基礎(chǔ)上,進一步放寬了貝葉斯模型的限制條件[12-13]。目前應(yīng)用較為廣泛的方法是基于模糊積分的方法[14]。模糊積分是一個非線性函數(shù),可以完成質(zhì)量評估,找到置信度最高的知識作為正確的知識。Yin等人[15]設(shè)計一種基于粗糙集算法的知識融合模型,可以自動實現(xiàn)復(fù)雜表面零件制造過程的質(zhì)量預(yù)測。模型降低了數(shù)據(jù)的不確定性,從而提高了產(chǎn)品的質(zhì)量。周芳等[16]在知識融合中借鑒了信息融合的想法,用基于模糊集理論的方法對多源知識進行融合。結(jié)果表明,該工作提高了企業(yè)失敗預(yù)警判別的確定性。
國內(nèi)外研究現(xiàn)狀對比如表1所示。雖然學者們對知識融合有著不同的出發(fā)點,但是本質(zhì)都是為了使知識能夠最大化的被利用。
表1 國內(nèi)外研究匯總
知識融合是實時地融合和處理多源的信息來創(chuàng)造新的知識的過程,包括實體鏈接和知識合并兩部分。一個典型的知識融合系統(tǒng)應(yīng)該提供以下三種基本服務(wù)[10]:
(1)知識定位服務(wù):供用戶或其他組件在網(wǎng)絡(luò)上定位相關(guān)知識。
(2)知識轉(zhuǎn)換服務(wù):將異構(gòu)知識資源轉(zhuǎn)換為統(tǒng)一的語言或本體表示。
(3)知識融合服務(wù):對知識資源進行組合和處理,合并、簡化知識,找出滿足某種條件限制的解決方案。
其中具有代表性的框架是Preece AD的KRAFT(Knowledge Reuse and Fusion/Transform)[17],如圖3所示。將知識融合定義為從多個異構(gòu)的資源中對相關(guān)的知識進行定位和提取,將其轉(zhuǎn)換為統(tǒng)一的知識模式,使融合的知識能夠解決實際問題。
(1)UA:用戶為消費者。
(2)W:為系統(tǒng)和KRAFT代理接口提供橋梁。例如:關(guān)系數(shù)據(jù)庫的傳統(tǒng)接口是SQL/ODBC,KRAFT中的W會接受來自KRAFT中其他代理的請求信息,將其轉(zhuǎn)換為SQL語句并在數(shù)據(jù)庫上運行,最后返回結(jié)果。
(3)M:每個M從其他代理獲取知識,是知識融合的核心。
(4)F:建立服務(wù)請求,每個KRAFT網(wǎng)絡(luò)中至少有一個F。
(5)R:服務(wù)資源,包括數(shù)據(jù)庫和知識庫。
F根據(jù)W提供的信息去尋找匹配的M進行連接。當連接是從W到M時,M進行知識轉(zhuǎn)換;當一條路徑上有多個M,或同一M在多條路徑上時,進行知識融合。當連接是從UA對應(yīng)的從W到M時,M會用統(tǒng)一的知識模式提供給UA[18]。
圖3 KRAFT結(jié)構(gòu)
2.1.1 實體鏈接
實體鏈接是指通過對本體庫中名字是否具有相同含義來判斷實體是否相對應(yīng),或者名字不同的實體是否能夠表達同一個含義。實體鏈接又包含實體消歧和共指消解兩部分[19]。
(1)實體消歧。
例如“張藍心”這個單詞(指稱項)可以對應(yīng)于作為演員身份的張藍心這個實體,也可以對應(yīng)于模特身份的張藍心這個實體,還可以作為國家跆拳道選手身份的張藍心這個實體。通過具體語境,對實體進行消歧。重點在于計算描述的詞匯與實體之間的相似度。
(2)共指消解。
共指消解是解決多個詞匯(指稱項)對應(yīng)同一個實體的問題。例如某文中提到“唐納德·特朗普”,“川普”,“特朗普”指向的是同一個實體,其中如“他”、“他的”,都有可能指向這個實體。將這些指稱項通過共指消解,合并到正確的實體對象中。
2.1.2 知識合并
知識合并包括外部知識庫和關(guān)系數(shù)據(jù)庫。
(1)外部知識庫:包括數(shù)據(jù)層面和模式層面。
(2)關(guān)系數(shù)據(jù)庫:將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)轉(zhuǎn)換成三元組。
為了解決知識共享問題,將知識融合分為多個層次,可以更好地解決實體的屬性、關(guān)系以及概念的重復(fù)等問題。周利琴[20]從知識表示的角度,將網(wǎng)絡(luò)知識模式分為實例、關(guān)系、域集、屬性和概念融合。其中實例融合是對實體對象進行去重與合并,從而產(chǎn)生新的實例。域集融合是在實例融合的基礎(chǔ)上產(chǎn)生的。關(guān)系融合是對多源知識的關(guān)系進行對比分析,與屬性融合是相互作用的。概念融合則是根據(jù)每一次產(chǎn)生新的知識概念來實現(xiàn)的。
知識融合框架是進行知識融合的開端,為各個模塊提供方向。因為知識融合的復(fù)雜性,需要對特定問題制定專門的框架,現(xiàn)在國內(nèi)還沒有統(tǒng)一的知識融合框架。徐賜軍等[21]設(shè)計了基于本體的知識融合框架,實現(xiàn)對元知識集進行構(gòu)建、知識的測量標準、包含融合算法的設(shè)計以及融合后處理等功能??梢詼p少融合的規(guī)模,提高準確性。陳思華等[22]提出一種文化算法框架,采用兩階段遺傳算法,包括編碼階段和融合階段。從兩個層面對知識進行優(yōu)化的知識融合策略,用啟發(fā)式規(guī)則進行表示。謝能付[23]提出的框架包括知識聚類模塊、評估模塊和融合模塊。
JointDirectors of Laboratories (JDL)由美國國防部在1986年首次提出[24],主要用于軍事領(lǐng)域。JDL的融合框架如圖4所示。
圖4 JDL的融合框架
機器學習方法是一個比較熱門的研究主題,是計算機科學和人工智能的一個分支學科。在知識融合領(lǐng)域也可以應(yīng)用各種機器學習方法。可以根據(jù)訓練樣本是否有輸出值,將機器學習方法分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習。監(jiān)督學習是機器學習中的一種訓練方式,監(jiān)督學習(Supervised Learning)中的常用方法為SVM、決策樹、集成學習等。
3.1.1 監(jiān)督學習3.1.1.1 SVM
SVM(Support Vector Machine)是一種二分類模型,通過找到間隔最大的超平面來對數(shù)據(jù)進行分類,可以轉(zhuǎn)換為一個凸二次規(guī)劃問題進行求解。Park等人[25]提出了一種基于分數(shù)級融合的虹膜識別方法。使用兩個Gabor波濾器用于局部和全局虹膜處理,用SVM融合了由Gabor波濾器計算出的HD(Hamming Distance)。SVM表示成公式(3):
(3)
其中,k表示數(shù)據(jù)的數(shù)量,yi∈{-1,1}表示訓練樣本xi的類標,?i表示求解二次規(guī)劃問題的線性約束條件,b表示偏置。利用核函數(shù)將SVM擴展到非線性決策面。結(jié)果表明,降低了由此產(chǎn)生的認證誤差。
一般來說,虹膜識別精度取決于Gabor波濾器的大小、頻率和振幅的選擇。文中為了減少時間和復(fù)雜的操作,使用了傳統(tǒng)的1D Gabor,如公式(4)、公式(5):
(4)
(5)
其中,A表示Gabor過濾器(G(x))的振幅,σ和u0分別表示Gabor波濾器的大小和頻率,x0表示移動量,DC=0表示將波濾系數(shù)歸一化為0。
3.1.1.2 決策樹
決策樹(Decision Tree)有分類樹和回歸樹。根據(jù)損失函數(shù)最小化原則建立決策樹模型。Elfeky等[26]在TAILOR工具包中實現(xiàn)了一種ID3決策樹算法,TALOR是一個記錄鏈接工具箱。用戶可以調(diào)整系統(tǒng)參數(shù)和插入工具來構(gòu)建自己的實體對齊模型。結(jié)果表明,算法匹配效果高于傳統(tǒng)的概率模型方法。張曉丹等[27]利用ID3算法分析和處理測試空間中的多源數(shù)據(jù),建立準確的評估模型。最后的結(jié)果表明,該方法在解決多源數(shù)據(jù)問題,并且在處理大量無序和不確定數(shù)據(jù)方面非常有效。
袁雅萍[28]用決策樹模型作為土壤與環(huán)境關(guān)系中知識融合和抽取的方法。使用一致性分析等統(tǒng)計方法,實現(xiàn)多源知識的互補和融合。利用混淆矩陣運算出生產(chǎn)精度(PA)和用戶精度(UA),用于表示每個分類的精度指標??偩?OA),用于表示總體分類的精度指標,通過這些指標共同檢驗預(yù)測土壤圖的精度。三種指標的計算公式如下:
(6)
(7)
(8)
其中,n表示土壤圖所有準確分類的樣本數(shù)量,N1表示野外該類土壤的樣本總數(shù),N2表示土壤圖中劃分到該類土壤的樣本總數(shù),N表示樣本總數(shù)。
3.1.1.3 集成學習
集成學習通過使用一些規(guī)則將各個學習器學到的結(jié)果整合,從而得到比較好的效果。Chen等[29]提出了統(tǒng)一的決策模型,使用Context-Extended和Context-Weight方法,將兩個部分用兩種組合方法進行融合。實驗結(jié)果表明,集成學習框架在不同領(lǐng)域的應(yīng)用上,實現(xiàn)了更高的匹配質(zhì)量,也證明了所提出的方法相對于其他方法的優(yōu)勢,提高了實體的消歧質(zhì)量。
3.1.2 無監(jiān)督學習
當訓練樣本數(shù)量不足時,可以通過無監(jiān)督學習完成知識融合中的實體對齊。常用方法是聚類。聚類根據(jù)相似度或距離來判斷,將相似的樣本聚集在相同的類,不相似的樣本分散在不同的類。Zhang等[30]采用基于實例的無監(jiān)督學習方法,該方法提供了一個MBL框架。結(jié)果表明,能夠?qū)嶓w之間的多種關(guān)系進行精確的識別,獲得了很好的結(jié)果。Bhattacharya等[31]提出一種關(guān)于實體的屬性和關(guān)系信息的聚類算法。研究了不同關(guān)系相似性影響對實體質(zhì)量的解決辦法。結(jié)果表明,當數(shù)據(jù)中存在模糊引用時,關(guān)系聚類算法的效果優(yōu)于屬性相似度。Verykios等人[32]使用聚類方法,通過少量標記樣本推斷聚類中其他樣本的情況,使用屬性和關(guān)系的信息來確定實體。結(jié)果表明,通在相似性搜索,在知識獲取方面有很大提高。
3.1.3 半監(jiān)督學習
半監(jiān)督學習是監(jiān)督學習與無監(jiān)督學習相結(jié)合的一種學習方法。使用大量的未標記數(shù)據(jù),同時使用標記樣本,來進行模式識別工作。常用的方法是留一驗證法和交叉驗證法。Carlson等人[33]從網(wǎng)頁中提取類別和關(guān)系,使用半監(jiān)督學習方法和CPL(Coupled Pattern Learner)和CSEAL(Coupled SEAL)耦合的方式,證明了這種方法可以提高多種類型的提取器的準確性。
嚴格來講,深度學習屬于機器學習范疇。但深度學習可以更好地處理大規(guī)模數(shù)據(jù),所以將深度學習方法單獨列出來。
神經(jīng)網(wǎng)絡(luò)(Neural Network)也叫做人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network),由大量的節(jié)點(或神經(jīng)元)直接相互關(guān)聯(lián)而構(gòu)成,是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的算法數(shù)學模型。神經(jīng)網(wǎng)絡(luò)包括監(jiān)督學習和無監(jiān)督學習。
Gabriel等[34]將不同分類方法和神經(jīng)網(wǎng)絡(luò)集成在一起,形成代理虛擬組織,用于從E-nose 檢索的參數(shù)中進行信息融合,該系統(tǒng)模擬人腦如何分類。利用PCA作為一種降維方法,對初始數(shù)據(jù)進行預(yù)處理,然后利用反向傳播神經(jīng)網(wǎng)絡(luò)BPNN對E-nose進行分類,結(jié)果表明組合分類器的結(jié)果和精度均大于單個分類器。
Wang L等[35]通過對反向傳播(BP)神經(jīng)網(wǎng)絡(luò)使用遺傳算法(GA)來優(yōu)化,評估創(chuàng)新生態(tài)系統(tǒng)中知識融合的風險。使用預(yù)處理后的數(shù)據(jù)作為神經(jīng)網(wǎng)絡(luò)的輸入值,確定種群大小和最大迭代次數(shù),選擇交叉概率,設(shè)置權(quán)重和閾值的上下限。結(jié)果表明,GA-BP神經(jīng)網(wǎng)絡(luò)具有更快的收斂速度和更高的穩(wěn)定性,可以更快地實現(xiàn)目標。
Zeng等[36]利用分段卷積神經(jīng)網(wǎng)絡(luò)和多實例學習進行遠程監(jiān)督關(guān)系提取。其使用分段最大池化來自動學習特征,結(jié)合多實例學習來解決錯誤的標簽問題。Santos等[37]提出一種排名分類模型CR-CNN,使用單詞嵌入作為輸入要素,利用卷積神經(jīng)網(wǎng)絡(luò)來處理關(guān)系分類任務(wù)。使用新的成對排名損失函數(shù),可以有效減少人工分類的影響。
Hka B[38]提出一種基于機器學習和知識圖譜的AM(Additive Manufacturing)框架,對來自國家標準和技術(shù)研究所的測量數(shù)據(jù),采用分類和回歸樹的機器學習方法來解決AM相關(guān)的問題。Wang[39]提出一種新的知識融合方法HCCKF(Human-Computer Cooperative Genetic Algorithm),利用進化計算(Evolutionary Computation)融合了人類知識、先驗知識和計算知識。
George[40]提出CKF(Collaborative Knowledge Fusion)方法,想要了解和控制信息的傳播,如何促進真實信息的傳播。Balemans[41]提出了傳感器融合方法,為了提高不同環(huán)境的感知精度,傳感器提供關(guān)于相同特性的互補信息,通過結(jié)合兩個傳感器的信息來提高檢測精度。
各類知識融合方法特點的總結(jié)如表2所示。
表2 知識融合方法總結(jié)
知識融合應(yīng)用領(lǐng)域十分廣泛,覆蓋自動問答、銀行、企業(yè)發(fā)展等領(lǐng)域。其中由清華大學、清華同方發(fā)起的中國知識基礎(chǔ)設(shè)施工程(CNKI),集成了各個學科的公共知識和各學科專家的個人知識,建立了一個龐大的共享知識庫,旨在為科研、教學和知識服務(wù)提供基礎(chǔ)。知識融合現(xiàn)在有了一定的發(fā)展,但仍不能滿足人們的需求?,F(xiàn)階段知識融合依舊是一項具有挑戰(zhàn)的工作,仍有很多問題需要解決。
(1)知識的不一致性。如何在異構(gòu)知識情況下,對特定知識進行融合,為用戶提供需求是一個艱巨的任務(wù)。
(2)知識的復(fù)雜關(guān)系。存在大規(guī)模語義表達相似的知識,導致關(guān)系的難理解。這需要更健壯的技術(shù),并能夠消除噪聲。
(3)實體鏈接實現(xiàn)的準確性。目前,如何在上下文信息受到限制的情況下,準確地將實體與知識庫中的實體鏈接成為現(xiàn)在普遍關(guān)注的問題。
未來知識融合領(lǐng)域也有更多的發(fā)展方向:
(1)實時融合大規(guī)模知識,進行多種語言的融合。
(2)建立一個統(tǒng)一、專門的知識融合體系結(jié)構(gòu)。
(3)將深度學習應(yīng)用到知識融合中??梢垣@得更高的性能和預(yù)測精度。深度學習能夠從大數(shù)據(jù)中獲取實體之間復(fù)雜、模糊的關(guān)系,是很有效率的方法。
未來的研究應(yīng)該更加投入到圖書情報中,將知識融合充分運用到其中。知識圖譜成為智能搜索的關(guān)鍵技術(shù),具有很深遠的價值。知識融合是知識圖譜中的一個重要環(huán)節(jié),期待更多的研究人員可以對此進行深入研究,促進知識融合領(lǐng)域的發(fā)展。