邵禮旭,段玉聰+,周長兵,高洪皓,陳世展
1.海南大學 信息科學技術學院,南海資源利用海洋國家重點實驗室,???570228
2.中國地質大學 信息工程學院,北京 100083
3.上海大學 計算機工程與科學學院,上海 200444
4.天津大學 計算機科學與技術學院,天津 300072
互聯(lián)網(wǎng)信息的指數(shù)增長造成的信息過載和信息迷航等問題制約了用戶對資源的高效使用,隨著知識經(jīng)濟的發(fā)展,當今社會對人們的知識掌握程度提出了更高的要求。知識圖譜已經(jīng)成為用標記的有向圖形式表示知識的強大工具,并能賦予文本信息語義。知識圖譜是通過結點的形式將項目、實體或用戶表示出來,通過邊的形式將彼此相互作用的結點鏈接起來構造的圖形,結點之間的邊可以表示任何語義關系。知識庫包含一組概念,實例和關系[1]。劉嶠等[2]將知識圖譜的構建按照知識獲取的過程分為信息抽取、知識融合和知識加工三個層次,定義知識圖譜是一個具有屬性的實體通過關系鏈接而成的網(wǎng)狀知識庫,其研究價值在于能以最小的代價將互聯(lián)網(wǎng)中積累的信息組織成可被利用的知識,從而通過推理實現(xiàn)概念檢索和圖形化知識展示。
Cowie等[3]將信息抽取劃分為實體、關系和屬性三個層次,基于對現(xiàn)有知識圖譜概念的拓展,可將知識圖譜劃分為數(shù)據(jù)圖譜、信息圖譜、知識圖譜和智慧圖譜[4],并可應用于回答與5W相關的問題[5]。Malin等[6]提出利用隨機漫步模型對演員合作網(wǎng)絡數(shù)據(jù)進行實體消歧,并取得了比基于文本相似度模型更好的消歧效果。Wu等[7]選擇維基百科作為數(shù)據(jù)源,通過自動抽取生成訓練語料,用于訓練實體屬性標注模型,然后將其應用于對非結構化數(shù)據(jù)的實體屬性抽取。對于關系抽取,出現(xiàn)了大量基于特征向量或核函數(shù)[8]的監(jiān)督學習方法、半監(jiān)督學習方法[9]和弱監(jiān)督學習方法[10]。Etzioni等[11]提出了面向開放域的信息抽取方法框架,并發(fā)布了基于自監(jiān)督學習方式的開放信息抽取原型系統(tǒng)。郭劍毅等[12]采用支持向量機算法實現(xiàn)了人物屬性抽取與關系預測模型。Zins[13]闡述了定義數(shù)據(jù)、信息和知識等概念。數(shù)據(jù)是通過觀察數(shù)字或其他基本個體項目得到的。信息通過數(shù)據(jù)和數(shù)據(jù)組合的背景傳達,適用于分析和解釋。知識是從積累的信息中獲得的一般理解和經(jīng)驗,根據(jù)知識能推測出新的背景。
現(xiàn)有的個性化信息服務系統(tǒng)方面的研究并沒有考慮到上下文的信息,比如時間和地理位置等。從對現(xiàn)有知識圖譜概念的拓展的角度出發(fā),本文提出了一種基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜三層的可自動抽象調整的解決架構,通過對海量資源進行建模,快速、準確地在資源處理架構中找到用戶所需要的信息,并且以更加人性化的方式為用戶提供服務。本文對資源形態(tài)和三層圖譜的定義如下:
定義1(資源元素)資源元素包括數(shù)據(jù)資源、信息資源和知識資源三種形態(tài)。ElementsDIK:= < DataDIK,InformationDIK,KnowledgeDIK>
定義2(圖譜)本文對已有知識圖譜(Knowledge Graph)的概念進行拓展,將圖譜的表達分為數(shù)據(jù)圖譜(DataGraphDIK,DGDIK)、信息圖譜(InformationGraphDIK,IGDIK)和知識圖譜(KnowledgeGraphDIK,KGDIK)三層。
GraphDIK:= <(DGDIK),(IGDIK),(KGDIK)>
本文對資源在DataDIK、InformationDIK和KnowledgeDIK三個層面上建模,借助從DGDIK上以實體綜合頻度計算為核心的分析到IGDIK和KGDIK上的自適應的自動抽象的資源優(yōu)化過程(DIK方法)支持兼容經(jīng)驗知識引入和高效自動語義分析,表1給出了資源類型的漸進形式,借助對應5W(who/when/where,what and how)問題[14]的分類接口銜接用戶的學習需求、學習過程和學習目標等的資源化描述,每一個“W”都可以廣泛用于探索和評估各種知識理論和系統(tǒng),為用戶提供個性化學習服務推薦。圖1給出了面向5W的基于DGDIK、IGDIK和KGDIK三層架構的資源處理框架示意。
Table 1 Explanation of resource types表1 資源類型的解釋
DataDIK、InformationDIK、KnowledgeDIK和智慧是漸進關系的層次,從DataDIK挖掘到InformationDIK,從InformationDIK中獲取KnowledgeDIK,從KnowledgeDIK中獲得智慧。本文對應于DataDIK、InformationDIK、KnowledgeDIK和智慧的遞進層次在整體上澄清知識圖譜的表達,將知識圖譜劃分為DGDIK、IGDIK、KGDIK和智慧圖譜四個層面。
圖2展示了5W問題的分類及轉化和四層圖譜之間的關系?,F(xiàn)階段本文基于前三層架構對資源進行語義建模,在DGDIK層面上計算DataDIK的三種頻度,在IGDIK和KGDIK上分析自適應的自動抽象的資源優(yōu)化過程以支持兼容經(jīng)驗知識的引入和高效的自動語義分析。本文提出的框架借助對應5W問題的分類接口銜接用戶學習需求、學習過程和學習目標等資源化描述,為用戶提供個性化學習服務推薦。
DGDIK能記錄DataDIK出現(xiàn)的頻度,包括結構、時間和空間三個層次的頻度。本文定義結構頻度為DataDIK出現(xiàn)在不同數(shù)據(jù)結構中的次數(shù),時間頻度為DataDIK的時間軌跡,空間頻度被定義為DataDIK的空間軌跡。
定義3(結構頻度)結構頻度(stru_f)表示DataDIK出現(xiàn)在不同數(shù)據(jù)結構中的次數(shù)。DataDIK的結構頻度應根據(jù)DataDIK出現(xiàn)的最大數(shù)據(jù)結構進行計算。例如,如果在圖形結構的分支中以樹結構出現(xiàn)的DataDIK,將按圖結構來計算DataDIK的結構頻度為1,不重復計算DataDIK在樹結構中出現(xiàn)的頻度。
Fig.1 5W oriented resource processing architecture based on DGDIK,IGDIKand KGDIK圖1 面向5W基于DGDIK、IGDIK和KGDIK的資源處理框架
Fig.2 Type division of 5W problems and relationships among graphs圖2 5W問題類型劃分及圖譜關系
定義4(空間頻度)本文將空間頻度(spat_f)定義為DataDIK在不同空間位置出現(xiàn)的次數(shù),描述多個對象的相對位置,空間頻度用來標識實體之間的空間關系。
定義5(時間頻度)時間頻度(temp_f)表示DataDIK在不同時間段內出現(xiàn)的次數(shù)。初始獲取到的DataDIK集合可能不完整,對于具有時間性的流式數(shù)據(jù),如果觀察到流式DataDIK,應該及時做出響應,因為過期的DataDIK是無意義的。
定義6(綜合頻度)綜合頻度(DFreq)為一個三元組,包含DataDIK的結構頻度、空間頻度和時間頻度。
DFreq:=
本文給出對學習點DataDIK資源進行建模時,對DataDIK的頻度統(tǒng)計示例,如圖3所示,知識點DataDIK的時間頻度表示該DataDIK的課時數(shù),空間頻度為該DataDIK出現(xiàn)在不同專業(yè)體系的次數(shù),結構頻度表示為該DataDIK的教育方式。但DGDIK上未對DataDIK的準確性進行分析,可能出現(xiàn)不同名稱的DataDIK但表達相同含義,即冗余。DGDIK只能對圖譜上表示的DataDIK進行靜態(tài)分析,無法分析和預測DataDIK的動態(tài)變化。DataDIK是通過觀察獲得的數(shù)字或其他類型信息的基本個體項目,但是在沒有上下文語境的情況下,它們本身沒有意義。
2.2.1 基于IGDIK記錄結點的交互度
InformationDIK是通過DataDIK和DataDIK組合之后的上下文傳達的,經(jīng)過概念映射和相關關系組合之后的適合分析和解釋的信息。IGDIK通過關系數(shù)據(jù)庫來表達。在IGDIK上進行數(shù)據(jù)清洗,消除冗余數(shù)據(jù),根據(jù)結點之間的交互度進行初步抽象,提高設計的內聚性。
信息交互是業(yè)務處理、信息協(xié)作和系統(tǒng)集成的域信息系統(tǒng)的基礎。在IGDIK上記錄實體之間的交互頻度,只考慮實體之間交互的方向,而不考慮交互關系的類型。本文將IGDIK定義為有向圖G(V,E),其中V表示結點的集合,E表示邊集合,使用綜合度(Com_degree)來衡量信息圖譜上結點的重要性,計算方式如式(1)所示:
其中,deg+是結點的入度,deg-表示結點的出度。如圖4所示,結點E1和E2在DGDIK上屬于低頻結點,結點E3和E4在DGDIK上屬于高頻結點,但在IGDIK上E1和E2兩個結點之間交互頻繁,僅通過綜合頻度來衡量結點的重要性容易丟失信息。因此在IGDIK通過計算Impor來進一步衡量結點的重要性,計算方式如式(2)所示:
Fig.3 Statistics on stru_f,temp_f and spat_f of DataDIK圖3 統(tǒng)計DataDIK的結構頻度、時間頻度和空間頻度
其中,α和β分別表示結點在DGDIK上和綜合頻度和在IGDIK上的交互度對衡量該結點重要性所占的權重,可以通過數(shù)據(jù)訓練獲得。
2.2.2 根據(jù)交互度處理DataDIK集成和實體抽象
IGDIK反映了實體之間的對話和多重交互。如圖5所示,通過將圖3中的DataDIK形態(tài)的資源進行集成,生成了新的概念。線性表、隊列和樹等DataDIK資源聯(lián)系緊密,為提高資源架構的表達,可將聯(lián)系緊密的DataDIK進行集成,得到了InformationDIK資源“數(shù)據(jù)結構”。通過圈定特定數(shù)量的實體,計算內部交互度和外部交互度,如式(3)所示,內聚性(cohesion)等于內部交互度和外部交互度的比值,約束所圈定的實體之間必須相互連通。內聚度是衡量實體之間關聯(lián)程度的指標。IFreqEI表示實體之間外部交互的次數(shù),IFreqII表示實體之間內部交互的次數(shù)。將具有最大內聚度的不同實體以屬性或操作的形式集成到同一模塊中,以增強模型設計的內聚性并提高抽象度。新集成的模塊在IGDIK上以新結點的形式被標記,并在DGDIK的層次上重新統(tǒng)計該結點的結構頻度、空間頻度和時間頻度。
Fig.4 Measuring importance of entity through DFreq and Impor圖4 通過綜合頻度和交互度衡量實體重要性
Fig.5 Automatic abstraction results of entities on IGDIK圖5 IGDIK上實體的自動抽象結果
2.3.1 在KGDIK上進行信息推理和知識預測
KnowledgeDIK是從積累的InformationDIK中獲得的總體理解和意識,將InformationDIK進行進一步的抽象和歸類形成KnowledgeDIK。KGDIK通過包含結點和結點之間關系的有向圖來表達。KGDIK蘊含各種語義關系,在KGDIK上能進行信息推理和實體鏈接。KGDIK的無結構特性使得KGDIK可以無縫鏈接,從而提高KGDIK的邊緣密度和結點密度。信息推理需要有相關關系規(guī)則的支持,這些規(guī)則可以由人手動構建,但往往耗時費力。目前,它主要依賴于關系的同現(xiàn),并使用關聯(lián)挖掘技術自動查找推理規(guī)則。路徑排序算法使用每個不同的關系路徑作為一維特征,通過在KGDIK中構建大量的關系路徑來構建關系分類的特征向量和關系分類器來提取關系。根據(jù)式(4)計算關系的正確度Cr,Q表示實體E1到實體E2的所有完整路徑,π表示一條路徑,θ(π)表示路徑π的權重,最后正確度超過某一閾值后認為該關系成立,路徑的權重以及正確度的閾值均可由訓練得出。
2.3.2 結合關系語義類型衡量結點重要性
KGDIK的廣泛采用,在很大程度上是由于它的無模式性質,使得KGDIK可以無縫擴展,并允許根據(jù)需要添加新的關系和實體。在KGDIK上標記并處理實體之間不同類型的語義關系。每個語義關系都由自己的權重(θ)來表示該關系的重要性,根據(jù)式(5)來全面評估結點在KGDIK上的重要性(Final_impor):
其中,λi是關系Reli的權重,n是關系類型的數(shù)量。
如圖6所示,綜合DGDIK、IGDIK和KGDIK三層架構,衡量結點的重要性有三個指標:DGDIK上結點的綜合頻度,在IGDIK上與其他實體的交互程度,以及在KGDIK層面上與外部結點交互的語義關系類型。通過綜合考慮結點在三層圖譜上的重要性,設計人員可以避免頻度低但與外部實體有重要關系交互的結點被誤刪除。
Fig.6 Resource processing based on DGDIK,IGDIKand KGDIK圖6 基于DGDIK、IGDIK和KGDIK對資源的處理示意圖
資源有 DataDIK、InformationDIK和 KnowledgeDIK等形態(tài),對這些DataDIK、InformationDIK和KnowledgeDIK等形態(tài)的資源的原始表述的自然語言的機器理解、自動處理、自動綜合和自動分析等成為了巨大的挑戰(zhàn)?;贒GDIK、IGDIK和KGDIK的三層資源處理框架能夠有效地將經(jīng)驗知識與訓練模型結合在一起,減少人工專家交互負擔。DataDIK是通過采集或觀測得到的離散資源,存在缺失、錯誤、冗余和不一致等問題。通過對DataDIK在DGDIK上進行頻度統(tǒng)計和計算,過濾綜合頻度較低的DataDIK,減少錯誤DataDIK、無用DataDIK的出現(xiàn);在IGDIK上對DataDIK的表達形式進行統(tǒng)一,消除冗余DataDIK,將交互頻繁的DataDIK進行集成和抽象,得到總結性的規(guī)律InformationDIK資源。DataDIK和InformationDIK之間的關系缺乏層次性和邏輯性,對InformationDIK進行分類和統(tǒng)計,納入經(jīng)驗性知識,從而對未知的信息進行推測,得到概率性答案。受DataDIK、InformationDIK和 KnowledgeDIK之間的關系限制,用戶無法在DataDIK上直接獲得InformationDIK和KnowledgeDIK,在InformationDIK層面無法直接獲得KnowledgeDIK??鐚硬檎屹Y源存在查找不到、無盡查找、查找得出的資源與問題不匹配等情況,如在DGDIK層上無法找到KnowledgeDIK。但在IGDIK上一定能找到DataDIK資源,在KGDIK上一定能查到DataDIK和InformationDIK等資源。通過對資源進行建模,在整合后的資源里分層對應查找相關資源,不同情形下應用不同的資源框架,在DGDIK上查找DataDIK,在IGDIK上查找InformationDIK,在KGDIK上查找KnowledgeDIK。
資源有 DataDIK、InformationDIK和 KnowledgeDIK等形態(tài),對用戶來講,學習點就是資源,因此在構建學習點資源處理架構時,將學習點對應到DataDIK、InformationDIK和KnowledgeDIK三個層面上去處理,不同情形下應用不同的資源。本文提出的DGDIK、IGDIK和KGDIK三層資源處理架構借助對應5W問題的分類接口銜接用戶的學習需求、學習過程和學習目標等的資源化描述,每一個“W”都可以廣泛用于探索和評估各種知識理論和系統(tǒng),并能根據(jù)5W引入的DataDIK、InformationDIK和KnowledgeDIK等資源不斷更新處理資源框架,自適應地為用戶提供個性化學習服務推薦,通過建立學習者模型,根據(jù)用戶的當前學習狀況、能力水平和學習目標有針對性地為用戶提供一個高效的導學策略,考慮用戶之間特征的差異,因材施教,保證用戶按需學習。
在建立學習者模型時,顯性模型必須先了解用戶的信息,而現(xiàn)實情況下,存在用戶不愿透露的信息,以及顯性模型無法度量的信息,隱性模型通過挖掘用戶的行為得到用戶自己可能無法表達的信息,比顯性模型的準確率更高。本文提出將學習者的學習情況看作數(shù)據(jù)、信息和知識等類型化資源的集合,基于數(shù)據(jù)圖譜、信息圖譜和知識圖譜對學習者進行建模,以結點和邊的形式表達學習者對學習點的掌握情況。學習者模型的構建包括資源和能力構建兩部分,分別對應學習者的學習情況和學習能力。資源包括學習者已學知識點、未學知識點和目標知識三個組成部分,用于統(tǒng)計學習者的知識掌握情況和知識需求。能力構建部分包括用戶的記憶能力、計算能力和邏輯能力的評估。學習者能力水平分為三個等級,分別是“弱”“中”“強”。通過提示用戶進行習題測試統(tǒng)計用戶的知識掌握情況,評估學習能力。
圖7展示了基于DGDIK、IGDIK和KGDIK三層資源處理架構的學習推薦服務流程,根據(jù)現(xiàn)有海量DataDIK、InformationDIK和KnowledgeDIK等資源構建學習點資源處理架構,通過大數(shù)據(jù)訓練得出用戶群體學習每個學習點所要花費時間和精力的平均水平,即學習投入,作為學習點的權重在資源處理框架上做出標記。
獲取學習者預期的學習投入(Expected_effort)和學習目標,學習者預期的學習效率(Expected_effi)計算公式如式(6)所示:
其中,Total_know表示目標知識包含的學習點總量。根據(jù)用戶的學習目標類型,確定在哪一層資源處理框架上進行遍歷。若用戶學習目標比較簡單,預期學習投入較少,學習能力較弱,則基于DGDIK向該用戶推薦學習點和學習路徑;若用戶學習目標難度一般,預期學習投入一般,學習能力一般,則基于IGDIK向該用戶推薦學習點和學習路徑;若用戶學習目標難度較大,預期學習投入多,學習能力較強,則基于KGDIK向用戶推薦學習點和學習路徑。在資源處理框架上標記學習者已學知識和目標知識點,遍歷圖譜,獲取目標知識點的所有先序結點。將存在“或”關系的知識點按學習該知識點所需要的學習投入(即權重)進行排序,輸出完整的學習路徑并推薦給用戶。用戶按照推薦的學習路徑進行學習,在學習過程中,系統(tǒng)不斷獲取用戶反饋并監(jiān)測外部學習環(huán)境的變化。用戶實際的學習效率(Actual_effi)計算公式如式(7)所示:
其中,Got_know表示學習者已學到的學習點,Actual_effort表示學習者的實際學習投入,統(tǒng)計學習者的能力變化,更新學習者模型;根據(jù)外部學習環(huán)境的變化,更新處理資源框架。按照更新后的學習者模型和處理資源框架,重新獲取學習者的學習目標及預期的學習投入,根據(jù)用戶當前學習狀況重新規(guī)劃學習路徑。
圖8給出了關于計算機系課程的部分知識體系,假設用戶的學習目標是要掌握數(shù)據(jù)挖掘這門課,當前已掌握和未掌握課程已經(jīng)在資源體系中作出標記,每門課程標記的數(shù)字代表學習這門課所需投入的平均水平,獲取用戶的預期學習投入后,則可以向其推薦圖中所示三種學習方案。
Fig.8 Example of learning service recommendation based on DGDIK,IGDIKand KGDIK圖8 基于DGDIK、IGDIK和KGDIK架構學習推薦服務例子
隨著統(tǒng)計機器學習方法的引入,共指消解技術進入了快速發(fā)展階段。McCarthy等[15]使用決策樹來解決商業(yè)合資企業(yè)領域分類不同短語的系統(tǒng)中的共指消解問題。本體被用作語義網(wǎng)中的知識表示的標準形式[16],微軟發(fā)布的Probase利用統(tǒng)計機器學習算法抽取出概念之間的“IsA”關系[17]。對于復雜的實體關系,借助TBox和ABox將基于描述邏輯的推理歸結為一致性檢驗問題[18]。楊志等[19]利用動態(tài)規(guī)劃的思想提出了一種基于本體的服務推薦方法。彭建偉[20]提出了一種改進的Memetic算法以及一種基于Memetic算法的個性化學習路徑推薦策略。Fader等[21]提出一種開放問答(open question answering,OQA)方法,從未標記的問題語料庫和多個知識庫中挖掘數(shù)百萬個規(guī)則來解決問題解析和查詢重構等問題。Wang等[22]提出一種通過概念注釋來促進跨語言知識鏈接的方法。Trojahn等[23]提出了一種語義導向的跨語言本體映射框架,以增強涉及多語言知識庫系統(tǒng)的互操作性。Liu等[24]利用K-最近鄰算法和條件隨機場模型,實現(xiàn)了對Twitter文本數(shù)據(jù)中實體的識別。王泊學[25]設計了一種基于上下文感知的自適應服務組合系統(tǒng),將上下文環(huán)境轉移到服務組合系統(tǒng)中。潘偉豐等[26]提出的服務分類方法為服務提供分類信息,提高服務發(fā)現(xiàn)、檢索及服務資源管理的效率。
如何快速、準確地在網(wǎng)絡中找到用戶所需要的資源,并且以人性化的方式為用戶提供服務,已經(jīng)成為一項挑戰(zhàn)。本文的貢獻在于綜合性地處理互聯(lián)網(wǎng)上的資源,通過分析和抽象海量的DataDIK、InformationDIK和KnowledgeDIK等形態(tài)的資源,消除概念的歧義,剔除冗余和錯誤概念,提高DataDIK、InformationDIK和KnowledgeDIK等資源的質量。基于DGDIK、IGDIK和KGDIK建立資源處理框架,對不同資源需求在最匹配的資源層面上進行查找,有效提高查找效率。本文提出的架構借助從DGDIK上以實體綜合頻度計算為核心的分析到IGDIK和KGDIK上自適應的自動抽象的資源優(yōu)化過程,支持兼容經(jīng)驗知識引入和高效自動語義分析,將經(jīng)驗性和理論性DataDIK、InformationDIK、KnowledgeDIK和智慧融入學習推薦的方法中,協(xié)助用戶隱含意圖的信息表達,并能有效處理資源不一致、冗余、缺失等問題,通過自動抽象和動態(tài)規(guī)劃進行有效和自適應的資源搜索和自組織,進而向用戶推薦和優(yōu)化服務。當前工作在各個環(huán)節(jié)進行了實例討論,下一步將擴大數(shù)據(jù)規(guī)模進行驗證。