胡慕海,王 蕊,夏火松
(武漢紡織大學(xué) 管理學(xué)院,湖北 武漢430200)
“互聯(lián)網(wǎng)+”時(shí)代,知識(shí)融合已成為大數(shù)據(jù)環(huán)境下知識(shí)服務(wù)和創(chuàng)新的支撐點(diǎn)(王曰芬[1])。大數(shù)據(jù)背景下的知識(shí)融合,概念上的共識(shí)是:融合過程是以特定問題和知識(shí)需求為導(dǎo)向,在海量多源異構(gòu)的數(shù)據(jù)中全面準(zhǔn)確定位并融合各種知識(shí)對象及其載體,最終產(chǎn)出滿足用戶需求和解決應(yīng)用問題的新知識(shí)。用戶的科學(xué)問題求解過程對應(yīng)著科研進(jìn)程中一系列知識(shí)需求的產(chǎn)生、響應(yīng)和滿足??蒲羞M(jìn)程中的知識(shí)需求會(huì)沿著進(jìn)程時(shí)間維,階段性的發(fā)生核心需求的變化,當(dāng)前時(shí)段內(nèi)的核心需求會(huì)演化成下一時(shí)段內(nèi)的不同核心需求;并且隨著科研的繼續(xù),會(huì)持續(xù)產(chǎn)生新的需求演化,直至科研結(jié)束。
整合應(yīng)用這種在科研進(jìn)程中沿時(shí)間軸不斷演化的核心知識(shí)需求能提升知識(shí)融合的效用。這是因?yàn)椋盒枨蟮难莼軌蛱峁┢ヅ銩、B 兩個(gè)需求的知識(shí)對象間在問題求解進(jìn)程中的時(shí)序關(guān)聯(lián)(對于求解當(dāng)前科研問題,對知識(shí)對象b 的需求是在對知識(shí)對象a 的需求產(chǎn)生之后再產(chǎn)生)和專業(yè)關(guān)聯(lián)(面對當(dāng)前科研問題的求解,同時(shí)需要知識(shí)對象a、b),依據(jù)這種知識(shí)對象的關(guān)聯(lián),可以在全局知識(shí)中發(fā)現(xiàn)更多潛在有利于問題求解的知識(shí)對象,也可以作為判定用戶實(shí)時(shí)的、和預(yù)測未來可能需求的依據(jù),基于這一應(yīng)用思路,可以創(chuàng)新知識(shí)融合機(jī)制,使得融合產(chǎn)生的新知識(shí)對于當(dāng)前研究問題的求解更具有可用性,能更好滿足用戶當(dāng)下的和未來可能的知識(shí)需求。
目前已有的知識(shí)融合研究,一種研究視角是知識(shí)單元間自發(fā)的主動(dòng)式融合,這種融合運(yùn)算的規(guī)模較大,主要關(guān)注知識(shí)的高效高質(zhì)量的管理,并不以特定用戶知識(shí)需求的滿足為目標(biāo)。另一種研究視角是以用戶知識(shí)需求作為調(diào)節(jié)、控制機(jī)制,驅(qū)動(dòng)知識(shí)融合。在知識(shí)科學(xué)視角下,主要關(guān)注融合對象動(dòng)態(tài)演化視角下的知識(shí)融合研究。Preece[2]在KRAFT 系統(tǒng)中提出隨規(guī)模增長重組KRAFT 網(wǎng)絡(luò)的方法。Scherl[3]提出感知?jiǎng)討B(tài)情境的軍事知識(shí)融合機(jī)制。Liu[4]面向企業(yè)不斷演化的知識(shí)需求,構(gòu)建了動(dòng)態(tài)本體。Brahami[5]面向決策活動(dòng)的變化,提出知識(shí)地圖融合方法。近年來,唐曉波[6]、邱均平[7]、李廣建[8]開始關(guān)注大數(shù)據(jù)演化性對知識(shí)融合的影響,指出需要根據(jù)數(shù)據(jù)源的變化,調(diào)整融合機(jī)制。Wu[9]利用知識(shí)圖譜研究動(dòng)態(tài)演化的碎片化知識(shí)的建模問題。在基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)融合研究中,高勁松[10]通過用戶反饋來調(diào)整融合算法。孫濟(jì)慶[11]構(gòu)建了匹配不同研究時(shí)段核心需求的多個(gè)簇狀知識(shí)空間。
總體而言,(1)大數(shù)據(jù)背景下,知識(shí)融合研究大部分是以碎片化知識(shí)為融合對象,進(jìn)行碎片化知識(shí)建模或融合形成全局知識(shí)的研究,融合過程不以用戶需求和問題求解為導(dǎo)向,直接在現(xiàn)有知識(shí)基礎(chǔ)上調(diào)整知識(shí)對象的概念化約束條件;(2)融合過程中一些規(guī)則、約束、本體等,在不同的運(yùn)算環(huán)境下,也以一種動(dòng)態(tài)調(diào)整的方式發(fā)揮作用;(3)目前用戶需求的演化特性在知識(shí)融合研究中有所欠缺,大部分研究還是將需求視為靜態(tài)的、斷點(diǎn)式的;制定融合規(guī)則的依據(jù)不夠完備,規(guī)則有片面性,局限性,導(dǎo)致潛在有用的知識(shí)對象的缺失,也不利于發(fā)現(xiàn)用戶隱性的知識(shí)需求,最終影響知識(shí)融合的效用。(4)一些研究提出要基于評價(jià)反饋等用戶數(shù)據(jù)來改進(jìn)、優(yōu)化融合機(jī)制,具有前瞻性;但目前缺乏大數(shù)據(jù)視角下系統(tǒng)性的知識(shí)融合服務(wù)理論、機(jī)制研究。因此有必要系統(tǒng)性研究大數(shù)據(jù)環(huán)境下科研進(jìn)程中用戶需求演化全景感知的知識(shí)融合問題,首要工作是構(gòu)建科研需求全景感知的知識(shí)融合模型,以提供后續(xù)研究的理論基礎(chǔ)和實(shí)踐途徑。
面向科研需求全景感知的知識(shí)融合服務(wù)訴求表現(xiàn)在:
(1)知識(shí)融合服務(wù)能夠利用異構(gòu)多源用戶歷史數(shù)據(jù),描述科研工作者科研進(jìn)程中至當(dāng)前時(shí)點(diǎn)的知識(shí)需求變化全景,為知識(shí)融合提供融合規(guī)則、約束條件等的制定、調(diào)整依據(jù)?
(2)知識(shí)融合服務(wù)能夠利用知識(shí)對象間的時(shí)序關(guān)聯(lián)、專業(yè)關(guān)聯(lián)入手,利用演化的需求,從全局知識(shí)空間中劃分出個(gè)人解知識(shí)空間?這是一種對個(gè)人問題求解而言,更加完備且規(guī)??煽氐闹R(shí)體系,能涵蓋對于問題求解潛在有用的知識(shí)對象。
(3)知識(shí)融合服務(wù)能夠面向個(gè)人解知識(shí)空間的結(jié)構(gòu)特征,提出知識(shí)對象搜索和融合的機(jī)制? 從而使得產(chǎn)生的新知識(shí)對于專業(yè)問題的求解具備更多潛在可用性,并且可以滿足用戶當(dāng)下的,和未來可能的知識(shí)需求。
(4)知識(shí)融合服務(wù)能夠系統(tǒng)性利用大數(shù)據(jù)支撐用戶需求演化全景感知的知識(shí)融合全過程,能夠①跨平臺(tái)采集、整合異構(gòu)數(shù)據(jù),增加了數(shù)據(jù)量和密度,并能記錄需求細(xì)微且完整的變化,利于需求變化的精細(xì)、全景描述;②數(shù)據(jù)流、在線學(xué)習(xí)等大數(shù)據(jù)分析技術(shù)能識(shí)別需求建模中的“概念漂移”,利于需求變化的精準(zhǔn)描述;③通過“數(shù)據(jù)密集型科學(xué)”范式、以及大數(shù)據(jù)驅(qū)動(dòng)的管理決策理論的指導(dǎo),可以對需求間“泛在”聯(lián)系中隱性的需求進(jìn)行發(fā)掘和應(yīng)用,豐富融合規(guī)則的制定依據(jù)。
根據(jù)上文分析,我們提出科研需求全景感知的知識(shí)融合模型,如圖1。
圖1 知識(shí)融合模型
將多源異構(gòu)的用戶歷史數(shù)據(jù)時(shí)序化,實(shí)證核心需求的演化特性;檢測出科研進(jìn)程中到當(dāng)前時(shí)點(diǎn)的所有知識(shí)需求改變的時(shí)點(diǎn);將科研進(jìn)程分割為若干時(shí)段,獲取每個(gè)時(shí)段的核心需求;形成知識(shí)需求演化的全景模型。實(shí)現(xiàn)機(jī)制包括:基于用戶歷史數(shù)據(jù),驗(yàn)證需求的演化現(xiàn)象,引入興趣波動(dòng)和衰減理論加以分析;鑒于數(shù)據(jù)稀疏性,引入超圖分割方法對用戶數(shù)據(jù)聚類,通過簇結(jié)構(gòu)變化識(shí)別需求變化時(shí)點(diǎn)序列;采用詞頻統(tǒng)計(jì)、共詞分析法等確定每個(gè)時(shí)段的核心需求,整合形成全景模型。
基于最新改變的核心知識(shí)需求的解知識(shí)空間基層構(gòu)建:以需求改變的最新時(shí)點(diǎn)后的核心知識(shí)需求,構(gòu)建融合規(guī)則,從全局知識(shí)空間中分割一個(gè)子空間,子空間涵蓋當(dāng)前可能最迫切需要的知識(shí);實(shí)現(xiàn)機(jī)制包括:以最新需求變化時(shí)點(diǎn)后的核心需求形成需求實(shí)體,采用蟻群優(yōu)化算法,在全局知識(shí)圖譜中尋找一個(gè)最小子集,該子集和需求節(jié)點(diǎn)間的屬性匹配度最大。整合子集對象的節(jié)點(diǎn)和邊,形成個(gè)人解知識(shí)空間的基層。
實(shí)現(xiàn)跨時(shí)點(diǎn)知識(shí)關(guān)系的基層拓展:主要是依據(jù)跨需求變化時(shí)點(diǎn)的,不同核心需求間的匹配關(guān)系,確定分屬基層空間和補(bǔ)空間上的若干知識(shí)節(jié)點(diǎn)對(a,b),(a,b)表征知識(shí)對象在專業(yè)上的關(guān)聯(lián)性;采集a、b間的顯性關(guān)系,推理a、b 間的隱性關(guān)系,預(yù)測a、b 間的可能關(guān)系,通過全局知識(shí)圖譜更新,將預(yù)測存在的關(guān)系顯性化,這些關(guān)系對應(yīng)的知識(shí)對象,潛在能滿足用戶隱性需求;實(shí)現(xiàn)機(jī)制包括:基于跨需求變化時(shí)點(diǎn)不同核心需求的匹配,確定路徑始終點(diǎn)。首先,改進(jìn)隨機(jī)游走等路徑規(guī)劃算法,基于路徑經(jīng)過節(jié)點(diǎn)和未變化的需求實(shí)體對應(yīng)節(jié)點(diǎn)的關(guān)聯(lián)度差異,確定最優(yōu)路徑,完成顯性關(guān)系的采集;其次,引入基于邏輯的推理或圖推理方法,基于已有節(jié)點(diǎn)關(guān)系,推理隱性關(guān)系;然后,引入鏈接預(yù)測方法,如馬爾科夫鏈,基于已有網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測節(jié)點(diǎn)間可能存在的關(guān)系,觸發(fā)全局知識(shí)圖譜的增量更新;最后,融合獲取的所有關(guān)系,完成基層拓展。
將上述知識(shí)節(jié)點(diǎn)關(guān)系和基層整合,形成和科研進(jìn)程時(shí)間序列一致的,由基層外拓的時(shí)序化多層空間。由基層向外,層次上知識(shí)對象的潛在需求迫切程度依次遞減。實(shí)現(xiàn)機(jī)制包括:(1)實(shí)時(shí)查詢的圖結(jié)構(gòu)建模。采用面向非結(jié)構(gòu)化文本的實(shí)體、屬性和關(guān)系抽取技術(shù),構(gòu)建查詢圖。(2)查詢圖和圖譜子圖的匹配度。改進(jìn)已有的圖結(jié)構(gòu)相似度、語義相似度方法,經(jīng)過線性組合計(jì)算,構(gòu)建匹配度測度方法。(3)跨層搜索方法。根據(jù)知識(shí)插值和群體映射的局部性原理,優(yōu)化搜索范圍,對匹配度較高的子圖節(jié)點(diǎn),將其關(guān)聯(lián)緊密的其他節(jié)點(diǎn)賦予更高的搜索優(yōu)先級;引入層次索引模式,按層次的時(shí)序關(guān)系,由內(nèi)到外,依次進(jìn)行層內(nèi)、層間搜索。(4)查詢結(jié)果跨層融合方法。對應(yīng)每個(gè)層內(nèi)和相鄰層間,匹配出若干組候選結(jié)果,每層產(chǎn)生一組,賦予本層的序號;每次融合只發(fā)生于時(shí)序上相鄰兩組間,從近時(shí)點(diǎn)對應(yīng)組中識(shí)別具有高匹配度的子圖a,確定需要補(bǔ)全的分支,到遠(yuǎn)時(shí)點(diǎn)對應(yīng)組的候選結(jié)果中找到和該分支匹配度高的子圖b,實(shí)現(xiàn)a、b 融合。
實(shí)時(shí)查詢圖建模:實(shí)時(shí)輸入的查詢實(shí)體可以是提問或檢索語,將用戶實(shí)時(shí)查詢的非結(jié)構(gòu)化文本轉(zhuǎn)換為圖結(jié)構(gòu)模型;
查詢圖和圖譜子圖的匹配度測度:應(yīng)用知識(shí)圖譜描述知識(shí)空間,通過結(jié)構(gòu)和語義匹配度的線性組合,計(jì)算查詢圖和圖譜子圖的匹配度;
時(shí)序化多層空間內(nèi)的跨層搜索:提出優(yōu)化搜索的方法,以跨層未發(fā)生改變的需求作為路徑選擇的“情境”,通過分析情境和備選路徑的關(guān)系強(qiáng)度確定最佳路徑,按層次的時(shí)序關(guān)系,由內(nèi)到外,依次進(jìn)行層內(nèi)、層間搜索,依序搜索有利于優(yōu)先搜索出迫切需要的知識(shí),跨層搜索則使得搜索結(jié)果能滿足專業(yè)、隱性的需求;
面向子圖補(bǔ)全的查詢結(jié)果跨層融合:如果缺少查詢圖的完全匹配子圖(或匹配度不高),分屬不同層的匹配子圖要以提升融合結(jié)果的匹配度為目標(biāo),在相鄰圖層間依序進(jìn)行融合,依序融合有利于優(yōu)先融合迫切需要的知識(shí),跨層融合則使得融合結(jié)果能滿足專業(yè)、隱性的需求。
本研究提出整合應(yīng)用科研進(jìn)程中動(dòng)態(tài)演化的用戶需求能提升知識(shí)融合的效用。構(gòu)建了能感知科研需求全景的知識(shí)融合模型,模型的產(chǎn)出是新知識(shí),實(shí)現(xiàn)路徑包括三點(diǎn):(1)建立知識(shí)節(jié)點(diǎn)在專業(yè)上的關(guān)聯(lián),通過跨時(shí)點(diǎn)的不同核心需求間的匹配關(guān)系為依據(jù),建立知識(shí)節(jié)點(diǎn)的關(guān)聯(lián),使得融合產(chǎn)出的新知識(shí)滿足專業(yè)的知識(shí)需求;(2)確定解知識(shí)空間跨層路徑始、終點(diǎn),從而發(fā)現(xiàn)跨層知識(shí)節(jié)點(diǎn)間的隱性和未知關(guān)系,以此滿足隱性的知識(shí)需求;(3)基于需求演化全景序列,進(jìn)行基層拓展,建立按知識(shí)的需求迫切程度形成時(shí)序化結(jié)構(gòu)特征的解知識(shí)空間,以滿足迫切的知識(shí)需求。
早期研究主要關(guān)注用戶靜態(tài)的、斷點(diǎn)式的需求在知識(shí)融合中的整合應(yīng)用問題,本研究的意義在于基于科研進(jìn)程中用戶需求演化全景特性整合應(yīng)用,支持知識(shí)融合,是一個(gè)新的研究視角。本研究提出的科研進(jìn)程中用戶需求全景感知的知識(shí)融合機(jī)制,為知識(shí)融合的拓展應(yīng)用、知識(shí)服務(wù)的創(chuàng)新設(shè)計(jì)提供新的視角和理論基礎(chǔ),為知識(shí)融合的創(chuàng)新提供新的實(shí)施路徑和技術(shù),為開發(fā)知識(shí)融合系統(tǒng)提出大數(shù)據(jù)技術(shù)方案,能高效滿足用戶在科研進(jìn)程中的專業(yè)、隱性,迫切需求,從而增強(qiáng)用戶的洞悉力和創(chuàng)造力,加快“轉(zhuǎn)識(shí)成智”。下一階段,將根據(jù)本研究構(gòu)建的理論模型,整合相關(guān)算法、平臺(tái),檢驗(yàn)和優(yōu)化本研究成果。