董露露
(安徽廣播電視大學(xué) 成教在線服務(wù)中心,安徽 合肥 230022)
?
基于網(wǎng)絡(luò)數(shù)據(jù)的企業(yè)知識圖譜可視化
董露露
(安徽廣播電視大學(xué) 成教在線服務(wù)中心,安徽 合肥 230022)
[摘要]對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行可視化分析具有非常大的商業(yè)價值和現(xiàn)實意義。首先采用經(jīng)典的力引導(dǎo)算法構(gòu)建知識網(wǎng)絡(luò),然后在網(wǎng)絡(luò)可視化的基礎(chǔ)上進(jìn)行集合可視化,針對集合路徑交叉過多的問題,引入集合因子,最后以中國平安集團數(shù)據(jù)為案例進(jìn)行可視化分析。分析表明,所提方法能有效提高企業(yè)知識可視化效果。
[關(guān)鍵詞]信息可視化;網(wǎng)絡(luò)數(shù)據(jù);企業(yè)知識圖譜
1引言
如今,互聯(lián)網(wǎng)已經(jīng)成為信息的主要來源之一。企業(yè)自身、競爭企業(yè)及合作企業(yè)等可以對龐大的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘,分析潛在的商業(yè)價值,甚至能通過基于網(wǎng)絡(luò)的各種平臺直接影響客戶,客戶同樣可以從網(wǎng)絡(luò)數(shù)據(jù)中獲取信息來了解公司的方方面面,以達(dá)到指導(dǎo)和決定投資的目的[1]。為了對知識做有效地積累沉淀、分析推演及利用[2],人們提出很多知識分析的方法。Prusak等[3]首先提出利用知識圖譜表示企業(yè)數(shù)據(jù)及知識關(guān)系,從而為企業(yè)提供知識服務(wù)。知識圖譜是實體和實體間關(guān)系的集合,其本質(zhì)是一種揭示實體知識之間的語義網(wǎng)絡(luò)圖[4]。由于企業(yè)內(nèi)部信息是保密的,而基于網(wǎng)絡(luò)的新聞事件等信息相對全面,因此企業(yè)可以利用網(wǎng)絡(luò),結(jié)合知識圖譜,建立更加精確、更深層次的企業(yè)知識圖譜,從而為客戶或企業(yè)提供查詢、分析、分享和過濾等服務(wù)[5]。
企業(yè)知識圖譜給出了企業(yè)相關(guān)人物、事件及它們之間的關(guān)系,它不是現(xiàn)有知識系統(tǒng)、數(shù)據(jù)倉庫和其他數(shù)據(jù)存儲管理的替代品,而是它們連接和交互的橋梁。它最明顯的好處,在于能夠幫助企業(yè)自身進(jìn)行規(guī)劃和管理,同時幫助企業(yè)供應(yīng)商、客戶及投資人等了解公司狀況。然而,構(gòu)建企業(yè)知識圖譜也面臨著諸多挑戰(zhàn),如知識沖突不一致或缺乏與外部數(shù)據(jù)語義聯(lián)接等。
本文構(gòu)建了簡單企業(yè)知識圖譜,并對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行可視化研究,將集合因子引入到力引導(dǎo)布局以加強屬于同一集合元素間的布局關(guān)系,減少集合可視化中的集合路徑交叉。
2企業(yè)知識圖譜構(gòu)建
2.1基于力引導(dǎo)算法的網(wǎng)絡(luò)可視化
由于知識圖譜搜索是基于實體關(guān)系的,因此可將知識圖譜構(gòu)建成網(wǎng)絡(luò)圖,其中圖的節(jié)點為知識圖譜中的實體,節(jié)點之間的連接表示實體之間的關(guān)系[6]。已經(jīng)有很多構(gòu)建網(wǎng)絡(luò)圖的算法,如引導(dǎo)布局、地圖布局等。其中力引導(dǎo)布局能充分揭示網(wǎng)絡(luò)整體結(jié)構(gòu),力引導(dǎo)算法是網(wǎng)絡(luò)圖可視化中主流的布局算法,因此本文選擇力引導(dǎo)算法進(jìn)行企業(yè)知識圖譜可視化分析。
基于力引導(dǎo)的算法作為彈簧理論算法的一類典型,被廣泛應(yīng)用于描述企業(yè)網(wǎng)絡(luò)等關(guān)系型信息圖。該算法將整個網(wǎng)絡(luò)看作一個物理系統(tǒng)[7],系統(tǒng)中的每個節(jié)點都可以看成是一個帶有一定能量的放電粒子,粒子與粒子之間存在某種庫侖斥力,使它們兩兩相互排斥。同時,粒子間被“邊”所牽連,這些邊產(chǎn)生類似彈簧的胡克引力,又緊緊牽制著“邊”兩端的粒子。在粒子間斥力和引力的不斷作用下,粒子們從隨機無序的初態(tài)不斷發(fā)生位移,逐漸趨于平衡有序的終態(tài)。整個物理系統(tǒng)的能量不斷消耗,經(jīng)過數(shù)次迭代,粒子之間幾乎不再發(fā)生相對位移,系統(tǒng)達(dá)到穩(wěn)定平衡狀態(tài),最終理想的網(wǎng)絡(luò)圖也基本繪制完成。算法步驟如下:
步驟1. 隨機分布初始節(jié)點位置;
步驟2. 計算每次迭代局部區(qū)域內(nèi)兩兩節(jié)點間的斥力所產(chǎn)生的單位位移(一般為正值);
步驟3. 計算每次迭代每條邊的引力對兩端節(jié)點所產(chǎn)生的單位位移(一般為負(fù)值);
步驟4. 調(diào)整步驟 2、3 中的斥力和引力系數(shù);
步驟5. 累加經(jīng)過步驟 2、3 計算得到的所有節(jié)點的單位位移;
步驟6. 迭代 n 次,直至達(dá)到理想效果。
由Stanley Wasserman和Katherine Faust基于社會數(shù)據(jù)的網(wǎng)絡(luò)分析可知,識別網(wǎng)絡(luò)中與節(jié)點關(guān)系緊密的子集是網(wǎng)絡(luò)分析主要關(guān)注的問題之一。對知識圖譜網(wǎng)絡(luò)的緊密子集進(jìn)行分析能夠幫助企業(yè)分析其生態(tài)結(jié)構(gòu),幫助公眾了解相應(yīng)集合的結(jié)構(gòu)及其與其它集合的關(guān)系等,因此可在網(wǎng)絡(luò)圖基礎(chǔ)上應(yīng)用相關(guān)技術(shù)進(jìn)行集合可視分析。
2.2力引導(dǎo)初始布局中引入集合因子
平行坐標(biāo)系是最基礎(chǔ)、最常用的可視化分析方法之一。為了減少集合可視化中的集合路徑交叉及圖節(jié)點的交叉,我們試圖將網(wǎng)絡(luò)圖節(jié)點按照屬性分類并進(jìn)行平行坐標(biāo)系布局,并把數(shù)據(jù)項相同的屬性布局到一個坐標(biāo)軸上。
根據(jù)數(shù)據(jù)集識別核心集合個數(shù),將核心集合中的節(jié)點分布到各集合對應(yīng)的平行坐標(biāo)軸上。節(jié)點在平行坐標(biāo)系上的布局依然按照作用力方法,屬于同一個集合的節(jié)點之間存在著引力和斥力,若節(jié)點相似度較高則布局應(yīng)鄰近,比如同一集合的兩個節(jié)點都與特定集合中的關(guān)鍵節(jié)點相連接,則將它們鄰近布局;不同集合的節(jié)點之間只存在引力作用。在考慮節(jié)點權(quán)重情況下,權(quán)重越大對不同集合(不同坐標(biāo)系)中節(jié)點的引力就越大,從而使得與之相連的節(jié)點更傾向于權(quán)重大的節(jié)點。如圖1,白色節(jié)點由于收到力的平衡作用處于灰色節(jié)點平分線偏下的位置。
2.3構(gòu)建企業(yè)知識圖譜
企業(yè)知識圖譜是利用網(wǎng)絡(luò)上各種媒體、組織及個人發(fā)布、共享的數(shù)據(jù)建立的,由6個模塊組成,分別為搜索、企業(yè)綜合信息、相關(guān)企業(yè)、企業(yè)知識網(wǎng)絡(luò)、詳細(xì)信息和企業(yè)事件時間線,其框架如圖2所示。搜索模塊可根據(jù)現(xiàn)有知識庫及網(wǎng)絡(luò)信息搜索為其他模塊提供信息;企業(yè)綜合信息模塊提供企業(yè)基本信息,例如成立時間、核心業(yè)務(wù)類型等;相關(guān)企業(yè)模塊主要顯示相關(guān)企業(yè);企業(yè)知識網(wǎng)絡(luò)模塊是企業(yè)知識圖譜系統(tǒng)的核心模塊,它是由企業(yè)相關(guān)知識節(jié)點組成的關(guān)系網(wǎng)絡(luò),可以從中發(fā)現(xiàn)企業(yè)、產(chǎn)品、顧客、供應(yīng)商等之間的關(guān)系;企業(yè)事件時間線模塊提供企業(yè)重大事件熱度隨時間變化的情況,并可與企業(yè)知識網(wǎng)絡(luò)進(jìn)行交互來展示與事件相關(guān)的知識節(jié)點分布;詳細(xì)信息模塊則是進(jìn)行網(wǎng)絡(luò)或時間線交互時對應(yīng)的詳細(xì)信息。
3案例研究及結(jié)果分析
本研究以“中國平安集團”為關(guān)鍵詞爬取從2014年1月到2015年4月的數(shù)據(jù),按照搜索熱度篩選出關(guān)注度較高的事件,并進(jìn)一步提取出事件新聞中的實體及實體關(guān)系,建立企業(yè)知識圖譜。
圖3為平安集團企業(yè)知識圖譜系統(tǒng)。左側(cè)為企業(yè)相關(guān)信息,其中,上部為企業(yè)知識匯總,中部為與平安相關(guān)聯(lián)的企業(yè)。中間核心部分為企業(yè)知識圖譜可視化結(jié)果。右側(cè)為知識圖譜中知識節(jié)點的詳細(xì)信息。企業(yè)知識圖譜中較關(guān)注的知識節(jié)點為相關(guān)企業(yè)、顧客、相關(guān)任務(wù)及品牌等,因此本文主要對以上知識進(jìn)行可視分析。其中的核心節(jié)點為中國平安昆山支行和上海平安保潔服務(wù)公司,第一核心集合為平安及其相關(guān)公司,其次是地域和組織等,根據(jù)與同一節(jié)點相連接的同類節(jié)點鄰近布局原則,將建筑工程意外險等險種作為產(chǎn)品與中國平安昆山支行關(guān)聯(lián),據(jù)此可得出平安的客戶主要有房產(chǎn)開發(fā)與建筑公司、物流公司和生產(chǎn)型企業(yè),蘭州同信汽車服務(wù)有限公司通過車輛保險與中國平安相關(guān)聯(lián)。底部使用不等距折線圖來表達(dá)企業(yè)相關(guān)的新聞、輿論事件隨時間變化的熱度變化。圖4中間核心部分是在企業(yè)知識圖網(wǎng)絡(luò)布局上進(jìn)行的集合可視化分析結(jié)果。對比圖3和圖4可以看出,在關(guān)系網(wǎng)絡(luò)布局基礎(chǔ)上進(jìn)行的集合可視化有助于理解信息分類及分布。
圖5為知識圖譜交互示意圖,如選中“曹斌(經(jīng)理)”節(jié)點后,其相關(guān)節(jié)點也會被放大,同時系統(tǒng)右側(cè)面板將提供該節(jié)點相關(guān)信息。圖6展示了事件交互操作,點擊時間點時,系統(tǒng)會彈框顯示事件相關(guān)信息等。如事件“平安銀行前員工涉嫌民間集資,金額或上億”影響最高,相關(guān)知識節(jié)點為平安銀行松江新城支行、客戶經(jīng)理、上海市銀行同業(yè)公會、上海銀監(jiān)會、民間集資和平安銀行寧波分行,其中上海市銀行同業(yè)公會和上海銀監(jiān)會為相應(yīng)的監(jiān)管部門,平安銀行寧波支行也曾發(fā)生過類似的案例,因此都與之相關(guān)聯(lián)。
由上述分析可知,建立企業(yè)知識圖譜并進(jìn)行集合可視化具有如下優(yōu)勢:首先可以快速了解公司基本信息,如業(yè)務(wù)類型、公司性質(zhì)等,其次能夠根據(jù)企業(yè)知識圖譜中的節(jié)點關(guān)系了解平安集團相關(guān)公司、相關(guān)人物、相關(guān)地域、相關(guān)產(chǎn)品及其客戶等信息,最后可以追蹤查看企業(yè)相關(guān)事件及其在知識圖譜中涉及到的知識節(jié)點。
4結(jié)束語
企業(yè)知識圖譜在數(shù)據(jù)分析與挖掘方面具有重要作用。為了更清晰地表達(dá)屬于同一集合的信息及集合間的相互關(guān)系,本文在網(wǎng)絡(luò)圖布局基礎(chǔ)上進(jìn)行集合可視化,使用集合路徑連接集合中的各節(jié)點,針對集合路徑之間的交叉問題,進(jìn)一步引入集合因素,提供相應(yīng)的交互,實現(xiàn)簡單的企業(yè)知識圖譜,并進(jìn)行可視化及結(jié)果分析,挖掘出企業(yè)、地域、人物及產(chǎn)品等之間的關(guān)系及企業(yè)的事件發(fā)展與時間的關(guān)系。未來,我們將完善企業(yè)知識圖譜構(gòu)建方法及可視化方法,進(jìn)行更深入的知識分析,以挖掘更豐富更有價值的信息。
[參考文獻(xiàn)]
[1]金貴陽, 呂福在, 項占琴. 基于知識圖譜和語義網(wǎng)絡(luò)技術(shù)的企業(yè)信息集成方法[J]. 東南大學(xué)學(xué)報(自然科學(xué)版), 2014, 44(2): 250-255.
[2]張志強, 冷伏海, 劉清, 等. 知識分析及其應(yīng)用發(fā)展趨勢研究[J]. 情報科學(xué), 2010, 28(7):1100-1107.
[3]Davenport T H, Prusak L. Working knowledge: How organizations manage what they know[M]. Boston: Harvard Business Press, 1998: 196-223.
[4]杜亞軍, 吳越. 微博知識圖譜構(gòu)建方法研究[J]. 西華大學(xué)學(xué)報(自然科學(xué)版) , 2015, 34(1): 27-35.
[5]邱均平, 呂紅. 基于知識圖譜的國內(nèi)知識管理發(fā)展研究[J]. 情報學(xué)報, 2013, 32(5): 548-560.
[6]Pechsiri C, Piriyakul R. Explanation knowledge graph construction through causality extraction from texts[J]. Journal of Computer Science and Technology, 2010, 25(5): 1055-1070.
[7]田一鳴, 陸陽, 葛方振, 等. 虛擬力引導(dǎo)蟻群算法的WSN全局控制鏈路實現(xiàn)策略[J]. 計算機研究與發(fā)展, 2010, 47(Suppl.): 26-30.
[收稿日期]2016-01-19
[基金項目]安徽省教育廳自然科學(xué)基金重點項目“基于翻譯模型和網(wǎng)絡(luò)挖掘相結(jié)合的命名實體翻譯方法研究”(項目編號:KJ2014A081);安徽省高等教育振興計劃重大教學(xué)改革研究項目“成人高等教育遠(yuǎn)程化教學(xué)模式改革網(wǎng)上教學(xué)支持服務(wù)體系的構(gòu)建與實踐”(項目編號:2014zdjy192)
[作者簡介]董露露(1991-),女,安徽阜陽人,助教,碩士。研究方向:數(shù)據(jù)挖掘、信息檢索。
[中圖分類號]TP391
[文獻(xiàn)標(biāo)識碼]A
[文章編號]1674-2273(2016)03-0028-03