国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鏈路預測的知識結構與研究熱點

2017-02-15 17:35余黃櫻子
現代商貿工業(yè) 2016年17期
關鍵詞:知識結構熱點鏈路

余黃櫻子

摘要:近年來,隨著網絡科學的迅猛發(fā)展,鏈路預測成為目前的研究熱點。因其有著廣泛的應用,例如電子商務網站中的商品推薦,Facebook、Twitter等各種社交平臺中的好友推薦,以及在生物領域中蛋白質或者是基因的網絡機制與功能推測等,如何進行精準的鏈路預測的問題儼然備受矚目。為了更加全面而深入地了解鏈路預測領域,以“Web of Science”核心合集收錄的期刊論文及其參考文獻為研究對象,利用關鍵詞共現網絡、文獻共被引網絡以及突現詞分析,借助CiteSpace軟件進行信息可視化,對鏈路預測的知識結構與研究熱點進行了深入分析。

關鍵詞:鏈路預測;知識圖譜;CiteSpace

中圖分類號:F27

文獻標識碼:A

doi:10.19311/j.cnki.16723198.2016.17.032

0引言

隨著互聯(lián)網技術的日新月異,各種知識呈現出指數級的爆炸增長趨勢,人們對“網絡”一詞的理解也越來越豐富。起初,人們僅僅認識到計算機組成的萬維網網絡,后來隨著認識的逐漸深入,人們發(fā)現生活中無處不存在著網狀結構的事物。比如說社交網絡的代表之一,新浪微博中的不同用戶組成的復雜的人際關系網絡,生物領域中的蛋白質分子結構呈現出來的網狀結構,學術領域中存在的引文網絡等。因此,對網絡科學的研究,已成為當下的研究熱點。然而,更重要的是,網絡是動態(tài)變化的,研究各種不同網絡的性質及其拓撲結構等相關知識最終是為了了解網絡的發(fā)展規(guī)律,對網絡的演化方向和趨勢進行預測,也就是進行鏈路預測,從而更好地應對網絡中的突變現象,并將這些知識應用到實際網絡中。例如,電子商務網站中的“您可能喜歡的商品”推薦、科技文獻下載后的“您可能感興趣的文獻”推薦,Facebook中的關注對象的推薦等等,由此可見,實際生活中無處不在將鏈路預測的成果進行應用。因而,鏈路預測儼然成為目前的研究熱點和難點。

一般而言,學科領域知識發(fā)展脈絡由該領域公認的“學術大牛”來完成對該學科知識的綜合梳理。通常都是利用過去已有的文獻進行人工梳理,很少利用統(tǒng)計工具或者可視化軟件完成。本文采用客觀計量的方式,以2005年到2015年間,“Web of Science”核心合集收錄的與鏈路預測相關的期刊論文及其參考文獻為研究對象,借助陳超美開發(fā)的CiteSpace分析軟件,通過文獻之間存在的引用和被引用的關系進行鏈路預測領域的知識結構和研究熱點的整理和發(fā)現,為之后相關領域的深入奠定基礎。

1CiteSpace工具介紹及數據采集

CiteSpace是由陳超美博士開發(fā)的一款對科學文獻進行可視化分析的軟件,它能夠顯示一個學科或只適應于在一定時期發(fā)展的趨勢和動向,形成若干研究前沿領域的演進歷程。它可以分析主流數據庫的各種科學文獻,并且無需對文獻進行繁瑣的數據預處理,只需用戶進行簡單的操作,即可自動生成揭示某學科領域知識結構隨著時間的演變趨勢,幫助用戶迅速發(fā)現研究某學科領域的領軍人物、相關研究機構和科研人員,還可以幫助用戶梳理整個學科領域的知識圖譜,以便更全面地認識該學科領域。

考慮到文獻的質量,本文的數據源自Web of Science(以下簡稱WOS)引文索引數據庫中的核心合集中的“SCI-EXPANDED”,以“l(fā)ink Prediction”為主題,文獻類型選擇“Article”,時間跨度從2005年到2015年,語種選擇英語,進行檢索,總共檢索到11995篇文獻記錄。文獻記錄下載時間為2016年4月24日。

2鏈路預測的知識結構分析

由于引用文獻與被引用文獻的研究內容之間存在著相關性,并且各種參考文獻之間同樣存在著這種內容研究上的關聯(lián),參考文獻之間的這種關系會隨著被引次數的增加而加強?;诖耍⒁木W絡即可細分該領域的研究方向,厘清該領域研究的發(fā)展脈絡,因此網絡中被引頻次高的文獻即可被看作是本領域的知識基礎。

本文利用CiteSpace軟件對上述從WOS上下載文獻記錄的相關數據進行分析。其中,時間區(qū)間選擇2005年到2015年,時間分割默認為為1年,術語來源選擇標題、摘要、關鍵詞,屬于類型選擇burst terms,即頻次變化率高的詞。在引文數量(C)、共被引頻次(CC)和共被引系數(CCV)三個層次上,按前中后三個時區(qū)分別設定閾值為(2,2,20),(4,3,20),(4,3,20),其余的由線性內插值來決定。由于文獻數量較多,因此需要對復雜的網絡進行剪裁,則相關的參數設置為路徑尋找、修剪片段網絡和合并網絡,最終生成靜態(tài)聚類圖,最終以合并網絡的形式展示結果。結果如表1所示。

利用CiteSpace繪制出鏈路預測領域的11995篇文獻的共被引分析圖譜,結果見圖1。

在圖1中,整個文獻共被引網絡由345個節(jié)點、370條連邊組成。其中,每一個圓形節(jié)點都表示一篇被引文獻,引文年輪表示該篇文獻的引文歷史,引文年輪的顏色表示相應的引文時間,每一個年輪的厚度與某個時間分區(qū)內引文數量成正比。兩個節(jié)點之間連線的粗細表示節(jié)點共被引的次數,線條越粗表示共被引次數越多。其中帶有紫紅色光圈的節(jié)點具有較高的中心性,與其他節(jié)點之間的聯(lián)系也越緊密。

其次,利用聚類算法對數似然比(Log-Likelihood Ratio,以下簡稱LLR)算法進行文獻共被引聚類,其中,聚類指標Modularity Q為0.8639、Mean silhouette為0.4171,聚類結果見圖2。

由于聚類指標Modularity Q介于0和1之間,數值越趨向于1,說明模塊性越好,聚類內的聯(lián)系越緊密,聚類間的聯(lián)系越松散。Mean silhouette的取值介于-1到1之間,值越趨向于1,則聚類主題越明確,聚類內文章內容越相似。由此可見,本文的聚類效果是較好的。

聚類產生15個類別,表示鏈路預測領域涵蓋了15個研究類群,從LLR算法抽詞并對每個類進行自動標引的結果來看,見表2。鏈路預測主要是在生物學、醫(yī)學、人類學、社會學、網絡科學中的研究居多。其中在生物學,主要是研究基因的表達、蛋白質的結構和功能預測;在醫(yī)學,主要是研究疾病的傳播、預測與控制;在人類學中,主要是研究物種的形成、群落的演化;在社會學中,主要是研究社會輿情、突發(fā)事件在網絡上的傳播、預測和控制;在網絡科學中,主要是研究復雜網絡的結構、性質,以及各種預測算法,主要偏于理論化。

3鏈路預測的研究熱點

研究熱點指的是在特定時間段內,相對較多的論文研究的主題呈現出一種集中趨勢。本文將從關鍵詞的共現分析來總結出研究熱點。CiteSpace的各種參數與分析共被引文獻的參數設置相同,熱點詞匯圖譜見圖3。網絡中共有116個節(jié)點,128條連邊。

然后選取LLR算法對每個聚類標簽進行標引結果產生11個聚類,即表示鏈路預測領域的11個研究熱點(圖4),其中,聚類指標Modularity Q為0.8054、Mean silhouette為0.9083,說明聚類效果很好,即類與類之間差別足夠大,類內節(jié)點足夠相似。

由于CiteSpace中對關鍵詞的分析是從原文的題目、摘要、關鍵詞中抽取,而這些詞帶有作者本身的主觀性,聚類標簽可能無法精確表達研究熱點。因此,在CiteSpace聚類的基礎上,對聚類的施引文獻和被引文獻進行全面分析,本文總結出鏈路預測領域以下研究熱點。

3.1生物網絡領域

幾十億年來,生物一直在進化。無論是微觀上的一個細胞還是宏觀上的一個物種,其內部結構都在不斷地發(fā)生演化,傳統(tǒng)的關于生物的研究已經是相對比較成熟了,而網絡生物學的發(fā)展給生物學領域的研究帶來了全新的視角,尤其是生物網絡中的鏈路預測研究。例如,利用蛋白質之間的相互作用,預測蛋白質的結構和功能。根據基因的表達來預測人類致病基因等等。這些在現代醫(yī)學中有很多應用。

3.2社會網絡領域

社會網絡就是以人或者組織為節(jié)點的社會關系網絡,如Facebook、Twitter、新浪微博、引文網絡等等。近年來,社交網絡蓬勃興起,社交網絡上的關注對象、話題推薦或者朋友推薦就是鏈路預測的一個很好的應用。WANG Peng等人總結出在社會網絡中,鏈路預測研究主要是在社會化推薦、關系預測、網絡重構、在學術領域中尋找專家和合作者等方面。

3.3網絡理論研究

與網絡理論相關的研究就是針對網絡的結構、性質和演化機理進行研究。如何利用網絡的拓撲結構和節(jié)點屬性刻畫網絡,進而更好地對網絡的發(fā)展趨勢進行預測,是目前理論研究的熱點。如何處理超規(guī)模網絡、多層異質網絡,如何提高預測精度是目前研究的重點和難點。

4結論

本文利用CiteSpace文獻計量工具對鏈路預測領域的知識結構和研究熱點進行分析,研究表明:鏈路預測的知識結構涵蓋了多門學科,研究十分廣泛,主要集中于生物網絡、社會網絡、網絡理論研究。

本文的不足之處在于,僅僅只是涵蓋了WOS中的SCI數據庫中的文獻進行分析,忽略了未被收錄的而且質量高的文獻,在一定程度上影響了分析結果。

參考文獻

[1]陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學學研究,2015,33(2):242253.

[2]衛(wèi)軍朝,蔚海燕.基于CiteSpaceⅡ的數字圖書館研究熱點分析[J].圖書館雜志,2011,30(4):7077.

[3]Mamitsuka H.Mining from protein–protein interactions[J].Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2012,2(5):400410.

[4]Wu X,Jiang R,Zhang M Q,et al.Network‐based global inference of human disease genes[J].Molecular systems biology,2008,4(1):189.

[5]Wang P,Xu B W,Wu Y R,et al.Link prediction in social networks:the state-of-the-art[J].Science China Information Sciences,2015,58(1):138.

[6]呂琳媛,周濤.鏈路預測[M].北京:高等教育出版社,2013.

猜你喜歡
知識結構熱點鏈路
家紡“全鏈路”升級
熱點
把握核心概念 優(yōu)化知識結構
我國正當防衛(wèi)研究的網絡知識結構與核心脈絡
熱點
概率統(tǒng)計知識結構與方法拓展
結合熱點做演講
基于九因子模型的新手教師TPACK知識結構分析
基于3G的VPDN技術在高速公路備份鏈路中的應用
高速光纖鏈路通信HSSL的設計與實現
法库县| 新野县| 左贡县| 通渭县| 常德市| 准格尔旗| 尼勒克县| 十堰市| 涞源县| 烟台市| 田东县| 疏勒县| 泰来县| 凤冈县| 牟定县| 隆化县| 桐城市| 增城市| 比如县| 昂仁县| 富源县| 资中县| 曲靖市| 大新县| 余干县| 大石桥市| 聊城市| 诸暨市| 阿克陶县| 南岸区| 长治市| 云浮市| 桃园县| 濮阳县| 霍林郭勒市| 宝应县| 平塘县| 方正县| 池州市| 涡阳县| 常熟市|