中文文獻(xiàn)關(guān)鍵詞分布特性研究

2019-12-12 07:06冶忠林趙海興楊燕琳

計算機應(yīng)用與軟件 2019年12期

孟磊冶忠林趙海興，4* 楊燕琳

1(青海師范大學(xué)計算機學(xué)院青海西寧 810016)2(青海省藏文信息處理與機器翻譯重點實驗室青海西寧 810008)3(藏文信息處理教育部重點實驗室青海西寧 810008)4(陜西師范大學(xué)計算機科學(xué)學(xué)院陜西西安 710062)

0 引言

近年來，如何根據(jù)文獻(xiàn)中的一些字詞的分布特征，去更好地了解語言的發(fā)展、各個學(xué)科領(lǐng)域之間的關(guān)系、知識擴(kuò)散和科研話題成為一個熱門研究方向，而其中最常用的方法為Zipf定律。例如，劉宇凡等[1]通過分析唐代以來漢語文學(xué)中字頻的分布，發(fā)現(xiàn)了在每個不同的歷史時期漢字的使用存在差異，但在比較相近時期漢字的使用習(xí)慣是基本一致的；曹盼盼等[2]建立寫信間隔時間漂移冪律分布模型，說明了人類書信時間既服從Zipf定律又滿足冪律分布；鄭亞斌等[3]通過用自然語言處理對歌詞做了一些相關(guān)實驗，驗證了歌詞分布基本符合Zipf定律；劉勝久等[4]提出了網(wǎng)絡(luò)信息計量學(xué)可能存在Zipf定律的猜想，并通過實驗結(jié)果很好地證明了此猜想。

目前，針對自動文本摘要生成的研究已經(jīng)取得了巨大的成功[5]，而基于這些成熟的摘要生成算法，構(gòu)建文本的關(guān)鍵詞也是較為容易的。因此，研究如何生成文本(如，科研論文)的摘要或者關(guān)鍵詞的理論體系和工程框架已經(jīng)成熟，但是，針對構(gòu)建出來的關(guān)鍵詞的特性的研究成果卻較為少見。

關(guān)鍵詞作為表述論文的中心內(nèi)容有實質(zhì)意義的代表詞匯，既反映了研究成果的核心內(nèi)容，又揭示了科研內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的方向，更為檢索提供了重要手段。同時，關(guān)鍵詞分析是研究文獻(xiàn)計量學(xué)的重要手段，關(guān)鍵詞分析是通過將文獻(xiàn)著作中的眾多影響因素聯(lián)合分析，客觀評價文獻(xiàn)和相關(guān)學(xué)者的學(xué)術(shù)水平，預(yù)測熱點研究趨勢[6-7]。

本文主要研究中文文獻(xiàn)中關(guān)鍵詞在不同學(xué)科內(nèi)的分布特性。為了實現(xiàn)該研究目標(biāo)，可將本文研究的具體細(xì)節(jié)歸納為三個方面。

首先，本文將關(guān)鍵詞分類，即在本文中主要研究三個領(lǐng)域內(nèi)(人工智能、生物、財經(jīng))的關(guān)鍵詞在不同搜索引擎中搜索結(jié)果數(shù)和排名分布特性；其次，在百度學(xué)術(shù)中爬取三個領(lǐng)域內(nèi)的關(guān)鍵詞，分析每個關(guān)鍵詞近三年(2018年、2017年、2016年)的搜索結(jié)果數(shù)和排名在各自的領(lǐng)域內(nèi)是否符合Zipf定律，并歸納不同科學(xué)領(lǐng)域在不同年份內(nèi)的Zipf參數(shù)規(guī)律；最后，為了研究關(guān)鍵詞和相關(guān)學(xué)者之間的關(guān)系，本文又構(gòu)建了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型，并基于該超網(wǎng)絡(luò)模型對一些指標(biāo)進(jìn)行了衡量，歸納總結(jié)了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型的一些特性。

本文主要對以上三個方面展開研究工作，且本文的研究成果可提供一些有趣的結(jié)論，對于研究關(guān)鍵詞分布特征特性提供了理論支撐和數(shù)據(jù)支持。

1 相關(guān)工作

目前，針對引文網(wǎng)絡(luò)的研究主要是基于普通的點邊網(wǎng)絡(luò)進(jìn)行研究。例如，Kajikawa等[8]采用引文網(wǎng)絡(luò)分析的方法，對能源研究中的新興研究領(lǐng)域進(jìn)行了跟蹤研究，證實了燃料電池和太陽能電池在能源研究領(lǐng)域正在迅速發(fā)展；肖雪等[9]對每個領(lǐng)域的知識研究進(jìn)展、關(guān)鍵詞的分布、主題功能的分析，對引文網(wǎng)絡(luò)的社團(tuán)劃分進(jìn)展進(jìn)行綜述性研究；陳云偉[10]通過引文網(wǎng)絡(luò)演化結(jié)構(gòu)特征等的分析對新方法、新領(lǐng)域和新應(yīng)用進(jìn)行了解讀；White等[11]通過對引文網(wǎng)絡(luò)中的合作者之間的通訊方式及社會距離的分析，解釋了合作在科研中的作用，并且分析了一些學(xué)派、團(tuán)隊形成的過程；劉萍等[12]構(gòu)建了加權(quán)文獻(xiàn)引文網(wǎng)絡(luò)，并結(jié)合傳統(tǒng)引文網(wǎng)絡(luò)指標(biāo)和學(xué)者文獻(xiàn)的引用關(guān)系，對學(xué)者的學(xué)術(shù)影響力進(jìn)行綜合評測。

由于普通的點邊網(wǎng)絡(luò)無法表示網(wǎng)絡(luò)中的高階的信息關(guān)聯(lián)，所以超網(wǎng)絡(luò)模型逐漸被引入到網(wǎng)絡(luò)分析任務(wù)中。例如，索琪等[13]就基于超圖的超網(wǎng)絡(luò)進(jìn)行討論，分析了這類超網(wǎng)絡(luò)的結(jié)構(gòu)及其演化機制；胡楓等[14]構(gòu)建了基于超圖的科研合作超網(wǎng)絡(luò)模型，通過理論和實驗數(shù)據(jù)分析了此超網(wǎng)絡(luò)的超度，發(fā)現(xiàn)超度分布基本符合冪律分布；劉勝久等[15]從超網(wǎng)絡(luò)的關(guān)聯(lián)矩陣出發(fā)，對超網(wǎng)絡(luò)進(jìn)行分析研究，總結(jié)出了一些基于矩陣運算的構(gòu)建超網(wǎng)絡(luò)模型的性質(zhì)；孫海生[16]選擇前沿論文中的主題特征詞作為研究對象并且構(gòu)建超網(wǎng)絡(luò)模型，通過對該超網(wǎng)絡(luò)的特性分析表明，這種方法能夠體現(xiàn)出特征詞在各個聚類主題中的重要性；梁曉賀等[17]構(gòu)建基于微博輿情的超網(wǎng)絡(luò)模型，包含用戶—觀點—情感—時序四層，揭示了每層子網(wǎng)的特征信息，超網(wǎng)絡(luò)模型的超邊可用于輿情預(yù)警、輿情主題挖掘及輿情主題演化分析。

2 方法設(shè)計

2.1 方法流程

本文主要是分析引文網(wǎng)絡(luò)中關(guān)鍵詞的分布特性，并分析關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型特征。為了實現(xiàn)這兩個研究目標(biāo)，本文設(shè)計了一種方法驗證流程，如圖1所示。首先使用Python程序進(jìn)行關(guān)鍵詞爬取；然后把爬取到三個領(lǐng)域內(nèi)的關(guān)鍵詞輸入到三個學(xué)術(shù)搜索引擎中進(jìn)行搜索，并將得到的詞的頻數(shù)存入本地，同時將三個領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中進(jìn)行搜索，把得到的近三年的詞頻和相關(guān)學(xué)者存入本地；最后，本文通過對爬取得到的關(guān)鍵詞的數(shù)據(jù)進(jìn)行擬合、分析，驗證其頻數(shù)是否符合Zipf定律并對構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析。

圖1 本文主要研究方法流程

2.2 關(guān)鍵詞爬取

本文研究的關(guān)鍵詞是中文文獻(xiàn)中的關(guān)鍵詞，主要研究了人工智能、生物和財經(jīng)三個領(lǐng)域內(nèi)的關(guān)鍵詞。

本文通過Python程序在中國科學(xué)等雜志期刊上爬取人工智能、生物和財經(jīng)三個領(lǐng)域的文獻(xiàn)，然后將關(guān)鍵詞提取出來，對提取出來的關(guān)鍵詞進(jìn)行去除重復(fù)、去除單個字、去除英文處理，最終得到我們需要的關(guān)鍵詞。主要步驟如圖2所示。

圖2 關(guān)鍵詞獲取流程圖

(1) 論文獲取。對本文研究的三個領(lǐng)域(人工智能、生物和財經(jīng))在中國科學(xué)等雜志期刊中進(jìn)行搜索并爬取論文的作者、關(guān)鍵詞、摘要等內(nèi)容。

(2) 關(guān)鍵詞提取。在爬取得到的論文中將關(guān)鍵詞提取出來。

(3) 關(guān)鍵詞篩選。將提取出來的關(guān)鍵詞做去重、去單個字和去英文處理。

2.3 關(guān)鍵詞詞頻與相關(guān)學(xué)者獲取

本文研究的關(guān)鍵詞詞頻是指關(guān)鍵詞在搜索引擎中搜索了以后得到的搜索結(jié)果數(shù)。如圖3所示，橢圓框里面的搜索結(jié)果為關(guān)鍵詞詞頻。

(a) 知網(wǎng)關(guān)鍵詞詞頻示例

(b) 百度學(xué)術(shù)關(guān)鍵詞詞頻示例

另外，本文還對三個領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中近三年的詞頻分布、與關(guān)鍵詞相關(guān)的學(xué)者進(jìn)行分析研究，圖4為獲取的百度學(xué)術(shù)中近三年詞頻和相關(guān)作者展示。長方框內(nèi)為關(guān)鍵詞2018年、2017年和2016年的詞頻，橢圓框內(nèi)為與此關(guān)鍵詞相關(guān)的學(xué)者作家。

圖4 百度學(xué)術(shù)搜索引擎近三年詞頻與相關(guān)學(xué)者

2.4 Zipf定律

Zipf定律最早由美國語音學(xué)家George Kingsley Zipf提出，是最早被提出的文獻(xiàn)計量學(xué)定律之一。Zipf定律的描述[20]如下：設(shè)一個文本為T(詞量充分多)，其含有W個不同的詞。若將這W個不同的詞在文本T中出現(xiàn)的頻次f統(tǒng)計出來，并且把詞的頻次按照從高到低的順序排列起來，然后用自然數(shù)順序從1(對應(yīng)最高頻次)到s(對應(yīng)最低頻次)將每個頻次編上序號r(r=1,2,…,s),則rf=c(c為一常數(shù))。還有另外一種指數(shù)形式p(r)=Cr-β，其中p(r)為排序在第r位置的詞出現(xiàn)的頻率，β為Zipf指數(shù)，C為常數(shù)。

Zipf定律的提出在文獻(xiàn)計量學(xué)、語言學(xué)界引起轟動，通過其他專家學(xué)者陸續(xù)不斷的研究，證實了各種語言的詞頻分布都基本符合這一定律，使得人們對詞頻的分布認(rèn)識更為深刻，這一定律也對其他許多學(xué)科產(chǎn)生一定的影響[18-20]。構(gòu)建Zipf實驗的算法部分MATLAB偽代碼如下：

data=xlsread(′Bing學(xué)術(shù)-財經(jīng).xlsx′);

x=data(:,2);

y=data(:,1);

loglog(x,y,′.′);

xlabel;

ylabel;

2.5 超網(wǎng)絡(luò)模型

目前為止，對于超網(wǎng)絡(luò)的概念并沒有明確的定義，在學(xué)術(shù)界現(xiàn)在公認(rèn)的超網(wǎng)絡(luò)的定義主要有兩種：基于超圖的超網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)?；诰W(wǎng)絡(luò)的超網(wǎng)絡(luò)是指那些鏈接方式比較復(fù)雜，規(guī)模比較巨大的網(wǎng)絡(luò)，還有一些超網(wǎng)絡(luò)是一個網(wǎng)絡(luò)中嵌套著另一個網(wǎng)絡(luò)的大型網(wǎng)絡(luò)，這些都是基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)(Supernetwork)[21-22]。

本文中構(gòu)建的超網(wǎng)絡(luò)模型是基于超圖的超網(wǎng)絡(luò)，其中關(guān)鍵詞作為超網(wǎng)絡(luò)的超邊，相關(guān)知名學(xué)者作為超網(wǎng)絡(luò)的節(jié)點?；跇?gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型，可以構(gòu)建出超網(wǎng)絡(luò)在雙對數(shù)坐標(biāo)下的超度分布，具體算法如下：

(1) 初始化：超網(wǎng)絡(luò)中的節(jié)點vi，i=1,2,3,…,n。

(2) 遞歸：檢查超網(wǎng)絡(luò)中的所有節(jié)點，若節(jié)點vi和vj屬于同一關(guān)鍵詞，那么就將節(jié)點vi和vj放入表示該關(guān)鍵詞的超邊E中。

(3) 算法結(jié)束：超網(wǎng)絡(luò)中的所有節(jié)點全部檢查完畢。

構(gòu)建關(guān)聯(lián)矩陣部分Java代碼和構(gòu)建超網(wǎng)絡(luò)模型的超度分布的部分MATLAB代碼如下：

構(gòu)建關(guān)聯(lián)矩陣

Scanner sc=new Scanner(System.in);

int VexNum=sc.nextInt();

int HyperEgeNum=sc.nextInt();

int CMatirx=new int[HyperEgeNum+1][VexNum+1];

int indexVex=new int[HyperEgeNum+1][VexNum+1];

int c=0;

try {

Scanner in=new Scanner(new File(".txt"));

while (in.hasNextLine()) {

int k=1;

c++;

for (int j=0;j

k++;

}

in.close();

}

超網(wǎng)絡(luò)的超度分布

B=關(guān)聯(lián)矩陣; A=B′;

df=sum(A>0);

pp2=tabulate(df);

sw=find(pp2(:,3)>0);

x_value=pp2(sw,1);

y_value=pp2(sw,3)/100;

p3=polyfit(log(x_value),log(y_value),1);

kx=p3(1);

b=p3(2);

x2=minvalue:maxvalue;

y2=exp(polyval(p3,log(x2)));

loglog(pp2(sw,1),pp2(sw,3)；

xlabel；ylabel；

3 實驗

3.1 數(shù)據(jù)集說明

由于目前還沒有比較完整、權(quán)威的中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)庫，本文的所有實驗數(shù)據(jù)集均由互聯(lián)網(wǎng)搜集所得，此數(shù)據(jù)集是通過我們設(shè)計的一個Python爬蟲程序爬取得到。

首先，本文在《中國科學(xué)》期刊分三個領(lǐng)域(人工智能、生物、財經(jīng))共爬取約6 000篇文章(每個領(lǐng)域約2 000篇)并將關(guān)鍵詞提取出來，得到約18 000個關(guān)鍵詞。又由于在這約18 000個關(guān)鍵詞中存在單個字、純英文、重復(fù)以及一些地名人名，對其進(jìn)行去重和篩選，最終得到能用于本文研究的關(guān)鍵詞共有約7 500詞(每個領(lǐng)域約2 500詞)。其次，我們將這7 500個關(guān)鍵詞分別輸入到百度學(xué)術(shù)、Bing學(xué)術(shù)和知網(wǎng)這三個學(xué)術(shù)搜索引擎中進(jìn)行搜索并將其得到的搜索結(jié)果數(shù)進(jìn)行統(tǒng)計，然后對所得結(jié)果數(shù)按照降序排列，即得到我們最終需要的研究數(shù)據(jù)。另外，在百度學(xué)術(shù)搜索引擎中，本文不僅爬取了總的結(jié)果數(shù)，還爬取了近三年(2018、2017和2016年)的搜索結(jié)果數(shù)和與此關(guān)鍵詞有關(guān)的相關(guān)知名學(xué)者。

3.2 實驗結(jié)果及其分析

本文主要通過三方面對關(guān)鍵詞的分布特性進(jìn)行研究。一方面是驗證不同學(xué)科的關(guān)鍵詞詞頻與其排名分布是否符合Zipf定律，另一方面是分析不同學(xué)科內(nèi)的關(guān)鍵詞近幾年內(nèi)的分布是否符合Zipf定律。本文將詞頻與其排名放在雙堆數(shù)坐標(biāo)系中進(jìn)行擬合，觀察其分布是否符合冪律分布，若符合冪律分布，則關(guān)鍵詞分布符合Zipf定律。最后，本文還對構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析，超網(wǎng)絡(luò)模型的分析主要是分析其超度的分布，本文在雙對數(shù)坐標(biāo)系下將關(guān)鍵詞-超網(wǎng)絡(luò)模型超度分布擬合出來，從而對此超網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。

3.2.1Zipf定律驗證

圖5是人工智能、生物和財經(jīng)三個領(lǐng)域的關(guān)鍵詞在知網(wǎng)、百度學(xué)術(shù)和Bing學(xué)術(shù)三個學(xué)術(shù)搜索引擎中搜索結(jié)果數(shù)目和其對應(yīng)排名在雙對數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(a) 知網(wǎng)-人工智能

(b) 知網(wǎng)-生物

(d) 百度學(xué)術(shù)-人工智能

(e) 百度學(xué)術(shù)-生物

(f) 百度學(xué)術(shù)-財經(jīng)

(g) Bing學(xué)術(shù)-人工智能

(h) Bing學(xué)術(shù)-生物

(i) Bing學(xué)術(shù)-財經(jīng)圖5 搜索結(jié)果數(shù)與排名分布圖

可以看出，除了尾部以外，所有的點都幾乎分布在同一條直線上。我們對上面三組數(shù)據(jù)進(jìn)行擬合，得到如表1所示的回歸方程。從表1中的回歸方程中可以發(fā)現(xiàn)，關(guān)鍵詞的搜索結(jié)果數(shù)和與其相對應(yīng)的排名之間是近似冪律分布。中文文獻(xiàn)關(guān)鍵詞的分布在各自的領(lǐng)域內(nèi)基本符合Zipf定律。

表1 搜索結(jié)果數(shù)與排名分布回歸方程

圖6是人工智能、生物和財經(jīng)三個學(xué)科領(lǐng)域的關(guān)鍵詞在百度學(xué)術(shù)這個學(xué)術(shù)搜索引擎中近三年(2018年、2017年和2016年)的搜索結(jié)果數(shù)目與其對應(yīng)排名在雙對數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(j) 人工智能-2018年

(k) 人工智能-2017年

(l) 人工智能-2016年

(m) 生物-2018年

(n) 生物-2017年

(o) 生物-2016年

(p) 財經(jīng)-2018年

(q) 財經(jīng)-2017年

(r) 財經(jīng)-2016年圖6 近三年搜索結(jié)果數(shù)與排名分布圖

可以看出，除去尾部以外的部分，所有的點依然都幾乎分布在同一條直線上。對上面三組數(shù)據(jù)進(jìn)行擬合，得到如表2所示的回歸方程。從表2中的回歸方程中可以發(fā)現(xiàn)，關(guān)鍵詞近三年的搜索結(jié)果數(shù)和與其相對應(yīng)的排名之間依然是近似冪律分布的。中文文獻(xiàn)中的關(guān)鍵詞在各自的領(lǐng)域內(nèi)，每年都基本符合Zipf定律。

表2 近三年搜索結(jié)果數(shù)與排名分布回歸方程

基于以上實驗結(jié)果，本文得出了如下結(jié)論：

(1) 在每個搜索引擎中三個學(xué)科領(lǐng)域內(nèi)的Zipf指數(shù)是相差不多的(比如在知網(wǎng)中人工智能、生物、財經(jīng)的Zipf指數(shù)分別是-2.2、-2.299、-2.287)；

(2) 人工智能和財經(jīng)領(lǐng)域在Bing學(xué)術(shù)搜索引擎中的R指數(shù)都是0.8左右，比在知網(wǎng)和百度學(xué)術(shù)搜索引擎中的R指數(shù)0.9小很多；

(3) 在近三年的詞頻分布中，三個學(xué)科領(lǐng)域都有較好的擬合結(jié)果，R指數(shù)基本都在0.95左右。

在上述分布曲線圖中，可以明顯看出分布圖的尾部呈現(xiàn)急速的下垂現(xiàn)象，導(dǎo)致這種現(xiàn)象的主要原因是在關(guān)鍵詞詞頻比較低的區(qū)域的關(guān)鍵詞數(shù)量急劇增加。為了分析這種現(xiàn)象，本文對三個學(xué)科領(lǐng)域低頻詞的研究。表3為三個學(xué)科領(lǐng)域一些低頻詞代表，研究發(fā)現(xiàn)低頻詞急劇增加的原因主要有兩方面：一方面是這些低頻詞在自己學(xué)科領(lǐng)域內(nèi)比較專業(yè)，都是一些專業(yè)名詞，比如生物領(lǐng)域內(nèi)的固氨率、共基質(zhì)代謝等詞都是專業(yè)名詞；另一方面，還有一些低頻詞在自己的領(lǐng)域內(nèi)不是研究熱點，沒有得到大家的關(guān)注，比如克隆網(wǎng)絡(luò)和財經(jīng)倫理等詞，都是比較陌生的關(guān)鍵詞。由于這些低頻詞的急劇增加導(dǎo)致尾部出現(xiàn)急速下垂現(xiàn)象，但是對大多數(shù)的文本來說，Zipf定律對詞頻的高中區(qū)域基本比較吻合。

表3 低頻詞詞頻統(tǒng)計

續(xù)表3

此外，由于每個學(xué)術(shù)搜索引擎都是每時每刻在更新變化，故在本文中對上述數(shù)據(jù)的分析可能略有一些波動，但是如果某個關(guān)鍵詞沒有在短時間內(nèi)被極度關(guān)注或者成為一個研究爆點，上述實驗結(jié)果具有一定的代表性。

本文又根據(jù)關(guān)鍵詞的詞頻描繪出三個知識領(lǐng)域的詞云圖。圖7為三個領(lǐng)域的關(guān)鍵詞的云詞展示。

(a) 人工智能

(b) 財經(jīng)

由圖7可以清楚地了解到在每個學(xué)科領(lǐng)域中目前較為關(guān)注的熱點話題，比如在人工智能詞云圖中可以發(fā)現(xiàn)目前研究熱點為機器人、專家系統(tǒng)、控制等。

3.2.2超網(wǎng)絡(luò)模型的構(gòu)建與分析

為了更詳細(xì)地了解中文文獻(xiàn)中關(guān)鍵詞的分布，我們分研究領(lǐng)域構(gòu)建了三個關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型，并對這些超網(wǎng)絡(luò)模型做了如下分析。圖8為中文文獻(xiàn)中關(guān)鍵詞在人工智能、生物和財經(jīng)三個領(lǐng)域內(nèi)構(gòu)建的關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型的超度分布圖。其中，我們把關(guān)鍵詞當(dāng)作超邊，把相關(guān)知名學(xué)者當(dāng)作節(jié)點。

(a) 人工智能

(b) 生物

可以看出，節(jié)點的超度分布大致呈冪律分布，說明每個關(guān)鍵詞對應(yīng)的相關(guān)知名學(xué)者在每個領(lǐng)域內(nèi)都呈冪律分布，顯示了無標(biāo)度特性。根據(jù)數(shù)據(jù)擬合出來的回歸方程如表4所示。

表4 超網(wǎng)絡(luò)模型超度分布回歸方程

可以看出，關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型在人工智能、生物和財經(jīng)三個領(lǐng)域中的冪指數(shù)分別為2.857 7、2.220 6、3.058 4。

在超網(wǎng)絡(luò)動態(tài)模型動態(tài)演化時，累積性和優(yōu)先連接性是無標(biāo)度超度分布呈現(xiàn)冪律分布的最主要的兩個原因。累計性就是節(jié)點的增加，對應(yīng)本文中所構(gòu)造的超網(wǎng)絡(luò)模型就是指研究某個關(guān)鍵詞的相關(guān)學(xué)者的增加；優(yōu)先連接性是指度比較大的節(jié)點優(yōu)先連接的概率較大，在本文中指相關(guān)學(xué)者在選取研究話題時通常會優(yōu)先選取比較熱門的話題來研究。

4 結(jié) 語

本文從Zipf定律和超網(wǎng)絡(luò)等幾個方面對中文文獻(xiàn)中的關(guān)鍵詞進(jìn)行分析研究。通過對三個領(lǐng)域內(nèi)的關(guān)鍵詞在三個代表性的學(xué)術(shù)搜索引擎中的搜索結(jié)果數(shù)據(jù)的研究得到驗證，在每個研究領(lǐng)域內(nèi)，關(guān)鍵詞搜索結(jié)果數(shù)和其排名符合Zipf定律。探討了關(guān)鍵詞近三年的搜索結(jié)果數(shù)與其排名是否符合Zipf定律，實驗表明，在每個領(lǐng)域內(nèi)關(guān)鍵詞近三年的搜索結(jié)果數(shù)和其排名也是符合Zipf定律的。構(gòu)造了一個關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型，通過對其超度分布的分析，在每個領(lǐng)域內(nèi)關(guān)鍵詞對應(yīng)的相關(guān)知名學(xué)者遵循冪律分布，表現(xiàn)出比較明顯的無標(biāo)度特征。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡