国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文文獻(xiàn)關(guān)鍵詞分布特性研究

2019-12-12 07:06冶忠林趙海興楊燕琳
計算機應(yīng)用與軟件 2019年12期
關(guān)鍵詞:詞頻定律學(xué)者

孟 磊 冶忠林 趙海興,4* 楊燕琳

1(青海師范大學(xué)計算機學(xué)院 青海 西寧 810016)2(青海省藏文信息處理與機器翻譯重點實驗室 青海 西寧 810008)3(藏文信息處理教育部重點實驗室 青海 西寧 810008)4(陜西師范大學(xué)計算機科學(xué)學(xué)院 陜西 西安 710062)

0 引 言

近年來,如何根據(jù)文獻(xiàn)中的一些字詞的分布特征,去更好地了解語言的發(fā)展、各個學(xué)科領(lǐng)域之間的關(guān)系、知識擴(kuò)散和科研話題成為一個熱門研究方向,而其中最常用的方法為Zipf定律。例如,劉宇凡等[1]通過分析唐代以來漢語文學(xué)中字頻的分布,發(fā)現(xiàn)了在每個不同的歷史時期漢字的使用存在差異,但在比較相近時期漢字的使用習(xí)慣是基本一致的;曹盼盼等[2]建立寫信間隔時間漂移冪律分布模型,說明了人類書信時間既服從Zipf定律又滿足冪律分布;鄭亞斌等[3]通過用自然語言處理對歌詞做了一些相關(guān)實驗,驗證了歌詞分布基本符合Zipf定律;劉勝久等[4]提出了網(wǎng)絡(luò)信息計量學(xué)可能存在Zipf定律的猜想,并通過實驗結(jié)果很好地證明了此猜想。

目前,針對自動文本摘要生成的研究已經(jīng)取得了巨大的成功[5],而基于這些成熟的摘要生成算法,構(gòu)建文本的關(guān)鍵詞也是較為容易的。因此,研究如何生成文本(如,科研論文)的摘要或者關(guān)鍵詞的理論體系和工程框架已經(jīng)成熟,但是,針對構(gòu)建出來的關(guān)鍵詞的特性的研究成果卻較為少見。

關(guān)鍵詞作為表述論文的中心內(nèi)容有實質(zhì)意義的代表詞匯,既反映了研究成果的核心內(nèi)容,又揭示了科研內(nèi)容之間的內(nèi)在聯(lián)系、學(xué)術(shù)研究的方向,更為檢索提供了重要手段。同時,關(guān)鍵詞分析是研究文獻(xiàn)計量學(xué)的重要手段,關(guān)鍵詞分析是通過將文獻(xiàn)著作中的眾多影響因素聯(lián)合分析,客觀評價文獻(xiàn)和相關(guān)學(xué)者的學(xué)術(shù)水平,預(yù)測熱點研究趨勢[6-7]。

本文主要研究中文文獻(xiàn)中關(guān)鍵詞在不同學(xué)科內(nèi)的分布特性。為了實現(xiàn)該研究目標(biāo),可將本文研究的具體細(xì)節(jié)歸納為三個方面。

首先,本文將關(guān)鍵詞分類,即在本文中主要研究三個領(lǐng)域內(nèi)(人工智能、生物、財經(jīng))的關(guān)鍵詞在不同搜索引擎中搜索結(jié)果數(shù)和排名分布特性;其次,在百度學(xué)術(shù)中爬取三個領(lǐng)域內(nèi)的關(guān)鍵詞,分析每個關(guān)鍵詞近三年(2018年、2017年、2016年)的搜索結(jié)果數(shù)和排名在各自的領(lǐng)域內(nèi)是否符合Zipf定律,并歸納不同科學(xué)領(lǐng)域在不同年份內(nèi)的Zipf參數(shù)規(guī)律;最后,為了研究關(guān)鍵詞和相關(guān)學(xué)者之間的關(guān)系,本文又構(gòu)建了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,并基于該超網(wǎng)絡(luò)模型對一些指標(biāo)進(jìn)行了衡量,歸納總結(jié)了關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型的一些特性。

本文主要對以上三個方面展開研究工作,且本文的研究成果可提供一些有趣的結(jié)論,對于研究關(guān)鍵詞分布特征特性提供了理論支撐和數(shù)據(jù)支持。

1 相關(guān)工作

目前,針對引文網(wǎng)絡(luò)的研究主要是基于普通的點邊網(wǎng)絡(luò)進(jìn)行研究。例如,Kajikawa等[8]采用引文網(wǎng)絡(luò)分析的方法,對能源研究中的新興研究領(lǐng)域進(jìn)行了跟蹤研究,證實了燃料電池和太陽能電池在能源研究領(lǐng)域正在迅速發(fā)展;肖雪等[9]對每個領(lǐng)域的知識研究進(jìn)展、關(guān)鍵詞的分布、主題功能的分析,對引文網(wǎng)絡(luò)的社團(tuán)劃分進(jìn)展進(jìn)行綜述性研究;陳云偉[10]通過引文網(wǎng)絡(luò)演化結(jié)構(gòu)特征等的分析對新方法、新領(lǐng)域和新應(yīng)用進(jìn)行了解讀;White等[11]通過對引文網(wǎng)絡(luò)中的合作者之間的通訊方式及社會距離的分析,解釋了合作在科研中的作用,并且分析了一些學(xué)派、團(tuán)隊形成的過程;劉萍等[12]構(gòu)建了加權(quán)文獻(xiàn)引文網(wǎng)絡(luò),并結(jié)合傳統(tǒng)引文網(wǎng)絡(luò)指標(biāo)和學(xué)者文獻(xiàn)的引用關(guān)系,對學(xué)者的學(xué)術(shù)影響力進(jìn)行綜合評測。

由于普通的點邊網(wǎng)絡(luò)無法表示網(wǎng)絡(luò)中的高階的信息關(guān)聯(lián),所以超網(wǎng)絡(luò)模型逐漸被引入到網(wǎng)絡(luò)分析任務(wù)中。例如,索琪等[13]就基于超圖的超網(wǎng)絡(luò)進(jìn)行討論,分析了這類超網(wǎng)絡(luò)的結(jié)構(gòu)及其演化機制;胡楓等[14]構(gòu)建了基于超圖的科研合作超網(wǎng)絡(luò)模型,通過理論和實驗數(shù)據(jù)分析了此超網(wǎng)絡(luò)的超度,發(fā)現(xiàn)超度分布基本符合冪律分布;劉勝久等[15]從超網(wǎng)絡(luò)的關(guān)聯(lián)矩陣出發(fā),對超網(wǎng)絡(luò)進(jìn)行分析研究,總結(jié)出了一些基于矩陣運算的構(gòu)建超網(wǎng)絡(luò)模型的性質(zhì);孫海生[16]選擇前沿論文中的主題特征詞作為研究對象并且構(gòu)建超網(wǎng)絡(luò)模型,通過對該超網(wǎng)絡(luò)的特性分析表明,這種方法能夠體現(xiàn)出特征詞在各個聚類主題中的重要性;梁曉賀等[17]構(gòu)建基于微博輿情的超網(wǎng)絡(luò)模型,包含用戶—觀點—情感—時序四層,揭示了每層子網(wǎng)的特征信息,超網(wǎng)絡(luò)模型的超邊可用于輿情預(yù)警、輿情主題挖掘及輿情主題演化分析。

2 方法設(shè)計

2.1 方法流程

本文主要是分析引文網(wǎng)絡(luò)中關(guān)鍵詞的分布特性,并分析關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型特征。為了實現(xiàn)這兩個研究目標(biāo),本文設(shè)計了一種方法驗證流程,如圖1所示。首先使用Python程序進(jìn)行關(guān)鍵詞爬取;然后把爬取到三個領(lǐng)域內(nèi)的關(guān)鍵詞輸入到三個學(xué)術(shù)搜索引擎中進(jìn)行搜索,并將得到的詞的頻數(shù)存入本地,同時將三個領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中進(jìn)行搜索,把得到的近三年的詞頻和相關(guān)學(xué)者存入本地;最后,本文通過對爬取得到的關(guān)鍵詞的數(shù)據(jù)進(jìn)行擬合、分析,驗證其頻數(shù)是否符合Zipf定律并對構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析。

圖1 本文主要研究方法流程

2.2 關(guān)鍵詞爬取

本文研究的關(guān)鍵詞是中文文獻(xiàn)中的關(guān)鍵詞,主要研究了人工智能、生物和財經(jīng)三個領(lǐng)域內(nèi)的關(guān)鍵詞。

本文通過Python程序在中國科學(xué)等雜志期刊上爬取人工智能、生物和財經(jīng)三個領(lǐng)域的文獻(xiàn),然后將關(guān)鍵詞提取出來,對提取出來的關(guān)鍵詞進(jìn)行去除重復(fù)、去除單個字、去除英文處理,最終得到我們需要的關(guān)鍵詞。主要步驟如圖2所示。

圖2 關(guān)鍵詞獲取流程圖

(1) 論文獲取。對本文研究的三個領(lǐng)域(人工智能、生物和財經(jīng))在中國科學(xué)等雜志期刊中進(jìn)行搜索并爬取論文的作者、關(guān)鍵詞、摘要等內(nèi)容。

(2) 關(guān)鍵詞提取。在爬取得到的論文中將關(guān)鍵詞提取出來。

(3) 關(guān)鍵詞篩選。將提取出來的關(guān)鍵詞做去重、去單個字和去英文處理。

2.3 關(guān)鍵詞詞頻與相關(guān)學(xué)者獲取

本文研究的關(guān)鍵詞詞頻是指關(guān)鍵詞在搜索引擎中搜索了以后得到的搜索結(jié)果數(shù)。如圖3所示,橢圓框里面的搜索結(jié)果為關(guān)鍵詞詞頻。

(a) 知網(wǎng)關(guān)鍵詞詞頻示例

(b) 百度學(xué)術(shù)關(guān)鍵詞詞頻示例

(c) Bing學(xué)術(shù)關(guān)鍵詞詞頻示例圖3 三個搜索引擎中關(guān)鍵詞詞頻示例

另外,本文還對三個領(lǐng)域內(nèi)的關(guān)鍵詞在百度學(xué)術(shù)搜索引擎中近三年的詞頻分布、與關(guān)鍵詞相關(guān)的學(xué)者進(jìn)行分析研究,圖4為獲取的百度學(xué)術(shù)中近三年詞頻和相關(guān)作者展示。長方框內(nèi)為關(guān)鍵詞2018年、2017年和2016年的詞頻,橢圓框內(nèi)為與此關(guān)鍵詞相關(guān)的學(xué)者作家。

圖4 百度學(xué)術(shù)搜索引擎近三年詞頻與相關(guān)學(xué)者

2.4 Zipf定律

Zipf定律最早由美國語音學(xué)家George Kingsley Zipf提出,是最早被提出的文獻(xiàn)計量學(xué)定律之一。Zipf定律的描述[20]如下: 設(shè)一個文本為T(詞量充分多),其含有W個不同的詞。若將這W個不同的詞在文本T中出現(xiàn)的頻次f統(tǒng)計出來,并且把詞的頻次按照從高到低的順序排列起來,然后用自然數(shù)順序從1(對應(yīng)最高頻次)到s(對應(yīng)最低頻次)將每個頻次編上序號r(r=1,2,…,s),則rf=c(c為一常數(shù))。還有另外一種指數(shù)形式p(r)=Cr-β,其中p(r)為排序在第r位置的詞出現(xiàn)的頻率,β為Zipf指數(shù),C為常數(shù)。

Zipf定律的提出在文獻(xiàn)計量學(xué)、語言學(xué)界引起轟動,通過其他專家學(xué)者陸續(xù)不斷的研究,證實了各種語言的詞頻分布都基本符合這一定律,使得人們對詞頻的分布認(rèn)識更為深刻,這一定律也對其他許多學(xué)科產(chǎn)生一定的影響[18-20]。構(gòu)建Zipf實驗的算法部分MATLAB偽代碼如下:

data=xlsread(′Bing學(xué)術(shù)-財經(jīng).xlsx′);

x=data(:,2);

y=data(:,1);

loglog(x,y,′.′);

xlabel;

ylabel;

2.5 超網(wǎng)絡(luò)模型

目前為止,對于超網(wǎng)絡(luò)的概念并沒有明確的定義,在學(xué)術(shù)界現(xiàn)在公認(rèn)的超網(wǎng)絡(luò)的定義主要有兩種:基于超圖的超網(wǎng)絡(luò)和基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)?;诰W(wǎng)絡(luò)的超網(wǎng)絡(luò)是指那些鏈接方式比較復(fù)雜,規(guī)模比較巨大的網(wǎng)絡(luò),還有一些超網(wǎng)絡(luò)是一個網(wǎng)絡(luò)中嵌套著另一個網(wǎng)絡(luò)的大型網(wǎng)絡(luò),這些都是基于網(wǎng)絡(luò)的超網(wǎng)絡(luò)(Supernetwork)[21-22]。

本文中構(gòu)建的超網(wǎng)絡(luò)模型是基于超圖的超網(wǎng)絡(luò),其中關(guān)鍵詞作為超網(wǎng)絡(luò)的超邊,相關(guān)知名學(xué)者作為超網(wǎng)絡(luò)的節(jié)點?;跇?gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型,可以構(gòu)建出超網(wǎng)絡(luò)在雙對數(shù)坐標(biāo)下的超度分布,具體算法如下:

(1) 初始化:超網(wǎng)絡(luò)中的節(jié)點vi,i=1,2,3,…,n。

(2) 遞歸:檢查超網(wǎng)絡(luò)中的所有節(jié)點,若節(jié)點vi和vj屬于同一關(guān)鍵詞,那么就將節(jié)點vi和vj放入表示該關(guān)鍵詞的超邊E中。

(3) 算法結(jié)束:超網(wǎng)絡(luò)中的所有節(jié)點全部檢查完畢。

構(gòu)建關(guān)聯(lián)矩陣部分Java代碼和構(gòu)建超網(wǎng)絡(luò)模型的超度分布的部分MATLAB代碼如下:

構(gòu)建關(guān)聯(lián)矩陣

Scanner sc=new Scanner(System.in);

int VexNum=sc.nextInt();

int HyperEgeNum=sc.nextInt();

int CMatirx=new int[HyperEgeNum+1][VexNum+1];

int indexVex=new int[HyperEgeNum+1][VexNum+1];

int c=0;

try {

Scanner in=new Scanner(new File(".txt"));

while (in.hasNextLine()) {

int k=1;

c++;

for (int j=0;j

k++;

}

}

in.close();

}

超網(wǎng)絡(luò)的超度分布

B=關(guān)聯(lián)矩陣; A=B′;

df=sum(A>0);

pp2=tabulate(df);

sw=find(pp2(:,3)>0);

x_value=pp2(sw,1);

y_value=pp2(sw,3)/100;

p3=polyfit(log(x_value),log(y_value),1);

kx=p3(1);

b=p3(2);

x2=minvalue:maxvalue;

y2=exp(polyval(p3,log(x2)));

loglog(pp2(sw,1),pp2(sw,3);

xlabel;ylabel;

3 實 驗

3.1 數(shù)據(jù)集說明

由于目前還沒有比較完整、權(quán)威的中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)庫,本文的所有實驗數(shù)據(jù)集均由互聯(lián)網(wǎng)搜集所得,此數(shù)據(jù)集是通過我們設(shè)計的一個Python爬蟲程序爬取得到。

首先,本文在《中國科學(xué)》期刊分三個領(lǐng)域(人工智能、生物、財經(jīng))共爬取約6 000篇文章(每個領(lǐng)域約2 000篇)并將關(guān)鍵詞提取出來,得到約18 000個關(guān)鍵詞。又由于在這約18 000個關(guān)鍵詞中存在單個字、純英文、重復(fù)以及一些地名人名,對其進(jìn)行去重和篩選,最終得到能用于本文研究的關(guān)鍵詞共有約7 500詞(每個領(lǐng)域約2 500詞)。其次,我們將這7 500個關(guān)鍵詞分別輸入到百度學(xué)術(shù)、Bing學(xué)術(shù)和知網(wǎng)這三個學(xué)術(shù)搜索引擎中進(jìn)行搜索并將其得到的搜索結(jié)果數(shù)進(jìn)行統(tǒng)計,然后對所得結(jié)果數(shù)按照降序排列,即得到我們最終需要的研究數(shù)據(jù)。另外,在百度學(xué)術(shù)搜索引擎中,本文不僅爬取了總的結(jié)果數(shù),還爬取了近三年(2018、2017和2016年)的搜索結(jié)果數(shù)和與此關(guān)鍵詞有關(guān)的相關(guān)知名學(xué)者。

3.2 實驗結(jié)果及其分析

本文主要通過三方面對關(guān)鍵詞的分布特性進(jìn)行研究。一方面是驗證不同學(xué)科的關(guān)鍵詞詞頻與其排名分布是否符合Zipf定律,另一方面是分析不同學(xué)科內(nèi)的關(guān)鍵詞近幾年內(nèi)的分布是否符合Zipf定律。本文將詞頻與其排名放在雙堆數(shù)坐標(biāo)系中進(jìn)行擬合,觀察其分布是否符合冪律分布,若符合冪律分布,則關(guān)鍵詞分布符合Zipf定律。最后,本文還對構(gòu)建的關(guān)鍵詞-相關(guān)學(xué)者超網(wǎng)絡(luò)模型進(jìn)行分析,超網(wǎng)絡(luò)模型的分析主要是分析其超度的分布,本文在雙對數(shù)坐標(biāo)系下將關(guān)鍵詞-超網(wǎng)絡(luò)模型超度分布擬合出來,從而對此超網(wǎng)絡(luò)模型進(jìn)行進(jìn)一步研究。

3.2.1Zipf定律驗證

圖5是人工智能、生物和財經(jīng)三個領(lǐng)域的關(guān)鍵詞在知網(wǎng)、百度學(xué)術(shù)和Bing學(xué)術(shù)三個學(xué)術(shù)搜索引擎中搜索結(jié)果數(shù)目和其對應(yīng)排名在雙對數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(a) 知網(wǎng)-人工智能

(b) 知網(wǎng)-生物

(c) 知網(wǎng)-財經(jīng)

(d) 百度學(xué)術(shù)-人工智能

(e) 百度學(xué)術(shù)-生物

(f) 百度學(xué)術(shù)-財經(jīng)

(g) Bing學(xué)術(shù)-人工智能

(h) Bing學(xué)術(shù)-生物

(i) Bing學(xué)術(shù)-財經(jīng)圖5 搜索結(jié)果數(shù)與排名分布圖

可以看出,除了尾部以外,所有的點都幾乎分布在同一條直線上。我們對上面三組數(shù)據(jù)進(jìn)行擬合,得到如表1所示的回歸方程。從表1中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞的搜索結(jié)果數(shù)和與其相對應(yīng)的排名之間是近似冪律分布。中文文獻(xiàn)關(guān)鍵詞的分布在各自的領(lǐng)域內(nèi)基本符合Zipf定律。

表1 搜索結(jié)果數(shù)與排名分布回歸方程

圖6是人工智能、生物和財經(jīng)三個學(xué)科領(lǐng)域的關(guān)鍵詞在百度學(xué)術(shù)這個學(xué)術(shù)搜索引擎中近三年(2018年、2017年和2016年)的搜索結(jié)果數(shù)目與其對應(yīng)排名在雙對數(shù)坐標(biāo)下的關(guān)鍵詞詞頻排名分布圖。

(j) 人工智能-2018年

(k) 人工智能-2017年

(l) 人工智能-2016年

(m) 生物-2018年

(n) 生物-2017年

(o) 生物-2016年

(p) 財經(jīng)-2018年

(q) 財經(jīng)-2017年

(r) 財經(jīng)-2016年圖6 近三年搜索結(jié)果數(shù)與排名分布圖

可以看出,除去尾部以外的部分,所有的點依然都幾乎分布在同一條直線上。對上面三組數(shù)據(jù)進(jìn)行擬合,得到如表2所示的回歸方程。從表2中的回歸方程中可以發(fā)現(xiàn),關(guān)鍵詞近三年的搜索結(jié)果數(shù)和與其相對應(yīng)的排名之間依然是近似冪律分布的。中文文獻(xiàn)中的關(guān)鍵詞在各自的領(lǐng)域內(nèi),每年都基本符合Zipf定律。

表2 近三年搜索結(jié)果數(shù)與排名分布回歸方程

基于以上實驗結(jié)果,本文得出了如下結(jié)論:

(1) 在每個搜索引擎中三個學(xué)科領(lǐng)域內(nèi)的Zipf指數(shù)是相差不多的(比如在知網(wǎng)中人工智能、生物、財經(jīng)的Zipf指數(shù)分別是-2.2、-2.299、-2.287);

(2) 人工智能和財經(jīng)領(lǐng)域在Bing學(xué)術(shù)搜索引擎中的R指數(shù)都是0.8左右,比在知網(wǎng)和百度學(xué)術(shù)搜索引擎中的R指數(shù)0.9小很多;

(3) 在近三年的詞頻分布中,三個學(xué)科領(lǐng)域都有較好的擬合結(jié)果,R指數(shù)基本都在0.95左右。

在上述分布曲線圖中,可以明顯看出分布圖的尾部呈現(xiàn)急速的下垂現(xiàn)象,導(dǎo)致這種現(xiàn)象的主要原因是在關(guān)鍵詞詞頻比較低的區(qū)域的關(guān)鍵詞數(shù)量急劇增加。為了分析這種現(xiàn)象,本文對三個學(xué)科領(lǐng)域低頻詞的研究。表3為三個學(xué)科領(lǐng)域一些低頻詞代表,研究發(fā)現(xiàn)低頻詞急劇增加的原因主要有兩方面:一方面是這些低頻詞在自己學(xué)科領(lǐng)域內(nèi)比較專業(yè),都是一些專業(yè)名詞,比如生物領(lǐng)域內(nèi)的固氨率、共基質(zhì)代謝等詞都是專業(yè)名詞;另一方面,還有一些低頻詞在自己的領(lǐng)域內(nèi)不是研究熱點,沒有得到大家的關(guān)注,比如克隆網(wǎng)絡(luò)和財經(jīng)倫理等詞,都是比較陌生的關(guān)鍵詞。由于這些低頻詞的急劇增加導(dǎo)致尾部出現(xiàn)急速下垂現(xiàn)象,但是對大多數(shù)的文本來說,Zipf定律對詞頻的高中區(qū)域基本比較吻合。

表3 低頻詞詞頻統(tǒng)計

續(xù)表3

此外,由于每個學(xué)術(shù)搜索引擎都是每時每刻在更新變化,故在本文中對上述數(shù)據(jù)的分析可能略有一些波動,但是如果某個關(guān)鍵詞沒有在短時間內(nèi)被極度關(guān)注或者成為一個研究爆點,上述實驗結(jié)果具有一定的代表性。

本文又根據(jù)關(guān)鍵詞的詞頻描繪出三個知識領(lǐng)域的詞云圖。圖7為三個領(lǐng)域的關(guān)鍵詞的云詞展示。

(a) 人工智能

(b) 財經(jīng)

(c) 生物圖7 關(guān)鍵詞詞云可視化

由圖7可以清楚地了解到在每個學(xué)科領(lǐng)域中目前較為關(guān)注的熱點話題,比如在人工智能詞云圖中可以發(fā)現(xiàn)目前研究熱點為機器人、專家系統(tǒng)、控制等。

3.2.2超網(wǎng)絡(luò)模型的構(gòu)建與分析

為了更詳細(xì)地了解中文文獻(xiàn)中關(guān)鍵詞的分布,我們分研究領(lǐng)域構(gòu)建了三個關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,并對這些超網(wǎng)絡(luò)模型做了如下分析。圖8為中文文獻(xiàn)中關(guān)鍵詞在人工智能、生物和財經(jīng)三個領(lǐng)域內(nèi)構(gòu)建的關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型的超度分布圖。其中,我們把關(guān)鍵詞當(dāng)作超邊,把相關(guān)知名學(xué)者當(dāng)作節(jié)點。

(a) 人工智能

(b) 生物

(c) 財經(jīng)圖8 超網(wǎng)絡(luò)模型超度分布

可以看出,節(jié)點的超度分布大致呈冪律分布,說明每個關(guān)鍵詞對應(yīng)的相關(guān)知名學(xué)者在每個領(lǐng)域內(nèi)都呈冪律分布,顯示了無標(biāo)度特性。根據(jù)數(shù)據(jù)擬合出來的回歸方程如表4所示。

表4 超網(wǎng)絡(luò)模型超度分布回歸方程

可以看出,關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型在人工智能、生物和財經(jīng)三個領(lǐng)域中的冪指數(shù)分別為2.857 7、2.220 6、3.058 4。

在超網(wǎng)絡(luò)動態(tài)模型動態(tài)演化時,累積性和優(yōu)先連接性是無標(biāo)度超度分布呈現(xiàn)冪律分布的最主要的兩個原因。累計性就是節(jié)點的增加,對應(yīng)本文中所構(gòu)造的超網(wǎng)絡(luò)模型就是指研究某個關(guān)鍵詞的相關(guān)學(xué)者的增加;優(yōu)先連接性是指度比較大的節(jié)點優(yōu)先連接的概率較大,在本文中指相關(guān)學(xué)者在選取研究話題時通常會優(yōu)先選取比較熱門的話題來研究。

4 結(jié) 語

本文從Zipf定律和超網(wǎng)絡(luò)等幾個方面對中文文獻(xiàn)中的關(guān)鍵詞進(jìn)行分析研究。通過對三個領(lǐng)域內(nèi)的關(guān)鍵詞在三個代表性的學(xué)術(shù)搜索引擎中的搜索結(jié)果數(shù)據(jù)的研究得到驗證,在每個研究領(lǐng)域內(nèi),關(guān)鍵詞搜索結(jié)果數(shù)和其排名符合Zipf定律。探討了關(guān)鍵詞近三年的搜索結(jié)果數(shù)與其排名是否符合Zipf定律,實驗表明,在每個領(lǐng)域內(nèi)關(guān)鍵詞近三年的搜索結(jié)果數(shù)和其排名也是符合Zipf定律的。構(gòu)造了一個關(guān)鍵詞-相關(guān)知名學(xué)者超網(wǎng)絡(luò)模型,通過對其超度分布的分析,在每個領(lǐng)域內(nèi)關(guān)鍵詞對應(yīng)的相關(guān)知名學(xué)者遵循冪律分布,表現(xiàn)出比較明顯的無標(biāo)度特征。

猜你喜歡
詞頻定律學(xué)者
學(xué)者介紹
學(xué)者簡介
學(xué)者介紹
倒霉定律
詞匯習(xí)得中的詞頻效應(yīng)研究
漢語閱讀中詞頻與注視時間、跳讀的關(guān)系
萬有引力定律
學(xué)者介紹
詞頻,一部隱秘的歷史
耐人尋味的定律