国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

喜馬拉雅區(qū)域研究文獻(xiàn)知識(shí)圖譜分析

2018-04-24 12:17郭柯娜唐裕婷張思原
現(xiàn)代計(jì)算機(jī) 2018年6期
關(guān)鍵詞:喜馬拉雅圖譜聚類

郭柯娜,唐裕婷,張思原

(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610065)

0 引言

具有“香格里拉”之稱的喜馬拉雅區(qū)域歷史悠久,文化遺產(chǎn)豐富多樣,是世界上非常獨(dú)特、神秘而具有吸引力的區(qū)域之一。早在18世紀(jì)[1],喜馬拉雅的生態(tài)和人類文化就已成為西方人類學(xué)關(guān)注和研究的重要領(lǐng)域。直至今天,隨著大量關(guān)于喜馬拉雅區(qū)域的文獻(xiàn)的相繼產(chǎn)生,構(gòu)建一個(gè)針對(duì)喜馬拉雅文獻(xiàn)的多媒體數(shù)據(jù)庫(kù),并利用知識(shí)圖譜對(duì)文獻(xiàn)進(jìn)行分析對(duì)今后進(jìn)一步探索、研究喜馬拉雅區(qū)域是有必要且意義重大的。

1 喜馬拉雅區(qū)域文獻(xiàn)數(shù)位技術(shù)

1.1 喜馬拉雅多媒體數(shù)據(jù)庫(kù)

隨著網(wǎng)絡(luò)的發(fā)展以及計(jì)算機(jī)的普及,“數(shù)位文化”[2-3]的概念被提出,人們開始使用新技術(shù)去展現(xiàn)過(guò)往文字所不能負(fù)載的成果,借助數(shù)位科技進(jìn)行人文研究,使得文獻(xiàn)能得以更有效地分析以及呈現(xiàn)。喜馬拉雅多媒體數(shù)據(jù)庫(kù)是喜馬拉雅區(qū)域研究文獻(xiàn)與數(shù)位技術(shù)的有效結(jié)合,將為對(duì)喜馬拉雅區(qū)域進(jìn)一步的科學(xué)研究提供切實(shí)的有價(jià)值的參考。

喜馬拉雅多媒體數(shù)據(jù)庫(kù)由英國(guó)劍橋大學(xué)與四川大學(xué)合力構(gòu)建,引用與共享了劍橋大學(xué)康和計(jì)劃及其合作機(jī)構(gòu)所藏有的關(guān)于喜馬拉雅地區(qū)的多媒體數(shù)字資源。

喜馬拉雅多媒體數(shù)據(jù)庫(kù)包括文獻(xiàn)檢索、相關(guān)文獻(xiàn)推薦、文獻(xiàn)檢索結(jié)果空間可視化、文獻(xiàn)計(jì)量分析、知識(shí)圖譜展示等多個(gè)功能。

作為喜馬拉雅多媒體數(shù)據(jù)庫(kù)的一部分,利用知識(shí)圖譜等對(duì)文獻(xiàn)的可視化分析具有重要作用。在喜馬拉雅多媒體數(shù)據(jù)庫(kù)中,該部分集成為多媒體數(shù)據(jù)庫(kù)中的“知識(shí)視圖”模塊,主要展示對(duì)文獻(xiàn)的統(tǒng)計(jì)分析和圖譜結(jié)果。

1.2 知識(shí)圖譜技術(shù)

知識(shí)圖譜[4]是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系。其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。

知識(shí)圖譜,自2012年由Google正式提出[5]以來(lái),已廣泛運(yùn)用于包括醫(yī)療[6]]、金融[7]、旅游[8]等各種垂直行業(yè)[9],并很好地為各個(gè)領(lǐng)域的研究提供了切實(shí)參考。

目前,針對(duì)喜馬拉雅區(qū)域文獻(xiàn)的知識(shí)圖譜分析研究十分缺乏,喜馬拉雅多媒體數(shù)據(jù)庫(kù)為喜馬拉雅文獻(xiàn)分析提供了數(shù)據(jù)支持。利用知識(shí)圖譜技術(shù)對(duì)喜馬拉雅文獻(xiàn)進(jìn)行可視化分析,對(duì)揭示喜馬拉雅區(qū)域研究的動(dòng)態(tài)發(fā)展規(guī)律具有重要意義。

現(xiàn)有的知識(shí)圖譜構(gòu)建多數(shù)依賴于某些軟件工具[10],如 CiteSpace[11]、Pajek、CNKI等。這些工具都對(duì)數(shù)據(jù)格式有一定的要求,或是只針對(duì)某些特定數(shù)據(jù)庫(kù)中的文獻(xiàn)。如CiteSpacey要求數(shù)據(jù)格式必須為WOS中的TXT格式或用軟件轉(zhuǎn)化了的CSSCI格式,且主要對(duì)CNKI、SCI等數(shù)據(jù)庫(kù)中的文獻(xiàn)進(jìn)行分析。

對(duì)于喜馬拉雅多媒體數(shù)據(jù)庫(kù),現(xiàn)有的知識(shí)圖譜構(gòu)建工具無(wú)法直接使用,因此需要利用自然語(yǔ)言處理的相關(guān)知識(shí)以及可視化技術(shù)進(jìn)行構(gòu)建。

2 喜馬拉雅區(qū)域相關(guān)文獻(xiàn)的圖譜分析及結(jié)果

2.1 知識(shí)圖譜分析流程

知識(shí)圖譜的構(gòu)建過(guò)程見圖1,主要分為數(shù)據(jù)獲取、數(shù)據(jù)處理、生成知識(shí)圖譜3大步驟。

圖1 知識(shí)圖譜構(gòu)建流程圖

2.2 數(shù)據(jù)來(lái)源

本文的數(shù)據(jù)來(lái)自喜馬拉雅多媒體數(shù)據(jù)庫(kù)平臺(tái)。共選取了其中2544篇期刊文獻(xiàn),針對(duì)這些期刊文獻(xiàn)在數(shù)據(jù)庫(kù)中存儲(chǔ)的作者、關(guān)鍵詞、摘要元數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,并構(gòu)建知識(shí)圖譜。

2.3 數(shù)據(jù)處理

在進(jìn)行統(tǒng)計(jì)分析的過(guò)程中,需要從喜馬拉雅多媒體數(shù)據(jù)庫(kù)中獲取所需的內(nèi)容,包括文獻(xiàn)的作者、關(guān)鍵詞、文獻(xiàn)摘要內(nèi)容等。然后利用自然語(yǔ)言處理的相關(guān)方法進(jìn)行處理,再將處理后的數(shù)據(jù)以知識(shí)圖譜的形式展現(xiàn)出來(lái)。

文獻(xiàn)作者、關(guān)鍵詞以及文獻(xiàn)摘要都是從喜馬拉雅多媒體數(shù)據(jù)庫(kù)中直接讀取元數(shù)據(jù)獲取,對(duì)于獲得的元數(shù)據(jù)在根據(jù)構(gòu)建的知識(shí)圖譜的需要進(jìn)行進(jìn)一步處理。對(duì)文獻(xiàn)作者主要進(jìn)行作者姓名規(guī)范統(tǒng)一,并統(tǒng)計(jì)姓名出現(xiàn)的次數(shù)作為作者的發(fā)文數(shù)。對(duì)于關(guān)鍵詞元數(shù)據(jù),需要去掉關(guān)鍵詞中包含的無(wú)關(guān)符號(hào),并統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)的次數(shù)。對(duì)于摘要元數(shù)據(jù)主要進(jìn)行大寫變小寫,過(guò)濾掉數(shù)字、標(biāo)點(diǎn)符號(hào)以及停用詞等操作(由于所選文獻(xiàn)皆為英文文獻(xiàn),因此跳過(guò)了分詞過(guò)程)。

2.4 喜馬拉雅文獻(xiàn)分析圖譜結(jié)果

(1)喜馬拉雅區(qū)域研究者合作分析。研究者合作分析指在該領(lǐng)域一段時(shí)間內(nèi)研究者在某一研究方向進(jìn)行合作并發(fā)表文章的情況。統(tǒng)計(jì)2544篇文獻(xiàn),共4793名研究者(部分文獻(xiàn)作者匿名),多數(shù)作者發(fā)文量在2篇以內(nèi)。其中有978名研究者以唯一作者的身份發(fā)表文獻(xiàn),如 Schubert,J(13篇),Wylie,Turrell V(12篇)。

圖2 研究者合作局部圖

圖2展示了發(fā)文數(shù)排名前100的作者間合作關(guān)系,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)作者,節(jié)點(diǎn)大小展示作者發(fā)表的文獻(xiàn)數(shù)量多少,節(jié)點(diǎn)間的邊表示作者間的合作關(guān)系,邊越粗表示合作越頻繁。

(2)喜馬拉雅區(qū)域研究基于給定關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)分析。關(guān)鍵詞是一篇文獻(xiàn)中表達(dá)文章主題概念的詞語(yǔ),給定的關(guān)鍵詞相對(duì)利用自然語(yǔ)言處理方法從文本中抽取的關(guān)鍵詞更為規(guī)范。

關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)指根據(jù)關(guān)鍵詞共同出現(xiàn)的情況構(gòu)建的關(guān)鍵詞關(guān)系網(wǎng)絡(luò),展現(xiàn)了關(guān)鍵詞與關(guān)鍵詞之間的關(guān)聯(lián)和結(jié)合情況。通過(guò)對(duì)關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的分析,可以得到相關(guān)研究的主題分布及研究熱點(diǎn)變化。

圖3 關(guān)鍵詞共現(xiàn)局部網(wǎng)絡(luò)

圖3以喜馬拉雅多媒體數(shù)據(jù)庫(kù)中存儲(chǔ)的關(guān)鍵詞元數(shù)據(jù)為基礎(chǔ),根據(jù)關(guān)鍵詞的共現(xiàn)情況得到,每個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵詞,節(jié)點(diǎn)大小表示關(guān)鍵詞的出現(xiàn)的頻繁程度,節(jié)點(diǎn)之間的邊表示關(guān)鍵詞見的共現(xiàn)關(guān)系,邊的粗細(xì)代表連接的兩個(gè)關(guān)鍵詞共同出現(xiàn)的頻繁程度。的發(fā)展具有重要意義。

(3)喜馬拉雅區(qū)域研究基于TF-IDF權(quán)重的關(guān)鍵詞聚類包圖分析。TF-IDF是衡量某個(gè)詞對(duì)文檔重要性的指標(biāo)。其計(jì)算公式為(1),其中wij表示詞wi在文檔j中出現(xiàn)的次數(shù),dj表示文檔j的長(zhǎng)度,N表示文檔總數(shù),dwi表示包含詞wi的文檔數(shù)目:

表示某個(gè)詞在一篇檔中出現(xiàn)的次數(shù)越多且在其他文檔中出現(xiàn)的次數(shù)少,則說(shuō)明該詞對(duì)區(qū)分該文檔相對(duì)重要。根據(jù)TF-IDF權(quán)值抽取得到的詞語(yǔ)不完全同于人給定的關(guān)鍵詞(元數(shù)據(jù)中的關(guān)鍵詞),人為給定的關(guān)鍵詞是基于人對(duì)文章的理解,而通過(guò)TF-IDF能更直接地從文章詞頻的角度反映文獻(xiàn)的研究主題與趨勢(shì)。由于摘要作為文章內(nèi)容的概括,為了減少噪聲,本文選擇使用TF-IDF從摘要而不是從全文抽取關(guān)鍵詞。針對(duì)每篇摘要首先進(jìn)行預(yù)處理,然后計(jì)算文本中每個(gè)詞的TF-IDF權(quán)值。選取TF-IDF權(quán)值最高的六個(gè)詞作為關(guān)鍵詞,然后選取出現(xiàn)頻次前100的關(guān)鍵詞,用詞向量表示,并使用kmeans++算法進(jìn)行聚類,然后構(gòu)建關(guān)鍵詞聚類包圖。

kmeans++算法是在kmeans算法的基礎(chǔ)上,針對(duì)kmeans隨機(jī)初始seeds可能影響聚簇效果的現(xiàn)象進(jìn)行改進(jìn)得到的算法。其主要思想與kmeans相同,即以空間中k個(gè)點(diǎn)(seeds)為中心進(jìn)行聚類,對(duì)最靠近他們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。kmeans++基于初始的聚類中心之間的相互距離要盡可能的遠(yuǎn)的思想來(lái)選取seeds。

關(guān)鍵詞聚類包圖根據(jù)詞語(yǔ)的語(yǔ)義信息,將語(yǔ)義相似的關(guān)鍵詞聚到一起,再將聚類結(jié)果以打包圖的形式可視化展現(xiàn)。每一個(gè)pack(包)里面的詞語(yǔ)在語(yǔ)義上相似,根據(jù)聚類打包圖可以對(duì)文獻(xiàn)主題進(jìn)行概括性分析。

圖4 關(guān)鍵詞聚類打包圖

在圖4中,共10個(gè)pack(包),每個(gè)pack代表一個(gè)簇,簇的個(gè)數(shù)是聚類時(shí)人為給定。由簇3,包含了喜馬拉雅區(qū)域研究的主要地域,如不丹、尼泊爾、西藏等。由簇1,喜馬拉雅地區(qū)研究對(duì)象主要是孩子、婦女、農(nóng)民、病人、學(xué)生等,對(duì)應(yīng)的研究?jī)?nèi)容有如簇5的社會(huì)人文環(huán)境,簇7的地理類研究等。

3 結(jié)語(yǔ)

對(duì)喜馬拉雅文獻(xiàn)進(jìn)行知識(shí)圖譜分析,將相關(guān)研究文獻(xiàn)顯式或隱含的信息以知識(shí)圖譜的形式展示出來(lái)。有助于人們直觀地從大量文獻(xiàn)數(shù)據(jù)中了解喜馬拉雅研究現(xiàn)狀、獲取潛在的有用信息,對(duì)以后的研究具有重要的參考意義。

4 不足與展望

在利用文獻(xiàn)以知識(shí)圖譜的形式實(shí)現(xiàn)對(duì)喜馬拉雅區(qū)域研究的過(guò)程中,選取的是喜馬拉雅多媒體數(shù)據(jù)庫(kù)中的2544篇文獻(xiàn),可能存在文獻(xiàn)數(shù)據(jù)代表性不足的缺點(diǎn)。此外由于直接從pdf格式的文獻(xiàn)中抽取所要的信息具有一定的難度,且得到的信息可能含有大量噪聲,因此本文多是使用喜馬拉雅多媒體數(shù)據(jù)庫(kù)中存儲(chǔ)的元數(shù)據(jù)。而元數(shù)據(jù)則導(dǎo)致了部分?jǐn)?shù)據(jù)不可獲得的情況。

此外,本文的關(guān)鍵詞共現(xiàn)關(guān)系網(wǎng)絡(luò)是依據(jù)共現(xiàn)頻次構(gòu)建的,下一步工作可以根據(jù)語(yǔ)義相似度進(jìn)行構(gòu)建。

參考文獻(xiàn):

[1]沈海梅.西方人類學(xué)領(lǐng)域的喜馬拉雅研究學(xué)術(shù)史[J].西南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2015(8).

[2]翁稷,Ching-chih Che,林滿紅.數(shù)位人文在歷史學(xué)研究的應(yīng)用[M].臺(tái)灣:國(guó)立臺(tái)灣大學(xué)出版中心,2011.

[3]金觀濤,劉昭麟,項(xiàng)潔.數(shù)位人文要義:尋找類型與軌跡[M].臺(tái)灣:國(guó)立臺(tái)灣大學(xué)出版中心,2012.

[4]劉嶠,李楊,楊段宏,等.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3).

[5]AMIT S.Introducing the Knowledge Graph[R].America:Official Blog of Google,2012.

[6]張觀林,歐陽(yáng)純萍,鄒銀鳳,等.知識(shí)圖譜及其在醫(yī)療領(lǐng)域的應(yīng)用[J].湖南科技學(xué)院學(xué)報(bào),2016,37(10).

[7]王萍,詹川.互聯(lián)網(wǎng)金融研究文獻(xiàn)的知識(shí)圖譜分析[J].情報(bào)探索,2016(1).

[8]陳潔,吳琳.國(guó)內(nèi)旅游公共服務(wù)研究的文獻(xiàn)計(jì)量和知識(shí)圖譜分析[J].旅游論壇.2015,8(6).

[9]徐增林,盛泳潘,賀麗榮,等.知識(shí)圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報(bào).2016,45(4).

[10]肖明,邱小花,等.知識(shí)圖譜工具比較研究[J].圖書館雜志,2013(3).

[11]陳悅,陳超美,等.CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2).

猜你喜歡
喜馬拉雅圖譜聚類
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
繪一張成長(zhǎng)圖譜
巨人復(fù)活傳 喜馬拉雅
美女冒險(xiǎn)家:“翼裝”飛越喜馬拉雅
面向WSN的聚類頭選舉與維護(hù)協(xié)議的研究綜述
圖表
改進(jìn)K均值聚類算法
主動(dòng)對(duì)接你思維的知識(shí)圖譜
基于Spark平臺(tái)的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
车致| 尼勒克县| 新密市| 出国| 芒康县| 北流市| 无极县| 渑池县| 定远县| 武山县| 湖北省| 尼木县| 吉木萨尔县| 雷州市| 武定县| 保德县| 霍林郭勒市| 彭泽县| 芜湖市| 阜阳市| 含山县| 牙克石市| 吉林省| 突泉县| 旬邑县| 诏安县| 怀来县| 左贡县| 东海县| 旬阳县| 商河县| 吉木萨尔县| 张家界市| 白玉县| 台湾省| 太和县| 郁南县| 遂宁市| 资阳市| 炎陵县| 汉川市|