国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

卓越科學家數(shù)據(jù)語義關聯(lián)與搜索發(fā)現(xiàn)研究*

2014-07-12 17:09:39金國棟范煒
數(shù)字圖書館論壇 2014年4期
關鍵詞:卓越關聯(lián)檢索

金國棟 范煒

(四川大學信息管理技術系,成都 610664)

卓越科學家數(shù)據(jù)語義關聯(lián)與搜索發(fā)現(xiàn)研究*

金國棟 范煒

(四川大學信息管理技術系,成都 610664)

以人物數(shù)據(jù)為中心,探索卓越科學家語義描述和關聯(lián)發(fā)現(xiàn)的技術實現(xiàn)路徑。利用Sesame對數(shù)據(jù)進行存儲管理,發(fā)布語義數(shù)據(jù),實現(xiàn)圍繞卓越科學家的搜索發(fā)現(xiàn)。從學科領域、獎項、組織機構、科研成果、地理位置等多個維度挖掘卓越科學家的關聯(lián)信息,實現(xiàn)了卓越科學家數(shù)據(jù)的關鍵詞檢索,對外提供Web Service,通過人物中心節(jié)點圖和人物地圖可視化地顯示卓越科學家數(shù)據(jù)的語義關聯(lián)。

卓越科學家;語義關聯(lián);搜索發(fā)現(xiàn)

1 引言

當今時代,科學呈現(xiàn)快速發(fā)展與學科交叉融合態(tài)勢。緊跟科學發(fā)展前沿和實踐科學發(fā)展觀需要強有力的信息資源基礎與服務手段。以學術人物為中心的資源關聯(lián)角度,能夠有效定位專家和參考權威成果,是信息資源管理支撐科學研究與社會管理事務的重要研究課題。劉俊婉(2010)[1]通過ISI Highly Cited(高被引科學家)數(shù)據(jù)庫完成對“杰出科學家”的識別,將“杰出科學家”限定為“ISI高被引科學家”的代名詞。另外,學術榮譽稱號也是科學家科研活動的重要評價指標。汪士(2013)[2]將中國科學院院士作為我國杰出科學家的典型群體。

所謂“卓越科學家”,即專業(yè)領域頂尖專家和學術精英,他們通常由不同科研領域內(nèi)的頂尖專家和學術精英構成,具有權威話語權,是學術共同體的領袖。卓越科學家數(shù)據(jù)是以卓越科學家為中心的相關數(shù)據(jù)的聚合,現(xiàn)階段網(wǎng)絡中卓越科學家數(shù)據(jù)相對分散,缺乏專門針對人物數(shù)據(jù)的發(fā)布平臺,阻礙了共享和交換。

語義網(wǎng)的目標是建立機器可讀可理解的數(shù)據(jù)網(wǎng)絡(Web of Data),在此基礎上實現(xiàn)語義推理。開放數(shù)據(jù)在公共信息服務領域有大量的應用,在遵循一定協(xié)議和規(guī)則的前提下,能夠有效實現(xiàn)數(shù)據(jù)的互通與共享。這為圍繞卓越科學家的關聯(lián)發(fā)現(xiàn)提供了技術手段和數(shù)據(jù)基礎。

本文從人物數(shù)據(jù)關聯(lián)角度,探索語義描述、存儲、發(fā)布與搜索的資源應用,以期促進卓越科學家的關聯(lián)發(fā)現(xiàn)。

2 相關研究

(1)人物描述

通用人物描述主要有Brickley D等人提出的FOAF(The friend of a friend Project)[3]、Google和Yahoo!發(fā)布的Schema.org[4]、DBpedia[5]的人物描述方案以及W3C規(guī)范中的vCard[6]。四者的對比情況見表1。

表1四種描述方案中,F(xiàn)OAF通過描述文檔之間的關聯(lián)構建社交網(wǎng)絡;Schema.org可以幫助搜索引擎更好地理解網(wǎng)頁內(nèi)容;DBpedia實現(xiàn)了對人物的百科全書式地描述;vCard則主要用于進行個人信息的交換。

在特定人物描述模型的構建方面,其中比較典型的有諾貝爾獎(Nobel Prize)獲獎者模型。諾貝爾獎官方網(wǎng)站[7]定義了諾貝爾獎獲獎者模型,描述了獲獎者的姓名、性別、出生時間及地點、死亡時間及地點、獲獎學科、獲獎年份、獲獎原因、頒獎時所在機構以及研究領域等信息,突出表現(xiàn)獲獎者在所屬領域內(nèi)的主要學術成就。

表1 人物資源描述方案比較

以上人物描述形式中,通用描述方案強調(diào)描述的廣度,能夠適用于大范圍的人群,特定描述模型強調(diào)描述的深度,著重體現(xiàn)某一類人群的突出特點。因此,在考慮人物描述的通用基礎之上,突出表現(xiàn)卓越科學家的學術特點,豐富化和精準化卓越科學家的描述。

(2)卓越科學家數(shù)據(jù)分布情況

DBpedia從Wikipedia的頁面中抽取多語種的結構化數(shù)據(jù),與Freebase、GeoNames等其他數(shù)據(jù)集相連接,共描述了超過198,000個人物[8],包括物理、化學、計算機等眾多學科領域的卓越科學家。諾貝爾官方網(wǎng)站存儲了所有諾貝爾獎獲獎者的信息,截至2013年共有876位獲獎者。另外,其他著名獎項,如數(shù)學學科的菲爾茲獎(Fields Medal,國際杰出數(shù)學發(fā)現(xiàn)獎)、計算機學科的圖靈獎(A.M. Turing Award)等也不同程度地存儲了獲獎者的姓名、出生、死亡、科研機構、教育背景和學術成就等信息,截至2013年,菲爾茲獎共有52位獲獎者,圖靈獎共有60位獲獎者。

DBpedia和諾貝爾官方網(wǎng)站均在人物的描述中引入了語義信息,并提供開放的數(shù)據(jù)接口,便于共享和交換。其中DBpedia的數(shù)據(jù)能以N-Triples或Turtle格式整體下載,也能通過SPARQL語句進行查詢,諾貝爾官方網(wǎng)站提供了REST API和SPARQL Endpoint兩種數(shù)據(jù)獲取方式。菲爾茲獎和圖靈獎等其他著名獎項的人物數(shù)據(jù)無開放的數(shù)據(jù)接口,需要手工搜集。

(3)找尋與發(fā)現(xiàn)手段

找尋卓越科學家相關信息,一般通過人物搜索和學術搜索兩種途徑。在人物搜索方面,微軟的人立方[9]是一個典型例子。人立方通過對網(wǎng)頁內(nèi)容進行自然語言處理,抓取出網(wǎng)頁中的人名,構建人物數(shù)據(jù)庫,形成人與人之間的關聯(lián),供用戶檢索和瀏覽。但由于數(shù)據(jù)來源于普通網(wǎng)頁內(nèi)容的抓取,數(shù)據(jù)內(nèi)容的質(zhì)量較低,結構化程度不高,且學術性相關信息少。在學術搜索方面,谷歌學術搜索[10]和微軟學術搜索[11]的應用十分廣泛。谷歌學術搜索收錄了論文、圖書、科技報告、文摘等多種學術資源,內(nèi)容涵蓋了自然、人文、社會等多種學科,同時支持中英文等多種語言的檢索[12],能讓用戶像使用通用搜索引擎一樣地使用學術搜索引擎,降低了檢索難度,很重要的一點是研究者可以利用谷歌學術搜索的“被引用次數(shù)”來查看某一篇文章的被引文獻,從而可以追蹤不同研究者基于同一研究主題的相互引用關系[13]。但是谷歌學術搜索并未直觀地展示研究者之間的關系,且沒有開放數(shù)據(jù)調(diào)用的API。微軟學術搜索能可視化地展示研究者之間的合著和引文關系,可以查看以某研究者為中心形成的合著和引文關系節(jié)點圖。

3 卓越科學家數(shù)據(jù)的語義模型

(1) 人物關聯(lián)頂層設計

從通用的人物模型出發(fā),提取出與卓越科學家相關的基本描述屬性,并融合科研描述屬性,將卓越科學家與地理位置、組織機構、科研成果、學科、獎項等類進行關聯(lián),構建卓越科學家的人物關聯(lián)模型。

人既具有生物性,又具有社會性和精神性。社會性主要包括人的社會活動和社會關系等,精神性主要包括人的精神狀態(tài)、心理活動和思維活動等。社會性和精神性最大程度地體現(xiàn)了卓越科學家與其他人物群體的不同,因此,本文從卓越科學家的社會性和精神性兩個層面切入,將其描述屬性分為基本屬性和關聯(lián)屬性。描述模型見圖1。

圖1 卓越科學家描述的金字塔模型

圖1基本屬性主要描述卓越科學家的基本特征,包括姓名、性別、肖像、出生時間和死亡時間等,通過基本屬性的描述,可以在大體上形成一個人物的形象;關聯(lián)屬性從地理位置、社會關系和科學研究的角度,描述了卓越科學家之間豐富的關聯(lián)信息,其中地理位置信息描述了人物從出生到死亡經(jīng)歷的重要的地理位置變化,社會關系從家庭、教育和工作三個角度關聯(lián)了人物的家庭成員、教育背景和相關組織機構,科學研究主要描述人物的研究領域、重要研究成果和所獲著名獎項。上述兩大類的四種屬性對卓越科學家的描述力度呈遞增關系,基本屬性的描述力度最小,科學研究關聯(lián)屬性對卓越科學家的描述力度最大,即最能體現(xiàn)卓越科學家群體的特點。

(2)人物關聯(lián)定義

基于人物的屬性,人物之間的關聯(lián)可以相應地分為直接關聯(lián)和基于中間關聯(lián)層的推理關聯(lián)兩種。直接關聯(lián)即兩個人物之間通過屬性直接產(chǎn)生聯(lián)系,如配偶關系;基于中間關聯(lián)層的推理關聯(lián)指兩個人物之間需要借助中間層進行兩次或以上的直接關聯(lián),才能產(chǎn)生聯(lián)系,以人物A與人物B的校友關系為例,School(X,S)表示人物X是學校S的學生,Alumna(A,B)表示人物A和人物B是校友,則(S)[School(A,S) School(B,S)]→Alumna(A,B),該關系需要通過學校作為中間層經(jīng)過兩次關聯(lián)推理得到。

本文基于人物之間的中間關聯(lián)層進行推理關聯(lián),結合已建立的人物類,在人物關聯(lián)模型的中間關聯(lián)層中融入了地理位置、組織機構、學科、獎項、科研成果等五個中間類。其中,人物的地理位置信息包括出生地點、死亡地點、受教育地點、國籍等;組織機構信息包括所在教育機構和研究機構的信息;獎項信息主要描述人物在所處研究領域獲得的著名國際獎項;學科信息主要為人物研究領域的相關信息;科研成果信息主要描述人物的重要科研成就。對這些信息進行描述,一方面有助于加強對人物進行多維度的揭示,如地理位置信息有助于對人物群體按地點進行關聯(lián)分析,學科、獎項和科研成果有助于了解人物的研究領域,發(fā)掘人物之間在科學研究方面的合作關系。另一方面,可以挖掘出人物之間眾多的隱性關聯(lián)。人物中間關聯(lián)層模型如圖2所示。

圖2 人物中間關聯(lián)層模型

圖2共有12個類,其中科研成果類派生出論文、著作和專利三個子類,組織機構類派生出教育機構和科研機構兩個子類。卓越科學家類通過人物的出生地點、教育背景和所獲獎項分別與地理位置、教育機構和獎項類產(chǎn)生關聯(lián),圖中以虛線表示;組織機構通過所在地與地理位置類關聯(lián),科研成果類根據(jù)論文、著作、專利等的所屬機構與科研機構關聯(lián),同時根據(jù)其所屬學科與學科類關聯(lián),獎項類通過獲獎原因與科研成果類關聯(lián),圖中以實線表示。

基于以上分析,人物之間的關系分為直接和間接兩類,共有七種。直接關系為家庭成員關系,卓越科學家之間的家庭成員一般有科研合作關系或處于相同科研領域;間接關系為相同的出生或死亡地點(相同地理位置)、校友(相同教育機構)、同事(相同科研機構)、共同研究領域(相同領域)、獎項共享(相同獎項)以及科研合作(相同科研成果)等六種。

人物之間形成的關系網(wǎng)絡圖為有向圖G=(P,R),其中P表示圖中的節(jié)點,即人物,R表示圖中的邊,即人物間的關系。則人物Pi與Pj之間的上述七種關系可以對應分別表示為若Pi與Pj之間的第k種關系存在,則為1,否則為0。根據(jù)不同關系所基于的屬性的描述力度不同,為上述關系設置不同的權重值,分別為0.2,0.05,0.075,0.1,0.15,0.2,0.225。因此,人物Pi與Pj之間的屬性關聯(lián)值可定義為:

其中,ak為第k種關系所占權重。

4 關聯(lián)發(fā)現(xiàn)設計與實現(xiàn)

本文設計的關聯(lián)發(fā)現(xiàn)系統(tǒng)主要由卓越科學家數(shù)據(jù)采集、語義存儲管理、語義發(fā)布與搜索等功能模塊組成,提供關鍵詞檢索、基于圖的人物關系可視化以及Web Service調(diào)用。系統(tǒng)技術架構如圖3所示。

4.1 數(shù)據(jù)采集與預處理

(1)數(shù)據(jù)范圍

圖3 系統(tǒng)技術架構圖

表2 人物數(shù)據(jù)范圍列表

為了更好地獲取數(shù)據(jù)和展示關聯(lián),以學科作為數(shù)據(jù)選擇的切入點,選取物理、化學、生物醫(yī)學、數(shù)學、電氣電子工程學等自然科學領域的卓越科學家作為研究對象。獲得學科領域內(nèi)著名獎項的科學家在一定程度上可以作為該學科領域內(nèi)卓越科學家的代表。因此,本文選取獲得諾貝爾科學獎、菲爾茲獎、沃爾夫數(shù)學獎(Wolf Prize in Mathematics)、圖靈獎和IEEE榮譽獎章等自然科學領域著名獎項的797位卓越科學家構成實驗數(shù)據(jù)集,其中部分科學家獲得兩項及以上獎項。

如表2所示,實驗數(shù)據(jù)集中每個人物形成一條記錄,每條記錄設置firstName、lastName、birthDate、deathDate、birthCity、deathCity、gender、education、award、familyMember、img、nationality等12個描述字段,分別描述卓越科學家的名、姓、出生日期、死亡日期、出生地點、死亡地點、性別、教育背景、所獲獎項、家庭成員、肖像、國籍等信息。

(2)數(shù)據(jù)采集說明

實驗數(shù)據(jù)集通過以下方式得到:

· 諾貝爾獎官方網(wǎng)站的開放數(shù)據(jù)描述了獲獎者的姓名、出生、死亡、獲獎時所在機構、獲獎學科、獲獎時間和獲獎原因等信息,可以通過兩種方式訪問,一種是通過REST API,返回CSV或JSON文件,另一種是通過SPARQL Endpoint查詢返回RDF格式的結果。本文采用第二種方式獲得諾貝爾科學獎的全部人物數(shù)據(jù),導出為RDF/XML格式存儲于本地。

· 通過DBpedia的SPARQL Endpoint構造SPARQL語句,查詢所有獲獎者的姓名、出生時間及地點、死亡時間及地點、性別、機構、肖像、國籍等信息,以JSON格式返回,獲獎者信息按獎項進行分類,每個獎項以一份JSON文件的形式單獨存儲于本地,共采集到七個獎項共600余條人物信息。

· 調(diào)用GeoNames的Web Service API,獲得人物相關地區(qū)的經(jīng)緯度及行政區(qū)域劃分數(shù)據(jù),返回JSON文件。

· 人工輔助采集。卓越科學家的部分信息,如科研成果和部分地理位置信息等需要通過搜索引擎在WWW中人工采集,采集結果以CSV格式存儲于本地,其中科研成果信息選取能代表科學家獲獎原因的被引率最高的一篇論文、一本著作或一項專利,得到824條記錄。

(3)數(shù)據(jù)預處理

由于采集到的原始數(shù)據(jù)來源多樣,格式不統(tǒng)一,在進行存儲之前,有必要對其進行預處理。數(shù)據(jù)預處理分以下三步進行:

· 完整性檢查。對數(shù)據(jù)完整性的檢查分為兩個方面:第一是否采集了數(shù)據(jù)范圍內(nèi)的所有人物的信息;第二是每個人物的每個字段是否都有描述信息。本文的實際采集情況是第一種全部采集完整,而第二種存在部分不完整。

· 一致性檢查。對數(shù)據(jù)中的日期、組織機構名稱、空值等進行一致性的檢查。原始數(shù)據(jù)中日期格式有“MM-DD-YYYY”、“YYYYMMDD”等多種,均轉(zhuǎn)化為“YYYY-MM-DD”格式;原始數(shù)據(jù)中組織機構名稱有簡稱與全稱兩種形式,均轉(zhuǎn)化為簡稱;原始數(shù)據(jù)字段中的空值有“NULL”、“None”以及空字符串等多種形式,為了方便處理,本文中將日期字段的空值設為“1111-11-11”,其余字段的空值設為“NULL”。

· 數(shù)據(jù)合成。不同采集來源的原始數(shù)據(jù)之間存在大量的重合,為了進一步減少數(shù)據(jù)集的冗余,優(yōu)化系統(tǒng)的查詢結果,本文對不同來源同一對象的描述信息進行合成,按照六個類分別存儲為6份本地JSON文件。

4.2 語義數(shù)據(jù)存儲與發(fā)布

(1)語義描述

按照關聯(lián)數(shù)據(jù)發(fā)布的流程[14],采集得到的JSON數(shù)據(jù)需要添加語義描述,轉(zhuǎn)化為語義數(shù)據(jù),再進行存儲和發(fā)布。添加語義描述的步驟如下:

· 設定http://www.excellentscientists.org為語義數(shù)據(jù)的基礎URI;

· 選擇詞匯表。為增強數(shù)據(jù)的互操作性,在JSON數(shù)據(jù)的描述字段的基礎上融入了FOAF、RDF、RDFS、OWL等的部分描述詞匯;

· 添加內(nèi)部鏈接和外部鏈接。添加本地文件中類之間的關系鏈接,以及與GeoNames、DBpedia和Nobelprize官網(wǎng)等的鏈接。

通過上述步驟將JSON文件轉(zhuǎn)化為RDF文件,以Turtle格式存儲。以對居里夫人(Marie Curie)及其所獲獎項和科研成果的描述為例,如圖4所示。圖中(1)描述了居里夫人的姓名、出生時間及地點、死亡時間及地點、獲得獎項、家庭成員等人物信息,利用owl: sameAs與foaf:page鏈接至DBpedia,利用scientist: birthCity與scientist:deathCity鏈接至Geonames,并與獎項(prize)、科研成果(achievement)、組織機構(organization)等類形成關聯(lián)。(2)對1903年的諾貝爾物理學獎進行了描述,包括獲獎時間、獲獎者、獲獎原因等,通過prize:title鏈接至諾貝爾官網(wǎng),同時與科研成果類形成關聯(lián)。(3)中描述了科研成果信息,包括類別、作者、領域以及相關組織機構等,與學科類和組織機構類關聯(lián)。

(2)語義數(shù)據(jù)存儲

常見R DF文件的存儲管理方案有Jena[15]、Sesame[16]和4Store[17]等,其中,Sesame最早作為On-To-Knowledge項目的一部分,由荷蘭公司Aduna開發(fā),后推出開源版本。本文在比較之后,選擇Sesame作為存儲方案,主要出于以下三個方面的考慮:Sesame由Java語言編寫實現(xiàn),具有良好的跨平臺性;在RDF數(shù)據(jù)的導入和查詢的速度方面,Sesame有不錯的表現(xiàn)[18];Sesame除了可以作為Java類庫本地調(diào)用以外,還可以利用其內(nèi)嵌的HTTP Server封裝為一個獨立的系統(tǒng),通過客戶端程序遠程調(diào)用,能夠滿足本地存儲管理與遠程查詢的需求。

本文主要調(diào)用Sesame中的RDF Model API、Rio API和Repository API創(chuàng)建RDF存儲查詢系統(tǒng),并建立spoc、posc、cosp三種索引,以提高檢索效率。首先利用Model API和Repository API創(chuàng)建一個本地存儲庫,添加索引,然后利用RepositoryConnection接口連接本地存儲庫,導入上文中轉(zhuǎn)化的RDF文件,再利用Query Engines實現(xiàn)SPARQL語句查詢模塊,最后調(diào)用Rio API將查詢返回結果封裝為JSON、XML及RDF格式等,導出查詢結果。

(3)語義數(shù)據(jù)發(fā)布

系統(tǒng)在存儲的基礎上實現(xiàn)了SPARQL Endpoint。在Endpoint中,用戶可以輸入SPARQL語言進行查詢,查詢語句通過HTTP協(xié)議傳送至語義存儲模塊,該模塊執(zhí)行查詢操作后將結果返回Endpoint,最后將結果以HTML形式顯示在瀏覽器頁面上。查詢結果可以導出為XML、JSON以及常見RDF格式文件。以對居里夫人的獲獎情況和研究領域的檢索為例,設計檢索語句如下:

SELECT ?field ?prizeTitle ?prizeYear

WHERE { ?id data:firstname ‘Marie’; data: lastname ‘Cruie’;

scientist:prize ?prize; ?prize prize:title ?prizeTitle ;

?prize prize:year ?prizeYear; ?prize:achiv ?achievement ;

?achievement achievement:field ?field . }

系統(tǒng)還設計了REST API訪問方法,方便開發(fā)者獲取系統(tǒng)中的人物數(shù)據(jù),結果以XML格式返回。上述檢索語句可以轉(zhuǎn)化為以下的REST請求:

圖4 語義描述示例(Marie Curie)

htt p://localhost:8080/open rdf-sesame/ repositories/scientist?query=select+?field+?prizeT itle+?prizeYear+where+%7B?id+data:firstname+’Marie’…etc…

4.3 基于關系的搜索發(fā)現(xiàn)

(1)關系計算

人物之間的相關度是對相鄰人物之間親疏程度的直接描述,對其進行定量計算有助于我們更好地分析人物之間的關系。

人物網(wǎng)絡圖中,相鄰人物Pi與Pj之間的相關度大小不僅同Pi與Pj間的屬性關聯(lián)有關,還與Pi、Pj的共同相關人物,即朋友的朋友關聯(lián)有關。計算思路如下:

· 找出圖中Pi與Pj之間所有無重復節(jié)點的路徑lij,并計算每條路徑中除去Pi、Pj的節(jié)點個數(shù)m,記為該路徑的度(m≥0) ;

· 計算所有度為m的lij的長度,即路徑所有相鄰人物Pi與Pj間關系大小rij的乘積,并求出每個m值下的最大值

主要計算公式如下:

基于Sesame存儲的人物語義數(shù)據(jù),構建人物之間七種關系的查詢語句,找出每個人物的相鄰人物,即人物網(wǎng)絡中的相鄰節(jié)點,將其轉(zhuǎn)化為鄰接表。計算每兩個人物之間的屬性關聯(lián)值,將結果存儲于N×N的相關度矩陣中(N為人物數(shù)目,實驗數(shù)據(jù)集為797)。以居里夫人(Marie Curie)為例,與其相關度值最高的8位科學家的計算結果如表3所示,其中Pierre Curie、Irène Joliot-Curie、Frédéric Joliot與居里夫人均有家庭成員關系,Antoine Becquerel、Pierre Curie與居里夫人之間存在科研合作關系。

(2)關鍵詞檢索

用戶可以輸入人名關鍵詞對人物進行檢索。關鍵詞檢索模塊將用戶輸入的文本信息包裝成相應的SPARQL查詢語句,通過HTTP協(xié)議對Sesame模塊進行遠程檢索,Sesame模塊將查詢結果以JSON格式返回,關鍵詞檢索模塊再對JSON結果數(shù)據(jù)進行解析,并依據(jù)上文計算的相關度值,對結果進行排名,相關度越高則排名越靠前,最后以文本形式返回給用戶。以對居里夫人(Marie Curie)的檢索為例,檢索結果如圖5所示,共檢索到43位相關人物,排名前兩位的為相關度值最高的Pierre Curie和次之的Irène Joliot-Curie。

(3)基于Graph的關聯(lián)發(fā)現(xiàn)

為更好地展示關聯(lián)發(fā)現(xiàn)的結果,在基于Graph的關聯(lián)發(fā)現(xiàn)模塊中將檢索出的底層關聯(lián)數(shù)據(jù)轉(zhuǎn)化為JSON格式,調(diào)用d3.js[19]類庫,以動態(tài)的中心節(jié)點圖的形式展示人物關聯(lián)。

動態(tài)的中心節(jié)點圖展示了以某人物為中心關聯(lián)發(fā)現(xiàn)的結果,在關鍵詞檢索結果中點擊View Graph查看相應人物的中心節(jié)點圖。圖中人物節(jié)點間連線的粗細對應人物之間的相關度值。以居里夫人(Marie Curie)為例,JSON數(shù)據(jù)片段如圖6所示,圖中nodes中存儲了人物的姓名、肖像和學科信息,links中存儲了人物之間的關聯(lián)信息。檢索結果如圖7所示,圖中不同學科的人物名稱以不同的顏色標注。從圖中可以看出,物理、化學、生物醫(yī)學和數(shù)學領域的43位科學家與居里夫人(Marie Curie)形成了關聯(lián)。

表3 關系計算結果示例

圖5 基礎檢索示例(Marie Curie)

圖6 中心節(jié)點圖JSON數(shù)據(jù)片段

(4)基于地圖的關聯(lián)發(fā)現(xiàn)

圖7 中心節(jié)點圖示例(Marie Curie)

圖8 人物地圖JSON數(shù)據(jù)片段

圖9 人物地圖示例(France)

地圖從地理位置信息的角度展示了人物之間的聚集關系,在基于地圖的關聯(lián)發(fā)現(xiàn)模塊中,以地理位置為查詢關鍵詞構建SPARQL語句,利用已采集的人物數(shù)據(jù)和地理位置數(shù)據(jù),關聯(lián)查詢與某地理位置相關人物的姓名、出生地點、頭像和出生地點經(jīng)緯度信息,返回JSON數(shù)據(jù),再利用可視化工具Exhibit[20]繪制人物地圖,可在關鍵詞檢索結果中點擊View Map查看。以出生地為法國(France)的卓越科學家為例,JSON數(shù)據(jù)片段如圖8所示,items中l(wèi)abel字段存儲人物姓名,birthCity字段存儲出生地點,imageURL字段存儲頭像的URL,almLoc字段存儲經(jīng)緯度信息。繪制出人物地圖如圖9所示,地圖中共聚集了37位卓越科學家。

5 總結與展望

本文從學科領域、獎項、組織機構、科研成果、地理位置等多個維度挖掘卓越科學家的關聯(lián)信息,構建了人物關聯(lián)模型,利用Sesame存儲人物語義數(shù)據(jù),對外提供關鍵詞檢索和Web Service,并融入可視化技術展示關聯(lián)發(fā)現(xiàn)圖,促進卓越科學家之間的關聯(lián)發(fā)現(xiàn)。由于實驗中數(shù)據(jù)集較小,選取的人物關系數(shù)量較少,影響了人物之間關聯(lián)的發(fā)掘和關聯(lián)度的計算。因此,在后續(xù)研究中將增強系統(tǒng)數(shù)據(jù)的開放性,鼓勵用戶貢獻數(shù)據(jù),并進一步增加關系維度,實現(xiàn)更加豐富且準確的關聯(lián)發(fā)現(xiàn)。

[1]劉俊婉.杰出科學家論文影響力的社會年齡分析[J].情報學報,2010,29(1):121-127.

[2]汪士.中外杰出科學家行政任職差異及其影響[J].科技進步與對策,2013,30(6):134-138.

[3]FOAF [EB/OL]. [2013-12-08]. http://www.foaf-project.org.

[4]Schema.org [EB/OL]. [2013-12-08]. http://schema.org.

[5]DBpedia [EB/OL]. [2013-12-08]. http://dbpedia.org.

[6]vCard [EB/OL]. [2013-12-08]. http://www.w3.org/Submission/2010/ SUBM-vcard-rdf-20100120.

[7]諾貝爾官方網(wǎng)站[EB/OL]. [2013-12-08]. http://nobelprize.org.

[8]BIZER C, LEHMANN J, KOBILAROV G, et al. DBpedia - A crystallization point for the Web of Data [J]. Web Semantics: Science, Services and Agents on the World Wide Web, 2009, 7(3): 154-165.

[9]人立方[EB/OL]. [2013-12-08]. http://renlifang.msra.cn.

[10]谷歌學術搜索[EB/OL]. [2013-12-08]. http://scholar.google.com.

[11]微軟學術搜索[EB/OL]. [2013-12-08]. http://academic. research.microsoft.com.

[12]陳國華,湯庸,彭澤武,等.基于學術社區(qū)的學術搜索引擎設計[J].計算機科學,2011,38(8):171-175.

[13]NORUZI A. Google Scholar: The new generation of citation indexes [J]. Libri, 2005, 55(4): 170-180.

[14]HEATH T, BIZER C. Linked data: Evolving the web into a global data space [J]. Synthesis lectures on the semantic web: theory and technology, 2011, 1(1): 1-136.

[15]Jena [EB/OL]. [2013-12-08]. http://jena.apache.org.

[16]Sesame [EB/OL]. [2013-12-08]. http://www.openrdf.org.

[17]4Store [EB/OL]. [2013-12-08]. http://4store.org.

[18]HASLHOFER B, MOMENI R E, SCHANDL B, et al. Europeana RDF store report [J]. 2011.

[19]d3.js [EB/OL]. [2013-12-08]. http://d3js.org.

[20]Exhibit [EB/OL]. [2013-12-08]. http://www.simile-widgets. org/exhibit/.

金國棟,男,四川大學公共管理學院信息管理技術系本科生。

范煒,男,1981年生,管理學博士,四川大學公共管理學院信息管理技術系講師,研究方向:信息組織與信息檢索。通訊作者,E-mail: fanwscu@163.com。

Semantic Association, Searching and Discovering for Excellent Scientists Data

JIN GuoDong FAN Wei
(Department of Information Management Technology, School of Public Administration, Sichuan University, Chengdu 610064, China)

Centered on person data, this paper explores a technical route of semantic description and linkage discovery for excellent scientists. Based on a semantic data model of excellent scientists, we add semantic annotations, and manage the semantic data with Sesame. Then, we discover the linkage of excellent scientists by their discipline areas, awards, organizations, scienti fi c research achievements and geographical locations. Finally, We provide web services through keywords retrieval and map their semantic associations.

Excellent scientists; Semantic association; Searching and discovering

G254

10.3772/j.issn.1673—2286.2014.04.004

2014-04-01)

*本研究得到四川大學中央高?;A科研業(yè)務經(jīng)費項目“關聯(lián)數(shù)據(jù)集描述與發(fā)現(xiàn)服務研究”(編號:skq201204)和四川大學大學生創(chuàng)新創(chuàng)業(yè)訓練計劃項目“可視化語義搜索引擎——以卓越科學家搜索為例”(編號:20130564)資助。

猜你喜歡
卓越關聯(lián)檢索
創(chuàng)優(yōu)陽江 追求卓越
中國核電(2021年3期)2021-08-13 08:56:14
“一帶一路”遞進,關聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
2019年第4-6期便捷檢索目錄
奇趣搭配
大作為 走向卓越
創(chuàng)新,只為追求更加卓越
中國公路(2017年11期)2017-07-31 17:56:26
智趣
讀者(2017年5期)2017-02-15 18:04:18
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
卓越之夢
海峽姐妹(2016年2期)2016-02-27 15:15:28
語言學與修辭學:關聯(lián)與互動
當代修辭學(2011年2期)2011-01-23 06:39:12
丁青县| 太康县| 八宿县| 当雄县| 崇义县| 宝鸡市| 日照市| 沙湾县| 尤溪县| 汶川县| 灵石县| 昌图县| 封丘县| 宁河县| 常熟市| 苍南县| 崇义县| 栖霞市| 安阳县| 英山县| 烟台市| 乌拉特中旗| 肥城市| 永嘉县| 吉林市| 中卫市| 龙口市| 明星| 永城市| 印江| 东乡县| 崇文区| 平潭县| 遵义县| 哈巴河县| 巨野县| 璧山县| 瓮安县| 佛冈县| 德兴市| 萝北县|