国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于科研本體的國(guó)防科技知識(shí)圖譜構(gòu)建

2018-03-22 03:53:10,
關(guān)鍵詞:國(guó)防科技本體圖譜

,

2012年5月17日,谷歌正式推出知識(shí)圖譜(Knowledge Graph)項(xiàng)目,針對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)信息世界,試圖通過(guò)真實(shí)世界中存在的各種實(shí)體和概念進(jìn)行知識(shí)描述和檢索,從而代替?zhèn)鹘y(tǒng)的字符串匹配檢索,創(chuàng)造全新的信息檢索模式[1]。國(guó)內(nèi)外的互聯(lián)網(wǎng)搜索引擎公司緊隨其后紛紛構(gòu)建了自己的知識(shí)圖譜,如微軟的Probase、搜狗的“知立方”、百度的“知心”等,知識(shí)圖譜已經(jīng)成為構(gòu)建下一代智能化搜索引擎的基礎(chǔ)。

盡管在學(xué)術(shù)界和工業(yè)界,有關(guān)知識(shí)圖譜的研究與應(yīng)用不斷升溫,并且出現(xiàn)一些知識(shí)圖譜產(chǎn)品,但在國(guó)防科研領(lǐng)域尚缺乏知識(shí)圖譜構(gòu)建的成熟解決方案。本文在研究知識(shí)圖譜的概念和現(xiàn)有構(gòu)建技術(shù)的基礎(chǔ)上,結(jié)合國(guó)防科技文獻(xiàn)特點(diǎn),提出了從科研本體模式構(gòu)建知識(shí)圖譜的思路,并以權(quán)威科技文摘數(shù)據(jù)為對(duì)象開(kāi)展了知識(shí)圖譜構(gòu)建實(shí)踐。

1 知識(shí)圖譜概念及構(gòu)建技術(shù)框架

1.1 知識(shí)圖譜概念

知識(shí)圖譜(Knowledge Graph)是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界的概念及其相關(guān)關(guān)系,其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)“屬性-值對(duì)”,實(shí)體間通過(guò)關(guān)系相關(guān)聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[2]。

一般來(lái)說(shuō),知識(shí)圖譜是由具有屬性的實(shí)體通過(guò)關(guān)系鏈接而成的網(wǎng)狀知識(shí)庫(kù),可以看作是一張巨大的圖,圖的特征更明顯一些,譜的特征相對(duì)較弱。這張圖中的節(jié)點(diǎn)表示實(shí)體或概念,圖中的邊則構(gòu)成關(guān)系,是一種有效的知識(shí)表達(dá)形式。

知識(shí)圖譜和本體結(jié)構(gòu)非常類(lèi)似,但將其與本體概念進(jìn)行比較后可以發(fā)現(xiàn),知識(shí)圖譜并不是本體的替代品,相反它是在本體的基礎(chǔ)上進(jìn)行了豐富和擴(kuò)充,這種擴(kuò)充主要體現(xiàn)在實(shí)體(Entity)層面。本體中突出和強(qiáng)調(diào)的是概念以及概念之間的關(guān)聯(lián)關(guān)系,描述的知識(shí)圖譜的數(shù)據(jù)模式(Schema),即為知識(shí)圖譜構(gòu)建數(shù)據(jù)模式相當(dāng)于為其構(gòu)建本體;而知識(shí)圖譜則是在本體的基礎(chǔ)上,增加了更加豐富的關(guān)于實(shí)體的信息。

1.2 知識(shí)圖譜構(gòu)建方法

知識(shí)圖譜在邏輯上分為數(shù)據(jù)層和模式層,模式層是知識(shí)圖譜的核心,主要對(duì)圖譜中的知識(shí)節(jié)點(diǎn)進(jìn)行定義和規(guī)范,同時(shí)對(duì)知識(shí)節(jié)點(diǎn)之間的關(guān)系定義描述和約束;數(shù)據(jù)層則是在模式層約束下,對(duì)大數(shù)據(jù)資源進(jìn)行“實(shí)體-關(guān)系-實(shí)體”或者“實(shí)體-屬性-屬性值”描述,最終形成龐大的知識(shí)網(wǎng)絡(luò)。知識(shí)圖譜構(gòu)建主要是利用現(xiàn)有大數(shù)據(jù)資源和知識(shí)抽取等技術(shù),獲取知識(shí)圖譜模式結(jié)構(gòu)并構(gòu)建關(guān)聯(lián)網(wǎng)絡(luò),最終完成知識(shí)圖譜構(gòu)建。有學(xué)者[3]給出了知識(shí)圖譜的構(gòu)建和維護(hù)流程(圖1)。

圖1知識(shí)圖譜構(gòu)建與更新流程

國(guó)內(nèi)有學(xué)者[3]把知識(shí)圖譜構(gòu)建過(guò)程分為自頂向下和自底向上兩種模式。其中,自頂向下構(gòu)建是指借助已有權(quán)威知識(shí),在專(zhuān)家干預(yù)之下獲取模式信息,按照模式信息對(duì)數(shù)據(jù)資源進(jìn)行加工,形成知識(shí)圖譜;自底向上構(gòu)建則是指借助一定技術(shù)手段,從數(shù)據(jù)資源中獲取實(shí)體/概念及關(guān)系,利用統(tǒng)計(jì)學(xué)原理選擇其中置信度較高的新模式,經(jīng)人工審核之后形成知識(shí)庫(kù)??傊?,隨著大數(shù)據(jù)時(shí)代的到來(lái),知識(shí)抽取和知識(shí)加工技術(shù)的不斷成熟,知識(shí)圖譜構(gòu)建基本是由專(zhuān)家、數(shù)據(jù)、技術(shù)結(jié)合而進(jìn)行的螺旋式進(jìn)化和迭代式更新的過(guò)程,已經(jīng)很難區(qū)分是從自頂向下還是自底向上。

1.3 知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)

大數(shù)據(jù)信息環(huán)境為知識(shí)圖譜構(gòu)建提供了豐富的資源基礎(chǔ),大數(shù)據(jù)技術(shù)的迅速發(fā)展不斷推動(dòng)知識(shí)圖譜構(gòu)建工作向工程化和自動(dòng)化發(fā)展,其中信息抽取、知識(shí)融合、知識(shí)推理等是影響知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)[3]。

信息抽取是自然語(yǔ)言處理研究中的一個(gè)重要領(lǐng)域,主要實(shí)現(xiàn)從半結(jié)構(gòu)化、無(wú)結(jié)構(gòu)化的自由文本或其他信息資源中抽取出結(jié)構(gòu)化的、無(wú)二義性信息。在知識(shí)圖譜構(gòu)建中主要完成從半結(jié)構(gòu)化和無(wú)結(jié)構(gòu)數(shù)據(jù)中抽取實(shí)體、關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化信息,主要涉及命名實(shí)體識(shí)別、關(guān)系抽取、屬性抽取等技術(shù)。命名實(shí)體識(shí)別是指從文本中自動(dòng)識(shí)別并抽取出特定的實(shí)體信息[3],如人物、地點(diǎn)、機(jī)構(gòu)、時(shí)間等;關(guān)系和屬性抽取則是根據(jù)已經(jīng)識(shí)別出的實(shí)體,按照一定句法和句式自動(dòng)識(shí)別出實(shí)體與實(shí)體之間的關(guān)系,以及實(shí)體自身附著的特性信息。

知識(shí)融合是將不同來(lái)源的事實(shí)知識(shí)準(zhǔn)確、有效地合并到知識(shí)倉(cāng)儲(chǔ)中,并保證知識(shí)描述的一致性。為此,知識(shí)融合過(guò)程要準(zhǔn)確識(shí)別待合并事實(shí)知識(shí)與已有知識(shí)重復(fù)和相矛盾的部分,并采取適當(dāng)?shù)拇胧┻M(jìn)行處理,保證知識(shí)的一致性、無(wú)冗余、無(wú)矛盾。在知識(shí)圖譜構(gòu)建過(guò)程中主要是對(duì)抽取出的實(shí)體、關(guān)系以及屬性信息進(jìn)行概念消歧、冗余剔出和知識(shí)準(zhǔn)確性檢查,主要涉及實(shí)體消歧、共指消解、知識(shí)合并等技術(shù)[3]。

知識(shí)推理是在知識(shí)表達(dá)的基礎(chǔ)上,進(jìn)行機(jī)器思維求解問(wèn)題,實(shí)現(xiàn)知識(shí)推理的智能操作過(guò)程,是目前的技術(shù)難點(diǎn)[3]。在知識(shí)圖譜構(gòu)建過(guò)程中,主要通過(guò)干預(yù)和機(jī)器學(xué)習(xí)實(shí)現(xiàn)知識(shí)圖譜的更新和自我進(jìn)化,是目前知識(shí)圖譜工程化和自動(dòng)化的難點(diǎn),涉及到的技術(shù)包括自然語(yǔ)言學(xué)習(xí)、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)。

2 科研本體

本體是對(duì)概念進(jìn)行建模的規(guī)范,是描述客觀(guān)世界的抽象模型,旨在以形式化方式對(duì)概念及其之間的關(guān)系給出明確定義??蒲斜倔w目前沒(méi)有統(tǒng)一的定義,通常是以科研信息活動(dòng)為描述對(duì)象,揭示和反映領(lǐng)域科研活動(dòng)主體及各科研對(duì)象之間的聯(lián)系,如科研人員、科研機(jī)構(gòu)、科研成果、科學(xué)會(huì)議、科研設(shè)備等各種對(duì)象屬性及其相互之間的本質(zhì)聯(lián)系,是支持科研人員從海量科技文獻(xiàn)中進(jìn)行知識(shí)發(fā)現(xiàn)的基礎(chǔ)。

2.1 書(shū)目本體

從科技文獻(xiàn)入手進(jìn)行科研本體構(gòu)建最早來(lái)源于書(shū)目本體。20世紀(jì)90年代初,斯坦福人工智能研究的著名學(xué)者Tom Gruber用LISP語(yǔ)言定義了書(shū)目數(shù)據(jù)的本體模型[4]。很多學(xué)者都嘗試?yán)谜Z(yǔ)義網(wǎng)技術(shù)實(shí)現(xiàn)書(shū)目信息的本體化[5-6]。國(guó)內(nèi)學(xué)者王軍采用了SKOS Core的所有類(lèi)和關(guān)系構(gòu)建了KVision書(shū)目本體,并提供了主要類(lèi)和關(guān)系如圖2(圖片素材來(lái)自于文獻(xiàn)[7])。

圖2 KVision本體

該本體中定義了文獻(xiàn)(Document)、概念(Concept)、作者(Author)、出版機(jī)構(gòu)(Press)等實(shí)體類(lèi)型。在關(guān)系的定義中,主要包括兩個(gè)方面,一是繼承主題詞表中概念間用代屬分參關(guān)系,二是利用文獻(xiàn)與概念、文獻(xiàn)與作者、文獻(xiàn)與出版社之間形成的固有關(guān)系進(jìn)行定義。本體實(shí)例則是通過(guò)海量的文獻(xiàn)元數(shù)據(jù)進(jìn)行填充。KVision最終用于概念瀏覽和簡(jiǎn)單語(yǔ)義檢索支持??傊瑫?shū)目本體更關(guān)注于文獻(xiàn)這個(gè)核心,通過(guò)與文獻(xiàn)與文獻(xiàn)附屬的科研實(shí)體之間的關(guān)系進(jìn)行關(guān)聯(lián)擴(kuò)展,相對(duì)簡(jiǎn)單,因而對(duì)語(yǔ)義檢索的支持相對(duì)較弱。

2.2 VIVO科學(xué)家本體

VIVO是康奈爾大學(xué)圖書(shū)館于2004年啟動(dòng)的項(xiàng)目,后期利用RDF、OWL、Jena和SPARQL等技術(shù)進(jìn)行改造,最終形成了面向科學(xué)和學(xué)術(shù)交流的科學(xué)家語(yǔ)義網(wǎng)絡(luò),即VIVO科學(xué)家本體,主要用來(lái)促進(jìn)科研人員的科研網(wǎng)絡(luò)化協(xié)作[8]。該本體結(jié)構(gòu)以歐美教育體系為原型,以促進(jìn)科研人員的科研網(wǎng)絡(luò)化和協(xié)作為目標(biāo),描述內(nèi)容覆蓋康奈爾大學(xué)所有院系的教員、科研人員和學(xué)科信息,分為人員、機(jī)構(gòu)、學(xué)術(shù)活動(dòng)和科研。VIVO本體由核心本體(VIVO Core)和一些大眾本體(BIBO,F(xiàn)OAF,SKOS等)構(gòu)成,內(nèi)容重點(diǎn)關(guān)注科學(xué)家的學(xué)術(shù)、教育與服務(wù)等方面。如學(xué)術(shù)方面的教育背景、出版物、專(zhuān)業(yè)領(lǐng)域、資助,教育方面開(kāi)設(shè)的課程、報(bào)告會(huì)、培訓(xùn)等,服務(wù)方面的組織會(huì)議、參加編委會(huì)、學(xué)術(shù)社團(tuán)服務(wù)等。

VIVO集成了不同本體中大量的類(lèi),圍繞學(xué)術(shù)這個(gè)中心進(jìn)行數(shù)據(jù)建模,主要實(shí)體類(lèi)型除了傳統(tǒng)的機(jī)構(gòu)(Organization)、概念(Concept)、學(xué)者(Person)、期刊(Journal)外,還包括與學(xué)者相關(guān)的教學(xué)(Teaching)、教育培訓(xùn)(Education and Training)、獲獎(jiǎng)(Award)、資助(Grant)等[9]。這些類(lèi)之間通過(guò)對(duì)象類(lèi)型屬性形成了復(fù)雜的學(xué)術(shù)知識(shí)網(wǎng)絡(luò)。

2.3 科研本體

隨著文獻(xiàn)數(shù)據(jù)量的大幅提升,特別是文獻(xiàn)計(jì)量方法和社會(huì)網(wǎng)絡(luò)分析方法的廣泛應(yīng)用,科學(xué)研究活動(dòng)中學(xué)者的關(guān)注點(diǎn)逐漸從獲取全文文獻(xiàn)轉(zhuǎn)變?yōu)槲墨I(xiàn)引證分析和科研主體實(shí)例分析。在這樣的背景下,各大出版商、服務(wù)商和信息服務(wù)科研機(jī)構(gòu)迅速推進(jìn)知識(shí)服務(wù)創(chuàng)新,圍繞科研信息活動(dòng)中涉及的對(duì)象與關(guān)系,按照自身服務(wù)需求構(gòu)建科研本體,在創(chuàng)新文獻(xiàn)檢索服務(wù)的基礎(chǔ)上開(kāi)展科研實(shí)體分析服務(wù)。

信息出版和服務(wù)主要圍繞所占有的海量文獻(xiàn)開(kāi)展服務(wù),因此在科研本體建設(shè)方面仍然圍繞文獻(xiàn)這個(gè)核心實(shí)體,從文獻(xiàn)元數(shù)據(jù)中所描述的作者、作者單位、基金、文獻(xiàn)出處、主題概念、文獻(xiàn)分類(lèi)、引文、共被引文獻(xiàn)、共引文獻(xiàn)等方面進(jìn)行知識(shí)對(duì)象定義,利用文獻(xiàn)及其之間的關(guān)系將知識(shí)對(duì)象關(guān)聯(lián)形成知識(shí)網(wǎng)節(jié),提高用戶(hù)在相關(guān)知識(shí)對(duì)象之間跳轉(zhuǎn)的友好性;通過(guò)檢索結(jié)果中對(duì)知識(shí)對(duì)象的統(tǒng)計(jì)分析幫助用戶(hù)快速獲取情報(bào)信息,從定量情報(bào)分析角度運(yùn)用文獻(xiàn)信息,并輔以可視化展示。

國(guó)外以EI、SCI等權(quán)威數(shù)據(jù)庫(kù)服務(wù)為代表,國(guó)內(nèi)則以清華同方、萬(wàn)方數(shù)據(jù)、維普三大數(shù)據(jù)服務(wù)商為龍頭。其中萬(wàn)方公司圍繞學(xué)科、主題、人物、機(jī)構(gòu)、基金五要素構(gòu)建檢索服務(wù)體系的脈絡(luò),以科學(xué)為紐帶,組成各個(gè)要素之間的相互關(guān)聯(lián)關(guān)系,構(gòu)成知識(shí)關(guān)聯(lián)網(wǎng)絡(luò),各知識(shí)庫(kù)詳細(xì)描述各要素信息,形成知識(shí)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)與所有放射狀箭頭所指的節(jié)點(diǎn)形成“以點(diǎn)帶面”的知識(shí)庫(kù)(圖3)[10]。

圖3 知識(shí)關(guān)聯(lián)“五要素”

信息服務(wù)科研機(jī)構(gòu)以支撐科研活動(dòng)為使命,在科研本體建設(shè)方面?zhèn)戎赜诮Y(jié)合自身科研活動(dòng)特征需求進(jìn)行科研本體設(shè)計(jì)。科技部組織的“面向外文科技文獻(xiàn)信息的知識(shí)組織體系”項(xiàng)目中,科技知識(shí)組織系統(tǒng)(Science& Techology Knowledge Organization System,STKOS)科研本體以國(guó)外重要科技機(jī)構(gòu)、核心科技人員、主要科技期刊、國(guó)際重要會(huì)議為主體構(gòu)建,涵蓋理工農(nóng)醫(yī)四大領(lǐng)域,包括科研人員本體、科研機(jī)構(gòu)本體、科研項(xiàng)目本體、科技會(huì)議本體、科研基金本體、科研成果本體等,揭示和反映了領(lǐng)域科研活動(dòng)主體及各科研對(duì)象之間的聯(lián)系。中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開(kāi)展了衛(wèi)生政策科研本體建設(shè),圍繞衛(wèi)生政策研究過(guò)程設(shè)計(jì)了活動(dòng)、機(jī)構(gòu)、成果、人員、項(xiàng)目、研究主題、信息來(lái)源7個(gè)類(lèi)[11]。中國(guó)科學(xué)院國(guó)家科學(xué)圖書(shū)館利用protégé構(gòu)建了用于項(xiàng)目目標(biāo)的科研本體,主要概念包括科研活動(dòng)、科研產(chǎn)出、科研主體、科研設(shè)施和基本概念五大范疇。圖4是該本體部分關(guān)系描述示例[12],圖中粗箭頭是類(lèi)層次關(guān)系,細(xì)箭頭是類(lèi)之間邏輯關(guān)系。

圖4 科研本體部分關(guān)系描述示例

3 基于科研本體的國(guó)防科技知識(shí)圖譜

傳統(tǒng)的國(guó)防科技知識(shí)組織體系以國(guó)防科技敘詞表、分類(lèi)表為基礎(chǔ),通過(guò)不同來(lái)源詞表之間的概念映射形成較為完備的知識(shí)概念網(wǎng)絡(luò),國(guó)防科技科研本體是對(duì)傳統(tǒng)國(guó)防科技知識(shí)組織體系的拓展和深化。

國(guó)防科技科研活動(dòng)具有明顯的領(lǐng)域特色,國(guó)防科技科研本體緊緊圍繞其領(lǐng)域特色,在國(guó)防科技主題概念網(wǎng)絡(luò)的基礎(chǔ)上,對(duì)各種信息資源進(jìn)行本地化處理與集成,形成近億條科技文獻(xiàn)元數(shù)據(jù)作為樣本進(jìn)行建設(shè)。在知識(shí)描述廣度上,從主題概念單維度拓展到與科研活動(dòng)息息相關(guān)的各種實(shí)體,包括科研機(jī)構(gòu)、科研人員、出版物、學(xué)術(shù)會(huì)議活動(dòng)、國(guó)防產(chǎn)品等多維度;在實(shí)施描述深度上,突破傳統(tǒng)“用代屬分參”敘詞關(guān)系,為每個(gè)實(shí)體定義屬性,并在實(shí)體自身維度內(nèi)和跨實(shí)體之間構(gòu)建多種關(guān)系,從而使整個(gè)知識(shí)組織體系從單維度簡(jiǎn)單關(guān)系構(gòu)成的知識(shí)網(wǎng)絡(luò),全面轉(zhuǎn)變?yōu)槎嗑S立體的復(fù)雜關(guān)系網(wǎng)絡(luò)。而國(guó)防科技知識(shí)圖譜則依據(jù)國(guó)防科技科研本體中定義的包含實(shí)體概念、實(shí)體屬性和實(shí)體關(guān)系的數(shù)據(jù)模型,利用海量國(guó)防科技文獻(xiàn)元數(shù)據(jù)中所描述的信息,圍繞內(nèi)容相似、文獻(xiàn)引用、用戶(hù)瀏覽、社會(huì)網(wǎng)絡(luò)關(guān)系等文獻(xiàn)之間客觀(guān)存在的顯性關(guān)系,完成知識(shí)單元填充之后形成的包含了隱性知識(shí)的關(guān)聯(lián)網(wǎng)絡(luò)。其示意圖如圖5所示。

圖5基于科研本體的國(guó)防科技知識(shí)圖譜

4 國(guó)防科技文獻(xiàn)知識(shí)圖譜構(gòu)建與服務(wù)實(shí)踐

4.1 知識(shí)圖譜構(gòu)建

基于科研本體的國(guó)防科技知識(shí)圖譜是以國(guó)防科技科研活動(dòng)中的實(shí)體為節(jié)點(diǎn),以實(shí)體關(guān)聯(lián)關(guān)系為邊,在時(shí)間流的驅(qū)動(dòng)下形成譜系。而國(guó)防科技海量文獻(xiàn)元數(shù)據(jù)中包含了大量的科研實(shí)體信息,分別對(duì)作者、機(jī)構(gòu)、期刊和會(huì)議活動(dòng)等實(shí)體基本信息進(jìn)行了描述。其中,作者是專(zhuān)業(yè)知識(shí)的研究或者傳播主體,發(fā)文量、引文量多的作者是重要的學(xué)科帶頭人、領(lǐng)域影響者;機(jī)構(gòu)是作者所在的團(tuán)體,影響力強(qiáng)的作者聚集機(jī)構(gòu)一般是領(lǐng)域?qū)W科的重要發(fā)現(xiàn)源;期刊和會(huì)議是科研成果的聚集點(diǎn),是科研創(chuàng)新和變革的重要陣地。這些實(shí)體之間彼此關(guān)聯(lián),環(huán)環(huán)相扣,可以通過(guò)元數(shù)據(jù)從任何一個(gè)實(shí)體關(guān)聯(lián)到其他實(shí)體。本文構(gòu)建的國(guó)防科技知識(shí)圖譜則以權(quán)威的國(guó)防科技文獻(xiàn)元數(shù)據(jù)為素材,采用面向?qū)ο蟮乃枷?,通過(guò)數(shù)據(jù)清洗、實(shí)體歸一、關(guān)聯(lián)抽取等方法,最終完成圖譜構(gòu)建。

4.1.1 實(shí)體模型定義

實(shí)體是以對(duì)象的形式存在的,每個(gè)實(shí)體都是一個(gè)對(duì)象。所抽象出的類(lèi)包括各種屬性,有些是主要屬性,有些是次要屬性。對(duì)實(shí)體信息的模型定義需要分析它在元數(shù)據(jù)中的描述特征。

機(jī)構(gòu)名稱(chēng)在不同來(lái)源的元數(shù)據(jù)中描述有所不同,可能是因?yàn)闅v史變遷導(dǎo)致名稱(chēng)多次變動(dòng),也可能是長(zhǎng)期以來(lái)學(xué)術(shù)界約定俗稱(chēng)的說(shuō)法,或者是描述規(guī)則不同形成不同寫(xiě)法等。還有一種情況是描述相同,但不是一個(gè)機(jī)構(gòu),如每個(gè)國(guó)家都有科學(xué)院,相同的大學(xué)可以在不同地區(qū)建立分校。為此,明確所屬地相同的機(jī)構(gòu)作為一個(gè)類(lèi),該類(lèi)所屬的對(duì)象則是各種不同描述信息,以此為前提,定義如下的機(jī)構(gòu)模型。

Organization = {Country*,City,Name*,F(xiàn)relation,Fsub }

機(jī)構(gòu)類(lèi)包括國(guó)家、城市、名稱(chēng)屬性和不同名稱(chēng)的關(guān)聯(lián)函數(shù)、父子函數(shù),其中國(guó)家和名稱(chēng)是必要屬性。基于此模型,需要建立包括國(guó)家同義表、城市同義表,在此基礎(chǔ)上建立機(jī)構(gòu)名稱(chēng)規(guī)范系統(tǒng),以及不同機(jī)構(gòu)描述的關(guān)系(曾用名、簡(jiǎn)稱(chēng)、別名、錯(cuò)拼等)對(duì)應(yīng)表和父機(jī)構(gòu)與子機(jī)構(gòu)的對(duì)應(yīng)關(guān)系表。

采用相同的思想,定義如下的作者、期刊、會(huì)議模型。

Author = {Organization*,Surname*,Firstname*,Email }

作者類(lèi)包括所屬機(jī)構(gòu)、姓、名、電子郵件地址,其中機(jī)構(gòu)、姓和名是必要屬性。

Journal = {ISSN*,Coden,Publisher*,Name*,F(xiàn)relation }

期刊類(lèi)包括ISSN、CODEN、出版機(jī)構(gòu)、期刊名稱(chēng)和不同名稱(chēng)的關(guān)聯(lián)函數(shù),其中ISSN、出版機(jī)構(gòu)、期刊名稱(chēng)是必要屬性。

Conference = {Confername*,Conferdate*,Conferlocation*,Sponsor,F(xiàn)relation }

會(huì)議類(lèi)包括會(huì)議名稱(chēng)、會(huì)議召開(kāi)時(shí)間、會(huì)議召開(kāi)地點(diǎn)、會(huì)議主辦者和不同名稱(chēng)的關(guān)聯(lián)函數(shù),其中會(huì)議名稱(chēng)、會(huì)議召開(kāi)時(shí)間、會(huì)議召開(kāi)地點(diǎn)是必要屬性。

4.1.2 實(shí)體歸一化

長(zhǎng)期以來(lái),信息服務(wù)機(jī)構(gòu)的海量文獻(xiàn)元數(shù)據(jù)是科研人員檢索文獻(xiàn)、全文獲取的重要來(lái)源。Web of Science、Dialog、EI等元數(shù)據(jù)庫(kù)是開(kāi)展科學(xué)研究的基礎(chǔ)素材。隨著大數(shù)據(jù)分析技術(shù)的發(fā)展,基于科研實(shí)體等要素的學(xué)術(shù)文獻(xiàn)產(chǎn)出分析成為重要需求。圍繞文獻(xiàn)檢索和獲取的元數(shù)據(jù)存在描述不規(guī)范統(tǒng)一、各家自成一體的現(xiàn)象,嚴(yán)重影響了數(shù)據(jù)分析結(jié)果,實(shí)體歸一成為提高分析準(zhǔn)確性的重要需求。

由于海量文獻(xiàn)元數(shù)據(jù)中包含實(shí)體眾多,很難對(duì)所有實(shí)體進(jìn)行歸一。因此,為了遵循科研活動(dòng)的基本規(guī)律,筆者只針對(duì)具有國(guó)防科技特色的、高價(jià)值數(shù)據(jù)庫(kù),包括美國(guó)政府四大報(bào)告、AIAA、IEL等全文數(shù)據(jù)庫(kù)和EI INSPEC等文摘數(shù)據(jù)庫(kù)抽取其中學(xué)術(shù)產(chǎn)出較高、學(xué)術(shù)影響力大的科研實(shí)體進(jìn)行歸一處理。具體實(shí)現(xiàn)中,采用短文本匹配、高頻次優(yōu)先等方法進(jìn)行,具體步驟如下:選取元數(shù)據(jù)庫(kù)并進(jìn)行數(shù)據(jù)預(yù)處理,定義實(shí)體模型并抽取相關(guān)屬性,對(duì)實(shí)體屬性的可辨識(shí)性(可以表征實(shí)體區(qū)別于其他實(shí)體的辨識(shí)度)進(jìn)行權(quán)值分配,定義不同類(lèi)型實(shí)體的選取閾值(在元數(shù)據(jù)中出現(xiàn)頻次表征其學(xué)術(shù)重要度),通過(guò)短文本匹配算法對(duì)實(shí)體屬性進(jìn)行權(quán)值計(jì)算獲得匹配的不同實(shí)體并給出唯一標(biāo)識(shí),對(duì)于一個(gè)實(shí)體的屬性信息選取該唯一標(biāo)識(shí)下出現(xiàn)頻次最多的文本信息(如對(duì)期刊實(shí)體具有識(shí)別性?xún)r(jià)值的屬性值,ISSN、刊名完成短文本匹配后,出版社、CODEN等屬性值則選取出現(xiàn)頻率最高文本值)。

實(shí)體歸一是一個(gè)不斷迭代更新的過(guò)程,需要定期計(jì)算。在短文本匹配處理中,采取去停用詞、詞干抽取和忽略詞順等方法過(guò)濾噪聲信息,獲取到具有實(shí)際意義的關(guān)鍵詞集合。假設(shè)文本A形成的集合是S(A),|S(A)|表示包含的關(guān)鍵詞數(shù)量,兩個(gè)文本形成的集合A和B之間的相似度可以計(jì)算為:D(A,B) = |S(A)∩S(B)|/|S(A)∪S(B)|。

為上述的相似度設(shè)置一定閾值,有一部分可以由計(jì)算機(jī)直接處理,完成短文本匹配;有一部分需要人工核查;有一部分則不可能相同,直接過(guò)濾。

4.1.3 關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建

所有科研實(shí)體信息通過(guò)處理后,形成了由唯一標(biāo)識(shí)符標(biāo)識(shí)的對(duì)象及其關(guān)系表,結(jié)合國(guó)防科技分類(lèi)主題一體化詞表,與國(guó)防科技文獻(xiàn)元數(shù)據(jù)庫(kù)進(jìn)行實(shí)體關(guān)聯(lián)和概念,所有實(shí)體采用唯一標(biāo)識(shí)符進(jìn)行連接,完成圖譜中各節(jié)點(diǎn)的邊建設(shè)。具體的數(shù)據(jù)表關(guān)系如圖6所示。

4.2 知識(shí)圖譜服務(wù)實(shí)踐

國(guó)防科技知識(shí)圖譜是以文獻(xiàn)元數(shù)據(jù)中客觀(guān)存在的科研實(shí)體關(guān)系為基礎(chǔ)的,知識(shí)圖譜構(gòu)建后存儲(chǔ)在后臺(tái)關(guān)系型數(shù)據(jù)庫(kù)中。構(gòu)建不是知識(shí)圖譜的目標(biāo),開(kāi)展基于知識(shí)圖譜的服務(wù)和推進(jìn)基礎(chǔ)文獻(xiàn)獲取服務(wù)向科研實(shí)體分析型服務(wù)轉(zhuǎn)型,才是知識(shí)圖譜構(gòu)建的核心。筆者以構(gòu)建的知識(shí)圖譜為基礎(chǔ),從科研實(shí)體和科技論文等方面提供知識(shí)導(dǎo)航和檢索服務(wù),并借助可視化技術(shù)進(jìn)行圖譜關(guān)聯(lián)關(guān)系展示,實(shí)施了服務(wù)模式的實(shí)踐。

服務(wù)系統(tǒng)以已經(jīng)構(gòu)建完成的知識(shí)圖譜存儲(chǔ)數(shù)據(jù)庫(kù)為輸入,整個(gè)架構(gòu)分上、下兩層,如圖7所示。圖7中間的下面一層為引擎層,主要完成對(duì)提供數(shù)據(jù)的存儲(chǔ)處理、索引構(gòu)建和可視化引擎,其中數(shù)據(jù)庫(kù)待用CASS,索引采用Solr完成;上面一層是服務(wù)層,主要面向知識(shí)服務(wù)用戶(hù)需求提供多維度的導(dǎo)航、檢索、關(guān)聯(lián)展示和數(shù)據(jù)分析,主要實(shí)現(xiàn)以元數(shù)據(jù)、科研作者、科研機(jī)構(gòu)、期刊、會(huì)議、概念為用戶(hù)查閱入口,在提供基本文獻(xiàn)檢索和獲取的同時(shí),重點(diǎn)推出實(shí)體的導(dǎo)航、瀏覽、檢索和學(xué)術(shù)成果統(tǒng)計(jì)分析等,主要利用引擎層提供的功能進(jìn)行分析結(jié)果數(shù)據(jù)輸出和可視化展示。

圖6關(guān)聯(lián)網(wǎng)絡(luò)數(shù)據(jù)表關(guān)系

圖7 國(guó)防知識(shí)圖譜服務(wù)系統(tǒng)架構(gòu)

知識(shí)圖譜由不同類(lèi)型的節(jié)點(diǎn)構(gòu)成,服務(wù)系統(tǒng)面向各種節(jié)點(diǎn)類(lèi)型設(shè)計(jì)了特色化的用戶(hù)服務(wù)界面。對(duì)于科研機(jī)構(gòu)部分,主要提供了按照機(jī)構(gòu)名稱(chēng)首字母、機(jī)構(gòu)類(lèi)型、機(jī)構(gòu)所屬區(qū)域等進(jìn)行信息導(dǎo)航與發(fā)文統(tǒng)計(jì),并利用地圖的形式提供發(fā)文數(shù)據(jù)的直觀(guān)瀏覽;對(duì)于主題概念,則主要以其范疇分類(lèi)、概念關(guān)系為主要導(dǎo)航點(diǎn),為用戶(hù)提供囊括中英文、融合多領(lǐng)域詞表的知識(shí)體系;對(duì)于論文,作為所有科研實(shí)體關(guān)聯(lián)的基礎(chǔ),在提供基礎(chǔ)的專(zhuān)業(yè)分類(lèi)導(dǎo)航外,則主要以檢索結(jié)果中的實(shí)體、概念及其之間的關(guān)系挖掘?yàn)橹饕故緝?nèi)容,為用戶(hù)提供所檢索論文內(nèi)容的同時(shí),還提供對(duì)結(jié)果數(shù)據(jù)量化的分析情況。圖8是檢索“航空發(fā)動(dòng)機(jī)”之后對(duì)結(jié)果進(jìn)行分析后的知識(shí)圖譜可視化展示和文獻(xiàn)列表。

圖8國(guó)防知識(shí)圖譜服務(wù)系統(tǒng)界面截圖

5 結(jié)語(yǔ)

大數(shù)據(jù)分析技術(shù)的迅猛發(fā)展促進(jìn)了海量文獻(xiàn)的量化分析,而知識(shí)圖譜構(gòu)建又是開(kāi)展量化分析的重要基礎(chǔ)。筆者從國(guó)防科研活動(dòng)出發(fā)試圖構(gòu)建國(guó)防科技知識(shí)圖譜,探索基于知識(shí)圖譜服務(wù)的新模式。在整個(gè)研究和試驗(yàn)過(guò)程中,也發(fā)現(xiàn)了一些問(wèn)題,主要有兩類(lèi)。一是信息服務(wù)機(jī)構(gòu)業(yè)務(wù)轉(zhuǎn)型問(wèn)題。傳統(tǒng)的組織加工不再是核心工作,其重點(diǎn)應(yīng)該轉(zhuǎn)向研究各領(lǐng)域間知識(shí)圖譜構(gòu)建所依賴(lài)的本體模型。二是智能化處理技術(shù)需求強(qiáng)烈。由于數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng),未來(lái)大部分文獻(xiàn)處理工作需要計(jì)算機(jī)完成,因此實(shí)體識(shí)別、知識(shí)抽取、知識(shí)標(biāo)注等技術(shù)還需要深入研究。

猜你喜歡
國(guó)防科技本體圖譜
Abstracts and Key Words
美國(guó)國(guó)防科技集成創(chuàng)新初探
區(qū)域國(guó)防科技創(chuàng)新生態(tài)系統(tǒng)的構(gòu)成與培育
繪一張成長(zhǎng)圖譜
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動(dòng)對(duì)接你思維的知識(shí)圖譜
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
雜草圖譜
商河县| 收藏| 伊金霍洛旗| 汉源县| 武城县| 广昌县| 武威市| 札达县| 健康| 建宁县| 鄢陵县| 榆林市| 瓦房店市| 宁德市| 惠水县| 柯坪县| 哈巴河县| 宁津县| 顺昌县| 莱州市| 乐安县| 连云港市| 永康市| 本溪市| 青铜峡市| 四子王旗| 伊金霍洛旗| 教育| 汝州市| 五原县| 大厂| 铜川市| 巢湖市| 托克逊县| 武鸣县| 靖远县| 寿宁县| 庐江县| 安仁县| 兰州市| 合川市|