国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能領域知識圖譜構(gòu)建與分析?

2021-04-04 07:48:58趙毓誠陳建軍
計算機與數(shù)字工程 2021年3期
關(guān)鍵詞:關(guān)系

趙毓誠 陳建軍

(1.沈陽航空航天大學計算機學院 沈陽 110136)

(2.沈陽北軟信息職業(yè)技術(shù)學院 沈陽 110000)

1 引言

當下最火熱的時事熱點莫過于人工智能。無論最近名聲大噪的谷歌Deepmind團隊開發(fā)的Al?phaGo系統(tǒng),還是1997年的“深藍”擊敗國際象棋大師,2011年IBM開發(fā)的人工智能程序“沃森”在智力問答游戲中戰(zhàn)勝人類冠軍,這些大事件都表明了人工智能急速興起與蓬勃發(fā)展。美國自2016年以來,先后發(fā)布了《為人工智能的未來做好準備》《國家人工智能研究與發(fā)展戰(zhàn)略規(guī)劃》《人工智能、自動化和經(jīng)濟》等多部白皮書,將人工智能置于維持其主導全球軍事大國地位的科技戰(zhàn)略核心。與此同時國內(nèi)也推出相應的政策,2017年國務院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》,2018年發(fā)布了《人工智能標準化白皮書(2018版)》來應對人工智能時代的到來。無論是民用還是軍用人工智能技術(shù)都已成為未來戰(zhàn)略的制高點,因此了解人工智能技術(shù)發(fā)展動態(tài),掌握當下應用水平為當務之急。與此同時互聯(lián)網(wǎng)的數(shù)據(jù)層出不窮,如何從大數(shù)據(jù)中對當下最火熱的人工智能信息進行分析與挖掘就顯得尤為重要與緊迫。

在傳統(tǒng)的知識表示與管理的框架下,獲得與知識相關(guān)的周邊內(nèi)容困難繁雜,知識間的關(guān)聯(lián)性并沒有展現(xiàn)出來,知識之間形成知識孤島缺少聯(lián)系[1]。Google團隊在2012年提出了知識圖譜的概念[2],其目的是為了增強Google搜索的用戶體驗,提高搜索引擎的語義檢索能力[2]。將知識圖譜作為知識引擎用來解決知識間缺少關(guān)聯(lián)的問題。

知識圖譜是一種語義網(wǎng)絡,一種語義知識庫,語義網(wǎng)絡的概念可以追溯到20世紀五六十年代用于知識表示,被人們稱為萬維網(wǎng)之父的Tim Bern?ers Lee于1998年提出的語義網(wǎng)(Semantic Web)[3]和在2006年提出的關(guān)聯(lián)數(shù)據(jù)(Linked Data)[4]都和知識圖譜有著千絲萬縷的關(guān)系,隨后知識圖譜在此基礎上發(fā)展而來。同時隨著人工智能的技術(shù)發(fā)展和應用,知識圖譜在搜索引擎上的大獲成功,知識圖譜一躍成為當下最火熱的技術(shù),已被廣泛應用于智能搜索、智能問答、個性化推薦、內(nèi)容分類等科研學術(shù)領域和工業(yè)界的產(chǎn)品中[5]。知識圖譜通??梢苑譃橥ㄓ弥R圖譜和領域知識圖譜,其中領域知識圖譜也被稱為垂直知識圖譜[6]。通用知識圖譜是一種開放域的知識庫構(gòu)建,旨在構(gòu)建出大量的實體與實體間的關(guān)系,包括全領域的信息,覆蓋大量的知識點,對于知識的精度要求沒有領域知識圖譜高,而領域知識圖譜則是在一個封閉的特定域中的將領域信息構(gòu)建成領域知識圖譜。業(yè)界上通用知識圖譜近年來經(jīng)過大力發(fā)展已經(jīng)取得了不錯的成果,具有代表性的有Google知識圖譜,通過將Free?Base[7]和Wikidata[8]大量的豐富的開放域知識進行整合構(gòu)建成知識庫形成知識圖譜,還有YAGO[9]、NELL[10]等知識庫,采用互聯(lián)網(wǎng)挖掘的方法從Web網(wǎng)頁數(shù)據(jù)中自動抽取三元組知識,國內(nèi)有百度的知心,搜狗搜立方,復旦大學的zhishi.me[11]等比較著名的通用知識圖譜。在領域知識圖譜方面比較具有代表性的有醫(yī)療領域的知識圖譜、國內(nèi)的“天眼查”知識圖譜等。

目前學術(shù)界對于領域知識圖譜構(gòu)建主要集中在醫(yī)學領域、商業(yè)領域和軍事領域,比如金碧漪構(gòu)建的健康領域知識圖譜[12],于彤等面向中醫(yī)藥工作者提供知識服務構(gòu)建的中醫(yī)藥知識圖譜[13],丁君怡等為改善武器裝備組織結(jié)構(gòu)而構(gòu)建的軍事領域武器知識圖譜[14],袁旭萍通過使用深度學習方法構(gòu)建的商業(yè)領域知識圖譜[15]等。在知識圖譜應用分析上,張慧等[16]針對文獻數(shù)據(jù)量大、格式復雜等問題,通過構(gòu)建引文及前言的知識圖譜分析出標準起草人之間的人物關(guān)系、標準與起草人之間的關(guān)系等關(guān)系和其趨勢發(fā)展,袁麗等[17]根據(jù)文獻分析了我國舞龍舞獅運動的發(fā)展趨勢,利用可視化軟件分析出該運動的基本發(fā)展脈絡,發(fā)展影響因素等相關(guān)發(fā)展趨勢。

本文對最近十余年的AAAI和IJCAI會議中的論文集(共10844篇)進行了整理分析和挖掘,構(gòu)建了包含500000個反映研究主題、研究人員等實體及其關(guān)系的三元組的人工智能領域知識圖譜,并在此基礎上對人工智能領域的研究熱點和發(fā)展趨勢進行了分析和討論。

2 人工智能圖譜構(gòu)建過程

圖1 領域知識圖譜構(gòu)建框架

知識圖譜構(gòu)建過程,一般采用兩種設計結(jié)構(gòu),一種為自底向上的構(gòu)建方法[5],一種為自頂向下的,自頂向下的構(gòu)建指的是預先定義好模式層,在此基礎上將通過數(shù)據(jù)獲得的知識實體對應的加入到知識庫,進行一種槽填充模式。對于大型通用知識圖譜來說,該構(gòu)建方式需要利用一些現(xiàn)有的結(jié)構(gòu)化知識庫作為其基礎知識庫,形成圖譜模式層,例如Freebase項目[7]就是采用這種方式,其中絕大部分數(shù)據(jù)來源于半結(jié)構(gòu)化的維基百科信息。自底向上方法則與之相反,是從數(shù)據(jù)出發(fā),在數(shù)據(jù)中提取出實體信息,這些信息經(jīng)過篩選,選擇正確的的信息添加到知識庫中,再根據(jù)這些實體構(gòu)建頂層的模式層[18]。目前,大多數(shù)知識圖譜都采用自底向上的方式進行構(gòu)建,包括Google公司構(gòu)建的知識圖譜[19]。

本文人工智能領域知識圖譜的構(gòu)建過程采用自底向上和自頂向下的混合設計結(jié)構(gòu),模式層采用自頂向下的構(gòu)建模式,數(shù)據(jù)層采取自底向上構(gòu)建模式,構(gòu)建框架如圖1所示。

為了研究人工智能領域的熱點及發(fā)展趨勢,本文知識圖譜模式層設計涉及到的本體有領域?qū)<?、領域文獻與領域熱點,這些信息內(nèi)容都在論文中有所體現(xiàn),因此將作者信息,題目信息,摘要信息,關(guān)鍵詞信息,會議來源信息,年份信息作為知識圖譜數(shù)據(jù)層的知識獲取的重要信息來源,通過以下四個步驟成功構(gòu)建人工智能領域知識圖譜。

1)模式層構(gòu)建。本文采用自頂向下的構(gòu)建方法,針對論文數(shù)據(jù)集所包含的信息內(nèi)容,以及通過早期手工構(gòu)建的知識圖譜和現(xiàn)有知識圖譜own?think圖譜對比,發(fā)現(xiàn)領域?qū)<?、領域論文與領域熱點這些節(jié)點對于整個人工智能領域體系具有關(guān)鍵性的作用,同時這些節(jié)點內(nèi)容也相對開放,比較容易獲得,通過數(shù)據(jù)間關(guān)聯(lián)分析可以得到領域內(nèi)大量的有價值的數(shù)據(jù)信息。因此模式層設計如圖2模式層設計所示,模式層節(jié)點包含有領域文獻、領域相關(guān)人員和領域研究熱點。模式層節(jié)點屬性設計,其中文獻節(jié)點屬性包含會議名稱、會議年份、論文標題、論文摘要(url代替摘要展示)、論文作者、關(guān)鍵字。模式層節(jié)點關(guān)系設計:研究熱點與人物之間研究內(nèi)容關(guān)系,人物與論文之間作者關(guān)系,研究熱點與文獻間關(guān)鍵詞關(guān)系,人物間合作關(guān)系,研究熱點間共現(xiàn)關(guān)系。

圖2 模式層設計

2)數(shù)據(jù)采集與整理。以模式層為基礎,我們對模式層所需數(shù)據(jù)進行采集整理,選取人工智能兩個頂級會議aaai與ijcai為數(shù)據(jù)來源,抓取aaai會議2000年~2018年間的論文信息以及ijcai會議發(fā)表年份為2007年~2018年間的論文信息。根據(jù)模式層設定,我們抓取信息內(nèi)容為論文所在期刊、論文標題、摘要、作者、關(guān)鍵字、發(fā)表時間,兩個會議總共抓取論文10844篇作為原始數(shù)據(jù),其中關(guān)鍵字信息在許多篇章中為缺失信息,得到數(shù)據(jù)統(tǒng)計信息如表1所示。

表1 數(shù)據(jù)集統(tǒng)計信息

通過設計網(wǎng)絡爬蟲采集器將領域會議網(wǎng)站上的論文數(shù)據(jù)進行數(shù)據(jù)采集,根據(jù)爬取需求設計固定采集格式,將每篇會議論文的發(fā)表期刊、論文標題、摘要、作者、關(guān)鍵字、發(fā)表時間依次對應存儲,轉(zhuǎn)化存儲為本地結(jié)構(gòu)化信息。圖3展現(xiàn)了采集會議論文數(shù)各個年份會議發(fā)表論文數(shù),可以看到隨著時間的推移,兩個會議發(fā)表論文的數(shù)量都呈現(xiàn)上升趨勢,18年的發(fā)文量較十年前都提升一倍,表明人工智能變得更加火熱,成為越來越重要的技術(shù)與研究方向。

圖3 會議發(fā)文數(shù)統(tǒng)計

3)領域信息抽取。關(guān)鍵字是一篇文章的主題內(nèi)容,能簡明直接地反映出該文章的闡述內(nèi)容,從表1統(tǒng)計信息看出,爬取的數(shù)據(jù)中只有aaai會議部分論文(2010年和2012年~2017年間)含有關(guān)鍵字,并不是所有的論文都包含關(guān)鍵字,相比模式層其他數(shù)據(jù)為缺失內(nèi)容,因此抽取關(guān)鍵字則成為了領域信息抽取步驟的重點內(nèi)容。摘要是一篇文章的縮略信息,整個文章的內(nèi)容梗概,涵蓋全文重要內(nèi)容的短文,所以采用論文的摘要信息作為關(guān)鍵字抽取的數(shù)據(jù)源。本文主要采取兩種關(guān)鍵字抽取方法Tex?tRank[20]和Rake[21],分別使用兩種算法對論文摘要進行關(guān)鍵字抽取,實驗結(jié)果在下文實例分析中討論。統(tǒng)計過程中發(fā)現(xiàn)關(guān)鍵字并非全在摘要中出現(xiàn),有許多關(guān)鍵字出現(xiàn)在論文標題中,未在摘要出現(xiàn),本文稱之為未登錄關(guān)鍵詞,根據(jù)爬取的論文數(shù)據(jù)集,其中含有關(guān)鍵字的論文數(shù)量為3064篇,含有未登錄關(guān)鍵字的論文數(shù)量為2796,含有未登錄關(guān)鍵字的論文數(shù)量的比例達到91%,具體年份的含有未登錄關(guān)鍵詞的論文數(shù)如圖4所示,因此將文章的標題與摘要進行聯(lián)合抽取,以提升關(guān)鍵字抽取的準確率。

圖4 關(guān)鍵詞統(tǒng)計

本文選取2010年~2017年間aaai會議中含有關(guān)鍵詞的論文作為數(shù)據(jù)集,對其中的摘要進行關(guān)鍵字抽取,采用TextRank和Rake兩種算法進行對比實驗,經(jīng)統(tǒng)計含有關(guān)鍵字的論文共3064篇,以論文中的關(guān)鍵字作為標準答案集進行關(guān)鍵字抽取實驗。在統(tǒng)計中發(fā)現(xiàn)其中2796篇論文包含的關(guān)鍵詞未在摘要中出現(xiàn),本文稱之為未登錄關(guān)鍵詞。與此同時發(fā)現(xiàn)論文標題中含有大量關(guān)鍵字信息,論文標題也是論文的核心表現(xiàn)內(nèi)容,因此對標題也進行關(guān)鍵詞抽取,但因為標題字數(shù)較短,單獨進行關(guān)鍵詞抽取效果并不理想,會出現(xiàn)大量抽取關(guān)鍵詞為空的現(xiàn)象,因此本文選擇將標題和摘要進行聯(lián)合,采用摘要+標題的形式作為輸入,經(jīng)過關(guān)鍵詞抽取算法抽取關(guān)鍵詞,表3為抽取關(guān)鍵詞實驗結(jié)果。

其中第一行數(shù)據(jù)為年份信息,最后一行為該年出現(xiàn)的關(guān)鍵詞總數(shù),中間為通過算法抽取正確的關(guān)鍵詞數(shù)量,我們可以看到在是否使用標題和摘要進行關(guān)鍵詞抽取上,兩種算法都展示出相同的結(jié)果,聯(lián)合抽取效果都要優(yōu)于只使用摘要進行關(guān)鍵字抽取的結(jié)果,因此可以得出結(jié)論,將論文標題與摘要進行聯(lián)合關(guān)鍵字抽取要優(yōu)于僅使用摘要進行關(guān)鍵字抽取。

表3 關(guān)鍵詞抽取結(jié)果表

4)根據(jù)模式層進行知識連接。將爬取得到的論文信息與抽取的信息根據(jù)模式層進行關(guān)系連接,關(guān)系設定為人物之間的合作關(guān)系,人物與研究熱點之間的研究內(nèi)容關(guān)系,研究熱點間的共現(xiàn)關(guān)系還有論文基本信息如作者、摘要等與論文之間的屬性關(guān)系,最后形成實體-關(guān)系-實體的三元組。圖5為通過以上四個步驟構(gòu)建出的領域知識圖譜展示(展示部分節(jié)點),以Zhi-Hua Zhou為例,通過知識圖譜搜索作者為Zhi-Hua Zhou年份為2015年以及會議為aaai的相關(guān)內(nèi)容。

圖5 知識圖譜展示

3 圖譜分析

依據(jù)本文構(gòu)建的領域知識圖譜對人工智能領域進行分析,對文獻作者以及近年來研究熱點進行分析,由每屆會議的發(fā)文數(shù)可以看出人工智能領域受到的關(guān)注越來越多,更多科研工作者投入到領域的研究當中。

圖6為發(fā)文作者統(tǒng)計,根據(jù)統(tǒng)計我們可以看出近年來發(fā)文作者的數(shù)量變化,整體呈現(xiàn)上升趨勢,同時我們根據(jù)本文構(gòu)建的知識圖譜對其中近十年的作者發(fā)文數(shù)進行統(tǒng)計排序,得到發(fā)文數(shù)最多的作者top-N,同時關(guān)聯(lián)作者的研究熱點進行數(shù)據(jù)挖掘。表2中列舉出了發(fā)文量前10名的作者,可以了解到近年來人工智能領域發(fā)文比較活躍的研究人員,其中每個人都發(fā)文50篇以上。從圖譜的人物合作關(guān)系中我們可以對其中的作者進行關(guān)系發(fā)現(xiàn),比如當前TOP10作者的合作關(guān)系網(wǎng)絡,從關(guān)系網(wǎng)絡中搜尋未合作但存在相對路徑的連通節(jié)點,進而發(fā)現(xiàn)隱含的可合作關(guān)系,為領域人物發(fā)現(xiàn)提供可能,找出領域人物發(fā)展與合作狀態(tài)。

圖6 發(fā)文作者數(shù)

表2 作者發(fā)文數(shù)統(tǒng)計表

根據(jù)圖譜查找的領域關(guān)鍵人物,同時對領域關(guān)鍵人物研究內(nèi)容進行分析,了解關(guān)鍵人物的研究內(nèi)容變化,從而了解領域發(fā)展變化。以發(fā)文作者排名第四位的Zhi-Hua Zhou為例,圖7為使用本文構(gòu)建的知識圖譜對作者Zhi-Hua Zhou進行研究內(nèi)容查詢(展示部分節(jié)點),從圖譜的查詢結(jié)果中可以看出Zhi-Hua Zhou的研究熱點主要集中為Machine Learning,multi-instance multi-label learning,deep learning等一些相關(guān)算法模型,表明該領域活躍人物的研究內(nèi)容總體情況,如果想要對該領域人物進行關(guān)注則需要對他的研究內(nèi)容進行深入了解。從圖譜查詢情況來看也與實際相符和,側(cè)面驗證了本文構(gòu)建的圖譜的準確性。

掌握個人研究熱點后對領域整體研究熱點進行分析把握,圖8為圖譜領域研究熱點查詢統(tǒng)計(展示部分節(jié)點),對圖譜中不同年份的關(guān)鍵字進行統(tǒng)計查詢,其中數(shù)字節(jié)點為年份,其他為該年中關(guān)鍵字出現(xiàn)篇章數(shù)大于7篇的關(guān)鍵字,從圖中可以看出位于中心位置的關(guān)鍵字為machine learning,rein?forcement learning,game theory,planning,crowd?sourcing,表明這些研究內(nèi)容一直是人工智能領域的研究熱點,近兩年,我們可以看到像classifica?tion,deep learning,neural network作為當年的研究熱點出現(xiàn),據(jù)此掌握領域研究熱點的大致變化,圖譜中心位置的為連續(xù)性研究領域熱點,周圍節(jié)點為非連續(xù)性研究熱點,分析內(nèi)容符合實際,同時也證明本文構(gòu)建的圖譜的準確性與有效性。

圖7 人物研究內(nèi)容圖譜

圖8 領域研究熱點圖譜

4 結(jié)語

本文通過四個步驟面向人工智能領域頂級會議論文構(gòu)建領域知識圖譜,成功構(gòu)建了人工智能領域的文獻知識圖譜,通過該圖譜可以有效地了解近年來領域內(nèi)的熱點變化,領域相關(guān)人員的研究熱點,掌握領域人物與研究熱點信息以及論文發(fā)表狀況并得到了以下結(jié)論。

1)成功構(gòu)建了領域知識圖譜,圖譜節(jié)點包括文獻題目、作者、領域研究熱點、摘要、文獻發(fā)表期刊和發(fā)表年份,節(jié)點關(guān)系包括文獻與摘要、標題、作者、關(guān)鍵字的屬性關(guān)系,人物之間的合作關(guān)系,關(guān)鍵詞與人物的研究內(nèi)容關(guān)系,關(guān)鍵詞之間的共現(xiàn)關(guān)系,共構(gòu)建實體三元組五十萬條;

2)通過圖譜掌握到領域熱點人物top-N,并根據(jù)作者之間的合作關(guān)系圖譜,為探尋潛在合作關(guān)系提供依據(jù);

3)依據(jù)研究內(nèi)容圖譜網(wǎng)絡,掌握人工智能領域研究熱點發(fā)展趨勢,發(fā)現(xiàn)有連續(xù)性和非連續(xù)性兩類研究熱點,連續(xù)性熱點為領域持續(xù)研究方向內(nèi)容,比如machine learning,game theory等,非連續(xù)熱點則為某時刻新興研究熱點,或有重大突破的研究熱點比如近年來的deep learning,neural network等,表明研究重心偏向目前的研究熱點,據(jù)此幫助了解領域發(fā)展概況;

4)根據(jù)領域熱點人物與研究內(nèi)容圖譜,可以發(fā)現(xiàn)熱點人物與熱點研究內(nèi)容的交叉集合,找到人物與熱點的連通路徑,比如Zhi-Hua Zhou的研究熱點主要集中為Machine Learning,multi-instance multi-label learning,deep learning等方面,為領域?qū)m椦芯刻峁┛煽康囊罁?jù)。

猜你喜歡
關(guān)系
商業(yè)保險與信用擔保關(guān)系問題研究
課程與教學的關(guān)系與整合
人間(2016年26期)2016-11-03 18:11:51
當代大學生戀愛觀淺析
新常態(tài)下高校會計監(jiān)督與會計服務關(guān)系探究
公司治理結(jié)構(gòu)與環(huán)境會計信息披露關(guān)系實證分析
探究企業(yè)財務會計與管理會計的結(jié)合
淺論企業(yè)文化建設中加強黨建工作的措施及其創(chuàng)新
施工項目管理與項目成本控制關(guān)系的分析
保加利亞媒體:飯局是中國搞定“關(guān)系”場所
新西蘭旅游界惡補“關(guān)系”開發(fā)中國商機
新余市| 青神县| 依兰县| 双峰县| 贵阳市| 保靖县| 阿克陶县| 普格县| 焦作市| 图木舒克市| 凌云县| 南和县| 陕西省| 蛟河市| 洛宁县| 高安市| 莱阳市| 监利县| 陆川县| 青田县| 集安市| 镇宁| 蒲城县| 监利县| 明星| 泸州市| 遂宁市| 五常市| 晴隆县| 磐安县| 达州市| 哈密市| 政和县| 临夏市| 凤阳县| 怀宁县| 应城市| 永州市| 崇义县| 长治市| 轮台县|