国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

旅游順承事理圖譜的構(gòu)建及應(yīng)用研究

2022-03-16 00:10王翊臻云紅艷李正民
關(guān)鍵詞:數(shù)據(jù)可視化

王翊臻 云紅艷 李正民

摘要:為了給用戶提供更直觀、高效、智能的旅游信息檢索方式,基于模式匹配法識別、抽取顯式順承關(guān)系,構(gòu)建旅游順承事理圖譜,設(shè)計圖譜應(yīng)用系統(tǒng)。該系統(tǒng)采用B/S架構(gòu),基于Flask框架,能夠完成基于城市、計劃時長的旅游路線查詢。實驗結(jié)果表明,順承關(guān)系抽取準確率為82.84%,基于D3.js的圖譜可視化查詢能豐富用戶的旅游檢索模式。

關(guān)鍵詞:事理圖譜;順承關(guān)系抽取;模式匹配;數(shù)據(jù)可視化

中圖分類號:TP391???????? 文獻標志碼:A

隨著人們生活水平的提高以及中國旅游業(yè)的迅猛發(fā)展,人們對旅游需求日益增加,互聯(lián)網(wǎng)上積累的旅游出行領(lǐng)域相關(guān)信息也是越來越多,如知乎上有旅游的相關(guān)問答,攜程等旅游門戶網(wǎng)站提供景點信息和旅游攻略等。但是此類信息來源廣泛且數(shù)據(jù)龐雜,用戶很難快速準確地獲得所需信息。因此,需要針對旅游出行建立一種更加直觀、高效的信息檢索方式。語義網(wǎng)絡(luò)(Semantic Networks)于1960年提出,知識的組成形式先后經(jīng)歷了語義網(wǎng)絡(luò)、本體、萬維網(wǎng)、鏈接數(shù)據(jù)、知識圖譜等幾個階段,期間涌現(xiàn)了大量關(guān)于本體和語義技術(shù)的研究與應(yīng)用[1-2]。2012年谷歌團隊提出知識圖譜的概念,引起了學術(shù)界和工業(yè)界的廣泛關(guān)注。在知識圖譜的構(gòu)建方面,國內(nèi)外已經(jīng)有了包括通用知識圖譜和領(lǐng)域知識圖譜的構(gòu)建在內(nèi)的諸多研究[3-5]。通過構(gòu)建旅游領(lǐng)域知識圖譜(例如CASIA-KB的中文旅游景點知識圖譜)能夠為用戶進行信息檢索提供一種更加直觀、高效的方式。但知識圖譜也存在一定的局限性,知識圖譜中刻畫的是靜態(tài)的確定性事實,研究的是名詞性實體、實體屬性、以及實體之間關(guān)系,缺乏對事物的邏輯演化和發(fā)展過程的刻畫能力。近些年在知識圖譜的基礎(chǔ)上,哈工大劉挺團隊提出了事理圖譜的概念[6-7]。事理圖譜強調(diào)揭示事件之間的邏輯演化,研究對象主要是謂詞性事件、事件間邏輯關(guān)系,其對信息檢索結(jié)果的展示更加直觀,更能揭示事物的演化過程。本文通過分析云南省旅游游記和攻略文本,對其中的顯式順承關(guān)系及事件進行抽取,構(gòu)建旅游順承事理圖譜,并在此基礎(chǔ)上實現(xiàn)事理圖譜可視化查詢功能,以期為用戶提供更好的旅游信息檢索體驗。

1 旅游順承事理圖譜構(gòu)建及應(yīng)用系統(tǒng)框架

旅游順承事理圖譜構(gòu)建及應(yīng)用系統(tǒng)以Python作為開發(fā)語言,采用B/S架構(gòu),后端服務(wù)由Flask框架提供,前端通過Bootstrap框架構(gòu)建界面,圖譜使用D3.js(http:/d3js.org)完成可視化。如圖1所示,系統(tǒng)采用分層的設(shè)計結(jié)構(gòu),自頂向下分別是:表示層、業(yè)務(wù)邏輯層、數(shù)據(jù)處理層。

(1) 表示層:用戶和系統(tǒng)的交互層,包括可視化查詢模塊和智能問答模塊,本文著重描述可視化查詢模塊。查詢分為兩類,分別是基于“目的城市”的查詢和基于“目的城市+計劃時長”的聯(lián)合查詢。根據(jù)查詢的類別,系統(tǒng)將以不同的查詢條件去圖數(shù)據(jù)庫中檢索,最后將結(jié)果以圖譜的形式進行可視化展示,同時輔以文字、圖片等方式對圖譜進行補充說明。

(2) 業(yè)務(wù)邏輯層:前后端交互的中間層,完成業(yè)務(wù)邏輯的處理。請求解析模塊負責對表示層用戶發(fā)來的post請求進行處理,根據(jù)請求參數(shù)調(diào)用不同函數(shù),以不同的條件對數(shù)據(jù)層進行訪問,將獲取到的數(shù)據(jù)以json格式回傳到數(shù)據(jù)封裝模塊。數(shù)據(jù)封裝模塊負責對數(shù)據(jù)進行去重等操作,并按照適合前端展示的形式精簡數(shù)據(jù)結(jié)構(gòu),將其以json格式回傳給表示層。

(3) 數(shù)據(jù)處理層:是整個系統(tǒng)的核心部分,包括數(shù)據(jù)獲取、數(shù)據(jù)解析兩部分。數(shù)據(jù)獲取部分包括數(shù)據(jù)爬取模塊、數(shù)據(jù)源的持久化存儲,數(shù)據(jù)解析部分則包括數(shù)據(jù)預(yù)處理模塊、圖譜構(gòu)建模塊、圖譜的持久化存儲。數(shù)據(jù)爬取模塊負責訪問攜程網(wǎng)上云南省相關(guān)的網(wǎng)頁集合,爬取其中的游記及攻略文本信息,并作為數(shù)據(jù)源集合持久化存儲在MongoDB數(shù)據(jù)庫中。數(shù)據(jù)預(yù)處理模塊負責對原始文本進行清洗、切分等預(yù)處理,去除噪音以減少抽取關(guān)鍵內(nèi)容時的困難。圖譜構(gòu)建模塊是旅游事理圖譜構(gòu)建的核心,包括如下任務(wù):首先對于預(yù)處理完畢的文本數(shù)據(jù),基于模式匹配法進行顯式順承關(guān)系的識別與抽取,識別其中的顯式順承關(guān)系,并抽取關(guān)系子句;然后針對關(guān)系子句進行事件抽取,得到順承事件三元組。事件三元組作為事理圖譜的基礎(chǔ)結(jié)構(gòu),被持久存儲到Neo4j圖數(shù)據(jù)庫中。

系統(tǒng)各層遵循“高內(nèi)聚低耦合”的原則,以提高系統(tǒng)的穩(wěn)定性和可擴展性。此外Flask作為一個輕量型的框架,非常適用于開發(fā)web服務(wù)的API,且與NoSQL數(shù)據(jù)庫的配合優(yōu)秀。持久化存儲方面,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中實體與實體之間的關(guān)系通過外鍵實現(xiàn),隨著關(guān)系數(shù)量的增加,查詢效率會大打折扣,因此采用NoSQL[8]類型的MongoDB數(shù)據(jù)庫、Neo4j圖數(shù)據(jù)庫來分別存儲數(shù)據(jù)源集合和圖譜。

2 旅游順承事理圖譜的構(gòu)建

2.1 數(shù)據(jù)源及獲取

(1) 數(shù)據(jù)源:數(shù)據(jù)來源為攜程網(wǎng)(https://you.ctrip.com/)。攜程網(wǎng)的旅游攻略及游記版塊中,包含諸多旅評人士、資深游客、本地向?qū)У耐扑]玩法及路線,以及普通游客的旅行隨筆。主要爬取云南省相關(guān)的旅游攻略及游記文本作為分析和實驗的源數(shù)據(jù)。

(2) 數(shù)據(jù)爬?。翰捎肧crapy爬蟲框架爬取數(shù)據(jù)。首先設(shè)定爬取的內(nèi)容Item為網(wǎng)頁地址(url)、文章標題(title)、正文內(nèi)容(content);接著Spider向引擎發(fā)送請求,轉(zhuǎn)經(jīng)調(diào)度器向互聯(lián)網(wǎng)發(fā)送請求,抓取數(shù)據(jù);然后采用Xpath語句著重處理<div class=“ctd_content”>標簽;最后將獲取的數(shù)據(jù)交給管道,按爬取順序存儲在MongoDB數(shù)據(jù)庫中。爬取的同時清洗其中空行、亂碼及無效值等。最終共爬取云南省旅游攻略及游記文本32 580篇,篩選其中熱門實用排名度最高、內(nèi)容邏輯清晰的500篇文章作為實驗文本。

2.2 數(shù)據(jù)預(yù)處理

由于爬取到的原始文本行文結(jié)構(gòu)不夠清晰,還需進行更細致的文本預(yù)處理操作。

(1) 文檔切分:將原始文本切分成多個“段”,每段對應(yīng)一個完整的行程安排??傮w分兩步:①按日程標志詞,先切分成以“天”為單位的文本塊;②再按行程標志詞,將每“天”細化切分為以“行程”為單位的“段”。針對文本存在的標志詞不統(tǒng)一問題,即不同文本中標志詞的類型、英文大小寫、數(shù)字不同,進行格式化操作:對諸如“DAY1”、“Day1”、“DAY01”、“第一天”、“第1天”等日程標志詞,統(tǒng)一格式化為“DAY1”形式;對諸如“1.”、“1、”、“一、”、“第一站”等行程標志詞,統(tǒng)一格式化為“1.”。

(2) 句子切分:對(1)中得到的每段“行程”再次進行切分,得到單獨的句子,以“句”作為目前最小粒度單位。對每段“行程”文本,按“\\n\\r” 等換行符以及“”等結(jié)束標點進行切分,得到多個單句,至此文本切分完畢。

(3) 短句處理及數(shù)據(jù)增強:首先處理短句,對過短的句子(小于5個漢字字符,或小于12個英文字符),將其和前一句進行合并,避免過短導致意義不明。其次增強數(shù)據(jù),將相鄰的2句話合并到一起,作為1條新的文本數(shù)據(jù)存儲到數(shù)據(jù)集中。同理再對相鄰的3句話進行同樣的操作,從而達到擴充數(shù)據(jù)多樣性的目的。

2.3 基于模式匹配的顯式順承關(guān)系識別與抽取

順承關(guān)系是指兩個事件在時間上相繼發(fā)生的偏序關(guān)系[7],包含順承關(guān)系的文本中,各分句表示連續(xù)發(fā)生的事情或動作,分句有先后順序。根據(jù)文中是否包含明顯的順承關(guān)系聯(lián)接詞,可以將順承關(guān)系分為顯式和隱式。顯式順承關(guān)系,意味著文本中包含明顯的順承關(guān)系聯(lián)接詞,是文本中較為容易識別和抽取的一類順承關(guān)系;隱式順承關(guān)系,則是指文本中沒有用以表征順承關(guān)系的聯(lián)接詞,但是暗含在語義中的一類順承關(guān)系。

順承關(guān)系抽取目前常用的方法包括:基于模式匹配的方法和基于深度學習的方法?;谀J狡ヅ浞ǖ捻槼嘘P(guān)系抽取,需要設(shè)計具有領(lǐng)域適用性的模板和抽取匹配規(guī)則,這種方法抽取準確率高,但跨域適應(yīng)性差,常用于特定領(lǐng)域的顯式順承關(guān)系的抽取;基于深度學習的順承關(guān)系抽取,是將抽取任務(wù)看作事件檢測和關(guān)系分類兩個子任務(wù),利用深度神經(jīng)網(wǎng)絡(luò)(如BERT[9])強大的表征學習能力,將文本中隱含的事件間關(guān)系識別并抽取出來。基于深度學習的方式使得抽取方法的適應(yīng)性和工作效率都有了很大程度的提高,是近年來隱式關(guān)系抽取的一種主流選擇[10]。但深度學習方法依賴于強有力的標注數(shù)據(jù)集,在現(xiàn)有語料庫數(shù)據(jù)不足、標注不完備的情況下,很難構(gòu)造出一個沒有先驗知識的高級深度學習模型。因此,本文主要聚焦于旅游領(lǐng)域文本中的顯式順承關(guān)系,基于模式匹配法對其進行識別與抽取。

2.3.1 研究思路 旅游領(lǐng)域顯式順承關(guān)系的抽取主要包括順承關(guān)系子句的抽取和子句中事件的抽取[12]。首先根據(jù)句法模式和匹配規(guī)則抽取顯式順承關(guān)系句中的順承前子句和順承后子句,然后將順承前、后子句中的事件分別按“動賓結(jié)構(gòu)”這一事件定義抽取出來,最終形成順承事件三元組<事件a,順承,事件b>。顯式順承關(guān)系的抽取框架如圖2所示。

2.3.2 顯式順承關(guān)系子句抽取 模式匹配法是通過定義在文本中表達的字符、語法或者語義模式,將模式與文本的匹配作為主要手段,來實現(xiàn)關(guān)系實例的抽取[11]。順承關(guān)聯(lián)詞(或順承提示詞,Cue Phrase)則是文本中用來表征順承關(guān)系的關(guān)聯(lián)詞,顯式順承關(guān)系的抽取直接依賴于是否存在順承關(guān)聯(lián)詞。順承關(guān)聯(lián)詞在句中用法的不同,使得句法模式更多樣,句法模式的總結(jié)也是據(jù)此來完成。

經(jīng)過漢語語言學者們的整理和研究,目前常作于研究和討論的順承關(guān)聯(lián)詞有15個[12]:“首先”“先”“然后”“接著”“后來”“從此”“于是”“從而”“最后”“終于”“就”“便”“才”“再”“又”。其用法見表1,其中Si指句子。本文在此基礎(chǔ)上歸納了適用于旅游領(lǐng)域順承關(guān)系抽取的4類順承提示詞,每類提示詞及其對應(yīng)的順承句法模式見表2,其中Pi表示第i種句法模式。

為了更加方便和準確地識別出順承關(guān)系句,抽取出句中的順承前和順承后子句,設(shè)計了與上述4種句法模式相對應(yīng)的抽取匹配規(guī)則:

(1)規(guī)則1:if wi∈cue1 and wj∈cue2, then Si∈P1,

before p1={wi+1,…,wj-1} and afterp1={wj+1,…,wn}

(2)規(guī)則2:if wi∈cue2 and cue1si, then Si∈P2,

beforep2={w1,…,wi-1} and afterp2={wi+1,…,wn}

(3)規(guī)則3:if wi∈cue3 and cue1si, then Si∈P3,

beforep3={w1,…, wi-1} and afterp3={wi+1,…, wn}

(4)規(guī)則4:if wi∈cue4 and wi-1∈mark∪subject and cue1si, then Si∈P4 ,

beforep4={w1,…, wi-2} and afterp4={wi+1,…, wn}

其中,Si表示預(yù)處理后的文本語料集中第i個句子,wi表示句中第i個詞,{wm,…,wn}表示句子中從第m個詞到第n個詞之間的文本內(nèi)容(包括第m和n個詞),mark表示句子中的逗號,subject表示句子中的主語,before表示順承前子句,after表示順承后子句。

2.3.3 顯式順承事件抽取 事理圖譜中的事件,理論上是具有一定抽象程度的泛化事件,表示為抽象、語義完備的謂詞短語或句子[7]。但游記文本內(nèi)容形式多樣,包含作者大量的心理活動和情感抒發(fā),且大量句子省略主語,若以標準的“主謂賓”形式進行事件抽取,容易造成事件成分缺失,影響抽取效果。因此將旅游順承事理圖譜中的事件定義為“去麗江”這種“謂語觸發(fā)詞+賓語”的形式,亦即動賓短語。2.3.2節(jié)抽取到的順承前、后子句此時仍保持著句子的形態(tài),為了便于順承事理圖譜的構(gòu)造,需要將子句中包含的事件分別抽取出來,組成事件三元組。具體包括兩個任務(wù)。

①分詞:分詞對于非結(jié)構(gòu)化文本的處理、語義分析等十分重要,是NLP必備的上游任務(wù)之一。本文采用pkuseg(http://github.com/lancopku/pkvseg-phthon)作為分詞工具。pkuseg是北京大學語言計算與機器學習研究組研制推出的一套中文分詞工具包,對于特定領(lǐng)域的個性化分詞,如醫(yī)藥、旅游、小說等領(lǐng)域,可以提供比jieba(http://github.com/fxsjy/jieba)(結(jié)巴分詞)、THULAC(http://thulac.thun/p.org)(清華大學自然語言處理與社會人文計算實驗室)更高的分詞準確率。

②依存句法分析:依存句法分析是通過分析語言單位內(nèi)成分之間的依存關(guān)系揭示其句法結(jié)構(gòu)。依存句法分析通過識別分詞后的句子中各詞的詞性,將各詞之間的句法關(guān)系通過依存結(jié)構(gòu)展示出來[13]。采用哈工大研發(fā)的語言技術(shù)平臺LTP(http://ltp.ai/)來完成依存句法分析相關(guān)操作。

例如,“第一站先去了納帕海依拉草原,在依拉草原上還能看到遠處的石卡雪山——石卡雪山是香格里拉附近可以攀登的雪山”是通過模式匹配得到的符合模式P1的顯式順承關(guān)系句;對其進行關(guān)系子句抽取后得到如下的兩個子句“{ 去 了 納帕海依拉草原 ,在 依拉草原 上 } ——P1——> { 能 看到 遠處 的 石卡雪山——石卡雪山 是 香格里拉 附近 可以 攀登 的 雪山 }”;對兩個子句分別進行分詞、依存句法分析(順承后子句的依存句法分析結(jié)果如圖3所示),得到前后子句中包含的VOB(動賓關(guān)系)短語如下:前子句{去納帕海依拉草原}、后子句{看到石卡雪山,雪山是};進一步做詞性篩選,判斷“謂語觸發(fā)詞+賓語”的詞性是否符合“v+n”(動詞+名詞)的關(guān)系,排除“雪山是”,取符合的事件“去納帕海依拉草原”“看到石卡雪山”分別作為前后子句的事件抽取結(jié)果。最終得到順承事件三元組<去納帕海依拉草原,順承,看到石卡雪山>。

2.3.4 抽取實驗效果與分析 針對500篇云南省旅游攻略及游記實驗文本,進行分詞、分句等預(yù)處理后,得到句子48 739句。根據(jù)2.3.2節(jié)所述的句法模式和抽取規(guī)則,逐句判斷是否含有順承提示詞,對顯式順承關(guān)系句進行關(guān)系子句的抽取以及子句中事件抽取。抽取效果見表3。

其中匹配句子數(shù)是指與4種模式P1、P2、P3、P4分別相匹配的句子數(shù)目,有效匹配句子數(shù)是指該模式匹配得到的句子中能夠表征順承關(guān)系的句子個數(shù),有效事件對數(shù)是指有效匹配的句子經(jīng)過事件抽取后能夠明確表征順承關(guān)系(即符合事件定義及篩選條件)的事件對的數(shù)目,準確率=有效事件對數(shù)/匹配句子數(shù)。實驗結(jié)果表明,本文采用的模式匹配法在云南省旅游攻略及游記文本的順承關(guān)系抽取中平均準確率為82.84%,效果良好。

2.4 圖譜的持久化存儲

經(jīng)過顯式順承關(guān)系識別與抽取后,得到順承事件三元組<順承事件a,順承,順承事件b>。利用Py2Neo,將三元組存入Neo4j數(shù)據(jù)庫中:①通過網(wǎng)絡(luò)套接字連接到Neo4j數(shù)據(jù)庫;②解析三元組,將三元組中的順承事件a/b、順承關(guān)系數(shù)據(jù)轉(zhuǎn)換成Node及Relationship對象;③通過create( )函數(shù)將節(jié)點、關(guān)系對象導入Neo4j中。事件對兩兩結(jié)合構(gòu)成事件鏈,事件鏈交錯相接構(gòu)成整個圖譜。

3 基于事理圖譜的可視化查詢功能

基于構(gòu)建的旅游順承事理圖譜,設(shè)計實現(xiàn)可視化查詢模塊,為用戶提供兩種查詢方式,分別是基于“目的城市”的查詢和基于“目的城市+計劃時長”的聯(lián)合查詢,并對查詢結(jié)果進行可視化展示。

可視化查詢功能的整體流程如圖4所示。用戶在瀏覽器端通過下拉列表選擇確定的城市(必選)、計劃時長(可選),點擊搜索;業(yè)務(wù)邏輯層獲取用戶的請求,經(jīng)由請求解析模塊、數(shù)據(jù)封裝模塊的處理,將從Neo4j數(shù)據(jù)庫查詢得到的結(jié)果以json格式返回給前端;前端利用D3.js,將結(jié)果以圖的形式渲染到界面,直觀展示給用戶,并輔以文字形式的行程推薦及時間安排對圖譜進行補充描述。

本文采用D3.js中的力導向圖作為可視化手段。D3.js(或稱D3,指Data-Driven Document,數(shù)據(jù)驅(qū)動文檔)是一個JavaScript庫,本身是一個DOM操作庫,能夠以操作DOM樹的方式向用戶直觀地展示數(shù)據(jù)信息。D3基于SVG(Scalable Vector Graphics,可縮放矢量圖形)進行繪制,提供了大量的圖形生成器,使繪制圖形變得簡單,圖形縮放時不會損失精度。

基于D3.js的圖譜可視化主要是將查詢結(jié)果中的事件、關(guān)系按照圖的形式進行繪制和渲染。

①創(chuàng)建SVG矢量圖形,作為圖譜可視化結(jié)果的容器;

②利用Ajax異步獲取業(yè)務(wù)邏輯層返回的json格式數(shù)據(jù),通過d3.json( )方法將其讀取到內(nèi)存中,節(jié)點屬性包括[id, label, name],邊屬性包括[id, source, target, name];

③通過選擇器(selector)選定SVG,設(shè)置節(jié)點的顯示形式為圓(circle)、邊的顯示形式為箭頭(arrow),同時動態(tài)設(shè)置節(jié)點的大小、邊的長短、箭頭方向。通過tick( )函數(shù)依次計算所有節(jié)點、邊的位置坐標,通過mouseenter( )函數(shù)綁定光標移入后的高亮及虛化效果;

④將繪制結(jié)果渲染到SVG上,并導入div容器中。

圖5展示的是選擇“麗江”作為“目的城市”、選擇“5~8天”作為“計劃時長”進行查詢得到的結(jié)果。圖中左側(cè)為圖譜可視化,右側(cè)為文字描述部分。圖譜以“去#麗江”事件節(jié)點為中心,根據(jù)箭頭走向連通多條完整事件鏈,每條事件鏈表征一個完整的行程。右側(cè)文字部分是對圖譜的詳細補充,給定多個時長為5~8天的日程安排,供用戶參考決策。

4 結(jié)論

本文采用模式匹配法,利用設(shè)計的抽取匹配規(guī)則實現(xiàn)顯式順承關(guān)系的識別與抽取,抽取準確率達到82.84%;同時將抽取到的順承關(guān)系、事件,以<事件a,順承,事件b>三元組的形式存入Neo4j圖數(shù)據(jù)庫中作為事理圖譜的基礎(chǔ)結(jié)構(gòu)。在構(gòu)建完成的事理圖譜基礎(chǔ)之上,設(shè)計實現(xiàn)旅游順承事理圖譜應(yīng)用系統(tǒng),基于D3.js技術(shù)為用戶提供旅游路線可視化查詢功能,幫助人們更好地梳理和檢索旅游路線,輔助用戶做出決策。

參考文獻

[1]云紅艷,賀英,郭振波,等.基于本體和Karma建模的數(shù)據(jù)集成研究與應(yīng)用[J].青島大學學報(自然科學版),2017,30(1):60-65.

[2]于小洋,云紅艷,賀英,等.利用語義技術(shù)實現(xiàn)Web Service數(shù)據(jù)的快速集成[J].青島大學學報(自然科學版),2017,30(1):79-84.

[3]蔣秉川,萬剛,許劍,等.多源異構(gòu)數(shù)據(jù)的大規(guī)模地理知識圖譜構(gòu)建[J].測繪學報,2018,47(8):1051-1061.

[4]林莉,云紅艷,賀英,等.基于企業(yè)知識圖譜構(gòu)建的可視化研究[J].青島大學學報(自然科學版),2019,32(1):55-60.

[5]AUER S, BIZER C, KOBILAROV G, et al. DBpedia: A nucleus for a web of open data[C]//6th International Semantic Web Conference/2nd Asian Semantic Web Conference, Busan, 2007: 722-735.

[6]劉挺.從知識圖譜到事理圖譜[R].上海:中國計算機學會青年計算機科技論壇,2017.

[7]丁效.事理圖譜構(gòu)建及應(yīng)用[R].深圳:中國中文信息學會,2019.

[8]CATTELL R. Scalable SQL and NoSQL data stores[J]. ACM SIGMOD Record, 2011, 39(4):12-27.

[9]DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[DB/OL]. [2021-04-11] https://arxiv.org/abs/1810.04805.

[10] 王朱君,王石,李雪晴,等.基于深度學習的事件因果關(guān)系抽取綜述[J].計算機應(yīng)用,2021,41(5):1247-1255.

[11] 祝寒. 基于事理圖譜的航空安全事故因果關(guān)系研究[D].天津:中國民航大學,2019.

[12] 周楊鈺.留學生漢語順承關(guān)聯(lián)詞的習得研究[D]. 上海:上海交通大學,2013.

[13] 李雪紅,郭暉,閆泓濤.基于改進依存句法的微博情感分析研究[J].計算機與數(shù)字工程,2017,45(3):506-511.

Research on Construction and Application of Tourism Sequential Eventic Graph

WANG Yi-zhen,YUN Hong-yan,LI Zheng-min

(College of Computer Science & Technology, Qingdao University, Qingdao 266071, China)

Abstract:

In order to provide users with a more intuitive, efficient and intelligent travel information retrieval method, the explicit sequential relationships were identified and extracted by the pattern matching method. The tourism sequential Eventic Graph was constructed and the graph application system was designed. Using B/S architecture and Flask framework, the system can complete tourism route query based on city and plan-days. The experimental results show that the accuracy rate of sequential relationship extraction is 82.84%. The visual query based on D3.js can enrich users' tourism retrieval model.

Keywords:

Eventic Graph; sequential relationship extraction; pattern matching; data visualization

收稿日期:2021-04-28

基金項目:

國家重點研發(fā)計劃 (批準號:2016YFB1001103)資助。

通信作者:

云紅艷,女,博士,教授,主要研究方向為語義Web與本體工程、智能信息系統(tǒng)、大數(shù)據(jù)集成。E-mail:yunhy2001@163.com

1180501186312

猜你喜歡
數(shù)據(jù)可視化
移動可視化架構(gòu)與關(guān)鍵技術(shù)綜述
大數(shù)據(jù)時代背景下本科教學質(zhì)量動態(tài)監(jiān)控系統(tǒng)的構(gòu)建
可視化:新媒體語境下的數(shù)據(jù)、敘事與設(shè)計研究
我國數(shù)據(jù)新聞的發(fā)展困境與策略研究
基于R語言的大數(shù)據(jù)審計方法研究
數(shù)據(jù)可視化概念研究
大數(shù)據(jù)背景下數(shù)據(jù)可視化方法研究
基于B/S結(jié)構(gòu)的考試成績分析系統(tǒng)
基于Hadoop的商業(yè)數(shù)據(jù)可視化分析模型的研究
用戶數(shù)據(jù)統(tǒng)計挖掘與展示
紫云| 平凉市| 兴和县| 陵川县| 沐川县| 明水县| 武定县| 山阴县| 抚州市| 衡阳市| 瑞丽市| 织金县| 清水县| 馆陶县| 连南| 宁城县| 鹿泉市| 瓦房店市| 乐亭县| 黄陵县| 叙永县| 繁昌县| 油尖旺区| 杭锦旗| 秀山| 天门市| 三都| 宜宾市| 安义县| 班玛县| 高安市| 鹤庆县| 阳高县| 合山市| 威宁| 临泉县| 剑阁县| 什邡市| 原阳县| 宝丰县| 邹城市|