国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜構(gòu)建5G協(xié)議知識庫

2020-10-27 09:46:56徐健
移動通信 2020年8期
關(guān)鍵詞:知識圖譜搜索引擎深度學(xué)習(xí)

徐健

【摘 ?要】

隨著5G技術(shù)的日趨成熟,運(yùn)營商相關(guān)研究人員面臨著快速掌握5G相關(guān)知識的壓力,然而5G知識內(nèi)容種類繁多,知識面廣,如何高效地從5G協(xié)議中查詢到亟需學(xué)習(xí)的知識點(diǎn)是當(dāng)前亟待解決的問題,為了解決這一問題,本文基于知識圖譜及信息搜索方法構(gòu)建5G協(xié)議知識庫。由于網(wǎng)優(yōu)人員搜索相關(guān)知識一般只需得到與關(guān)鍵字相關(guān)的知識信息,而不必通曉全文,本文采用專業(yè)領(lǐng)域知識庫結(jié)合多種方法對信息進(jìn)行抽取,建立術(shù)語的屬性、基本關(guān)系以及文本結(jié)構(gòu)的關(guān)系,同時采用Neo4j圖數(shù)據(jù)庫對構(gòu)建成的三元組進(jìn)行存儲,極大地提高了搜索性能,本文將該知識圖譜運(yùn)用到5G協(xié)議知識智能檢索中,并取得了很好的效果。

【關(guān)鍵詞】知識圖譜;Neo4j;搜索引擎;深度學(xué)習(xí);知識抽取

[Abstract]

With the maturity of 5G technology, operator-related researchers face the pressure to quickly acquire 5G knowledge. However, there are various types of 5G knowledge content with a wide range, and how to efficiently extract the knowledge points from 5G protocol is an urgent issue to be solved. In order to solve it, this paper constructs a 5G protocol knowledge base using the methods of knowledge graph and information search. Since network optimization engineers usually need to get knowledge related to key words rather than being familiar with the full text when searching relevant knowledge, this paper adopts professional domain knowledge bases and combines multiple methods to extract information to establish term attributes, basic relationships and text structures. At the same time, the paper also uses the Neo4j graph database to store the construed triples, which greatly improves the search performance. This paper applies the knowledge graph to intelligent retrieval in 5G protocol knowledge and obtains a successful achievement.

[Key words]knowledge graph; Neo4j; search engine; deep learning; knowledge extraction

0 ? 引言

隨著網(wǎng)絡(luò)領(lǐng)域人工智能技術(shù)的發(fā)展,自然語言處理技術(shù)得到了進(jìn)一步的發(fā)展,由于網(wǎng)優(yōu)領(lǐng)域知識的大規(guī)模、非結(jié)構(gòu)化等特點(diǎn),這使網(wǎng)優(yōu)人員獲取信息的難度加大,同時,知識圖譜的快速發(fā)展,又給網(wǎng)優(yōu)知識整理提供了可能性,知識圖譜以其強(qiáng)大的語義處理能力和開放性組織能力,為網(wǎng)絡(luò)領(lǐng)域的知識整理和自動化應(yīng)用打下了根基,許多領(lǐng)域面臨數(shù)據(jù)的不斷增長所帶來的許多挑戰(zhàn),因此可以利用知識圖譜技術(shù),針對不同的業(yè)務(wù)需求,實(shí)現(xiàn)通用領(lǐng)域和專用領(lǐng)域應(yīng)用“遍地開花”的景象。

DBpedia是知識圖譜中很典型的例子,是從維基百科的結(jié)構(gòu)化數(shù)據(jù)中提取出來的知識圖,這種提取的數(shù)據(jù)主要來源是維基百科信息框中的鍵值對,在一個眾包過程中,提取信息框中的內(nèi)容作為實(shí)體,而相應(yīng)的鍵值作為屬性,基于這些映射,可以提取知識圖[1]。和DBpedia一樣,YAGO也是從DBpedia中提取的,YAGO從維基百科的范疇系統(tǒng)和詞匯資源WordNet[2]中隱式構(gòu)建分類,將信息框?qū)傩允謩佑成涞焦潭ǖ膶傩约?,DBpedia為每個語言版本的Wikipedia創(chuàng)建不同的相互關(guān)聯(lián)的知識圖[3],YAGO的目標(biāo)是利用不同的啟發(fā)式方法,將從不同語言版本中提取的知識自動融合起來[4]。無論用何種方法來構(gòu)造知識圖譜,其結(jié)果都不會是完美的[5],作為現(xiàn)實(shí)世界的一個模型或它的一部分,形式化的知識不能合理地達(dá)到完全覆蓋,即不可能包含關(guān)于宇宙中每一個實(shí)體的信息,此外,特別是在應(yīng)用啟發(fā)式方法時,知識圖不太可能是完全正確的,通常在覆蓋率和正確性之間存在權(quán)衡,這在每個知識圖中都有不同的解決方案。已有很多學(xué)者對知識圖譜相關(guān)技術(shù)進(jìn)行了研究,Dong C, Zhang J等[6]通過使用神經(jīng)網(wǎng)絡(luò)的變種形式雙向的LSTM-CRF進(jìn)行命名實(shí)體識別,利用字符級等方法進(jìn)行表示,并在沒有精心設(shè)計(jì)的特性的情況下獲得更好的性能。M Ganzha, L Maciaszek等[7]利用原始的PDF文件提取出句子和單詞,所提取的句子之間的關(guān)系以網(wǎng)絡(luò)圖的形式構(gòu)建出來。Rajman等[8]提出了一種采用文本數(shù)據(jù)挖掘技術(shù)進(jìn)行知識抽取的對策,他們提供了兩個可以從文本集合中提取信息的示例——關(guān)鍵字和原型文檔實(shí)例的概率關(guān)聯(lián),同時,該文章表明了自然語言處理技術(shù)在知識抽取應(yīng)用中至關(guān)重要。Alani等[9]按文檔檢索、實(shí)體識別和提取過程等步驟,利用預(yù)定義的本體從文檔中自動提取知識,在知識抽取過程中,采用了多種自然語言處理技術(shù),句法分析、語義分析和關(guān)系抽取,而且已經(jīng)得到了很好的結(jié)果。翟社平、段宏宇等人[10]通過采用一種基于RNN網(wǎng)絡(luò)的變種BiLSTM_CRF網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了實(shí)體提取技術(shù),在使用雙向短時記憶網(wǎng)絡(luò)BiLSTM提取文本信息時,又利用CRF技術(shù)對序列標(biāo)注之間的關(guān)系進(jìn)行表示,實(shí)驗(yàn)表明該方法可以獲得很好的結(jié)果。Peter Clark和Phil Harrison等[11]通過創(chuàng)建“元組”數(shù)據(jù)庫來研究知識提取,從而捕獲簡單的單詞知識,然后用它來改進(jìn)文本潛在的語義規(guī)則的語法分析和可信性評估。Parikh[12]提出了一種學(xué)習(xí)語義解析的方法,用于提取帶或不帶注釋文本的嵌套事件結(jié)構(gòu),此方法背后的思想是將注釋構(gòu)建為潛在變量,并合并與事件語義解析匹配的先驗(yàn)知識。

伴隨著“互聯(lián)網(wǎng)+5G”的蓬勃發(fā)展,人們的思想和生活理念會發(fā)生天翻地覆的變化,5G所影響的將是全產(chǎn)業(yè)、全鏈條的技術(shù)創(chuàng)新,不僅是日常生活到工業(yè)生產(chǎn)的變化,文化娛樂、智能駕駛、教育醫(yī)療都會發(fā)生深刻的變化,5G的影響將隨處可見。構(gòu)建網(wǎng)優(yōu)知識的知識圖譜對5G的發(fā)展起到極大的推動作用,對網(wǎng)優(yōu)專家以及工程人員及時獲取5G相關(guān)的知識起到至關(guān)重要的作用。根據(jù)我們的設(shè)想,網(wǎng)優(yōu)專業(yè)以及工程人員無需去閱讀所有的協(xié)議,只需要懂得查找并及時獲取相關(guān)的知識即可,所以要求知識圖譜抽取的知識是在有限的時間里提供給用戶簡潔且容易獲得的信息。

本文通過自然語言處理技術(shù),對5G協(xié)議進(jìn)行數(shù)據(jù)處理,通過自然語言處理相關(guān)技術(shù)構(gòu)建網(wǎng)優(yōu)領(lǐng)域的知識圖譜,通過智能搜索技術(shù)實(shí)現(xiàn)搜索引擎,查找相關(guān)的協(xié)議內(nèi)容和知識,并且對比了深度學(xué)習(xí)實(shí)體提取算法的優(yōu)劣,最后選擇了BiLSTM-CRF進(jìn)行知識提取。此外,知識圖譜的構(gòu)建方便了網(wǎng)優(yōu)人員進(jìn)行參數(shù)查詢和自主學(xué)習(xí),并取得了令人滿意的結(jié)果。

1 ? 基于知識圖譜的5G協(xié)議檢索

目前,知識圖譜的構(gòu)建形式,一般有兩種形式,其中,自頂向下方式需要通過構(gòu)建好的知識庫進(jìn)行提取出實(shí)體和關(guān)系的基本模式,然后再從新的數(shù)據(jù)源中抽取出正確的實(shí)體和屬性,合并到已定義好的概念體系當(dāng)中[13-15],但這種構(gòu)建知識圖譜的方式相對簡單。例如,Google在初期為了保證知識的準(zhǔn)確性和高效性,很多數(shù)據(jù)都是從Freebase數(shù)據(jù)庫中獲取的;DBpedia則是基于維基百科大規(guī)模數(shù)據(jù)的基礎(chǔ)上構(gòu)建完成的。然而,隨著深度學(xué)習(xí)等知識提取技術(shù)的快速發(fā)展,逐漸形成了以自底向上為主的構(gòu)建形式,這種構(gòu)建知識圖譜的方式,實(shí)體和關(guān)系抽取更高效,其構(gòu)建的圖譜葉更加完善且豐富,Knowledge Vault[16]就是采用該深度學(xué)習(xí)的方式進(jìn)行構(gòu)建知識圖譜的典型例子,對現(xiàn)存的圖譜進(jìn)行了填補(bǔ)和完善。

1.1 ?5G協(xié)議檢索架構(gòu)設(shè)計(jì)

網(wǎng)優(yōu)領(lǐng)域的知識圖譜是為了讓網(wǎng)優(yōu)人員都能獲取專業(yè)領(lǐng)域的知識,因此,網(wǎng)優(yōu)知識圖譜應(yīng)針對網(wǎng)優(yōu)領(lǐng)域的知識進(jìn)行構(gòu)建,而且領(lǐng)域中有組織有結(jié)構(gòu)的數(shù)據(jù)更容易獲取準(zhǔn)確的三元組。在研究分析網(wǎng)優(yōu)領(lǐng)域的數(shù)據(jù)時可以發(fā)現(xiàn),網(wǎng)優(yōu)領(lǐng)域知識難度大,即使是工作多年的工程師也會存在技術(shù)短板,因此現(xiàn)有結(jié)構(gòu)化數(shù)據(jù)十分缺失,收集較為困難,所以,可信度較高的5G協(xié)議知識作為基礎(chǔ)數(shù)據(jù)源,本文將采用多種方式來構(gòu)建網(wǎng)優(yōu)知識圖譜,本文的構(gòu)建流程圖如圖1所示:

本節(jié)介紹系統(tǒng)的總體思路及架構(gòu),該架構(gòu)主要由如下幾個部分組成:數(shù)據(jù)格式轉(zhuǎn)化、數(shù)據(jù)處理、知識整理模塊、數(shù)據(jù)庫存儲的轉(zhuǎn)化模塊、知識融合模塊、知識庫引擎模塊、前端用戶交互模塊等。

該流程首先通過文檔數(shù)據(jù)進(jìn)行預(yù)處理,再進(jìn)行知識圖譜的知識整理,包括實(shí)體提取,關(guān)系提取和屬性提取,然后再針對定義好的專業(yè)領(lǐng)域數(shù)據(jù)中的相關(guān)知識,經(jīng)過知識融合的本體對齊和實(shí)體匹配等操作進(jìn)行網(wǎng)優(yōu)知識圖譜的構(gòu)建,并用圖數(shù)據(jù)庫進(jìn)行儲存。由于網(wǎng)優(yōu)知識圖譜主要為網(wǎng)優(yōu)工程人員提供服務(wù),對圖譜中的實(shí)體和關(guān)系的準(zhǔn)確性提了很高的要求,因此本文在分析5G協(xié)議數(shù)據(jù)源之后,考慮到網(wǎng)優(yōu)領(lǐng)域知識的難度大等特點(diǎn),通過對文本結(jié)構(gòu)以及網(wǎng)優(yōu)術(shù)語及其之間關(guān)系進(jìn)行三元組構(gòu)建,確定網(wǎng)優(yōu)核心概念,構(gòu)建網(wǎng)優(yōu)領(lǐng)域的知識圖譜。

1.2 ?圖數(shù)據(jù)庫Neo4j實(shí)現(xiàn)知識搜索

表1為幾種不同的數(shù)據(jù)庫對比,經(jīng)過對比,Neo4j圖數(shù)據(jù)庫有如下優(yōu)點(diǎn):高可用性,實(shí)時數(shù)據(jù)分析,輕松檢索,Neo4j不僅可以可視化顯示,而且還可以比較容易地實(shí)現(xiàn)檢索(遍歷/導(dǎo)航)其他數(shù)據(jù)庫中的連接數(shù)據(jù),具有查詢速度快,代碼量少等優(yōu)點(diǎn),因此,該系統(tǒng)采用通用的圖數(shù)據(jù)庫Neo4j作為存儲數(shù)據(jù)庫,在數(shù)據(jù)經(jīng)過處理后以三元組的形式表達(dá)的元素作為基本輸入構(gòu)建知識圖譜。搜索引擎是知識圖譜最典型的應(yīng)用之一,其目的是協(xié)助工程人員通過所輸入的關(guān)鍵字獲取所需要的信息,本文以Neo4j為知識搜索引擎,該系統(tǒng)主要實(shí)現(xiàn)以下查詢功能:實(shí)體查詢,顯示關(guān)系以及對應(yīng)的實(shí)體;查篇名,顯示文檔的內(nèi)容以及關(guān)系;查術(shù)語,顯示相關(guān)的關(guān)系以及對應(yīng)的實(shí)體。

2 ? 構(gòu)建5G協(xié)議檢索知識圖譜

2.1 ?基于知識圖譜的數(shù)據(jù)處理流程

該系統(tǒng)結(jié)合了自然語言數(shù)據(jù)處理技術(shù)和圖數(shù)據(jù)庫,也提供了結(jié)果的可視化功能,從數(shù)據(jù)上說,本文的方法是與數(shù)據(jù)處理和領(lǐng)域?qū)<抑R相結(jié)合的(如圖2),顯示了數(shù)據(jù)處理流程。

該模型包含了如下步驟:

(1)從數(shù)據(jù)文檔轉(zhuǎn)化為HTML格式文件;

(2)對HTML格式文件進(jìn)行分析,分析HTML中需要提取出的內(nèi)容;

(3)對數(shù)據(jù)進(jìn)行前處理;

(4)抽取出標(biāo)題,相關(guān)的內(nèi)容以及術(shù)語的實(shí)體等;

(5)本體構(gòu)建,建立三元組關(guān)系;

(6)對數(shù)據(jù)進(jìn)行融合;

(7)存儲數(shù)據(jù),并可視化數(shù)據(jù)。

本文所采取的數(shù)據(jù)來源于5G協(xié)議,針對5G現(xiàn)有的規(guī)范化協(xié)議,采用了1 500多份協(xié)議進(jìn)行研究,這些協(xié)議是word.doc格式,所以不得不從doc文件格式中抽取信息,為了提取文本的結(jié)構(gòu),因此先將word.doc格式轉(zhuǎn)化為HTML格式進(jìn)行處理,利用win32com庫實(shí)現(xiàn)文檔的自動轉(zhuǎn)化。

對數(shù)據(jù)進(jìn)行前處理的過程中,先要對數(shù)據(jù)進(jìn)行分析,并分析數(shù)據(jù)結(jié)構(gòu),觀察提取的內(nèi)容所在位置以及標(biāo)簽,本文采用BeautifulSoup進(jìn)行HTML解析,預(yù)處理時需要對標(biāo)簽等噪聲進(jìn)行移除,因?yàn)椴糠謽?biāo)簽都是不需要的信息,并且還會引起干擾,容易形成噪聲,所以忽視相關(guān)的噪聲。

2.2 ?基于知識圖譜的實(shí)體提取

本文的實(shí)體抽取部分采用了兩種方式:一種是基于文本結(jié)構(gòu)的實(shí)體提取方法,提取文章中的結(jié)構(gòu),以便更好的查詢文章以及內(nèi)容,該方法相對較簡單,主要通過word轉(zhuǎn)化為HTML后的結(jié)構(gòu)進(jìn)行提取,HTML的結(jié)構(gòu)都是帶有標(biāo)簽,可以通過python提取標(biāo)簽及內(nèi)容進(jìn)行提取。

第二種方式是基于深度學(xué)習(xí)的BILSTM+CRF方法進(jìn)行實(shí)體提取,長短時記憶模型網(wǎng)絡(luò)被稱為LSTM,是一種變種的RNN,理論上,RNN可以利用任意長序列中的信息,但在實(shí)踐中,它們只能往回看幾個步驟。長短期記憶(LSTM)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的改進(jìn)版本,它使記憶中更容易記住過去的數(shù)據(jù),它不僅解決了RNN的消失梯度問題,而且非常適合于對未知時間滯后的時間序列進(jìn)行分類、處理和預(yù)測。此外,LSTM的核心是使用隱藏狀態(tài)來保留通過的輸入信息,但一個LSTM只能從左到右獲取信息,而語義關(guān)系到上下文的信息,因此,雙向的循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)應(yīng)運(yùn)而生。在向后運(yùn)行的LSTM中,保留了將來的信息,并且兩個隱藏狀態(tài)相結(jié)合能夠在任何時間點(diǎn)上保存過去和未來的信息,它們都適合非常復(fù)雜的問題,但是Bi-LSTM表現(xiàn)出了很好的結(jié)果是因?yàn)樗梢愿玫乩斫馍舷挛?,能夠通過同時考慮到上下文的語義信息。雙向LSTM正是基于這樣一種思想,即t時刻的輸出可能不僅取決于序列中先前的元素,還取決于未來的元素,例如,要預(yù)測一個序列中缺失的單詞,需要同時查看左右上下文,雙向網(wǎng)絡(luò)非常簡單,它們只是兩個重疊在一起的神經(jīng)網(wǎng)絡(luò),因此本文采用BiLSTM+CRF進(jìn)行命名實(shí)體識別,并且采用了預(yù)先訓(xùn)練好的詞向量模型,將文本映射到300維空間中,并且采用BIO進(jìn)行數(shù)據(jù)標(biāo)注。此外,本文也采用了BERT-BiLSTM-CRF進(jìn)行了命名實(shí)體識別計(jì)算,但經(jīng)過對比發(fā)現(xiàn),BERT-BiLSTM-CRF與BiLSTM-CRF相差無幾,但是需要使用GPU進(jìn)行訓(xùn)練,消耗了大量的資源,而BiLSTM-CRF在CPU上即可訓(xùn)練,所以BERT-BiLSTM-CRF并無太大的優(yōu)勢,因此本文選擇使用BiLSTM-CRF進(jìn)行訓(xùn)練,采用準(zhǔn)確率P(Precision)和召回率R(Recall)作為評價標(biāo)準(zhǔn),計(jì)算公式分別為:

2.3 ?基于知識圖譜的關(guān)系提取

本體原來是指一個哲學(xué)概念,指的是對客觀機(jī)制的解釋和描述:一個決定名詞概念和物質(zhì)關(guān)系的模型,本體的實(shí)體是一個類別,其所代表的節(jié)點(diǎn)就是類的一個例子,本體的關(guān)系是表現(xiàn)類型的關(guān)系,類型的關(guān)系類型遠(yuǎn)比不上本體的關(guān)系類型,本體代表了許多具體的概念,如:實(shí)體、關(guān)系、對象節(jié)點(diǎn)、數(shù)據(jù)節(jié)點(diǎn)等。本體設(shè)計(jì)包含概念、關(guān)系以及實(shí)體的設(shè)計(jì),概念是包含全部實(shí)體的統(tǒng)稱。該系統(tǒng)有標(biāo)題概念,關(guān)鍵術(shù)語概念等,關(guān)系主要包括主次關(guān)系以及從屬關(guān)系,從屬關(guān)系包含父與子概念之間的關(guān)系和概念與實(shí)體之間的關(guān)系,實(shí)體是概念中的一個個體。例如,術(shù)語中的每個術(shù)語都是該概念的實(shí)體;本文主要構(gòu)建兩種格式的三元組,一種是文章的結(jié)構(gòu),即標(biāo)題和內(nèi)容,每級標(biāo)題之間的關(guān)系等,第二種是術(shù)語的屬性以及關(guān)系。表3列出了一部分知識圖譜三元組以及屬性和關(guān)系:

2.4 ?基于知識圖譜的數(shù)據(jù)融合

在數(shù)據(jù)預(yù)處理階段,初始數(shù)據(jù)的質(zhì)量會直接影響到最終鏈接的結(jié)果,不同的協(xié)議數(shù)據(jù)集對同一實(shí)體的描述方式往往是不相同的,一個實(shí)體可能有多種不同的表示方式,他們只是對知識進(jìn)行了不同的表述,基于實(shí)體屬性的實(shí)體對齊方法通過計(jì)算實(shí)體的名字屬性中字符串的相似度來判斷實(shí)體是否相同以及在相關(guān)的內(nèi)容中進(jìn)行判斷實(shí)體之間的相似性,相似度主要通過Cosine距離、Jaccard相關(guān)系數(shù)等方式進(jìn)行計(jì)算:

3 ? 結(jié)果可視化

構(gòu)建的網(wǎng)優(yōu)知識圖譜是以5G協(xié)議作為基礎(chǔ)知識大綱,主要涉及一些網(wǎng)優(yōu)術(shù)語以及相關(guān)的協(xié)議要求,知識圖譜就是將網(wǎng)優(yōu)知識進(jìn)行組織整理,整合的目的是使工程人員更容易理解,能更好地挖掘和呈現(xiàn)知識。本文基于圖數(shù)據(jù)庫Neo4j實(shí)現(xiàn)了搜索引擎功能,方便了工程人員進(jìn)行知識搜索。本文采用Neo4j圖形數(shù)據(jù)庫對知識圖譜進(jìn)行存儲,并對其可視化,圖3顯示了網(wǎng)優(yōu)知識圖譜構(gòu)建的部分示例。

此外,5G協(xié)議數(shù)據(jù)也是隨時更新版本,因此,知識圖譜也需要隨時更新,但5G協(xié)議通常會更新一部分協(xié)議,而另一部分未更新,所以,對更新版本的5G協(xié)議數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理并以三元組的JSON文件形式進(jìn)行儲存,經(jīng)過質(zhì)量評估之后將三元組作為新增知識,并替換掉舊版本的5G協(xié)議數(shù)據(jù),再依據(jù)Cypher語言進(jìn)行實(shí)體和關(guān)系的建立,對已構(gòu)建的網(wǎng)優(yōu)知識圖譜進(jìn)行更新或修正。

4 ? 結(jié)束語

本文利用數(shù)據(jù)進(jìn)行轉(zhuǎn)化、預(yù)處理、信息抽取和實(shí)體融合、知識圖譜的更新迭代等方法,構(gòu)建了網(wǎng)優(yōu)領(lǐng)域知識庫,實(shí)現(xiàn)了5G協(xié)議的知識引擎搜索功能,構(gòu)建了各種術(shù)語的概念、屬性以及相互之間的關(guān)系和協(xié)議文本結(jié)構(gòu)間的關(guān)系,并實(shí)現(xiàn)了5G協(xié)議的知識引擎搜索功能,便于網(wǎng)優(yōu)工作人員的查找和理解。本文所提出的模型適用于特殊領(lǐng)域因標(biāo)注數(shù)據(jù)較少,文檔數(shù)據(jù)較難提取而導(dǎo)致無法構(gòu)建知識圖譜的場景。此外,本文也可以推廣到網(wǎng)優(yōu)其他領(lǐng)域進(jìn)行知識圖譜構(gòu)建,比如網(wǎng)優(yōu)根因定位等問題,在下一步的研究計(jì)劃中,可以從兩方面對該系統(tǒng)進(jìn)行改進(jìn),第一:建立5G協(xié)議術(shù)語之間更多的關(guān)系,補(bǔ)充知識圖譜,使知識圖譜更加準(zhǔn)確和完整;第二:增加知識推理規(guī)則,能提高知識的精準(zhǔn)度,而且利用規(guī)則建立更多的關(guān)系。

參考文獻(xiàn):

[1] ? ?JENS LEHMANN, ROBERT ISELE, MAX JAKOB, et al. DBpedia-A Large-scale, Multilingual Knowledge Base Extracted from Wikipedia[J]. Semantic Web Journal, 2015,6(2): 167-195.

[2] ? ?GEORGE A, MILLER. WordNet: a lexical database for English[J]. Communications of the ACM, 1995,38(11): 39-41.

[3] ? ? VOLHA BRYL, CHRISTIAN BIZER. Learning conflict resolution strategies for cross-language Wikipedia data fusion[C]//In Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee. Geneva, 2014: 1129-1134.

[4] ? FARZANEH MAHDISOLTANI, JOANNA BIEGA, FABIAN M, et al. YAGO3: A Knowledge Base from Multilingual Wikipedias[C]//The Semantic Web-ISWC 2016. Cham, 2016: 177-185.

[5] ? ANTOINE BORDES, EVGENIY GABRILOVICH. Constructing and Mining Web-scale Knowledge Graphs[C]//In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, 2014: 1967.

[6] ? ?DONG C, ZHANG J, ZONG C, et al. Character-based LSTM-CRF with Radical-level Features for Chinese Name Entity Recognition[J]. Natural Language Understanding and Intelligent Applications, 2016: 239-250.

[7] ? M GANZHA, L MACIASZEK, M PAPRZYCKI. Semantic Knowledge Extraction from Research Documents[C]//In Proceedings of the 2016 Federated Conference on Computer Science and Information Systems. Gdańsk, 2016: 439-445.

[8] ? ?MARTIN RAJMAN, ROMARIC BESANCON. Text mining-Knowledge extraction from unstructured textual data[C]//In Proceedings of the 6th Conference of the International Federation of Classification Societies. Roma, 1998: 473-480.

[9] ? ?ALANI, HARITH, KIM, et al. Automatic Extraction of Knowledge from Web Documents[C]//In 2nd International Semantic Web Conference Workshop on Human Language Technology for the Semantic Web and Web Services. Florida, 2003: 634-640.

[10] ?翟社平,段宏宇,李兆兆. 基于BILSTM_CRF的知識圖譜實(shí)體抽取方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2019,36(5): 275-280.

[11] PETER CLARK, PHIL HARRISON. Large-Scale Extraction and Use of Knowledge from Text[C]//In Proceedings of the fifth international conference on Knowledge capture. USA, 2019: 153-160.

[12] ?ANKUR P PARIKH, HOIFUNG POON, KRISTINA TOUTANOVA. Grounded Semantic Parsing for Complex Knowledge Extraction[C]//In Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, 2015: 756-766.

[13] ? 劉嶠,李楊. 知識圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016,53(3): 582-600.

[14] ? WANG C, GAO M, HE X, et al. Challenges in Chinese knowledge graph construction[C]//IEEE 2015 31st IEEE International Conference on Data Engineering Workshops. South Korea, 2015: 59-61.

[15] ?WANG Y, YOU W, ZHANG W, et al. Knowledge graph construction method and device[J]. US Patent Application, 2019,16(34): 799.

[16] DONG X, GABRILOVICH E, HEITZ G, et a1. Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//Proc of the 20th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York, 2014: 601-610.

猜你喜歡
知識圖譜搜索引擎深度學(xué)習(xí)
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對策
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
智富時代(2016年12期)2016-12-01 16:28:41
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
托里县| 陆丰市| 义乌市| 浦东新区| 建昌县| 兴城市| 麻江县| 丘北县| 永嘉县| 富民县| 象山县| 武宣县| 陕西省| 大安市| 麻城市| 正阳县| 年辖:市辖区| 玉环县| 萍乡市| 滨州市| 湘阴县| 乌审旗| 莫力| 钟山县| 湖口县| 兴义市| 宜丰县| 资阳市| 大石桥市| 聂拉木县| 烟台市| 疏附县| 曲阜市| 龙里县| 临汾市| 柘城县| 千阳县| 金寨县| 通河县| 西丰县| 正阳县|