国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)構(gòu)化知識庫構(gòu)建技術(shù)研究

2019-05-21 08:12中國運載火箭技術(shù)研究院
航天工業(yè)管理 2019年4期
關(guān)鍵詞:三元組張量圖譜

/中國運載火箭技術(shù)研究院

互聯(lián)網(wǎng)上的知識大都以非結(jié)構(gòu)化或者半結(jié)構(gòu)化的形式存在于文本、表格和網(wǎng)頁中,使得對知識的抽取以及應(yīng)用較為困難,谷歌公司認(rèn)為完美的搜索引擎應(yīng)該能夠準(zhǔn)確理解用戶的意圖并且正確反饋用戶所期望的信息。與人的記憶偏重于關(guān)聯(lián)類似,搜索結(jié)果中也體現(xiàn)著關(guān)聯(lián),以“鏈接”為中心的系統(tǒng)在開放的互聯(lián)網(wǎng)環(huán)境里更容易生長和擴(kuò)展。傳統(tǒng)的語義網(wǎng)連接的是文檔,實際上網(wǎng)絡(luò)中有多種類型的事物,這些事物之間有多種類型的連接。把文檔作為“鏈接”的語義網(wǎng)得到的搜索結(jié)果僅僅是文檔的鏈接,而不是用戶需要的比文檔更細(xì)粒度的準(zhǔn)確的答案,以關(guān)鍵詞匹配和文檔排序為基本特點的搜索引擎急需一場革命。

在此背景下,為了改善搜索引擎效果,谷歌公司于2012年提出“知識圖譜”的概念。把互聯(lián)網(wǎng)文本內(nèi)容組織成為以實體為基本語義單元(節(jié)點)的圖結(jié)構(gòu),其中圖上的邊表示實體之間的語義關(guān)系。相對于傳統(tǒng)的知識表示,知識圖譜把數(shù)據(jù)對象作為鏈接而不是文檔,其具有豐富且完整的語義信息、結(jié)構(gòu)精良、接近自然語言的表達(dá)等優(yōu)點。知識圖譜的這些優(yōu)點使得機(jī)器能夠理解、搜索關(guān)鍵字,從而實現(xiàn)由搜索直接通往答案。

一、國內(nèi)外知識圖譜相關(guān)研究情況

近年來,由于知識圖譜表示學(xué)習(xí)技術(shù)在智能問答系統(tǒng)、知識推理引擎和語義搜索等應(yīng)用中扮演著十分重要的角色,基于知識圖譜的表示學(xué)習(xí)技術(shù)已經(jīng)成為人工智能領(lǐng)域中的研究熱點。同時,知識圖譜表示學(xué)習(xí)技術(shù)可以應(yīng)用在知識圖譜補全和關(guān)系抽取等比較困難的任務(wù)中,并取得了重要進(jìn)展。表示學(xué)習(xí)旨在將研究對象的語義信息表示為稠密低維實值向量,向量空間中2個對象的距離越近說明其語義相似度越高。知識表示學(xué)習(xí)是面向知識圖譜中的實體和關(guān)系進(jìn)行表示學(xué)習(xí),在向量空間中高效計算實體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識獲取、融合和推理的性能得到顯著提升。

1.基于張量神經(jīng)網(wǎng)絡(luò)模型的知識表示學(xué)習(xí)方法

張量神經(jīng)網(wǎng)絡(luò)模型(NTN)的基本思想是,用雙線性張量取代傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中的線性變換層,在不同的維度下將頭、尾實體向量聯(lián)系起來。與以往模型的不同之處在于,張量神經(jīng)網(wǎng)絡(luò)模型中的每一個實體向量是通過計算這個實體中所有單詞向量的平均值得到的。因此,張量神經(jīng)網(wǎng)絡(luò)模型可以非常充分地重復(fù)利用單詞向量來構(gòu)建實體表示,大幅度地增強了知識圖譜中實體之間的語義關(guān)聯(lián),從而有效緩解了對于實體表示的稀疏性問題。

張量神經(jīng)網(wǎng)絡(luò)模型的缺點在于引入了張量操作,使得計算的復(fù)雜度非常高,實驗表明張量神經(jīng)網(wǎng)絡(luò)模型在大規(guī)模非常稀疏的知識圖譜上效果較差。針對張量神經(jīng)網(wǎng)絡(luò)模型的不足,后續(xù)有很多研究人員提出了張量神經(jīng)網(wǎng)絡(luò)模型的簡化版本,以彌補其計算復(fù)雜度高的問題。其中,隱變量模型(LFM)利用基于關(guān)系矩陣的雙線性變換來刻畫實體和關(guān)系的二階聯(lián)系,與張量神經(jīng)網(wǎng)絡(luò)模型相比該模型計算復(fù)雜度較低、協(xié)同性更好。后來出現(xiàn)的DISTMULT模型是針對隱變量模型進(jìn)行簡化,將隱變量模型中的關(guān)系矩陣簡化為對角陣,更大幅度地簡化了模型復(fù)雜度,取得了更好的效果。

2.基于矩陣分解模型的知識表示學(xué)習(xí)方法

矩陣分解是近幾年比較火的算法,在推薦算法中得到廣泛的認(rèn)可和使用,具有很好的準(zhǔn)確性和可擴(kuò)展性,并且可以降低計算復(fù)雜度。同樣,很多學(xué)者采用矩陣分解模型用于分布式知識表示學(xué)習(xí)算法,主要算法是RESACL模型。該模型的基本思想與隱變量模型相似,不同之處是RESACL模型優(yōu)化了張量中的所有位置,該模型將知識庫三元組構(gòu)成了一個大的張量表示,如果三元組存在則該三元組對應(yīng)的張量值設(shè)為1,不存在則張量值設(shè)為0。張量分解的目的在于將知識圖譜中的每個三元組對應(yīng)的張量值分解為實體和關(guān)系的表示,使得該張量值盡可能地與三元組中的2個實體向量和關(guān)系矩陣的乘積接近。

二、結(jié)構(gòu)化知識庫構(gòu)建的關(guān)鍵技術(shù)

1.知識圖譜本體構(gòu)建技術(shù)

知識圖譜Schema構(gòu)建方法。在知識表示層面,圍繞增強知識圖譜的語義表達(dá)能力這一核心目標(biāo),重點研究企業(yè)內(nèi)和開放互聯(lián)網(wǎng)中對企業(yè)有價值的知識的符號化及數(shù)字化的表示方法,包括領(lǐng)域知識的概念及元數(shù)據(jù)構(gòu)建等。擬采用思維導(dǎo)圖建模的人工方式和知識抽取的自動方式相結(jié)合的知識圖譜Schema構(gòu)建方法,實現(xiàn)對多領(lǐng)域知識的實體和多任務(wù)等不同維度的信息理解,形成以知識為中心的知識管理系統(tǒng)的檢索能力。

基于最小描述長度的概念識別。擬利用編碼長度指導(dǎo)概念的選擇,從而完成概念識別。其基本原理是:最優(yōu)的概念標(biāo)簽具有最強的語義表達(dá)能力。因而一個好的概念標(biāo)簽組合,一方面自身的編碼長度應(yīng)該盡可能短,另一方面利用這組概念標(biāo)簽對于實例集進(jìn)行編碼的長度也應(yīng)該非常短。2類編碼長度之和構(gòu)成了最優(yōu)編碼集的選擇準(zhǔn)則,其模型公式為arg minCL(C)+L(X|C)。

2.知識圖譜構(gòu)建技術(shù)研究

圖1 基于深度遷移學(xué)習(xí)模型的命名實體識別

基于深度遷移學(xué)習(xí)的命名實體識別。命名實體識別(NER)是指識別文本中具有特定意義的實體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等,是構(gòu)建知識圖譜的基礎(chǔ)。傳統(tǒng)的實體識別方法難以充分利用開放領(lǐng)域或者其他領(lǐng)域已積累的知識,存在一定局限性。為此,筆者設(shè)計了應(yīng)用于自然語言處理任務(wù)的多層知識遷移學(xué)習(xí)模型,該模型可以便捷地適用于多種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。

由于特定領(lǐng)域的訓(xùn)練數(shù)據(jù)匱乏,無法利用特定領(lǐng)域數(shù)據(jù)訓(xùn)練有效的NER模型。但是,NER在開放域和特定域有大量類似特征,如相同的詞匯、相同的句法,并且開放域的訓(xùn)練數(shù)據(jù)往往很充足,因此擬利用遷移學(xué)習(xí)解決樣本稀疏問題,方法的核心算法架構(gòu)如圖1所示。其基本思路是分別利用LSTM對開放域和特定域進(jìn)行訓(xùn)練,并將開放域習(xí)得的中間表示遷移、嫁接給特定域,使得特定域能夠充分利用開放域所習(xí)得的字、詞、句表示。

基于主題模型的實體鏈接。命名實體鏈接是把文檔中給定的命名實體鏈接到知識庫中一個無歧義實體的過程,包括同義實體的合并、實體消歧,提升后續(xù)的基于知識庫的信息檢索能力。選擇實體-主題模型(Entity-Topic model)作為模型的基本框架,將文檔中的詞和命名實體映射到統(tǒng)一的主題空間中,通過主題空間中命名實體的位置向量與知識庫標(biāo)準(zhǔn)實體的向量進(jìn)行實體鏈接,達(dá)到同義實體合并、實體消歧的目的。

然而,這一模型在性能與效率方面仍然難以滿足領(lǐng)域?qū)嶓w識別的高精度要求,擬通過引入外部概念圖譜和實體同義詞庫作為先驗知識引導(dǎo)主題模型學(xué)習(xí)到同名領(lǐng)域?qū)嶓w的細(xì)微語境差別。將學(xué)習(xí)過程從無監(jiān)督轉(zhuǎn)變?yōu)榘氡O(jiān)督,在吉布斯采樣過程中縮小采樣范圍,在保證準(zhǔn)確率的前提下提升算法的運行效率,實現(xiàn)準(zhǔn)確快速的實體鏈接,其基本模型如圖2所示。

基于深度學(xué)習(xí)的端到端三元組關(guān)系抽取方法。傳統(tǒng)的三元組抽取受限于樣本規(guī)模,在長尾關(guān)系上效果難以滿足實際應(yīng)用的需求,長尾關(guān)系的精準(zhǔn)抽取一直以來是學(xué)術(shù)難題。筆者提出基于遞進(jìn)學(xué)習(xí)的端到端抽取可以讓長尾關(guān)系抽取模型有效利用頭部關(guān)系的豐富樣本中所包含的信息,這一思路在關(guān)系抽取中的應(yīng)用尚屬首次。關(guān)系抽取的重要形式之一是從非結(jié)構(gòu)化的文本中抽取出三元組,擬利用弱監(jiān)督標(biāo)注的思路為每個關(guān)系自動構(gòu)造標(biāo)注數(shù)據(jù),從而為每個關(guān)系獨立訓(xùn)練雙向LSTM抽取模型。

圖2 先驗知識敏感的基于主題模型的實體鏈接

圖3 基于LSTM的端到端抽取模型

為了提高模型性能,擬增強樣本的語義描述,包括語法標(biāo)記、實體類型等。為了解決長尾關(guān)系樣本稀疏、模型訓(xùn)練不充分這一問題,擬借助遞進(jìn)學(xué)習(xí)合理安排不同關(guān)系抽取模型的訓(xùn)練順序,優(yōu)先訓(xùn)練頭部關(guān)系的抽取模型,習(xí)得通用上下文的有效表示,從而降低長尾關(guān)系模型對于樣本的依賴,基于LSTM的端到端抽取模型如圖3所示。

猜你喜歡
三元組張量圖譜
基于圖對比注意力網(wǎng)絡(luò)的知識圖譜補全
TransP:一種基于WordNet中PartOf關(guān)系的知識圖譜嵌入方法
淺談張量的通俗解釋
嚴(yán)格對角占優(yōu)張量的子直和
基于卷積神經(jīng)網(wǎng)絡(luò)的知識圖譜補全方法研究
非負(fù)張量譜半徑上下界的估計不等式
支持張量機(jī)算法優(yōu)化研究綜述
K-VQA:一種知識圖譜輔助下的視覺問答方法
基于多特征語義匹配的知識庫問答系統(tǒng)
圖表
高唐县| 南郑县| 长春市| 泗阳县| 灵石县| 石嘴山市| 亚东县| 醴陵市| 会东县| 观塘区| 兰溪市| 马尔康县| 霸州市| 河源市| 贡觉县| 湘西| 昔阳县| 曲阳县| 高尔夫| 丰都县| 威海市| 丹寨县| 东阿县| 福清市| 白河县| 重庆市| 武平县| 景泰县| 晋宁县| 五寨县| 灵宝市| 礼泉县| 万安县| 雅江县| 绥江县| 新乐市| 宜都市| 龙川县| 都昌县| 和顺县| 贡山|