国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于HowNet的語義表示學(xué)習(xí)

2019-04-17 03:56朱靖雯楊玉基李涓子
中文信息學(xué)報 2019年3期
關(guān)鍵詞:義項語義向量

朱靖雯,楊玉基,許 斌,李涓子

(1. 北京信息科技大學(xué) 信息管理學(xué)院,北京 100192;2. 清華大學(xué) 計算機(jī)系知識工程實驗室,北京 100084)

0 引言

近年來,詞向量技術(shù)的進(jìn)步極大地促進(jìn)了自然語言處理領(lǐng)域的發(fā)展。目前大部分研究者都是基于大規(guī)模無監(jiān)督語料學(xué)習(xí)詞語或義項級別的語義表示,這種基于上下文的學(xué)習(xí)方法傾向于把共現(xiàn)較多的詞語或義項聚在一起,可以學(xué)習(xí)到好的上下文相似性,卻難以捕獲到好的語義相似性,尤其是在語料中出現(xiàn)頻次較低的詞語和義項的語義相似性。

為了學(xué)習(xí)到詞語和義項的語義相似性,我們使用了語義信息最為豐富的中英文常識知識庫HowNet[1]。在HowNet中,詞語由一個或多個義項組成,而每個義項又由更小的語義單位(義原)和幾十種動態(tài)角色組合而成。很多人基于HowNet開展了語義表示的研究[2-3],但是他們或是忽略了義原和動態(tài)角色之間的復(fù)雜結(jié)構(gòu)[2],或是只能學(xué)習(xí)到詞語級別的語義表示[3],并未充分學(xué)習(xí)到HowNet中蘊含的全部語義信息。

本文中,我們將HowNet中定義的各種關(guān)系和定義進(jìn)行拆解,構(gòu)建了包含HowNet全部信息的知識圖譜HownetGraph。接下來,我們利用網(wǎng)絡(luò)表示學(xué)習(xí)以及知識表示學(xué)習(xí)的方法,從HownetGraph中學(xué)習(xí)得到跨語言(中、英)、跨語義單位(字詞、義項、DEF_CONCEPT和義原)的語義表示,并進(jìn)行了詞語相似度和詞語類比的實驗。實驗結(jié)果表明,從HownetGraph中學(xué)習(xí)得到的語義表示較好地捕獲到了HowNet的語義信息。

本文的主要貢獻(xiàn)有:

(1) 將HowNet層層拆解,構(gòu)建了一個跨語言(中、英)、跨語義單位(字詞、義項、DEF_CONCEPT和義原)的常識知識圖譜HownetGraph。

(2) 據(jù)我們所知,我們第一個同時學(xué)習(xí)到了HowNet的詞語、義項、DEF_CONCEPT和義原等不同語義單位的跨語言(中英)的向量表示。

(3) 我們根據(jù)wordsim-353和wordsim-297數(shù)據(jù)集,構(gòu)建出了中文語義相似度數(shù)據(jù)集wordsim-297-similarity,作為wordsim-297數(shù)據(jù)集的子數(shù)據(jù)集,細(xì)粒度評測中文詞語的語義相似度。

(4) 我們在詞語相似度和詞語類比任務(wù)上進(jìn)行了實驗,中英文詞語相似度和詞語類比任務(wù)上的實驗驗證了所提方法的有效性。

本文結(jié)構(gòu)如下: 第1節(jié)為相關(guān)工作部分介紹,第2節(jié)為HownetGraph的構(gòu)建過程,第3~4節(jié)為通過實驗和例子給出學(xué)習(xí)到的語義表示效果,最后是后續(xù)工作展望。

1 相關(guān)工作

1.1 HowNet

HowNet語義信息的豐富性引起了很多研究者的關(guān)注。劉群等提出基于HowNet的詞匯語義相似度計算[3],他們將HowNet中的義原建成樹狀,通過構(gòu)成詞義項的義原的距離得到詞義相似度,實驗得到的詞語相似度結(jié)果與人的直覺比較符合,但由于他們對每個詞都只取了最常見的義項,而不是所有義項,因此對HowNet的義項描述信息并沒有很好利用;梅立軍等通過為同義詞詞林的每個詞集確定一個義項描述,實現(xiàn)HowNet與同義詞詞林的信息融合[4];Sun J等提出基于HowNet的中文問題自動分類,將問題中的詞對應(yīng)義項的基本義原作為問題特征進(jìn)行處理[5];Yan J等基于HowNet中事件類義原層次結(jié)構(gòu),創(chuàng)建了一個中文情感的領(lǐng)域本體[6];唐怡等提出了基于HowNet的中文語義依存分析,將句子轉(zhuǎn)化為樹狀,并根據(jù)HowNet中的動態(tài)角色進(jìn)行語義關(guān)系標(biāo)注,實驗結(jié)果標(biāo)注比例高達(dá)91.5%[7];Liu J等提出用HowNet實現(xiàn)Word相似度計算的混合層次結(jié)構(gòu)方法[8];向春丞等提出了HowNet與中文概念辭書(CCD)的映射方法,將HowNet中的詞與CCD詞典中的詞進(jìn)行映射[9];Niu Y等利用HowNet的義原提升詞語的表示[2];Zeng X等則利用義原擴(kuò)充中文LIWC(Linguistic inquiry and word count)詞典[10]。上述工作涉及自然語言處理領(lǐng)域下的諸多子領(lǐng)域,說明了HowNet的重要價值。在語義表示領(lǐng)域,大部分研究學(xué)者都只是提取了HowNet中的部分信息,對于HowNet層次化的義項定義并未能很好利用,而這卻正是HowNet的語義核心。

1.2 表示學(xué)習(xí)

表示學(xué)習(xí)指的是將研究對象表示為稠密低維向量。本文的研究對象是HowNet的語義信息,故叫做語義表示學(xué)習(xí)。為了學(xué)習(xí)到語義表示,本文使用了網(wǎng)絡(luò)表示學(xué)習(xí)和知識表示學(xué)習(xí)兩類方法。

網(wǎng)絡(luò)表示學(xué)習(xí)(network representation learning),指的是為網(wǎng)絡(luò)中的每個節(jié)點學(xué)習(xí)到稠密低維的向量表示,從而使得在大規(guī)模網(wǎng)絡(luò)上進(jìn)行快速高效的算法成為可能。目前,效果比較好的網(wǎng)絡(luò)表示學(xué)習(xí)模型為基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法。DeepWalk模型[11]第一次將深度學(xué)習(xí)的方法引入網(wǎng)絡(luò)表示學(xué)習(xí)領(lǐng)域,借鑒Word2Vec方法在網(wǎng)絡(luò)上隨機(jī)游走生成序列,從而可以直接利用Word2Vec方法學(xué)習(xí)到節(jié)點表示;LINE模型[12]通過對節(jié)點間的第一級相似度和第二級相似度進(jìn)行概率建模,最小化該概率分布和經(jīng)驗分布之間的KL距離,得到好的節(jié)點表示;Node2Vec模型[13]是對DeepWalk模型的擴(kuò)展,通過改變隨機(jī)游走序列生成方式來優(yōu)化節(jié)點表示效果。此外,還有Grarep模型[14]、GCN模型[15]、TADW模型[16]和Cane模型[17]等。

知識表示學(xué)習(xí)(knowledge representation learning)指的是為知識圖譜中的節(jié)點和邊學(xué)習(xí)到稠密低維的向量表示。學(xué)習(xí)了向量表示后,便可以基于向量表示去做知識圖譜領(lǐng)域內(nèi)關(guān)系預(yù)測等任務(wù)。近年來隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,研究者們提出了一系列基于深度學(xué)習(xí)的知識表示學(xué)習(xí)方法。Bordes A等提出了一種簡單且易拓展的模型,把知識庫中的實體和關(guān)系映射到低維向量空間中,從而計算出隱含的關(guān)系的TransE模型[18]。隨后,Wang Z等提出了對TransE進(jìn)行優(yōu)化后的TransH模型[19],解決了TransE對于一對多、多對一以及多對多關(guān)系處理效果不太好的問題。TransE和TransH模型默認(rèn)實體和關(guān)系處于相同的語義空間,而事實上,一個實體是由多種屬性組合成的綜合體,不同關(guān)系關(guān)注實體的不同屬性,因此,Lin Y等提出了對頭實體和尾實體投影到關(guān)系空間中再做操作的TransR模型[20],在此基礎(chǔ)上,后續(xù)又出現(xiàn)了TransD模型[21]、TranSparse模型[22]、TransG模型[23]、KG2E模型[24]等。

2 從HowNet到HownetGraph

2.1 HowNet介紹

HowNet是一個以漢語和英語的詞語所代表的義項為描述對象,以揭示義項與義項之間以及義項所具有的屬性之間的關(guān)系為基本內(nèi)容的常識知識庫。在HowNet中,義原是最基本的、不易于再分割的意義的最小單位,詞由義項組成,義項由義原定義。在HowNet數(shù)據(jù)文件[注]2012年版本。中,共包含118 347個中文詞,104 027個英文詞,212 541個義項,2 468個義原(包括實體、事件、屬性、屬性值、第二特征、專有名詞和符號7大類)和116個動態(tài)角色。下面我們舉例說明HowNet的語義組織模式。

如圖1所示,“綠色”一詞有兩個義項,義項1指的是綠顏色,義項2指的是綠色環(huán)保。義項1的定義較為簡單,只有1個基本義原“green|綠”,而義項2的定義較為復(fù)雜,有較多動態(tài)角色和義原的嵌套關(guān)系: 最外層的基本義原是“PropertyValue|特性值”,動態(tài)角色“scope”表示范圍,來進(jìn)一步說明“PropertyValue|特性值”,“scope”的賓語是“{protect|保護(hù): patient={Environment|情況: host={entity|實體}}}”;次外層的基本義原是“protect|保護(hù)”,動態(tài)角色“patient”表示受事,修飾義原“protect|保護(hù)”,賓語是“{Environment|情況: host={entity|實體}}”;最內(nèi)層的基本義原是“Environment|情況”,動態(tài)角色“host”表示宿主,修飾義原“Environment|情況”,賓語是義原“entity|實體”??偨Y(jié)地說,義項2的定義是: 綠色是一種特征值,這種特征值對應(yīng)的范圍是一種保護(hù),這種保護(hù)的受事是一種情況,這種情況的宿主是實體。除了最重要的定義(DEF),每個義項還有一些其他的關(guān)系和屬性,如義項2在數(shù)據(jù)文件里表示如圖2所示。圖2中,“NO.”表示這個義項的唯一標(biāo)識符(id)是103130;“W_C”表示其中文詞為“綠色”;“G_C”表示其中文詞詞性是形容詞;“S_C”表示其中文情感標(biāo)識為“PlusSentiment|正面評價”;“E_C”表示詞語在短語中的例子;“W_E”表示其英文詞為“green”;“G_E”表示其英文詞性為形容詞;“S_E”表示其英文情感標(biāo)識為“PlusSentiment|正面評價”;“DEF”表示用動態(tài)角色和義原的組合來表示義項的定義。

圖1 HowNet中詞語、義項和義原的例子

2.2 HownetGraph構(gòu)建

知識圖譜一般使用RDF(resource description framework)或者OWL(web ontology language)等語言來描述,后者比前者有更強(qiáng)的語義表達(dá)能力。由于HowNet語義結(jié)構(gòu)不涉及復(fù)雜推理和規(guī)則,故我們采用RDF來構(gòu)建知識圖譜HownetGraph。

2.2.1 本體構(gòu)建

本體構(gòu)建是知識圖譜的第一個步驟,可以理解為知識圖譜的框架。最基本的本體包括概念、概念層次、屬性、屬性值類型、關(guān)系、關(guān)系定義域(domain)概念集以及關(guān)系值域(range)概念集。在HownetGraph中,我們定義概念包括中文詞語、英文詞語、義項、義原和DEF_CONCEPT(義原和動態(tài)角色的組合,介于義項和義原之間);關(guān)系主要為動態(tài)角色、上下位關(guān)系和instanceof關(guān)系;HowNet中出現(xiàn)的每一個語義單位都是實例;屬性只有rdf: label屬性(其他屬性被忽略)。

2.2.2 建圖

根據(jù)上述本體,我們以義項為橋梁,通過層層拆解DEF,得到了包含所有語義單位的HownetGraph。如圖1和圖2中“綠色”的例子,則可以建成如圖3所示的圖結(jié)構(gòu),具體操作步驟如下。

圖2 HowNet中義項“綠色”的表示

圖3 HownetGraph中邊表示關(guān)系 注: wc表示義項的中文詞,we表示義項的英文詞,def_type表示義項或DEF_CONCEPT的基本義原,scope、patient和host分別表示義項或DEF_CONCEPT的范圍、受事和宿主關(guān)系。

(1) HownetGraph中只包含HowNet數(shù)據(jù)中描述語義單位的W_C、W_E、DEF部分和義原之間的所有關(guān)系,不包含G_C、E_C等內(nèi)容。

(2) DEF部分是嵌套結(jié)構(gòu),為了將其轉(zhuǎn)化為圖結(jié)構(gòu),我們借鑒了RDF中“陳述”的結(jié)構(gòu),我們將每一層嵌套的所有內(nèi)容當(dāng)做一個DEF_CONCEPT實例,每一個DEF_CONCEPT實例內(nèi)部再根據(jù)HowNet數(shù)據(jù)的結(jié)構(gòu)拆解開,動態(tài)角色轉(zhuǎn)化為關(guān)系(如patient,host和scope),義原則轉(zhuǎn)化為相應(yīng)的義原實例,DEF_CONCEPT實例的第一個義原前面無動態(tài)角色約束,鑒于該義原表示了DEF_CONCEPT實例的最主要語義信息,我們將這種關(guān)系定義為def_type。

(3) wc關(guān)系對應(yīng)HowNet數(shù)據(jù)中的W_C部分,表示義項對應(yīng)的中文詞。we關(guān)系對應(yīng)HowNet數(shù)據(jù)中的W_E部分,表示義項對應(yīng)的英文詞。

3 實驗

在這一部分,我們將HownetGraph用網(wǎng)絡(luò)表示學(xué)習(xí)和知識表示學(xué)習(xí)進(jìn)行訓(xùn)練,通過詞語相似度任務(wù)(word similarity)和詞語類比任務(wù)(word analogy)來檢驗我們的語義表示效果。

3.1 數(shù)據(jù)集和實驗設(shè)置

詞語相似度任務(wù),考慮到我們同時學(xué)習(xí)到了中英文的詞語表示,故我們選擇了數(shù)據(jù)集wordsim-240[注]https: //github.com/Leonard-Xu/CWE/tree/master/data(W240,中文)、wordsim-297①(W297,中文)和wordsim-353[注]http: //www.cs.technion.ac.il/~gabr/resources/data/wordsim353/(W353,英文)。此外,為了說明我們學(xué)習(xí)到的語義表示側(cè)重于語義相似度而非上下文相似度,我們使用了數(shù)據(jù)集wordsim-353-similarity(W353S,英文),并根據(jù)W297和W353S創(chuàng)建了中文的測試語義相似度的數(shù)據(jù)集wordsim-297-similarity(W297S)。詞語類比任務(wù)中,我們選擇了Chen X等人的中文詞語類比數(shù)據(jù)[25](A1125)檢驗我們學(xué)習(xí)到的詞語向量的質(zhì)量。值得說明的是,上述數(shù)據(jù)集中的部分詞語HowNet中沒有覆蓋,具體情況如表1所示。

表1 數(shù)據(jù)集統(tǒng)計信息

考慮到圖譜中有部分無效信息和重復(fù)信息,我們在進(jìn)行知識表示學(xué)習(xí)和網(wǎng)絡(luò)表示學(xué)習(xí)時,只選用了HowNet中的W_C關(guān)系、W_E關(guān)系、DEF部分的關(guān)系和義原之間的所有關(guān)系,若關(guān)系值為*,則去掉該記錄。我們使用了清華大學(xué)自然語言處理實驗室提供的知識表示學(xué)習(xí)代碼[注]https: //github.com/thunlp/KB2E和網(wǎng)絡(luò)表示學(xué)習(xí)代碼[注]https: //github.com/thunlp/openne。

為了證明HownetGraph結(jié)構(gòu)表示語義的有效性,我們選取了較為簡單的模型進(jìn)行學(xué)習(xí)。網(wǎng)絡(luò)表示學(xué)習(xí)使用了Node2Vec、DeepWalk和LINE三種方法,知識表示學(xué)習(xí)使用了TransE、TransH和TransR三種方法。語義表示的向量維度選取了50、100和200三個維度。

3.2 詞語相似度

由于目前義原相似度分析和義項相似度分析的任務(wù)較少,所以我們僅通過詞語相似度分析的任務(wù)來評估所提方法的學(xué)習(xí)質(zhì)量。

3.2.1 評估方法

詞語相似度任務(wù)一般是通過比較模型學(xué)習(xí)到的詞對的余弦距離和標(biāo)準(zhǔn)數(shù)據(jù)集詞,對標(biāo)定數(shù)值的皮爾遜系數(shù)來判斷詞向量學(xué)習(xí)的質(zhì)量,我們繼承了該方法。中文數(shù)據(jù)集上我們選擇了Niu Y等[2]的4種方法(包括最優(yōu)的方法)作為比較,英文數(shù)據(jù)集上我們選擇了Neelakantan A等[26]的4種方法(包括最優(yōu)的方法)作為比較。實驗結(jié)果如表2所示。

3.2.2 實驗結(jié)果

通過實驗結(jié)果,我們發(fā)現(xiàn)無論是在中文還是英文的語義相似度數(shù)據(jù)集上,我們的方法都達(dá)到了最好效果。其中W297S數(shù)據(jù)集上,DeepWalk(100維)模型上達(dá)到了67.0;W353S數(shù)據(jù)集上,Node2Vec(200維)模型達(dá)到了71.1。這充分說明了HownetGraph可以較好地捕獲到HowNet的語義信息。例如,W297S中詞對“冠軍賽,錦標(biāo)賽”給出的分?jǐn)?shù)為2.66/5=0.532,而HownetGraph學(xué)習(xí)到的分?jǐn)?shù)為0.879/1=0.879,從語義上考慮,HownetGraph學(xué)習(xí)到的分?jǐn)?shù)更符合人們的直觀。

此外,我們發(fā)現(xiàn)知識表示學(xué)習(xí)的效果普遍不好,這是因為HownetGraph的關(guān)系較少(只有幾十種),因此在關(guān)系向量的牽引下,實體向量傾向于聚集而失去了區(qū)分度。

在W297和W353數(shù)據(jù)集上,HownetGraph學(xué)習(xí)到的詞語表示均不理想,這是因為這兩個數(shù)據(jù)集中包含有較多基于上下文相似性的詞語,基線方法均使用了無監(jiān)督的大規(guī)模語料,可以很好地學(xué)習(xí)到詞語之間上下文的相似性,但HownetGraph中幾乎沒有上下文的信息。

3.3 詞語類比

3.3.1 評估方法

A1125類比數(shù)據(jù)包含三大類: 首都、城市、家庭關(guān)系。假設(shè)w1、w2、w3、w4分別是4個詞,E1、E2、E3、E4是對應(yīng)的詞向量,若w1和w2的關(guān)系與w3和w4的關(guān)系相似,那么,E2-E1=E4-E3,即得知E1、E2、E3,我們便可以通過E3-E1+E2得到向量E4′,通過E4和E4′的cos值來評估學(xué)習(xí)到的詞向量的質(zhì)量。

表2 中英文詞語相似度任務(wù)實驗結(jié)果

我們采用兩種評估指標(biāo): (1)Accuracy,假設(shè)和E4′的cos值最大的向量對應(yīng)的詞為w4′,Accuracy值即為所有測試樣例中w4′=w4的頻率值。(2)Mean Rank,按照E4′和詞對應(yīng)向量的cos值由大到小排列,得到詞序列S(w),Mean Rank值即所有測試樣例中w4在S(w)中的位置的平均值?;€方法采用的是Niu Y等[2]的4種方法(包括最優(yōu)的方法)。

3.3.2 實驗結(jié)果

由實驗結(jié)果,我們發(fā)現(xiàn)我們的模型在“首都”類別上Mean Rank值上達(dá)到了最好效果: 3.4,遠(yuǎn)遠(yuǎn)好于基線方法。但是城市類別和家庭關(guān)系類別效果較差。

經(jīng)過分析后發(fā)現(xiàn),HowNet的數(shù)據(jù)特征和HownetGraph表示學(xué)習(xí)的上述結(jié)果有著直接的因果關(guān)系。

(1) 首都類別效果好,因為首都類義項較為單一,并且DEF部分清晰地說明了和國家的關(guān)系。

(2) 城市類別效果不好,因為HowNet中并沒有關(guān)注城市和省份之間的關(guān)系,因此,從我們學(xué)出的向量表示中并不存在這樣的類比。例如,南京、上海等605個城市的DEF是一樣的,均為DEF={place|地方: PlaceSect={city|市},belong="China|中國",modifier={ProperName|專}}。

(3) 家庭關(guān)系類別效果不好,原因是HowNet中存在較多標(biāo)注不一致的情況,例如,家庭類別的第一個數(shù)據(jù),“男孩、女孩、兄弟、姐妹”,“女孩”有一個義項是“daughter”,但是“男孩”卻沒有“son”的義項。此外,HowNet同樣沒有關(guān)注到家庭角色之間的差異,例如,家庭關(guān)系中的“奶奶”“娘”“娘親”“后娘”等48個義項的定義也都是一樣的,均為DEF={human|人: belong={family|家庭},modifier={female|女}{lineal|直系}{senior|長輩}}。

4 示例

本節(jié)我們分別針對詞語相似度任務(wù)和詞語類比任務(wù)給出示例,分別選取了在實驗部分效果較好的DeepWalk和Node2Vec方法,如表3所示。

表3 A1125數(shù)據(jù)集實驗結(jié)果

4.1 詞語相似度

表4給出了幾個DeepWalk方法學(xué)習(xí)到的語義表示示例。通過觀察示例,我們可以發(fā)現(xiàn): ①該方法較好地捕獲到了不同語義單位之間的語義表示,結(jié)果比較合理; ②輸入中文詞和英文詞,查詢到的最相近的詞大多都是該詞語的義項,比如“錢”和“Money”這兩個示例,這個比較好理解,因為在HownetGraph中,詞語只和義項有連接,所以在隨機(jī)游走的時候,詞語便只會和它的義項共現(xiàn),也因此和義項的相似度最高。

表4 DeepWalk方法(100維)學(xué)習(xí)到的語義表示示例

注: 右上角序號代表含義: 1表示中文詞,2表示英文詞,3表示義項,4表示義原。

4.2 詞語類比

根據(jù)我們用知識圖譜方式處理HowNet得到的詞向量是符合語義的,因此在詞語類比上我們也有明顯的優(yōu)勢,以下是Node2Vec(100維)的結(jié)果。

表5給出了幾個Node2Vec方法學(xué)習(xí)到的語義表示示例。通過觀察示例,我們可以發(fā)現(xiàn),該方法同樣較好地捕獲到了不同語義單位之間的語義表示,正確的答案總會在輸出的前幾個。

表5 Node2Vec方法(100維)學(xué)習(xí)到的詞語類比示例

注: 右上角序號代表含義: 1表示中文詞,2表示英文詞,3表示義項,4表示義原。

5 結(jié)束語

本文通過將HowNet中復(fù)雜的語義結(jié)構(gòu)建成知識圖譜HownetGraph,將較難處理的語義嵌套遞歸結(jié)構(gòu)轉(zhuǎn)化為易處理的圖結(jié)構(gòu),可以使用基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的方法學(xué)習(xí)到HowNet的語義表示,希望能為其他研究者提供借鑒。本文還使用網(wǎng)絡(luò)表示學(xué)習(xí)和知識表示學(xué)習(xí)的模型為HownetGraph中的每個語義單位學(xué)習(xí)到了稠密低維的向量表示,并通過實驗證明了學(xué)習(xí)到的語義表示的質(zhì)量,也表明了知識圖譜表示HowNet的有效性。

Niu Y[2]等使用HowNet的語義相似度去增強(qiáng)詞向量表示的工作,和Xie R[27]等使用詞向量的相似性來預(yù)測HowNet義原的工作,都是比較好地結(jié)合了上下文相似性和語義相似性的工作。后續(xù)研究中,我們會探索兩個方向: 一是如何基于HowNet學(xué)習(xí)到更好的語義表示;二是如何把基于HowNet得到的偏語義相似性的表示和基于大規(guī)模無監(jiān)督語料學(xué)習(xí)到的偏上下文相似性的表示結(jié)合起來。希望借此提升自然語言處理領(lǐng)域相關(guān)任務(wù)的效果。

猜你喜歡
義項語義向量
真實場景水下語義分割方法及數(shù)據(jù)集
向量的分解
聚焦“向量與三角”創(chuàng)新題
語言與語義
向量垂直在解析幾何中的應(yīng)用
“吃+NP”的語義生成機(jī)制研究
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
兩用成語中的冷義項
漢語依憑介詞的語義范疇
Enhanced Precision