王裴巖 張桂平 蔡?hào)|風(fēng)
摘 要:語(yǔ)義知識(shí)庫(kù)在自然語(yǔ)言處理的許多領(lǐng)域中起著重要的作用?,F(xiàn)有的語(yǔ)義知識(shí)庫(kù)主要面向常識(shí)知識(shí),特定領(lǐng)域的語(yǔ)義知識(shí)庫(kù)則很少。文章將知網(wǎng)(HowNet)的理論體系與概念表示方法擴(kuò)展至航空領(lǐng)域,提出了一個(gè)航空領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)——ATHowNet,并介紹了構(gòu)建過(guò)程。該知識(shí)庫(kù)包含3700個(gè)概念、3959個(gè)概念關(guān)系和3864個(gè)術(shù)語(yǔ)。在航空術(shù)語(yǔ)相似度計(jì)算及詞類比任務(wù)上應(yīng)用與驗(yàn)證了ATHowNet,結(jié)果證實(shí)了其在航空領(lǐng)域概念語(yǔ)義描述及基于概念關(guān)系推理上的有效性。
關(guān)鍵詞:語(yǔ)義知識(shí)庫(kù);航空術(shù)語(yǔ);概念;概念關(guān)系
中圖分類號(hào):N04;N949 ?文獻(xiàn)標(biāo)識(shí)碼:A ?DOI:10.12339/j.issn.1673-8578.2021.03.004
Abstract:Semantic knowledge base plays an important role in many areas of natural language processing. Existing semantic knowledge bases are produced mainly for common sense knowledge, and there is few semantic knowledge base for specific domains. This paper extends the theory and concept representation method of HowNet to the aviation domain, proposes a semantic knowledge base for aviation terms, ATHowNet, and describe the process of constructing it. This knowledge base contains 3700 concepts, 3959 relations and 3864 terms. ATHowNet is applied and verified in the task of aviation term similarity calculation and word analogy. The results show that ATHowNet is effective in aviation domain concept description and reasoning based on concept relationship.
Keywords:semantic knowledge base; aviation terms; concept; concept relation
收稿日期:2021-02-26 ?修回日期:2021-05-11
基金項(xiàng)目:教育部人文社會(huì)青年基金項(xiàng)目“領(lǐng)域概念的語(yǔ)義表示方法與大規(guī)模語(yǔ)義知識(shí)庫(kù)建設(shè)研究”(17YJC740087)
引言
語(yǔ)義知識(shí)庫(kù)在自然語(yǔ)言處理的許多領(lǐng)域中起著重要的作用?,F(xiàn)有的語(yǔ)義知識(shí)庫(kù)主要面向常識(shí)知識(shí),特定領(lǐng)域的語(yǔ)義知識(shí)庫(kù)則很少。
本文基于知網(wǎng)(HowNet)[1]的理論體系與概念表示方法,提出了一個(gè)航空領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)——ATHowNet(Aviation Terms HowNet),描述航空術(shù)語(yǔ)所承載的概念及其之間的關(guān)系,并介紹ATHowNet的數(shù)據(jù)來(lái)源、構(gòu)建規(guī)則及構(gòu)建過(guò)程,分析ATHowNet在術(shù)語(yǔ)相似度計(jì)算及詞類比應(yīng)用的實(shí)驗(yàn)結(jié)果,證實(shí)了其在航空領(lǐng)域概念語(yǔ)義描述及基于概念關(guān)系推理上的有效性。
1 HowNet知識(shí)庫(kù)及其擴(kuò)展
HowNet最初是由董振東和強(qiáng)東在20世紀(jì)90年代設(shè)計(jì)和構(gòu)建的,是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù),揭示了不同詞語(yǔ)所承載的概念及其屬性之間的關(guān)系[1]。HowNet把義原(sememe)[2]作為意義的最小不可分割單位。義原是通過(guò)對(duì)大量漢字的語(yǔ)義進(jìn)行提取、分析、合并和過(guò)濾而確定的,其形式如:“aircraft|飛行器”“strength|力量”,并且建立了義原的分類體系,每個(gè)義原歸于一個(gè)分類,如:事物、部件、屬性、時(shí)間、空間等。此外,為了更準(zhǔn)確地描述詞語(yǔ)的語(yǔ)義,HowNet還定義了義原之間的關(guān)系,如:“whole”(整體)、“patient”(受事)、“agent”(施事)與“host”(主體)等。概念通過(guò)義原和義原關(guān)系來(lái)標(biāo)注,同義詞或近義詞對(duì)應(yīng)相同的概念,每個(gè)多義詞對(duì)應(yīng)多個(gè)概念,并建立了概念間的上下位、整體—部分、屬性—宿主等關(guān)系。標(biāo)注的概念用知識(shí)庫(kù)標(biāo)記語(yǔ)言KDML(Knowledge Data Base Markup Language)表示。這種面向計(jì)算機(jī)的形式化表達(dá)方式,便于將HowNet應(yīng)用于相似度計(jì)算[3]、情感分析[4]、詞向量[5-6]、語(yǔ)言建模[7]等。
HowNet自1999年提出以來(lái),一直在不斷更新,主要是擴(kuò)充義原、概念和詞匯的數(shù)量。目前,HowNet的網(wǎng)絡(luò)開(kāi)源版本OpenHowNet[8],包含2196個(gè)義原、35 202個(gè)概念和229 767個(gè)中英文詞。一些研究對(duì)HowNet進(jìn)行了擴(kuò)展。ExtendedHowNet[9]擴(kuò)展了HowNet的詞義定義機(jī)制,使用WordNet語(yǔ)法集作為詞匯來(lái)描述概念,通過(guò)定義與其他概念的關(guān)聯(lián)來(lái)表示和理解概念。ExtendedHowNet 2.0[10]面向?qū)嶓w與關(guān)系的表示,對(duì)HowNet進(jìn)行了擴(kuò)展,重新組織了概念間的層次構(gòu)筑關(guān)系,提供了除概念定義之外的額外詞匯信息,如事件框架與語(yǔ)義功能等,利于表達(dá)實(shí)體所代表的概念間的語(yǔ)義合成過(guò)程。ExtendedHowNet和ExtendedHowNet 2.0擴(kuò)展了HowNet的概念表示方式及詞匯信息,但沒(méi)有繼承KDML形式化語(yǔ)言的能力。王瑩瑩等[11]借鑒HowNet的思想,以KDML為表示方式,以中醫(yī)領(lǐng)域的99個(gè)基礎(chǔ)概念為義原,配合8種關(guān)系,構(gòu)建了中醫(yī)領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)。由于中醫(yī)基礎(chǔ)概念及其關(guān)系自成體系,中醫(yī)術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)中的義原與關(guān)系不能繼承HowNet。這使得中醫(yī)領(lǐng)域概念與HowNet中常識(shí)概念構(gòu)建在不同的基礎(chǔ)語(yǔ)義要素上,造成該知識(shí)庫(kù)適用于中醫(yī)術(shù)語(yǔ)層級(jí)的運(yùn)算,無(wú)法用于參雜領(lǐng)域概念與常識(shí)概念的文本級(jí)任務(wù)。
張桂平等[12]完全繼承HowNet義原及關(guān)系體系,以KDML為表示方式,構(gòu)建了基于HowNet的航空領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),面向航空術(shù)語(yǔ)的特點(diǎn),在HowNet的7條總規(guī)則的基礎(chǔ)上延伸出5條規(guī)則,包括義原與義原關(guān)系的選用規(guī)則與使用規(guī)范,為后續(xù)研究打下了基礎(chǔ)。但這些規(guī)則在實(shí)際構(gòu)建過(guò)程中操作性不強(qiáng),概念表示的一致性與規(guī)范性較難保證。王羊羊等[13]在張桂平等[12]研究的基礎(chǔ)上,提出了航空領(lǐng)域術(shù)語(yǔ)核心詞框架,將[12]研究的義原與義原關(guān)系的選用規(guī)則與使用規(guī)范具體化為框架,規(guī)范了術(shù)語(yǔ)核心詞義原及與其相關(guān)的動(dòng)態(tài)角色關(guān)系。
2 ATHowNet
本文將HowNet的理論體系與概念表示方法擴(kuò)展至航空領(lǐng)域,提出了一個(gè)航空領(lǐng)域術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)——ATHowNet(Aviation Terms HowNet)。ATHowNet包含3700個(gè)概念、3959個(gè)概念關(guān)系和3864個(gè)術(shù)語(yǔ)。在[12]及[13]的基礎(chǔ)上,本文做了如下改進(jìn):首先,針對(duì)航空領(lǐng)域術(shù)語(yǔ)多為復(fù)合詞或詞組的特點(diǎn),更加注重概念間的層次構(gòu)筑關(guān)系,即復(fù)雜概念由簡(jiǎn)單的概念構(gòu)建而成,簡(jiǎn)單的概念由更為簡(jiǎn)單的概念構(gòu)建,直至基礎(chǔ)概念。這樣能夠更加明確地表達(dá)概念間的關(guān)系,適用于基于關(guān)系的推理任務(wù)。其次,將[13]的核心詞框架替代為基礎(chǔ)概念及框架,使得220項(xiàng)基礎(chǔ)概念能涵蓋52.82%的術(shù)語(yǔ)。最后,除[12]及[13]的術(shù)語(yǔ)相似度任務(wù)外,在基于概念關(guān)系推理的詞類比任務(wù)[13-14]上應(yīng)用了ATHowNet,驗(yàn)證了其在航空領(lǐng)域概念語(yǔ)義描述及基于概念關(guān)系推理上的有效性。
2.1 ATHowNet數(shù)據(jù)來(lái)源
ATHowNet中的航空領(lǐng)域術(shù)語(yǔ)提取自《中國(guó)航空百科詞典》[15]?!吨袊?guó)航空百科詞典》收錄了13大類8918個(gè)詞條。每個(gè)詞條包括一個(gè)術(shù)語(yǔ)和一個(gè)定義。表1展示了詞條的一個(gè)示例。我們選擇技術(shù)類術(shù)語(yǔ),如飛行器、飛機(jī)部件、飛行控制和導(dǎo)航等,不包括航空領(lǐng)域知名人物與組織,除非已包含在HowNet中。ATHowNet包含3864個(gè)術(shù)語(yǔ),表2列出了ATHowNet每一類術(shù)語(yǔ)的數(shù)量。
2.2 ATHowNet構(gòu)建規(guī)則
ATHowNet的每個(gè)記錄都由一個(gè)術(shù)語(yǔ)及其相應(yīng)的概念組成。同義詞或近義詞對(duì)應(yīng)相同的概念。
每個(gè)多義術(shù)語(yǔ)對(duì)應(yīng)多個(gè)概念。表3展示了ATHowNet記錄的一個(gè)示例。ATHowNet中的概念用HowNet的KDML表示。如示例所示,在KDML中,每個(gè)概念的表達(dá)都以“DEF”開(kāi)頭,由一組義原(紅色加粗)和義原關(guān)系(斜體藍(lán)色)組成。KDML的詳細(xì)語(yǔ)法規(guī)則以及義原及關(guān)系集,可以參考HowNet在線手冊(cè)[16]。ATHowNet繼承了HowNet的義原和義原關(guān)系系統(tǒng),沒(méi)有擴(kuò)展和改變其原有的內(nèi)涵和層級(jí)關(guān)系。這樣可以保證ATHowNet和HowNet的基本語(yǔ)義系統(tǒng)是一致的,使航空領(lǐng)域的概念和常識(shí)概念在統(tǒng)一的邏輯下進(jìn)行語(yǔ)義計(jì)算,也可以建立領(lǐng)域概念和常識(shí)概念之間的語(yǔ)義關(guān)系。
在ATHowNet中,復(fù)雜的概念由簡(jiǎn)單的概念組成。也就是,新的概念基于已經(jīng)定義和描述的概念來(lái)表達(dá)。通過(guò)這種方法,概念的表達(dá)可以在不同層次上進(jìn)行動(dòng)態(tài)分解和統(tǒng)一,也可以表達(dá)概念的上下義層次和概念之間的關(guān)系。以表3中的“變壓變頻電源系統(tǒng)”為例,相關(guān)概念及其之間的關(guān)系展示在圖1中。這一概念的定義和表述是基于“電源系統(tǒng)”這一上層概念。同時(shí),“供電系統(tǒng)”的概念在“系統(tǒng)”概念的基礎(chǔ)上定義與描述?!白冾l”概念與“電源系統(tǒng)”概念的關(guān)系是“modifier”,即變頻是電源系統(tǒng)的特性。
基于上述概念關(guān)系原則,為了使義原關(guān)系的范圍更加緊湊,提高概念形成的一致性,我們基于有限數(shù)量基礎(chǔ)概念構(gòu)建ATHowNet,即核心概念。具體地,對(duì)3864個(gè)術(shù)語(yǔ)通過(guò)“jieba”工具包進(jìn)行分詞。然后進(jìn)行詞頻統(tǒng)計(jì),保持頻率高于5的,得到220個(gè)詞。這些詞所對(duì)應(yīng)的概念作為核心概念,覆蓋52.82%的術(shù)語(yǔ)。
2.3 ATHowNet構(gòu)建過(guò)程
基于上述原則,手動(dòng)標(biāo)注所有術(shù)語(yǔ)概念及其概念關(guān)系。
(1)將所有的術(shù)語(yǔ)按照其中心詞(術(shù)語(yǔ)中最右邊的單詞)分為1123個(gè)組,其中每個(gè)組具有相同的中心詞。具有相同中心詞的術(shù)語(yǔ)表達(dá)相似的或相關(guān)的概念。
(2)從數(shù)量最多長(zhǎng)度最短的組開(kāi)始標(biāo)注。這樣能夠首先對(duì)具有高頻率中心詞的無(wú)歧義術(shù)語(yǔ)進(jìn)行標(biāo)注,然后可以重用于其他術(shù)語(yǔ)。
(3)將1123組術(shù)語(yǔ)分配給三個(gè)標(biāo)注者,并按照前面提到的原則進(jìn)行標(biāo)注。標(biāo)注完成后,每一個(gè)標(biāo)注者對(duì)其他兩個(gè)標(biāo)注者標(biāo)注的概念進(jìn)行評(píng)分,評(píng)分標(biāo)準(zhǔn)為“0、1、2、3”,其中“0”是指第一個(gè)義原不正確;“1”表示第一個(gè)義原正確而其他義原不正確;“2”表示所有義原都正確,但部分義原關(guān)系不正確;“3”是完全正確。最后,用Cohen κ[17]計(jì)算評(píng)分一致性,其值達(dá)到56.76%。如果標(biāo)注得分小于3,則標(biāo)注者對(duì)標(biāo)注進(jìn)行討論并重新標(biāo)注,直到達(dá)成一致。
整個(gè)構(gòu)建過(guò)程歷時(shí)8個(gè)月。
2.3 ATHowNet構(gòu)建結(jié)果
最終,ATHowNet包含4152條記錄,3864個(gè)術(shù)語(yǔ)和3700個(gè)概念。在3700個(gè)概念中,共有3959對(duì)關(guān)系,如“whole”“l(fā)ocation”“patient”等56種。表4為ATHowNet的統(tǒng)計(jì)信息。
多義詞和同義詞是重要的語(yǔ)義現(xiàn)象,也是最重要的詞匯關(guān)系。ATHowNet能有效地表示航空領(lǐng)域中的多義詞和同義詞。在ATHowNet中,278個(gè)詞是多義詞,每個(gè)詞對(duì)應(yīng)兩個(gè)或者更多的概念。以“程序”為例,“程序”的一種意義是計(jì)算機(jī)程序,另一種意義是事物的順序。同義詞通過(guò)兩個(gè)或多個(gè)術(shù)語(yǔ)共享相同概念體現(xiàn)。ATHowNet有286個(gè)概念對(duì)應(yīng)于多個(gè)術(shù)語(yǔ)。例如,“軍用飛機(jī)”和“軍用機(jī)”這兩個(gè)詞對(duì)應(yīng)相同概念。
3 ATHowNet應(yīng)用
詞的相似度計(jì)算和詞的類比是詞匯語(yǔ)義研究和評(píng)價(jià)中常用的方法[14]。本節(jié)展示ATHowNet在航空領(lǐng)域的詞相似度計(jì)算和詞類比方面的能力。
3.1 航空領(lǐng)域的詞相似度計(jì)算
首先,從ATHowNet中隨機(jī)選擇100對(duì)術(shù)語(yǔ),并對(duì)它們進(jìn)行人工相似度評(píng)估。組織10名標(biāo)注者來(lái)標(biāo)注每對(duì)術(shù)語(yǔ)的相似度。相似度分?jǐn)?shù)為[0-5]之間,從完全不相似“0”分,到最相似“5”分。標(biāo)注之后,對(duì)于每對(duì)術(shù)語(yǔ),將所有標(biāo)注者的標(biāo)注相似度值取平均值,并映射到[0-1]之間。標(biāo)注者之間的標(biāo)注一致性(皮爾遜相關(guān)系數(shù)[18])為0.7514。這意味著在評(píng)價(jià)術(shù)語(yǔ)對(duì)相似度時(shí)標(biāo)注者具有較高的一致性。其次,我們按照[19]中的方法,根據(jù)術(shù)語(yǔ)對(duì)應(yīng)的概念自動(dòng)計(jì)算每對(duì)術(shù)語(yǔ)的相似度,得到一組在[0-1]范圍內(nèi)的相似度分?jǐn)?shù)。最后,得到人工評(píng)價(jià)與計(jì)算得分的相似度之間的相關(guān)性。使用皮爾遜相關(guān)系數(shù)[18]作為相關(guān)性度量,得分為0.8232。這一結(jié)果顯示出二者高度的相關(guān)性,這表明ATHowNet在一定程度上反映了人類對(duì)于術(shù)語(yǔ)相似性的判斷,從而證實(shí)了ATHowNet中術(shù)語(yǔ)概念的正確性。表5顯示了通過(guò)人工標(biāo)注和自動(dòng)計(jì)算得出的術(shù)語(yǔ)間相似度的一些示例。
3.2 航空領(lǐng)域的詞類比
本文構(gòu)建了一個(gè)航空領(lǐng)域詞類比數(shù)據(jù)集,用于驗(yàn)證ATHowNet在概念關(guān)系推理上的有效性。數(shù)據(jù)集中的每個(gè)類比查詢都是一個(gè)由四個(gè)術(shù)語(yǔ)(A,B,C,D)組成的元組,用于構(gòu)造問(wèn)題“A之于B,相對(duì)于C之于什么?”。D是該問(wèn)題的答案。這是基于這樣一個(gè)假設(shè),即如果“A對(duì)B就像C對(duì)D”,那么A與B間和C與D間具有相同的概念關(guān)系。我們從ATHowNet中選擇具有概念關(guān)系的術(shù)語(yǔ)對(duì)。如(機(jī)輪,輪速,彈道導(dǎo)彈,制導(dǎo)誤差),機(jī)輪與輪速之間的關(guān)系為“subjectattribute”,彈道導(dǎo)彈與制導(dǎo)誤差間的關(guān)系也是如此。兩組關(guān)系相同的詞對(duì)組成一個(gè)查詢。最后,我們隨機(jī)選擇了由100個(gè)單詞組成的含有625個(gè)查詢的數(shù)據(jù)集。
對(duì)于詞語(yǔ)類比推理,我們根據(jù)A和B在ATHowNet中標(biāo)注的概念自動(dòng)找到它們的關(guān)系r。尋找一組與C有關(guān)系的術(shù)語(yǔ)W。然后,選擇與C具有關(guān)系r的一個(gè)術(shù)語(yǔ)w∈W作為答案。如果W中沒(méi)有與C有關(guān)系r的術(shù)語(yǔ),那么選擇與C具有關(guān)系r的術(shù)語(yǔ)。r是與關(guān)系r在HowNet關(guān)系體系中具有相同上級(jí)節(jié)點(diǎn)的關(guān)系。
將上述方法與基于詞表征的方法進(jìn)行了比較[14,20]。詞表征是將詞表達(dá)為線性空間中的向量的一類方法?;谠~表征的方法通過(guò)找到與向量vec(B)-vec(A)+vec(C)最相近(通過(guò)向量夾角余弦評(píng)價(jià)相近性)的向量x來(lái)解決詞類比問(wèn)題。使用BERT[21]和Tecent[22]的詞表征。準(zhǔn)確率作為評(píng)價(jià)指標(biāo)。對(duì)于數(shù)據(jù)集中每一個(gè)類比查詢,推理方法給出答案術(shù)語(yǔ)w,如果w=D,則判斷為正確。以正確樣本的百分比作為推理方法的準(zhǔn)確率。各詞類比推理方法的準(zhǔn)確率列于表6。由表6可見(jiàn),ATHowNet的準(zhǔn)確率高于BERT和Tencent,這說(shuō)明ATHowNet很好地表達(dá)了航空領(lǐng)域的詞與詞之間的關(guān)系,適用于基于概念關(guān)系的推理任務(wù)。
4 結(jié)語(yǔ)
本文提出了一個(gè)航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)ATHowNet,并介紹了其構(gòu)建規(guī)則與過(guò)程。ATHowNet以HowNet為基礎(chǔ),繼承了HowNet的概念語(yǔ)義表示體系和基本規(guī)則。ATHowNet共有4152條記錄,包含3864個(gè)術(shù)語(yǔ)、3700個(gè)概念和3959個(gè)概念關(guān)系。也驗(yàn)證了ATHowNet在航空領(lǐng)域概念的詞相似度計(jì)算和詞類比方面的能力。在未來(lái)的工作中,將考慮自動(dòng)生成術(shù)語(yǔ)概念的方法,特別是在領(lǐng)域內(nèi)知識(shí)有限的情況下。因此,該工作可以推廣到其他領(lǐng)域,而需要較少的人工投入,從而降低了構(gòu)建語(yǔ)義知識(shí)庫(kù)的成本。
參考文獻(xiàn)
[1] 董振東,董強(qiáng).知網(wǎng)[Z/OL].[2021-05-07].http://www.keenage.com/zhiwang/c_zhiwang.html.
[2] BLOOMFIELD L.A set of postulates for the science of language[J].Language,1926,2(3):153-164.
[3] LIU Q, LI S J. Word similarity computing based on hownet[J].CLCLP,2002,7(2):59-76.
[4] FU X H,GUO L,GAO Y Y,et al.Multiaspect sentiment analysis for chinese online social reviews based on topic modeling and hownet lexicon[J]. KnowledgeBased Systems,2013,37(2):186-195.
[5] NIU Y L,XIE R B,YUAN X C,et al.Improved word representation learning with sememes[C]//Association of Computational Linguistics.Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[6] XIE R B,YUAN X C,LIU Z Y,et al.Lexical sememe prediction via word embeddings and matrix factorization[C]//International Joint Conferences on Artificial Intelligence Organization.Proceeding of the 26th International Joint Conference on Artificial Intelligence,2017:4200-4206.
[7] GU Y H,YAN J,ZHU H,et al.Language modeling with sparse product of sememe experts[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing,2018:4642-4651.
[8] QI F C,YANG C H,LIU Z Y,et al.Openhownet: An open sememebased lexical knowledge base[J/OL] .[2021-05-07].CoRR,abs/1901.09957.2019.
[9] CHEN K J,HUANG S L,SHIH Y Y,et al. ExtendedHowNet: A representational framework for concepts[C]//Asian Federation of Natural Language Processing.Proceedings of OntoLex 2005Ontologies and Lexical Resources,2005.
[10] SHIH Y Y,MA W Y . Extended hownet 2.0an entityrelation commonsense representation model[C]//European Language Resources Association. Proceeding of the 11th International Conference on Language Resources and Evaluation Conference,2018.
[11] ?王瑩瑩,白宇,丁長(zhǎng)林,等.面向語(yǔ)義檢索的中醫(yī)理論知識(shí)庫(kù)構(gòu)建方法的研究[J].中文信息學(xué)報(bào),2012,26(5):72-78.
[12] 張桂平,刁麗娜,王裴巖.基于HowNet的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2014,28(5):92-101.
[13] 王羊羊,陳剛,蔡?hào)|風(fēng),等.基于HowNet的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建技術(shù)[J].沈陽(yáng)航空航天大學(xué)學(xué)報(bào),2016,33(4):78-84.
[14] MIKOLOV T,CORRADO G,CHEN K,et al.Efficient Estimation of Word Representations in Vector Space[C]//Proceedings of the 1st International Conference on Learning Representations,2013.
[15] 《中國(guó)航空百科詞典》編輯部.中國(guó)航空百科詞典[M].北京:航空工業(yè)出版社,2000.
[16] KDML:知網(wǎng)知識(shí)系統(tǒng)描述語(yǔ)言[Z/OL].[2021-05-07]. http://www.keenage.com/TheoryandpracticeofHowNet/07.pdf.
[17] COHEN J.A coefficient of agreement for nominal scales[J].Educational & Psychological Measurement,1960,20(1):37-46.
[18] STUDENT.Probable error of a correlation coefficient[J].Biometrika,1908,6(2/3):302-310.
[19] XIA T.Study on chinese words semantic similarity computation[J].Computer Engineering,2007,33(6): 191-194.
[20] NIU Y L,XIE R B,YUAN X C,et al. Improved word representation learning with sememes[C]// Association for Computational Linguistics. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics,2017:2049-2058.
[21] DEVLIN J,CHANG M W,LEE K,et al.BERT: Pretraining of deep bidirectional transformers for language understanding[C]//Association for Computational Linguistics.Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,2019:4171-4186.
[22] SONG Y,SHI S M,LI J,et al.Directional skipgram: Explicitly distinguishing left and right context for word embeddings[C]//Association for Computational Linguistics.Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,NAACLHLT,2018:175-180.
作者簡(jiǎn)介:
王裴巖(1983—),男,博士,2020年畢業(yè)于南京航空航天大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,獲工學(xué)博士學(xué)位。現(xiàn)為沈陽(yáng)航空航天大學(xué)人機(jī)智能研究中心工程師,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、機(jī)器學(xué)習(xí)、知識(shí)工程。先后主持遼寧省自然科學(xué)基金重點(diǎn)項(xiàng)目與教育部人文社會(huì)青年基金等項(xiàng)目,參與國(guó)家科技支撐計(jì)劃與國(guó)防基礎(chǔ)科研等項(xiàng)目,曾獲得國(guó)防科技進(jìn)步二等獎(jiǎng)與中國(guó)航空學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)。通信方式:wangpy@sau.edu.cn。
張桂平(1962—),女,博士,2007年畢業(yè)于東北大學(xué),獲工學(xué)博士學(xué)位?,F(xiàn)任沈陽(yáng)航空航天大學(xué)人機(jī)智能研究中心教授,主任,多語(yǔ)言協(xié)同翻譯國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室主任,博士生導(dǎo)師。主要研究方向?yàn)樽匀徽Z(yǔ)言處理、機(jī)器翻譯、知識(shí)工程。主持多項(xiàng)國(guó)家863計(jì)劃、國(guó)家自然科學(xué)、國(guó)防基礎(chǔ)科研等項(xiàng)目,曾獲得遼寧省科技進(jìn)步獎(jiǎng)一等獎(jiǎng)、中國(guó)航空學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)一等獎(jiǎng)、中國(guó)中文信息學(xué)會(huì)“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”一等獎(jiǎng)等。擔(dān)任中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng),中國(guó)航空學(xué)會(huì)理事。通信方式:zgp@gesoft.com。
蔡?hào)|風(fēng)(1958—),男,博士,1998年畢業(yè)于日本東京大學(xué),獲工學(xué)博士學(xué)位?,F(xiàn)任沈陽(yáng)航空航天大學(xué)人機(jī)智能研究中心教授,遼寧省人工智能與自然語(yǔ)言處理重點(diǎn)實(shí)驗(yàn)室主任,博士生導(dǎo)師。主要研究方向?yàn)樽匀徽Z(yǔ)言處理、人工智能、知識(shí)工程。先后主持國(guó)家973計(jì)劃子課題、國(guó)家科技支撐計(jì)劃、國(guó)家自然科學(xué)基金等項(xiàng)目,曾獲得遼寧省科技進(jìn)步獎(jiǎng)一等獎(jiǎng),中國(guó)中文信息學(xué)會(huì)“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”一等獎(jiǎng)。擔(dān)任中國(guó)中文信息學(xué)會(huì)理事,《中文信息學(xué)報(bào)》編委。通信方式:caidf@vip.163.com。