王羊羊,陳 剛,蔡?hào)|風(fēng),王裴巖
(1.沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,沈陽(yáng) 110136; 2.中航昌河飛機(jī)工業(yè)(集團(tuán))有限責(zé)任公司 科技部,江西 景德鎮(zhèn) 333000)
?
基于HowNet的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建技術(shù)
王羊羊1,陳剛2,蔡?hào)|風(fēng)1,王裴巖1
(1.沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,沈陽(yáng) 110136; 2.中航昌河飛機(jī)工業(yè)(集團(tuán))有限責(zé)任公司 科技部,江西 景德鎮(zhèn) 333000)
領(lǐng)域知識(shí)庫(kù)能夠滿足特定領(lǐng)域的自然語(yǔ)言處理系統(tǒng)對(duì)知識(shí)的需求,然而大部分領(lǐng)域知識(shí)庫(kù)的構(gòu)建方式為手工構(gòu)建,效率較低。針對(duì)這一問(wèn)題,分析已經(jīng)手工構(gòu)建的2 300余條航空術(shù)語(yǔ)描述信息及其在構(gòu)建過(guò)程中總結(jié)的規(guī)則,在此基礎(chǔ)上,總結(jié)了200余條核心詞框架,核心詞以外的其他詞,通過(guò)一種規(guī)則與統(tǒng)計(jì)相結(jié)合的方法進(jìn)行框架的自動(dòng)填充,從而提高了構(gòu)建術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的自動(dòng)化程度。最后,對(duì)構(gòu)建的術(shù)語(yǔ)描述信息進(jìn)行了相似度計(jì)算,取得了較好的結(jié)果。
術(shù)語(yǔ);規(guī)則;統(tǒng)計(jì);語(yǔ)義知識(shí)庫(kù)
自然語(yǔ)言的語(yǔ)義分析和內(nèi)容信息的理解離不開(kāi)語(yǔ)義知識(shí)庫(kù)的支持[1],計(jì)算機(jī)可以通過(guò)語(yǔ)義知識(shí)庫(kù)了解人類(lèi)語(yǔ)言,從而變得更加智能。傳統(tǒng)的語(yǔ)義知識(shí)庫(kù)大多面向通用領(lǐng)域,不能滿足特定領(lǐng)域的自然語(yǔ)言處理系統(tǒng)對(duì)問(wèn)題的知識(shí)需求[2],所以構(gòu)建領(lǐng)域知識(shí)庫(kù)是十分必要的。
傳統(tǒng)的語(yǔ)義知識(shí)庫(kù)包括WordNet[3]、FrameNet[4-5]在內(nèi),構(gòu)建方式大多為手工構(gòu)建;較大型的語(yǔ)義知識(shí)庫(kù)只有MindNet[6]和Yago[7-8]的構(gòu)建方式為自動(dòng)構(gòu)建;此外,文獻(xiàn)[9]提出了一種基于實(shí)體-屬性框架的領(lǐng)域知識(shí)庫(kù)的自動(dòng)構(gòu)建方法,然而它們都是以自然語(yǔ)言的形式進(jìn)行表述,在計(jì)算機(jī)系統(tǒng)中不易對(duì)其進(jìn)行相似度計(jì)算、相關(guān)度計(jì)算等處理。
文獻(xiàn)[13]針對(duì)航空領(lǐng)域術(shù)語(yǔ)的特點(diǎn),在HowNet[10-11]和KDML描述語(yǔ)言[12]基礎(chǔ)上進(jìn)行了知識(shí)庫(kù)的擴(kuò)展,手工構(gòu)建了2300條術(shù)語(yǔ)定義描述信息。然而現(xiàn)實(shí)世界的各種應(yīng)用需求層出不窮,手工構(gòu)建的語(yǔ)義知識(shí)庫(kù)很難滿足這些需求[14]。
本文詳細(xì)分析了手工構(gòu)建的航空領(lǐng)域術(shù)語(yǔ)知識(shí)及其構(gòu)建過(guò)程中制定的規(guī)則。在此基礎(chǔ)上,總結(jié)出200余條術(shù)語(yǔ)核心詞描述框架,核心詞以外的其他詞對(duì)應(yīng)的義原,提出一種規(guī)則與統(tǒng)計(jì)結(jié)合的方法來(lái)進(jìn)行框架的填充,從而提高了構(gòu)建領(lǐng)域知識(shí)庫(kù)的自動(dòng)化程度。
HowNet的最大特色是更加計(jì)算機(jī)化,能夠用計(jì)算機(jī)可以識(shí)別的方式反映概念的共性和個(gè)性以及概念之間的關(guān)系。
“HowNet”2006版中共描述了84 826個(gè)中文概念,概念的最小組成單位為義原。為了滿足概念描述信息的一致性和概括性,給出如下的描述規(guī)定[12]:
(1)任一概念的描述都以“DEF=”為開(kāi)始。任一概念中出現(xiàn)的所有義原或符號(hào)必須是在HowNet的Taxonomy中定義的義原或符號(hào)或者由HowNet知識(shí)系統(tǒng)描述語(yǔ)言所規(guī)定的特定標(biāo)識(shí)符;
(2)概念描述中的第一個(gè)義原必須指出該概念最基本的意義,并用事件、實(shí)體、屬性和屬性值這四類(lèi)義原中的一個(gè)標(biāo)注出來(lái);
(3)對(duì)于簡(jiǎn)單概念直接標(biāo)注該概念的意義;
(4)利用動(dòng)態(tài)角色與特征來(lái)標(biāo)注復(fù)雜概念;
(5)屬性類(lèi)概念必須標(biāo)明它的宿主;
(6)整體部分類(lèi)型的概念必須標(biāo)明該部分的整體;
(7)概念描述中定義的特性可以是一個(gè),也可以是多個(gè),數(shù)量沒(méi)有限制,只要內(nèi)容合理且形式合乎規(guī)范即可。
例如 “機(jī)器”:DEF={machine|機(jī)器};“海平面”:DEF={Height|高度:host={waters|水域}};“發(fā)動(dòng)機(jī)”:DEF={part|部件:PartPosition={heart|心},whole={vehicle|交通工具}}。
HowNet中的義原分為八類(lèi),包括Event、Entity、Attribute、Attribute Value、Secondary Feature、ProperNoun、Sign、Event Role & Features、Syntax Antonym、Converse。其中“host”、“ PartPosition ”和“whole”為義原的動(dòng)態(tài)角色或特征,HowNet中共有89種動(dòng)態(tài)角色或特征,這些動(dòng)態(tài)角色或特征可以清晰的描述概念中義原之間的關(guān)系。常用的動(dòng)態(tài)角色包括:“patient”(受事)、“RelateTo”(相關(guān))、“content”(內(nèi)容)、“modifier”(描述)、“CoEvent”(對(duì)應(yīng)之事件)等。
在描述概念時(shí)還會(huì)用到以下3種特殊的指示符號(hào):
(1)“~”:描述模式為{義原1:{義原2:動(dòng)態(tài)角色或特征={~}}},表示義原1與義原2有關(guān),義原1為義原2的一個(gè)具體動(dòng)態(tài)角色的值,“~”代替義原1;
(2)“?”:描述模式為{義原1:動(dòng)態(tài)角色={?}},這種描述方式表示在某種語(yǔ)義環(huán)境中,“?”所充當(dāng)?shù)膭?dòng)態(tài)角色的義原是一定會(huì)出現(xiàn)的,但在這個(gè)概念中并沒(méi)有被體現(xiàn)出來(lái);
(3)“$”:描述模式為{義原1:動(dòng)態(tài)角色={$}},表示這個(gè)概念所描述的對(duì)象。
2.1術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建步驟
一條完整的術(shù)語(yǔ)描述信息構(gòu)建過(guò)程主要包括3部分:術(shù)語(yǔ)預(yù)處理、義原獲取以及相關(guān)義原的最后整合。
術(shù)語(yǔ)的預(yù)處理,即將術(shù)語(yǔ)進(jìn)行分詞,考慮到接下來(lái)的義原獲取以及漢語(yǔ)中心詞大多在句尾的特點(diǎn),對(duì)術(shù)語(yǔ)采用基于HowNet詞表的最大逆向匹配的分詞方法。義原獲取的過(guò)程是根據(jù)分詞后的術(shù)語(yǔ)詞語(yǔ)集,從“HowNet”的義原庫(kù)中提取與之相關(guān)的義原。將獲取到的義原進(jìn)行整合,形成完整的術(shù)語(yǔ)表述形式,這也是最主要的過(guò)程。
采用本文的方法構(gòu)建一條完整的語(yǔ)義描述信息的流程,如圖1所示。
圖1 語(yǔ)義描述信息構(gòu)建流程圖
如:液體流量校準(zhǔn)設(shè)備,分詞結(jié)果為“液體/流量/校準(zhǔn)/設(shè)備”?!霸O(shè)備”為術(shù)語(yǔ)核心詞,獲取“設(shè)備”的框s架:
能源消費(fèi)增長(zhǎng)的同時(shí),能源轉(zhuǎn)型持續(xù)推進(jìn)。前三季度,水電、核電、風(fēng)電、太陽(yáng)能發(fā)電等清潔能源發(fā)電裝機(jī)合計(jì)占總裝機(jī)的36.4%,比去年同期提高1.4個(gè)百分點(diǎn);清潔能源發(fā)電量同比增長(zhǎng)8.9%,高于火電增速2.0個(gè)百分點(diǎn)。
DEF={tool|用具:{具體用途:content={},purpose={},instrument={~}}.agent={},location={},RelateTo={}}
獲取其他詞的義原,“液體”:{liquid|液};“流量”:{Amount|多少:host={water|水},scope={flow|流}};“校準(zhǔn)”:{fact|事情:CoEvent={check|查:purpose={amend|改正}}}。其中“流量”與“校準(zhǔn)”相鄰,觸發(fā)規(guī)則之后的動(dòng)態(tài)角色選定為content。通過(guò)統(tǒng)計(jì)的方法,預(yù)測(cè){ Amount|多少}與{ liquid|液}之間動(dòng)態(tài)角色為host。
最后義原整合結(jié)果:
DEF={tool|用具:{check|查:content={Amount|多少:host={liquid|液},scope={flow|流}},purpose={amend|改正},instrument={~}}}
從上述步驟可以看出,想要提高術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)構(gòu)建的自動(dòng)化程度,如何自動(dòng)匹配出符合已有規(guī)則的框架,以及如何獲取義原之間準(zhǔn)確的動(dòng)態(tài)角色十分重要。
2.2核心詞框架的獲取
將已經(jīng)構(gòu)建好的2300余條術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)進(jìn)行歸納,總結(jié)出212條術(shù)語(yǔ)核心詞框架。如核心詞為“測(cè)量”“程序”,查找到的框架為:
測(cè)量:DEF={fact|事情:CoEvent={measure|測(cè)量: content={}/patient={}/PatientAttribute={}, condition={}, location={}}}
程序:DEF={software|軟件:purpose={}}
在框架中列出了{(lán)measure|測(cè)量}{software|軟件}后邊可能含有的動(dòng)態(tài)角色??蚣艽_定后,通過(guò)統(tǒng)計(jì)與規(guī)則相結(jié)合的方法進(jìn)行核心義原以外的其他義原的框架填充,從而完成構(gòu)建過(guò)程。
2.3特殊核心詞框架的獲取
上述框架的統(tǒng)計(jì)與術(shù)語(yǔ)是一對(duì)多的關(guān)系,212條框架能夠覆蓋大多數(shù)的術(shù)語(yǔ)。如果分詞后,核心詞找不到對(duì)應(yīng)的框架,因此本文將采用一種框架推薦的策略。
例如:術(shù)語(yǔ)“熱空氣單向活門(mén)”,分詞結(jié)果為“熱/空氣/單向/活門(mén)”,核心詞“活門(mén)”找不到對(duì)應(yīng)的框架,“活門(mén)”的HowNet描述信息可以查到,DEF={part|部件:whole={implement|器具}},匹配第一義原,即{part|部件}來(lái)查找框架,將所有第一義原為{part|部件}的框架一一推薦出,并列出每種框架所對(duì)應(yīng)的術(shù)語(yǔ),結(jié)合術(shù)語(yǔ)之間特征的相似性來(lái)選擇合適的框架。
推薦的框架及框架對(duì)應(yīng)的術(shù)語(yǔ)包括:
存儲(chǔ)器 DEF={part|部件:{store|保存:instrument={~}},modifier={Attribute Value} ,location={},whole={computer|電腦}}半導(dǎo)體存儲(chǔ)器
油門(mén) DEF={part|部件: {SpeedUp|加快:instrument={~}},modifier={Attribute Value},whole={aircraft|飛行器:modifier={automatic|自動(dòng)}}}發(fā)動(dòng)機(jī)油門(mén)
閥DEF={part|部件:manner={Attribute Value}/means={Event},RelateTo={},whole={implement|器具}}輸油控制閥節(jié)流閥
上述的術(shù)語(yǔ)與“閥”框架所對(duì)應(yīng)的術(shù)語(yǔ)特征比較相似,可以選擇“閥”的框架作為“熱空氣單向活門(mén)”的核心詞框架。
對(duì)于采用框架推薦策略依然查找不到的特殊情況,需要人工添加新的核心詞框架,豐富的框架資源更有利于術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的自動(dòng)構(gòu)建。
2.4核心詞框架的填充
確定核心詞框架以后,其他詞對(duì)應(yīng)的義原該怎樣填充,本文提出了一種規(guī)則與統(tǒng)計(jì)相結(jié)合的方法,先基于規(guī)則,將規(guī)則能夠覆蓋的義原自動(dòng)填充到框架中,再通過(guò)統(tǒng)計(jì)已構(gòu)建的術(shù)語(yǔ)描述信息中兩兩義原之間的動(dòng)態(tài)角色,來(lái)將其他義原填充到框架中。
2.4.1基于規(guī)則的方法進(jìn)行框架的填充
本文詳細(xì)分析了文獻(xiàn)[13]制定總結(jié)的構(gòu)建規(guī)則,將規(guī)則形式化表述成計(jì)算機(jī)能夠理解的形式。通過(guò)規(guī)則的實(shí)現(xiàn)來(lái)進(jìn)行核心詞框架的自動(dòng)填充,可以有效地提高語(yǔ)義知識(shí)庫(kù)構(gòu)建的自動(dòng)化程度。
如術(shù)語(yǔ)“壁溫測(cè)量”,核心詞“測(cè)量”框架獲取后,其他詞對(duì)應(yīng)的義原將會(huì)觸發(fā)一條規(guī)則,即:patient與content以及PatientAttribute的區(qū)別。
義原整合結(jié)果為:
DEF={fact|事情:CoEvent={measure|測(cè)量:content={Temperature|溫度:host={part|部件:PartPosition={skin|皮},modifier={external|外},whole={aircraft|飛行器}}}}}
再如2.3中提到的術(shù)語(yǔ)“熱空氣單向活門(mén)”,選擇“閥”的框架后,其他義原將會(huì)觸發(fā)一條規(guī)則,即“modifier”的用法規(guī)則。
觸發(fā)規(guī)則的偽代碼為:
if Y2 is in AttributeValue then
{Y1:modifier={Y2}} //Y1、Y2為分詞后獲取的義原
再獲取其他詞的義原按照規(guī)則填充,結(jié)果為:
DEF={part|部件:RelateTo={gas|氣:modifier={hot|熱}},modifier={DirectioningValue|方向特性值:manner={single|單}},whole={implement|器具}}
觀察上述的描述信息,結(jié)合“單向”“熱”的屬性以及“modifier”的用法規(guī)則,可以初步判斷這兩個(gè)詞的動(dòng)態(tài)角色為“modifier”,但是不難想象,它們也可以作為其他動(dòng)態(tài)角色來(lái)修飾其他的義原。所以需要關(guān)聯(lián)到其他義原來(lái)進(jìn)一步確定對(duì)應(yīng)的動(dòng)態(tài)角色/特征。
2.4.2基于統(tǒng)計(jì)的方法進(jìn)行框架的填充
已構(gòu)建的2 300條航空術(shù)語(yǔ)由于是專(zhuān)業(yè)領(lǐng)域的術(shù)語(yǔ),特征明顯且數(shù)目不多,可以通過(guò)統(tǒng)計(jì)2 300條術(shù)語(yǔ)中出現(xiàn)的義原對(duì)以及義原對(duì)之間的動(dòng)態(tài)角色,來(lái)預(yù)測(cè)和確定核心詞以外的其他詞對(duì)應(yīng)的義原應(yīng)如何填充框架。
為了證明這一點(diǎn),從2 300條術(shù)語(yǔ)描述信息中隨機(jī)抽取1 800條作為知識(shí)庫(kù)1,其余500句作為待驗(yàn)證的語(yǔ)料,抽取10次;HowNet作為知識(shí)庫(kù)2;知識(shí)庫(kù)3為前兩個(gè)知識(shí)庫(kù)綜合在一起。通過(guò)10次交叉驗(yàn)證,計(jì)算出500條待驗(yàn)證的語(yǔ)料中主義原、從義原以及義原之間的動(dòng)態(tài)角色/特征(主義原:動(dòng)態(tài)角色/特征={從義原})被3個(gè)知識(shí)庫(kù)覆蓋的百分比,求10次的平均值。驗(yàn)證過(guò)程計(jì)算下列4種情況的百分比:
情況1:主義原、從義原以及動(dòng)態(tài)角色/特征完全被覆蓋,其中動(dòng)態(tài)角色是唯一的;
情況2:主義原、從義原被覆蓋,但是動(dòng)態(tài)角色/特征情況不唯一;
情況3:主義原、從義原被覆蓋,動(dòng)態(tài)角色/特征沒(méi)有被覆蓋;
情況4:主義原、從義原和動(dòng)態(tài)角色/特征都未被覆蓋。
結(jié)果見(jiàn)表1所示。
表1 500條描述信息被3種知識(shí)庫(kù)分別覆蓋情況
上述結(jié)果顯示,通過(guò)統(tǒng)計(jì)1 800條術(shù)語(yǔ)描述信息以及HowNet中的主義原、從義原以及動(dòng)態(tài)角色/特征來(lái)對(duì)其余500條術(shù)語(yǔ)描述信息進(jìn)行覆蓋,覆蓋程度能夠達(dá)到64.41%。
考慮到HowNet建設(shè)的一個(gè)重要特點(diǎn)就是自下而上歸納的方法,上一層義原涵蓋下一層義原。為了進(jìn)一步提高上述主從義原以及動(dòng)態(tài)角色/特征的被覆蓋程度,本文提出一種用上一層義原替換原有義原來(lái)進(jìn)行查找的策略。
例如:{handle|處理} {image|圖像}在1800句描述信息中義原對(duì)覆蓋不到,如果將從義原替換成上一層義原,義原對(duì)變?yōu)閧handle|處理} {information|信息},在1800條描述信息中就可以查找到。
替換策略包括以下3種
(1)將主義原替換成上一層義原;
(2)將從義原替換成上一層義原;
(3)主、從義原全部替換成上一層義原。
采用替換策略后,覆蓋程度從64.41%提高到了67.26%,對(duì)替換后仍未被覆蓋到的義原,本文采用人機(jī)交互的方式,將不影響術(shù)語(yǔ)概念的義原略去,將重要的義原手工填充到框架中。人機(jī)交互形式可操作性與靈活性強(qiáng),也可使構(gòu)建者隨時(shí)對(duì)內(nèi)容進(jìn)行修改。
最后,從本文提出的方法構(gòu)建的術(shù)語(yǔ)描述信息中隨機(jī)抽取100條,對(duì)方法的利用率作出統(tǒng)計(jì)。其中核心詞框架可以完全匹配或推薦的有82個(gè),超過(guò)80%的核心詞都可以找到與之匹配的框架。其中分詞結(jié)果去掉核心詞共包含322個(gè)詞,這些詞中通過(guò)規(guī)則自動(dòng)填充的共有115個(gè),通過(guò)統(tǒng)計(jì)策略自動(dòng)填充的共有111個(gè)。從統(tǒng)計(jì)的數(shù)量來(lái)說(shuō),70.2%的詞對(duì)應(yīng)的義原可以被自動(dòng)填充到核心詞框架中,自動(dòng)化程度有了很大的提高。
為了證明上述方法確實(shí)可行,本文采用文獻(xiàn)[15]提出的相似度計(jì)算方法對(duì)所構(gòu)建的1000條術(shù)語(yǔ)描述信息進(jìn)行兩兩相似度計(jì)算,并從中選取50組有代表性的術(shù)語(yǔ)組織10人進(jìn)行人工標(biāo)注,標(biāo)注過(guò)程中將兩個(gè)術(shù)語(yǔ)相似程度等級(jí)規(guī)定為0到5六個(gè)等級(jí),將所有標(biāo)注人員的標(biāo)注結(jié)果取平均值,并進(jìn)行歸一化處理,得到相似度的人工標(biāo)注結(jié)果。圖2是相似度的人工標(biāo)注結(jié)果和計(jì)算結(jié)果的對(duì)比圖。
圖2 相似度對(duì)比圖
通過(guò)圖2趨勢(shì)線可以看出,相似度計(jì)算的結(jié)果與人工標(biāo)注的結(jié)果趨勢(shì)大體一致。圖2中也可看出相似度計(jì)算結(jié)果比人工標(biāo)注結(jié)果略大,這主要因?yàn)橛?jì)算機(jī)的計(jì)算是按照義原層次,例如“貨艙高速滅火瓶”和“轉(zhuǎn)換選擇板”,因?yàn)榈谝涣x原都為“tool|用具”,它們都屬于“entity|實(shí)體”,因而計(jì)算機(jī)計(jì)算結(jié)果為0.823,但是人工標(biāo)注時(shí)覺(jué)得它們并沒(méi)有什么相似的地方,所以標(biāo)注結(jié)果為0.408。
表2給出2組有代表性的術(shù)語(yǔ)描述形式,具體的術(shù)語(yǔ)見(jiàn)表2所示。
將上述2組描述信息的相似度計(jì)算結(jié)果和人工標(biāo)注的相似度計(jì)算結(jié)果進(jìn)行對(duì)比,結(jié)果見(jiàn)表3所示。通過(guò)表3可以看出,人工標(biāo)注結(jié)果雖然和相似度計(jì)算結(jié)果有些差異,但是總體的趨勢(shì)是相似的。采用本文所提出的構(gòu)建方法進(jìn)行術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建,在提高自動(dòng)化程度的同時(shí),準(zhǔn)確程度也得到了保證,證明本文的方法確實(shí)可行。
表2 術(shù)語(yǔ)描述形式
表3 相似度計(jì)算結(jié)果
本文提出了一種基于HowNet的術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)輔助構(gòu)建的技術(shù),構(gòu)建了1000條航空術(shù)語(yǔ)描述信息,在保證準(zhǔn)確性的前提下,很大程度提高了構(gòu)建的效率。本文詳細(xì)介紹了術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建方法,包括對(duì)文獻(xiàn)[13]構(gòu)建規(guī)則的實(shí)現(xiàn)、術(shù)語(yǔ)核心詞框架的獲取、通過(guò)將規(guī)則與統(tǒng)計(jì)相結(jié)合的方法自動(dòng)填充核心詞框架,更為高效地構(gòu)建術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),從相似度計(jì)算結(jié)果可以看出這種輔助構(gòu)建方法取得了較好的效果。
本文所提出的構(gòu)建方法雖然提高了構(gòu)建的效率,但是在核心詞框架匹配過(guò)程中,框架不唯一或匹配不到的情況下,需要人為介入進(jìn)行選擇或添加;無(wú)法基于規(guī)則和統(tǒng)計(jì)方法進(jìn)行框架自動(dòng)填充的義原需要手工填充,自動(dòng)化程度還有提升的空間。下一步的工作要針對(duì)上述的特殊情況,加入一些新的符合航空術(shù)語(yǔ)的規(guī)則,進(jìn)一步提高術(shù)語(yǔ)知識(shí)庫(kù)輔助構(gòu)建系統(tǒng)的自動(dòng)化程度,同時(shí)還需要大規(guī)模的構(gòu)建術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù),從而滿足大數(shù)據(jù)時(shí)代對(duì)語(yǔ)義知識(shí)的大量需求,為面向特定領(lǐng)域的自然語(yǔ)言處理工作提供了豐富的知識(shí)庫(kù)資源。
[1]劉興林.詞匯語(yǔ)義知識(shí)庫(kù)淺述[J].福建電腦,2009,25(9):47-49.
[2]王瑩瑩,白宇,丁長(zhǎng)林,等.面向語(yǔ)義檢索的中醫(yī)理論知識(shí)庫(kù)自動(dòng)構(gòu)建方法的研究[J].中文信息學(xué)報(bào),2012,26(5):72-78.
[3]FELLBAUM C.WordNet:An Electronic Lexical Database[M].Cambridge,Massachusetts:MITPress,1999.
[4]BAKER CF,FILLLNORE CJ,LOWE JB.The berkeley frameNet project.In:morgan K ed.proeeedings of the coling-ACL’98[C].Montreal:ACL,1998.
[5]L?NNEKER-RODMAN,BIRTE,BAKER,COLLIN F.The frameNet model and its applications[J].Natural Language Engineering,2009,15(3):415-453.
[6]RICHARDSON STEPHEN D,DOLAN WILLIAM B,VANDERWENDE LUCY.MindNet:Acquiring and structuring semantic information from text[C].Proceedings of the 17th International Conference on Computational Linguistics,1998.
[7]FABIAN M,SUCHANEK,GJERGJI KASNECI,GERHARD WEIKUM.YAGO:A Core of Semantic Knowledge Unifying WordNet and Wikipedia[C].Ontologies,2007.
[8]YAGO2s:A High-Quality Knowledge Base[DB/OL].http://www.mpi-inf.mpg.de/yago-naga/yago/,2016-03-30.
[9]王迎春,蔡?hào)|風(fēng),葉娜.基于實(shí)體-屬性框架的領(lǐng)域知識(shí)庫(kù)構(gòu)建[J].沈陽(yáng)航空航天大學(xué)學(xué)報(bào),2011,28(2):69-73.
[10]董振東,董強(qiáng).知網(wǎng)[EB/OL].http://www.keenage.com,2016-03-30.
[11]ZHENDONG DONG,QIANG DONG.HowNet and the Computation of Meaning[M].SingaPore:World Seientific Press,2006.
[12]董振東,董強(qiáng).KDML-知網(wǎng)知識(shí)系統(tǒng)描述語(yǔ)言[DB/OL].http://www.keenage.com/html/e_i-ndex.html,2016-03-30.
[13]張桂平,刁麗娜,王裴巖.基于HowNet的航空術(shù)語(yǔ)語(yǔ)義知識(shí)庫(kù)的構(gòu)建[J].中文信息學(xué)報(bào),2014,28(5):92-101.
[14]劉金鳳.面向自然語(yǔ)言處理的漢語(yǔ)句子語(yǔ)義知識(shí)庫(kù)構(gòu)建研究[D].煙臺(tái):魯東大學(xué),2009.
[15]夏天.漢語(yǔ)詞語(yǔ)語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)工程,2007,33(6):191-194.
(責(zé)任編輯:吳萍英文審校:趙亮)
Construction techniques of terminology semantic knowledge base based on HowNet
WANG Yang-yang1,CHEN Gang2,CAI Dong-feng1,WANG Pei-yan1
(1.Human Machine Intelligence Research Center,Shenyang Aerospace University,Shenyang 110136,China;2.Sci-tech Department,AVIC Changhe Aircraft Industry(Group)Company Ltd,Jingdezhen 333000,China)
Knowledge base for specific domains can satisfy the knowledge requirements for the natural language processing system.However,most current work for building the domain knowledge base is hand-built and inefficient.To solve this problem,more than 2300 pieces of terminology describing information and the rules that have been formulated were analyzed.Then more than 200 semantic frameworks were summarized based on core word while the other words are filled to the frameworks according to the rule and the statistical results.Finally,the validness of the constructed knowledge base is demonstrated that good results are achieved in term of similarity calculation.
terminology;rule;statistic;semantic knowledge base
2015-12-11
國(guó)防基礎(chǔ)科研項(xiàng)目(項(xiàng)目編號(hào):A0520131003);遼寧省高校創(chuàng)新團(tuán)隊(duì)支持計(jì)劃(項(xiàng)目編號(hào):LT2014005)
王羊羊(1991-),女,遼寧鞍山人,碩士研究生,主要研究方向:自然語(yǔ)言處理,E-mail:wangyangyang0408@126.com;蔡?hào)|風(fēng)(1958-),男,河北霸縣人,教授,主要研究方向:人工智能、自然語(yǔ)言處理,E-mail:caidf@vip.163.com。
2095-1248(2016)04-0078-07
TP391.1
A
10.3969/j.issn.2095-1248.2016.04.014