吳佐衍,王宇
(大連理工大學(xué)管理科學(xué)與工程學(xué)院,遼寧大連116024)
詞語的相似度計算在信息檢索、信息抽取、文本自動分類、詞義消歧、機器翻譯等領(lǐng)域有著廣泛的應(yīng)用[1]。
目前詞語相似度算法可以分為兩種。一種是基于本體知識的方法。這種方法是根據(jù)人類對概念的理解,將詞語構(gòu)建成具有語義關(guān)系的詞典或語義網(wǎng)絡(luò),利用概念節(jié)點之間的關(guān)系、語義距離、層次深度、密度等度量詞語相似度。例如,基于WordNet,Wu和Palmer使用最近祖先概念節(jié)點來計算兩個概念節(jié)點相似度[2],Rada用兩個概念節(jié)點的最短路徑長度來衡量相似度[3],Leacock在Rada的基礎(chǔ)上加入了概念節(jié)點的深度影響[4];基于HowNet和同義詞詞林,劉群等分別提出了相應(yīng)的漢語詞語的相似度算法[1,5-9]。這種方法具有簡單有效的優(yōu)點,但它依賴于詞典的建設(shè),存在人為的主觀性影響。另一種是利用大規(guī)模的語料庫進行統(tǒng)計。這種方法通過計算兩個詞語在同一上下文共現(xiàn)的概率來度量詞語的相似度。例如,Ricardo通過詞語的共現(xiàn)分析計算相似度[10];Lin等利用兩個概念共同擁有的信息量來度量相似度[11]。該方法能夠較好地反應(yīng)出詞語相似度,但計算量大,且計算方法復(fù)雜。
本文是以HNC理論為語義知識來源,進行詞語的語義相似度計算。HNC理論是中國科學(xué)院聲學(xué)研究所黃曾陽先生提出的,以語義表達為基礎(chǔ),融語義、語法、語用為一體,通過詞匯和語句兩個聯(lián)想脈絡(luò)來“幫助”計算機理解自然語言[12]。利用HNC理論的概念聯(lián)想脈絡(luò)就可以非常容易地發(fā)現(xiàn)詞語之間的語義相關(guān)性,也可以容易地給出其量化的數(shù)值[13]。
目前使用HNC理論進行詞語語義計算中,晉耀紅[14]利用語義相似度進行語義塊的切分和組合;宋培彥[15]利用HNC構(gòu)造中文詞匯鏈時,只利用兩個詞語HNC符號的相同部分來求相似度;史燕[16]充分利用概念內(nèi)涵和五元組,但忽略概念類別對相似度的影響。
為了充分利用HNC的語義信息,提高計算結(jié)果的準確性,本文利用HNC概念表達方式和概念HNC符號映射的特點,提出了基于HNC的字詞的相似度計算方法,該方法綜合概念內(nèi)涵、概念外部特征、概念類別和組合符號來計算詞語間的相似度。
HNC理論是面向整個語言理解的理論框架,是中文信息處理的三個流派之一[17]。該理論通過建立局部和全局兩個聯(lián)想脈絡(luò)來描述大腦認知結(jié)構(gòu)的模式,局部聯(lián)想脈絡(luò)是詞匯層面的聯(lián)想,體現(xiàn)為一個概念表述體系,這個體系把概念分為抽象概念和具體概念,對抽象概念的外部特征使用五元組(v,g,u,z,r),即動態(tài)、靜態(tài)、屬性、值和效應(yīng)五個側(cè)面來表達;對抽象概念的內(nèi)涵使用語義網(wǎng)絡(luò)來表達;對具體概念采取掛靠展開近似表達方法[12]。
語義網(wǎng)絡(luò)是樹狀的分層結(jié)構(gòu),樹的每個節(jié)點代表一個概念,即概念基元,每棵樹的概念節(jié)點形成一個概念聚類,每個子樹節(jié)點概念形成一個子類[12]。樹中任意節(jié)點的層次符號都可以通過從概念層次樹的根節(jié)點開始、到該節(jié)點的一串數(shù)字符號唯一地確定。這棵樹稱為概念層次樹,可以形式化為:CT(ss,node)。其中:ss表示具有獨立層次符號設(shè)計概念的語義網(wǎng)絡(luò)符號,ss∈{φ,j,l,jl,s,f,wj,pj,jw};node表示節(jié)點符號集,是0~e為十六進制整數(shù)[18],若cp為概念基元,則cp∈CT。
HNC理論采用形式化的方法描述語言概念空間,即通過概念基元符號體系與自然語言的詞語建立語義映射關(guān)系。HNC符號映射理論就是根據(jù)詞語的語義,選擇恰當?shù)母拍罨臀逶M用適當?shù)慕M合符號連接成HNC符號。該理論對自然語言概念的符號化表述可以一般化為[12]:Σ{類別符號串}{層次符號串}{組合結(jié)構(gòu)符號}{類別符號串}{層次符號串}
上式的BNF范式[14]如下:
<概念>::=={<概念表示>[<組合符號><概念表示>]}
<組合符號>::==‘?!纭Α?,’‘;’|‘!’|‘^’|‘(,lm,)’|‘/’|‘‖’
<概念表示>::==<語義網(wǎng)絡(luò)符號>+<五元組>+<語義符號>
<語義網(wǎng)絡(luò)符號>::==?|j|l|jl|s|f,h,q|x|p|w|jw
<五元組>::=={v|g|u|z|r}
<語義符號>::=={[<本體層符號>]+<高層符號>+[<中底層符號>]}
<本體層符號>::==500|52|53|9|c|6y(y=0~5)
Dekang Lin認為兩個對象的相似度取決于他們之間共性和差別,兩個對象的共性越多,則相似度越大[11];而兩個對象之間的差異越多,則相似度越小。當兩個對象是同一對象時,相似度達到最大。當兩個事物無關(guān)或獨立時,則相似度最小。Wu和Palmer認為最近公共祖先概念節(jié)點是概念節(jié)點c1,c2共性的重要因素,提出下列相似度計算的公式[2],如式(1)所示。
其中:cp是概念節(jié)點c1和c2最近公共祖先節(jié)點。
基于實例的機器翻譯中,文獻[1]提出詞語相似度是兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度。在下文中,我們分別借鑒Wu的最近公共祖先概念節(jié)點是概念節(jié)點共性的重要因素和文獻[1]整體相似度由部分相似度合成的思想。
詞語相關(guān)性和詞語相似性又有著密切的聯(lián)系。如果兩個詞語非常相似,那么這兩個詞語的相關(guān)性也會非常接近。同理,如果兩個詞語的特點相關(guān)且很接近,那么這兩個詞語一般也具有較高的相似度[1]。
通過上文的介紹,我們知道字詞的語義信息是通過HNC映射符號來描述的,而該符號由概念基元、五元組、語義網(wǎng)絡(luò)符號和組合符號組成。以“采納”為例,其在HNC字詞知識庫中只有一個義項,HNC映射符號為“(v9380,v9218)”。由兩個概念表示“v9380”和“v9218”通過“邏輯或”組合符號“,”組合而成(此處兩個概念表示都省略了基元概念符號?)。概念表示“v9380”的意義如表1所示。因此,本文提出了基于HNC理論計算字詞相似度的主要思想:基于HNC理論表達概念的方式和特點,根據(jù)HNC映射符號的編碼規(guī)則,充分利用HNC符號中的語義信息,綜合概念內(nèi)涵、概念類別、概念外在多元性表現(xiàn)和組合符號來計算字詞的相似度。
表1 v9380符號意義
為了便于下文對概念基元進行相似度計算,首先給出以下兩個定義。
定義1 概念基元的語義重合度:指兩個概念基元cp1和cp2包含相同上位概念節(jié)點的個數(shù)。在實際計算中,可以轉(zhuǎn)化為兩個概念節(jié)點的最低公共父節(jié)點所在的層次深度,記為dept(cpp),其中cpp是他們的最低公共父節(jié)點;dept是層次深度,規(guī)定根節(jié)點的層次深度為1。
定義2 概念基元的語義距離:指連接兩個概念基元cp1和cp2之間最短路徑的長度,記為dist(cp1,cp2)。
概念基元是概念層次樹中的節(jié)點,是語義描述的基本單位。HNC概念層次樹具有良好的樹狀結(jié)構(gòu),圖1為基元概念層次樹的局部結(jié)構(gòu)圖。HNC概念層次符號的構(gòu)造方式把最頻繁、最基本的語義計算變成了對層次符號的簡單逐層比較[12]。因此,概念基元符號的構(gòu)造方式?jīng)Q定了使用語義重合度來表示兩個概念基元的語義相似度;若兩對概念的最低公共父節(jié)點一樣,則相似度也一樣,但他們在概念層次樹中這兩個概念節(jié)點的最短路徑所跨的邊數(shù)并不一樣。例如,“經(jīng)濟”與“文化”語義距離為2,“經(jīng)濟”與“文學(xué)”的語義距離為3,其最低公共父節(jié)點都為“專業(yè)活動”。因此,概念基元的語義距離也需要考慮。由于概念層次樹自頂向下,概念基元的分類由大到小,大類間概念基元的相似度一般要小于小類的。因此,兩個概念基元最低公共父節(jié)點和語義距離都相同時,其相似度與兩個概念基元所處層次深度和成正比,與兩個概念基元的層次深度差成反比。
圖1 基元概念層次樹的局部結(jié)構(gòu)圖
綜合概念基元語義重合度、語義距離和層次深度對兩個概念基元相似度的影響,本文提出處于同一概念層次樹下的任意兩個概念基元cp1,cp2的語義相似度如式(2)所示。
其中:參數(shù)β1>1>β2≥0,且β1,β2分別表示兩個概念基元的語義重合度和層次深度差對概念基元相似度的影響,當β1=2,β2=0時,式(2)與式(1)相同;dist(cp1,cp2)+β1×dept(cpp)體現(xiàn)了兩個概念基元的層次深度和;hc(cp1,cp2)=dept(cp1)-dept(cp2)為兩個概念基元的層次深度差;max最小值取是為防止出現(xiàn)sim的錯誤;分子是為了歸一化的需要。
HNC理論將概念分為抽象概念、具體概念和兩可概念。兩可概念兼具有抽象概念和具體概念的特征。對抽象概念設(shè)置了五種類別基元:基元概念、基本概念、語言邏輯概念、“語法”概念和綜合類概念,分別用符號?,j,l,f,s表示;對具體概念設(shè)置兩個概念基元:人和物,用符號p和w表示;以及兼具有抽象概念和具體概念雙重特性的物性概念x。HNC通過語義網(wǎng)絡(luò)符號和五元組的組合來表示概念類別,概念類別相似度為式(3)。
其中:cci表示概念類別,且p,jw和w表示具體概念,其他都是抽象概念;網(wǎng)絡(luò)符號中p是人,jw和w是物。
抽象概念需要從動態(tài)、靜態(tài)、屬性、值和效應(yīng)五個側(cè)面加以表達,這就是抽象概念的五元組特性,簡記為:(v,g,u,z,r),它們是抽象概念外在多元性表現(xiàn)的基元。在自然語言中,表達抽象概念的詞語必定是從五元組的某個或某幾個側(cè)面來表達某個抽象概念,五元組是詞性的本質(zhì)內(nèi)容,是詞性的基元[12]。例如,“思考和思維”就是從五元組的vg,g側(cè)面對同一概念內(nèi)涵的表達。當兩個概念表示的外部特征都表現(xiàn)為五元組的某一個或幾個相同的側(cè)面時,則兩個概念表示外部特征的相似度為1。因此,兩個概念表示的五元組集合分別為ep1和ep2,則兩個概念表示外部特征的相似度為式(4)。
其中:epi為五元組的集合,且epi?{u,g,v,z,r}。
綜合前面所述,在3.1~3.3節(jié)的基礎(chǔ)上,本文提出兩個概念表示cr1,cr2的相似度為概念基元、概念外在表現(xiàn)和概念類別相似度的合成,如式(5)所示。
其中:δ1+δ2+δ3=1,且δ1>δ2>δ3,δ1,δ2,δ3分別為對應(yīng)計算的權(quán)重。
公式(5)由概念基元、五元組和概念類別三項組成。其中概念類別是針對HNC概念分類的特點而設(shè)計的;同時,本文認為五元組只是概念的外在表現(xiàn)形式,相同內(nèi)涵的概念可以具有不同的表現(xiàn)形式,例如主宰vg441和權(quán)利rc441是概念441的不同表現(xiàn)形式。因此,概念的相似度是通過概念內(nèi)涵和概念外在表現(xiàn)的五元組相似度以加權(quán)的形式共同決定的;概念基元的相似度主要通過語義重合度度量。綜上所述,通過考慮概念類別和重新定義概念基元的相似度計算方式,使本文取得比文獻[16]更合理的結(jié)果。
兩個詞語w1,w2在HNC知識庫中不同義項的HNC映射符號的集合為HNC1,HNC2。即:
其中:hnc1i表示詞語在詞語知識庫中的義項;p,q表示兩個詞在HNC知識庫中的義項數(shù)。
本文采用文獻[1]計算知網(wǎng)詞語相似度的思想,兩個詞語的相似度等于其所有義項之間相似度的最大值,如式(6)所示。
其中:sim(hnc1i,hnc2j)是兩個義項hnc1i,hnc2j的相似度,由式(7)計算得到,即:
其中:權(quán)重數(shù)組Az=(az1,az2,…),z=1,2,數(shù)組中元素與概念基元一一對應(yīng),表示概念基元在相似度計算中的權(quán)重,該數(shù)組根據(jù)下文介紹的式(8)~(11)求出。
權(quán)重數(shù)組的數(shù)值是根據(jù)不同的組合符號及其優(yōu)先級來確定的。概念的組合符號都有明確的意義,在計算時必須將其轉(zhuǎn)化為數(shù)值。文獻[13]給出不同組合符號的運算式,但有些式子的結(jié)果大于1。為了使概念間的相似度總是小于等于1,本文對其進行了改進,改進后的運算式為(8)~(11),組合符號“非”和“反”的權(quán)重分別為λ10,λ11。表達式中的sim表示相似度計算函數(shù),其結(jié)果是0~1的數(shù)值,csi和csij分別表示概念組合符號的作用域,它是一個概念基元或其組合。例如,cs1為wj2-000+v661,cs11為wj2-000,cs12為v661。
(1)作用組合符號“?!?,前者是主體,后者是此作用的效應(yīng)。例如,采掘是一種“基本勞作”,即“v961”,產(chǎn)生的效應(yīng)是“入”,即“v201”,其HNC映射符號為“v961#v201”;效應(yīng)組合符號“$”,后者是主體,前者是產(chǎn)生這個效應(yīng)的作用;對象組合符號“&”,前后都是主體,后者是前者的對象;內(nèi)容組合符號“|”,前后都是主體,后者是前者的內(nèi)容;偏正組合符號“/”,后者是主體,前者是對后者的修飾,可以作為對本概念修飾成分的預(yù)期;主謂組合符號“‖”,后者是主體,前者可以作為后者的主語。這些組合符號的運算式可統(tǒng)一表示為式(8)。
其中:cs1-cs11stcs12,st表示組合符號,且st∈ST={#,$,&,|,/,‖};λi表示組合符號對概念相似度的影響,當i=1,2,…,6時,分別表示作用、效應(yīng)、對象、內(nèi)容、偏正和主謂。
(2)一般邏輯組合“(,lmn,)”,前者是主體,后者是對前者工具或方法等的說明。例如,“直播”的HNC符號“(vc23aa,l11,su1021)”。其運算式為式(9)。
其中:cs1=(cs11,lmn,cs12)。
(3)展開組合符號“+”,表示逐步逼近。例如,“v93219”表示保護,它是對“包庇”的一級近似,其運算式為式(10)。
其中:cs1=cs11+…+cs1n。
(4)邏輯與組合符號“;”,其運算式如式(11)所示。
其中:cs1=cs11+…+cs1n。
(5)HNC層次符號有本體層與掛靠層之分,是抽象概念的一種表達方式,本體層體現(xiàn)概念表達的一類特定需要[11]。對抽象概念來說,本體層類型有基元概念的500,52,53,6m,9,c(m=0~5)和語言邏輯概念。對概念表示層次符號中存在以上類型的本體層時,其運算如式(12)所示。
其中:0<θ≤1;cs1=cs11cs12,cs11為本體層,cs12為掛靠層。
基于HNC詞語相似度計算的步驟:
步驟一:輸入兩個詞語w1,w2;
步驟二:在詞語知識庫中查找這兩個詞語的HNC映射符號集合HNC1和HNC2,用hnc1i和hnc2j分別表示HNC1第i個,HNC2第j個義項的HNC映射符號,其中1≤i≤m,1≤j≤n,m和n分別表示兩個詞語在詞語知識庫中的義項數(shù);
步驟三:將hnc1i和hnc2j分解為概念表示數(shù)組CR1i和CR2j,則cr1ik和cr2jt分別是CR1i和CR2j的第k和第t個元素,1≤k≤p,1≤j≤n,且p和q為hnc1i,hnc2j組合符號數(shù)加1;
步驟四:用式(5)求數(shù)組CR1i,CR2j中任意兩個概念表示cr1ik,cr2jt的相似度sim(cr1ik,cr2jt);
步驟五:根據(jù)式(7)求出兩個詞語各個義項的相似度sim(hnc1i,hnc2h);
步驟六:最后根據(jù)式(6)求出兩個詞語的相似度sim(w1,w2)。
我們選取幾組典型的詞語與文獻[1]和文獻[16]的方法進行比較。方法1是基于知網(wǎng)的詞語相似度算法;方法2是基于HNC的方法;方法3是本文提出的方法;方法4是人主觀判斷的相似度。通過實驗驗證本文方法在計算字詞相似度的有效性和合理性。實驗中的參數(shù)設(shè)置如表2所示,實驗結(jié)果如表3所示。
表2 實驗參數(shù)設(shè)置
表3 實驗結(jié)果
觀察表3,方法1、方法2和方法3在表中前半部分(第1~13組)相似度的數(shù)值結(jié)果較為一致,但后半部分(第14~25組)結(jié)果卻差別較大。同時可看出,方法2和方法3的數(shù)值結(jié)果具有較高的一致性,且總體上大于方法1。這是因為方法2和方法3運用了基于HNC理論來計算詞語的相似度,HNC理論在構(gòu)造概念的符號表達式時,考慮概念間的關(guān)聯(lián)性知識。若兩個概念的內(nèi)涵相同或相似,則賦予它們相同或相似的層次符號。例如,“采納”和“采用”有相同的層次符號“v9380”。
在方法1中,第11~15組詞語的相似度都為1,而在方法2和方法3中,相似度在0.5~0.9之間,這與實際情況相符合。例如,“力”和“力量”都為抽象概念,力量為力的效應(yīng)物,是力的一種度量,它們的語義并不完全相同。在本文的方法中,這兩個詞的HNC映射符號分別為“g008”和“gz00”,其中g(shù),z為五元組,表示靜態(tài)和值,是概念外部特征;基元概念“008”,“00”分別表示“物理作用”和“作用”。兩個詞具有相似的內(nèi)涵,因此具有較高的相似度,方法3求出的相似度為0.778 324較為合理。
在方法1中,第22~25組的相似度都很低,從認知的角度來說具有不合理性。例如,《新華字典》中“改變”和“改善”的釋義分別為:“變化,事物產(chǎn)生顯著的差別”;“改變原有情況使比較好一些”,即改善是往好方向的改變,說明這兩個詞應(yīng)該具有較高的相似度。方法1中它們的相似度只有0.166 667。在HNC中,抽象概念“改善”和“改變”具有相同的外部特征v,都是一種效應(yīng),因而,這兩個詞語具有較高的相似度。在方法3中它們相似度為0.514 367,更符合這組詞語間的語義關(guān)系。
在方法1~3中,“男人”和“正”的相似度差別很大,原因之一是HNC對具體概念采用掛靠表達方式,在具體和抽象概念之間建立一種關(guān)聯(lián)的符號表示。例如,“j711”和“j712”表示正負,則“pj711”和“pj712”表示男女。因此,“男人”和“正”之間具有相同的概念基元“j711”,所以在基于HNC方法中,它們具有較高的相似度。
方法2沒有考慮兩個詞語概念類別的相似度,而且將五元組是否相似作為兩個詞語是否相似的前提。因此,很多對詞語的相似度為0。例如,第24組實驗,這對詞語雖然具有相同概念基元“441”,但是它們五元組的相似度為0。
目前對詞語相似度還沒有形成統(tǒng)一的規(guī)范,比較兩個字詞之間的相似程度更多的是根據(jù)人為的直覺感觀。而方法1、方法2和方法3采用兩種不同的知識表示體系,方法1是基于知網(wǎng)的,方法2和3是基于HNC理論的。為了更好地比較兩者在計算詞語有效性和合理性,本文請大連理工大學(xué)信息管理實驗室的8位同學(xué),獨立的給出每組詞語的相似度,把得到的數(shù)值去掉最高分和最低分,取平均值,結(jié)果為表3中的方法4。
為了量化分析和比較各種方法計算詞語相似度與人工判斷的一致性,我們定義如下概念。
定義3:設(shè)Simi和Subi分別表示算法計算和人主觀判斷的第i對詞語的語義相似度,則:對于第i對詞語,算法計算結(jié)果與人主觀判斷結(jié)果的差為Ei,如式(13)所示。
其中α為閾值,表示Ei超過α?xí)r,Ei=1。
定義4:算法結(jié)果與人主觀判斷結(jié)果的兼容度Compat如[19]式(14)所示。
其中,Ei為算法計算結(jié)果與人主觀判斷結(jié)果的差;N為樣本詞語的組數(shù);Compat表示算法計算與人主觀判斷相似度的吻合程度。
本文使用參數(shù)α=0.3和α=Subi求各算法與人主觀判斷的兼容度,結(jié)果如表4所示,且前者閾值固定和后者為人工判斷的相似度。
由表4可知,基于HNC計算詞語相似度與人主觀判斷具有較高的吻合度;在兩組實驗中,本文方法都取得最好的效果,分別為80.3%和84.1%,這說明本文方法與人的直觀判斷基本一致。
表4 各個算法與人主觀判斷的兼容度
本文以HNC理論為基礎(chǔ),提出了詞語語義相似度的計算方法,該方法充分利用了HNC建立的具有語義信息的概念表達符號體系。根據(jù)HNC表達概念的特點,提出詞語的語義相似度是通過概念內(nèi)涵、概念外部特征、概念類別和組合符號來表達的?;谝陨嫌^點,構(gòu)建基于HNC的詞語相似度計算公式,并通過實驗對比分析驗證了該方法的準確性和合理性。目前,HNC的理論也在不斷完善與發(fā)展,它為計算機理解和處理中文語義提供了很好的平臺。在以后的研究工作中,可進一步利用層次符號中的中層符號的特點和不同概念層次樹之間的關(guān)聯(lián)性知識,設(shè)計更加合理的詞匯相似度計算方法。
[1] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[C]//臺北:第三屆漢語詞匯語義學(xué)研討會.2002:59-76.
[2] Wu Z,Palmer M.Verb semantics and lexical selection[C]//Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,1994:133-138.
[3] Rada R,Mili H,Bieknell E,et al.Development and application of a metric on semantic nets[J].IEEE Transactions on Systems,Man and Cybernetics,1989,19(1):17-30.
[4] Leacock C,Chodorow M.Combining Local Context and WordNet Similarity for Word Sense Identification[J].An Electronic Lexical Database.1998:265-283.
[5] 李峰,劉芳.中文詞語語義相似度計算——基于《知網(wǎng)》2000[J].中文信息學(xué)報,2007,21(3):99-105.
[6] 劉青磊,顧小豐.基于《知網(wǎng)》的詞語相似度算法研究[J].中文信息學(xué)報,2010,24(6):31-37.
[7] 張亮,伊存燕,陳家郡.基于語義樹的中文詞語相似度計算與分析[J].中文信息學(xué)報,2011,24(6):23-29.
[8] 梅立軍,周強,臧路,等.知網(wǎng)與同義詞詞林的信息融合研究[J].中文信息學(xué)報,2005,1(19):63-70.
[9] 田久樂,趙蔚.基于同義詞詞林的詞語相似度計算方法[J].吉林大學(xué)學(xué)報,2010,28(6):602-608.
[10] Ricardo,Berthier.Modern Information Retrieval[M].ACM Press/Addison-Wesley,1999.
[11] Lin D.An Information-Theoretic Definition of Similarity Semantic Distance in WordNet[C]//Proceedings of the Fifteenth International Conference on Machine Leaning.San Francisco,USA:Morgan Kaufmann Publishers Inc.1998:296-304.
[12] 黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論—計算機理解語言研究的新思路[M].北京:清華大學(xué)出版社,1998:11-43.
[13] 張運良,張全.基于HNC理論的語義相關(guān)度計算方法[J].計算機工程與應(yīng)用,2005,41(34):14-18.
[14] 晉耀紅.HNC(概念層次網(wǎng)絡(luò))語言理解技術(shù)及其應(yīng)用[M].北京:科學(xué)出版社,2006:50-55.
[15] 宋培彥.基于語義網(wǎng)絡(luò)的中文詞匯鏈構(gòu)造方法[J].圖書情報工作.2011,55(22):26-29.
[16] 史燕.基于HNC的漢語句子相似度算法的研究[D].江蘇:江蘇大學(xué)碩士學(xué)位論文,2009.
[17] 許嘉璐.現(xiàn)狀和設(shè)想——試論中文信息處理與現(xiàn)代漢語研究[J].中國語文,2000,(6):490-496.
[18] 何婷婷.語料庫研究[D].武漢:華中師范大學(xué)博士學(xué)位論文,2003.
[19] 趙巾幗.基于語義距離的概念語義相似度研究[D].湖南:中南大學(xué)碩士學(xué)位論文,2008.