趙靜 黨麗瓊
摘 要: 基于自然語(yǔ)言理解的相似度計(jì)算仍是計(jì)算機(jī)語(yǔ)言處理技術(shù)尚需深入研究的內(nèi)容。通過在“知網(wǎng)”知識(shí)表示的基礎(chǔ)上,綜合考慮深度和密度兩方面的影響因素,利用一種較為成熟的改進(jìn)的多因素語(yǔ)義相似度處理算法,基于全文檢索匹配技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)限定領(lǐng)域內(nèi)的在線答疑系統(tǒng)。實(shí)例運(yùn)行結(jié)果表明,系統(tǒng)可靠性較高,且答疑效果較為明顯,達(dá)到了預(yù)期目標(biāo)。
關(guān)鍵詞: 自然語(yǔ)言理解; 語(yǔ)義相似度; 全文檢索; 在線答疑系統(tǒng)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)05-10-03
Abstract: The similarity calculation based on natural language understanding is still a research content of the computer language processing technology. Based on the knowledge representation of "HowNet", considering the both factors of depth and density, by using a more sophisticated multivariate semantic similarity algorithm, and with a full-text search matching technology, an online answer system in the limited field is designed and implemented. The experimental results show that, the system is reliable, the answer effect is more obvious, and the desired goal is achieved.
Key words: natural language understanding; semantic similarity; full text retrival; on-line answer system
0 引言
隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,傳統(tǒng)的教學(xué)手段已不能滿足當(dāng)前大信息量的教學(xué)內(nèi)容需求,因此,創(chuàng)造一個(gè)在教師指導(dǎo)和引導(dǎo)下學(xué)生自主式學(xué)習(xí)的智能系統(tǒng)平臺(tái)很有必要。智能的網(wǎng)絡(luò)答疑系統(tǒng)可以利用自然語(yǔ)言處理技術(shù)對(duì)學(xué)生的疑問進(jìn)行自動(dòng)匹配處理,它的出現(xiàn)為網(wǎng)絡(luò)教學(xué)提供了交互的情境,成為支持網(wǎng)絡(luò)教學(xué)順利進(jìn)行的重要條件。智能網(wǎng)絡(luò)答疑系統(tǒng)是傳統(tǒng)課堂教學(xué)的重要補(bǔ)充,并逐漸在學(xué)生學(xué)習(xí)、認(rèn)知、再學(xué)習(xí)這樣一個(gè)閉環(huán)的學(xué)習(xí)過程中發(fā)揮著舉足輕重的作用[1]。
1 設(shè)計(jì)思想及算法原理
基于計(jì)算機(jī)自然語(yǔ)言處理技術(shù),充分利用校園網(wǎng)絡(luò)資源,通過人機(jī)互動(dòng)等豐富信息表現(xiàn)形式,實(shí)現(xiàn)一個(gè)智能的、高效的基于自然語(yǔ)言理解的專業(yè)課程自動(dòng)答疑系統(tǒng)。系統(tǒng)設(shè)計(jì)的關(guān)鍵是如何實(shí)現(xiàn)快速、高效的智能搜索答案。該過程實(shí)際上類似于一個(gè)搜索引擎,其核心就是構(gòu)建一個(gè)結(jié)構(gòu)合理、具有完整豐富內(nèi)容的知識(shí)庫(kù),并能夠在自然語(yǔ)言理解的基礎(chǔ)上,快速、準(zhǔn)確的完成自動(dòng)答疑工作?;谧匀徽Z(yǔ)言理解的在線答疑系統(tǒng)中兩個(gè)關(guān)鍵技術(shù)分別是:中文分詞技術(shù)和相似度計(jì)算。
1.1 中文分詞技術(shù)
自然語(yǔ)言理解(Natural Language Understanding,簡(jiǎn)稱NLU)研究如何讓計(jì)算機(jī)理解和運(yùn)用人類的自然語(yǔ)言,使得計(jì)算機(jī)懂得自然語(yǔ)言的含義,并對(duì)人給計(jì)算機(jī)提出的問題,通過人機(jī)對(duì)話(man-machine dialogue)的方式,用自然語(yǔ)言進(jìn)行回答。為了使計(jì)算機(jī)系統(tǒng)能夠較好地理解用戶提出的問題,首先需要對(duì)問題進(jìn)行處理,這一過程最先用到的最為關(guān)鍵的技術(shù)就是分詞技術(shù)【2,3】。由于中英文之間的語(yǔ)言組織、詞法結(jié)構(gòu)不同,使得中文分詞一直以來成為制約中文自然語(yǔ)言處理的主要因素。而中文文本中,只是字、句和段之間可以通過明顯的分界符來簡(jiǎn)單劃界,詞與詞之間沒有天然的分隔符,中文詞匯大多是由兩個(gè)或兩個(gè)以上的漢字組成,并且語(yǔ)句是連續(xù)書寫的。這就要求在對(duì)中文文本進(jìn)行自動(dòng)分析之前,先將整句切割成小的詞匯單元,即中文分詞(或中文切詞),相比英文語(yǔ)句處理,中文分詞難度更大。
從算法處理上看,目前主要有三種【4-6】:一是基于詞典的分詞方法,它使用機(jī)器詞典作為分詞依據(jù),分詞效率高,目前應(yīng)用范圍較廣;二是基于統(tǒng)計(jì)的分詞方法,它是利用統(tǒng)計(jì)方法,通過對(duì)大規(guī)模文本的統(tǒng)計(jì),讓計(jì)算機(jī)自動(dòng)判斷的方法,該方法使系統(tǒng)資源開銷較大;三是基于人工智能的分詞方法,如專家系統(tǒng)和神經(jīng)網(wǎng)絡(luò)分詞方法等,這類方法目前尚處于實(shí)驗(yàn)室階段,尚未投入實(shí)際應(yīng)用。
1.2 相似度處理技術(shù)
相似度計(jì)算在自然語(yǔ)言處理、智能檢索、文本聚類、文本分類、自動(dòng)應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用[7]。其計(jì)算方法按照基于規(guī)則和統(tǒng)計(jì)分為兩種情況:一是根據(jù)某種世界知識(shí)(如Ontology)來計(jì)算,主要是基于按照概念間結(jié)構(gòu)層次關(guān)系組織的語(yǔ)義詞典的方法,根據(jù)在這類語(yǔ)言學(xué)資源中概念之間的上下位關(guān)系和同位關(guān)系來計(jì)算詞語(yǔ)的相似度[8];二是利用大規(guī)模的語(yǔ)料庫(kù)進(jìn)行統(tǒng)計(jì),這種基于統(tǒng)計(jì)的方法主要將上下文信息的概率分布作為詞匯語(yǔ)義相似度的參照依據(jù)[9]。
⑴ 常用語(yǔ)義詞典
對(duì)于基于語(yǔ)義詞典的相似度計(jì)算方法,由于存在計(jì)算簡(jiǎn)單、基礎(chǔ)條件低、假設(shè)條件易于滿足等優(yōu)點(diǎn),受到越來越多研究者的歡迎。常用語(yǔ)義詞典主要有[10-12]:WordNet、FrameNet、MindNet、知網(wǎng)(HowNet)、同義詞詞林、中文概念詞典(CCD),以及敘詞表、領(lǐng)域概念網(wǎng)、概念圖等概念網(wǎng)絡(luò)結(jié)構(gòu)。本文對(duì)于相似度的計(jì)算主要是基于知網(wǎng)(HowNet)結(jié)構(gòu)。其概念結(jié)構(gòu)如圖1所示。
⑵ 相似度計(jì)算
與概念相似度密切相關(guān)的一個(gè)概念是語(yǔ)義距離(semantic distance)。在一棵樹形圖中,任何兩個(gè)節(jié)點(diǎn)之間有且只有一條路徑,在計(jì)算語(yǔ)義相似度的時(shí)候,這條路徑的長(zhǎng)度就可以作為這兩個(gè)概念的語(yǔ)義距離的一種度量,通常認(rèn)為它們是概念關(guān)系特征的不同表現(xiàn)形式,兩者之間可以建立一種簡(jiǎn)單概念詞相似度用來描述概念樹中兩個(gè)節(jié)點(diǎn)之間的語(yǔ)義接近程度,一般最常用的是劉群提出的以《知網(wǎng)》為基礎(chǔ)的相似度計(jì)算方法[13]:
式⑴中,p1和p2表示兩個(gè)概念節(jié)點(diǎn),dis(p1,p2)是樹狀結(jié)構(gòu)中兩節(jié)點(diǎn)間的最短距離,α是一個(gè)調(diào)節(jié)參數(shù),表示相似度為0.5時(shí)的路徑長(zhǎng)度。
文獻(xiàn)[14,15]綜合考慮深度與密度因素,提出了多因素義原相似度計(jì)算方法:
式⑵中,h為義原樹深度,l為L(zhǎng)CN層次,LCN為最小公共父節(jié)點(diǎn)。
文獻(xiàn)[16]認(rèn)為該方法存在兩點(diǎn)不足:一是該式僅把相似度取為密度、深度因素的算術(shù)平均值,顯然對(duì)于概念節(jié)點(diǎn)分布不均的情況不夠合理;二是該式?jīng)]有對(duì)密度、深度兩者的影響程度進(jìn)行分析,這樣對(duì)他的使用范圍受到了限制?;诖丝紤],提出了改進(jìn)的語(yǔ)義相似度計(jì)算方法:
式⑶中,l(p1,p2)為分別遍歷概念網(wǎng)中節(jié)點(diǎn)p1,p2到達(dá)其最小公共父結(jié)點(diǎn)所歷經(jīng)的父結(jié)點(diǎn)(包括最小公共父結(jié)點(diǎn))數(shù)的最大值。w(p1,p2)為p1,p2所在層概念數(shù)的最大值。算法關(guān)鍵部分引進(jìn)了一個(gè)調(diào)節(jié)參數(shù)λ(p1,p2),并保證在該參數(shù)的作用下,當(dāng)節(jié)點(diǎn)p1,p2所在層概念數(shù)較多,即w(p1,p2)增大時(shí),密度因素對(duì)相似度的貢獻(xiàn)值大;而當(dāng)p1,p2離最小公共父結(jié)點(diǎn)較遠(yuǎn),即l(p1,p2)增大時(shí),深度因素對(duì)相似度的貢獻(xiàn)值較大。同時(shí)算法約定,當(dāng)p1,p2的父結(jié)點(diǎn)和最小公共父結(jié)點(diǎn)相同,且同層只有p1,p2兩個(gè)節(jié)點(diǎn)時(shí),調(diào)節(jié)參數(shù)為0.5。該方法即為本文在相似度計(jì)算方面采用的算法模型。
2 模型設(shè)計(jì)
下面我們參考文獻(xiàn)[17],按照一般教師對(duì)于問題的處理方式,在上述概念語(yǔ)義相似度計(jì)算的基礎(chǔ)上,從計(jì)算機(jī)建模層面上給出計(jì)算機(jī)自動(dòng)答疑模型的建模過程。
Step1:計(jì)算條件
已知標(biāo)準(zhǔn)問題庫(kù)A可以表示為關(guān)鍵詞序列:A=(a1,a2,…,an);學(xué)生提問B可以表示為關(guān)鍵詞序列:B=(b1,b2,…,bn)。
Step2:相似度計(jì)算
⑴ 知識(shí)點(diǎn)關(guān)鍵詞信息提取
該問題的處理主要通過提取學(xué)生問題中每一個(gè)關(guān)鍵詞,對(duì)照系統(tǒng)知識(shí)庫(kù),從底層開始遍歷搜索,當(dāng)找到對(duì)應(yīng)的概念節(jié)點(diǎn)時(shí),提取該節(jié)點(diǎn)的高度、密度等屬性信息,并保存起來,搜索完成后即可參加相似度的計(jì)算。
⑵ 概念相似度求解
概念相似度的計(jì)算采用語(yǔ)義相似度技術(shù),設(shè)標(biāo)準(zhǔn)問題庫(kù)A可以表示為知識(shí)點(diǎn)的一個(gè)向量組A=(a1,a2,…,an),循環(huán)遍歷每一個(gè)學(xué)生輸入的問題關(guān)鍵詞序列,通過概念語(yǔ)義相似度算法可得到任意兩概念之間的相似度Sim(ai,bj),其中i=1,2,…,m,j=1,2,…,n。
Step3:匹配結(jié)果輸出
前面已經(jīng)完成了輸入問題和標(biāo)準(zhǔn)問題庫(kù)之間的循環(huán)相似度匹配計(jì)算,為了將需要的信息提取出來,模型還需要設(shè)置一個(gè)閥值δ。通過閥值δ這個(gè)關(guān)卡,將相似度結(jié)果大于δ的問題提取出來,并按照降序排列輸出即可。論文答疑系統(tǒng)模型建模流程如圖2所示。
3 系統(tǒng)實(shí)現(xiàn)與驗(yàn)證
系統(tǒng)設(shè)計(jì)環(huán)境為Visual Studio 2005,數(shù)據(jù)庫(kù)服務(wù)器為SQL Server 2000。采用B/S網(wǎng)絡(luò)模型進(jìn)行構(gòu)架設(shè)計(jì),按照系統(tǒng)功能需求劃分為用戶表示層、應(yīng)用邏輯層和數(shù)據(jù)訪問層三個(gè)層面。系統(tǒng)測(cè)試界面如圖3所示。
如圖3所示,在答疑系統(tǒng)界面中輸入問句:“計(jì)算機(jī)包含哪些硬件?”,系統(tǒng)自動(dòng)分詞后生成的關(guān)鍵詞語(yǔ)匯單元為:“計(jì)算機(jī);硬件”(其中“包含;哪些”等作為停用詞已經(jīng)被過濾掉了),然后系統(tǒng)自動(dòng)在數(shù)據(jù)庫(kù)中檢索匹配,最終反饋了12條相關(guān)結(jié)果,圖3為部分結(jié)果截圖。這里說明一點(diǎn),反饋結(jié)果的多少取決于閥值δ,測(cè)試中我們選取的閥值δ為0.8,一般我們?nèi)¢y值δ在0.8左右即可。
為了進(jìn)一步驗(yàn)證系統(tǒng)的查詢能力,我們將剛才的問句調(diào)整為:“計(jì)算機(jī)包含?”,這時(shí)系統(tǒng)自動(dòng)分詞后生成的匯單元只有一個(gè)關(guān)鍵詞“計(jì)算機(jī)”,最終匹配結(jié)果如圖4所示。
這里讀者或許會(huì)發(fā)現(xiàn),系統(tǒng)反饋回來的結(jié)果與問題毫不相關(guān)。其實(shí),這并不是系統(tǒng)出錯(cuò),而是“知網(wǎng)”概念網(wǎng)絡(luò)中“計(jì)算機(jī)”與“硬件、軟件”兩個(gè)概念關(guān)系比較密切,表現(xiàn)為在概念網(wǎng)絡(luò)中的節(jié)點(diǎn)位置較為接近,匹配結(jié)果相似度值較高,因此才有了上述的結(jié)果。也就是說,也許在某些時(shí)候當(dāng)查詢某個(gè)概念時(shí),相近的結(jié)果就會(huì)被檢索出來(或者當(dāng)不確定查找的問題時(shí),只需輸入相近的問題,也會(huì)查詢到想要的答案),這就是基于自然語(yǔ)言理解的語(yǔ)義相似度計(jì)算模型優(yōu)勢(shì)所在。
4 結(jié)束語(yǔ)
由于漢語(yǔ)詞匯表達(dá)的復(fù)雜性和詞匯語(yǔ)義概念較強(qiáng)的主觀性,以及具體應(yīng)用領(lǐng)域的專業(yè)性等因素影響,目前基于自然語(yǔ)言理解的相似度計(jì)算仍是計(jì)算機(jī)語(yǔ)言處理技術(shù)需深入研究的內(nèi)容。本文在“知網(wǎng)”知識(shí)表示的基礎(chǔ)上,充分考慮“知網(wǎng)”深度和密度因素影響,基于全文檢索匹配技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)限定領(lǐng)域內(nèi)的在線答疑系統(tǒng),大量的運(yùn)行結(jié)果證明了該系統(tǒng)是可靠的,達(dá)到了系統(tǒng)設(shè)計(jì)的目的。但在準(zhǔn)確性方面還存在不足,從第一個(gè)測(cè)試中可以看出,提問人員真正需要的是:“計(jì)算機(jī)的硬件組成”。其重點(diǎn)關(guān)注的是計(jì)算機(jī)、硬件,而答案給出了太多的“計(jì)算機(jī)特點(diǎn),計(jì)算機(jī)發(fā)展”等其他一些與“計(jì)算機(jī)”有關(guān)的匹配答案,其原因是關(guān)鍵詞權(quán)重的影響因素沒有體現(xiàn)出來,離真正的自然語(yǔ)言理解還存在一定的距離,這是系統(tǒng)下一步有待改進(jìn)的地方。
參考文獻(xiàn):
[1] 馮志偉.自然語(yǔ)言問答系統(tǒng)的發(fā)展與現(xiàn)狀[J].外國(guó)語(yǔ),2012.35(6):28-30
[2] 黃崑,符紹宏.自動(dòng)分詞技術(shù)及其在信息檢索中的應(yīng)用研究[J].現(xiàn)代圖書情報(bào)技術(shù),2001.3:26-29
[3] 沈斌.基于分詞的中文文本相似度計(jì)算研究[D].天津財(cái)經(jīng)大學(xué),2006:12-17
[4] 張波.網(wǎng)絡(luò)答疑系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].吉林大學(xué),2006:30-31
[5] 張麗輝.計(jì)算機(jī)領(lǐng)域中文自動(dòng)問答系統(tǒng)的研究[D].天津大學(xué),2006:14-18
[6] 朱珣.中文自動(dòng)分詞系統(tǒng)的研究[D].華中師范大學(xué),2004:12-13
[7] 周舫.漢語(yǔ)句子相似度計(jì)算方法及其應(yīng)用的研究[D].河南大學(xué),2005:24-25
[8] 于江生,俞士汶.中文概念詞典的結(jié)構(gòu)[J].中文信息學(xué)報(bào),2002.16(4):13-21
[9] 胡俊峰,俞士汶.唐宋詩(shī)中詞匯語(yǔ)義相似度的統(tǒng)計(jì)分析及應(yīng)用[J].中文信息學(xué)報(bào),2002.4:40-45
[10] Miller G A, Fellbaum C. Semantic network of English [M]//Levin B, pinker S. lexical & conceptual semantics. Amsterdam, Netherlands: E lsevier Science Publishers,1991.
[11] Baker C F. The Berkeley frameNet project [C]//Proceeding ofthe COLING -ACL.98.Montreal, Canada,1998:86-90
[12] 黃康,袁春風(fēng).基于領(lǐng)域概念網(wǎng)絡(luò)的自動(dòng)批改技術(shù)[J].計(jì)算機(jī)應(yīng)用研究,2004.11:260-262
[13] 劉群,李素建.基于“知網(wǎng)”的詞匯語(yǔ)義相似度計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集,2002:59-76
[14] AGIRREE, RIGAU G. A Proposal for Word Sense Disambigua-tion Using Conceptual Distance[EB/OL],1995:112-118
[15] 蔣溢,丁優(yōu),熊安萍等.一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J].重慶郵電大學(xué)(自然科學(xué)版),2009.21(4):533-537
[16] 黨麗瓊,劉文輝.一種改進(jìn)的多因素語(yǔ)義相似度計(jì)算方法[J].計(jì)算機(jī)與現(xiàn)代化,2011.10:24-26
[17] 穗志方.語(yǔ)句相似度研究中的骨架依存分析法及應(yīng)用[D].北京大學(xué),1998:18-19