李成龍 多拉
【摘 要】句子相似度計算在藏文信言處理的各個領(lǐng)域中都是很重要的。本文從藏語句子的多個角度分析句子的相似性,利用藏語句子的特征結(jié)構(gòu),結(jié)合詞形、詞序、相似單元夾角和詞性來計算藏語句子的相似度,從幾個方面最終計算藏語句子的相似度。實驗結(jié)果表明,該計算方法合理、簡便、可行。
【關(guān)鍵詞】詞性 詞序 藏語句子 自然語言處理
1 引言
在自然語言處理領(lǐng)域,尤其在藏文信息處理中,藏語句子相似度的計算是一項基礎(chǔ)性較強的研究課題。長期以來一直是人們研究的一個熱點和難點,直接決定著藏語信息處理領(lǐng)域的發(fā)展。如:基于實例的機器翻譯、基于語料庫的藏語教學(xué)系統(tǒng)、自動問答系統(tǒng)、藏文信息檢索等研究中,藏語單句的基本句型研究對計算機語句處理具有重要的理論意義,使計算機對藏語句法分析的重要基礎(chǔ)和前提。之前,對藏語句子相似度有些研究,安見才讓老師寫的《藏語句子相似度算法的研究》提出了采用散列單詞倒排索引和基于句長相似度粗選的算法。于洪志老師在《基于藏語句多特征融合的主觀題自動評分算法》中提出了一種藏語句多特征融合的主觀題自動評分算法,構(gòu)建了關(guān)鍵詞詞形相似度計算模型、詞序相似度計算模型、句子長度相似度計算模型和句子語義相似度計算模型。
隨著藏語語料庫語言學(xué)的興起,藏漢語語料庫的建立也是一個基礎(chǔ)研究項目,給予我們研究藏文信息處理領(lǐng)域的一個好的平臺。其基本原理是:當輸入一個待翻譯的藏語句子時,系統(tǒng)自動從藏漢雙語實例庫中搜索到最相似的句子,再以該句子的譯文為查詢對象,查找出與藏語句子相對應(yīng)的漢語句子。句子相似度的研究是很重要的一個研究項目,其直接影響到信息的檢索和翻譯的正確性等很多領(lǐng)域。
2 句子相似度模型
2.1 詞形相似度
藏語句子的構(gòu)成是以動詞為核心,其語序常態(tài)是“ 施事— 受事— 動作” 的格局。詞形相似度是比較輸入句子和查詢句子相似單元的長度。相似單元為輸入句子與查詢句子中的每個單元相匹配,尋找到相同的匹配單元。即SameWC(A和B)表示句子A和B中相似單元的長度,Len(A),Len(B)為句子A,B的長度,即長度是一個句子中相同的詞和標點符號,為了方便于計算也可以忽略標點符號。當相同單元在某個句子中出現(xiàn)的次數(shù)較多時,以出現(xiàn)次數(shù)少的句子來計算。
例1:
WordSim(A和B)表示句子A和B的詞形相似度,由公式(1)來表示:
WordSim(A和B)=2×SameWC(A和B)/len(A)+len(B).(0≤WordSim(A和B)≤1) (1)
該兩個句子的相似度值SameWC(A和B)=2×5/(6+7)=0.769。
2.2 詞序相似度
詞序相似度是兩個句子中含有相同詞在位置關(guān)系上的相似程度。要考慮到一個句子的有序度和無序度。Match(A,B)表示在句子A和B當中都出現(xiàn)并且都只出現(xiàn)過一次的相似單元的集合,用Order(A,B)表示句子A中有序的相似單元,句子B中所確定的相似單元被打亂的程度,就是無序度,用Entropy(A,B)表示。句子A,B的詞序相似度有公式(2)來表示:
,在句子A中,各相似單元排列順序的相鄰關(guān)系為,2-3,3-4,4-5,5-6,6-7,在這個句子中沒有被打亂的相鄰關(guān)系,即Entropy(A,B)=0,Order(A,B)表示句子B中各相鄰最大匹配頂點的有序度。在句子B中有序項為,2<3、3<4、4<5、5<6、6<7,Order(A,B)=5.
2.3 相似單元夾角相似度
計算句子相似度時,有些句子詞形、詞序、句子長度方面都相同,在輸人句子中位置相鄰的兩個相似單元在實例句子中被非相似單元的匹配單元間隔開來(排列順序不變),此中間隔成為相似單元夾角。AngleNum(A,B)為相似單元夾角的個數(shù),AngleSize(A,B)為所有夾角中間匹配單元的個數(shù)。由公式(3)為:
比較規(guī)則:兩個藏語句子的詞類序列,結(jié)合詞類的權(quán)值信息,對兩個句子從詞的最左邊起始位置開始,依次進行比較,如果詞性相同,就匹配,得到最優(yōu)的匹配結(jié)果,即最后的結(jié)果使兩個待比較句子的詞類序列相似度值最大。eword表示詞性匹配的總數(shù)目,psmatchcount表示兩個比較的句子中分詞較少的句子的詞個數(shù),如果其中有一個句子的所有詞都比較完了,則整個比較就結(jié)束。
上面2個句子表達的意思完全不同,其中的詞匯也相異但是句法結(jié)構(gòu)是一致的。所以這個兩個句子結(jié)構(gòu)相似度的值為1.假如兩個句子的結(jié)構(gòu)完全不相同,句子相似度的值等于0。
2.5 句子相似度
綜合考慮詞形、詞序、相似單元夾角相似度、詞性相似度的計算,給出述下多特征的藏語句子的綜合相似度計算模型。
Zsim(A,B)= WordSim(A,B)+ OrderSim(A,B)+ Angle(A,B) pswsim(A,B)其中 分別是各類計算的權(quán)重, =1(0≤ ≤1,0≤ ≤1,0≤ ≤1,0≤ ≤1).各區(qū)分度的權(quán)重是可以調(diào)節(jié)的,考慮到各區(qū)分度對相似度的值得貢獻大小,因此取 ,突出了詞性在句子中的作用,其權(quán)重大。
3 算法流程圖
算法流程圖1所示:
4 實驗結(jié)果及分析
該實驗中,我們采用了由西北民族大學(xué)多拉老師提供的語料庫。該語料庫中共找出1000個藏語句子,并已經(jīng)完成了詞語切分和標注。下面列出部分句子實例。
在上面的句子中,nr,vj,nn等是詞類標記或者是短語類型標記。在目前的實驗中,我們從句子集中選取了一些句子作為輸入句子(源句子)。分別在語料庫中查找與之結(jié)構(gòu)相似的句子,并且按照相似度從大到小排序。由于篇幅限制,表1列出了部分計算結(jié)果。
在表1中可以看出實驗結(jié)果,做實驗的過程中能夠把完全相似或整個相似的句子從預(yù)料當中找出來,系統(tǒng)會給出一個從0到1之間的一個值。藏語句子相似性的判斷,并沒有一個標準,只是一個模糊的概念。所以,我們并不能非常準確地用一個確定的數(shù)字來表示它們的相似性,只能把上述相似度值,看作是一個相對的概念,反應(yīng)相似的趨勢。
5 結(jié)語
藏語句子相似度的計算在基于實例的藏漢機器翻譯,信息檢索等領(lǐng)域中有著舉足輕重的地位。本文從詞的角度出發(fā),從相同詞的相似度、詞序相似度、詞性相似度三個方面綜合考慮了兩個句子相似度,它們所體現(xiàn)的信息都是不一樣的,從幾個方面考慮計算最終的藏語句子的相似度。實驗結(jié)果表明,該計算方法合理、簡便、可行。
參考文獻:
[1] 王榮波,池哲儒.基于詞類串的漢語句子結(jié)構(gòu)相似度計算方法[J].中文信息學(xué)報,2005(01).
[2] 安見才讓.藏語句子相似度算法的研究[J].中文信息學(xué)報,2011(4).
[3] 于洪志,夏建華,萬福成,陳新一.基于藏語句多特征融合的主觀題自動評分算法[J].計算機工程與應(yīng)用,2014(5).
[4] 吐爾遜阿依·阿不來提.基于詞典的維吾爾語句子相似度研究[J].電子制作,2014(13).
[5] 李春梅,徐慶生.基于多特征的漢語句子相似度計算模型的研究[J].計算機技術(shù)與發(fā)展,2014(6).
[6] 呂學(xué)強,任飛亮,黃志丹,姚天順.句子相似模型和最相似句子查找算法[J].東北大學(xué)學(xué)報(自然科學(xué)版),2003(6).
作者簡介:李成龍(1982—),男,藏族,甘肅天祝人,西北民族大學(xué)在讀碩士,主要從事藏文信息處理研究。多拉(1967—),男,藏族,青海海南人,西北民族大學(xué)博士、教授,主要從事語言學(xué)及應(yīng)用語言學(xué)、藏文信息處理教學(xué)與研究。