廖志芳 周國恩 李俊鋒 劉飛 蔡飛
摘要:通過分析中文短文本的特征,提出了一種基于語法語義的短文本相似度算法.該算法結合中文語句語義的相似性以及語句語法的相似性,即計算具有相同句法結構的短文本的相似度以及考慮語句詞組順序對相似度的貢獻,對中文短文本相似度進行計算.實驗表明,本文提出的算法在中文短文本相似度計算結果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.
關鍵詞:語法語義相似度;語句相似性計算;HowNet;語料庫;語法分析;語義分析;相似度計算
中圖分類號:TP391.1 文獻標識碼:A
文章編號:1674-2974(2016)02-0135-06
短文本相似度計算在文章查重、信息檢索、圖像檢索、智能機器問答、詞義消歧和搜索引擎等多個領域有著非常廣泛的應用[1],并在英文處理方面取得了許多實質性的成果,如機器人語音對話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識別問題、語法結構復雜和一詞多義等[2].為此本文主要研究中文短文本(語句)相似度計算方法,并提高計算結果的精確度.
短文本相似度表示的是多個短文本(語句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似[3].文本相似度包括語義和語法等方面,但是在實際中主要考慮語義層次的相似性,往往忽略了文本的語法結構對文本相似度的重要影響.
大量的研究證明短文本的語法結構對相似性的影響是非常重要的[4],但是當前基于HowNet[5]的中文短文本相似度計算大都是分析文本的語義層次的相似性,這樣就會導致計算結果的精確度和召回率都不高,為了提高相似度計算的精確度和召回率,本文以HowNet為語料庫和Stanford[6]為語法解析工具,在中文短文本的語義信息基礎上加入了文本的語法結構信息來研究短文本相似度計算.
1語句相似度計算
HowNet主要揭示了概念間關系及概念的屬性間的關系,有關HowNet詳細介紹可見參考文獻[2],在此不贅述.
義原距離定義為兩個義原間最短路徑上邊的數(shù)目[7].義原距離反映的是兩個義原的相對關系,距離越大,則表明兩者相似性越低,反之則越高.義原深度定義為兩個義原的最近公共父節(jié)點到根節(jié)點的層次數(shù).義原深度反映的是兩個義原在義原層次結構中的絕對關系,深度越小,表明兩者越不相似,反之則越相似.
2基于語法語義的相似度計算
目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語句的語義層次,然而組成一個語句的不單單是詞語本身的語義含義,還包括語法結構,例如一個句子包含不同的句法和詞語順序[8]等.
最近大量實驗證明語句的語法結構對相似度有著重要的影響,不能忽視[4].例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個語句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個語句的相似度值是極其高的,甚至是1,即完全一樣,這顯然不合適.忽視了語句的語法信息,其計算結果往往缺乏合理性.
本文對中文語句的相似度算法進行改進,在計算相似度的時候,不但考慮語義信息,還將語句的語法結構加進來.本文涉及的語法結構主要從3方面來進行考慮:
1)具有相同語法結構的詞語集合間的相似度;
2)兩個語句中所包含的語法結構的相似性;
3)經(jīng)過分詞后的詞組在語句中出現(xiàn)的位置的相似性.
為了解決目前中文領域大多數(shù)短文本相似度計算僅僅涉及語句語義特性的缺陷,本文結合語句的語義特性和語法特性,進行短文本的相似度計算.
2.1語法結構的提取
要對語句的語法結構進行提取與分析,首先需要對語句進行分詞.本文使用Ictclas4j分詞工具,該工具是Sinboy在中科院張華平和劉群研制的FreeICTCLAS的基礎上完成的一個開源中文分詞項目.同時使用Stanford[6]工具進行語法解析,該工具是由Stanford NLP Group開發(fā)的開源工具.
對于某一中文語句,經(jīng)過語法工具分析后,能夠得到某個詞語的具體詞性,斜杠后面表示的就是該詞語的具體詞性,如圖1所示.
但是,僅僅知道詞語的具體詞性是不夠的,具體的詞性代表的是詞語的特性,并不表示一個語句的結構組成,我們需要從中提取出語句的語法結構,例如簡單從句、名詞性從句和動詞短語等,然后把相應的詞語或短語歸類到語法結構集合中.
本文通過分析漢語語法結構的多樣性及詞語的具體詞性,提出一種新的語句語法結構的提取方法,提取過程如下:
1)使用Ictclas4j與Stanford對語句進行分詞處理以及語法解析,得到最基本的詞語或短語的詞性標注.
2)進一步分析以上獲得的結果,通過逐層解析以及句法樹分析的方式把已經(jīng)標注好語法詞性的詞語或短語進行抽取與歸納,抽取出語句的組成結構類型,例如簡單從句類型和動詞短語類型等.
3)最后把具有相同語法結構類型的詞語或短句存放在相應結構類型的集合中,形成不同的語法結構集合,例如簡單從句類型集合、名詞性從句類型集合和動詞短語類型集合等,實現(xiàn)對語句的語法組成結構的分析.
通過使用上述語句語法結構提取方法進行語句語法處理,提取出語句的語法結構以及相應所包含的詞組,如圖2所示.
與圖1相比較,我們發(fā)現(xiàn)一個中文語句經(jīng)過語法結構提取后,可以得到該語句的結構組成,例如動詞性短語和介詞性短語等,相比于圖1中單個詞語的詞性標注,能夠得到語句的語法結構組成,更加有利于對中文語句語法語義相似度的研究.因為研究語句的語法結構時,我們更加傾向于研究其整體的結構類型組成,而不是單單某個詞語.
中文語句句法結構類型部分見表1.
2.2語句句法結構類型相似度計算
經(jīng)過語句語法結構提取方法分析后,每個語句都被切分成若干個結構類型,例如有的包含名詞性短語和動詞性短語等,有的卻包括簡單從句、名詞性短語和副詞短語等.
語句語法結構類型相似度計算思想就是計算兩個語句中含有相同結構類型的個數(shù)與所有結構類型的個數(shù)的比值.該比值反映了兩個語句在句法結構上的相似性.
定義1假設語句Sen1包含m個不同的句法結構類型,分別為ST11,ST12,…,ST1m,Sen2包含n個不同的句法結構類型,分別為ST21,ST22,…,ST2n,則句法結構上的相似度sst計算公式如下:
2.3語句詞組位置相似度計算
中文語句中詞組的位置對短文本間的相似性有著重要影響,所以需要計算詞組位置的相似度[8].
本文中采用的方法不是以單個漢字為基本單位,而是以經(jīng)過分詞后的詞組為單位,因為單個漢字包含的信息太少,詞組能夠反映更多的信息,所以以詞組為單位計算詞組位置的相似度更加合理.
本文計算語句詞組位置相似度的方法如下:
2.4基于語法結構的語句語義相似度計算
目前絕大多數(shù)的中文語句相似度計算方法都是根據(jù)第一個語句中的每個詞語分別和第二個語句中的每對詞語計算相似度,取最大值作為第一個語句中的那個詞語對第二個語句的相似度,然后第一個語句中每個詞語都這樣計算,最后取所有相似度值的均值作為第一個語句對第二個語句的相似度.
上述的方法完全依靠語義信息,而忽視了語法結構信息,計算結果都不太理想,因此本文把語法結構信息加入計算中,即計算具有相同語法結構類型的詞組間的相似度,綜合了語法和語義兩大方面.
2.5基于語法語義的語句相似度計算
基于語法語義的語句相似度計算方法綜合考慮了語法和語義兩方面特性,主要包括基于語法結構的語句語義相似度計算、語句語法結構類型相似度計算和語句詞組位置相似度計算.
通過公式(5),(6)和(7)可以得到語句間的最終計算公式,見式(8).
公式(8)表示,中文語句間的相似度最終由語句的語法和語義的相似性共同構成.在計算短文本(語句)間的相似度時,改變了以往僅僅考慮語句語義相似性的思路,本文不但考慮語義相似性,還考慮了語句語法結構對相似性的影響.
本文在計算語義相似度時,加入語法結構信息,即計算具有相同語法結構的詞組集合間的相似度,另外充分考慮了句法結構類型和詞組位置相似性對整體語句相似度的貢獻與影響.最終短文本(語句)間相似度計算更加符合中文語句的特點,計算結果更加合理,與人們的主觀判斷更為接近.
3實驗及分析
當前基于語法的相似度計算方法多用于英文短文本處理,為進行中文短文本相似度計算,本文采用了以下3種方法來對相似度算法進行分析.
方法一:劉群、李素建等[9]提出的一種相似度方法,在計算時僅僅考慮義原距離,未考慮深度.
方法二:一種既考慮義原距離和深度,又在計算過程中加入詞語詞頻作為權重的方法[2],具體參數(shù)設置詳見參考文獻[2].
方法三:本文中介紹的基于語法語義的短文本相似度計算方法.
利用上述3種方法分別測試50對中文語句,計算語句(短文本)間的相似度值,部分計算結果見表2.
3.1權重因子實驗與分析
利用上述實驗數(shù)據(jù),對方法三的短文本相似度計算公式中的權重因子a和b進行實驗分析,獲得能夠使得計算公式的效果最佳的權重因子組合.
采用控制變量法對 a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95和b=0.3,0.4,0.5,0.6,0.7,0.8進行實驗分析,且設置相似度閾值為0.6,根據(jù)獲得的結果進而計算得到不同的精確度和召回率.不管權重因子a和b取上述的哪個值,本文提出的相似度計算方法的召回率基本上都是差不多的,穩(wěn)定在0.882上下,這說明了本文方法的穩(wěn)定性. 根據(jù)實驗結果繪制本文方法在權重因子a和b不同取值時的精確度的折線圖,如圖3所示,其中橫坐標表示a的取值,縱坐標表示精確度,b的不同取值采用不同的線條表示.
根據(jù)圖3分析可知,當權重因子a的值大于0.6,b的取值在[0.4,0.6]時,本文方法的精確度基本上都在0.75以上,尤其當a值在(0.85,0.95]區(qū)間時,本方法的精確度可達到最大值0.833,且比較穩(wěn)定.
綜上所述,可以得到本文最終計算公式中的權重因子a和b的取值范圍.當a值在(0.85,0.95]區(qū)間,且b的取值在[0.4,0.6]時,本文方法的召回率以及精確度能夠同時達到比較高的水平,分別為0.882和0.833.
3.2短文本相似度實驗與分析
方法三中的權重因子a和b分別取為0.88和0.5,然后對實驗數(shù)據(jù)進行統(tǒng)計分析,計算3種不同計算方法的計算結果的精確率和召回率,且設置相似度閾值為0.6,結果如圖4所示.
根據(jù)圖4可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為0.833,比方法一的0.577和方法二的0.619都要高,這說明本文方法非常明顯地提高了查準率,有效地減少了噪音數(shù)據(jù),計算結果更加能夠被人們接受.
把實驗數(shù)據(jù)分為近義的語句對集合和反義的語句對集合,分別進一步分析.
對于近義的語句對集合,將相似度區(qū)間分為3個,圖5描述了不同方法在每個區(qū)間內近義語句對占所有近義語句對的比例.方法一中接近一半的語句對的相似度值在(0.8,1]間,其在(0.5,8]間的語句對還不到一半,因為語句對沒有完全一樣的,所以計算結果偏高,且還有一些語句對的相似度低于0.5,顯然其計算結果不合理.方法二中大概82.00%的語句對的相似度值都在(0.5,8]之間,比較符合實際,但是其計算結果中仍然有低于0.5的,結果也不太理想.而方法三中在(0.8,1]之間的不到25.00%,絕大部分都是在(0.5,8]之間,沒有低于0.5的,這樣的計算結果顯然更加合理,更接近人們的主觀判斷.
對于反義語句對集合,把相似度區(qū)間分為4個,圖6描述了不同方法分別在每個區(qū)間中的測試語句對所占的比例.由圖可知,方法一和方法二在相似度大于0.5時大概都有75.00%的反義語句對,而低于0.5的卻只有25.00%,顯然它們的計算結果都非常不理想,計算粗糙.而方法三在(0.5,1]區(qū)間中只有29.00%左右的反義語句對,且約71.00%的語句相似度都是低于0.5.顯然方法三計算結果更加合理和精確.另外由表2可知,有些語句意思明明是完全相反的,可方法一和方法二計算結果都非常高,甚至是1,而方法三卻能夠得到非常合理的結果.
由上述實驗結果可知,本文提出的方法相比于方法一和方法二,具有比較好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產生,更加接近人們的主觀判斷.
4結論
本文以HowNet為詞典庫,以Stanford為語法解析工具,并在此基礎上研究了本文提出的基于語法語義的中文短文本的相似度計算.
在本文描述的方法中,我們結合語句的語法結構和語義信息計算整個語句的相似度,即計算具有相同語法結構的詞組間的語義相似度以及考慮語法結構類型間相似性和詞組位置相似性對整個語句相似度的影響.即使兩個語句完全一樣,但是語句結構不同或詞組位置不同,也會導致意思完全不一樣,這樣的計算方式與人們的主觀判斷更加接近,也符合中文語句(短文本)的復雜性特點.
本文研究的方法在一定程度上解決了目前中文領域基于HowNet進行短文本相似度計算的方法中存在的結果不合理現(xiàn)象.通過實驗對3種方法進行對比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.
參考文獻
[1]蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語義相似度改進計算方法[J].重慶郵電大學學報:自然科學版, 2009,21(4): 533-537.
JIANG Yi, DING You, XIONG An-ping, et al. An improved computation method of words semantic similarity based on HowNet[J]. Journal of Chongqing University of Posts and Telecommunications: Natural Science, 2009,21(4): 533-537.(In Chinese)
[2]廖志芳,邱麗霞,謝岳山, 等.一種頻率增強的語句語義相似度計算[J]. 湖南大學學報:自然科學版,2013,40(2):82-88.
LIAO Zhi-fang, QIU Li-xia, XIE Yue-shan, et al. A frequency enhanced algorithm of sentence semantic similarity[J]. Journal of Hunan University: Natural Sciences, 2013,40(2): 82-88.(In Chinese)
[3]李連,朱愛紅,蘇濤.一種改進的基于向量空間文本相似度算法的研究與實現(xiàn)[J].計算機應用與軟件,2012,29(2):282-284.
LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of an improved VSM-based text similarity algorithm[J]. Computer Applications and Software, 2012,29(2):282-284.(In Chinese)
[4]OLIVA J, SERRANO J I, CASTILLO M D, et al. SyMSS: a syntax-based measure for short-text semantic similarity[J]. Data & Knowledge Engineering, 2011,70(4):390-405.
[5]董振東,董強.關于知網(wǎng)—中文信息結構庫[EB/OL]//http://www.keenage.com/html/c_index.html.
DONG Zhen-dong, DONG Qiang.Chinese information database based on CNKI[EB/OL]//www.heenage, com/html/C.cndex.html.(In Chinese)
[6]The Stanford Natural Language Processing Group. The Stanford NLP[EB/OL]//http://nlp.stanford.edu/software/lex-parser.shtml.
[7]ISLAM A, INKPEN D. Semantic text similarity using corpus-based word similarity and string similarity[R]. Ottawa:University of Ottawa,2008.
[8]LI Y H, MCLEAN D, BANDAR Z A, et al. Sentence similarity based on semantic nets and corpus statistics[J]. IEEE Transactions on Knowledge and Data Engineering,2006,18(8):1138-1150.
[9]劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆語義學研討會論文集. 臺北:臺北中央研究院,2002: 149-163.
LIU Qun, LI Su-jian. How net-based lexical semantic similarity calculation[C]//Third Semantics Workshop Proceedings. Taipei: Academia Sinica, 2002: 149-16. (In Chinese)