国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞項(xiàng)語義映射的短文本相似度算法

2015-12-23 01:01:20黃賢英張金鵬劉英濤趙明軍
關(guān)鍵詞:詞項(xiàng)詞典短文

黃賢英,張金鵬,劉英濤,趙明軍

(重慶理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,重慶400054)

0 引 言

當(dāng)前短文本相似度[1-6]計(jì)算方法主要包括基于詞項(xiàng)比較的方法和基于HowNet語義詞典的方法[7]。因?yàn)槲谋镜奶卣髦饕峭ㄟ^詞項(xiàng)來反映,因此采用詞項(xiàng)比較來量化文本之間相似度是一種常用的方法,諸如提取文本之間共有詞項(xiàng)的比例[8]、比較文本之間詞項(xiàng)間的逆序關(guān)系[9]、統(tǒng)計(jì)詞項(xiàng)詞頻填充文本向量度量余弦相似度[10]。這種詞項(xiàng)比較方法相對適用于長文本,長文本的信息量能夠通過規(guī)模較大的詞項(xiàng)數(shù)量得到較為全面的反映。對短文本而言,通過數(shù)量稀疏的詞項(xiàng)難以全面地體現(xiàn)短文本的含義,因此衍生出基于HowNet語義詞典的方法,如文獻(xiàn) [11,12]利用HowNet計(jì)算詞項(xiàng)相似度實(shí)現(xiàn)句子相似度計(jì)算,文獻(xiàn) [13]將句子劃分為主語、謂語等部分,再利用HowNet語義詞典計(jì)算各句子成分之間相似度。這種基于語義詞典的方法在一定程度上反映短文本中詞項(xiàng)潛在的語義信息,但是HowNet語義詞典對詞項(xiàng)收錄數(shù)量的有限性較為嚴(yán)重地制約著詞項(xiàng)相似度的計(jì)算,HowNet語義詞典對未在詞典出現(xiàn)的新詞項(xiàng)的處理能力較弱。

本文針對基于詞項(xiàng)比較的方法和基于HowNet語義詞典方法存在的缺陷,分析中文短文本表達(dá)時(shí)主要依賴名詞、動(dòng)詞、形容詞和副詞4種詞性,提出將短文本中詞項(xiàng)按詞性進(jìn)行切分,不同詞性的詞項(xiàng)構(gòu)建對應(yīng)的詞性庫,對于某一種詞性,提取待比較的兩個(gè)文本中對應(yīng)的詞性庫進(jìn)行詞項(xiàng)歸并,構(gòu)建相應(yīng)的詞性向量,詞性向量中各個(gè)維度上的映射值通過取該維度對應(yīng)詞項(xiàng)和詞性庫中所有詞項(xiàng)相似度最大值,各個(gè)維度上最終權(quán)值取映射值與該詞項(xiàng)在詞性庫中映射詞項(xiàng)的詞頻乘積,詞項(xiàng)間相似度計(jì)算采用HowNet語義詞典提供的算法,則短文本之間相似度運(yùn)算轉(zhuǎn)換為詞性向量之間相似度運(yùn)算。

1 改進(jìn)的短文本相似度算法

短文本中詞項(xiàng)較為稀疏,通過數(shù)量非常有限的詞項(xiàng)來表現(xiàn)文本實(shí)為不易,詞項(xiàng)間的相互組合關(guān)系和語義關(guān)聯(lián)性在短文本表示中顯得尤為重要。短文本中不同詞性的詞項(xiàng)在語義表達(dá)時(shí)的作用各不相同[14],通過將短文本中詞項(xiàng)按詞性進(jìn)行切分,并利用HowNet語義詞典完成詞項(xiàng)詞性向量權(quán)值映射。

1.1 短文本詞性切分

對于待比較的短文本MiT _A 和MiT _B,分別對MiT _A 和MiT _B進(jìn)行分詞和詞性標(biāo)注。詞性標(biāo)注采用中科院的ICTCLAS工具[15],示例如圖1所示。

圖1 詞性標(biāo)注

對于詞性標(biāo)注后的短文本,按名詞、動(dòng)詞、形容詞和副詞4 種詞性提取詞項(xiàng)并構(gòu)建對應(yīng)的詞性庫,短文本MiT _A 的詞性庫表示如式 (1)所示

式中:NAi——詞項(xiàng),TFNAi——該詞項(xiàng)對應(yīng)的詞頻。式(1)中其它字符含義類似。

短文本中每個(gè)詞項(xiàng)都可以與對應(yīng)的詞性庫中某個(gè)維度相對應(yīng),短文本MiT_B 的詞性庫表示與MiT_A 類似,詞性與詞性表示字符的對應(yīng)關(guān)系見表1,只列出了本文需要考慮的名詞詞性、動(dòng)詞詞性、形容詞詞性和副詞詞性。

表1 詞性與詞性字符表示對應(yīng)

1.2 詞項(xiàng)權(quán)值計(jì)算

通過對詞性庫中詞項(xiàng)進(jìn)行歸并,構(gòu)建詞性向量。以名詞詞性向量為例,名詞詞項(xiàng)向量的表示如式 (2)所示

式中:|N_A|、|N_B|——名詞詞性向量N_A,N_B中詞項(xiàng),不包括詞項(xiàng)權(quán)值,通過詞性庫NS_A 和詞性庫NS_B 中詞項(xiàng)歸并后得到,對于名詞詞性向量中各個(gè)維度上對應(yīng)的詞項(xiàng)權(quán)值,將詞項(xiàng)向詞性庫映射完成,替代傳統(tǒng)的基于HowNet語義詞典的最佳詞項(xiàng)相似度匹配對發(fā)現(xiàn)的方法。

根據(jù)TF-IDF算法的定義,詞項(xiàng)在文本中出現(xiàn)的頻率越大,表明該詞項(xiàng)在文本中的重要程度越高[16]。在短文本中,這種理論同樣適用,詞項(xiàng)在短文本中出現(xiàn)次數(shù)越多,表明該詞項(xiàng)對文本的表征能力越強(qiáng)。以MiT _A 中名詞詞性向量N _A 為例,對于N_A 中某個(gè)詞項(xiàng)NAi,詞項(xiàng)間相似度計(jì)算采用文獻(xiàn) [17]中算法,詞項(xiàng)NAi向名詞詞性庫的映射值如下所示

式中:similarity(NAi,NAj)——使用文獻(xiàn) [17]中算法計(jì)算得到的詞項(xiàng)間的相似度,詞項(xiàng)向詞性庫中的映射值取該詞項(xiàng)與詞性庫中所有詞項(xiàng)相似度最大值,NAj表示詞項(xiàng)NAi在詞性庫中的映射詞項(xiàng),名詞詞性向量N_A 中詞項(xiàng)NAi的最終權(quán)值如下所示

通過構(gòu)建名詞詞性向量,名詞詞項(xiàng)向量作為整體向詞性庫中進(jìn)行映射,若名詞詞性向量中詞項(xiàng)在詞性庫中出現(xiàn),則置映射值為1,若未出現(xiàn),則映射值為該詞項(xiàng)與詞項(xiàng)庫中所有詞項(xiàng)的最大相似度,待比較文本中詞項(xiàng)都映射到同一向量維度中,本方法集成了基于關(guān)鍵詞和基于HowNet語義詞典的優(yōu)點(diǎn),既較好地解決了HowNet詞典容量有限的缺陷 (詞項(xiàng)出現(xiàn)與否判斷),又兼顧了詞項(xiàng)間的語義相關(guān)性(詞項(xiàng)間語義相似度計(jì)算),具體示例見表2。動(dòng)詞詞性向量、形容詞詞性向量和副詞詞性向量中詞項(xiàng)權(quán)值計(jì)算與名詞詞性向量中詞項(xiàng)權(quán)值計(jì)算方法相同。

表2 詞項(xiàng)權(quán)值映射

1.3 詞性向量相似度計(jì)算

詞性向量相似度計(jì)算采用經(jīng)典的余弦相似度[10],本節(jié)以名詞詞性向量相似度計(jì)算為例,其它詞性向量類似。

在圖2中,表示文本的初始化處理、詞性標(biāo)注、詞性庫構(gòu)建、詞性向量構(gòu)建和詞項(xiàng)權(quán)值計(jì)算的過程。名詞詞性向量相似度計(jì)算如式下所示

圖2 名詞詞性向量相似度計(jì)算

1.4 文本相似度計(jì)算

文本之間的相似度運(yùn)算由名詞詞性向量相似度、動(dòng)詞詞性向量相似度、形容詞詞性向量相似度和副詞詞性向量相似度4部分組成,計(jì)算方法如下所示

根據(jù)不同詞性的詞項(xiàng)在文本中重要程度不盡相同,在文本相似度計(jì)算時(shí),為不同的詞性向量賦予不同的權(quán)值定義,由于待比較的文本處于時(shí)刻變化中,因此相應(yīng)詞性向量的內(nèi)容也在不斷變化,示例如圖3所示。

在圖3中,count(N_A)表示MiT _A 中名詞詞性向量中詞項(xiàng)數(shù)目,其它表示含義類似。示例1 中,名詞詞性向量中詞項(xiàng)的數(shù)目遠(yuǎn)大于動(dòng)詞詞性向量中詞項(xiàng)的數(shù)目,此時(shí),名詞詞性向量因賦予較大的權(quán)值系數(shù),而在示例2中,名詞詞性向量中詞項(xiàng)數(shù)目卻遠(yuǎn)小于動(dòng)詞詞性向量詞項(xiàng)數(shù)目,若仍按照示例1中所取權(quán)值系數(shù)固定分配,難免會造成在相似度計(jì)算時(shí)的局部不均勻性。

圖3 名詞詞性向量內(nèi)容變化

詞性向量的權(quán)值系數(shù)并非固定不變而應(yīng)當(dāng)隨著待比較句子對的變化而變化,對詞性向量的權(quán)值進(jìn)行動(dòng)態(tài)定義,取決于當(dāng)前詞性向量中詞項(xiàng)的數(shù)目與所有詞性向量詞項(xiàng)總和的比值,如下所示

2 實(shí)驗(yàn)與分析

本文的實(shí)驗(yàn)數(shù)據(jù)來源于重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的院長信箱數(shù)據(jù),院長信箱主要用于本學(xué)院學(xué)生和學(xué)院進(jìn)行教學(xué)和日常管理的一個(gè)簡易FAQ (frequently asked questions)系統(tǒng)平臺,該平臺的實(shí)驗(yàn)數(shù)據(jù)可在“http://cs.cqut.edu.cn/DeanMail/MailList.aspx”網(wǎng)址處獲得,數(shù)據(jù)格式見表3。

本實(shí)驗(yàn)選取時(shí)間段為 “2010/4/9-2013/9/11”共5992條記錄,提取表3中提問內(nèi)容和回復(fù)內(nèi)容項(xiàng)作為實(shí)驗(yàn)時(shí)的短文本相似度比較實(shí)驗(yàn)數(shù)據(jù)集。

2.1 實(shí)驗(yàn)結(jié)果

本文采用余弦相似度算法 (similarity cosine algorithm,SCA)、關(guān)鍵詞重疊算法(similarity overlap algorithm,SOA)、基于語義詞典的算法 (similarity library algorithm,SLA)和本文算法 (similarity semantic algorithm,SSA)分別計(jì)算給定實(shí)驗(yàn)數(shù)據(jù)集中短文本之間的相似度。

在表4中,分別選取Top_N 條數(shù)據(jù)的相似度平均值,SCA 算法、SOA 算法和SLA 算法的相似度平均值分別保持在0.09-0.11、0.08-0.09 和0.20-0.21,而本文算法(SSA)的相似度平均值明顯高于前3個(gè)算法,基本保持在0.37-0.39附近,SCA 算法和SOA 算法的相似度值平均值相對較低,SLA 算法的相似度平均值介于本文算法和SCA算法、SOA 算法之間。

表3 院長信箱數(shù)據(jù)格式

在表5中,分別比較SCA 算法、SOA 算法、SLA 算法和本文算法在不同的相似度閾值下的準(zhǔn)確率,準(zhǔn)確率計(jì)算方式為:相似度閾值內(nèi)句子對數(shù)目/數(shù)據(jù)集中句子對總數(shù)。

通過圖2中4種算法的對比圖可以發(fā)現(xiàn),SCA 算法和SOA 算法在相似度閾值很小的情況下,最終的相似度運(yùn)算準(zhǔn)確率仍然偏低,而此時(shí)SLA 算法和SSA 算法的性能卻明顯高于前兩種算法,準(zhǔn)確率都保持在非常高的水平,可以看出,在相似度閾值在0.05 以內(nèi)時(shí),SLA 算法和SSA 算法的準(zhǔn)確率都能夠保持在90%以上且SLA 算法優(yōu)于SSA算法。相似度閾值在0.15時(shí),SLA 算法的性能出現(xiàn)了較大幅度的降低,SSA 算法在相似度閾值為0.19時(shí)準(zhǔn)確率首次超過SLA 算法。當(dāng)相似度閾值在0.30 時(shí),SSA 算法的性能出現(xiàn)了大幅度的降低,但是此時(shí)卻明顯優(yōu)于前3種算法。因此,SSA 算法從整體上來看要優(yōu)于SLA 算法,數(shù)據(jù)的分布較為平均,且整體的相似度計(jì)算時(shí)的準(zhǔn)確性也優(yōu)于前3種,這一點(diǎn)也可以通過表4中相似度平均值數(shù)據(jù)得到驗(yàn)證,而SLA 算法隨著相似度閾值的遞增會出現(xiàn)非常明顯的遞減。

SCA、SOA、SLA 和SSA 在不同相似度閾值下準(zhǔn)確率如圖4所示。

表4 SCA、SOA、SLA 和SSA 在TopN 條數(shù)據(jù)下相似度平均值

表5 SCA、SOA、SLA和SSA在不同相似度閾值下準(zhǔn)確率

圖4 SCA、SOA、SLA和SSA在不同相似度閾值下準(zhǔn)確率

2.2 實(shí)驗(yàn)分析

本實(shí)驗(yàn)主要針對余弦相似度算法、關(guān)鍵詞重疊算法、語義詞典算法和本文算法在相似度計(jì)算時(shí)性能進(jìn)行分析,從實(shí)驗(yàn)數(shù)據(jù)本身出發(fā),數(shù)據(jù)中問答句子對基本上采用的是比較隨意的表述方式,在具體的關(guān)聯(lián)性方面顯得并非十分匹配,因此句子對之間的相似度總保持在較低的水平,這一點(diǎn)可在表4數(shù)據(jù)中得到反映。

從理論上來說,余弦相似度算法和關(guān)鍵詞重疊算法是完全基于關(guān)鍵詞是否在文本出現(xiàn)而進(jìn)行定義的,這在很大程度上制約了運(yùn)算時(shí)的準(zhǔn)確性,須知中文在表達(dá)時(shí)的差異性和多樣性,相異的關(guān)鍵詞也可以表達(dá)相近甚至相同的含義,語義詞典算法和本文算法正是考慮了關(guān)鍵詞之間的相互關(guān)聯(lián)性,因此,語義詞典算法和本文算法應(yīng)當(dāng)在性能上要優(yōu)于余弦相似度算法和關(guān)鍵詞重疊算法,這一點(diǎn)通過實(shí)驗(yàn)中相似度平均值和不同閾值下的準(zhǔn)確率得到驗(yàn)證,語義詞典算法沒有考慮關(guān)鍵詞的詞性信息,收錄的關(guān)鍵詞數(shù)量也非常有限,因此,語義詞典算法在相似度平均值上要低于本文算法,雖然語義詞典算法在閾值較低的情況下準(zhǔn)確率會優(yōu)于本文算法,這正說明了語義詞典算法計(jì)算的短文本之間相似度值偏低,在相似度閾值數(shù)值設(shè)置較低時(shí),較多的句子對被判定為相似,從而很好的佐證了語義詞典算法相似度計(jì)算的準(zhǔn)確性不高。雖然實(shí)驗(yàn)數(shù)據(jù)集相對比較粗糙,但是在同等程度下,可以粗略的認(rèn)為提問內(nèi)容項(xiàng)和回復(fù)內(nèi)容項(xiàng)具有一定的關(guān)聯(lián)性 (問題-答案)。故從整體來說,本文算法要優(yōu)于語義詞典算法,這可以通過相似度平均值較高,相似度閾值增大時(shí)相似度準(zhǔn)確率均優(yōu)于前3種算法加以印證。

3 結(jié)束語

本文針對基于詞項(xiàng)比較的相似度算法和基于HowNet語義詞典最佳詞項(xiàng)相似度匹配對發(fā)現(xiàn)的相似度算法存在的缺陷,提出一種結(jié)合詞項(xiàng)詞頻和詞項(xiàng)語義維度映射的新方法,這種方法既考慮了詞項(xiàng)在文本中詞頻特性,從而避免了因該詞項(xiàng)未被HowNet收錄而出現(xiàn)計(jì)算誤差,又兼顧了詞項(xiàng)之間的語義關(guān)聯(lián)性,實(shí)驗(yàn)部分也很好的佐證了本文算法穩(wěn)定性較好,相似度平均值均優(yōu)于另外3種算法,相似度準(zhǔn)確率也較高且保持在較為穩(wěn)定的水平。

[1]HOU Yongshuai,ZHANG Yaoyun,WANG Xiaolong,et al.Recognition and retrieval of time-sensitive question in Chinese QA system [J].Journal of Computer Research and Development,2013,50 (12):2612-2620 (in Chinese). [侯永帥,張耀允,王曉龍,等.中文問答系統(tǒng)中時(shí)間敏感問句的識別和檢索 [J].計(jì)算機(jī)研究與發(fā)展,2013,50 (12):2612-2620.]

[2]JIANG Changjin,PENG Hong,MA Qianli,et al.Study on question parsing of restricted-domain Chinese question answering system [J].Computer Engineering and Design,2010,31(11):2589-2592 (in Chinese).[蔣昌金,彭宏,馬千里,等.受限領(lǐng)域中文問答系統(tǒng)問句分析研究 [J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31 (11):2589-2592.]

[3]Rasim M Alguliev,Ramiz M Aliguliyev,Makrufa S Hajirahimova.Maximum coverage and minimum redundant text summarization model [J].Expert Systems with Applications,2011,38 (12):14514-14522.

[4]Pawan Goyal,Laxmidhar Behera,Thomas Martin McGinnity.A context-based word indexing model for document summariza-tion [J].IEEE Transactions on Knowledge and Data Engineering,2013,25 (8):1693-1705.

[5]Chu Fong,Masrah Azrifah Azmi Murad,Shyamala C Doraisamy,et al.Measuring sentence similarity from both the perspectives of commonalities and differences[C]//Proceeding of the 22nd International Conference on Tools with Artificial Intelligence,2010.

[6]Ahmed Hamza Osman,Naomie Salim,Mohammed Salem Binwahlan.An improved plagiarism detection scheme based on semantic role labeling [J].Applied Soft Computing,2012,12(5):1493-1502.

[7]HUA Xiuli,ZHU Qiaoming,LI Peifeng.Chinese text similarity method research by combining semantic analysis with statistics [J].Application Research of Computers,2012,29(3):833-836 (in Chinese).[華秀麗,朱巧明,李培峰.語義分析與詞頻統(tǒng)計(jì)相結(jié)合的中文文本相似度量方法研究 [J].計(jì)算機(jī)應(yīng)用研究,2012,29 (3):833-836.]

[8]Sergio Jimenez,Claudia Becerra,Alexander Gelbukh.A parameterized similarity function for text comparison [C]//First Joint Conference on Lexical and Computational Semantics,2012.

[9]ZHOU Faguo,YANG Bingru.New method for sentence similarity computing and its application in question answering system[J].Computer Engineering and Applications,2008,44 (1):165-178 (in Chinese).[周法國,楊炳儒.句子相似度計(jì)算新方法及在問答系統(tǒng)中的應(yīng)用 [J].計(jì)算機(jī)工程與應(yīng)用,2008,44 (1):165-178.]

[10]WU Quan’e,XIONG Hailing.Method for sentence similarity computation by integrating multi-features[J].Computer Systems and Applications,2010,19 (11):110-114 (in Chinese).[吳全娥,熊海靈.一種綜合多特征的句子相似度計(jì)算方法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19 (11):110-114.]

[11]ZHONG Maosheng,LIU Hui,ZOU Jian.The inter-sentence semantic relevancy degree calculation using the quantified correlation of words[J].Journal of Shandong University(Engineering Science),2010,40 (5):105-111 (in Chinese).[鐘茂生,劉慧,鄒箭.基于詞語量化相關(guān)關(guān)系的句際相關(guān)度計(jì)算 [J]. 山東大學(xué)學(xué)報(bào)(工學(xué)版),2010,40 (5):105-111.]

[12]CHENG Chuanpeng,WU Zhigang.A method of sentence similarity computing based on HowNet[J].Computer Engineering and Science,2012,34 (2):172-175 (in Chinese).[程傳鵬,吳志剛.一種基于知網(wǎng)的句子相似度計(jì)算方法[J].計(jì)算機(jī)工程與科學(xué),2012,34 (2):172-175.]

[13]ZHENG Cheng,XIA Qingsong,SUN Changnian.Sentence similarity calculation based on composition [J].Computer Technology and Development,2012,22 (12):101-104 (in Chinese).[鄭誠,夏青松,孫昌年.一種基于成分的句子相似度計(jì)算[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22 (12):101-104.]

[14]WU Quan’e.Chinese sentences similarity computation and its application in question-answering system [D].Chongqing:Southwest University,2011(in Chinese).[吳全娥.漢語句子相似度計(jì)算及其在自動(dòng)問答系統(tǒng)中的應(yīng)用[D].重慶:西南大學(xué),2011]

[15]ICTCLAS [EB/OL].http://www.nlpir.org/download/ICTCLAS2012-SDK-0101.rar/,2001-2009.

[16]HUANG Chenghui,YIN Jian,HOU Fang.A text similarity measurement combing word semantic information with TF-IDF method [J].Chinese Journal of Computers,2011,34 (5):856-864 (in Chinese).[黃承慧,印鑒,侯昉.一種結(jié)合詞項(xiàng)語義信息和TF-IDF方法的文本相似度量方法 [J].計(jì)算機(jī)學(xué)報(bào),2011,34 (5):856-864.]

[17]GE Bin,LI Fangfang,GUO Silu,et al.Word’s semantic similarity computation method based on HowNet[J].Application Research of Computers,2010,27 (9):3329-3333 (in Chinese).[葛斌,李芳芳,郭絲路,等.基于知網(wǎng)的詞匯語義相似度計(jì)算方法研究 [J].計(jì)算機(jī)應(yīng)用研究,2010,27(9):3329-3333.]

猜你喜歡
詞項(xiàng)詞典短文
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
KEYS
自然種類詞項(xiàng)二難、卡茨解決與二維框架
Keys
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標(biāo)準(zhǔn)探索
短文改錯(cuò)
短文改錯(cuò)
《胡言詞典》(合集版)刊行
英語詞項(xiàng)搭配范圍及可預(yù)見度
荆州市| 清原| 库伦旗| 建瓯市| 黔南| 崇阳县| 手机| 筠连县| 榆树市| 蓝山县| 淳化县| 中西区| 长岭县| 巫溪县| 鞍山市| 徐汇区| 塔河县| 巨野县| 定边县| 务川| 彝良县| 贵定县| 惠东县| 奉新县| 兰坪| 延津县| 衢州市| 临洮县| 宿州市| 新巴尔虎右旗| 浏阳市| 神池县| 资源县| 宁河县| 丹阳市| 栾川县| 临桂县| 石渠县| 聂荣县| 云南省| 邵阳县|