張 爽,陳 莉,李 錚
(西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)
近年來,微博、短視頻等各類社交媒體對人們?nèi)粘I钪械男畔鞑テ鹬艽笞饔?人們傾向于從這些社交軟件上獲取新聞資訊、關(guān)注熱點(diǎn)事件,大量網(wǎng)絡(luò)新詞也借助著這些社交媒體被廣泛傳播。已有研究表明,由于新詞沒有被完全發(fā)現(xiàn)會導(dǎo)致60%的分詞錯誤,而且分詞效果的好壞會直接影響中文文本情感分析過程中情感詞典的構(gòu)建以及情感傾向性判斷[1]。
新詞發(fā)現(xiàn)通常指的是未登錄詞的發(fā)現(xiàn),這些詞大多來自于微博文本、短視頻評論以及長視頻彈幕,具有構(gòu)詞模式簡單自由且構(gòu)詞方式多樣等特點(diǎn)。目前新詞發(fā)現(xiàn)方法主要分為3種:①基于規(guī)則的方法、基于統(tǒng)計的方法以及基于統(tǒng)計與規(guī)則相結(jié)合的方法?;谝?guī)則的方法[2]主要利用語言學(xué)中的構(gòu)詞規(guī)則、詞性以及語義信息設(shè)計出可以進(jìn)行詞語匹配的規(guī)則模板,然后,通過設(shè)計好的模板對語料進(jìn)行匹配發(fā)現(xiàn)新詞,在特定領(lǐng)域使用這種方法進(jìn)行新詞發(fā)現(xiàn)的準(zhǔn)確率較高,但可移植性較差,需要耗費(fèi)大量的人力物力。②基于統(tǒng)計的方法是通過詞頻、互信息及鄰接熵等統(tǒng)計信息量識別新詞,基于統(tǒng)計的方法更靈活,可移植性強(qiáng)且易于擴(kuò)展。Zhang等人針對互信息的不對稱共現(xiàn)問題,首次提出了增強(qiáng)互信息用于計算詞語的內(nèi)部凝聚度,有效識別多字表達(dá)式,但其忽略了語言特征對于新詞識別的影響[3];李文坤等人提出一種基于詞內(nèi)部結(jié)合度和邊界自由度的新詞發(fā)現(xiàn)方法,從沒有成功分詞的“散串”中發(fā)現(xiàn)新詞,該方法對數(shù)據(jù)稀疏性很敏感,無法有效識別低頻新詞[4];夭榮朋等人提出了一種基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)算法,針對傳統(tǒng)互信息難以識別大于兩個字的多字詞問題,證明了多字串互信息公式的有效性,但該算法采用N-Gram模型,導(dǎo)致新詞發(fā)現(xiàn)過程中候選詞串?dāng)?shù)量過多[5];劉偉童等人針對N-Gram產(chǎn)生大量詞串導(dǎo)致新詞發(fā)現(xiàn)效率較低的問題,提出從左到右逐字?jǐn)U展候選詞串的切分方法,該算法有效提高了發(fā)現(xiàn)新詞的效率,但未考慮上下文語義對新詞識別的影響[6]。③融合規(guī)則和統(tǒng)計的方法成為目前新詞發(fā)現(xiàn)的主流方法,該方法綜合了兩種方法的優(yōu)點(diǎn)。張海軍等人提出利用逐層剪枝的方法過濾低頻重復(fù)串,再利用統(tǒng)計量計算得到字串的牢固程度,最后,加入偏旁的詞性猜測特征用于海量語料文本中的新詞發(fā)現(xiàn),但該方法對于長詞以及單字詞的識別效果不佳[7];趙志濱等人針對領(lǐng)域新詞的發(fā)現(xiàn),提出基于依存句法分析和詞向量結(jié)合的方法,首先,以依存句法分析為基礎(chǔ)構(gòu)建句法詞典,再結(jié)合詞向量技術(shù)可以有效識別領(lǐng)域新詞,但該方法對于開放領(lǐng)域的新詞識別具有局限性[8];Shang等人通過word2vec模型訓(xùn)練得到候選詞與舊詞相似值,在傳統(tǒng)互信息公式中加入相似性增強(qiáng)值的計算,過濾非新詞的固定表達(dá),該算法在小規(guī)模語料庫上取得了不錯的效果,但忽略了句子結(jié)構(gòu)以及停用詞對識別結(jié)果的影響[9];王煜等人通過分析熱點(diǎn)新詞的特性,利用改進(jìn)的FP-tree找到頻繁候選新詞串,在點(diǎn)互信息的基礎(chǔ)上加入時間特征值判斷候選詞的內(nèi)部結(jié)合強(qiáng)度,使得熱點(diǎn)新詞的識別率大幅度提升,但該方法無法適用于大量網(wǎng)絡(luò)文本的新詞發(fā)現(xiàn)[10]。
綜上,現(xiàn)有的新詞發(fā)現(xiàn)方法已取得了較好的識別結(jié)果,但仍存在兩個主要問題:①大多方法默認(rèn)新詞為二字詞或多字詞,未考慮單字詞作為新詞的情況,導(dǎo)致單字新詞無法識別;②忽略了句子結(jié)構(gòu)信息和上下文語義信息對于新詞識別的影響,導(dǎo)致新詞識別的準(zhǔn)確率不高。針對上述問題,本文在新詞發(fā)現(xiàn)過程中,基于字的粒度進(jìn)行統(tǒng)計量的計算,獲取候選新詞集;并基于CNN模型,提出一種依存句法與語義信息結(jié)合的相似性計算模型(similarity computing model based on dependency syntax and semantics,DSSCNN)計算候選詞和舊詞所在句子相似性值,得到最終新詞集合。實(shí)驗(yàn)結(jié)果表明,該算法能夠有效提高新詞識別的精度。
通常將互信息作為詞串成詞概率的內(nèi)部統(tǒng)計量,如果計算得到的互信息值越大,代表詞串內(nèi)部凝聚度越大,相互依賴性越強(qiáng),即更容易組成詞語?;バ畔11]的計算如式(1)所示。
(1)
其中:p(x),p(y)表示詞或單個字x、y單獨(dú)出現(xiàn)在語料中的概率;p(x,y)表示x、y共同出現(xiàn)在語料中的概率;MI(x,y)表示x,y的凝聚程度。
互信息在衡量詞語關(guān)聯(lián)性方面存在非對稱共現(xiàn)問題,即對于一個詞對來說,僅考慮兩個詞的共現(xiàn)概率,忽略了某詞單獨(dú)出現(xiàn)而其他詞沒有單獨(dú)出現(xiàn)的情況。比如:詞語A出現(xiàn)次數(shù)為100,詞語B出現(xiàn)次數(shù)為300,A和B共同出現(xiàn)次數(shù)為100,也就是說,A僅僅與B一塊出現(xiàn)了,但B可能與其他詞共同出現(xiàn)次數(shù)更多,在這種情況下,A中包含B的信息比B中包含A的信息更多,互信息就無法正確衡量A和B的內(nèi)部凝聚度。針對此不足,文獻(xiàn)[3]提出增強(qiáng)互信息(enhanced mutual information,EMI)的定義,如式(2)所示。
(2)
其中:多字候選詞w=w1,w2,…,wS;nw為候選詞w的出現(xiàn)次數(shù);nwi是wi的出現(xiàn)次數(shù);N是文本總數(shù);f是平滑因子,保證nw=nwi時分母不為0。
通常同一新詞可能由3字及以上短語的不同模式組合而成[12],比如“華語LIVE王”具有“華語/LIVE/王”“華語LIVE/王”“華語/LIVE王”等多種不同的組成模式,若對不同的模式分開計算,會導(dǎo)致識別結(jié)果存在冗余。因此,本文對組合成同一新詞不同模式的EMI值取最大值。若同一候選詞共有m種不同的組成模式,只保留該候選詞的最大EMI值(MEMI),如式(3)所示。
MEMI(w)=max(EMI(wi)),
i=1,2,…,m。
(3)
鄰接熵(branch entropy,BE)是HUANG等人提出用來衡量詞串左右相鄰詞串對成詞概率的影響的外部統(tǒng)計量[13],通過計算信息熵得到候選詞左右鄰接詞串的可變性。通常候選詞的左右鄰接串可搭配的字詞越豐富,BE越大。故一般取HL和HR中的較小值,左右鄰接熵的計算分別如式(4)和式(5)所示。
(4)
(5)
其中:Wl是候選詞x的左鄰接字集合;Wr是候選詞x的右鄰接字集合;p(xl|x)表示xl為候選詞x左鄰接字時的概率;p(xr|x)為xr候選詞x右鄰接字時的概率。
若使用傳統(tǒng)鄰接熵計算得到的左右鄰接熵值相等,會默認(rèn)左右鄰接字xl和xr對于候選詞x貢獻(xiàn)的信息量相同。但在實(shí)際文本中,若候選詞的鄰接字為停用詞時,比如標(biāo)點(diǎn)符號、特殊符號、常見字等,候選詞更容易被切分為新詞[14],即左右鄰接字對候選詞能否成詞的貢獻(xiàn)量存在差異。由于網(wǎng)絡(luò)文本口語化嚴(yán)重,存在大量的停用詞,因此,本文在式(4)和式(5)的基礎(chǔ)上賦予鄰接字符權(quán)值,用于區(qū)分鄰接字為停用詞或普通詞時的貢獻(xiàn)程度,加權(quán)后的鄰接熵(weighted branch entropy,WBE)計算如式(6)和式(7)所示。
(6)
(7)
其中,權(quán)值wxl和wxr分別表示左右鄰接字符對于新詞劃分邊界的貢獻(xiàn)大小。
本文面向微博和短視頻評論等網(wǎng)絡(luò)文本進(jìn)行新詞發(fā)現(xiàn),針對傳統(tǒng)基于統(tǒng)計量的新詞發(fā)現(xiàn)算法忽略了新詞與舊詞具有高度相似的句法和語義信息的問題,提出一種改進(jìn)的相似性計算模型過濾無用新詞。
在實(shí)際文本中,某些滿足統(tǒng)計量識別出來的新詞只是一些固定表達(dá),比如“在過程中”“年以來”等,容易被誤判為新詞[9]。并且只基于統(tǒng)計量無法正確識別舊詞新義的網(wǎng)絡(luò)新詞,比如“真香”“塌房”等。因此,本文提出一種相似性判斷原則,即新詞與某些歷史表達(dá)具有較強(qiáng)的關(guān)聯(lián)性,若詞語A與詞語B具有相似的上下文語義信息,并且擔(dān)當(dāng)相同的句子成分或具有相同的依存關(guān)系時,詞語A是一個舊詞,詞語B成為新詞的可能性更大。
通常使用余弦距離等方法直接計算句子相似度會導(dǎo)致語義信息的丟失, 而且網(wǎng)絡(luò)文本大多內(nèi)容簡短且數(shù)據(jù)量較大。 為了獲取局部特征且保證較高的執(zhí)行效率, 本文基于CNN模型, 提出DSSCNN相似性計算模型,DSSCNN模型結(jié)構(gòu)如圖1所示。
圖1 相似性計算模型圖Fig.1 Similarity calculation model
在模型輸入層使用word2vec訓(xùn)練詞向量,生成候選新詞與舊詞所對應(yīng)句子的句子矩陣向量作為輸入。
在句法結(jié)構(gòu)相似性特征表示層,對中心詞分別為候選新詞和舊詞的句子S1和S2進(jìn)行依存句法分析,提取句法分析結(jié)果的依存詞對,表示為三元組WordPair(wi,wj)=(wi,wj,relation),wi為中心詞,wj為從屬詞,relation表示依存關(guān)系。分析文本結(jié)構(gòu),新詞在句中大多充當(dāng)主、謂、賓、定,依存關(guān)系以主謂、動賓、定中、狀中關(guān)系為主,所以句法分析結(jié)果保留以上依存對。在句法結(jié)構(gòu)相似性特征表示層,計算對應(yīng)詞向量w1和w2的相似度,形成句法相似性向量矩陣DM×N,M和N表示兩個句子的中心詞個數(shù),相似度計算公式如式(8)所示。
(8)
其中,n表示詞向量的維度。
兩個句子的依存詞對集合分別為DSetS1和DSetS2,基于依存句法分析結(jié)果,對relation相同的依存對計算余弦相似值,根據(jù)式(9)生成句子的句法結(jié)構(gòu)相似性特征fdep。
Simdep(S1,S2)=
(9)
其中,α是計算余弦相似度的調(diào)整系數(shù),由于不同數(shù)據(jù)集訓(xùn)練生成的詞向量模型不同,得到的相似度值也會存在不同程度的差異,α主要用于放大相似度值,調(diào)整誤差。設(shè)置門限值1,防止調(diào)整后的相似度值超出實(shí)際范圍[-1,1]。max(cos(w,DSetS2))表示在依存詞對集合DSetS2中詞向量與中心詞向量w的最大余弦相似度值。
在卷積和池化層,選擇特定卷積核大小和最大池化方法,獲得句子的特征輸出表示向量o1和o2。在語義相似性計算層,依據(jù)余弦距離計算得出語義相似性特征表示fsem。在全連接層將o1、o2與獲取的相似性特征向量fdep、fsem結(jié)合,形成新的特征向量f。最后使用log-softmax計算相似度值Sim(S1,S2)。
現(xiàn)有的新詞識別方法大多基于詞的粒度,默認(rèn)新詞為二字詞或多字詞,而使用互信息無法計算單字新詞的成詞概率。針對此問題,本文基于字的粒度識別新詞。
若使用現(xiàn)有分詞工具分詞后,將散串作為候選詞會導(dǎo)致新詞無法被正確識別;若采用N-Gram模型獲取初始候選詞,會導(dǎo)致候選詞數(shù)量過于龐大,算法執(zhí)行效率大大降低。因此,本文采用從左向右逐字?jǐn)U展的方法計算相關(guān)統(tǒng)計量獲得候選新詞。
綜上,融合相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)算法先對原始文本數(shù)據(jù)進(jìn)行預(yù)處理;再基于字的粒度,分別計算單字詞頻、最大增強(qiáng)互信息和加權(quán)左右鄰接熵獲取候選新詞集;最后,基于DSSCNN計算新詞與舊詞所在句子相似度,過濾候選新詞。算法的具體步驟如下。
輸入: 原始文本數(shù)據(jù)集text, 詞頻閾值p,MEMI閾值t,WBE閾值k,相似度閾值s
輸出:新詞集合newWords
1)數(shù)據(jù)預(yù)處理。將獲得的文本字符全部轉(zhuǎn)為UTF-8編碼格式;去除掉轉(zhuǎn)發(fā)文本中的標(biāo)識符、主題內(nèi)容及一些特殊字符串,如“@人民日報”等;進(jìn)行斷句操作,保留斷句結(jié)果;將文本中的停用詞使用符號“-”代替。
2)獲取候選單字新詞集。將1)中的句子切分為單字集合,依次計算單字詞頻,若大于詞頻閾值p,將其加入候選單字新詞集合中。
3)獲取候選多字詞。選擇2)中單字與右鄰接字結(jié)合為候選多字詞。
4)判斷最大增強(qiáng)互信息。使用式(3)計算候選多字詞的MEMI值。若大于閾值t,執(zhí)行5);若小于閾值t,將候選多字詞加入候選新詞集。
5)判斷加權(quán)左右鄰接熵。使用式(6)、(7)計算候選多字詞的WHL和WHR值,若均大于閾值k,則向右繼續(xù)擴(kuò)展,執(zhí)行4);若小于閾值k,則返回執(zhí)行3)。
6)獲取候選新詞集。將2)的候選單字新詞集合并到候選新詞集合中。
7)獲取舊詞集合。使用pyltp的cws.model對中文維基百科語料進(jìn)行分詞,使用哈工大停用詞典去停用詞,得到舊詞集合。
8)獲取依存詞對。使用pyltp的parse.model對候選新詞和舊詞所在句子進(jìn)行依存句法分析。獲取以候選新詞和舊詞作為中心詞的依存詞對集合。
9)判斷相似性獲取新詞集合。使用DSSCNN計算候選新詞與舊詞所在句子的相似度。若大于閾值s,則將候選新詞加入新詞集合;若小于閾值s,去除候選新詞。
本文爬取部分微博文本和短視頻評論作為數(shù)據(jù)集,時間集中在2019年12月至2020年9月,包括基于關(guān)鍵字的微博內(nèi)容、部分微博及短視頻的評論信息。共采集數(shù)據(jù)8萬條,該時間段內(nèi)實(shí)時熱搜前十的部分話題微博6萬條,人民日報相關(guān)微博和熱門短視頻的評論文本2萬條。將數(shù)據(jù)集按照4∶1的比例隨機(jī)劃分為訓(xùn)練集和測試集,本文實(shí)驗(yàn)部分所有對比方法均使用此數(shù)據(jù)集。
本文利用N-Gram模型將原始文本劃分為多個候選詞串,因新詞大多由1到6個字符構(gòu)成,故N取值為1~6;再進(jìn)行去重、去停用詞等過濾操作;最后,根據(jù)搜狗新詞細(xì)胞庫等網(wǎng)絡(luò)資源進(jìn)行人工比對,共選取900個新詞作為標(biāo)準(zhǔn)新詞集。通過正確識別出來的新詞個數(shù)與標(biāo)準(zhǔn)新詞集對比,評價新詞發(fā)現(xiàn)算法的優(yōu)劣。采用的算法評價指標(biāo)有準(zhǔn)確率P(precision)、召回率R(recall)和F值(F-measure)。計算公式分別為
(10)
(11)
(12)
其中:AN表示正確識別出的新詞數(shù);N表示識別出的詞語總數(shù);M表示標(biāo)準(zhǔn)新詞集中新詞個數(shù)。
本文使用實(shí)驗(yàn)環(huán)境設(shè)置見表1。確定參數(shù)取值是利用貪心算法的思想,先選擇一個隨機(jī)值,再在一定范圍內(nèi)根據(jù)步長的大小進(jìn)行多次實(shí)驗(yàn),分析實(shí)驗(yàn)結(jié)果,選取F值最大時的參數(shù)值作為最終取值。
表1 實(shí)驗(yàn)環(huán)境配置參數(shù)表Tab.1 Experimental environment configuration parameters
對于調(diào)整參數(shù)α,初始取值為1,在范圍[1,2]內(nèi),設(shè)置步長為0.1,進(jìn)行多次實(shí)驗(yàn)得出F值隨α取值的變化過程如圖2所示,故最終確定α值為1.5。
圖2 調(diào)整參數(shù)α對F值的影響變化圖Fig.2 The influence of adjustment parameter α on F
在確定統(tǒng)計量閾值時,若取值過大,會導(dǎo)致部分有效候選新詞被過濾;若取值過小,劃分的候選詞串?dāng)?shù)量較大,導(dǎo)致新詞識別的準(zhǔn)確率較低。因此,先隨機(jī)設(shè)置初始值,再進(jìn)行反復(fù)實(shí)驗(yàn)不斷調(diào)整。確定詞頻閾值時,初始值設(shè)為5,以步長5在范圍[5,40]內(nèi)進(jìn)行多次實(shí)驗(yàn),當(dāng)F值最大時,閾值為20;再在范圍[10,30]內(nèi),以步長2進(jìn)行多次實(shí)驗(yàn),當(dāng)F值最大時,閾值為20,故最終確定詞頻閾值為20。其他閾值的確定思想同上述過程。經(jīng)反復(fù)實(shí)驗(yàn)對比后,最終設(shè)置詞頻閾值為20,MEMI閾值為10,WBE閾值為5,相似性閾值為0.55。WBE中權(quán)值的設(shè)定主要為了區(qū)分停用詞和普通詞對于劃分邊界的貢獻(xiàn),故當(dāng)鄰接字符為停用詞時,權(quán)值設(shè)置為1.5,相反,鄰接字符為普通詞時,權(quán)值設(shè)置為1。
使用Skip-gram[15]對中文維基百科和訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,設(shè)置上下文窗口值為5,向量維度為50,訓(xùn)練完成后獲得詞向量表。然后對DSSCNN模型進(jìn)行訓(xùn)練,設(shè)置卷積映射個數(shù)為100,卷積核大小為5,迭代次數(shù)為20。
為驗(yàn)證本文提出算法的有效性,共設(shè)置兩組對比實(shí)驗(yàn),實(shí)驗(yàn)1為基于統(tǒng)計量的新詞發(fā)現(xiàn)對比實(shí)驗(yàn),實(shí)驗(yàn)2為融合相似性判斷的新詞發(fā)現(xiàn)對比實(shí)驗(yàn)。
3.4.1 實(shí)驗(yàn)1的結(jié)果與分析 第1組對比實(shí)驗(yàn)是基于統(tǒng)計量的方法,分別選取傳統(tǒng)互信息與左右鄰接熵結(jié)合MI-BE[6]、互信息和加權(quán)左右鄰接熵MI-WBE結(jié)合[14]作為基準(zhǔn)方法,同時和增強(qiáng)互信息與左右鄰接熵組合EMI-BE、最大增強(qiáng)互信息與左右鄰接熵組合MEMI-BE、增強(qiáng)互信息與加權(quán)左右鄰接熵組合EMI-WBE、最大增強(qiáng)互信息與加權(quán)左右鄰接熵組合MEMI-WBE共6種基于統(tǒng)計量的方法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2所示。
表2 基于統(tǒng)計量的實(shí)驗(yàn)結(jié)果對比表Tab.2 Comparison of experimental results based on statistics %
MI-BE采用文獻(xiàn)[6]提出的新詞發(fā)現(xiàn)方法,在進(jìn)行新詞識別的過程中,出現(xiàn)了大量滿足閾值且具有近似含義的重復(fù)詞串,比如“電影院”和“影院”、“飯圈文化”和“文化”等,這些重復(fù)詞串的出現(xiàn)使得新詞識別的準(zhǔn)確率較低。EMI-BE和MEMI-BE可以有效識別共現(xiàn)不均衡的詞語,準(zhǔn)確率和召回率都有一定的提高。
MI-WBE在互信息的基礎(chǔ)上使用加權(quán)左右鄰接熵,對于口語化的微博文本中存在更多的停用詞以及特殊符號,即使出現(xiàn)HL和HR相等的詞,也能夠有效識別新詞邊界。EMI-WBE和MEMI-WBE與之前的實(shí)驗(yàn)相比,實(shí)驗(yàn)結(jié)果值更高。但從圖3可以看出這兩個實(shí)驗(yàn)結(jié)果相差不大,所以,MEMI只針對那些具有多種組成模式的新詞有效果,而且WBE的使用弱化了具有多種模式組合的新詞識別。
MI-BE和MI-WBE均未考慮單字新詞的識別,其余4個實(shí)驗(yàn)基于字的粒度識別出部分單字新詞,如:“卷”“凎”“害”“可”“暈”等,相比MI-BE和MI-WBE,召回率都有了較大的提升,表明本文提出基于字的粒度識別新詞是有效的。
3.4.2 實(shí)驗(yàn)2的結(jié)果與分析 為驗(yàn)證本文提出的相似性計算模型DSSCNN對于新詞識別有效,以相似性增強(qiáng)互信息與左右鄰接熵結(jié)合(SEMI-BE)[9]為基準(zhǔn)方法,使用文獻(xiàn)[16]提出的語義相似性計算模型SSCNN與本文提出的DSSCNN進(jìn)行相似性判斷,分別與基于統(tǒng)計量的6種方法結(jié)合進(jìn)行對比實(shí)驗(yàn),結(jié)果如表3所示。
表3 統(tǒng)計量與相似性判斷結(jié)合的實(shí)驗(yàn)結(jié)果對比表
Tab.3 Comparison of experimental results based on statistics and similarity judgment
方法P/%R/%F/% Baseline[9]SEMI-BE76.2775.6875.97 MI-BE73.3174.2073.75 EMI-BE75.6774.5575.11 SSCNN[16]MEMI-BE76.1675.5875.87 MI-WBE74.1074.6074.35 EMI-WBE76.2078.5977.38 MEMI-WBE78.5080.6879.58 MI-BE77.1078.7277.90 EMI-BE80.9079.4080.14 DSSCNN(本文模型)MEMI-BE81.9782.1082.03 MI-WBE80.3281.1080.71 EMI-WBE84.9685.1585.05 MEMI-WBE85.93 86.49 86.21
實(shí)驗(yàn)2采用的基準(zhǔn)方法是文獻(xiàn)[9]提出基于相似性增強(qiáng)互信息的新詞發(fā)現(xiàn)算法,在MI-BE的基礎(chǔ)上,使用相似性增強(qiáng)互信息公式過濾候選新詞,可以看出識別效果較好。第2組實(shí)驗(yàn)是加入SSCNN模型判斷句子語義相似性進(jìn)行候選新詞的過濾,從實(shí)驗(yàn)結(jié)果可以看出,相比于單獨(dú)使用統(tǒng)計量的方法,加入SSCNN進(jìn)行句子上下文語義信息的判斷使得新詞識別結(jié)果有了較明顯的提升,但總體效果比基準(zhǔn)方法稍差,只有SSCNN-EMI-WBE的召回率和SSCNN-MEMI-WBE方法的結(jié)果略好于基準(zhǔn)方法。主要原因在于,基準(zhǔn)方法通過訓(xùn)練詞向量模型,計算候選詞與舊詞的詞語相似性值,將其加入到MI計算公式中,而SSCNN模型得到的只是候選新詞與歷史表達(dá)句子語義相似。以上方法雖可以有效識別詞義相近的新詞,但對于具有相似句法結(jié)構(gòu)、詞義相差較大的新詞無法正確識別。
本文提出的DSSCNN模型在SSCNN進(jìn)行句子語義相似的基礎(chǔ)上加入句法結(jié)構(gòu)相似性特征。從圖3可以看出,加入DSSCNN的識別效果明顯優(yōu)于僅使用統(tǒng)計量和僅考慮語義相似的方法。通過分析新詞集合,在加入句法和語義結(jié)合的相似性判斷后,不僅能有效過濾掉經(jīng)常出現(xiàn)但不能被認(rèn)為是新詞的固定表達(dá),比如“年以來”等,也能有效識別出部分舊詞新義和中英文結(jié)合的新詞表達(dá),比如“真香”“路人”“slay全場”“duck不必”“打call”等,使得新詞識別的準(zhǔn)確率、召回率及F值都有了較大的提升。表明本文提出的相似性判斷模型DSSCNN對新詞識別是有效的。
圖3 加入相似性判斷前后實(shí)驗(yàn)結(jié)果對比圖Fig.3 Comparison of experimental results before and after adding semantic similarity judgment
本文對獲取到的有效網(wǎng)絡(luò)新詞進(jìn)行分析歸納,將網(wǎng)絡(luò)新詞主要分為縮略詞、新造詞等5個類別,具體描述如表4所示。從表4可以看出,不同于傳統(tǒng)新聞文本,在網(wǎng)絡(luò)文本內(nèi)容中,命名實(shí)體所占比例較少,而由縮略詞和諧音所衍生出的新詞所占比例較大。
本文對新詞發(fā)現(xiàn)方法進(jìn)行研究,提出了一種在統(tǒng)計量計算基礎(chǔ)上,融合句法與語義相似性判斷的網(wǎng)絡(luò)新詞發(fā)現(xiàn)方法。該方法基于字的粒度,計算詞頻、最大增強(qiáng)互信息以及加權(quán)左右鄰接熵等統(tǒng)計量得到候選新詞集,和傳統(tǒng)的統(tǒng)計量計算結(jié)果相比,本文選用的統(tǒng)計量可有效過濾部分重復(fù)含義的詞串,也解決了字詞出現(xiàn)次數(shù)、鄰接字符貢獻(xiàn)不對稱以及多模式組合等問題。根據(jù)新詞與歷史表達(dá)的句法結(jié)構(gòu)與上下文語義相似性原則,本文提出改進(jìn)的相似性計算模型DSSCNN,過濾無效新詞。對比實(shí)驗(yàn)結(jié)果表明,加入相似性判斷
表4 網(wǎng)絡(luò)新詞描述表Tab.4 Description of internet new words
的新詞識別效果有了明顯提升。但使用CNN模型進(jìn)行相似性判斷時,會丟失詞匯的位置順序信息,更適用于短句的相似性計算。在下一步工作中,將主要針對相似性判斷進(jìn)行改進(jìn),希望在提高新詞識別準(zhǔn)確率的同時降低計算復(fù)雜度。