沙 灜, 梁 棋, 王 斌
中國(guó)科學(xué)院信息工程研究所第二研究室 北京 中國(guó) 100093
中文變體詞的識(shí)別與規(guī)范化綜述
沙 灜, 梁 棋, 王 斌
中國(guó)科學(xué)院信息工程研究所第二研究室 北京 中國(guó) 100093
網(wǎng)絡(luò)書(shū)寫(xiě)具有隨意性、非正規(guī)性等特點(diǎn)。變體詞就是網(wǎng)絡(luò)語(yǔ)言作為一種不規(guī)范語(yǔ)言的顯著特色, 人們往往出于避免審查、表達(dá)情感、諷刺、娛樂(lè)等需求將相對(duì)嚴(yán)肅、規(guī)范、敏感的詞用相對(duì)不規(guī)范、不敏感的詞來(lái)代替, 用來(lái)代替原來(lái)詞的新詞就叫做變體詞(Morph)。變體詞和其對(duì)應(yīng)的原來(lái)的詞(目標(biāo)實(shí)體詞)會(huì)分別在非規(guī)范文本和規(guī)范文本中共存, 甚至變體詞會(huì)滲透到規(guī)范文本中。變體詞使行文更加生動(dòng)活潑, 相關(guān)事件、消息也傳播得更加廣泛。但是因?yàn)樽凅w詞通常是某種隱喻, 已不再是其表面字詞的意義了, 從而使網(wǎng)絡(luò)上文體與正式文本(如新聞等)具有巨大的差異。由此如何識(shí)別出這些變體詞及其所對(duì)應(yīng)的目標(biāo)實(shí)體詞對(duì)于下游的自然語(yǔ)言處理技術(shù)具有重要的意義。本文首先介紹了變體詞的定義和特征, 變體詞的生成規(guī)律, 總結(jié)了當(dāng)前變體詞的識(shí)別和規(guī)范化的主要技術(shù)進(jìn)展和成果, 最后是此領(lǐng)域發(fā)展方向的展望。
社交網(wǎng)絡(luò); 變體詞識(shí)別; 變體詞規(guī)范化; 深度學(xué)習(xí); 神經(jīng)網(wǎng)絡(luò); 表示學(xué)習(xí)
作為網(wǎng)絡(luò)信息安全的重要組成部分, 網(wǎng)絡(luò)內(nèi)容安全一直受到工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。特別是近年來(lái), 針對(duì)威脅網(wǎng)絡(luò)內(nèi)容安全的行為研究越來(lái)越多, 已經(jīng)成為內(nèi)容安全新的研究熱點(diǎn)。社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為產(chǎn)生網(wǎng)絡(luò)安全事件的重要源頭, 大量的不良敏感信息通過(guò)社交網(wǎng)絡(luò)平臺(tái)進(jìn)行傳播并進(jìn)一步引起特定事件的爆發(fā), 為了躲避相關(guān)的審查和過(guò)濾,變形詞成為利用自然語(yǔ)言處理技術(shù)來(lái)傳播秘密消息的一種重要而有效的手段(變體詞就是將關(guān)鍵的不良敏感信息用另外不敏感的詞來(lái)代替, 但是不影響理解)。因此研究變體詞的識(shí)別和規(guī)范化對(duì)于網(wǎng)絡(luò)內(nèi)容安全是十分重要的。
目前自然語(yǔ)言處理技術(shù)較多關(guān)注正式的文本。但是隨著互聯(lián)網(wǎng)特別是社交網(wǎng)絡(luò)的發(fā)展, 社交網(wǎng)絡(luò)平臺(tái)已經(jīng)成為人們獲得信息、發(fā)表觀點(diǎn)看法、傳播意見(jiàn)輿論的重要平臺(tái)。根據(jù)社交網(wǎng)絡(luò)的特點(diǎn), 人們傾向于在社交網(wǎng)絡(luò)上使用新式的、自創(chuàng)的語(yǔ)言、術(shù)語(yǔ)和習(xí)慣。這種網(wǎng)絡(luò)語(yǔ)言及其使用習(xí)慣都對(duì)自然語(yǔ)言處理技術(shù)帶來(lái)了沖擊。
采用變體詞是網(wǎng)絡(luò)語(yǔ)言作為一種不規(guī)范語(yǔ)言的顯著特色, 人們往往出于躲避審查、情感、娛樂(lè)等需求將相對(duì)嚴(yán)肅、規(guī)范的詞用相對(duì)不規(guī)范、不敏感的詞來(lái)代替。用來(lái)代替原來(lái)詞的新詞就叫做變體詞(Morph)。變體詞和其對(duì)應(yīng)的目標(biāo)實(shí)體詞(原來(lái)的詞)會(huì)分別在非規(guī)范文本和規(guī)范文本中共存, 甚至變體詞滲透到規(guī)范文本中。
變體詞可以看作是一種特殊的有意隱藏背后的真實(shí)實(shí)體的假名[1,2]。變體詞通常被認(rèn)為是“社會(huì)媒體用戶為了某種目的需要隱藏真實(shí)的實(shí)體或事件,代替這些實(shí)體或事件所采用的化名或假名等”[3]。采用變體詞的目的包括: 采用委婉的說(shuō)法以避免當(dāng)事人的過(guò)激反應(yīng); 表達(dá)對(duì)相關(guān)人或事的強(qiáng)烈的正面或負(fù)面情感; 表達(dá)諷刺或幽默; 使行文更加簡(jiǎn)練; 達(dá)到娛樂(lè)的效果讓實(shí)體或事件描述得更加鮮明有趣, 讓文本傳播更廣。也有惡意用戶發(fā)布不良敏感信息的時(shí)候,為了避免被過(guò)濾會(huì)對(duì)不良敏感詞匯進(jìn)行變形處理。Zhang[4]分析了隨機(jī)選取的548個(gè)變體詞, 其中不良敏感信息的占6.56%, 表達(dá)強(qiáng)烈情感的占15.77%, 使描述更加幽默或生動(dòng)活潑的占25.91%,上述3者都有的占25.32%, 其他的占23.44%。
變體詞可以是一個(gè)具有新意思的常規(guī)詞、現(xiàn)有詞的重新排列組合或者完全是一個(gè)新造的詞。例如,現(xiàn)在各大BBS、博客等討論歷史的版塊, 經(jīng)??梢钥吹接谩俺P申①常凱申, 為蔣介石之錯(cuò)譯名。出自清華大學(xué)歷史系副主任王奇所著《中俄國(guó)界東段學(xué)術(shù)史研究: 中國(guó)、俄國(guó)、西方學(xué)者視野中的中俄國(guó)界東段問(wèn)題》一書(shū)中, 對(duì)Chiang Kai-shek(即蔣的韋氏拼音寫(xiě)法及介石的粵語(yǔ)拼音)的翻譯。”來(lái)代替“蔣介石”。目前變體詞在社交媒體中獲得了廣泛的使用, Chen 等人[3]分析新浪微博的數(shù)據(jù)發(fā)現(xiàn), 提取的37個(gè)主題中有11個(gè)主題的推文中含有變體詞, 甚至有的主題含有5個(gè)變體詞。
實(shí)際上可以將變體詞看作一種反語(yǔ)言(anti- language)。反語(yǔ)言是由著名語(yǔ)言學(xué)家M.A.Halliday提出,是指與主流語(yǔ)言相背離的, 具有自身特有表達(dá)內(nèi)涵的語(yǔ)言形式[5]。反語(yǔ)言具有如下的特征[5]:
1) 反語(yǔ)言是一種全新的構(gòu)詞語(yǔ)言, 在構(gòu)建的過(guò)程中對(duì)詞語(yǔ)進(jìn)行重新編碼, 重新編碼的方式很多,最直接的就是用新出現(xiàn)的詞匯代替之前的詞匯。反語(yǔ)言的語(yǔ)言規(guī)范是一種比喻性表達(dá), 非直譯表達(dá),不能根據(jù)表達(dá)的表面意思進(jìn)行理解, 有一詞多義的現(xiàn)象。
2) 反語(yǔ)言與主流語(yǔ)言的語(yǔ)法大體一致。
3) 反語(yǔ)言中的某些詞匯, 雖然與主流語(yǔ)言中的詞匯一致, 但是其表達(dá)的內(nèi)容與主流語(yǔ)言表達(dá)的內(nèi)容很可能差異非常大。
4) 反語(yǔ)言就像一種密碼, 只有其圈子內(nèi)的人員才能了解明白反語(yǔ)言表達(dá)的內(nèi)容內(nèi)涵, 而外部人員一般是不會(huì)明白的。
由上述的內(nèi)容可知, 變體詞完全符合上述反語(yǔ)言的特征。因此可以借鑒反語(yǔ)言的研究成果加深對(duì)變體詞的理解。
變體詞通常進(jìn)行了某種隱喻, 已不再是其表面字詞的意義了, 因此變體詞的存在使得現(xiàn)有的自然語(yǔ)言處理工具直接應(yīng)用于社交媒體文本時(shí)效果不甚理想, 比如詞性標(biāo)注、依存分析、分詞、命名實(shí)體識(shí)別等, 而很多基于關(guān)鍵詞的算法和應(yīng)用也經(jīng)常達(dá)不到預(yù)期效果, 比如情感分析、事件發(fā)現(xiàn)等。因此, 研究變體詞的識(shí)別和規(guī)范化對(duì)于深度自然語(yǔ)言理解任務(wù)是十分關(guān)鍵和重要的。
變體詞的識(shí)別主要是指在文本中發(fā)現(xiàn)哪些是變體詞, 變體詞的規(guī)范化是指找出變體詞所對(duì)應(yīng)的被替換的目標(biāo)實(shí)體詞。
變體詞的識(shí)別和規(guī)范化可用于自動(dòng)化理解快速演化的社交媒體語(yǔ)言, 幫助人們理解新出現(xiàn)的詞匯,有利于信息提取、語(yǔ)義的深層理解等方面。為下游的自然語(yǔ)言處理任務(wù)提供強(qiáng)有力的支撐, 如命名實(shí)體識(shí)別、分詞、消歧、隱喻識(shí)別、實(shí)體關(guān)聯(lián)等。
此文是對(duì)當(dāng)前變體詞的識(shí)別和規(guī)范化研究進(jìn)展的綜述。主要包括: 變體詞識(shí)別和規(guī)范化的形式化定義; 基于變體詞的特點(diǎn), 綜合分析了變體詞的生成規(guī)律以及變體詞識(shí)別和規(guī)范化的主要難點(diǎn); 當(dāng)前主要研究成果及其代表性工作; 最后是變體詞識(shí)別和規(guī)范化技術(shù)發(fā)展趨勢(shì)的展望。
本文的結(jié)構(gòu)如下:第2節(jié)為變體詞識(shí)別和規(guī)范化的形式化定義; 第3節(jié)詳述了變體詞的特點(diǎn)和生成規(guī)律; 第4節(jié)為變體詞的識(shí)別和規(guī)范化技術(shù); 第5節(jié)是變體詞識(shí)別和規(guī)范化的發(fā)展趨勢(shì); 最后是總結(jié)。
變體詞的識(shí)別和規(guī)范化指發(fā)現(xiàn)變體詞的提及(morph mention)和變體詞的解析(找到變體詞所對(duì)應(yīng)的目標(biāo)實(shí)體詞)。
這里需要注意如果一個(gè)提及的表面形式是與im相同的, 但是如果其指向其原來(lái)的含義, 那么就不認(rèn)為是變體詞的提及。例如, 如果“小馬哥”通過(guò)上下文獲知其指向是電影《英雄本色》里周潤(rùn)發(fā)飾演的角色, 則不是一個(gè)變體詞的提及; 但如果指向的是臺(tái)灣地區(qū)領(lǐng)導(dǎo)人馬英九, 則認(rèn)為是一個(gè)變體詞的提及。
為了實(shí)現(xiàn)對(duì)變體詞的識(shí)別和規(guī)范化, 首先需要分析變體詞的特點(diǎn), 其次分析目前人工產(chǎn)生的變體詞都符合哪些生成規(guī)律。
3.1 變體詞的特點(diǎn)
總的來(lái)說(shuō), 變體詞具有下面的特點(diǎn)。
1) 社交網(wǎng)絡(luò)平臺(tái)對(duì)變體詞的產(chǎn)生和發(fā)展起著至關(guān)重要的推動(dòng)作用。眾多流行的變體詞都是通過(guò)社交網(wǎng)絡(luò)自媒體產(chǎn)生并廣泛傳播的。
2) 絕大多數(shù)變體詞可以看作是基于深層語(yǔ)義和背景知識(shí)的編碼,而不是簡(jiǎn)單的字典式替換,因此變體詞更接近于行話、黑話、術(shù)語(yǔ)等。
3) 變體詞與目標(biāo)實(shí)體詞之間映射關(guān)系不是全射關(guān)系, 多個(gè)變體詞可以對(duì)應(yīng)一個(gè)目標(biāo)實(shí)體詞, 一個(gè)目標(biāo)實(shí)體詞也可以對(duì)應(yīng)多個(gè)變體詞。
4) 變體詞隨著時(shí)間的推移會(huì)迅速演化, 根據(jù)新的新聞熱點(diǎn)、特殊事件不斷地產(chǎn)生新的變體詞。有些變體詞會(huì)逐步消亡, 而有些則可能進(jìn)入規(guī)范文本。
3.2 變體詞的生成規(guī)律
要實(shí)現(xiàn)對(duì)變體詞的高效識(shí)別和規(guī)范化, 首先要了解變體詞是如何生成的。
首先, 早期的變體詞多采用同音異形異義詞,這也是生成變體詞的一個(gè)重要手段。Li等人[6]注意到同音異形異義詞在中文中是十分普遍的, 中文字?jǐn)?shù)雖然很多, 但是語(yǔ)音是有限的。據(jù)統(tǒng)計(jì)中文中80%的單語(yǔ)音字是有歧義的, 而且其中有一半對(duì)應(yīng)5個(gè)甚至更多的字。
其次, 充分利用中文的特點(diǎn)生成變體詞。Chen等人[7]發(fā)現(xiàn)中國(guó)互聯(lián)網(wǎng)用戶喜歡利用中文文字的拆分組合、翻譯、昵稱(chēng)等手段來(lái)創(chuàng)建變體詞。
當(dāng)前變體詞的生成方法逐步豐富, 主要利用深層語(yǔ)義信息、背景知識(shí)、特定事件等綜合生成變體詞。Zhang等人[4]基于548個(gè)隨機(jī)選擇的變體詞, 從社會(huì)認(rèn)知角度分析了人工產(chǎn)生的變體詞的生成方法,總結(jié)了人們創(chuàng)建變體詞的意圖和8個(gè)主要的生成方法。
現(xiàn)將目前分析發(fā)現(xiàn)的變體詞生成方法總結(jié)如表1 [4,6-8]。
4.1 變體詞的識(shí)別和規(guī)范化的挑戰(zhàn)
變體詞的識(shí)別和規(guī)范化不同于傳統(tǒng)的命名實(shí)體識(shí)別等技術(shù), 有自身的難點(diǎn):
1) 含有變體詞的文檔往往不規(guī)范,如社交網(wǎng)絡(luò)上推文、BBS上的帖子等。而且含有變體詞的文本通常為短文本, 含有大量的噪聲, 往往缺乏足夠的上下文。
2) 面向海量的社交網(wǎng)絡(luò)媒體數(shù)據(jù), 變體詞的比例并不大, 因此需要實(shí)現(xiàn)面對(duì)大規(guī)模語(yǔ)料的變體詞快速識(shí)別技術(shù)。當(dāng)前缺乏大量的標(biāo)注數(shù)據(jù), 此還需要關(guān)注可以減少標(biāo)注代價(jià)的識(shí)別技術(shù)。
3) 由變體詞的生成方式和目的所決定其含義通常都是暗示性質(zhì)的, 因此也導(dǎo)致了變體詞通常含有歧義。
4) 變體詞與上下文環(huán)境缺乏其字面所感知意義的關(guān)聯(lián)。在傳統(tǒng)語(yǔ)言中“現(xiàn)代漢語(yǔ)動(dòng)詞的語(yǔ)義特征之間存在著內(nèi)在的意義關(guān)聯(lián)”[9]。但是由變體詞產(chǎn)生的語(yǔ)境所決定的, 在網(wǎng)絡(luò)語(yǔ)言中含有變體詞的很多動(dòng)詞詞組已經(jīng)與其字面所感知的意義毫無(wú)相容之處。
5) 當(dāng)前大量的變體詞是根據(jù)人物映射、歷史背景知識(shí)、特定事件等激發(fā)而產(chǎn)生的。(即表1中第7、8、9種生成方式)。單純基于詞匯上的特征是很難捕捉到的這3種方式所生成的變體詞, 需要利用深層語(yǔ)義信息和上下文。
6) 變體詞及其目標(biāo)實(shí)體詞通常具有不同的傳播渠道和周期, 目標(biāo)實(shí)體詞多出現(xiàn)在規(guī)范文本且相對(duì)比較穩(wěn)定, 而變體詞多出現(xiàn)在非規(guī)范文本, 且隨著時(shí)間迅速演化。
4.2 變體詞的識(shí)別和規(guī)范化技術(shù)
目前變體詞的識(shí)別與規(guī)范化的相關(guān)研究可以分成兩個(gè)部分:
? 變體詞的識(shí)別與規(guī)范化: 識(shí)別出相關(guān)文檔中的變體詞, 并且找到對(duì)應(yīng)的目標(biāo)實(shí)體詞。
? 變體詞的自動(dòng)生成: 分析變體詞的生成規(guī)律,由計(jì)算機(jī)自動(dòng)生成變體詞, 與人工生成變體詞進(jìn)行比較, 分析其自動(dòng)生成的可行性。
表1 變體詞生成規(guī)律總結(jié)
① http://en.wikipedia.org/wiki/Pinyin#Initials_and_finals可以查到容易混淆的拼音組合。
② 出自旅居上海的日本作家村松梢風(fēng)的小說(shuō)《魔都》。
③ 以前臺(tái)灣寫(xiě)到“總統(tǒng)”、“總裁”、“蔣總統(tǒng)”或“蔣中正”時(shí), 都必須使用挪抬(在人名及稱(chēng)謂的前面空一格)以示尊敬。后來(lái)中國(guó)大陸部分網(wǎng)民在提到蔣的姓名、別名、別號(hào)以及綽號(hào)時(shí), 也會(huì)“空一格”(如“千古完人 空一格”)以示調(diào)侃。
④ 源于2013年5月媒體曝光張藝謀嚴(yán)重超生, 當(dāng)時(shí)傳言其育有七個(gè)孩子, 因而被網(wǎng)友謔稱(chēng)“葫蘆爹”。
⑤ 羅永浩曾在新浪微博承諾, 如果錘子Smartisan T1手機(jī)價(jià)格低于2500, 就是孫子。發(fā)售不久該手機(jī)價(jià)格即降到1980元, 網(wǎng)民遂稱(chēng)之“公孫”, 意為“公共的孫子”。
⑥ 一名網(wǎng)絡(luò)寫(xiě)手, 被稱(chēng)作“帶魚(yú)”是因?yàn)樵谝黄恼轮新暦Q(chēng)浙江舟山有養(yǎng)殖帶魚(yú), 后經(jīng)調(diào)查發(fā)現(xiàn)目前尚無(wú)人工養(yǎng)殖帶魚(yú)技術(shù)。
下面分別介紹當(dāng)前的主要進(jìn)展和代表性成果。
4.2.1 變體詞的識(shí)別與規(guī)范化
通用的變體詞識(shí)別與規(guī)范化的架構(gòu)如圖1所示,包括如下步驟:
1) 變體詞的識(shí)別: 候選變體詞的發(fā)現(xiàn), 候選變體詞的驗(yàn)證。
2) 變體詞的規(guī)范化: 變體詞的候選目標(biāo)實(shí)體詞的發(fā)現(xiàn), 變體詞的候選目標(biāo)實(shí)體詞的打分排序, 輸出最優(yōu)的目標(biāo)實(shí)體詞。
圖1 通用的變體詞識(shí)別與規(guī)范化的架構(gòu)圖
明確的變體詞概念出現(xiàn)在[3][10]以及同時(shí)期相關(guān)的論文中, 但是變體詞的相關(guān)技術(shù)一直在不良文本過(guò)濾、社交媒體文本規(guī)范化等領(lǐng)域有所體現(xiàn)。
綜合上述研究成果, 下面主要從變體詞的識(shí)別與規(guī)范化的技術(shù)角度來(lái)進(jìn)行闡述。
變體詞的識(shí)別與規(guī)范化基本上就是從3.2節(jié)介紹的變體詞的生成規(guī)律入手, 由易到難。
? 早期主要是基于規(guī)則處理一些簡(jiǎn)單的相似的字符、數(shù)字之間轉(zhuǎn)換的情況。
? 后續(xù)逐步注意到中文漢字的特點(diǎn): 如同音異形異義字、縮寫(xiě)、語(yǔ)音的替換, 拆字組字等。
? 然后從中文英文的對(duì)比分析入手, 增加了翻譯、音譯等識(shí)別手段。
? 目前逐步增加了基于語(yǔ)義表示的分析和比較,特別是隨著深度學(xué)習(xí)的興起, 研究人員開(kāi)始利用神經(jīng)網(wǎng)絡(luò)獲得變體詞及其目標(biāo)實(shí)體詞的語(yǔ)義特征, 然后通過(guò)比較詞向量的相似度來(lái)實(shí)現(xiàn)變體詞的識(shí)別和規(guī)范化。
但是針對(duì)人物映射、特定事件、特定歷史背景知識(shí)生產(chǎn)的變體詞的識(shí)別和規(guī)范化目前還缺乏有效的技術(shù)手段。今后的方向應(yīng)該更進(jìn)一步深入到語(yǔ)義理解層面, 只有從深層語(yǔ)義層面把握變體詞及其目標(biāo)實(shí)體詞之間的差異性和相似性, 才能進(jìn)一步提高識(shí)別的準(zhǔn)確度, 提高針對(duì)人物映射、特定事件、特定歷史背景知識(shí)生產(chǎn)的變體詞的識(shí)別和規(guī)范化的能力。
1) 基于規(guī)則的識(shí)別和規(guī)范化方法
最早與變體詞相關(guān)的研究主要有網(wǎng)絡(luò)不良文本的過(guò)濾技術(shù)[11,12], 前期主要使用精確匹配、分類(lèi)器等方法。但是發(fā)現(xiàn)變體詞的出現(xiàn)會(huì)嚴(yán)重影響到過(guò)濾的準(zhǔn)確度。因此逐步引入了對(duì)變體詞的處理, 具體包括:首先通過(guò)觀察變體詞總結(jié)變體詞的變體規(guī)則, 進(jìn)一步提取變體詞的bigram、詞干等特征基于分類(lèi)的方法實(shí)現(xiàn)對(duì)變體詞的識(shí)別, 或者根據(jù)漢語(yǔ)的語(yǔ)音特點(diǎn)建立語(yǔ)音映射模型, 基于語(yǔ)音的相似性度量實(shí)現(xiàn)對(duì)變體詞的識(shí)別。
Yoon[13]總結(jié)發(fā)現(xiàn)某些變體詞實(shí)際上是將某些字母轉(zhuǎn)化成形狀相似的特殊字符, 如“shit”轉(zhuǎn)換成“sh!t”。陳儒等人[14]提出了針對(duì)中文網(wǎng)絡(luò)的5種變體詞變異規(guī)則: 1)對(duì)關(guān)鍵詞進(jìn)行同音字替換或拼音替換; 2)對(duì)關(guān)鍵詞進(jìn)行拆分; 3)在關(guān)鍵詞中插入無(wú)意義的非漢字符合; 4)關(guān)鍵詞的組合; 5)上述4種方法的組合。李鈍等人[15]根據(jù)ASCII碼, 繁體BIG碼, 簡(jiǎn)體中文GB2312碼等不同編碼的固定編碼規(guī)則, 建立變體詞變體規(guī)則識(shí)別出信息中夾雜的漢字拼音、簡(jiǎn)繁體混排、特殊符號(hào)等。
Sood[16]在對(duì)不良文本及其變體信息進(jìn)行檢測(cè)的時(shí)候, 采用機(jī)器學(xué)習(xí)的方法, 通過(guò)采用bigram、詞干等作為特征值來(lái)對(duì)文本信息做分類(lèi)分析, 以檢測(cè)出變體詞。李少卿[17]針對(duì)拉丁語(yǔ)或英語(yǔ), 從語(yǔ)音相似和字形相似等角度來(lái)計(jì)算不良文本變體的相似度, 基于相似度來(lái)對(duì)不良文本變體進(jìn)行檢測(cè)。
Xia[18]和Wong[19]考慮中文聊天室等環(huán)境下動(dòng)態(tài)非規(guī)范語(yǔ)言的規(guī)范化問(wèn)題, 以標(biāo)準(zhǔn)漢語(yǔ)語(yǔ)料庫(kù)為基礎(chǔ)建立了漢字的語(yǔ)音映射模型, 對(duì)信源/信道模型進(jìn)行擴(kuò)展(eXtended Source Channel Model, XSCM),然后基于漢字語(yǔ)音之間的相似度進(jìn)行替換, 但需要手工確定相似度的權(quán)重。
2) 基于統(tǒng)計(jì)和規(guī)則的識(shí)別和規(guī)范化方法
主要是將統(tǒng)計(jì)的方法與規(guī)則的方法相結(jié)合, 分別提取統(tǒng)計(jì)特征和基于規(guī)則的特征, 建立變體詞與目標(biāo)實(shí)體詞之間的映射關(guān)系, 然后通過(guò)分類(lèi)的方法基于上下文相似性和字面相似性實(shí)現(xiàn)對(duì)變體詞的規(guī)范化。
Wang[20]從規(guī)范化角度通過(guò)語(yǔ)音建立了漢字-漢字之間的映射關(guān)系, 通過(guò)縮寫(xiě)建立了漢字-詞的映射關(guān)系, 通過(guò)意譯建立了字-詞, 詞-詞的映射關(guān)系。Choudhury[21]針對(duì)SMS文本, 提出了一種基于隱馬爾可夫模型的文本規(guī)范化方法, 通過(guò)構(gòu)造常用縮寫(xiě)和非規(guī)范用法的詞典, 可以部分解決一對(duì)多的問(wèn)題。Cook[22]通過(guò)引入無(wú)監(jiān)督的噪聲信道模型對(duì)Choudhury提出的模型進(jìn)行了擴(kuò)展, 模型對(duì)常用縮寫(xiě)形式和各種不同拼寫(xiě)錯(cuò)誤類(lèi)型進(jìn)行了概率建模。
還有通過(guò)構(gòu)建規(guī)范化詞典用于文本規(guī)范化任務(wù)。例如, Han[23]首先訓(xùn)練分類(lèi)器用于識(shí)別非規(guī)范詞候選, 然后使用詞音相似度得到規(guī)范化候選, 最后利用字面相似度和上下文特征找出最佳的規(guī)范化候選。Han[24]又提出基于上下文相似性和字面相似性構(gòu)建規(guī)范化詞典進(jìn)行推特文本的規(guī)范化, 使用詞袋模型表示上下文分布, 然后兩兩之間計(jì)算上下文分布相似度。
Li[25]提出了一個(gè)基于規(guī)則和數(shù)據(jù)驅(qū)動(dòng)的對(duì)數(shù)線性模型從互聯(lián)網(wǎng)語(yǔ)料中對(duì)規(guī)范與非規(guī)范中文短語(yǔ)的關(guān)系進(jìn)行挖掘和建模, 主要針對(duì)同音異形異義詞、縮略語(yǔ)、首字母縮寫(xiě)詞、音譯等。他們注意到一個(gè)現(xiàn)象, 有時(shí)可以在非規(guī)范短語(yǔ)附近發(fā)現(xiàn)對(duì)應(yīng)的規(guī)范短語(yǔ)。Li[25]主要是通過(guò)搜索引擎來(lái)發(fā)現(xiàn)非規(guī)范詞-規(guī)范詞對(duì)。此方法對(duì)于定義良好和高頻的詞效果比較好, 但是嚴(yán)重依賴(lài)于搜索引擎返回的結(jié)果。
3) 基于語(yǔ)義表示的識(shí)別和規(guī)范化方法
現(xiàn)有從語(yǔ)義角度入手變體詞的識(shí)別與規(guī)范化的主要是基于分布假設(shè)和語(yǔ)義組合假設(shè)。1954 年, Harris 提出分布假說(shuō)(distributional hypothesis),即“上下文相似的詞,其語(yǔ)義也相似”[26]。德國(guó)數(shù)學(xué)家弗雷格(GottlobFrege)在 1892 年提出:一段話的語(yǔ)義由其各組成部分的語(yǔ)義以及它們之間的組合方法所確定[27]。為了得到句子和文檔級(jí)別的語(yǔ)義表示,一般可以采用語(yǔ)義組合的方式。
基于分布假設(shè), 給定一個(gè)變體詞, 如果另一個(gè)詞與之上下文相似, 則可以初步推斷這個(gè)詞很可能就是變體詞的目標(biāo)實(shí)體詞。而上下文語(yǔ)義的獲取則可以基于語(yǔ)義組合的方式。
因此基于語(yǔ)義表示的方法主要是根據(jù)一定時(shí)間窗口內(nèi)變體詞和目標(biāo)實(shí)體詞是相關(guān); 根據(jù)社交媒體的動(dòng)態(tài)特性提取變體詞和目標(biāo)實(shí)體詞的時(shí)空分布;對(duì)多個(gè)數(shù)據(jù)源數(shù)據(jù)進(jìn)行對(duì)比分析; 對(duì)用戶的行為建模,用社交行為的相關(guān)性來(lái)輔助語(yǔ)義相似性測(cè)量。
Huang等人[11]研究在給定變體詞的情況下, 挖掘跨數(shù)據(jù)源可比較語(yǔ)料的時(shí)空限制, 找到對(duì)應(yīng)的目標(biāo)實(shí)體詞。其基本框架如圖2所示[11]。給定一個(gè)變體詞查詢(xún),獲取多數(shù)據(jù)源的數(shù)據(jù), 進(jìn)行對(duì)比分析,基于語(yǔ)義標(biāo)注找到候選目標(biāo)詞集, 然后根據(jù):字面特征(surface features)、語(yǔ)義特征(semantic features)、社交特征(social features)等對(duì)候選目標(biāo)詞集進(jìn)行打分,最終獲得目標(biāo)實(shí)體詞。
圖2 變體詞的識(shí)別與解析流程圖[11]
其中社會(huì)特征主要是對(duì)用戶的行為建模, 用社交行為的相關(guān)性來(lái)輔助語(yǔ)義相似性測(cè)量。因?yàn)橛^察發(fā)現(xiàn)變體詞和對(duì)應(yīng)目標(biāo)實(shí)體詞的用戶往往具有相似興趣和觀點(diǎn)意見(jiàn)。
其不足主要在于: 此方法是在給定變體詞的情況下, 并且使用了大量的標(biāo)注數(shù)據(jù)。此方法做到了語(yǔ)料級(jí)別, 但是不是提及級(jí)別。此方法嚴(yán)重依賴(lài)于變體詞的多個(gè)實(shí)例的聚合上下文和時(shí)空信息。
Zhang等人[28]提出了一個(gè)端到端的無(wú)監(jiān)督的方法,基于深度學(xué)習(xí)實(shí)現(xiàn)對(duì)變體詞及其目標(biāo)實(shí)體詞的映射關(guān)系的發(fā)現(xiàn)。文章基本上按照?qǐng)D1的步驟進(jìn)行: 1)基于4類(lèi)特征(基本特征、特征字典、語(yǔ)音、語(yǔ)言模型)的分類(lèi)問(wèn)題來(lái)發(fā)現(xiàn)潛在的變體詞; 2)采用半監(jiān)督學(xué)習(xí)方法利用小規(guī)模已標(biāo)注數(shù)據(jù)集對(duì)大規(guī)模未標(biāo)注數(shù)據(jù)集的變體詞提及進(jìn)行驗(yàn)證; 3)在發(fā)現(xiàn)目標(biāo)實(shí)體詞階段提出了2個(gè)算法: 基于多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)和連續(xù)詞袋模型。
基于多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)如圖3所示。但是效果不好, 因?yàn)榻⒃~向量的時(shí)候主要是采用wikipedia的數(shù)據(jù)進(jìn)行訓(xùn)練, 但是wikipedia和含有變體詞的社交媒體文本有很大的不同。第2個(gè)算法采用連續(xù)詞袋模型(如圖4所示)訓(xùn)練推文, 獲得變體詞和實(shí)體詞的語(yǔ)義表示, 比較兩者的相似度。
圖3 多數(shù)據(jù)源的監(jiān)督學(xué)習(xí)
圖4 連續(xù)詞袋模型
其端到端的變體詞的識(shí)別與規(guī)范化的性能與Huang[10]方法的比較如表2所示, 這也是目前比較好的結(jié)果, 從中可以看出對(duì)社會(huì)媒體的變體詞識(shí)別與規(guī)范化還有很大的提升空間。
表2 端到端變體詞的識(shí)別與規(guī)范化的性能比較
4) 與其他應(yīng)用的結(jié)合
因?yàn)樽凅w詞的識(shí)別與規(guī)范化與下游的自然語(yǔ)言處理任務(wù)實(shí)際上是相互影響相互作用的, 例如分詞。因此可以將變體詞任務(wù)與下游的任務(wù)結(jié)合起來(lái), 形成一個(gè)閉環(huán)相互反饋相互提高。
Wang[29]將中文微博變體詞的發(fā)現(xiàn)與中文分詞結(jié)合起來(lái)。這兩個(gè)本身就是相互依賴(lài)的, Wang提出了2層FCRF(階乘條件隨機(jī)場(chǎng))模型。在將兩者結(jié)合起來(lái)后,兩者的性能都有所提高。而且此文也注意到此方法發(fā)生錯(cuò)誤的地方, 包括: 觀察到的非規(guī)范詞不完整的時(shí)候; 特別短的句子(非規(guī)范的詞本身就構(gòu)成了一個(gè)句子, 與上下文的句子語(yǔ)用是相關(guān)的, 但是詞匯上的相關(guān)性很弱); 隨心所欲創(chuàng)造的新的命名實(shí)體。
還有采用基于圖的方法。Hassan[30]提出了一種基于二部圖隨機(jī)游走的方法, 該方法首先通過(guò)隨機(jī)游走得到全局優(yōu)化的基于上下文相似性的規(guī)范化候選列表, 然后利用非規(guī)范詞與規(guī)范詞之間的字面相似度, 對(duì)規(guī)范化候選列表進(jìn)行排序。S?nmez[31]提出了一種綜合使用字面特征、上下文特征和語(yǔ)法特征的社交媒體規(guī)范化方法, 其中上下文特征和語(yǔ)法特征是從構(gòu)建好的詞關(guān)聯(lián)圖中得到。
綜上所述, 目前基于語(yǔ)義的變體詞的識(shí)別和規(guī)范化的基本思路如下:
1) 基于變體詞及其目標(biāo)實(shí)體詞的特征使用分類(lèi)的方法對(duì)變體詞進(jìn)行初篩, 采用的特征包括: 字面上的特征, 語(yǔ)音上的特征, 語(yǔ)言模型, 基于生成規(guī)律總結(jié)的規(guī)則。
2) 基于變體詞及其目標(biāo)實(shí)體詞的時(shí)空分布假設(shè)進(jìn)行驗(yàn)證, 包括: 兩者時(shí)間上分布的相似性, 共現(xiàn)、共指的規(guī)律, 所屬用戶的興趣、行為相似性。
3) 基于神經(jīng)網(wǎng)絡(luò)獲得變體詞及其目標(biāo)實(shí)體詞的語(yǔ)義表示, 通過(guò)語(yǔ)義相似度比較對(duì)候選目標(biāo)實(shí)體詞進(jìn)行打分排序。
4.2.2 變體詞的自動(dòng)生成
變體詞的自動(dòng)生成即分析人工生成的變體詞,總結(jié)其生成規(guī)范, 基于規(guī)則或統(tǒng)計(jì)的方法實(shí)現(xiàn)變體詞的自動(dòng)生成, 使行文更加生動(dòng)有趣, 使相關(guān)主題、事件傳播的更加廣泛。變體詞的自動(dòng)生成與變體詞的識(shí)別實(shí)際上是相輔相成, 相互促進(jìn)的, 變體詞的自動(dòng)生成技術(shù)也會(huì)促進(jìn)其識(shí)別和規(guī)范化技術(shù)的進(jìn)步。
變體詞的自動(dòng)生成
基于3.2節(jié)介紹的變體詞的生成規(guī)則, 除了最后三條規(guī)則外, 其他的都可以由計(jì)算機(jī)自動(dòng)生成。最后三條生成規(guī)則需要增加相關(guān)的人物、特定事件、歷史和背景的知識(shí)。
首先出現(xiàn)的就是自動(dòng)生成同音異形異義的變體詞。中文是一個(gè)音調(diào)語(yǔ)言, 每個(gè)字的音是由根音(root sound)和它的音調(diào)決定的。有些字通過(guò)多個(gè)語(yǔ)音來(lái)代表不同的意思。從漢語(yǔ)的特征出發(fā), 詞由字組成, 由音調(diào)來(lái)決定一個(gè)字的意思, 字的意思組合構(gòu)成了詞的意義。雖然中文的書(shū)寫(xiě)只有一種標(biāo)準(zhǔn), 但是存在著各種各樣的方言。雖然音調(diào)的改變會(huì)改變一個(gè)字的意思, 但是人們通常會(huì)通過(guò)上下文來(lái)判斷出一個(gè)不準(zhǔn)確的音調(diào)背后的真實(shí)的意思。
Hiruncharoenvate[32]研究針對(duì)新浪微博自動(dòng)生成非確定的同音異形異義的變體詞, 并且不影響用戶的理解。Hiruncharoenvate從新浪微博的語(yǔ)料中計(jì)算字的出現(xiàn)頻率, 共獲得12,166個(gè)字, 419個(gè)根音(忽略音調(diào)), 其中有3365個(gè)字含有多個(gè)根音。根據(jù)字的出現(xiàn)頻率, 計(jì)算了每個(gè)根音中各個(gè)字所占的百分比。
對(duì)應(yīng)字c及其對(duì)應(yīng)的語(yǔ)音r,計(jì)算r的百分比p: c對(duì)也發(fā)語(yǔ)音r的其他字符的相對(duì)頻率。若一個(gè)詞W由組成, 則W的同音異形異義詞Wi由每個(gè)字的同音異形異義詞組合而成通過(guò)下面的公式來(lái)計(jì)算一個(gè)同音異形異義詞的頻率分?jǐn)?shù):
為了避免選擇冷僻的詞會(huì)對(duì)包含冷僻的詞的組合進(jìn)行懲罰。為了保證每個(gè)不會(huì)選擇同一個(gè)同音異形異義詞, 會(huì)隨機(jī)從前20個(gè)中進(jìn)行選擇。
Zhang[4]根據(jù)表1變體詞生成規(guī)律中: 語(yǔ)音替換、漢字的拆分、昵稱(chēng)、翻譯和意譯、語(yǔ)義解釋的定義通過(guò)計(jì)算機(jī)實(shí)現(xiàn)了變體詞的自動(dòng)生成。針對(duì)人物映射, 嘗試了基于歷史人物映射的變體詞的自動(dòng)生成:收集了38個(gè)著名的歷史人物, 包括: 政治家、國(guó)王、詩(shī)人、將軍、總理、學(xué)者等。
Zhang還提出了一種叫做特征建模的變體詞生成方式。首先收集盡可能多的語(yǔ)料, 然后基于上述語(yǔ)料使用谷歌(Google)的Word2vec計(jì)算出所有詞向量。給定一個(gè)實(shí)體詞,計(jì)算語(yǔ)料中的詞與這個(gè)詞的語(yǔ)義關(guān)系,然后根據(jù)余弦相似度、正面傾向性、負(fù)面傾向性、是否低頻等綜合指標(biāo)進(jìn)行排序, 把排序前面的詞加上原來(lái)實(shí)體詞的姓,形成一個(gè)新的變體詞。文章中的例子是: 姚明=>姚奇才。
變體詞的評(píng)測(cè)
目前變體詞生成效果的評(píng)測(cè)主要是采用用戶問(wèn)卷調(diào)查的方式[4,32], 用戶在看到含有變體詞的媒體內(nèi)容后回答問(wèn)題。這些問(wèn)題主要包括: 1)哪個(gè)是變體詞,指向的目標(biāo)實(shí)體詞是哪個(gè)?是否合適?2)理解內(nèi)容是否有困難?3)變體詞是否讓內(nèi)容有趣?
調(diào)查結(jié)果[4,32]顯示計(jì)算機(jī)自動(dòng)生成的變體詞可以達(dá)到66%人工生成達(dá)到的效果。而且基于翻譯與意譯的方法, 計(jì)算機(jī)產(chǎn)生的結(jié)果要優(yōu)于人工生成的,可能的原因是計(jì)算機(jī)搜索的字典空間更大。一個(gè)有趣的現(xiàn)象是評(píng)測(cè)的人只能理解76%的人工產(chǎn)生的變體詞, 可能的原因是: 1)變體詞新近產(chǎn)生的, 還不能很好地描述目標(biāo)實(shí)體詞的特征; 2)評(píng)測(cè)的人如果沒(méi)有跟蹤當(dāng)前的熱點(diǎn), 或者不具備相應(yīng)的背景知識(shí), 則很難理解此變體詞。在趣味性方面,人工產(chǎn)生的變體詞要優(yōu)于計(jì)算機(jī)自動(dòng)生成的變體詞。
Zhang[4]用Huang[10]的變體詞的識(shí)別和規(guī)范化方法來(lái)驗(yàn)證他們從新浪微博提取的人工產(chǎn)生的151個(gè)變體詞和計(jì)算機(jī)自動(dòng)生成的247變體詞。結(jié)果發(fā)現(xiàn),計(jì)算機(jī)自動(dòng)生成的變體詞更不容易被發(fā)現(xiàn), 畢竟此變體詞的識(shí)別系統(tǒng)是基于人工產(chǎn)生的變體詞進(jìn)行訓(xùn)練的, 計(jì)算機(jī)自動(dòng)生成的變體詞的某些特征還沒(méi)有被此識(shí)別系統(tǒng)所掌握。但是計(jì)算機(jī)自動(dòng)生成的變體詞的規(guī)范化準(zhǔn)確度要高于人工生成的, 可能的原因是人工生成的變體詞的含義更加隱蔽。
目前還缺乏對(duì)自動(dòng)生成的變體詞的評(píng)價(jià)標(biāo)準(zhǔn)和機(jī)制, 主要還是采用人工判斷的方式。這里的自動(dòng)化評(píng)價(jià)標(biāo)準(zhǔn)主要是指如何判斷自動(dòng)生成的變體詞是否符合網(wǎng)絡(luò)用戶使用語(yǔ)言的習(xí)慣, 是否達(dá)到人工生成的變體詞的水準(zhǔn), 富有生動(dòng)活潑的特性, 易于被人接受和傳播等等。
4.3 總結(jié)
綜上所述, 雖然變體詞的識(shí)別和規(guī)范化技術(shù)獲得了長(zhǎng)足的進(jìn)步, 但是還有很多空白的領(lǐng)域有待研究。
1) 識(shí)別和規(guī)范化的準(zhǔn)確度還有待提高, 目前最好的結(jié)果: F1值為38.3;
2) 目前還缺乏對(duì)人物映射、特定事件、歷史和背景知識(shí)(即第7,8,9種變體詞生成規(guī)則)產(chǎn)生的變體詞的有效的識(shí)別和規(guī)范化手段;
3) 缺乏對(duì)變體詞的演化規(guī)律的研究; 變體詞也是在不斷地發(fā)展變化, 同一個(gè)目標(biāo)實(shí)體詞在不同的時(shí)期會(huì)有不同的變體詞, 其中有無(wú)規(guī)律可循, 這些變體詞的共同點(diǎn)和差異點(diǎn)。研究變體詞的演化規(guī)律也就是研究網(wǎng)絡(luò)語(yǔ)言的演化規(guī)律。
4) 變體詞的自動(dòng)生成及其相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)和手段方面還缺乏足夠的研究成果。
目前變體詞的識(shí)別與規(guī)范化需要迫切解決的問(wèn)題主要有:
1) 提高變體詞識(shí)別與規(guī)范化的準(zhǔn)確度。
2) 找到基于人物映射、特定事件、歷史和背景知識(shí)產(chǎn)生的變體詞的識(shí)別與規(guī)范化方法。
3) 變體詞的演化規(guī)律及其對(duì)網(wǎng)絡(luò)語(yǔ)言的影響。
4) 變體詞的自動(dòng)生成技術(shù)及其評(píng)價(jià)標(biāo)準(zhǔn)。
以上4點(diǎn)實(shí)際上是相通的, 其本質(zhì)問(wèn)題就是要加深對(duì)變體詞的理解。這里以往都是強(qiáng)調(diào)變體詞與目標(biāo)實(shí)體詞的相似性, 實(shí)際上需要從相似性和差異性?xún)蓚€(gè)角度進(jìn)行思考。
5.1 變體詞及其目標(biāo)實(shí)體詞之間的相似性與差異性
對(duì)變體詞的生成規(guī)律的理解需要從相似性和差異性?xún)蓚€(gè)方面來(lái)對(duì)變體詞及其目標(biāo)實(shí)體詞進(jìn)行對(duì)比分析。
1) 變體詞和目標(biāo)實(shí)體詞的相同之處
只有識(shí)別出了變體詞和目標(biāo)實(shí)體詞的相同之處,才可能找到變體詞所對(duì)應(yīng)的目標(biāo)實(shí)體詞。
首先變體詞的語(yǔ)義和目標(biāo)實(shí)體詞的語(yǔ)義應(yīng)該是一致的, 這也是變體詞能夠產(chǎn)生的原因。變體詞和目標(biāo)實(shí)體詞的語(yǔ)義相似性主要體現(xiàn)在文檔級(jí)別、句子級(jí)別和字的級(jí)別。而詞級(jí)別的應(yīng)該主要是體現(xiàn)變體詞和目標(biāo)實(shí)體詞之間的差異性。
變體詞的字面組合(surface name)與目標(biāo)實(shí)體詞應(yīng)該也具有一定相似性, 其字面組合的意義也可以用來(lái)輔助對(duì)變體詞的目標(biāo)實(shí)體詞的發(fā)現(xiàn)。因此需要基于語(yǔ)義表示來(lái)研究變體詞的surface name與目標(biāo)實(shí)體詞之間的共同特征以及在圖上、詞向量空間上如何展示。
2) 變體詞和目標(biāo)實(shí)體詞的不同之處
只有識(shí)別出變體詞和目標(biāo)實(shí)體詞的不同之處,我們才可能在語(yǔ)料中找到變體詞。
兩者之間的差異性應(yīng)該主要體現(xiàn)在語(yǔ)義表示上的詞的級(jí)別。這種差異性主要體現(xiàn)在語(yǔ)義上, 而上層文檔、句子的語(yǔ)義相似性可以提供發(fā)現(xiàn)這種差異性的線索, 而知識(shí)圖譜、社交媒體的關(guān)系也可以提供輔助信息, 加快這種搜索的過(guò)程。
以往只強(qiáng)調(diào)了變體詞和目標(biāo)實(shí)體詞的相似性,實(shí)際上應(yīng)該是相似性和差異性的權(quán)衡, 即“存大同,求小異”, 這樣才能體現(xiàn)變體詞和目標(biāo)實(shí)體詞之間的微妙關(guān)系。
因此在充分研究?jī)烧呦嗨菩院筒町愋曰A(chǔ)上,總結(jié)出變體詞的特性和使用變體詞的規(guī)律, 然后才能提到識(shí)別的方法。因此需要對(duì)變體詞及其目標(biāo)實(shí)體詞的特征進(jìn)行分析, 分析語(yǔ)義表示中各節(jié)點(diǎn)之間的相似性和差異性。在獲得變體詞和目標(biāo)實(shí)體詞之間的相似性和差異性之后, 進(jìn)一步依托句子、文檔級(jí)的語(yǔ)義表示, 研究變體詞和目標(biāo)實(shí)體詞的使用環(huán)境的相似性和差異性。
為了能夠高效地識(shí)別變體詞, 并解析出變體詞的目標(biāo)實(shí)體詞, 首先需要對(duì)變體詞及其目標(biāo)實(shí)體詞準(zhǔn)確地給出語(yǔ)義上的描述, 即能體現(xiàn)兩者的差異性(這些才能判斷某提及是否是變體詞), 又能展示兩者的深層語(yǔ)義聯(lián)系(這樣才能解析出其目標(biāo)實(shí)體詞)。因此首先要研究能夠體現(xiàn)這種“求大同, 存小異”的合適的語(yǔ)義描述, 可以通過(guò)神經(jīng)網(wǎng)絡(luò)分別構(gòu)建字/詞級(jí)別、句子級(jí)別和文檔級(jí)別的語(yǔ)義表示來(lái)體現(xiàn)這種“大同, 小異”。
5.2 變體詞及其目標(biāo)實(shí)體詞的語(yǔ)義表示
基于人物映射、歷史與背景知識(shí)、特定事件下產(chǎn)生的變體詞的識(shí)別和規(guī)范化實(shí)際上與研究變體詞的演化規(guī)律是相通的。上述3種變體詞的識(shí)別和規(guī)范化需要在一個(gè)長(zhǎng)的時(shí)間窗口內(nèi)及時(shí)捕捉到相關(guān)事件的發(fā)生、發(fā)展、消亡, 獲取到更豐富長(zhǎng)期的背景知識(shí)和人物關(guān)系映射, 研究變體詞及其目標(biāo)實(shí)體詞的動(dòng)態(tài)演化規(guī)律也會(huì)輔助提高變體詞的識(shí)別的準(zhǔn)確度,因此需要能夠體現(xiàn)這種動(dòng)態(tài)演化的語(yǔ)義表示。
因此需要在表達(dá)能力強(qiáng)的語(yǔ)義表示基礎(chǔ)上, 充分利用多源多維度的信息, 充分利用社交媒體的關(guān)系信息, 利用相關(guān)知識(shí)圖譜的先驗(yàn)知識(shí), 以提高識(shí)別的準(zhǔn)確度。
自2006年Geoffrey Hinton等人發(fā)表了關(guān)于深度學(xué)習(xí)的文章[33], 深度學(xué)習(xí)逐漸受到了來(lái)自不同領(lǐng)域的研究者們廣泛的關(guān)注。近年來(lái), 深度學(xué)習(xí)技術(shù)也越來(lái)越多的被應(yīng)用到自然語(yǔ)言處理當(dāng)中, 其中一種重要的應(yīng)用方式就是通過(guò)深度學(xué)習(xí)技術(shù)學(xué)習(xí)到一種重要的詞匯表達(dá)方式, 即詞向量[34,35](又叫word embedding或word representation), 是指用一個(gè)N維的向量來(lái)表示詞匯, 其中的每一維都是相應(yīng)詞語(yǔ)的隱含特征。一般來(lái)說(shuō), 詞向量包含了有用的句法、語(yǔ)義信息, 具有領(lǐng)域獨(dú)立性。僅使用詞級(jí)別的語(yǔ)義表示不足以完全地展示變體詞及其目標(biāo)實(shí)體詞的深層語(yǔ)義關(guān)聯(lián)。因此還需要通過(guò)模型, 得到句子和文檔級(jí)別的語(yǔ)義表示, 具有一定的記憶功能的神經(jīng)網(wǎng)絡(luò)如Memory Network[36]等在變體詞的識(shí)別和規(guī)范化方面應(yīng)該會(huì)有用武之地。
因此變體詞的識(shí)別和規(guī)范化的關(guān)鍵在于找到:能夠展示變體詞的動(dòng)態(tài)演化、能夠體現(xiàn)這種“求大同,存小異”的變體詞及其目標(biāo)實(shí)體詞特殊屬性的字/詞、句子(段落)、文檔不同層面的語(yǔ)義表示。
變體詞的出現(xiàn)降低了自然語(yǔ)言處理技術(shù)面對(duì)社交媒體等非規(guī)范文本的效果, 因此變體詞的識(shí)別以及目標(biāo)實(shí)體詞的發(fā)現(xiàn)對(duì)于自然語(yǔ)言處理技術(shù)是十分重要的。本文是對(duì)當(dāng)前變體詞的識(shí)別和規(guī)范化技術(shù)的回顧和總結(jié), 包括變體詞的定義和特征, 變體詞的生成規(guī)律, 當(dāng)前變體詞的識(shí)別和規(guī)范化的主要技術(shù)進(jìn)展和成果, 最后指出“求大同、存小異”是變體詞及其目標(biāo)實(shí)體詞的特殊屬性, 變體詞的識(shí)別和規(guī)范化關(guān)鍵在于如何找到其準(zhǔn)確恰當(dāng)?shù)恼Z(yǔ)義表示。
[1] Paul Hsiung, Andrew Moore, Daniel Neill, and Jeff Schneider. Alias detection in link data sets.In Proceedings of the Interna-tional Conference on Intelligence Analysis, May.2005.
[2] Patrick Pantel. 2006. Alias detection in malicious environments.In AAAI Fall Symposium on Capturing and Using Patterns for Evidence Detection, pp. 14–20.
[3] Le Chen, Chi Zhang, and Christo Wilson. 2013. Tweeting under pressure: analyzing trending topics and evolving word choice on sina weibo.In Proceedings of the first ACM conference on Online social networks, pp. 89–100.
[4] Boliang Zhang, Hongzhao Huang, Xiaoman Pan, Heng Ji, Kevin Knight, Zhen Wen, Yizhou Sun, Jiawei Han and Bulent Yener, Be Appropriate and Funny: Automatic Entity Morph Encoding ,Proc. the 52nd Annual Meeting of the Association for Computational Linguistics (ACL), 2014.
[5] 丁建新.作為社會(huì)符號(hào)的“反語(yǔ)言”――“邊緣話語(yǔ)與社會(huì)”系列研究之一[J].外語(yǔ)學(xué)刊.2010(02).
[6] Li, P., and Yip, M. C. 1996. Lexical ambiguity and context effects in spoken word recognition: Evidence from Chinese.In Proceedings of the 18th Annual Conference of the Cognitive Science Society, pp.228–232.
[7] Chen, L.; Zhang, C.; and Wilson, C. 2013. Tweeting under pressure: Analyzing trending topics and evolving word choice on sina weibo.In Proc. COSN’13.
[8] 中國(guó)大陸網(wǎng)絡(luò)語(yǔ)言列表, https://zh.wikipedia.org/wiki/中國(guó)大陸網(wǎng)絡(luò)語(yǔ)言列表, 2015.12.
[9] 武文杰, 徐艷, 現(xiàn)代漢語(yǔ)視覺(jué)動(dòng)詞語(yǔ)義相容度認(rèn)知分析[J]. 河北大學(xué)學(xué)報(bào): 哲學(xué)社會(huì)科學(xué)版, 2013(6): 90-92.
[10] Hongzhao Huang, Zhen Wen, Dian Yu, Heng Ji, Yizhou Sun, Jiawei Han and He Li, Resolving Entity Morphs in Censored Data,Proc. the 51st Annual Meeting of the Association for Computational Linguistics (ACL), 2013.
[11] Dinakar K, Reichart R, Lieberman H. Modeling the detection of textual cyberbullying[C],Intemational Conference on Weblog and Social Media-Social Mobile Web Workshop. 2011: 11-16.
[12] Yin D, Xue Hong L,et al. Detection of harassment on web 2.0[J].Proceedings of the Content Analysis in the WEB, 2009, 2.
[13] Yoon T, Park S Y, Cho H G. A smart filtering system for newly coined profanities by using approximate string alignment[C]//Computer and Information Technology (CIT),2010 IEEE 10th International Conference. IEEE, 2010, 643-650.
[14] 陳儒, 張宇, 劉挺. 面向中文特定信息變異的過(guò)濾技術(shù)研究[J].高技術(shù)通訊, 2005, 15(9): 7-12.
[15] 李鈍, 曹元大, 萬(wàn)月亮. 信息安全中的變形關(guān)鍵詞的識(shí)別[J].計(jì)算機(jī)工程, 2007, 33(21): 155-156, 159.
[16] Sood S 0, Antin J, Churchill E F. Using Crowdsourcing to Improve Profanity Detection[C]//AAAI Spring Symposium Series. 2012: 69-74.
[17] 李少卿, 不良文本及其變體信息的檢測(cè)過(guò)濾技術(shù)研究, 碩士學(xué)位論文,復(fù)旦大學(xué), 2014.4.
[18] Yunqing Xia, Kam-Fai Wong, and Wenjie Li. 2006. A phonetic-based approach to chinese chat text nor- malization.In Proceedings of COLING-ACL2006, pp. 993–1000.
[19] K.F. Wong and Y. Xia. 2008. Normalization of Chinese Chat Language.Language Resources and Evaluation, pp. 219–242.
[20] Aobo Wang, Min-Yen Kan, Daniel Andrade, Takashi Onishi, and Kai Ishikawa. 2013. Chinese informal word normalization: an experimental study.In Proceedings of International Joint Conference on Natu- ral Language Processing (IJCNLP2013).
[21] M Choudhury, R Saraf, V Jain, et. al. Investigation and modeling of the structure of texting language[J]. Internation Journal of Document Analysis and Recognition, 2007,10:157-174.
[22] P Cook, S Stevenson. An unsupervised model for text message normalization[C]//Proceedings of the Workshop on Computational Approaches to Linguistic Creativity, 2009:71-78.
[23] Han, T Baldwin. Lexical Normalization of Short Text Messages: Makn Sens a # Twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 2011, 1: 368-378.
[24] B Han, P Cook, T Baldwin. Automatically constructing a normalization dictionary for microblogs[C]//Proceedings of the 2012 joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:421-432.
[25] Zhifei Li and David Yarowsky. 2008. Mining and modeling relations between formal and informal chinese phrases from web corpora.In Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP2008), pp. 1031–1040.
[26] Zellig S Harris. Distributional structure. Word, 1954.
[27] Gottlob Frege. über sinn und bedeutung.Funktion - Begriff - Bedeutung, 1892.
[28] Boliang Zhang, Hongzhao Huang, Xiaoman Pan, Sujian Li, Chin-Yew Lin, Heng Ji, Kevin Knight, Zhen Wen, Yizhou Sun, Jiawei Han and Bulent Yener, Context-aware Entity Morph Decoding,the 53rd Annual Meeting of the Association for Computational Linguistics (ACL), 2015.
[29] Aobo Wang and Min-Yen Kan. 2013. Mining informal language from chinese microtext: Joint word recog-nition and segmentation.In Proceedings of the Association for Computational Linguistics (ACL2013).
[30] H Hassan, A Menezes. Social Text Normalization Using Contextual Graph Random Walks[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, 2013: 1577-1586.
[31] C S?nmez, A Ozgür. A Graph-based Approach for contextual Text Normalization[C]//Porceedings of Conference on Empirical Methods in Natural Language Processing(EMNLP).2014:313-324.
[32] Hiruncharoenvate, C., Lin, Z. & Gilbert, E. (2015). Algorithmically Bypassing Censorship on Sina Weibo with Nondeterministic Homophone Substitutions..In M. Cha, C. Mascolo & C. Sandvig (eds.), ICWSM(p./pp. 150-158), :AAAI Press. ISBN: 978-1-57735-733-9.
[33] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing the dimensionality of data with neural networks.Science, 313(5786): 504–507, 2006.
[34] T Mikolov, I Sutskever, K Chen, et al. Distributed representations of words and phrases and their compositionality [J].Advances in Neural Information Processing Systems. 2013, 3: 3111-3119.
[35] Q Le, T Mikolov. Distributed Representations of Sentences and Documents[C]//Proceedings of the 31st Internation Conference on Machine Learning(ICML-14).2014:1188-1196.
[36] J. Weston, S. Chopra, and A. Bordes. Memory networks. In International Conference on Learning Representations (ICLR), 2015.
沙灜于2002年在中國(guó)科學(xué)院計(jì)算技術(shù)研究所計(jì)算機(jī)軟件與理論專(zhuān)業(yè)獲得博士學(xué)位?,F(xiàn)任中國(guó)科學(xué)院信息工程研究所副研究員。研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。研究興趣包括: 社會(huì)計(jì)算、網(wǎng)絡(luò)輿情等。Emai il: shaying@iie.ac.cn梁棋于2014年在電子科技大學(xué)信息安全專(zhuān)業(yè)獲得碩士學(xué)位?,F(xiàn)任中國(guó)科學(xué)院信息工程研究所研究實(shí)習(xí)員。研究領(lǐng)域?yàn)樾畔z索、輿情計(jì)算。研究興趣包括: 社交網(wǎng)絡(luò)數(shù)據(jù)采集與分析。Email: liangqi@iie. ac.cn
Chinese Morphs Identification and Normalization
SHA Ying, LIANG Qi, WANG Bin
China Institute of information engineering, CAS, Beijing 100093, China
Internet language is a casual informal language. Entity morph is an important feature of Internet Language. In some situation, Internet users are keen on creating kinds of morphs, special kinds of fake alternative names to achieve some goals, express strong sentiment or humor, and avoid censorship. Entity morphs and their target entities respectively appear on informal and formal text. And in some situation, entity morphs even appear on formal text. Although using entity morphs has some advantages, but morphs are big barriers for natural language processing (NLP). So it is very important to research on morph identification and normalization. First, we will introduce the definition of morphs and the features of morphs; second, we will show the rules of generating morphs; third, the current progress of morph identification and normalization will be demonstrated. Finally, it is the prospect of this field.
social network; morph identification; morph normalization; deep learning; neural network; representation learning
TP309.2 DOI號(hào) 10.19363/j.cnki.cn10-1380/tn.2016.03.006
沙灜, 博士, 副研究員, Email: shaying@iie.ac.cn。
本課題得到國(guó)家科技支撐計(jì)劃(編號(hào): 2012BAH46B03), 中國(guó)科學(xué)院戰(zhàn)略先導(dǎo)專(zhuān)項(xiàng)(編號(hào): XDA06030200)資助。
2016-04-01; 修改日期: 2016-06-16; 定稿日期: 2016-07-06