国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字詞聯(lián)合的變體詞規(guī)范化研究①

2017-10-20 03:08施振輝邱泳欽
關(guān)鍵詞:變體數(shù)據(jù)源語料

施振輝,沙 灜,梁 棋,李 銳,邱泳欽,王 斌

(中國科學(xué)院 信息工程研究所,北京 100093)(中國科學(xué)院大學(xué),北京 100049)

基于字詞聯(lián)合的變體詞規(guī)范化研究①

施振輝,沙 灜,梁 棋,李 銳,邱泳欽,王 斌

(中國科學(xué)院 信息工程研究所,北京 100093)(中國科學(xué)院大學(xué),北京 100049)

社交網(wǎng)絡(luò)中的文本具有隨意性和非正規(guī)性等特點(diǎn),一種常見現(xiàn)象是社交網(wǎng)絡(luò)文本中存在大量變體詞.人們往往為了避免審查、表達(dá)情感等將原來的詞用變體詞替代,原來的詞成為目標(biāo)詞.本文研究變體詞的規(guī)范化任務(wù),即找到變體詞所對(duì)應(yīng)的初始目標(biāo)詞.本文利用變體詞所在文本的時(shí)間和語義,結(jié)合變體詞詞性,提出了一種時(shí)間和語義結(jié)合的方法獲取候選目標(biāo)詞,然后提出基于字詞聯(lián)合的詞向量方法對(duì)候選目標(biāo)詞排序.我們的方法不需要額外的標(biāo)注數(shù)據(jù),實(shí)驗(yàn)結(jié)果表明,相比于當(dāng)前最好的方法在準(zhǔn)確性上具有一定的提升,針對(duì)與目標(biāo)詞存在相同的字的變體詞其性能更好.

變體詞; 變體詞規(guī)范化; 社交網(wǎng)絡(luò); 詞向量; 字詞聯(lián)合訓(xùn)練

1 引言

變體詞在社交網(wǎng)絡(luò)中普遍存在,Huang[1]和Zhang[3]首先提出了明確的變體詞定義并對(duì)其進(jìn)行了相關(guān)的研究.本文主要研究變體詞的規(guī)范化任務(wù),即結(jié)合語料的上下文或者背景知識(shí)找到變體詞所指代的目標(biāo)詞.例如,新浪微博“小馬哥如今已經(jīng)不是小鮮肉了,在島內(nèi)還可以閉門自賞,出門了要適應(yīng)自己的角色.”,其中“小馬哥”是變體詞,變體詞規(guī)范化任務(wù)是找到“小馬哥”的目標(biāo)詞“馬英九”.

研究變體詞的規(guī)范化具有現(xiàn)實(shí)的意義.在發(fā)現(xiàn)層面上,能為下游的自然語言處理任務(wù)提供支撐,可用于信息提取、語義的深層理解,能幫助計(jì)算機(jī)自動(dòng)化理解快速演化的社交媒體語言.在生成層面上,當(dāng)我們掌握了變體詞的生成技術(shù)后,可以對(duì)文本進(jìn)行自動(dòng)的替換,讓文章更加有趣,傳播更廣.

我們將變體詞的規(guī)范化任務(wù)分為兩個(gè)子任務(wù)來研究:1)變體詞的候選目標(biāo)詞的獲取任務(wù); 2)變體詞的候選目標(biāo)詞的排序任務(wù).我們首先分析了變體詞與目標(biāo)詞在時(shí)間、語義和多數(shù)據(jù)源上的分布等特征和關(guān)系.

對(duì)于變體詞候選目標(biāo)詞的獲取,我們采用時(shí)間和語義結(jié)合的方法,在多數(shù)據(jù)源上提取候選目標(biāo)詞.利用變體詞出現(xiàn)的時(shí)間和所在微博的語義分布,從多個(gè)數(shù)據(jù)源(本文以新浪微博、Twitter和Web新聞為例)中提取候選語料,然后在候選語料中提取候選目標(biāo)詞.此方法使得候選目標(biāo)詞集合的規(guī)模和覆蓋率達(dá)到了比較好的平衡.

對(duì)于變體詞候選目標(biāo)詞的排序,我們采用基于神經(jīng)網(wǎng)絡(luò)的字詞聯(lián)合訓(xùn)練詞向量的方法,通過對(duì)變體詞和候選目標(biāo)詞進(jìn)行相似度計(jì)算得到候選目標(biāo)詞得分,對(duì)候選目標(biāo)詞進(jìn)行排序.此方法的優(yōu)勢(shì)在于結(jié)合了變體詞和目標(biāo)詞的上下文語義和字層面上的相似性.

實(shí)驗(yàn)結(jié)果表明,我們的方法是有效的,比現(xiàn)有的最好的方法表現(xiàn)出一定的優(yōu)勢(shì),特別是在與目標(biāo)詞具有相同字的那些變體詞上表現(xiàn)非常好,準(zhǔn)確率達(dá)到了85%.

本文的主要貢獻(xiàn):

① 提出了一種時(shí)間和語義相結(jié)合的多數(shù)據(jù)源候選目標(biāo)詞獲取方法;

② 提出了一種字詞聯(lián)合訓(xùn)練的候選目標(biāo)詞排序方法.

本文的結(jié)構(gòu)安排如下:第2節(jié)介紹了變體詞規(guī)范化的相關(guān)工作,第3節(jié)介紹了變體詞規(guī)范化問題的定義,第4節(jié)對(duì)變體詞和目標(biāo)詞的特征與關(guān)系進(jìn)行了分析,并詳細(xì)介紹了候選目標(biāo)詞獲取方法和候選目標(biāo)詞排序方法,第5節(jié)是實(shí)驗(yàn)驗(yàn)證部分,最后是結(jié)論.

2 相關(guān)研究工作

變體詞相關(guān)的概念和技術(shù)一直在不良文本過濾、社交媒體文本規(guī)范化等領(lǐng)域有所體現(xiàn).沙[4]的綜述中總結(jié)介紹了變體詞規(guī)范化的一般方法.其中包括:基于規(guī)則的方法,如 Wong[5],Xia[6],陳儒[7],Sood[8],Yoon[9]等人的工作.基于統(tǒng)計(jì)和規(guī)則的方法,如Wang[10,11],Choudhury[12],Han[13,14],Li[15]等人的工作.然而,上述的所有方法都不能很好的處理變體詞規(guī)范化這一任務(wù).因?yàn)橛行┳凅w詞是非常抽象的,比如:變體詞“函數(shù)”的目標(biāo)詞是“楊冪”,這是因?yàn)闂顑绲拿种小皟纭钡囊馑际呛瘮?shù)的冪.而有些變體詞比較具體,如變體詞“薛巒子”的目標(biāo)詞是“薛蠻子”,這是因?yàn)椤皫n”和“蠻”在字形上非常相似.對(duì)于那些根據(jù)目標(biāo)詞深層語義變形的變體詞,我們很難用規(guī)則和統(tǒng)計(jì)處理變體詞規(guī)范化任務(wù).

明確的變體詞概念最早出現(xiàn)在Huang[1]和Zhang[2]等人的論文中.Huang[1]等人最先研究了變體詞規(guī)范化任務(wù),在論文中他提取了變體詞和目標(biāo)詞的三類特征,包括表面特征、語義特征和社交特征,然后利用標(biāo)注數(shù)據(jù)訓(xùn)練二分類模型,通過學(xué)習(xí)排序的方法對(duì)候選目標(biāo)詞進(jìn)行排序.他們的方法需要人工提取大量的特征,并且需要大量的標(biāo)注數(shù)據(jù)用于模型訓(xùn)練.而在Zhang[2]等人的文章中,他們提出了一種端到端的變體詞解碼方法,其中變體詞的規(guī)范化任務(wù)是通過在大量語料中訓(xùn)練出詞語的詞向量,然后計(jì)算變體詞和候選目標(biāo)詞之間的相似度來進(jìn)行候選目標(biāo)詞的排序.他們的方法只考慮了詞語的上下文,忽略了變體詞和目標(biāo)詞在字層面上的聯(lián)系.

我們?cè)谧凅w詞規(guī)范化任務(wù)上首先利用了字詞聯(lián)合[16,17]的詞向量的方法,綜合考慮詞語上下文和詞語中的字.我們的方法是利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出字詞聯(lián)合的詞向量,訓(xùn)練出變體詞和目標(biāo)詞的相似度,進(jìn)而對(duì)變體詞做規(guī)范化.

3 問題的定義

變體詞規(guī)范化任務(wù)是根據(jù)給定輸入的包含變體詞的文本,找到其中變體詞的目標(biāo)詞.

如圖1所示,變體詞規(guī)范化任務(wù)的輸入是一條微博,包含變體詞“小馬哥”,任務(wù)輸出是變體詞的候選目標(biāo)詞集合,候選目標(biāo)詞按照與變體詞相關(guān)性從大到小排序.

圖1 變體詞規(guī)范化例子

4 基于字詞聯(lián)合的變體詞規(guī)范化方法

變體詞規(guī)范化任務(wù)是基于一個(gè)假設(shè):給定輸入中我們已經(jīng)知道了其中哪個(gè)詞或者哪些詞是變體詞.這一過程叫做變體詞的識(shí)別,變體詞的識(shí)別不是本文的研究?jī)?nèi)容,本文主要集中于在已知一個(gè)詞為變體詞的情況下,發(fā)現(xiàn)此變體詞所對(duì)應(yīng)的目標(biāo)詞.變體詞規(guī)范化任務(wù)的輸入是一條或者多條帶有同一個(gè)變體詞的微博,輸出是變體詞的候選目標(biāo)詞集合,按相關(guān)性大小先后排序.圖2是我們方法的一個(gè)總體流程圖,它由兩個(gè)子任務(wù)組成.

圖2 變體詞規(guī)范化流程圖

① 候選目標(biāo)詞的獲取:對(duì)于每一個(gè)變體詞m,找到一個(gè)候選詞集合首先,根據(jù)給定的含變體詞的微博,我們提取出變體詞出現(xiàn)的時(shí)間,根據(jù)這個(gè)時(shí)間分布,我們篩選出用于提取候選目標(biāo)詞的語料D1.其次,我們將輸入的微博看作一篇篇的文檔,通過計(jì)算多源語料D1中的文檔與輸入文檔之間的話題相似度,在D1中抽取出與輸入微博比較相關(guān)的語料作為語料D2.然后在語料D2上我們利用中文分詞、詞性標(biāo)注、名詞檢測(cè)等工具,選出候選目標(biāo)詞集合

② 候選目標(biāo)詞的排序:對(duì)候選的目標(biāo)詞集合E進(jìn)行排序.根據(jù)變體詞和目標(biāo)詞在詞和字層面上的相似性,利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練出字詞聯(lián)合的詞向量來計(jì)算變體詞和候選目標(biāo)詞的相似度,進(jìn)而對(duì)集合E進(jìn)行排序.

4.1 變體詞與目標(biāo)詞的特征分析

4.1.1 時(shí)間關(guān)系

我們隨機(jī)選取了100個(gè)變體詞與目標(biāo)詞對(duì),在時(shí)間上對(duì)變體詞和目標(biāo)詞進(jìn)行了分析.如圖3,變體詞“咆哮教主”和目標(biāo)詞“馬景濤”在新浪微博中會(huì)在同一天共現(xiàn).由此我們推斷變體詞和目標(biāo)詞在時(shí)間上具有高度一致性.

圖3 變體詞和目標(biāo)詞在新浪微博的時(shí)間分布

4.1.2 話題關(guān)系

無論什么原因形成的變體詞,它們的最終目的都是為了替換目標(biāo)詞.如圖4,兩條微博談?wù)摰亩际恰懊绹⒅袊?、外交”等話題,其中人民日?qǐng)?bào)稱呼美國總統(tǒng)為“奧巴馬”,而今日華爾街稱呼其為“奧觀海同志”,就是用“奧觀海同志”這個(gè)變體詞替換了目標(biāo)詞“奧巴馬”.由此我們推斷變體詞和目標(biāo)詞在話題上具有相似性和相關(guān)性.

4.1.3 變體詞與目標(biāo)詞在多數(shù)據(jù)源上的分布

變體詞一般是在不規(guī)范的文本中出現(xiàn),如新浪微博,因?yàn)橛脩粼诎l(fā)表微博時(shí)有很高的自由度.而目標(biāo)詞通常在正規(guī)的文本中出現(xiàn),如新聞,因?yàn)樾侣勔话阌糜谡降膱?chǎng)合,需要表述的清晰明確.由此,變體詞和目標(biāo)詞在不同的數(shù)據(jù)源中分布不同.

如表1所示,變體詞“呆丸”在新浪微博中大量存在,而在Web新聞中因?yàn)椴灰?guī)范而不出現(xiàn); 另外一些目標(biāo)詞因?yàn)槊舾小彶榈仍?如目標(biāo)詞“陳光誠”等,在新浪微博中極少出現(xiàn)甚至不出現(xiàn).

圖4 變體詞和目標(biāo)詞在話題上的分布

表1 變體詞和目標(biāo)詞在不同數(shù)據(jù)源中分布

4.2 候選目標(biāo)詞的獲取

為了解決上述難點(diǎn),我們考慮了以下3個(gè)方面:1)變體詞和目標(biāo)詞在時(shí)間上具有高度一致性; 2)變體詞和目標(biāo)詞所在的文本在話題上具有相似性和相關(guān)性;3)有些變體詞和目標(biāo)詞在不同的數(shù)據(jù)源中分布不同.

如圖5,首先,我們根據(jù)給定的含變體詞的微博,我們提取出變體詞出現(xiàn)的時(shí)間,根據(jù)這個(gè)時(shí)間分布,我們篩選出用于提取候選目標(biāo)詞的語料D1.其次,我們將輸入的微博看作一篇篇的文檔,通過計(jì)算多源語料D1中的文檔與輸入文檔之間的話題相似度,在D1中抽取出與輸入微博比較相關(guān)的語料作為語料D2.然后在語料D2上我們利用中文分詞、詞性標(biāo)注、名詞檢測(cè)等工具,選出候選目標(biāo)詞集合E.

4.3 候選目標(biāo)詞的排序

如圖6,我們通過字詞聯(lián)合方法訓(xùn)練詞向量的時(shí)候,不僅考慮了文本中詞語的上下文,還考慮了組成詞語的字.最后通過訓(xùn)練到的詞向量,我們對(duì)變體詞和候選目標(biāo)詞進(jìn)行相似度計(jì)算,以此來對(duì)候選目標(biāo)詞進(jìn)行排序.

圖5 候選目標(biāo)詞獲取框架

圖6 字詞聯(lián)合訓(xùn)練詞向量方法

如圖7和圖8,在詞向量的訓(xùn)練過程中,CBOW方法只考慮了詞語的上下文,字詞聯(lián)合方法在CBOW方法上進(jìn)行了改進(jìn),使用詞本身的向量以及組成這個(gè)詞的各個(gè)字向量的平均值表示這個(gè)詞的語義.

圖7 CBOW 方法神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

圖8 字詞聯(lián)合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

5 實(shí)驗(yàn)驗(yàn)證

5.1 數(shù)據(jù)集

主要使用了2個(gè)數(shù)據(jù)集:第一個(gè)數(shù)據(jù)集來自于Huang[1]的論文,其中包括:1546988 條 2012 年 5 月1日到6月1日的新浪微博數(shù)據(jù)消息,收集了25003條同樣時(shí)間段的Twitter中文數(shù)據(jù)推文,以及66559篇新聞文檔,它們來自于新浪微博和 twitter中的鏈接,.其中標(biāo)注了450對(duì)變體詞和目標(biāo)詞.第二個(gè)數(shù)據(jù)集是我們另外根據(jù)標(biāo)注好的變體詞和目標(biāo)詞,我們通過關(guān)鍵詞搜索,在Twitter中爬取了337113條2015年1月1日到6月1日的中文數(shù)據(jù)推文,用于驗(yàn)證我們方法的有效性.另外,我們?cè)谝延械?50個(gè)標(biāo)注數(shù)據(jù)上新增了225個(gè)標(biāo)注數(shù)據(jù),來源于中國大陸網(wǎng)絡(luò)語言列表[18].

5.2 候選目標(biāo)詞的獲取

我們認(rèn)為,當(dāng)候選目標(biāo)詞集合E中包含變體詞m的目標(biāo)詞時(shí),候選目標(biāo)詞的獲取是正確的.我們選取了557對(duì)變體詞和目標(biāo)詞,在新浪微博、Twitter和Web新聞中通過我們的候選目標(biāo)詞獲取方法進(jìn)行了實(shí)驗(yàn),分析了獲取候選目標(biāo)詞的正確率和時(shí)間的關(guān)系.

如圖9,根據(jù)覆蓋率時(shí)間曲線,在新浪微博中我們?cè)O(shè)置的時(shí)間窗口為1天,在Twitter中設(shè)置為3天,在Web新聞中設(shè)置為1天,結(jié)合這三種數(shù)據(jù)源,此時(shí)候選目標(biāo)詞集合的規(guī)模和正確率能達(dá)到一個(gè)較好的平衡.另外我們發(fā)現(xiàn),只利用新浪微博和Twitter語料候選目標(biāo)詞集合的正確率就達(dá)到一個(gè)比較好的效果.

圖9 候選目標(biāo)詞時(shí)間覆蓋率曲線

本文采用設(shè)置時(shí)間窗口減少候選目標(biāo)詞的規(guī)模,相比于未設(shè)置時(shí)間窗口,候選目標(biāo)詞的規(guī)模降低了近20倍.如圖10所示,未設(shè)置時(shí)間窗口時(shí)平均每個(gè)變體詞的候選目標(biāo)詞規(guī)模平均為121590個(gè),而按上述設(shè)置時(shí)間窗口時(shí)平均每個(gè)變體詞的候選目標(biāo)詞的規(guī)模為6131 個(gè).另外,我們從圖9 中能得出結(jié)論,變體詞的候選目標(biāo)詞的覆蓋率達(dá)到了95%,說明在設(shè)置時(shí)間窗口的情況下,候選目標(biāo)詞的損失量仍然很小.

圖10 候選目標(biāo)詞規(guī)模與時(shí)間窗口的關(guān)系

5.3 候選目標(biāo)詞的排序

在Huang[1]提供的數(shù)據(jù)上,我們通過字詞聯(lián)合方法訓(xùn)練詞向量,計(jì)算變體詞和候選目標(biāo)詞之間的余弦相似度來對(duì)候選目標(biāo)詞進(jìn)行排序.其中訓(xùn)練詞向量時(shí)我們?cè)O(shè)置的窗口大小為5,詞向量維度為300,訓(xùn)練迭代次數(shù)為15次.

為了評(píng)價(jià)我們的方法,我們采用了和Huang[1]相同的評(píng)價(jià)指標(biāo),即其中指的是返回的前k個(gè)候選目標(biāo)詞中變體詞正確規(guī)范化的個(gè)數(shù),Q指的是輸入的查詢的變體詞總數(shù).我們認(rèn)為當(dāng)返回的前k個(gè)候選目標(biāo)詞中包含了變體詞的真實(shí)目標(biāo)詞,那么此時(shí)變體詞規(guī)范化是正確的.

如圖11 所示,曲線 Huang 13 和 Zhang 15 分別是Huang[1]和 Zhang[2]的方法,cwe_all是在 675 對(duì)變體詞和目標(biāo)詞上的規(guī)范化準(zhǔn)確率,cwe_part是在327對(duì)與目標(biāo)詞存在相同的字的變體詞上的規(guī)范化準(zhǔn)確率.我們可以得出結(jié)論,在與目標(biāo)詞有相同字的那類變體詞的規(guī)范化任務(wù)上,本方法要優(yōu)于當(dāng)前最好的方法.當(dāng)k>9的時(shí)候,我們的方法在數(shù)據(jù)集上要優(yōu)于當(dāng)前最好的方法,當(dāng)k<9時(shí),我們的方法表現(xiàn)不如當(dāng)前最好的方法,可能的原因字詞聯(lián)合訓(xùn)練詞向量時(shí)字向量的權(quán)重偏大.

圖11 變體詞規(guī)范化準(zhǔn)確率

另外為了說明語料對(duì)規(guī)范化任務(wù)的影響,我們?cè)谧约号廊〉臄?shù)據(jù)集和維基百科數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),其中一些參數(shù)設(shè)置同上述實(shí)驗(yàn).如圖12所示,在維基百科數(shù)據(jù)上訓(xùn)練出的詞向量在變體詞規(guī)范化這樣任務(wù)上無法得到較好的結(jié)果,而在Twitter數(shù)據(jù)集上達(dá)到一個(gè)較好的效果.這是因?yàn)榫S基百科數(shù)據(jù)集中的文本是規(guī)范文本,絕大多數(shù)變體詞不在其中,導(dǎo)致與候選目標(biāo)詞的相似度計(jì)算不準(zhǔn)確.而Twitter數(shù)據(jù)集是我們通過關(guān)鍵詞采集的,包含變體詞和目標(biāo)詞及其上下文,因而能得到較好的效果.

另外我們發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,如圖1所示,變體詞“小馬哥”的目標(biāo)詞是“馬英九”,通過我們的方法輸出的排序的候選目標(biāo)詞集合中,“馬英九”的另一個(gè)變體詞“馬娘娘”排名同樣靠前.由此我們推斷,同一目標(biāo)詞的不同變體詞在語義上是相似的.故此我們可以借助變體詞識(shí)別方法來發(fā)現(xiàn)不同變體詞,并且通過多個(gè)變體詞對(duì)應(yīng)目標(biāo)詞來進(jìn)一步提升我們規(guī)范化任務(wù)的準(zhǔn)確率.具體的做法是,我們先在語料上將需要規(guī)范化的變體詞都識(shí)別出來,即先進(jìn)行變體詞的識(shí)別操作,然后在語料上通過字詞聯(lián)合方法訓(xùn)練出詞向量.接下來需要在本文的方法上進(jìn)行以下兩個(gè)方面的修改:1)在變體詞m的候選目標(biāo)詞獲取中,我們不僅需要獲取候選目標(biāo)詞E,還需要獲取這一變體詞的目標(biāo)詞的其他可能變體詞 m’.2)在變體詞的候選目標(biāo)詞排序中,我們通過計(jì)算變體詞詞向量和候選目標(biāo)詞之間的相似度對(duì)候選目標(biāo)詞進(jìn)行排序,找到目標(biāo)詞的其他可能變體詞m’.接下來通過本文的變體詞規(guī)范化方法,獲取變體詞m’的候選目標(biāo)詞集合E’,按可能性大小排序.最后對(duì)E和E’做交集得出最后的變體詞m的候選目標(biāo)詞集合.

圖12 不同數(shù)據(jù)源的變體詞規(guī)范化準(zhǔn)確率

如圖13,分別是設(shè)置了時(shí)間窗口和未設(shè)置時(shí)間窗口的規(guī)范化系統(tǒng)的正確率曲線,從圖上我們可以推斷出,設(shè)置合適的時(shí)間窗口,能大大提高我們的規(guī)范化系統(tǒng)的正確率.

5.4 實(shí)驗(yàn)分析

通過上述在候選目標(biāo)詞的獲取和候選目標(biāo)詞的排序進(jìn)行的實(shí)驗(yàn),我們總結(jié)下了我們方法的優(yōu)勢(shì):1)在候選目標(biāo)詞的獲取上,我們結(jié)合時(shí)間和語義在多數(shù)據(jù)源上提取候選目標(biāo)詞,合理設(shè)置時(shí)間窗口,降低了候選目標(biāo)詞集合的規(guī)模,又保證了候選語料中目標(biāo)詞的覆蓋率.2)在候選目標(biāo)詞的排序上,我們結(jié)合變體詞和目標(biāo)詞在字和詞兩個(gè)層面上的語義和詞形上的相似性,采用字詞聯(lián)合詞向量法進(jìn)行相似度計(jì)算,提升了排序準(zhǔn)確性.當(dāng)較新的變體詞未能被分詞器識(shí)別出時(shí),我們通過字向量拼接詞向量方法,仍能進(jìn)行規(guī)范化任務(wù)而不需要實(shí)時(shí)更新詞向量模型.

圖13 時(shí)間窗口與正確率曲線

6 結(jié)論

本文首先主要通過字詞聯(lián)合的詞向量技術(shù)來解決變體詞規(guī)范化任務(wù).首先在分析了變體詞和目標(biāo)詞在語義和詞形上的異同點(diǎn)的基礎(chǔ)上,分析了變體詞規(guī)范化任務(wù)的挑戰(zhàn).利用大量未標(biāo)注數(shù)據(jù),通過時(shí)間和語義結(jié)合獲取候選目標(biāo)詞集合,并通過字和詞兩個(gè)層面上語義和詞形的結(jié)合對(duì)候選目標(biāo)詞進(jìn)行排序來解決變體詞規(guī)范化任務(wù).下一步工作包括利用同一個(gè)目標(biāo)詞的多個(gè)變體詞之間的關(guān)聯(lián)來進(jìn)一步提高變體詞規(guī)范化的準(zhǔn)確性.

1Huang HZ,Wen Z,Yu D,et al.Resolving entity morphs in censored data.Proc.of the 51st Annual Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.1083–1093.

2Zhang BL,Huang HZ,Pan XM,et al.Context-aware entity morph decoding.Proc.of the 53rd Annual Meeting of the Association for Computational Linguistics.Beijing,China.2015.586–595.

3Zhang BL,Huang HZ,Pan XM,et al.Be appropriate and funny:Automatic entity morph encoding.Proc.of the 52nd Annual Meeting of the Association for Computational Linguistics (Short Papers).Baltimore,Maryland,USA.2014.706–711.

4沙灜,梁棋,王斌.中文變體詞的識(shí)別與規(guī)范化綜述.信息安全學(xué)報(bào),2016,1(3):77–87.

5Wong KF,Xia Y.Normalization of Chinese chat language.Language Resources and Evaluation,2008,42:219–242.[doi:10.1007/s10579-008-9067-7]

6Xia YQ,Wong KF,Li WJ.A phonetic-based approach to Chinese chat text normalization.Proc.of the 21st International Conf.on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistic.Sydney,Australia.2006.993–1000.

7陳儒,張宇,劉挺.面向中文特定信息變異的過濾技術(shù)研究.高技術(shù)通訊,2005,15(9):7–12.

8Sood SO,Antin J,Churchill EF.Using crowdsourcing to improve profanity detection.AAAI Spring Symposium Series.2012.69–74.

9Yoon T,Park SY,Cho HG.A smart filtering system for newly coined profanities by using approximate string alignment.Proc.of 2010 IEEE 10th International Conference on Computer and Information Technology (CIT).Bradford,UK.2010.643–650.

10Wang A,Kan MY,Andrade D,et al.Chinese informal word normalization:An experimental study.Proc.of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan.2013.

11Wang AB,Kan MY.Mining informal language from chinese microtext:Joint word recognition and segmentation.Proc.of the 51st Annual Meeting of the Association for Computational Linguistics.Sofia,Bulgaria.2013.731–741.

12Choudhury M,Saraf R,Jain V,et al.Investigation and modeling of the structure of texting language.International Journal of Document Analysis and Recognition,2007,10(3-4):157–174.[doi:10.1007/s10032-007-0054-0]

13Han B,Cook P,Baldwin T.Automatically constructing a normalisation dictionary for microblogs.Proc.of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Jeju Island,Korea.2012.421–432.

14Han B,Baldwin T.Lexical normalisation of short text messages:Makn sens a # twitter.Proc.of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Portland,Oregon.2011,1:368–378.

15Li ZF,Yarowsky D.Mining and modeling relations between formal and informal chinese phrases from web corpora.Proc.of the Conference on Empirical Methods in Natural Language Processing.Honolulu,Hawaii.2008.1031–1040.

16Chen XX,Xu L,Liu ZY,et al.Joint learning of character and word embeddings.Proc.of the 24th International Conference on Artificial Intelligence.Buenos Aires,Argentina.2015.1236–1242.

17來斯惟.基于神經(jīng)網(wǎng)絡(luò)的詞和文檔語義向量表示方法研究[博士學(xué)位論文].北京:中國科學(xué)院自動(dòng)化研究所,2016.1.

18中國大陸網(wǎng)絡(luò)語言列表.https://zh.wikipedia.org/wiki/中國大陸網(wǎng)絡(luò)語言列表.[2016-12].

Research on Morph Normalization Based on Joint Learning of Character and Word

SHI Zhen-Hui,SHA Ying,LIANG Qi,LI Rui,QIU Yong-Qin,WANG Bin

(Institute of Information Engineering,Chinese Academy of Sciences,Beijing 100093,China)(University of Chinese Academy of Sciences,Beijing 100049,China)

The text is informal in social networks.One of the common phenomena is that there are a lot of morphs in social networks.People are keen on creating morphs to replace their real targets to avoid censorship and express strong sentiment.In this paper we aim to solve the problem of finding real targets corresponding to their entity morphs.We exploit the temporal and semantic and POS constraints to collect target candidates.Then we propose a method based on joint character-word training to sort the target candidates.Our method does not need any additional annotation corpora.Experimental results demonstrate that our approach achieved some improvement over state-of-the-art method.The results also show that the performance is better when morphs share the same character as targets.

morph; morph normalization; social network; word embedding; joint character-word training

施振輝,沙灜,梁棋,李銳,邱泳欽,王斌.基于字詞聯(lián)合的變體詞規(guī)范化研究.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):29–35.http://www.c-sa.org.cn/1003-3254/5979.html

國家重點(diǎn)研發(fā)計(jì)劃(2016YFB0801003); 青年科學(xué)基金項(xiàng)目(61402466)

2017-01-10; 采用時(shí)間:2017-02-13

猜你喜歡
變體數(shù)據(jù)源語料
基于DDPG算法的變體飛行器自主變形決策
面向低資源神經(jīng)機(jī)器翻譯的回譯方法
一種面向傳感云的數(shù)據(jù)源質(zhì)量評(píng)估框架
利用屬性集相關(guān)性與源誤差的多真值發(fā)現(xiàn)方法研究
瀕危語言與漢語平行語料庫動(dòng)態(tài)構(gòu)建技術(shù)研究
注入間接線索的設(shè)計(jì)模式變體分類檢測(cè)
基于HGAV的多源異構(gòu)數(shù)據(jù)集成方法①
耀變體的分類及輻射模型
耀變體的分類及輻射模型
非仿射參數(shù)依賴LPV模型的變體飛行器H∞控制
孟津县| 全南县| 泸州市| 略阳县| 利川市| 花莲县| 宝丰县| 张家口市| 北流市| 阿鲁科尔沁旗| 巴林右旗| 佛冈县| 额敏县| 广德县| 平江县| 丹巴县| 清原| 花莲县| 福贡县| 加查县| 永胜县| 新竹市| 乐都县| 体育| 天柱县| 南平市| 昌都县| 娄烦县| 屏山县| 杭锦后旗| 肇东市| 宝兴县| 拜城县| 滕州市| 巫山县| 松原市| 泰宁县| 通许县| 朝阳县| 环江| 青铜峡市|