国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于漢字固有屬性的中文字向量方法研究

2017-07-18 10:53陳凱琪
中文信息學(xué)報(bào) 2017年3期
關(guān)鍵詞:短文消息語(yǔ)義

胡 浩,李 平,陳凱琪

(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 智能與網(wǎng)絡(luò)化系統(tǒng)研究中心,四川 成都 610500)

基于漢字固有屬性的中文字向量方法研究

胡 浩,李 平,陳凱琪

(西南石油大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 智能與網(wǎng)絡(luò)化系統(tǒng)研究中心,四川 成都 610500)

中文短文本在如今高速發(fā)展的互聯(lián)網(wǎng)應(yīng)用中變得日趨重要,如何從海量短文本消息中挖掘出有價(jià)值的信息,已成為當(dāng)前中文自然語(yǔ)言處理中非常重要且具有挑戰(zhàn)性的課題。然而,采用傳統(tǒng)的長(zhǎng)文本處理方法進(jìn)行分析往往得不到很好的效果,其根本原因在于中文短文本消息的語(yǔ)法及其語(yǔ)義的稀疏性?;诖?,該文提出一種基于漢字筆畫屬性的中文字向量表示方法,并結(jié)合深度學(xué)習(xí)對(duì)短文本消息進(jìn)行相似性計(jì)算。該方法結(jié)合中文漢字的構(gòu)詞和拼音屬性,將中文漢字映射為一個(gè)僅32維的空間向量,最后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行語(yǔ)義提取并進(jìn)行相似性計(jì)算。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的短文本相似性計(jì)算方法相比,該方法在算法性能及準(zhǔn)確率上均有較大的提高。

短文本;中文字向量;深度學(xué)習(xí)

1 引言

隨著互聯(lián)網(wǎng),尤其是移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,社交媒體已經(jīng)變成人們交流和傳遞思想的主要平臺(tái)。每天從社交平臺(tái)上產(chǎn)生的信息交互量難以估計(jì)。面對(duì)如此海量的消息,如何進(jìn)行科學(xué)的有效管理,已成為當(dāng)前的研究熱點(diǎn)。根據(jù)中國(guó)互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告,文本信息已占網(wǎng)絡(luò)資源的70%以上,是互聯(lián)網(wǎng)中信息傳播的主要載體,每天從網(wǎng)絡(luò)中產(chǎn)生的文本信息量在TB級(jí)別以上。在文本處理領(lǐng)域,一般將文本信息分為長(zhǎng)文本和短文本。 互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)大多數(shù)以短文本為主,如騰訊空間說(shuō)說(shuō)、新浪微博、百度知識(shí)問(wèn)答和淘寶商品的評(píng)價(jià)等。 相對(duì)于傳統(tǒng)大篇幅的長(zhǎng)文本,人們更容易接受以短文本的形式進(jìn)行交流。如新浪微博限制其消息字?jǐn)?shù)為140,知識(shí)問(wèn)答都是以簡(jiǎn)略語(yǔ)句的形式來(lái)概括。短文本能更好的表達(dá)出人們的情緒,人們更喜歡以幾個(gè)字甚至一個(gè)表情來(lái)表達(dá)自己的情感傾向。如何使用機(jī)器學(xué)習(xí)的相關(guān)方法對(duì)這些數(shù)據(jù)進(jìn)行分析,挖掘出有用的信息,從而更好的利用互聯(lián)網(wǎng)改善人民的生活已經(jīng)變得日趨重要,如幫助商家提供決策,以使其利益最大化,幫助用戶更有效的提高產(chǎn)品體驗(yàn),是當(dāng)前文本挖掘的重要課題。

中文文本挖掘中一個(gè)關(guān)鍵問(wèn)題是對(duì)文本語(yǔ)義相似度[1]進(jìn)行計(jì)算,這也一直是自然語(yǔ)言處理(natural language processing,NLP)[2]的研究熱點(diǎn)之一,其應(yīng)用場(chǎng)景非常廣泛。在推薦系統(tǒng)[3]中,可以找到與其商品屬性描述類似的其他商品進(jìn)行推薦;在文本聚類[4]中,可以找到一些主干相似的句子;在信息檢索中,可以找到與用戶檢索信息匹配的信息;在搜索引擎中,可以根據(jù)相似度排序提供查詢結(jié)果。另外,文本相似度分析還可應(yīng)用于論文文獻(xiàn)查重。然而,對(duì)短文本的研究發(fā)現(xiàn),短文本消息不像傳統(tǒng)的長(zhǎng)文本消息具有豐富的結(jié)構(gòu)信息,并且詞與詞之間的相關(guān)性較弱,語(yǔ)義及語(yǔ)法的稀疏性使它很難利用傳統(tǒng)研究長(zhǎng)文本的方法來(lái)分析。近年來(lái),隨著在圖像及語(yǔ)音領(lǐng)域獲得的各種突破,深度學(xué)習(xí)也越來(lái)越受到自然語(yǔ)言領(lǐng)域研究者的重視。然而,自然語(yǔ)言處理任務(wù)由于其自身特點(diǎn),與圖像、語(yǔ)音處理在應(yīng)用深度學(xué)習(xí)技術(shù)上存在著一些區(qū)別。其中一個(gè)最根本的區(qū)別在于,圖像、語(yǔ)音信號(hào)可以直接在向量空間進(jìn)行表示,而傳統(tǒng)的自然語(yǔ)言處理是在詞匯一級(jí)表示,不能直接作為深度神經(jīng)網(wǎng)絡(luò)的輸入變量。因此,采用深度學(xué)習(xí)方法處理文本的首要任務(wù)是對(duì)語(yǔ)言的向量化。在傳統(tǒng)自然語(yǔ)言處理過(guò)程中,通常用向量空間模型(vector space model,VSM)[5]對(duì)文本進(jìn)行向量化。在向量空間模型中,單個(gè)詞被表示成One-hot的形式,即在基于詞表的向量中該詞出現(xiàn)的位置為1,其余置為0。由于詞表通常很大,表征詞匯的向量維度很高,容易造成數(shù)據(jù)稀疏。

另一方面,One-hot的表征方式無(wú)法反映語(yǔ)義信息。典型的做法是用奇異值分解(singular value decomposition,SVD)[6]來(lái)獲得關(guān)于詞的語(yǔ)義信息。然而,這種方式得到的關(guān)于詞的表征受詞匯量的影響較大,計(jì)算復(fù)雜度也比較高。目前,一種基于深度神經(jīng)網(wǎng)絡(luò)[7]自動(dòng)學(xué)習(xí)的向量表示受到極大關(guān)注。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)相對(duì)比較新興的領(lǐng)域,主要通過(guò)構(gòu)建多層神經(jīng)網(wǎng)絡(luò),通過(guò)組合低層特征形成更加抽象的高層表達(dá),根據(jù)其結(jié)構(gòu)不同,目前主要有前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network)[8]、卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)[9]、遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network)[10]、反饋神經(jīng)網(wǎng)絡(luò)(recurrent neural network)[11]等。各種不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)用于不同的任務(wù),如遞歸神經(jīng)網(wǎng)絡(luò)可以用于情感分析;長(zhǎng)短時(shí)記憶模型(long-short term memory, LSTM)用于處理帶序列的數(shù)據(jù),屬于反饋神經(jīng)網(wǎng)絡(luò)的一種;卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于圖像處理領(lǐng)域。在確立神經(jīng)網(wǎng)絡(luò)模型之后,其主要難點(diǎn)是如何把要處理的對(duì)象表示成可計(jì)算的數(shù)值或向量輸入到網(wǎng)絡(luò)中,從而得到想要的輸出結(jié)果。

借助于神經(jīng)網(wǎng)絡(luò)模型,詞義信息可以用它的上下文來(lái)表達(dá),這種表征不僅在維度上較One-hot的表示低了很多,而且能夠很大程度上反映詞與詞之間語(yǔ)義的相關(guān)關(guān)系。然而,需要指出的是,深度神經(jīng)網(wǎng)絡(luò)模型中的輸入層通常還是采用One-hot表示。由于這種表示非常浪費(fèi)空間資源,微軟亞洲研究Huang等人[12]提出了一種基于字母組合的輸入表示法,并在深度語(yǔ)義網(wǎng)絡(luò)模型的訓(xùn)練下取得了較好的效果。盡管在英文及其他西文文本的詞向量表示方法上,自然語(yǔ)言處理領(lǐng)域已經(jīng)取得了顯著進(jìn)展,但一些有效的方法并不能直接用于表征中文文本的語(yǔ)義。清華大學(xué)Chen[13]等人提出一種詞向量表示方法CWE(character-enhanced word embedding), 它是在CBOW(continue BOW)[14]的基礎(chǔ)上,通過(guò)融合漢字的特性(如漢字在詞語(yǔ)中出現(xiàn)的位置和所屬類別等)提出的一種詞向量方法,該方法取得了較好的效果。受Huang等人的工作啟發(fā),本文提出一種基于漢字筆畫的字向量表示法,并用于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),從而獲取短文本的語(yǔ)義信息。實(shí)驗(yàn)證明,在短文本相似度計(jì)算上,該字向量表示方法具有較好的效果。特別地,該字向量表示的向量維度低,空間開銷小。

針對(duì)短文本消息的特征,本文提出使用卷積神經(jīng)網(wǎng)絡(luò)的方法來(lái)實(shí)現(xiàn)中文短文本語(yǔ)義相似度的計(jì)算,針對(duì)網(wǎng)絡(luò)的輸入問(wèn)題,同時(shí)也提出一種根據(jù)中文漢字的結(jié)構(gòu)屬性來(lái)獲取它在高維空間中的表達(dá),即用一個(gè)32維的向量來(lái)表示每一個(gè)漢字,并將其作為網(wǎng)絡(luò)的輸入。實(shí)驗(yàn)中,使用相關(guān)短文本數(shù)據(jù),結(jié)合提出的字向量表達(dá)方法,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,驗(yàn)證了本文所提方法的有效性。

2 相關(guān)工作

文本相似性計(jì)算是指給出兩個(gè)文本消息,通過(guò)分別對(duì)它們進(jìn)行數(shù)據(jù)預(yù)處理,分析并使用恰當(dāng)?shù)乃惴ㄌ崛∑湎鄳?yīng)的特征,再通過(guò)一定的方法來(lái)度量它們之間的相似性。當(dāng)前計(jì)算短文本消息相似性的方法有如下幾種。

(1) 傳統(tǒng)經(jīng)典模型TF-IDF以及一些基于它改進(jìn)的方法: 主要思想是通過(guò)提取文本消息中詞語(yǔ)的權(quán)重來(lái)標(biāo)識(shí)句子,使文本消息構(gòu)成向量表達(dá)。權(quán)重主要由兩部分組成,即該詞語(yǔ)在文本中的頻率(term frequency, TF)與反文檔頻率(inverse document frequency, IDF)。然而這種方法太過(guò)于依賴詞語(yǔ)的共現(xiàn),加上本身短文本消息就由很少的字組成,往往實(shí)際應(yīng)用中得不到很好的效果。因?yàn)閮蓚€(gè)文本消息可能沒(méi)有共同的詞語(yǔ)但也可以語(yǔ)義相關(guān),相反如果兩個(gè)文本消息有一些共同的詞語(yǔ)也不一定語(yǔ)義相關(guān)。如”富士蘋果很好吃,趕緊買”,“蘋果六代真好用,趕緊買”和”喬布斯逝世了”。

(2) 基于知網(wǎng)的方法: 知網(wǎng)是一個(gè)以包括漢語(yǔ)和英語(yǔ)所代表的概念為描述對(duì)象,以揭示它們之間所具有的屬性關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[15],義原作為其最小的不可分割的語(yǔ)義單位被廣泛應(yīng)用。通過(guò)對(duì)文本消息分詞處理加上使用義原樹可以計(jì)算詞語(yǔ)之間的相似度,最終通過(guò)一定的方法來(lái)得出文本之間的相似性,其中吳健[16]、江敏[17]、劉群[18]、Resnik[19]、李峰[20]、李培[21]、Dekang Lin[22]等在義原間相似度計(jì)算方面做了大量的研究工作。

(3) 通過(guò)對(duì)短文本消息進(jìn)行特征擴(kuò)展: 擴(kuò)充它的語(yǔ)義信息來(lái)彌補(bǔ)其稀疏性[23-28]。文獻(xiàn)[28]通過(guò)適當(dāng)聚合某一個(gè)Tweet用戶發(fā)布的一些短文本消息,使之構(gòu)成相對(duì)較豐富的文本信息。但這種方式的局限性在于不一定都能找到適合與原文本消息擴(kuò)展的其他消息,比如某些用戶可能只有很少的Tweet消息。

(4) 基于主題模型的方法:LDA(latent dirichlet allocation)是主題模型的典型代表,由于理論的完備性與可解釋性被廣泛應(yīng)用于文本主題挖掘任務(wù)中,主要用來(lái)發(fā)現(xiàn)在文本集中潛在的主題分布。在實(shí)驗(yàn)研究中發(fā)現(xiàn),短文本消息主題模型同樣存在上述所說(shuō)的稀疏性問(wèn)題。為了解決這一問(wèn)題,文獻(xiàn)[29]提出BTM(biterm topic model)主題建模,它充分利用基于全局文檔的詞語(yǔ)共現(xiàn)模式,能一定程度克服短文本消息的語(yǔ)義特征稀疏性,能夠取得比LDA更好的效果,表1展示了BTM的部分效果,但是BTM的算法復(fù)雜度較高。

表1 BTM 主題模型樣例

由于短文本消息語(yǔ)義稀疏并且沒(méi)有豐富的結(jié)構(gòu)信息,其包含的可利用的信息量非常有限,以上傳統(tǒng)的文本間相似度計(jì)算方法普適性普遍較差。本文主要使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)短文本消息進(jìn)行語(yǔ)義特征提取,并在此基礎(chǔ)上提出根據(jù)漢字字型結(jié)構(gòu)及其拼音形式構(gòu)造字向量作為網(wǎng)絡(luò)的輸入,然后利用隱藏層不斷學(xué)習(xí)其抽象特征,最后得出其文本消息更高層次的向量表達(dá),即可視為該文本消息的語(yǔ)義特征。

3 基于筆畫的字向量模型與卷積神經(jīng)網(wǎng)絡(luò)

3.1 基于筆畫的字向量模型

漢字造字法,即古人所說(shuō)的“六書”: 象形字、會(huì)意字、指事字、形聲字、轉(zhuǎn)注、假借,可分為“四體二用”,其中四體的含義如下。

(1) 象形字是描摹事物的記錄方式,是世界上最早的文字,也是最形象、演變至今保存最完好的一種漢字字形。它純粹利用圖形來(lái)刻畫文字的使用,而這些文字與所代表的含義在形狀上很相像。如“休”字,像是一個(gè)人依偎著一棵樹。“山”就像一座大山的樣子,在一群山的中間有一座高高的山峰。

(2) 會(huì)意字是指兩個(gè)或兩個(gè)以上的獨(dú)體字根據(jù)其意思合成的一個(gè)字。

(3) 指事字是一種抽象的造字方法,當(dāng)沒(méi)有或不方便用具體形象刻畫的時(shí)候就用一種抽象的符號(hào)來(lái)表示。

(4) 形聲字是在象形字、會(huì)意字、指事字三種形式的基礎(chǔ)上形成的。它是兩個(gè)文或字復(fù)合成體,其中一個(gè)文或字表示事物的類別,而另一個(gè)表示事物的讀音,也就是人們通常說(shuō)的“讀音認(rèn)字認(rèn)半邊”。

另外,漢字還可以拆分為偏旁和部首,很多漢字如果具有同一個(gè)偏旁,可能表示同一個(gè)意思,甚至讀音也一樣。例如,很多帶“扌”的漢字表示為一個(gè)動(dòng)作, 即提、扛、搶、挑等。不僅如此,根據(jù)漢字的結(jié)構(gòu),研究發(fā)現(xiàn)任何一個(gè)漢字都可以分別由橫、豎、撇、捺、折的個(gè)數(shù)線性組合。例如,

良=2·橫 +0·豎 +1·撇 +2·捺 +2·折

綜合以上信息,本文根據(jù)漢字的組成結(jié)構(gòu)和其拼音結(jié)構(gòu),提出一種新的字向量模型,把漢字完全映射到歐氏空間。其中,每個(gè)漢字由一個(gè)長(zhǎng)度僅為32位的向量組成。相比于One-hot的向量表示方法,基于筆畫的字向量具有非常低的維度,詳見(jiàn)表2。

表2 字向量模型的32位構(gòu)成

在實(shí)驗(yàn)中,通過(guò)公開的漢字筆畫庫(kù)和拼音庫(kù)[30],對(duì)20 902個(gè)漢字使用上述方法分別構(gòu)造出它們的字向量(表3),發(fā)現(xiàn)僅有297對(duì)字向量沖突,即不同的漢字具有相同的字向量表達(dá),如表4列舉了部分沖突的漢字對(duì)。 然而,從表4中可以看到,很多沖突的漢字對(duì)都是通假字或是生僻字或是一些已經(jīng)從字典中丟棄的字,并且在沖突的漢字對(duì)中,幾乎沒(méi)有在常用的2 500個(gè)漢字和次常用的1 000個(gè)漢字的范圍內(nèi)。這說(shuō)明基于筆畫的字向量模型是可行的。

表3 字向量舉例

表4 字向量模型中的部分沖突

3.2 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

卷積神經(jīng)網(wǎng)絡(luò)(CNN)屬于人工神經(jīng)網(wǎng)絡(luò),廣泛應(yīng)用于語(yǔ)音處理和圖像識(shí)別領(lǐng)域。與其他神經(jīng)網(wǎng)絡(luò)模型相比,它的主要優(yōu)勢(shì)在于權(quán)值共享,減少了網(wǎng)絡(luò)結(jié)構(gòu)中權(quán)值的數(shù)量,從而降低了后期訓(xùn)練網(wǎng)絡(luò)模型的復(fù)雜度。此外,在圖像處理領(lǐng)域使用卷積神經(jīng)網(wǎng)絡(luò)可以把圖像直接作為網(wǎng)絡(luò)的輸入,避免了像傳統(tǒng)圖像識(shí)別算法中復(fù)雜的數(shù)據(jù)重建和特征提取過(guò)程。卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)特殊的多層感知器,使之更類似于生物神經(jīng)網(wǎng)絡(luò)。

在自然語(yǔ)言處理領(lǐng)域同樣可以使用卷積神經(jīng)網(wǎng)絡(luò),其關(guān)鍵點(diǎn)就在于如何把漢字表示成數(shù)字或向量輸入到網(wǎng)絡(luò)模型中。只要獲取到漢字的表達(dá)之后,就可以完全使用卷積神經(jīng)網(wǎng)絡(luò),最后提取出相應(yīng)的語(yǔ)義特征。類似于圖像處理,使用卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)在于,當(dāng)獲取到相應(yīng)漢字表達(dá)之后,可以直接將其輸入網(wǎng)絡(luò),不像傳統(tǒng)基于詞語(yǔ)類的特征提取方法。傳統(tǒng)方法中,要首先進(jìn)行分詞,然后再根據(jù)詞語(yǔ)來(lái)提取該文本的特征,并且不同的分詞模型還可能會(huì)影響到最后的結(jié)果。對(duì)此,本文提出了一種基于漢字屬性結(jié)構(gòu)的哈希映射方法。

4 基于卷積神經(jīng)網(wǎng)絡(luò)的中文短文本相似度計(jì)算

4.1 方法概述

利用基于筆畫的字向量模型將漢字映射成向量,就可將短文本消息直接輸入網(wǎng)絡(luò)中計(jì)算。卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)包括: 輸入層、卷積層、采樣層、特征表達(dá)層,詳見(jiàn)圖1(注: 以下將用到的字母表示完全依照?qǐng)D1)。

我們把使用卷積神經(jīng)網(wǎng)絡(luò)加上基于筆畫的的字向量模型稱為CNN_CC(CNN for Chinese Character),下面對(duì)CNN_CC是如何進(jìn)行短文本特征提取的做出詳細(xì)解釋。

圖1 CNN_CC 模型

輸入層: 首先運(yùn)用字向量模型,把待操作的短文本消息中的每一個(gè)字表示成一個(gè)字向量,并把它們拼接起來(lái)。拼接之后的向量就表示該短文本消息。如圖1表示,并非將每一個(gè)字向量單獨(dú)的輸入網(wǎng)絡(luò)中運(yùn)算,而是采用上下文滑動(dòng)窗口機(jī)制,即設(shè)某短文本消息有T個(gè)漢字組成,窗口大小為d,lt表示該消息中第t個(gè)字向量,則:

卷積層: 卷積層上的卷積操作可以視為基于滑動(dòng)窗口的特征提取,首先根據(jù)滑動(dòng)窗口產(chǎn)生一個(gè)上下文拼接向量,然后使用一個(gè)線性映射矩陣和tanh激活函數(shù)來(lái)產(chǎn)生局部特征向量,即

其中,

以這樣的方式操作每一組字向量。這種操作簡(jiǎn)化了模型參數(shù)個(gè)數(shù),因?yàn)閷?duì)于每一個(gè)拼湊之后的矩陣lt都使用Wc來(lái)進(jìn)行卷積操作。基于上下文的滑動(dòng)窗方式,類似于自然語(yǔ)言處理中語(yǔ)言模型的思想,如n-gram模型。這樣做是因?yàn)楹芏嘧只蛟~在不同的語(yǔ)境下所表示的意思不盡相同,其周圍的鄰居詞語(yǔ)在一定程度上可以反映出它的含義,這種思想在很多自然語(yǔ)言處理任務(wù)中被廣泛使用。

采樣層: 在卷積層中提取出一系列局部上下文特征之后,這些詞語(yǔ)級(jí)別的特征需要被整合成句子級(jí)別的特征,它是一個(gè)固定長(zhǎng)度且獨(dú)立于輸入字序列的一個(gè)特征向量。從直觀上理解,在提取短文本語(yǔ)義特征時(shí),句子中那些并沒(méi)有顯著含義的字或詞應(yīng)該過(guò)濾掉。相反,那些意思顯著的主干字應(yīng)盡量保存下來(lái)。即在采樣層要盡量保留顯著的局部特征而抑制那些不重要的局部特征。出于這樣的目的,在此使用了max函數(shù)求每一維度的最大值,即

其中,v(i)表示采樣層v的第i個(gè)元素,ht(i)表示卷積層第t個(gè)局部特征的第i個(gè)元素。K是采樣層采樣的維度,和卷積層的維度相等。

特征表達(dá)層: 當(dāng)采樣層提取出句子級(jí)別的特征之后,使用一個(gè)非線性的傳輸層來(lái)提取更高層次的語(yǔ)義表達(dá),對(duì)應(yīng)圖1中的語(yǔ)義表達(dá)層如式(5)所示。

其中,Ws表示語(yǔ)義映射矩陣,v是通過(guò)采樣層得到的特征向量,y表示潛在的語(yǔ)義空間表達(dá),即所要求的目標(biāo)量。

4.2 訓(xùn)練模型參數(shù)

為最優(yōu)化圖1的參數(shù),即θ={Wc,Ws},使用基于文檔對(duì)之間的語(yǔ)義誤差作為訓(xùn)練的目標(biāo)(Yih et al.[31])??紤]一個(gè)短文本信息s,有兩個(gè)候選短文本消息t1和t2,其中t1和s的語(yǔ)義更相關(guān),即使得:

其中σ(s,t)表示短文本消息s和t之間的語(yǔ)義相似度,其計(jì)算方法如式(7)所示。

其中ys和yt表示由卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生的短文本消息s和t的語(yǔ)義特征向量,參數(shù)用θ表示。直觀上,我們需要最大化Δ,即最大化語(yǔ)義相似度高的文本集與語(yǔ)義相似度低的文本集之間的差距。因此,選取邏輯回歸的誤差損失函數(shù)表示,即

由于使用了余弦相似性,Δ的范圍為[-2,2],為了使它有一個(gè)更大的取值范圍,我們引入了比例因子γ。在實(shí)驗(yàn)中取γ=10。由于式(8)可微,可以使用隨機(jī)梯度下降法來(lái)最優(yōu)化。在其訓(xùn)練過(guò)程中,我們采用自適應(yīng)方法來(lái)調(diào)整學(xué)習(xí)率η: 即開始設(shè)置η=1.0,在每一次全部文本消息迭代完成之后,設(shè)置η=η·0.5,直到損失函數(shù)不再明顯減少或η小于預(yù)先設(shè)置的閾值(如0.000 01),才停止迭代。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 實(shí)驗(yàn)數(shù)據(jù)集

為了驗(yàn)證本文所提方法的有效性,我們使用了搜狗開放實(shí)驗(yàn)室(Sogou Labs)[32]提供的兩份數(shù)據(jù): 用戶點(diǎn)擊數(shù)據(jù)集和語(yǔ)義相關(guān)度標(biāo)注數(shù)據(jù)集。不同數(shù)據(jù)集有其相應(yīng)的特性。 點(diǎn)擊數(shù)據(jù)集里面的數(shù)據(jù)分散,對(duì)于每一條短文本,除了與其對(duì)應(yīng)的標(biāo)題語(yǔ)義相關(guān)之外,其他消息與之幾乎不相關(guān)。而標(biāo)注數(shù)據(jù)集則相反,里面存在很多(大于20)彼此相關(guān)的短文本消息,只是相關(guān)程度不一,但都確保有其語(yǔ)義最相關(guān)的消息。部分?jǐn)?shù)據(jù)展示如表5、表6所示。除此之外,還在網(wǎng)頁(yè)中爬取了相關(guān)URL的網(wǎng)頁(yè)標(biāo)題, 這樣可以視為用戶搜索詞與點(diǎn)擊URL的標(biāo)題這兩個(gè)短文本消息正相關(guān),即視為他們表示相同的語(yǔ)義信息。這些數(shù)據(jù)與其他不相關(guān)的語(yǔ)義的短文本消息一起,就構(gòu)成了模型的訓(xùn)練數(shù)據(jù)集。

表5 用戶點(diǎn)擊數(shù)據(jù)集

表6 語(yǔ)義相關(guān)度標(biāo)注數(shù)據(jù)集

5.2 實(shí)驗(yàn)效果對(duì)比

實(shí)驗(yàn)中加入三個(gè)模型作為實(shí)驗(yàn)結(jié)果的對(duì)比: VSM、BTM和CWE。其中,BTM被認(rèn)為是目前短文本計(jì)算效果相對(duì)較好的主題模型,而CWE則是一種采用深度學(xué)習(xí)技術(shù)的詞向量表示方法。

在實(shí)驗(yàn)過(guò)程中,當(dāng)訓(xùn)練好模型之后,分別提取每一個(gè)短文本消息的語(yǔ)義特征,即一個(gè)32維的向量,再通過(guò)余弦相似度計(jì)算短文本集中每一對(duì)短文本消息的語(yǔ)義相似性,最后反向?qū)Ρ让恳粋€(gè)短文本消息是否匹配到最相關(guān)的語(yǔ)義消息,記準(zhǔn)確率P為評(píng)論指標(biāo)??紤]到空間向量模型(VSM)的特性,實(shí)驗(yàn)分兩組進(jìn)行:

第一組為CNN_CW、BTM和CWE的對(duì)比,應(yīng)用在用戶點(diǎn)擊數(shù)據(jù)集中;

第二組為CNN_CW、VSM和CWE的對(duì)比,應(yīng)用在語(yǔ)義相關(guān)度標(biāo)注數(shù)據(jù)集中。

根據(jù)圖2可以得出: 在兩個(gè)數(shù)據(jù)集中的兩次實(shí)驗(yàn)結(jié)果中,CNN_CC均比BTM和VSM的效果好,特別是在標(biāo)注數(shù)據(jù)集中,甚至比VSM的命中率多了十倍。這是因?yàn)樵跇?biāo)注數(shù)據(jù)集中每一個(gè)文本都至少有20條與其語(yǔ)義相關(guān)的消息,換言之,僅從組成漢字而言,有很多與目標(biāo)消息在表面上字或詞重疊,這就使得VSM效果極差。

圖 2 實(shí)驗(yàn)結(jié)果

為了進(jìn)一步說(shuō)明CNN_CC的優(yōu)越性,圖3列出了更詳細(xì)的實(shí)驗(yàn)結(jié)果,其中橫坐標(biāo)表示通過(guò)模型計(jì)算出的與目標(biāo)短文本最相似的前N個(gè)短文本,如果包含其最相似的短文本消息,即視為命中。

從圖3中可以看出: 由于點(diǎn)擊數(shù)據(jù)集由非常短的短文本消息(最短的兩個(gè)字)組成,使得基于傳統(tǒng)CBOW方法的學(xué)習(xí)效果非常差,從而導(dǎo)致CWE的效果不太理想。然而,在圖4中,由于語(yǔ)義相關(guān)度標(biāo)注數(shù)據(jù)集文本的長(zhǎng)度相對(duì)要長(zhǎng)很多,而且固定模式的詞組會(huì)反復(fù)出現(xiàn),所以CWE取得的效果比前一個(gè)數(shù)據(jù)集的效果好。綜上所述,CNN_CC在兩個(gè)數(shù)據(jù)集上的效果均優(yōu)于其他兩種方法,并且在兩個(gè)數(shù)據(jù)集中的穩(wěn)定性也相對(duì)更好。

圖 3 對(duì)比三個(gè)模型在點(diǎn)擊數(shù)據(jù)集上的準(zhǔn)確率

圖 4 對(duì)比三個(gè)模型在語(yǔ)義相關(guān)度標(biāo)注數(shù)據(jù)集中的準(zhǔn)確率

6 總結(jié)及未來(lái)的工作

隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展以及移動(dòng)智能設(shè)備的日益普及,短文本消息數(shù)量將成為信息傳播的主流載體。本文以短文本消息為研究對(duì)象,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)提出一種基于漢字的字向量模型(CNN_CC)。通過(guò)把漢字表示成一個(gè)32維的向量,再經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)每一層的復(fù)雜特征提取過(guò)程,最后得到短文本消息的語(yǔ)義特征表達(dá)。因此,只要獲取了其相應(yīng)的語(yǔ)義特征向量,就可以計(jì)算出兩個(gè)短文本消息之間的語(yǔ)義相似度。利用筆畫信息進(jìn)行漢字的向量化,不僅降低了文本向量化的維度,大幅降低了計(jì)算的復(fù)雜度,在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也證明了該方法優(yōu)于其他兩種常用的短文本處理方法。

在下一步的工作中,我們會(huì)考慮在32維的基礎(chǔ)上融入漢字的其他結(jié)構(gòu)信息(如漢字有上下結(jié)構(gòu)、左右結(jié)構(gòu)、上中下結(jié)構(gòu)等)和多音字信息,以及標(biāo)點(diǎn)符號(hào)信息,因?yàn)橹形牡臉?biāo)點(diǎn)也帶有一定的感情色彩。此外,由于在當(dāng)前的研究模型中我們只使用了一層全連接網(wǎng)絡(luò),未來(lái)可以嘗試增加多層全連接網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以獲取更加豐富的文本信息。

[1] 代六玲, 黃河燕, 陳肇雄. 中文文本分類中特征抽取方法的比較研究[J]. 中文信息學(xué)報(bào), 2004, 18(1): 26-32.

[2] 陳肇雄, 高慶獅. 自然語(yǔ)言處理[J]. 計(jì)算機(jī)研究與發(fā)展, 1989,(11): 1-16.

[3] Bedi P, Kaur H, Marwaha S. Trust based recommender system for the semantic web[C]//Proceedings of the 20th international joint conference on artifical intelligence. Morgan Kaufmann Publishers Inc.. 2007: 2677-2682.

[4] 劉遠(yuǎn)超, 王曉龍, 徐志明,等. 文檔聚類綜述[J]. 中文信息學(xué)報(bào), 2006,20(3): 55-62.

[5] Lee D L, Chuang H, Seamons K. Document Ranking and the Vector-Space Model[J]. Software IEEE, 1997, 14(2): 67-75.

[6] Yoshikawa T. Singular-value decomposition[M]. Foundations of Robotics: Analysis and Control. MIT Press, 2003: 268-271.

[7] Dong Y, Li D. Feature representation learning in deep neural networks[M]. Automatic Speech Recognition. Springer London, 2015: 157-175.

[8] Zhang J R, Zhang J, Lok T M, et al. A hybrid particle swarm optimization-back-propagation algorithm for feedforward neural network training[J]. Applied Mathematics & Computation, 2007, 185(2): 1026-1037.

[9] Huang W, Qiao Y, Tang X. Robust scene text detection with convolution neural network induced MSER trees[M]. Computer Vision-ECCV 2014 Springer International Publishing, 2014: 497-511.

[10] Dong L, Wei F, Tan C, et al. Adaptive recursive neural network for target-dependent twitter sentiment classification[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. 2014: 49-54.

[11] Williams R J, Zipser D. A learning algorithm for continually running fully recurrent neural networks[J]. Neural computation, 1989, 1(2): 270-280.

[12] Huang P S,He X,Gao J,et al. Learning deep structured semantic models for web search using clickthrough data[C]//Proceedings of the 22nd ACM international conference on conference on information & knowledge management ACM, 2013: 2333-2338.

[13] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of International Conference on Artificial Intelligence. AAAI Press, 2015.

[14] Goldberg Y, Levy O. word2vec Explained: deriving Mikolov et al.’s negative-sampling word-embedding method[J]. Eprint Arxiv, 2014.

[15] 董振東,董強(qiáng).知網(wǎng)[DB/OL].[2011-06-23]. http://www.keenage.com/.

[16] 吳健,吳朝暉,李瑩,等.基于本體論和詞匯語(yǔ)義相似度的web服務(wù)發(fā)現(xiàn)[J]. 計(jì)算機(jī)學(xué)報(bào),2005,28(4):595-602.

[17] 江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5): 84-89.

[18] 劉群, 李素建. 基于《 知網(wǎng)》 的詞匯語(yǔ)義相似度計(jì)算[J]. 中文計(jì)算語(yǔ)言學(xué), 2002, 7(2): 59-76.

[19] Resnik P. Using Information Content to Evaluate Semantic Similarity in a Taxonomy[C]//Proceedings of the 14th International Joint Conference on Artificial Intelligence. 1995: 448-453.

[20] 李峰,李芳. 中文詞語(yǔ)語(yǔ)義相似度計(jì)算——基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3): 99-105.

[21] 李培.基于《知網(wǎng)》的文本相似度研究[D].河北工業(yè)大學(xué)碩士學(xué)位論文,2012.

[22] LIN Dekang.An information—theoretic definition of similarity semantic distance in WordNet[C]//Proceedings of the 15th International Conference on Machine Learning, San Francisco,CA: [s.n.], 1998.

[23] 寧亞輝,樊興華,吳渝. 基于領(lǐng)域詞語(yǔ)本體的短文本分類[J].計(jì)算機(jī)科學(xué), 2009,03: 142-145.

[24] 王盛,樊興華,陳現(xiàn)麟. 利用上下位關(guān)系的中文短文本分類[J].計(jì)算機(jī)應(yīng)用,2010,3(3): 603-606.

[25] 白秋產(chǎn),金春霞.概念屬性擴(kuò)展的短文本聚類算法[J].長(zhǎng)春師范大學(xué)學(xué)報(bào),2011,(10): 29-33.

[26] 史偉,王洪偉, 何紹義. 基于微博平臺(tái)的公眾情感分析[J].情報(bào)學(xué)報(bào), 2012,31(11) : 1171-1178.

[27] Hong L and Davison B. Empirical study of topic modeling in twitter[C]//Proceedings of the First Workshop on Social Media Analytics, 2010:80-88.

[28] Weng J, Lim E, Jiang J, et al. Twitterrank: finding topic-sensitive influential twitterers[C]//Proceedings of the 3rd ACM international conference on Web search and data mining, 2010:261-270.

[29] Cheng Xueqi, et al. BTM: topic modeling over short texts[J]. IEEE Transactions on Knowledge and Data Engineering, 2014,26(12): 2928-2941.

[30] 漢字筆畫庫(kù)與拼音庫(kù)[EB/OL]. http://download.csdn.net/download/cshaoty/4295604.

[31] Yih W T, Toutanova K N, Meek C A, et al. Learning discriminative projections for text similarity measures[C]//Proceedings of the 15th conference on Computitional Natural Language Learning, portland, Oregon, USA, 2011:247-256.

[32] 搜狗開放實(shí)驗(yàn)室(Sogou Labs)[EB/OL]. http://www.sogou.com/labs/.

ResearchonChineseCharacterEmbeddingBasedonItsInherentAttributes

HU Hao, LI Ping,CHEN Kaiqi

(Center of Intelligence and Networked System, School of Computer Science, Southwest Petroleum University, Chengdu, Sichuan 610500, China)

With the rapid development of Internet, Chinese short text has become increasingly im- portant. How to mining valuable information from massive short text has become a very important and challenging task in Chinese natural language processing. However, using the traditional methods which analyze long text often get bad results due to the sparsity of syntax and semantic. This paper proposed a Chinese word embedding method based on stroke, combined with deep learning of short text similarity calculation. This method combined Chinese word-building and its Pin-Yin attributes. The Chinese characters were mapped to a 32-dimensional vector. Then we used convolution neural network to extract the semantic of each short text and calculate similarity. Experimental results show that compared with the existing short text similarity calculation method, the method has greatly improved on performance and accuracy.

short text; Chinese word embedding; deep learning

胡浩(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、深度學(xué)習(xí)。

李平(1977—),博士,副研究員,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)科學(xué)、統(tǒng)計(jì)機(jī)器學(xué)習(xí)、自然語(yǔ)言處理。

陳凱琪(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、機(jī)器學(xué)習(xí)。

1003-0077(2017)03-0032-09

2016-04-26定稿日期: 2016-06-02

TP391

: A

猜你喜歡
短文消息語(yǔ)義
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
語(yǔ)言與語(yǔ)義
一張圖看5G消息
KEYS
Keys
“吃+NP”的語(yǔ)義生成機(jī)制研究
漢語(yǔ)依憑介詞的語(yǔ)義范疇
消息
消息
消息
合阳县| 中卫市| 肇源县| 博客| 正镶白旗| 布拖县| 开原市| 中卫市| 井冈山市| 米泉市| 广昌县| 罗江县| 乐亭县| 马鞍山市| 兴业县| 顺义区| 封开县| 余庆县| 铜川市| 日土县| 镇巴县| 日喀则市| 西盟| 新晃| 凭祥市| 威远县| 漯河市| 顺义区| 姚安县| 丰县| 德格县| 奉贤区| 武山县| 个旧市| 灯塔市| 吉木乃县| 延津县| 樟树市| 浙江省| 河南省| 万载县|