国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

詞干單元和卷積神經(jīng)網(wǎng)絡(luò)的哈薩克短文本分類

2020-09-07 01:49:42沙爾旦爾帕爾哈提米吉提阿不里米提艾斯卡爾艾木都拉
小型微型計算機系統(tǒng) 2020年8期
關(guān)鍵詞:詞干哈薩克語詞素

沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉

(新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)E-mail:sardar312@126.com

1 引 言

近年來,文本分類問題在許多實際應(yīng)用中得到了廣泛的研究和解決.尤其是隨著自然語言處理(NLP)和文本挖掘方面的技術(shù)突破,越來越多的研究人員開始對開發(fā)依賴于文本分類方法的應(yīng)用程序感興趣.文本分類是NLP領(lǐng)域的一個重要應(yīng)用.自動文本分類是根據(jù)文本的內(nèi)容或主題為文本自動分配一個或多個適當(dāng)類別的方法[1-3].自動文本分類在情感分析[4],實時事件檢測[5],查找熱門話題[6]等信息檢索領(lǐng)域被廣泛應(yīng)用.文本分類中的一個關(guān)鍵問題是如何在計算機上有效地表示文本中的特征.

哈薩克語是一種派生類語言.哈薩克語的句子由自然分開的詞組成.詞是由后綴所附的詞干構(gòu)成,因此,哈薩克語中構(gòu)詞和詞性變化較復(fù)雜,詞匯量巨大.其中,詞干是具有實際意義的詞匯單元,詞綴提供語義和語法功能,因此,通過對哈薩克文本的詞素切分以及詞干提取等預(yù)處理操作來我們可以保留有意義的和有效的文本特征,并能夠有效地降低特征的反復(fù)率和維數(shù).因此,詞干提取是哈薩克文本分類任務(wù)中重要的基礎(chǔ)性工作,如以下例子所示:

(原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

(詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

以上句子中文意思是:在比賽中取得比賽的[比賽]終局分?jǐn)?shù),勝利地通過了選賽.在中文中大括號[]里的‘比賽’這個詞一般不會出現(xiàn)的,但在以上哈薩克句子中對應(yīng)于這個詞的第四個詞jares是必不可少的.

以上哈薩克句子中有10個詞,其中四個詞的詞干(被加粗部分)都是/jares/(比賽),將以上句子經(jīng)過詞素切分和詞干提取后,四個詞的主要意思能夠由一個詞干來表示,并且可以獲取四個詞特征,因此大幅降低特征的維數(shù),如表1所示.

表1 哈薩克詞語變體

哈薩克語形態(tài)結(jié)構(gòu)上的多種變化以及缺乏的語言資源是哈薩克語NLP中的主要問題之一,從互聯(lián)網(wǎng)上搜集的文本數(shù)據(jù)具有帶噪聲的拼寫以及不確定的編碼等特點,因此,對帶噪聲的哈薩克短文本可靠地進行提取和分類變得一種富有挑戰(zhàn)的任務(wù).然而,帶噪聲短文本數(shù)據(jù)的提取與分類是哈薩克語NLP必然的重要一環(huán).

目前,部分學(xué)者提出了一些哈薩克文本詞干提取[7,8]和分類方法[7,8,10-12].文獻[7]用詞干和附加成分表對訓(xùn)練文本的詞語進行分割,并結(jié)合哈薩克語詞法規(guī)則來提取詞干.文獻[8]用詞法分析和雙向全切分相結(jié)合的方法對哈薩克文本進行詞綴切分和詞干提取,并與預(yù)先準(zhǔn)備好的詞干表進行匹配,來試圖提高詞干提取的效率.以往的這些哈薩克文本詞干提取有關(guān)的研究大多基于簡單的詞法分析和一些人工收集的規(guī)則,因此存在歧義,尤其是對于短文本而言.哈薩克語詞干提取任務(wù)中一個特殊的問題是語音的和諧與不和諧,這個問題導(dǎo)致詞形的變化,這需要句子層面的語境分析來解決.我們提出的基于句子或較長上下文的詞素切分和詞干提取方法[9]能夠為整個哈薩克句子提供形態(tài)分析功能,能夠準(zhǔn)確地預(yù)測到帶噪聲的哈薩克文本中的詞干與詞條,并且可以有效地降低文本中的歧義.

文獻[11]用SVM分類器在包括五個類別的460篇哈薩克文本的語料庫上進行文本分類實驗,并得到87.6%的分類準(zhǔn)確率,文中沒有提到被用到的文本表示和特征選擇方法.文獻[7]對詞頻和語言信息進行簡單的統(tǒng)計來選擇特征,在包括五個類別的296篇哈薩克文本的語料庫上進行文本分類實驗,該實驗把KNN選作為分類器,并得到84.98%的平均分類準(zhǔn)確率.文獻[10]用向量空間文本表示模型提取哈薩克文本的特征,用文本頻率比值法(DFR-Document Frequency Ratio)進行特征選擇,以SVM和改進的KNN為分類器,在包括五個類別的200篇哈薩克文本的語料庫上進行文本分類實驗,并得到82.2%的分類準(zhǔn)確率.文獻[12]用專屬于維吾爾語或者哈薩克語文字的特殊字符、維吾爾語和哈薩克語字母組合方式和詞綴的差異以及這兩種語言發(fā)音習(xí)慣的不同而產(chǎn)生的字母上的差異等啟發(fā)式特征對單詞數(shù)不超過14的維吾爾語和哈薩克語短文本進行文本語種分類實驗,并得到95.1%的精確率,該文沒有對語料庫文本內(nèi)容所屬的類別進行分類.文獻[8]用DFR方法對原始特征空間進行降維,把SVM和KNN分類器相結(jié)合,先用SVM確定每個類別的支持向量,然后用歐氏距離計算測試樣本和支持向量之間的距離,以此在包括八個類別的1400篇哈薩克文本的語料庫上進行文本分類實驗,并得到77.8%的平均分類精度,文中沒有提到文本特征表示所用的方法.在哈薩克文本分類中被使用的這些方法對詞的頻率進行簡單的統(tǒng)計,用傳統(tǒng)的特征表示方法(其中部分研究中用到的文本表示方法是未知的)來表示哈薩克文本特征以及對傳統(tǒng)的分類器做一些簡單的結(jié)合來實現(xiàn)分類器的改進.

上述哈薩克文本分類方法是淺層的機器學(xué)習(xí),其中文本的語義含義不明確,忽略了文本較長的上下文信息,不能夠有效的捕獲詞語之間的語義關(guān)系,特征提取和選擇需要人工完成,分類準(zhǔn)確率低.因此,哈薩克文本分類任務(wù)迫切需要一種有效特征提取和選擇的方法來提高其分類的效率.

本文提出了基于詞干單元和word2vec_TFIDF以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的哈薩克短文本分類方法.通過對齊的詞-詞素平行訓(xùn)練語料庫來訓(xùn)練統(tǒng)計模型,并從互聯(lián)網(wǎng)上收集的哈薩克短文本中高效地提取其詞干,用word2vec算法對詞干進行向量化,并使用詞頻-逆文檔頻率(TFIDF)算法對詞干向量進行加權(quán)處理,以此提取包含文本上下文之間語義關(guān)系的有效文本特征后,利用CNN作為特征選擇和文本分類算法,進行文本分類實驗.

2 哈薩克文本表示和分類方法

隨著神經(jīng)網(wǎng)絡(luò)的興起,許多適合自然語言的神經(jīng)網(wǎng)絡(luò)模型被提出[13,14].Bengio等人[13]2003年提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型構(gòu)建方法.在此基礎(chǔ)上,Miklov等人[14]2013年提出了word2vec算法,并通過文本上下文信息來描述一個單詞的表示,得到了可以表示單詞之間的語義關(guān)系的低維的密集向量.

2.1 哈薩克文本處理

由廣泛的跨語言和跨文化交流所引起的書寫形式上的不確定性在給哈薩克文本帶來噪聲的同時,也導(dǎo)致新詞、新概念和新表達的持續(xù)出現(xiàn).這些新詞大多是借用新進的外來詞(OOV)或詞干,以及由于拼寫習(xí)慣的不同和方言的變形而引起的噪音整合而成.哈薩克語書寫系統(tǒng)在歷史上的變化是引起不確定的書寫形式的另外一個重要原因之一.現(xiàn)代社會的哈薩克語書寫形式也被這些書寫系統(tǒng)所影響,雖然在官方媒體出現(xiàn)的可能性不大,但是廣泛地在網(wǎng)上論壇和聊天工具中存在.

我們實驗室開發(fā)的多語言詞素切分和詞干提取工具[16,17]將哈薩克語單詞分割成詞干和詞綴等詞匯單元.該工具根據(jù)哈薩克語的詞素與語音規(guī)則,從對齊的哈薩克詞-詞素平行句子中能夠自動地學(xué)習(xí)哈薩克語詞語的各種表面形式與聲學(xué)變化.哈薩克語具有詞素邊界上的音素根據(jù)語音和諧規(guī)則改變其表面形式的特點.在正確地表達詞語的發(fā)音時,文本中可以明顯地觀察到語音和諧.一個候選詞送入給該詞素切分器[16,17]的搜索模塊之后,通過根據(jù)哈薩克語的詞素規(guī)則準(zhǔn)備的詞干和詞綴列表以及語音和諧與不和諧等語音規(guī)則來迭代地運用匹配方法對候選詞進行切分,該候選詞被逐漸切分,分別與詞干、詞綴列表以及詞的各種表面形式匹配,并導(dǎo)出所有可能的詞素切分形式.然后,這些切分結(jié)果送入給統(tǒng)計模塊,并計算所有切分結(jié)果的概率之后,從前N個最好的切分結(jié)果中選擇最佳詞素.該工具為有效地提取哈薩克語文本中的詞干提供了可靠的依據(jù),有效地改進了哈薩克短文本分類任務(wù),詞素切分流程如圖1所示.

圖1 詞素切分流程

本文中用該詞素切分工具[16,17]在5000個哈薩克詞-詞素平行訓(xùn)練句子上訓(xùn)練統(tǒng)計模型(其中80%的部分用于訓(xùn)練,剩余部分用于測試),并進行詞素切分與詞干提取實驗,最終得到95.87%的詞干提取準(zhǔn)確率,如圖2所示.這是通過切分工具所得到的與人工切分的詞素完全匹配的結(jié)果.

圖2 詞素切分結(jié)果

通常,網(wǎng)上收集到的文本語料庫中不同文本所包含的單詞數(shù)是不一樣的.因此,為使語料庫中的文本詞數(shù)相等,以便生成隨后輸入到CNN網(wǎng)絡(luò)中的文本矩陣,我們對文本集執(zhí)行填充操作來修改文本中的詞數(shù).本文對語料庫每個原始文本中的單詞數(shù)量進行了統(tǒng)計,如圖3所示(圖3中,橫軸表示文本中的單詞數(shù)量,縱軸表示不同單詞數(shù)量對應(yīng)的文本數(shù)量).

圖3 實驗文本詞長統(tǒng)計

從圖3可以看出,文本集中的文本大概包含60到120個詞左右,其中詞數(shù)約在100個左右的文本數(shù)量最多.所以,本實驗中輸入給CNN的所有文本的標(biāo)準(zhǔn)詞數(shù)選為100.詞數(shù)不到100的文本,則后向補零處理.同理,從文本集中提取詞干,并形成詞干序列文本集之后,選擇了每篇文本中的前100個詞干為CNN的輸入,如果詞干數(shù)不到100,則后向補零處理,以生成CNN所需的輸入矩陣.

2.2 基于word2vec_TFIDF的文本表示

2.2.1 詞向量學(xué)習(xí)方法

詞(詞干)嵌入是通過word2vec技術(shù)從訓(xùn)練語料庫中生成的以詞出現(xiàn)的上下文為基的實數(shù)向量[18].Word2vec訓(xùn)練所生成的詞干向量可以用作許多自然語言處理任務(wù).兩個詞干之間的語義相似度可以通過計算這兩個詞干的詞干向量之間的距離來容易地被判斷.Word2vec中有兩種主要的學(xué)習(xí)算法:CBOW(連續(xù)詞袋)算法[19]和Skip-gram算法[20].

CBOW是根據(jù)上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c來預(yù)測當(dāng)前的詞干st出現(xiàn)的概率p(st|st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c).CBOW模型通過c個上下文詞干來表示當(dāng)前的詞干st,c是預(yù)選窗口的大小,用CBOW算法對文本進行訓(xùn)練后得到詞干st的詞干向量,如圖4所示.本文使用CBOW算法進行詞干向量的訓(xùn)練.

圖4 CBOW模型結(jié)構(gòu)

與之相反,Skip-gram 是根據(jù)當(dāng)前詞干st來預(yù)測上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c的出現(xiàn)概率p(st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c|st).

我們通過計算采用word2vec工具所形成的詞干向量之間的余弦距離來能夠判斷詞干之間的語義相似度.詞干向量之間的余弦距離值越大,則詞干的語義相似度越高;反之,語義相似度就越低,如表2所示.

表2 詞干向量語義相似度

從表2可以看出,通過詞干向量之間余弦值的計算,獲得的與哈薩克詞干vaqxa(人民幣)和 tor(網(wǎng)絡(luò))語義相似度最高的五個詞干.

2.2.2TFIDF權(quán)重

對于包M含個文本的集合D,其中Di(i=1,2,…,M),通過CBOW模型得到詞干向量.對于文本中的每個詞干,通過TF-IDF算法計算其權(quán)重值tfidf(t,D),它是指詞干t在文本Di(i=1,2,…,M)中的權(quán)重值.TF-IDF考慮單個文本中的詞干頻率tf和整個文本集的詞干頻率idf.TF-IDF的計算公式如公式(1)所示:

(1)

其中,tf(t,Di)是詞干t在第i個文本中的出現(xiàn)頻率,分母是歸一化因子.idf(f)是詞干t的逆文檔頻率,計算公式如公式(2)所示:

(2)

其中,M是訓(xùn)練集中文本總數(shù),nt是詞干t在訓(xùn)練集中的出現(xiàn)頻率.

每個詞干的詞干向量被tfidf值加權(quán)來表示一個文本,如公式(3)所示:

(3)

vec(Di)指的是每個文本Di的詞干向量,wt表示詞干t的N維詞干向量,tfidf(t,Di)表示詞干t在文本Di中的TF-IDF權(quán)重值.

2.3 卷積神經(jīng)網(wǎng)絡(luò)框架

CNN是Lecun等人[21]提出的一種深度學(xué)習(xí)模型,Kim[22]首次把CNN用于文本分類.CNN可以在詞干向量的基礎(chǔ)上自動提取和學(xué)習(xí)句子的特征,從而減少了對人工選擇特征的依賴性,并優(yōu)化了特征選擇的效果.CNN在結(jié)構(gòu)上的主要特點是卷積層和最大池化層的交替累積.本文中用的CNN模型由4個不同的層組成,分別為:輸入層、兩個卷積層、兩個池化層和全連接層,如圖5所示.

圖5 CNN框架

1)輸入層.CNN的第一層是輸入層,其中輸入?yún)?shù)是文本預(yù)訓(xùn)練后得到的詞干向量.輸入矩陣的形式是(n,s,k),其中n是文本的數(shù)目,s是固定的文本長度(CNN輸入文本的長度需要相同),k是詞干向量的維數(shù).v(wi)∈Rk表示對應(yīng)于第i詞干wi的k維子詞干向量.在這種情況下,輸入文本可以表示為公式(4).其中,?是級聯(lián)運算符號.

t1:s=v(w1)?v(w2)?…?v(ws)

(4)

2)卷積層.卷積層是網(wǎng)絡(luò)的核心部分.該層通過卷積核來對網(wǎng)絡(luò)前一層的特征圖進行卷積運算,以此生成新特征.卷積運算采用卷積矩陣窗口w∈Rk×h來生成一個新的特征圖.其中,k是詞干向量的維數(shù),h是窗口內(nèi)詞干的數(shù)目.每個新生成的特征值可以從公式(5)中獲得.

ct=f(w·Wi:i+h-1+b)

(5)

在公式(5)中,ci是由一個窗口詞干wi:i+h-1所生成的一個新特征,b是偏置項,算子“·”是指卷積運算,f()是激活函數(shù).當(dāng)卷積矩陣窗口移動一步時,所有輸入矩陣由窗口(w1:h,w2:h,…,ws-h+1:s)卷積,并生成相應(yīng)的特征映射c=(c1,c2,…,cs-h+1).

3)池化層.池化層的輸入是在卷積層中生成的特征矩陣.池化層的功能是對由卷積層所生成的特征圖進行采樣.本文使用最大池化方法,因為它能夠使模型提取最突出的特征,如公式(6)所示.在公式(6)中,ci表示在卷積層中產(chǎn)生的特征圖,m是特征圖的數(shù)目.

cmax=max(ci) 0

(6)

4)全連接層.CNN的最后一層是全連接層,它將所有的特征和輸出值連接到分類器.該層使用Softmax分類器對來自池化層的特征向量進行分類操作,并輸出最后的分類結(jié)果.

對于文本集Di(i=1,2,…,N),利用CBOW模型對文本進行訓(xùn)練后得到文本向量vec(Di).然后,對所有得到的文本向量進行修改,以形成卷積神經(jīng)網(wǎng)絡(luò)處理所需的矩陣.CNN的輸入文本可以表示為公式(7).其中,T1:n表示所有的輸入文本,?是級聯(lián)運算符.

T1:n=vec(D1)+vec(D2)+…vec(Dn)

(7)

3 實驗結(jié)果及分析

因為哈薩克文本分類處于初級研究階段,沒有公開的哈薩克文本語料庫,所以構(gòu)建哈薩克文本語料庫需要從網(wǎng)上下載文本,才能進進行實驗.

3.1 實驗語料庫

本文通過爬蟲官方哈薩克文網(wǎng)(1)kazakh.people.com.cn,從網(wǎng)上下載哈薩克文本來建立實驗語料庫.該語料庫包含旅游、教育、科技、文華、經(jīng)濟、法律、娛樂和體育等8個類別,每個類別有900篇文本,共7200篇文本.本文用75%文本作為訓(xùn)練集,10%文本作為驗證集,其余部分作為測試集.

哈薩克文本因受其它語言的影響以及個性化等原因,從網(wǎng)絡(luò)上下載的文本容易出現(xiàn)拼寫錯誤.所以我們編寫了哈薩克文字拼寫檢查程序.該程序是通過對哈薩克語音節(jié)的結(jié)構(gòu)形式和規(guī)則進行分析,從而能夠找到存在拼寫錯誤的大部分哈薩克詞匯和不規(guī)則的外來詞,這樣我們便能更正給定詞匯中的拼寫錯誤.拼寫檢查程序流程如圖6所示.

圖6 哈薩克文本拼寫檢查程序流程

盡管Unicode是默認(rèn)的編碼方案,但不同的操作系統(tǒng)和組織仍在使用不同的編碼.因此,我們建立一個代碼映射表,將語料庫中的文本集從各種不同的編碼形式轉(zhuǎn)換成統(tǒng)一的拉丁文字母編碼形式,然后用詞干提取工具從所有的文本中提取詞干,以構(gòu)建詞干序列文本語料庫.基于統(tǒng)計模型的哈薩克文本詞干提取方法可以有效地減少文本特征空間的維數(shù),其中,除掉停用詞后(停用詞數(shù)為1085),詞干詞匯的數(shù)量明顯地下降到詞詞匯數(shù)量的30%左右,如表3所示.

表3 詞干提取引起的特征空間維數(shù)的減少

從語料庫的文本集中提取詞干后,通過CBOW算法對此進行訓(xùn)練,生成詞干向量;同時,對于語料庫的文本沒有進行詞素切分和詞干提取的情況下,通過CBOW算法直接在詞序列構(gòu)成的原始文本上進行訓(xùn)練,以此生成詞向量.在word2vec訓(xùn)練時,詞與詞干嵌入維度和訓(xùn)練窗口的尺寸都設(shè)置為默認(rèn)值,即,分別是100和5,迭代次數(shù)設(shè)置為5,batch_word設(shè)置為10000.取得詞與詞干向量之后,用TFIDF算法分別對所取得的詞與詞干向量進行加權(quán).

3.2 評價指標(biāo)

常用于評價文本分類器性能的指標(biāo)有準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù)等,對于某一個類別Ci的分類結(jié)果而言,如果正確分為該類的文本數(shù)目是a,錯誤劃歸為該類的文本數(shù)目是b,將該類文本錯誤劃歸為其他類的文本數(shù)目是c,屬于其他類的文本正確分為所屬類的文本數(shù)為d,則可以得到這些指標(biāo)的計算公式如下:

(8)

(9)

(10)

(11)

本文使用準(zhǔn)確率和宏F1分?jǐn)?shù)評測了所提出方法的性能.宏F1分?jǐn)?shù)是一個全局性指標(biāo),它同時兼顧了分類模型的精確率和召回率.計算宏F1分?jǐn)?shù)時,先要計算每個類別的F1分?jǐn)?shù),然后計算它們的算術(shù)平均值作為宏F1分?jǐn)?shù).

3.3 實驗結(jié)果及分析

本文實驗使用Pytorch在具有GPU支持的Linux CentOS-7操作系統(tǒng)上實現(xiàn)CNN框架.本文將通過詞素切分工具對文本集進行切分,并提取其詞干之后,通過word2vec及TFIDF算法對詞干進行向量化和加權(quán),用KNN[7,8,10]、NB、SVM[7,8,11]和CNN等方法進行了比較實驗.其中,在KNN、NB、SVM等傳統(tǒng)方法中,通過x2特征選擇方法對文本的特征維數(shù)進行降維,并把x2值最大的前100到2000之間的詞干項選作為新的特征,以此分別進行了實驗,如表4所示.

表4 基于傳統(tǒng)方法的分類結(jié)果

基于CNN的方法中,本文用word2vec算法從文本集中分別生成100×100的詞與詞干兩種向量,并用TFIDF算法對此進行加權(quán)之后,輸入給CNN,做了基于詞與詞干的分類實驗.本文實驗了包括2個、4個和6個卷積層的多種CNN模型結(jié)構(gòu).從這些實驗中發(fā)現(xiàn),對本文的文本分類任務(wù)而言,最好的CNN模型結(jié)構(gòu)由兩組卷積層組成,每個卷積層后面跟著一個最大池化層.本文通過反復(fù)實驗來確定在每個卷積層上設(shè)計尺寸為5×100的128個卷積核的效果最好.在第二個最大池化層之后,用一個dropout策略來避免發(fā)生過擬合現(xiàn)象,其dropout值設(shè)置為0.5.然后,附加一個長度為64的全連接層,后面跟著第二個dropout策略,最后的全連接層有八個節(jié)點,代表八個類別,每個節(jié)點的輸出通過 softmax 函數(shù)后可以歸一化,softmax 輸出值可以理解為這八個類別的概率分布,如圖5所示.CNN通過迭代計算獲得權(quán)重,經(jīng)過多次迭代后得到理想的參數(shù),本次實驗中,本文做了150次迭代運算,實驗結(jié)果如表5所示.

表5 基于CNN的分類結(jié)果

從表4和表5可以看出,基于KNN、NB和SVM的分類準(zhǔn)確率最高時分別達85.49%、92.07%和93.64%.基于CNN的實驗中,不論是基于詞單元還是基于詞干單元,其分類準(zhǔn)確率都隨著迭代次數(shù)的增加而提高,并分別達到93.71%和95.39%后,大概收斂于93.4%和95.2%左右.本文提出的方法與傳統(tǒng)模型相比,分類準(zhǔn)確率分別高出9.9%、3.32%和1.75%.基于詞干的分類準(zhǔn)確率比基于詞的分類準(zhǔn)確率高出1.68%,證明對于粘著性語言的文本分類任務(wù)而言,基于詞干的分類方法能夠提高其分類的效果.

為了驗證本文中利用的word2vec_TFIDF融合特征表示方法在文本分類任務(wù)中的性能,本文在沒有對詞與詞干進行預(yù)訓(xùn)練和用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練情況下,將CNN作為分類器,分別在詞單元和詞干單元上進行了文本分類實驗,并與本文中提出的方法分類結(jié)果進行了比較.在CNN+rand方法中,CNN模型結(jié)構(gòu)保持不變,但沒有對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,而分別直接輸入給CNN,輸入的分布式特征將按高斯分布隨機初始化,然后在訓(xùn)練過程中被修改的;在CNN+word2vec方法中,CNN模型結(jié)構(gòu)還是保持不變,但將用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,并分別把訓(xùn)練所得到的詞與詞干向量輸入給CNN.本次實驗中,為了公平比較,本文用了150次迭代運算,比較實驗結(jié)果如表6所示.

表6 基于不同文本表示方法的分類結(jié)果

從表6可以看出,基于word2vec_TFIDF融合特征的詞與詞干單元文本表示方法所得到的分類準(zhǔn)確率分別比基于沒有預(yù)訓(xùn)練的和基于word2vec預(yù)訓(xùn)練的詞與詞干單元分類準(zhǔn)確率分別高出3.87%、4.16%和0.52%、0.44%.基于詞干和word2vec_TFIDF融合特征的分類損失值明顯地小于其它兩種方法的分類損失值.由此可知,基于word2vec_TFIDF的融合文本表示方法能夠在考慮詞頻重要度的基礎(chǔ)上有效地獲取文本上下文之間的語義信息,以提高文本的分類準(zhǔn)確率.

4 總 結(jié)

文本分類已經(jīng)成為處理海量信息的主要手段,特別是對具有噪聲數(shù)據(jù)的低資源語言而言,可靠的文本分類方法至關(guān)重要.哈薩克語是一種粘著性派生類語言,詞是由多個后綴所附的詞干構(gòu)成,后綴提供語義與句法功能,這一性質(zhì)在理論上產(chǎn)生了無限的詞匯量.所以,詞素切分與詞干提取是哈薩克語NLP的必要途徑.Word2vec詞嵌入技術(shù)可以將語言單元映射成基于上下文的順序向量空間.從上下文信息中獲取和預(yù)測OOV是一種有效的方法.本文討論了一種基于詞素與語音規(guī)則的哈薩克文本詞干提取方法,以及一種基于word2vec_TFIDF融合特征和CNN的文本分類方法.本文中,哈薩克文本分類任務(wù)分別用不同的特征表示方法在不同的詞匯單元上實現(xiàn).實驗結(jié)果顯示,本文提出的基于詞干單元和融合特征表示以及卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得95.39%的分類準(zhǔn)確率,與基于其它詞匯單元和文本表示的文本分類方法相比,本文的方法中分類性能顯著提高.可見,對于哈薩克語等派生類粘著性語言的自然語言處理任務(wù)而言,有效的詞素切分和詞干提取方法能夠提高其效率.

猜你喜歡
詞干哈薩克語詞素
論柯爾克孜語詞干提取方法
維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
詞素配價理論與應(yīng)用
亞太教育(2018年5期)2018-12-01 04:58:23
從詞素來源看現(xiàn)代漢語詞素同一性問題
辭書研究(2017年3期)2017-05-22 14:04:16
哈薩克語附加成分-A
詞素溶合與溶合詞素
融合多策略的維吾爾語詞干提取方法
基于維吾爾語詞干詞綴粒度的漢維機器翻譯
哈薩克語比喻及其文化特征
語言與翻譯(2014年2期)2014-07-12 15:49:28
“v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
語言與翻譯(2014年2期)2014-07-12 15:49:13
清新县| 凤庆县| 镇江市| 大新县| 临武县| 鸡西市| 辽源市| 思南县| 沂水县| 怀集县| 金华市| 榆中县| 公安县| 额敏县| 孙吴县| 黎平县| 蓬莱市| 瓮安县| 钦州市| 新龙县| 博客| 涞水县| 苗栗市| 宾川县| 嘉义县| 合作市| 景泰县| 丰原市| 临朐县| 和林格尔县| 尚志市| 甘肃省| 安吉县| 独山县| 金湖县| 林芝县| 吴江市| 黄梅县| 溆浦县| 凤凰县| 龙南县|