何峻青,黃 嫻,趙學(xué)敏,張克亮
(1. 中國科學(xué)院 聲學(xué)研究所 語言聲學(xué)與內(nèi)容理解實驗室,北京 100190;2. 中國科學(xué)院大學(xué),北京 100049;3. 信息工程大學(xué) 洛陽校區(qū),河南 洛陽 471003)
語種識別(language identification,LID) 是自然語言處理的一個重要分支,旨在識別一個文本內(nèi)容所屬的語種。自Cavnar和Trenkle首先提出基于n元特征的文本分類方法[1]以來,語種識別研究得到了快速發(fā)展,在大量訓(xùn)練數(shù)據(jù)和格式規(guī)范的文本上取得了高精確度[2]和高覆蓋率[3]的成績,語種識別也被認(rèn)為是一項基本已經(jīng)解決的任務(wù)。然而識別基于少量的數(shù)據(jù)、多語種混合輸入、語碼轉(zhuǎn)換(在兩種或兩種以上語言間轉(zhuǎn)換)、相近語種(語言變體、方言)、非常短的文本(如推特的推文)仍然是該領(lǐng)域的瓶頸[4-5]。在本研究中,我們遇到了訓(xùn)練數(shù)據(jù)嚴(yán)重不平衡、相近語種以及文本非常短這三個問題,在訓(xùn)練數(shù)據(jù)受限的情況下識別維吾爾語和哈薩克語的口語風(fēng)格短文本。
維吾爾語(以下簡稱維語) 和哈薩克語(以下簡稱哈語)是典型的相近語言,都屬于阿爾泰語系突厥語族,都是黏連語,在中東和中國西北部廣泛使用。文獻(xiàn)[6]認(rèn)為維語和哈語在句子層面的相似程度超過80%,在詞層面的相似程度則達(dá)到90%以上。區(qū)分這兩種語言的困難在于: ①兩種語言都用阿拉伯字母按照從右至左的順序書寫; ②共享字母多達(dá)26個,另外還有兩個字母看上去一模一樣; ③詞匯和句法有很多重疊之處,僅靠查詢字典來區(qū)分兩種語言難度極大; ④都包含大量前、后綴,導(dǎo)致詞干提取和識別困難。
本文定義的“口語風(fēng)格短文本”包括手機短信、微信等聊天工具的聊天記錄以及推特、臉書、微博等社交平臺上的發(fā)言。對這類文本進(jìn)行語種識別存在很大難度,原因主要如下: ①每條文本長度太短,大多數(shù)句子的長度僅為3~9個詞; ②文本中存在大量的拼寫和語法錯誤,大大增加了詞干提取和錯誤更正的代價; ③廣泛使用了縮略語和俚語表達(dá),普通字典中并未收入這些內(nèi)容; ④收集口語風(fēng)格短文本費時費力,經(jīng)常存在語料不足的問題; ⑤人們?yōu)榱溯斎敕奖?,在很多情況下未使用標(biāo)準(zhǔn)的字母,而是使用近形字符或同音字,導(dǎo)致語料中的字符遠(yuǎn)超過標(biāo)準(zhǔn)字符總數(shù)。本研究收集的維、哈口語風(fēng)格短文本語料中包含了超過100種字符,進(jìn)一步增加了區(qū)分維語和哈語口語風(fēng)格短文本的難度。
本研究旨在構(gòu)建一個相近語種識別系統(tǒng),即使在訓(xùn)練數(shù)據(jù)受限的情況下也能夠識別口語風(fēng)格短文本所屬的相近語種(語言變體、方言)。文章內(nèi)容如下: 第1節(jié)簡要總結(jié)了相關(guān)研究;第2節(jié)介紹了維、哈口語風(fēng)格短文本語料庫的構(gòu)建;第3節(jié)詳細(xì)介紹了分類特征的設(shè)計、相近語種識別系統(tǒng)的構(gòu)建,以及評測標(biāo)準(zhǔn)的擬定;第4節(jié)通過一系列實驗檢測了數(shù)據(jù)增補策略的有效性、各個特征在相近語種識別過程中的貢獻(xiàn)、傳統(tǒng)機器學(xué)習(xí)和深度學(xué)習(xí)分類器的性能比較,以及本系統(tǒng)對其他相近語種(語言變體、方言) 的識別效果;第5節(jié)為結(jié)論。
最早進(jìn)行相近語種識別的研究見文獻(xiàn)[7]。該文首先提出了識別相近語言的重要性和難度,并提出了利用一個半監(jiān)督模型來識別印度尼西亞語和馬來語。此后該領(lǐng)域受到越來越多學(xué)者的關(guān)注,研究范圍包括多種南斯拉夫語言[8-9]、漢語變體[10]、葡萄牙語變體[11]、西班牙語變體[12]、英語變體[13]及阿拉伯語方言[14]等。2014年至2017年Marcos Zampieri等在COLING(2014)、RANLP(2015)、COLING(2016)、EACL(2017)下組織了“運用自然語言處理工具識別相近語言、語言變體和方言”系列研討會(Workshop Series on Applying NLP Tools to Similar Languages, Varieties and Dialects, VarDial), 允許參賽者使用相同的數(shù)據(jù)來比較不同的相近語種識別方法的效果。每一屆研討會的共享任務(wù)提供若干組相近語言(語言變體、方言)語料,每種語言(變體或方言)有18 000個句子作為訓(xùn)練集,2 000個句子作為開發(fā)集,此外還有1 000個句子作為測試集。四年來,VarDial研討會提供訓(xùn)練和測試的語種(變體、方言)不斷增加,共享任務(wù)亦越來越多樣化。關(guān)于這幾屆VarDial研討會共享任務(wù)的語料、參賽系統(tǒng)采用的方法以及評測結(jié)果可參見文獻(xiàn)[5, 15-18]。綜合來看,字符的n元特征為最有效的特征,效果最佳的分類模型包括支持向量機(SVM)、邏輯回歸(logistic regression),然而深度學(xué)習(xí)方法取得的效果并不理想[5,11,17-18]。
對于短文本的語種識別,文獻(xiàn)[19-22]采用了通過額外語義(additional semantics)來擴充短文本表征(short text representation)的方法,額外語義來自數(shù)據(jù)采集或者一個更大規(guī)模的知識源。文獻(xiàn)[23]介紹了在SEPLN 2014下的推特文本語種識別任務(wù)的情況。
雖然n元模型在已有大量文本數(shù)據(jù)的情況下能取得非常好的效果,但是當(dāng)某個領(lǐng)域的數(shù)據(jù)很少的時候,則面臨嚴(yán)重的數(shù)據(jù)稀疏問題。傳統(tǒng)處理數(shù)據(jù)稀疏問題的方法包括構(gòu)建與領(lǐng)域不相關(guān)的模型或者構(gòu)建使用專門領(lǐng)域技術(shù)的模型,但結(jié)果并沒有明顯改進(jìn)[21,24]。另一個處理方法則為使用大量別的任務(wù)或領(lǐng)域的數(shù)據(jù),即領(lǐng)域外數(shù)據(jù)(out-of-domain data),來改進(jìn)領(lǐng)域內(nèi)的語言模型。文獻(xiàn)[24-25]分別使用領(lǐng)域外數(shù)據(jù)來訓(xùn)練語音識別語言模型和統(tǒng)計機器翻譯語言模型,均取得了較好的效果。文獻(xiàn)[26]討論了處理不均衡數(shù)據(jù)(imbalanced data)的多種方法。
區(qū)分維語和哈語的研究見文獻(xiàn)[27]。該研究以特有字符為特征區(qū)分維語、哈語和柯爾克孜語。該方法在70個詞以上的文本中達(dá)到了97.70%的精確度,然而對于少于10個詞的文本對哈語的識別率降到了65.31%,原因在于哈語的特殊字符比其他兩個語種要少得多。針對短文本,有必要提取特有字符以外更多的有效特征來區(qū)分維語和哈語。
在本研究中,我們試圖探討以下四個問題:
(1) 區(qū)分相近語種時,如何解決有的語種資源受限的問題?
(2) 本文提出的特征是否有效?各個特征對系統(tǒng)的貢獻(xiàn)如何?
(3) 傳統(tǒng)機器學(xué)習(xí)分類器和深度學(xué)習(xí)分類器對維、哈語這一組相近語種的口語風(fēng)格短文本的識別性能孰優(yōu)孰劣?
(4) 本研究構(gòu)建的相近語種識別系統(tǒng)是否能夠有效識別其他相近語種(方言、變體)?
隨著社交網(wǎng)絡(luò)的普及和手機等聊天工具的推廣,人們越來越多地使用即時信息來進(jìn)行交流,對口語風(fēng)格短文本的自然語言處理具有重要意義。我們從新疆收集了匿名來源手機用戶共計48 460條手機短信作為訓(xùn)練集,將同樣來源一天內(nèi)收集到的973條手機短信作為測試集。經(jīng)過維語和哈語語言專家的辨別和標(biāo)注,確定訓(xùn)練集中包含了48 432條維語短文本和148條哈語短文本,測試集中包含了687條維語短文本和286條哈語短文本。訓(xùn)練集中維語和哈語文本數(shù)量的比例達(dá)到了327∶1,數(shù)量嚴(yán)重失衡,在訓(xùn)練相近語種識別系統(tǒng)前有必要平衡兩個語種語料的數(shù)量。
平衡維、哈兩種語言的語料規(guī)??梢酝ㄟ^刪減維語語料或者增加哈語語料的辦法來達(dá)成??紤]到如果將維語語料刪減到148條,數(shù)據(jù)過少會嚴(yán)重影響訓(xùn)練的效果,我們決定增補哈語語料。我們沒有繼續(xù)收集更多的匿名短信,原因在于此來源語料的獲取具有相當(dāng)難度,而且語言專家需要瀏覽超過300條文本才能篩選到1條哈語文本,若以此方法獲取4萬余條哈語文本將耗費巨大的人力物力。
前面提到文獻(xiàn)[24-25]使用領(lǐng)域外數(shù)據(jù)來訓(xùn)練語音識別語言模型和統(tǒng)計機器翻譯語言模型取得了較好的效果,我們決定使用領(lǐng)域外哈語短文本來補充哈語語料。為了獲取哈語的口語風(fēng)格短文本,我們選擇爬取哈語論壇[注]http: //bbs.senkazakh.com上的文本,沒有選擇爬取哈語新聞網(wǎng)頁或者推特推文的原因為: ①新聞網(wǎng)頁上的內(nèi)容為正式的書面語,文本較長,與口語風(fēng)格短文本在詞和字符層面的重合率較??; ②雖然推特上的推文完全符合口語風(fēng)格短文本的特點,但中國人極少使用推特,同時,即便是哈薩克人使用推特發(fā)布的推文也可能使用了其他語言; ③該哈語論壇中的內(nèi)容經(jīng)哈語專家鑒定內(nèi)容基本全部為哈語,內(nèi)容以對話風(fēng)格為主,符合我們選取語料的標(biāo)準(zhǔn)。
基于以上理由,我們從該論壇爬取了70 909個網(wǎng)頁。爬取下來的文本長短不一,分屬于文學(xué)、經(jīng)濟(jì)、娛樂等主題。為使爬取的數(shù)據(jù)最大限度接近訓(xùn)練語料,我們進(jìn)一步清洗爬取的內(nèi)容,從中選取不超過14個詞的短文本,獲得了339 609條符合要求的哈語文本。在此基礎(chǔ)上我們隨機選取了48 000條文本來匹配維語訓(xùn)練文本的規(guī)模。
通過對哈語語料的增補和同化,我們最終構(gòu)建了一個包含49 119條維語和48 286條哈語口語風(fēng)格短文本的語料庫,基本達(dá)到了數(shù)量平衡、風(fēng)格一致的要求。語料庫分為訓(xùn)練集(維語文本48 432條、哈語文本48 000條) 和測試集(維語文本687條、哈語文本286條)。圖1為增補哈語語料前后訓(xùn)練集中兩個語種口語風(fēng)格短文本的數(shù)量對比情況。圖2為經(jīng)增補后的維、哈語口語風(fēng)格短文本語料庫的構(gòu)成。
圖1 語料增補前后訓(xùn)練集中維、哈語短文本數(shù)量對比
圖2 經(jīng)增補后的維、哈口語風(fēng)格短文本語料庫構(gòu)成
由于本研究使用語料長度很短,使用詞匯的n元特征會造成特征過于稀疏的問題。通過重點分析維語和哈語的詞形學(xué)(morphology)特點,我們設(shè)計了以下5個特征。
(1) 特有字符。雖然兩種語言共享多達(dá)26個字母,但仍有少量字符不同。一旦在文本中找到了屬于某個語種的特有字符,就可判定該文本屬于對應(yīng)的那個語種。
(2) 字符的n元特征。雖然維語和哈語有很多共有字符,但是各自的字符排序和組合有一定特點,這些特點可以有效幫助區(qū)分語種。從已有相關(guān)研究可以看出,該特征也是相近語種識別系統(tǒng)中最常用的特征。
(3) 前綴和后綴。維語和哈語都有許多詞綴,但是在許多情況下,兩種語言使用的詞綴不同。例如,兩種語言中表達(dá)相同意義的單詞往往以不同的字符開頭,在維語中以“ya”開頭的單詞在哈語中通常以“ja”開頭,“o”在哈語中可以作為單詞首字母而在維語中則不行。維語中的“-lar”和哈語中的“-dar”表達(dá)同樣意思,但是拼寫不同。需要注意的一點是,口語短文本中存在大量的拼寫錯誤,可能會導(dǎo)致該特征難以提取。因此我們將每個詞的前n個和后n個字符作為特征,n的范圍為1~3。
(4) 詞的一元特征。詞的一元特征即該單詞出現(xiàn)的頻率。如果一個文本中包含了某個語種的高頻詞,那么該文本就更可能屬于該高頻詞對應(yīng)的語種。
(5) 文本長度。按照文本的長度將其劃分到不同的長度區(qū)間,對于各個長度區(qū)間的樣本訓(xùn)練不同的模型。
本文認(rèn)為相近語種識別任務(wù)實際上為將相近語種的文本進(jìn)行分類,因此本研究中的相近語種識別系統(tǒng)即用來區(qū)分相近語種的分類器。
其中,N為總樣本數(shù),#為頻數(shù)。f(x,y)通常為二值函數(shù),當(dāng)(x,y)同時出現(xiàn)時為1,否則為0。預(yù)測的時候,分類器計算每個樣本的分值,選擇分值最高的類別作為標(biāo)簽。由于最大熵分類器將特征之間的依賴關(guān)系考慮在內(nèi),該過程更近似于人類決策的過程。我們使用了斯坦福分類器工具包[注]https: //nlp.stanford.edu/software/classifier.html構(gòu)建了一個基于最大熵的分類器作為相近語種識別系統(tǒng)。
隨著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)成功地應(yīng)用于圖像識別[28]和文本分類[29]任務(wù),CNN成為目前最流行的深度學(xué)習(xí)分類器。我們基于字符矢量(character embeddings)構(gòu)建了一個CNN分類器來測試該分類器識別維、哈語口語風(fēng)格短文本的表現(xiàn)情況。
對于輸入的每個句子,將每個字符表示為固定長度的字符矢量,則該句子表示為一個矩陣S。對每個句子矩陣S使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行計算和分類的過程如下: 對于高度為z的一個卷積核Wm,用它以1為滑動步長,在整個矩陣中從上至下滑動,每一步計算重合部分的兩個矩陣的點積及經(jīng)過激活的值xi,最后得到一個長度為N-z+1的向量X,N為句子所包含的字符的數(shù)目。然后使用最大池化,取其中最大值得到一個元素cm。使用多個不同高度的卷積核進(jìn)行卷積,卷積核的寬度都為詞向量長度,將結(jié)果拼接得到一個特征向量s。之后將特征向量s經(jīng)過一個全連接層,再使用softmax歸一化,預(yù)測該文本分別屬于維語和哈語的概率。公式如式(6)~式(10)所示。
其中,·為點積操作,[...]表示元素拼接,ReLU表示規(guī)整線性單元(rectified linear unit),k為卷積核的總數(shù),m為第m個卷積核,bm為對應(yīng)卷積核的偏置。U為全連接層的參數(shù)矩陣,b為偏置,均為可訓(xùn)練參數(shù)。
本文采用準(zhǔn)確率(Precision)P、召回率(Recall)R和精確度(Accuracy)A來評價系統(tǒng)的性能,如式(11)~式(13)所示。準(zhǔn)確率衡量系統(tǒng)正確判斷樣本類別的能力,召回率描述系統(tǒng)檢索正確樣本的能力,精確度表示所有類別的正確樣本能被正確分類的比例,是整體的評價指標(biāo)。式中TP指正確預(yù)測為某種語言的樣本數(shù),F(xiàn)P指預(yù)測為該語言實際上不是該語言的樣本數(shù),TN指正確預(yù)測為不是該語言的樣本數(shù),F(xiàn)N指預(yù)測不是該語言但實際是該語言的樣本數(shù)。
在完成維、哈語口語風(fēng)格短文本語料庫和相近語種識別系統(tǒng)后,我們進(jìn)行了四組實驗,來尋求第1節(jié)中所提出問題的答案。
針對問題(1),我們使用最大熵分類器來測試哈語語料增補前后相近語種識別的效果。使用原有語料訓(xùn)練的分類器對測試語料的識別結(jié)果和使用經(jīng)增補后的語料的識別結(jié)果如表1所示。
表1 增補后哈薩克語料的可用性實驗結(jié)果
從實驗結(jié)果來看,利用未經(jīng)增補的訓(xùn)練集訓(xùn)練分類器后,維語的召回率高達(dá)99.3%,哈語的召回率則僅有70.6%。哈語訓(xùn)練語料經(jīng)過增補后,兩種語言的召回率接近(分別為95.1%和96.5%),精確度從90.9%上升到了95.5%,證明增補策略有效,同時顯示了在進(jìn)行相近語種識別時,各語種訓(xùn)練數(shù)據(jù)規(guī)模均衡的重要性。
針對問題(2),為了考察3.1節(jié)提出的每個特征的重要性,我們分別測試了: ①所有特征、②所有特征減去特殊字符、③所有特征減去字符的n元特征(n=1,2,3,4)、④所有特征減去前后綴、⑤所有特征減去詞的一元特征,以及⑥所有特征減去bin值的分類結(jié)果。本實驗使用了最大熵分類器在增補后的維、哈語訓(xùn)練語料上訓(xùn)練,實驗結(jié)果如表2所示。
表2 特征的重要性實驗結(jié)果
從表2可以看出,在減去每個特征(詞的一元特征除外)后系統(tǒng)的性能都有不同程度的下降,尤其是移除了字符的n元特征后,系統(tǒng)精確度下降最多,說明這些特征都對本任務(wù)起到作用,字符的n元特征對本任務(wù)貢獻(xiàn)最大。相反,當(dāng)系統(tǒng)移除了詞的一元特征后,精確度還有略微提升,意味著詞層面的特征非但沒有起到幫助作用,反而降低了對維、哈語文本的語種識別效果。在后續(xù)的實驗中,我們默認(rèn)選取除去詞的一元特征以外的所有特征。
針對問題(3), 我們分別構(gòu)建了最大熵分類器和CNN分類器來識別維語和哈語口語風(fēng)格短文本。最大熵分類器使用了詞的一元特征以外的所有特征。CNN分類器使用了50維的字符矢量(character embedding),并進(jìn)行均勻分布的隨機初始化,取值范圍為(-0.5, 0.5),卷積核的寬度分別設(shè)為[1,2,3,4],數(shù)目分別為[50, 200,300,500]。卷積層后用了一個隨機丟棄(dropout)層和最大池化(max-pooling)層,丟棄概率(dropout rate)設(shè)為0.5。表3列出了兩個分類器的表現(xiàn)。
表3 分類器有效性實驗結(jié)果
從表3可以看出,在識別維語和哈語的口語風(fēng)格短文本這一任務(wù)中,最大熵分類器精確度明顯高于CNN分類器。在VarDial’2016 DSL共享任務(wù)中,參賽隊伍mitsls、Uppsala分別使用了基于字符層面的CNN和詞層面的CNN,結(jié)果精確度和F1值均低于大多數(shù)同時參賽的傳統(tǒng)機器學(xué)習(xí)分類器(如基于SVM、邏輯回歸的分類器) 的識別效果[7-8,18]。
神經(jīng)網(wǎng)絡(luò)分類器在識別多語種文本時取得的高精確度[2]與在處理相近語種時的低精確度形成了鮮明對比,原因值得探求。通過錯誤分析,我們認(rèn)為CNN分類器結(jié)果難以令人滿意的原因有兩點: ①CNN分類器用太多的卷積核作為參數(shù),對訓(xùn)練語料的規(guī)模要求高,4萬條左右的訓(xùn)練文本難以使CNN分類器學(xué)到足夠的特征規(guī)律; ②CNN分類器的魯棒性較差,在處理維語文本時,由于入庫的維語語料中包含有大量拼寫錯誤,含有拼寫錯誤的字符被當(dāng)作集外詞(out of set vocabulary),無對應(yīng)的字符向量,導(dǎo)致卷積核無法識別出特征字符序列,所以CNN分類器對維語的識別效果較差。相比而言,哈語語料主要來自網(wǎng)絡(luò)論壇,誤拼錯誤要少得多,所以CNN分類器識別哈語的準(zhǔn)確率和召回率比維語要高得多。
針對問題(4),即測試本系統(tǒng)識別其他相近語種(語言變體、方言)的口語風(fēng)格短文本的性能,我們使用了最大熵分類器來識別VarDial’2016DSL共享任務(wù)子任務(wù)1下的兩個領(lǐng)域外口語風(fēng)格短文本測試集B1、B2。
VarDial’2016 DSL共享任務(wù)子任務(wù)1提供了12種語言(語言變體)的新聞短文本作為訓(xùn)練語料,每種語料提供18 000個句子作為訓(xùn)練集,2 000個句子作為開發(fā)集。測試集包括一個領(lǐng)域內(nèi)測試集(A)、兩個領(lǐng)域外測試集(B1,B2)。B1(波斯尼亞語、克羅地亞語和塞爾維亞語)和B2(巴西葡萄牙語和歐洲葡萄牙語)兩個測試集每個語種(方言、變體)各包含100個推特用戶的推文,平均每個用戶98.88和50.47條推文。選取識別B1、B2兩個測試集來測試本系統(tǒng)性能的原因在于,這兩個測試集中的文本同樣屬于口語風(fēng)格短文本,可以較好地考察本系統(tǒng)識別其他相近語種(語言變體、方言)口語風(fēng)格短文本的適用性。
我們對測試語料做了簡單的預(yù)處理,清除了其中的鏈接、@符號以及標(biāo)簽。然后選取了除詞的一元特征以外的所有特征,字符的n元特征中的n設(shè)置為1到7,使用最大熵分類器在B1和B2任務(wù)上分別進(jìn)行語種識別實驗。為了與當(dāng)時的參賽系統(tǒng)進(jìn)行比較,本次實驗使用了VarDial’2016DSL共享任務(wù)中的評價指標(biāo): 精確度(A)和F1值。F1值的計算如式(14)所示。
(14)
其中,P為準(zhǔn)確率,R為召回率。
本系統(tǒng)和當(dāng)時參加VarDial’2016DSL共享任務(wù)子任務(wù)1前五名對B1、B2的分類結(jié)果如表4和表5所示。
表4 對B1測試集相近語種識別排名前五的系統(tǒng)和本系統(tǒng)的表現(xiàn)
表5 對B2測試集相近語種識別排名前五的系統(tǒng)和本系統(tǒng)的表現(xiàn)
從表4和表5可以看出,GW-LT3在當(dāng)時的評測中排名第一,該系統(tǒng)使用了字符的n元特征(n=2~6)和單詞的n元特征(n=1~3),用詞頻對那些特征進(jìn)行加權(quán),并做了復(fù)雜的預(yù)處理。對比之下,本系統(tǒng)做的預(yù)處理少得多,對B1、B2進(jìn)行相近語種識別的精確度分別比該系統(tǒng)高0.6%和1.2%。由此,本系統(tǒng)不僅能夠在口語風(fēng)格短文本上有效區(qū)分維語和哈語,對于其他語種的口語風(fēng)格短文本也能做很好的區(qū)分。
對比nrc和tubasfs系統(tǒng),這兩個系統(tǒng)都使用了支持向量機分類器,特征也都使用了字符的n元特征,n分別為1~6和1~7。然而本系統(tǒng)處理B1、B2的精確度均優(yōu)于這兩個系統(tǒng),顯示出在該任務(wù)中使用復(fù)合特征的最大熵分類器分類效果要優(yōu)于使用字符的n元特征的支持向量機分類器。
此外,本系統(tǒng)在處理維、哈語料時,字符的n元特征(n=1~4)就取得了95.7%的精確度,而在處理本任務(wù)中的B1和B2測試集時,n用到了1~7,精確度才分別達(dá)到92.6%和89.0%。其中一個原因在于VarDial’2016DSL共享任務(wù)子任務(wù)1提供的訓(xùn)練語料效果不如我們自建的維、哈語口語風(fēng)格短文本訓(xùn)練語料。因此,識別口語風(fēng)格短文本所屬語種時,網(wǎng)絡(luò)論壇的語料比新聞?wù)Z料更適合作訓(xùn)練語料。
本研究構(gòu)建了一個維語和哈語口語風(fēng)格短文本語料庫,在此基礎(chǔ)上訓(xùn)練了一個最大熵分類器,對維語、哈語的口語風(fēng)格短文本進(jìn)行語種識別。為了解決語料嚴(yán)重不平衡的問題,我們使用了語料增補和同化的方法,從在線論壇爬取長度相近的、領(lǐng)域外口語風(fēng)格文本來增補訓(xùn)練語料。實驗結(jié)果證明增補和同化方法有效,并且在區(qū)分口語風(fēng)格短文本時,論壇上爬取的文本比新聞文本更適合作訓(xùn)練語料。
本文設(shè)計了一個最大熵分類器對口語風(fēng)格短文本進(jìn)行相近語言語種識別。從實驗結(jié)果看,字符層面的形態(tài)特征有效而詞匯層面的特征反而降低系統(tǒng)分類的效果。此外,本系統(tǒng)不僅能夠有效區(qū)分維、哈語口語風(fēng)格短文本,針對VarDial’2016DSL共享任務(wù)子任務(wù)1中三種南斯拉夫語言和葡萄牙語的兩個變體的口語風(fēng)格短文本的語種識別也取得了非常好的效果。
而對于區(qū)分維語和哈語這一組相近語言來說, CNN分類器并未取得理想的效果,這與文獻(xiàn)[17-18]提出的現(xiàn)象一致。我們就此做了一定的錯誤分析,在未來的工作中我們會繼續(xù)探求CNN分類器在處理相近語言(語言變體、方言)時效果不盡人意的原因,并嘗試提出改進(jìn)方法。