国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DTZH1505:大規(guī)模開源中文普通話語音庫

2022-06-09 12:00:16王麗媛王大亮齊紅威
計算機工程與應(yīng)用 2022年11期
關(guān)鍵詞:語料語料庫語音

王 東,王麗媛,王大亮,齊紅威

1.西藏民族大學(xué) 信息工程學(xué)院,陜西 咸陽 712082

2.數(shù)據(jù)堂(北京)科技股份有限公司,北京 100192

語音識別技術(shù)作為人工智能技術(shù)中的重要組成部分,是人機交互的核心組件之一。語音識別技術(shù)的發(fā)展具有很長的歷史,其演變過程歷經(jīng)了以下幾個階段:從1990年至2010年,統(tǒng)計學(xué)習(xí)模型(主要是GMM-HMM模型)長期占據(jù)主流地位;從2011年至2014年,深度學(xué)習(xí)開始滲入到語音識別技術(shù)中;從2015年至今,端到端的深度學(xué)習(xí)模型在語音識別研究中廣為使用?,F(xiàn)在,幾乎所有的語音技術(shù)研究都直接或間接采用神經(jīng)網(wǎng)絡(luò)模型[1-3],語音識別準確率得到了明顯提升,這得益于算法、算力、數(shù)據(jù)的飛速進步。不同于統(tǒng)計學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要更大規(guī)模的數(shù)據(jù)來驅(qū)動。然而,絕大多數(shù)中文語音數(shù)據(jù)集是商用的,其費用之昂貴使許多對中文語音識別感興趣的研究人員望而卻步,導(dǎo)致許多創(chuàng)新的想法得不到很好的驗證。

“數(shù)據(jù)開源”活動極大地緩解了因數(shù)據(jù)集過于昂貴而無法獲取的問題,同時吸引了越來越多的人員進行中文語音識別相關(guān)方面的研究。其中,openslr(http://www.openslr.org/)是支持這一活動的一個平臺。表1列舉目前主流的開源中文語音數(shù)據(jù)集。其中,最早開源的中文語音數(shù)據(jù)集是清華大學(xué)發(fā)布的thchs30[4],它極大地推動了中文語音識別研究的發(fā)展。其創(chuàng)建的最初目的是為了彌補863CSL數(shù)據(jù)集中音素不均衡的缺點[5],所以在設(shè)計語料時,它旨在尋求句子數(shù)量與音素覆蓋率之間的平衡,選擇的語料內(nèi)容多為從新聞中獲取的長文本。接著,希爾貝殼也發(fā)布了兩個語音數(shù)據(jù)集aishell1[6]和aishell2[7],上海原語公開了primewords_set1,沖浪科技發(fā)布了ST-CMDS語音數(shù)據(jù)集。

作為全球使用最廣泛的語言之一,中文相比于其他語言具有更豐富的詞匯、特殊的聲調(diào)表示、獨特的聲韻母結(jié)構(gòu)等特性,這使得中文語音識別研究更加具有挑戰(zhàn)性。然而,相較于工業(yè)級別的英文開源語音數(shù)據(jù)集如librispeech[8]和tedlium[9-11],中文開源語音數(shù)據(jù)規(guī)模仍太小。此外,中文普通話口語語料庫的建設(shè)仍相對滯后,口語中經(jīng)常出現(xiàn)語誤,對語音的文字轉(zhuǎn)寫和標注費時費力,要求較高,這些因素均制約了口語語料庫的建設(shè),這已成為目前語音識別逐漸滲透實際應(yīng)用(比如智能客服、語音交互)的一大羈絆。

為緩解以上問題,本文向?qū)W術(shù)界開源目前規(guī)模最大的中文普通話語音數(shù)據(jù)集DTZH1505。它記錄了6 408位來自中國八大方言地域、33個省份的說話人的自然語言語音,時長達1 505 h,語料內(nèi)容涵蓋社交聊天、人機交互、智能客服以及車載命令等。該數(shù)據(jù)集可應(yīng)用于多個領(lǐng)域,比如在語言學(xué)與社會學(xué)領(lǐng)域,可用于語料庫語言學(xué)、會話分析、二語習(xí)得、語言類型學(xué)以及方言學(xué)等學(xué)科的研究;在計算機科學(xué)領(lǐng)域,可用于語音識別、說話人識別、說話人質(zhì)量評估、情感識別等應(yīng)用的研究。

1 數(shù)據(jù)集構(gòu)建

1.1 文本語料設(shè)計

語料的設(shè)計取決于其服務(wù)的目標任務(wù),如連續(xù)語句更適用于連續(xù)語音識別任務(wù),而說話人識別任務(wù)只需要孤立詞[12]。理想情況下,一個標準的語料庫應(yīng)該同時適用于上述兩種情景。國內(nèi)的許多語音識別研究人員在這方面做了很多努力,比如社會科學(xué)院語言研究所創(chuàng)建的“863連續(xù)語音數(shù)據(jù)庫”863CSL[13]包含了1 500句文本,加上thchs30數(shù)據(jù)集中的1 000句文本,二音子、三音子的覆蓋率可分別達到73.4%、16.8%,然而這些語料多為從新聞中摘取的長文本,絕大多數(shù)內(nèi)容為政治、經(jīng)濟、文化等方面的書面用語。

現(xiàn)在,隨著語音識別技術(shù)的逐漸成熟,語音識別應(yīng)用也越來越深入到人們的日常生活中,其中,人機交互、智能客服等應(yīng)用已成為語音識別技術(shù)的主要涉足領(lǐng)域。本文聚焦于目前最新的語音識別需求,通過一系列的設(shè)計與制作生成了大規(guī)模的音素平衡自然語料庫,詳細制作過程如圖1所示。

圖1 文本語料設(shè)計流程圖Fig.1 Text corpus design flow chart

1.1.1 文本語料采集

本文通過互聯(lián)網(wǎng)抓取技術(shù),從論壇、微博、問答社區(qū)、交互機器人等開放網(wǎng)站或平臺,搜集大量來自不同社會場景中的自然文本語料,初步構(gòu)建了自然語境下的中文口語化原始語料庫,其所涵蓋的場景如表2所示。

表2 原始語料文本分類統(tǒng)計表Table 2 Social scenes coverage of original text corpus

1.1.2 文本語料清洗

按照標點符號切割文本,過濾長度在5~30之外的句子,并進一步進行拼寫糾錯、語義完整度檢測、語義濾重、文本脫敏等一系列文本清洗,生成待篩選的干凈語料集。

首先,本文采用n元語法模型,即N-Gram語言模型來消除大部分中文拼寫錯誤。使用自有語料訓(xùn)練3-gram語言模型,并利用模型對語句中的詞打分,將得分低的位置視為待糾錯位置,基于SIGHAN 2013 CSC語料構(gòu)建候選集,從中選擇困惑度最高的句子。

其次,本文基于語義分析算法,對語料中文本的語義完整度進行打分,認定得分較低的文本為語義不完整,并去除該文本。同時,本文根據(jù)語義框架的相似度計算,去除語義相同的文本,從而實現(xiàn)文本的語義濾重。

最后,本文基于關(guān)鍵字匹配的過濾算法,識別出語料中可能影響到個人隱私、財產(chǎn)、企業(yè)信息、國家安全的敏感信息以及反動、色情、暴力等不良內(nèi)容,并剔除含有敏感信息和不良內(nèi)容的句子。拼寫糾錯及語義分析、文本脫敏的實現(xiàn)效果如表3所示。

表3 語料清洗效果演示表Table 3 Presentations of text corpus cleaning

1.1.3 文本語料評分

語料評選是語料庫設(shè)計的重要環(huán)節(jié),自然語境下的平衡語料庫的構(gòu)建則需要考慮多種因素。一方面,語音流中的協(xié)同發(fā)音現(xiàn)象對連續(xù)語音識別具有重要影響,而對中文來說,單個音素具有不穩(wěn)定性,因此,本文選取二音子及三音子作為反映協(xié)同發(fā)音的聲學(xué)基元。

在語音學(xué)層面,以基本音子為基礎(chǔ),考慮兩個相鄰音子,即形成一個二音子(也稱雙音子);同時考慮左、右相鄰音子,即形成三音子。對應(yīng)到聲學(xué)層面,二音子描述了兩個相鄰音子間的穩(wěn)定階段,而三音子描述了一個音子的穩(wěn)定階段及左、右兩邊音子的過渡階段。因此,二音子和三音子對于連續(xù)語音流中的協(xié)同發(fā)音現(xiàn)象具有更好的描述能力。普通話含有37個基本音子[14],按照音子在音節(jié)中的位置,又可細分為表4中的三類音子。表5列出了部分音節(jié)及對應(yīng)的音子、二音子、三音子形式。

表4 音子分類表Table 4 Categories of Phones

表5 音節(jié)、音子、二音子、三音子部分對應(yīng)表Table 5 Correspondence of syallables,phones,diphones,triphones

另一方面,中文的音節(jié)具有獨特的聲韻母結(jié)構(gòu),因此,本文也選擇音節(jié)作為衡量語料庫平衡性的標準之一,此外,在人們的日常用語中,聲調(diào)也具有特別的意義,因此,有調(diào)音節(jié)也被考慮在內(nèi)。表6為對文本進行分析的示例,包括原始文本、文本分詞、文本詞性、文本中字詞的有調(diào)音節(jié)、文本中的二音子序列及三音子序列共6層結(jié)構(gòu)。

表6 文本分析結(jié)構(gòu)表Table 6 Text analysis structure table

本文將無調(diào)音節(jié)、有調(diào)音節(jié)、二音子和三音子作為聲學(xué)基元,對每條句子計算其貢獻分數(shù),即含有出現(xiàn)次數(shù)越少的聲學(xué)基元的句子的貢獻分數(shù)越高。最后,分數(shù)靠前的句子優(yōu)先被選出來。本文著重研究口語中的語音協(xié)同發(fā)音現(xiàn)象,因此設(shè)置無調(diào)音節(jié)、有調(diào)音節(jié)、二音子、三音子的權(quán)重分別為0.2、0.2、0.3、0.3。各聲學(xué)基元的貢獻分數(shù)計算方法見公式(1),整句文本的計算方法見公式(2),其中,s是該句文本中對應(yīng)聲學(xué)基元的貢獻分數(shù),I是當前已選語料集中含有的對應(yīng)聲學(xué)基元的個數(shù),n代表聲學(xué)基元的種類,wn是指對應(yīng)聲學(xué)基元的權(quán)重,s n是指對應(yīng)聲學(xué)基元的貢獻分數(shù),S即該句文本所具有的貢獻總分數(shù)。

1.1.4 文本語料配平

為避免語料集在不同場景中的分布出現(xiàn)失衡,本文對打分后的語料集再次進行文本分類,按照在語料采集階段中設(shè)定的各場景文本占比率由領(lǐng)域?qū)<已a充配平語料,調(diào)整語料的場景類別和音素分布的傾斜性。本文最終得到30萬條文本,使得在保留語料自然性的基礎(chǔ)上,最大限度地實現(xiàn)音素平衡,詳情請見表7。

表7 DTZH1505文本語料庫音素覆蓋情況Table 7 Phonetic coverage of DTZH1505

1.2 語音采集場景

語音采集場景是由錄音設(shè)備、錄音軟件、環(huán)境布置、朗讀腳本和被采集人構(gòu)成。本文通過分布式的眾包模式,進行大規(guī)模語音數(shù)據(jù)采集。

語音采集環(huán)境均為底噪介于10~40 dB、混響時間小于1 s的安靜室內(nèi)。為避免出現(xiàn)回聲及混響,錄制室內(nèi)被要求放置一定量的填充物,比如日常家具。在正式錄制語音數(shù)據(jù)之前,自主研發(fā)的一款手機終端錄音軟件可以測試錄制環(huán)境的底噪是否滿足上述要求,并且只有當說話人的語音樣例數(shù)據(jù)達到檢測標準后,才可開展正式的語音錄制。

在數(shù)據(jù)錄制過程中,本文采用Android手機、iOS手機、錄制啟??刂破骷疤嵩~器搭建了一個綜合錄制平臺,說話人被要求采用正常語速朗讀提詞器的文本內(nèi)容,說話人與手機之間的距離被嚴格控制在20~30 cm,如圖2所示。不管是Android手機還是iOS手機,采集的語音均是16 kHz,16 bit的單通道wav格式。錄制所用設(shè)備的詳情如下:

圖2 錄制環(huán)境示意圖Fig.2 Map of recording environment

Android手機:基于Android系統(tǒng)的移動通訊設(shè)備,包括華為、中興、三星、聯(lián)想、HTC、酷派、小米等機型。

iOS手機:基于iOS系統(tǒng)的移動通訊設(shè)備,包括iPhone8、iPhone7、iPhone6、iPhone5等機型。

啟??刂破鳎赫Z音錄制平臺控制終端,用于檢測環(huán)境噪音,控制多設(shè)備同步采集。

提詞器:語音錄制輔助工具,用于自動顯示待朗讀文本,并提供計時提醒和語速檢測功能。

1.3 錄制人員

數(shù)據(jù)庫服務(wù)的目標任務(wù)同樣決定了說話者的數(shù)量,例如,語音識別任務(wù)對說話者的數(shù)量沒有過多要求,但說話者身份識別任務(wù)則要求有更多的說話者[15]。本文建立數(shù)據(jù)集的目標在于為更多領(lǐng)域的研究提供數(shù)據(jù)支撐。在本數(shù)據(jù)集中,共采集了6 408位來自中國八大方言地域、33個省份的說話人,說話人分布詳情見圖3。由圖3可看出,說話人的性別分布均衡(男為2 999,女為3 301),年齡涵蓋了各個層次段。

圖3 說話人分布詳情圖Fig.3 Details of speakers’distributions

1.4 語音標注

為確保語音標注的準確度,本文采取了多輪次的數(shù)據(jù)標定工藝過程,具體包括以下步驟:

第一步,由專業(yè)人員在標注平臺對每句音頻轉(zhuǎn)寫其真實的發(fā)音文本,在該階段,標注人員負責核查音頻的真實內(nèi)容,并判斷音頻的有效性。如圖4所示,圖中的右半部分顯示了每段音頻的元數(shù)據(jù),包括文件名稱、預(yù)設(shè)朗讀內(nèi)容及說話人信息。圖中的左半部分為音頻的語音轉(zhuǎn)寫及質(zhì)檢工作區(qū),最上面一行為該段音頻的時域波形圖,緊接著下面為標注人員轉(zhuǎn)寫的語音真實文本及是否是有效語音的判定。所有的音頻均按照詳細的標注規(guī)范進行統(tǒng)一的標注,具體包括:

嚴格化:若音頻含有嚴重噴麥、語音失真、噪音明顯、口齒不清等問題,則視為無效語音。

全面化:標記有效語音段內(nèi)的即時噪音,如笑聲、咳嗽、打噴嚏等。

規(guī)范化:比如根據(jù)說話內(nèi)容區(qū)分標注漢字“幺”和“一”,英文單詞間留有空格,但與漢字之間不留空格,英文縮略詞的字母之間不留空格,但全大寫。

口語化:細化到兒化音,比如下班兒、一點兒。

真實化:所聽即所寫,比如網(wǎng)址www.bbb.com標注為“三W點兒BBB點兒COM”。

第二步,由專業(yè)質(zhì)檢人員對標注語音分別按照100%、50%、10%的比例進行多輪抽樣質(zhì)檢,以檢查人工轉(zhuǎn)寫的正確率。圖4中的左下部分為語音質(zhì)檢的工作區(qū),質(zhì)檢人員再次檢查語音轉(zhuǎn)寫的正確性,判斷其中是否包含噪音、突發(fā)噪音、背景噪音、噴麥、空曠回音、電流干擾、文本錯誤、非本土人等錯誤。

圖4 語音標注及質(zhì)檢一體化平臺Fig.4 Integrated speech annotation and quality inspection platform

經(jīng)過嚴格的語音標注及質(zhì)檢,本文從最初采集得到的原始音頻數(shù)據(jù)中篩選出了大約1/2的合格語音數(shù)據(jù),這些合格數(shù)據(jù)達到了98%的轉(zhuǎn)寫準確率。

1.5 數(shù)據(jù)開源

經(jīng)過大規(guī)模的錄制及后期嚴格的語音轉(zhuǎn)寫,本文最終構(gòu)建含有1 505 h語音時長的大規(guī)模中文普通話語音數(shù)據(jù)集——DTZH1505,該數(shù)據(jù)集含有以下文件:

音頻數(shù)據(jù):記錄說話人的發(fā)音內(nèi)容,格式為16 kHz 16 bit單通道的wav文件。

標注文本:記錄每條語音的轉(zhuǎn)寫文本。

標簽文本:記錄與每段音頻相關(guān)的音頻格式、說話人信息、采集設(shè)備等元數(shù)據(jù)信息。

目前,該數(shù)據(jù)集已經(jīng)面向?qū)W術(shù)研究開放,可通過官方網(wǎng)址https://www.datatang.com/opensource獲取該數(shù)據(jù)集。

1.6 中文通用語言模型

現(xiàn)在主流的基于深度學(xué)習(xí)的語音識別模型可分為兩大類,一種是利用深度學(xué)習(xí)模型取代原來的GMM部分,即DNN-HMM模型;另一種是端到端的深度學(xué)習(xí)模型。盡管目前端到端的語音識別系統(tǒng)嘗試以單個系統(tǒng)的方式聯(lián)合學(xué)習(xí)聲學(xué)模型及語言模型,但語言模型具有對模型輸出文本進行解碼和修正的作用,因此仍是目前提升語音識別效果的關(guān)鍵因素。另一方面,建立保留語料自然性的大規(guī)模平衡口語語料庫仍需不斷擴充其庫容量,語料數(shù)量太小,某些詞語的出現(xiàn)頻率就會大大降低。因此,只有依賴大量的實際用例,才能夠支撐通用的中文口語語言模型研究。

本文以上文描述的DTZH1505數(shù)據(jù)集中的自然口語語料(超過105萬條文本,共超過500萬詞匯)為基礎(chǔ),訓(xùn)練中文口語基準語言模型,并在此基礎(chǔ)上,不斷疊加另外的130萬條取自于對話、車載、通用場景下的文本以及9 000萬條社交場景下的文本數(shù)據(jù),以不斷提升語言模型效果,不同量級中文口語語料庫(Chinese spoken corpora,CSC)的數(shù)據(jù)詳情見表8。

本文利用Kaldi工具[16]訓(xùn)練基于上述語料庫的三元文法語言模型,采用了Kneser-Ney平滑算法,將未登錄詞映射到UNK,生成ARPA格式的語言模型。同時,本文利用集外的1萬條對話場景下的文本作為測試集,計算以上3種語言模型的困惑度(PPL),以此評估語言模型的性能,評估結(jié)果詳見表8。

表8 語言模型測試結(jié)果Table 8 Evaluation results of language models

根據(jù)語言模型的測試效果可知,隨著口語語料的增加,中文口語語言模型效果具有顯著的提升,并且在9 235萬條文本、超過1.6億詞匯的訓(xùn)練下,語言模型的困惑度較基準語言模型降低了40.6%。

語言模型的改進同時增強了語音識別模型效果。與語音數(shù)據(jù)集一樣,本文也將優(yōu)化后的中文語音識別模型開源到Kaldi平臺(http://kaldi-asr.org/models/m10),有關(guān)實驗過程及結(jié)果在下章詳細介紹。

2 語音識別實驗

2.1 基準實驗

為了驗證DTZH1505數(shù)據(jù)集的品質(zhì),本文基于Kaldi開展一系列語音識別基準實驗。本實驗的聲學(xué)模型訓(xùn)練部分又分為基于概率統(tǒng)計的高斯混合-隱馬爾可夫(GMM-HMM)模型與基于深度學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫(DNN-HMM)混合模型兩個階段。

GMM-HMM模型使用的是13維MFCC與3維pitch特征,訓(xùn)練過程又可分為以下幾個階段,由部分數(shù)據(jù)快速啟動單音子模型的訓(xùn)練。

(1)采用類似的方法快速啟動三音子模型的訓(xùn)練。

(2)使用全部數(shù)據(jù)集進行三音子模型的整體訓(xùn)練。

(3)利用線性判別分析LDA算法對上下文的多幀數(shù)據(jù)進行降維,結(jié)合最大似然線性變換MLLT算法進行說話人無關(guān)的全局變換。

在DNN-HMM模型訓(xùn)練階段,輸入特征是40維高精度MFCC特征與3維pitch特征,表征說話人信息的i-vector[17]特征也作為輸入用于DNN的訓(xùn)練。實驗采用時延神經(jīng)網(wǎng)絡(luò)(TDNN)[18]搭配鏈式模型(Chain model)來訓(xùn)練聲學(xué)模型。在實驗過程中,本文也采取了數(shù)據(jù)增強方法來擴展訓(xùn)練集。

在本實驗中,所有數(shù)據(jù)集被按照7∶1∶2比例劃分成訓(xùn)練集、驗證集、測試集,表9為基于該數(shù)據(jù)集進行語音識別的字錯誤率(CER),用以表征語音識別的效果。其中,aishell2的測試結(jié)果來自于文獻[7]中與其訓(xùn)練集數(shù)據(jù)來源相同的iOS測試集。

表9 基準實驗結(jié)果Table 9 Benchmark experiment results %

從實驗結(jié)果中可以看出來,DNN-HMM模型的識別性能大大超過GMM-HMM模型的識別性能,同時,基于本文創(chuàng)建的中文語音數(shù)據(jù)集的字錯誤率降低至3.41%,相比于同類型的中文開源語音數(shù)據(jù)集aishell2,字錯誤率降低了61%,這也說明了該數(shù)據(jù)集的品質(zhì)。

2.2 模型優(yōu)化

語言模型是影響語音識別效果的關(guān)鍵因素之一,語言模型的提升不僅在于算法的改進,更在于豐富、完備、優(yōu)質(zhì)的語料庫的支撐。如1.6節(jié)所述,更多優(yōu)質(zhì)的語料的加入,大大提升了語言模型的性能。本文在2.1節(jié)所述基準實驗的基礎(chǔ)上,利用優(yōu)化后的語言模型分別測試在ST-CMDS及thchs30數(shù)據(jù)集上的語音識別效果,見表10。

表10 模型優(yōu)化后的語音識別結(jié)果Table 10 Speech recognition results after model optimization %

ST-CMDS數(shù)據(jù)集的語料以日常用語為主,而thchs30數(shù)據(jù)集的語料以新聞類長文本為主。從表10可以看出來,基于DTZH1505數(shù)據(jù)集訓(xùn)練的基準語音識別模型可以在不同語料領(lǐng)域均有很好表現(xiàn),并且在優(yōu)化了語言模型之后,字錯誤率均降低了21%左右,從而驗證了該語音識別模型的通用性。

3 總結(jié)

本文介紹了一個大規(guī)模開源中文普通話語音數(shù)據(jù)集DTZH1505,詳細描述了數(shù)據(jù)集設(shè)計及制作的過程。該數(shù)據(jù)集包含了6 408位說話人,錄音時長達1 505 h,標注準確率達98%,覆蓋主流移動設(shè)備,采集標簽達30項,可廣泛用于語音識別、聲紋識別、說話人質(zhì)量評估、語料庫語言學(xué)、會話分析、二語習(xí)得、語言類型學(xué)等研究。本文在最后基于該數(shù)據(jù)集進行語音識別基準實驗,并對比目前同規(guī)模中文語音數(shù)據(jù)集的語音識別效果,從而驗證該數(shù)據(jù)集的品質(zhì)。同時,本文在該數(shù)據(jù)集的基礎(chǔ)上增加大規(guī)模文本語料,訓(xùn)練出更通用的中文口語語言模型,進一步提升了語音識別效果。為了便于研究和使用,該數(shù)據(jù)集及中文語音識別模型已開源,以推動中文語音識別技術(shù)研究的發(fā)展。

猜你喜歡
語料語料庫語音
《語料庫翻譯文體學(xué)》評介
魔力語音
基于MATLAB的語音信號處理
電子制作(2019年14期)2019-08-20 05:43:38
基于MQ3與MP3的價廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
把課文的優(yōu)美表達存進語料庫
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
《苗防備覽》中的湘西語料
南靖县| 都江堰市| 德庆县| 大方县| 泰宁县| 平泉县| 邹城市| 望奎县| 吉首市| 迭部县| 江源县| 新乡县| 凉山| 房山区| 正蓝旗| 峨山| 唐海县| 察哈| 宜宾市| 长兴县| 额尔古纳市| 十堰市| 乡宁县| 南投市| 湖北省| 垣曲县| 龙州县| 洪泽县| 崇左市| 灵武市| 诸城市| 噶尔县| 鸡东县| 广州市| 砚山县| 富源县| 子长县| 格尔木市| 景洪市| 中山市| 侯马市|