楊 健,李海光,張曉玲
(1.大理大學數(shù)學與計算機學院,云南大理 671003;2.大理大學學生工作處,云南大理 671003)
白族是中國主要少數(shù)民族之一,主要居住在云南省大理白族自治州,其民族語言白語分大理(南部),劍川(中部),碧江(北部)3種方言。語言基本詞匯一致度很高,但發(fā)音存在地區(qū)差異,使得差異大的地區(qū)之間初次通話比較困難。由于種種原因,白族語言一直沒能形成全民族通用的文字表達,而大多數(shù)白族文學藝術作品、民族風俗和文化習俗都是靠語音傳播,口耳相傳延續(xù)。在當今全球化的經(jīng)濟文化沖擊下,隨著漢語普通話的進一步普及,越來越多的白族青少年不愿意學習和傳承本民族語言,白語和其他少數(shù)民族的語言一樣面臨著消亡的危境。此外,大理白族自治州各地方區(qū)縣的白語發(fā)音各有特點,甚至不同縣域的白語不能相互理解,這對白族語言的保護和民俗文化傳承延續(xù)造成極大困難,同時也對大理民族地區(qū)教育、經(jīng)濟和旅游產(chǎn)業(yè)發(fā)展形成一定的阻礙。
讓計算機能夠識別少數(shù)民族語音,進而建立少數(shù)民族語音資源和語料庫,是保護和傳承民族文化的非常重要的手段。已有研究面向白語語音識別問題〔1〕,然而沒有白語專門的大規(guī)模語音語料庫存在。白語沒有自己的文字,因此進行語言學研究時,只能借助語音及其翻譯結(jié)果。對白語建立文本語料庫只能借助其他語言翻譯或是拼音∕國際音標標注方式,對民族語言資源的保護效果有限,且難以將實際的大規(guī)模語言發(fā)音資料應用于白語研究。針對上述問題,本文思考建立大規(guī)模白語語音語料庫,同時基于語言學研究需求建設相應分析接口。內(nèi)容主要包括:首先介紹目前白語語言學及語料庫建設研究現(xiàn)狀,然后提出白語語音語料庫的系統(tǒng)結(jié)構(gòu),并針對白語語音語料采集和存儲提出相應的解決措施,針對白語語言學研究問題提出建設語言學分析接口方法。最后,對本文工作進行總結(jié)并提出展望。
1.1 語料庫研究在語料庫和語言資源庫建設的理論研究上,國內(nèi)外學者已有較多的成果,例如劉巖對中國少數(shù)民族瀕危語言語音語料庫的建設進行了分析,認為這類語料庫的特點和作用、工作步驟及建庫過程中遇到的難點與漢語或非瀕危語言語音數(shù)據(jù)庫有所不同,并分析了建庫的困難〔2〕。柳歡從建庫的背景與狀況、原則與方法、問題與對策等方面提出了如何在少數(shù)民族地區(qū)建立雙語語料庫的意見和建議〔3〕。在語料庫建設的應用研究方面,新疆大學、內(nèi)蒙古大學、西藏大學和西南民族大學的研究者分別從事了維吾爾語、蒙語、藏語和彝語的語料庫建設研究,并取得一定成果。
在語料庫建設的標準化研究上,國際民間協(xié)作組織——開放語檔聯(lián)盟(Open Language Archives Community,OLAC)針對語言資源數(shù)字網(wǎng)絡化立檔制定了一整套技術標準和建議性文件。這些文件對于制定我國瀕危語言有聲語言資源建設的語料類型標準、語言編碼標準、數(shù)據(jù)格式標準和內(nèi)容描述規(guī)范,有重要的參考借鑒價值。
1.2 白語語言研究和語料庫建設在白語的語言結(jié)構(gòu)∕功能相關研究上,國內(nèi)學者從單個語素到構(gòu)詞法再到特定功能詞的使用方面都有較多的研究成果,例如對劍川白語語素no的研究〔4〕,對鶴慶白語構(gòu)詞法的研究〔5〕,以及對白語中的否定詞和否定表達式及否定標記的特征與來源進行研究〔6〕。在白語語音發(fā)音及語法規(guī)律分析上,也存在有較多研究成果,例如利用HTK工具構(gòu)建HMM模型來實現(xiàn)白語語音識別〔1〕,對白語中具有擬聲現(xiàn)象詞匯的文化信息進行解析〔7〕,對白語南部方言中來母關系詞聲母的讀音進行分析,從歷史層次角度探索其來源〔8〕。
語料庫建設方面,徐琳、趙衍蓀等編著的《白語簡志》提出了白語的分類系統(tǒng),并從多個角度對白語進行了介紹,對白語語料庫建設方面有積極的指導作用;王鋒主持了中國社科院重點項目“白語方言詞匯語料庫”;還有大理州白族文化研究所編撰,徐琳主編的《大理叢書·白語篇》等著作,都對白語研究和語料庫建設起到積極的推動指導作用〔9〕。
然而,不像藏語蒙語等有長期使用文字的語言,其語料庫建設開展較為容易,需要借助于計算機信息處理技術的白語語音語料庫建設仍然處于起步狀態(tài),目前還沒有較為大型的面向完整句子的語音語料庫存在。在大數(shù)據(jù)等信息技術分析和應用上,以白語語音為研究對象,并利用模式識別、統(tǒng)計學和數(shù)據(jù)分析方法對白語開展研究的案例還較少。
為了建立具有代表性的語音語料庫,本文建立的孤立詞語音語料庫主要參考《大理叢書·白語篇·卷三》〔9〕中所列方言詞匯表進行錄制采集,該方言詞匯表以1957年白語調(diào)查詞匯材料為基礎,又根據(jù)經(jīng)濟文化發(fā)展的實際情況進行了增刪修改,共收錄詞匯2 897個。同時,本文建立的語音語料標注參考該書所列白語的聲韻母及聲調(diào)標注方法。
語音語料庫與文本語料庫最大的不同是面向的語料不是文本,而是語音數(shù)據(jù),因此語料采集、存儲和預處理都有所不同,具體體現(xiàn)在:
(1)采集方式不同。文本語料庫的文本來源較多,采集起來也較為容易。而語音語料庫為了獲得語音數(shù)據(jù),就需要在日常的語言使用中進行錄音。常用方法可以采用電話錄音或是從包含語音的影視作品中截取。為了使得語音語料數(shù)據(jù)更加準確,還可以使用專門的錄音設備進行錄制。由于白語在不同地域上發(fā)音有所不同,為了獲取這些差異性,就要求語音數(shù)據(jù)較為準確,外部噪音較少,所以,本文采用的是以專業(yè)錄音筆在安靜環(huán)境下開展錄音的方式。
(2)存儲方式不同。不像文本語料只需要進行文字的存儲,語音語料庫中的主體是語音文件,這些文件需要良好的存儲組織結(jié)構(gòu)和檢索方法。在具體實施時,不但要存儲原始語音文件路徑,還需要存儲經(jīng)過預處理(例如降噪)后的文件路徑。此外,為了有效開展語言學研究,還需要存儲對應語音的語料標注結(jié)果。對于白語語音語料庫來說,不但要存儲原始語音和降噪后的語音,還要存儲語音對應的含義(漢語釋義)和對應的語言表示符號(拼音或國際音標標注符號及音調(diào)等)。
(3)預處理方式不同。文本語料采集后以文字形式存在,而語音語料則以語音數(shù)據(jù)的形式存在,因此在語料加工和預處理上也有所不同。在獲得初始語音語料數(shù)據(jù)后,需要對這些數(shù)據(jù)進行相應的分段標記,不但包括詞語單位、詞性、句法、語義等內(nèi)容,還需要針對語音數(shù)據(jù)的特殊性進行額外標記,例如在錄音文件的前后靜音處、連續(xù)語音的詞間隔處的靜音標記,以避免這些靜音階段對后期語音識別和自動標注模型的生成造成影響。此外,還需要原始語音的降噪處理,減少外部噪音對語音分析的影響。對于白語來說,由于沒有對應文字,需要將語音用某種語言符號進行表示,盡量減少歧義和二義性,從而不影響后面的語音分析和語言學研究。
3.1 語料庫系統(tǒng)總體結(jié)構(gòu)一個面向語言學研究和應用的完整的白語語音語料庫應當包含語音資源庫建設、語料庫語音數(shù)據(jù)的預處理、語料庫建設等幾個層次。語音資源搜集除了使用對話錄音的方式,還可以考慮建立移動應用或通過網(wǎng)絡采集的方式,白族語音檔案也是數(shù)據(jù)來源之一。采集后的音頻數(shù)據(jù)需要進行預處理,包括背景去除降噪,目標語音的提取和純化,內(nèi)容含義識別,語音構(gòu)成四要素的提取和定量化表示。經(jīng)過處理后的語音數(shù)據(jù)已經(jīng)有了具體內(nèi)容的表示,成為在統(tǒng)一的低噪音背景下的語音資料。這些大量的語音資料存儲在以云計算為基礎的存儲設備上,形成語音資源庫。在語音資源庫基礎上,充分利用語音識別、語義標注,建立白語語音語料庫及模型庫,用以存放大量的白語語料資源和用于語音識別的模型表示。在建成的語料庫的基礎上,基于語料庫表示和建設技術,結(jié)合關系數(shù)據(jù)庫系統(tǒng)結(jié)構(gòu),可以構(gòu)建語料庫應用系統(tǒng),提供語言學研究和其他應用研究的語音語料的匯集、查詢、處理和提取功能。整個語音語料庫系統(tǒng)設計的總體框架見圖1。
圖1 總體框架圖
3.2 語料庫系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)一個完整的語料庫系統(tǒng)不應當只包含有語料的存儲和查詢功能,還應當為語言學研究和語言應用系統(tǒng)的開發(fā)提供輔助的工具,因此,本文提出的白族語音語料庫系統(tǒng)在數(shù)據(jù)存儲上包含了如下幾個方面。
(1)原始語音資源庫,保存了原始的錄音數(shù)據(jù)及其相關信息,主要包括:錄音文件,語音釋義,錄音來源(錄音者的地域信息、年齡、性別、工作單位),錄音環(huán)境,錄音時間等。
(2)降噪語音資源庫,是將原始錄音文件經(jīng)過數(shù)字化降噪處理后得到的語音資源,主要應當記錄的信息有:降噪后的語音數(shù)據(jù),語音釋義,語音數(shù)據(jù)對應的標注(聲∕韻母及聲調(diào)標注、詞標注)。
(3)語音模型庫,保存有從語音降噪預處理到連續(xù)語音識別和語音合成的一系列經(jīng)過機器學習得到的模型資源。這些模型資源分別根據(jù)不同的應用接口采用文本或二進制的格式進行保存,主要包含有下列模型:語音降噪模型,孤立詞識別模型,連續(xù)語音識別模型,聲母∕韻母字典,孤立詞字典,自動標注模型,隱馬爾科夫識別網(wǎng)絡模型(Hidden Markov Model,HMM),基于深度學習算法的語音特征學習模型。
上述的資源庫部分結(jié)構(gòu)性較強的信息可以采用關系數(shù)據(jù)庫系統(tǒng)進行保存,例如原始語音資源的基本信息。然而,部分資源無法使用關系數(shù)據(jù)庫系統(tǒng)進行保存,只能采用關鍵詞對應文件的方式以文件形式進行保存,例如下面的HTK語音識別庫中的對于一個具有6個狀態(tài)的提取了39維梅爾頻率倒頻譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征的HMM模型的定義:
~o <VecSize> 39 <MFCC_0_D_A>
~h"proto"
<BeginHMM>
<NumStates> 5
<State> 2
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 3
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<State> 4
<Mean> 39
0.0 0.0 0.0...
<Variance> 39
1.0 1.0 1.0...
<TransP> 5
0.0 1.0 0.0 0.0 0.0
0.0 0.6 0.4 0.0 0.0
0.0 0.0 0.6 0.4 0.0
0.0 0.0 0.0 0.7 0.3
0.0 0.0 0.0 0.0 0.0
<EndHMM>
類似于語音文件,這些模型文件也需要在數(shù)據(jù)庫中建立查詢和使用的鏈接路徑。
語料庫標注是對語言進行多維、多層面分析的基礎,語料庫的有效利用很大程度上有賴于語料庫標注的層次和質(zhì)量,語料庫分析則有賴于計算機環(huán)境的支持〔10〕。為了充分發(fā)揮白語語音語料庫在語言學研究中的作用,必須要設計好供其他計算機應用程序調(diào)用的語料庫的外部應用接口。
4.1 語料庫的通用接口白語語音語料庫最基本的功能就是能夠提供語音語料的查詢接口。由于白語沒有自己的文字,因此只能以其他語言文字(如漢語)作為查詢的關鍵字入口。由于在數(shù)據(jù)庫中存儲了語音語料的釋義,可以利用這些釋義作為關鍵字查詢比較的字段。此外,由于是面向口語語音的,在查詢結(jié)果顯示上也與文字語料庫不同,需要采用音頻播放控件來播放相應的語音。
此外,語料庫用于傳統(tǒng)語言學分析的另一個功能就是對語料的使用頻度進行估計。在語料庫建設初期,可以參考其他語言的已有的詞的使用頻度并結(jié)合語料釋義與之進行匹配而形成白語語音預料的使用頻度。如果實施了增量式的語料更新措施,還需要構(gòu)建相應的算法,以便于對相應的詞頻進行實時的或是定期的批量更新,從而使得詞頻統(tǒng)計數(shù)據(jù)能夠逐漸貼近實際使用情況。
4.2 面向語音識別和語音合成應用接口建立白語語音語料庫的另一個重要目的是進行白語語音識別和語音合成應用的研究。語音識別的傳統(tǒng)方法是將語音的原始頻域和時域信號進行采樣、分幀,并以幀為單位提取語音信號的特征描述,根據(jù)特征描述建立音素、孤立詞或是連續(xù)語音的識別模型,而這種識別模型通常以HMM模型來表示。自2011年,深度學習在語音識別問題上獲得巨大成功以來,新型的語音識別框架引起研究者的注意。本文研究以此為基礎,提出面向語音識別和語音合成應用的接口,建立的框架見圖2。
圖2 語音識別和語音合成應用接口
4.3 增量式的語料庫更新語料庫在只有初始語料的情況下,受到語料規(guī)模的限制,并不能完全反應出語言使用的真實情況,如果語料庫能夠根據(jù)時間的推進不斷進行語料的補充,則反映出來的語言特征將越來越貼近語言本身。本文設計了如下的增量式語料庫更新框架(見圖3)和相應算法,分別針對孤立詞和連續(xù)語音。當有新的語料進入系統(tǒng)后,對整個系統(tǒng)進行更新。
圖3 增量式語料庫更新
語料(詞)的使用頻度是進行語言學研究時需要的一個重要參數(shù),本文設計的框架中,初始頻度將根據(jù)其他大型文本語料庫進行初始化,當有新的詞(如果是連續(xù)語音,則需要分詞)進入系統(tǒng)后,對詞的使用頻度進行更新,然后使用更新的頻度對語音識別模型進一步優(yōu)化。假設增加的語料中,引用了某詞一次,則更新后的該詞使用頻度按下式進行更新:
其中,F(xiàn)new和Fold分別表示該詞的更新后的使用頻度和更新前的使用頻度,而Nold表示該詞在原有語料庫中出現(xiàn)的次數(shù)。在更新完詞的使用頻度后,該詞在語料庫中的總次數(shù)Nnew也需要更新:Nnew=Nold+1。這是針對更新語料中包含了一次詞條使用的情況,若進行批量的詞條更新,則相應的公式也很容易能夠得出。
作為中國較大少數(shù)民族白族使用的民族語言,白語沒有對應的文字,且受到日益增強的外部經(jīng)濟文化的影響,處于日益消亡的境地。充分利用計算機技術,建立白語語音語料庫是保護民族文字和促進民族文化進一步發(fā)展的重要舉措。本文對白語語音語料庫建設中涉及的語料采集存儲和預處理問題進行了闡述和解決,并提出白語語音語料庫的系統(tǒng)結(jié)構(gòu)。同時,面向語言應用的兩大方面:語音識別和語音合成,提出在語音語料庫基礎上相應應用程序接口的建設問題,同時給出了增量式語料庫更新方法和語料頻度更新公式。下一步的工作將在系統(tǒng)結(jié)構(gòu)分析的基礎上,充分利用數(shù)據(jù)庫技術、深度學習技術和多種語音識別工具,建立大規(guī)模白語語音語料庫并建設語音應用接口系統(tǒng)。
〔1〕張令通.基于HTK的白族語音識別方法〔J〕.大理學院學報,2013,12(10):27-32.
〔2〕劉巖.關于中國少數(shù)民族瀕危語言語音語料庫的設計〔J〕.中央民族大學學報(哲學社會科學版),2006,33(4):133-136.
〔3〕柳歡.試論少數(shù)民族地區(qū)“雙語語料庫”的建立〔J〕.中國校外教育旬刊,2013(28):3.
〔4〕吳福祥.白語no33的多功能模式及演化路徑〔J〕.民族語文,2015(1):3-22.
〔5〕段泗英.白語的句法手段構(gòu)詞法淺析:以鶴慶白語為例〔J〕. 安徽文學月刊,2014(5):128-129.
〔6〕張軍.白語方言否定標記的特征與來源〔J〕.大理學院學報,2012,11(7):39-44.
〔7〕王麗梅.白語的擬聲現(xiàn)象初探〔J〕.教師教育論壇,2012(2):43-45.
〔8〕王鋒.白語南部方言中來母的讀音〔J〕.民族語文,2013(3):56-62.
〔9〕大理白族自治洲白族文化研究所.大理叢書·白語篇〔M〕.昆明:云南民族出版社,2008.
〔10〕黃昌寧,李涓子.語料庫語言學〔M〕.商務印書館,2007:14-15.