錢小飛
摘? 要:基于預(yù)制約束,提出一種漢語語音錄入的解決方案。在軟件系統(tǒng)方面,通過定制音系系統(tǒng),采用大顆粒度語音數(shù)據(jù)和選擇式錄入方式進(jìn)行語音錄入,并引入智能的錯(cuò)誤檢查機(jī)制和記憶排序機(jī)制,來檢測(cè)錯(cuò)誤和提高錄入效率。在管理系統(tǒng)方面,重視錄入流程管理,制定配套的錄入流程規(guī)范來支持高質(zhì)量錄入?;陬A(yù)制約束的漢語語音錄入系統(tǒng),在提高錄入一致性和準(zhǔn)確性方面,提供了高效的解決方案。
關(guān)鍵詞:漢語語音錄入;預(yù)制;約束;流程管理
隨著經(jīng)驗(yàn)主義研究的繁榮,語言學(xué)研究越來越依賴于大規(guī)模真實(shí)語言材料的獲取。受益于計(jì)算機(jī)技術(shù)的發(fā)展,語法學(xué)和語義學(xué)研究所需要的大量文本材料比語音材料更容易獲取。語音材料的獲取不僅需要大量的語言調(diào)查,高效靈活的錄入也是困擾研究者的主要問題。前人在語音錄入問題上作出了大量的富有成效的工作,如李龍、潘悟云開發(fā)了云龍國(guó)際音標(biāo)輸入法,解決了國(guó)際音標(biāo)錄入的問題[1]。海柳文開發(fā)了“漢語方言民族語言語音材料處理軟件”,分析處理調(diào)查所得的語音數(shù)據(jù)[2]。程南昌、侯敏開發(fā)了同音字匯生成軟件,專門處理同音字表的排序生成[3]。潘悟云設(shè)計(jì)開發(fā)了漢語方言計(jì)算機(jī)處理系統(tǒng)(TFD),實(shí)現(xiàn)了方言材料的輸入與規(guī)整、字音查詢、方言音系分析、方言語音處理、方言地圖等功能[4]。上述系統(tǒng)大多是針對(duì)方言語音處理的,在一定程度上支持了語音的輸入、編輯和整理工作,為語音錄入的編碼、輸入、檢索、分析提供了便捷的工具。
我們希望在前人工作的基礎(chǔ)上,對(duì)語音錄入所存在的一些難點(diǎn)提供解決方案。這些問題主要包括:第一,字符一致性問題。國(guó)際音標(biāo)需要用特殊軟件錄入,對(duì)于同一個(gè)音標(biāo),不同人員以至同一人的錄入都會(huì)出現(xiàn)大量差別。第二,音標(biāo)的錯(cuò)誤約束問題。在錄入國(guó)際音標(biāo)時(shí),常常會(huì)發(fā)生錄入錯(cuò)誤,包括誤刪、誤增等。有些錄入者使用鍵盤和普通輸入法錄入部分國(guó)際音標(biāo),甚至將一個(gè)音標(biāo)拆分為多個(gè)字符,使得看上去類似的“國(guó)際音標(biāo)”符號(hào)內(nèi)部編碼不同,這樣就會(huì)造成檢索不全和誤檢現(xiàn)象,降低了數(shù)據(jù)庫(kù)的可用性和準(zhǔn)確性。第三,稀疏特征值數(shù)據(jù)的問題。相近的方言在語音上可能會(huì)存在少量區(qū)別,卻是語音研究的重要數(shù)據(jù)。在提供批量修正功能的系統(tǒng)中,容易造成稀疏特征值數(shù)據(jù)的無意識(shí)忽視。第四,字表問題。有時(shí)僅依靠所擁有的字表難以預(yù)測(cè)被調(diào)查方言的同音字情況,或者需要在現(xiàn)有字表的基礎(chǔ)上增補(bǔ)語音材料[5],希望先錄入再整理材料,這就需要一種靈活的逐字錄入的方式?;谏鲜鰡栴},本文提出了一種基于預(yù)制約束的語音錄入策略,研制了一個(gè)漢語語音錄入系統(tǒng)。
一、研制思路和系統(tǒng)構(gòu)造
(一)漢語語音錄入系統(tǒng)的研制思路
基于預(yù)制約束的漢語語音錄入系統(tǒng)的主要研制思路,是通過支持定制化和規(guī)范化的錄入流程管理,來解決錄入過程中的錄入一致性、音標(biāo)的錯(cuò)誤約束和稀疏特征值數(shù)據(jù)問題。具體來說,我們采用基于大顆粒數(shù)據(jù)的選擇式語音錄入方式,同時(shí)引入智能的錯(cuò)誤檢查機(jī)制和記憶排序機(jī)制,并通過嚴(yán)格的流程管理來保證錄入數(shù)據(jù)的質(zhì)量。
(二)漢語語音錄入系統(tǒng)的構(gòu)造
廣義的漢語語音錄入系統(tǒng)包括軟件系統(tǒng)和管理機(jī)制兩個(gè)方面。具體來說,軟件系統(tǒng)主要由數(shù)據(jù)系統(tǒng)、語音錄入系統(tǒng)兩個(gè)部分組成,管理機(jī)制則由錄入管理規(guī)范構(gòu)成。漢語語音錄入系統(tǒng)結(jié)構(gòu)可如圖1所示:
其中,數(shù)據(jù)系統(tǒng)是語音錄入系統(tǒng)的操作對(duì)象,同時(shí)也為語音錄入系統(tǒng)規(guī)定參數(shù);錄入管理規(guī)范規(guī)定了語音錄入系統(tǒng)的錄入規(guī)則。狹義的漢語語音錄入系統(tǒng)則專指軟件系統(tǒng)。
二、漢語語音錄入的軟件系統(tǒng)
(一)數(shù)據(jù)系統(tǒng)
數(shù)據(jù)系統(tǒng)包括語音數(shù)據(jù)表庫(kù)和元數(shù)據(jù)系統(tǒng)。數(shù)據(jù)庫(kù)采用Access數(shù)據(jù)庫(kù),由多個(gè)語音數(shù)據(jù)表組成。數(shù)據(jù)表是系統(tǒng)存放錄入數(shù)據(jù)的地方,包括用于初始化的Init數(shù)據(jù)表和用戶自定義的數(shù)據(jù)表。每個(gè)數(shù)據(jù)表的數(shù)據(jù)結(jié)構(gòu)可如表1所示:
元數(shù)據(jù)系統(tǒng)包括合法的聲韻調(diào)數(shù)據(jù)和非法的聲韻符號(hào),用于提高錄入的效率,進(jìn)行智能化的錯(cuò)誤檢測(cè)。合法的聲韻調(diào)數(shù)據(jù)存放于List文件夾中,非法的聲韻調(diào)符號(hào)存放于IllElem文件夾中。這兩組數(shù)據(jù)默認(rèn)已經(jīng)存在,用戶可按照規(guī)定格式自行定制和修改內(nèi)容,由于語音錄入往往需要使用國(guó)際音標(biāo),數(shù)據(jù)內(nèi)容必須使用UNICODE編碼。List文件夾和IllElem文件夾與主程序TPD(Tools for Phonetic Data)位于同一個(gè)文件夾下。合法的聲韻調(diào)數(shù)據(jù)文件、非法的聲韻調(diào)符號(hào)文件分別如表2、表3所示:
(二)語音錄入系統(tǒng)
1.控件注冊(cè)
語音錄入系統(tǒng)用于錄入漢語語音,具備了數(shù)據(jù)庫(kù)連接、加載視圖、語音記錄錄入、語音記記錄檢索、語音記錄更新、語音記錄刪除等功能。
在打開語音錄入軟件之前,需要為軟件進(jìn)行控件注冊(cè),這些控件管理語音數(shù)據(jù)的顯示??丶?cè)可以分為兩種情況:第一種情況,如果系統(tǒng)盤為C盤,雙擊regctrl.bat或regctrl.bat64,彈出注冊(cè)成功的窗口后予以確認(rèn)。第二種情況,如果系統(tǒng)盤不是C盤,拷貝OCX文件夾下的MSADODC.OCX,MSDATGRD.OCX至system32文件夾;點(diǎn)擊開始->運(yùn)行,在控制臺(tái)中輸入regsvr32 msadodc.ocx,按回車,彈出注冊(cè)成功的窗口后確認(rèn);然后在控制臺(tái)中輸入regsvr32 msdatgrd.ocx,按回車,彈出注冊(cè)成功的窗口后確認(rèn)。
注冊(cè)好控件之后,雙擊語音錄入軟件TPD.exe打開程序,單擊菜單“語音庫(kù)錄入”->“錄入系統(tǒng)”打開錄入系統(tǒng)后,其界面如圖2所示:
2.數(shù)據(jù)庫(kù)連接
語音錄入系統(tǒng)將漢字音節(jié)分項(xiàng)錄入數(shù)據(jù)表,因此,在進(jìn)行語音錄入之前,首先需要建立一個(gè)Access語音數(shù)據(jù)庫(kù),并在數(shù)據(jù)庫(kù)中建立相應(yīng)的空數(shù)據(jù)表。該數(shù)據(jù)表的結(jié)構(gòu)與Init數(shù)據(jù)表相同,如表1所示。在進(jìn)行語音錄入時(shí),首先點(diǎn)擊“載入數(shù)據(jù)庫(kù)”連接數(shù)據(jù)庫(kù),然后點(diǎn)擊“選擇表”,下拉列表框中的下拉箭頭,選擇該數(shù)據(jù)庫(kù)中的一張數(shù)據(jù)表。這里以北京官話為例,此時(shí),下方的紅色字體顯示為“連接數(shù)據(jù)庫(kù)成功”。具體如圖3所示:
3.語音數(shù)據(jù)表視圖
語音數(shù)據(jù)表視圖可以幫助我們觀察數(shù)據(jù)表中的已有數(shù)據(jù)和實(shí)時(shí)錄入數(shù)據(jù)情況。第一次載入數(shù)據(jù)表時(shí),如果數(shù)據(jù)表中已經(jīng)存在數(shù)據(jù),為保證顯示字段與實(shí)際字段相對(duì)應(yīng),需要核對(duì)“ID字段”“韻母字段”“聲母字段”“聲調(diào)字段”“單字字段”“注釋字段”的字段名是否與數(shù)據(jù)表的字段名相對(duì)應(yīng);如果不對(duì)應(yīng),可以在相應(yīng)的下拉列表中選擇更改。點(diǎn)擊“載入視圖記錄”,則左側(cè)的語音數(shù)據(jù)表單顯示數(shù)據(jù)表中的數(shù)據(jù)。這些數(shù)據(jù)是分頁顯示的,點(diǎn)擊“首頁”“上一頁”“下一頁”“末頁”可以跳轉(zhuǎn)到相應(yīng)的位置。此外,點(diǎn)擊字體可以設(shè)置語音數(shù)據(jù)表單的顯示字體、大小等格式,所選擇的字體、格式將同時(shí)應(yīng)用于“語音數(shù)據(jù)表單”和“韻母”“聲母”“聲調(diào)”“單字”“注釋”的下拉列表框。語音數(shù)據(jù)表載入視圖可如圖4所示:
4.預(yù)制約束下的語音錄入
預(yù)制約束下的語音錄入主要包括三種不同的錄入機(jī)制:基于預(yù)制的語音錄入、基于約束的語音錄入和記憶排序機(jī)制。
基于預(yù)制的語音錄入與合法的聲韻調(diào)數(shù)據(jù)文件listYM、listSM、listSD配合使用,在這些元數(shù)據(jù)文件中分別預(yù)制合法的聲、韻、調(diào)等數(shù)據(jù)。具體示例如圖5所示:
在錄入過程中,采用元數(shù)據(jù)選擇式錄入的方式,只允許在下拉列表中使用預(yù)制的元數(shù)據(jù),而不允許使用其他即時(shí)錄入數(shù)據(jù);如果需要修改錄入數(shù)據(jù),只能在系統(tǒng)底層修改元數(shù)據(jù),原則上不接受界面邊界。相對(duì)于國(guó)際音標(biāo)而言,預(yù)制的聲韻調(diào)數(shù)據(jù)的顆粒度更大,我們稱之為“基于大顆粒度數(shù)據(jù)的錄入”,它大大提高了語音錄入的一致性和錄入效率,使得同一個(gè)錄入者在不同時(shí)間的錄入,以及不同的錄入者的錄入內(nèi)容基本相同;即使發(fā)生錄入錯(cuò)誤,這些錯(cuò)誤也是一致的,易于修改的。比如,?和??、t?和?’存在書寫方式的差異,這些差異在錄入的數(shù)據(jù)中是一致的,易于批量修正?;诖箢w粒度的選擇式錄入可如圖6所示:
與預(yù)制語音錄入配合使用的是基于約束的語音錄入。為了保證底層元數(shù)據(jù)的合法性,我們?cè)O(shè)計(jì)了一種約束機(jī)制,對(duì)錄入錯(cuò)誤進(jìn)行定制的智能化的識(shí)別?;诩s束的語音錄入在系統(tǒng)底層自定義錯(cuò)誤類別,并在編輯框下拉列表內(nèi),選擇相應(yīng)的預(yù)制元數(shù)據(jù)進(jìn)行錄入檢查。如果出現(xiàn)與自定義錯(cuò)誤類別一致的情況,將反饋給錄入人員。對(duì)于韻母、聲母、聲調(diào)而言,漢字默認(rèn)是非法選項(xiàng)。約束機(jī)制元數(shù)據(jù)可如圖7所示:
具體來說,在錄入界面,單擊“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方編輯框的下拉列表,選擇對(duì)應(yīng)數(shù)據(jù),或者輸入對(duì)應(yīng)數(shù)據(jù),程序?qū)z查輸入的合法性。輸入完成后,單擊“添加記錄”按鈕,程序?qū)z查是否存在重復(fù)記錄;如無重復(fù)記錄,“語音數(shù)據(jù)”界面將跳至最后一頁,在尾部添加新記錄。這種逐條錄入的方式可以保證每條記錄都被錄入者關(guān)注,防止稀疏特征值數(shù)據(jù)的無意識(shí)疏忽。圖8顯示的是在韻母誤錄入非法字符“/”時(shí)的系統(tǒng)反饋。
語音錄入系統(tǒng)還能夠提供記憶排序機(jī)制。在輸入第二條記錄時(shí),“編號(hào)”“韻母”“聲母”“聲調(diào)”下方的編輯框內(nèi)將保留上一次的輸入信息,“單字”“注釋”編輯框的上一條信息會(huì)自動(dòng)清除。如果不需要記憶上一次的錄入內(nèi)容,單擊“清空輸入”按鈕,便可以清除“編號(hào)”“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方編輯框中的信息?!绊嵞浮薄奥暷浮薄皢巫帧毕吕斜砜?qū)⒈A糇罱麼次的錄入信息以供選擇,并默認(rèn)N=5,5,3。如果listDZ中錄入了單字表,“單字”下拉列表將從第I個(gè)字開始,按照字表順序動(dòng)態(tài)顯示M條信息,這時(shí)可以使用左向按鈕和右向按鈕進(jìn)行調(diào)節(jié),并默認(rèn)I=1、M=10。修改字表后,需要重啟錄入界面。記憶排序機(jī)制能協(xié)助錄入人員盡可能地利用上一次或前幾次的已錄入信息,大大減少了錄入工作量;同時(shí),也可以使我們利用已有字表進(jìn)行錄入,既兼顧了錄入的靈活性,又極大地提高了錄入的效率。
5.檢索數(shù)據(jù)
語音錄入系統(tǒng)同時(shí)也提供了檢索功能,以便于查詢、檢查和修正錄入數(shù)據(jù)。在“編號(hào)”“韻母”“聲母”“聲調(diào)”“單字”“注釋”下方的編輯框中,輸入待檢索信息,單擊“檢索記錄”按鈕,程序?qū)⑦M(jìn)行精確檢索,進(jìn)入檢索視圖。單擊“關(guān)閉檢索記錄”,則可以退出檢索視圖。檢索視圖可如圖9所示:
6.更新記錄
更新記錄功能可以在分頁視圖和檢索視圖下進(jìn)行。在分頁視圖下,單擊“語音數(shù)據(jù)表單”某條記錄,在“語音數(shù)據(jù)表單”中修改該記錄的內(nèi)容,然后單擊“更新記錄”按鈕,即可更新記錄中的數(shù)據(jù)。在檢索視圖下,單擊“語音數(shù)據(jù)表單”某條記錄,在“語音數(shù)據(jù)表單”中修改該記錄的內(nèi)容,然后單擊“更新檢索記錄”按鈕,即可更新記錄中的數(shù)據(jù)。如圖9中,可以將??修改為t?。
7.刪除記錄
刪除記錄功能可以在分頁視圖和檢索視圖下進(jìn)行。在分頁視圖下,單擊“語音數(shù)據(jù)表單”某條記錄左部游標(biāo),當(dāng)出現(xiàn)黑三角箭頭指向該條記錄時(shí),單擊“刪除記錄”按鈕,即可刪除該條記錄。在檢索視圖下,單擊“語音數(shù)據(jù)表單”某條記錄左部游標(biāo),當(dāng)出現(xiàn)黑三角箭頭指向該條記錄時(shí),單擊“刪除檢索記錄”按鈕,即可刪除該條記錄。
三、漢語語音錄入的管理機(jī)制
我們認(rèn)為,與語音錄入軟件相比,語音錄入的項(xiàng)目管理機(jī)制同樣重要。只有將語音錄入軟件的功能與優(yōu)質(zhì)的項(xiàng)目管理結(jié)合起來,才能取得令人滿意的錄入效果。而以往的研究卻對(duì)此缺乏足夠的重視。漢語語音錄入的管理機(jī)制主要包括錄入標(biāo)準(zhǔn)的管理和錄入流程的管理兩個(gè)方面。
漢語語音錄入首先應(yīng)制定錄入的標(biāo)準(zhǔn)。語音錄入的標(biāo)準(zhǔn)主要是在于音系。在多方言或多變體的數(shù)據(jù)庫(kù)中,多個(gè)音系之間的符號(hào)表示應(yīng)協(xié)調(diào)、規(guī)范而不沖突、不混淆,以便于檢索結(jié)果中的音系符號(hào)具有唯一的意義。同時(shí),錄入標(biāo)準(zhǔn)還應(yīng)包括元數(shù)據(jù)管理的標(biāo)準(zhǔn)。
我們不僅要在錄入過程中嚴(yán)格執(zhí)行錄入標(biāo)準(zhǔn),而且還要制定嚴(yán)格的流程管理。漢語語音錄入項(xiàng)目的管理流程包括8個(gè)步驟:1.項(xiàng)目組成員錄入音系;2.項(xiàng)目負(fù)責(zé)人審核和統(tǒng)一修正所有音系;3.項(xiàng)目組成員按照音系制定元數(shù)據(jù);4.項(xiàng)目負(fù)責(zé)人審核和統(tǒng)一修正元數(shù)據(jù);5.項(xiàng)目組成員進(jìn)行語音錄入;6.錄入完成后,項(xiàng)目組成員根據(jù)錄入數(shù)據(jù)重新歸納音系;7.項(xiàng)目組成員對(duì)比原始音系和錄入音系,復(fù)查錄入結(jié)果和進(jìn)行修正,再次歸納音系,直到原始音系和錄入音系相同,或確認(rèn)新增聲韻調(diào)標(biāo)注無誤;8.項(xiàng)目負(fù)責(zé)人審核和修正所有錄入結(jié)果。
綜上所述,基于預(yù)制約束的漢語語音錄入系統(tǒng),通過支持定制音系系統(tǒng),采用大顆粒度語音數(shù)據(jù)、選擇式錄入方式,提高了語音錄入的一致性。同時(shí),引入智能的錯(cuò)誤檢查機(jī)制和記憶排序機(jī)制,通過嚴(yán)格有效的流程管理,來保證錄入數(shù)據(jù)的質(zhì)量,提高錄入數(shù)據(jù)的效率。我們借助于這套系統(tǒng),錄入了20個(gè)方言點(diǎn)的語音材料,獲得了很好的錄入一致性和非常優(yōu)質(zhì)的語音數(shù)據(jù),極大地減少了人工復(fù)檢率??傮w而言,基于預(yù)制約束的漢語語音錄入系統(tǒng)與前人開發(fā)的錄入系統(tǒng)各有特點(diǎn),可以相互補(bǔ)充。它在前人研究的基礎(chǔ)上,采用國(guó)際音標(biāo)輸入法錄入大顆粒元數(shù)據(jù),借助于預(yù)制約束機(jī)制和質(zhì)量管理機(jī)制,在解決錄入一致性、提高錄入準(zhǔn)確率方面,提供了一種高效的解決方案。
參考文獻(xiàn):
[1]李龍,潘悟云.國(guó)際音標(biāo)輸入法及其實(shí)現(xiàn)[J].語言研究, 2006,(3).
[2]海柳文.漢語方言民族語言語音材料處理軟件設(shè)計(jì)[J].廣西民族學(xué)院學(xué)報(bào)(自然科學(xué)版),2005,(3).
[3]程南昌,侯敏.“方言同音字匯”自動(dòng)生成軟件的設(shè)計(jì)及實(shí)現(xiàn)[J].中文信息學(xué)報(bào),2013,(1).
[4]潘悟云.漢語方言計(jì)算機(jī)處理系統(tǒng)[DB/OL].http://www.eastling.org/resource.htm,2011-06-11.
[5]李如龍.漢語方言學(xué)(第二版)[M].北京:高等教育出版社,2007.
Chinese Speech Input System:Based on Prefabrication and Constraints
Qian Xiaofei
(College of Liberal Arts, Shanghai University, Shanghai 200444, China)
Abstract:A solution to Chinese speech input based on prefabrication and constraint is proposed. In terms of software systems, custom phonological systems, large-granule speech data and selective entry methods are used for voice entry, and intelligent error checking mechanisms and memory ranking mechanisms are introduced to detect errors and improve the efficiency of entry. In the area of management systems, the importance of entry process management has been put forward, and supporting input process specifications have been formulated to support high-quality input. Chinese speech input system based on prefabrication and constraint provides an efficient solution for improving the consistency and accuracy of input.
Key words:Chinese speech input;prefabrication;constraint;process management