黃鴻哲 黃舒婷 邵敬毅
(1.嘉應(yīng)學(xué)院 廣東省梅州市 514011 2.上沙中學(xué) 廣東省深圳市 518048 3.天津財(cái)經(jīng)大學(xué) 天津市 300222)
普通話現(xiàn)在是中華人民共和國的官方語言,這是婦孺皆知的。普通話作為官方語言是一件值得慶幸的事情,因?yàn)檫@統(tǒng)一了中國人民的交流語言,使得各地各名族溝通變得有一定的保障。孩子們從小學(xué)習(xí)普通話,人人都用普通話交流。然而,我們不可忽略的一個(gè)實(shí)際性問題就是,現(xiàn)在的小孩從幼兒園開始就接收普通話的熏陶,這毅然不是一件壞事,但凡事都有兩面性,我們也應(yīng)該從另外一個(gè)發(fā)現(xiàn)問題;孩子們從小忽視方言學(xué)習(xí),是否不用日常練習(xí)就可以脫口而出呢?這顯然不是,問卷調(diào)查表明(圖1),對于這代年輕人來說,很多客家人只是聽懂客家語言而不會(huì)說客家話。那再經(jīng)過幾代人的迭代,客家語言會(huì)不會(huì)就此被遺忘呢?甚至一些客家優(yōu)秀傳統(tǒng)是否也會(huì)被人們所忘記呢?按照當(dāng)前發(fā)展趨勢,這一個(gè)問題還是值得所思的。為此,客家語庫的存在就是為了人民在學(xué)習(xí)普通話的同時(shí),也可以對客家語言進(jìn)行了解和練習(xí);而不至于想要學(xué)習(xí)客家語言而沒有平臺(tái)資源。
圖1:問卷調(diào)查結(jié)果
智能識(shí)別音頻技術(shù)的發(fā)展是人工智能和云計(jì)算發(fā)展的結(jié)果。從翻譯服務(wù)到口譯服務(wù)是翻譯轉(zhuǎn)化的關(guān)鍵。自音頻識(shí)別技術(shù)發(fā)展以來,尤其是中小型詞匯量的非特定人音頻識(shí)別系統(tǒng)的識(shí)別準(zhǔn)確率高達(dá)98%,而特定的音頻識(shí)別系統(tǒng)的識(shí)別率更高。如此高的辨別率已經(jīng)能夠應(yīng)付常見應(yīng)用需求了,由于大規(guī)模集成電路的不斷發(fā)展,這些抽象的語音識(shí)別系統(tǒng)也可以制成特定芯片,用于大規(guī)模生產(chǎn)??拼笥嶏w的語音引擎將文本轉(zhuǎn)換為TTS 語音文本存儲(chǔ)起來,供閱讀者語音閱讀?,F(xiàn)在你也可以用Android 手機(jī)安裝科大訊飛語音庫,可以直接轉(zhuǎn)換和識(shí)別語音云,語音翻譯的效果也很好。如圖2 所示。
圖2:音頻處理流程
所以,我們開發(fā)了客家語音資料庫系統(tǒng),由黃鴻哲負(fù)責(zé)平臺(tái)開發(fā)工作,黃舒婷負(fù)責(zé)客家語音詞條收集,邵敬毅負(fù)責(zé)數(shù)據(jù)分析工作。當(dāng)然,生活在現(xiàn)在的社會(huì)上,人人都需要一個(gè)身份標(biāo)識(shí),這不僅僅是個(gè)人身份的證明,也是一個(gè)通行證和后期處理事務(wù)的重要依據(jù),因?yàn)樯矸輼?biāo)識(shí)和個(gè)人是一對一的關(guān)系,有著極大的信服力。在客家語庫平臺(tái)系統(tǒng)中,用戶標(biāo)識(shí)也是你在該系統(tǒng)的通行證,倘若是游客身份,那么您將無法體驗(yàn)客家語庫系統(tǒng)的所有功能,這將會(huì)影響您在該系統(tǒng)的用戶使用體驗(yàn)。用戶通行證也是為了更加方便您對客家語庫系統(tǒng)的使用以及記錄您學(xué)習(xí)客家語言過程,另一方面也是為了該系統(tǒng)對用戶的統(tǒng)一管理,讓客家語庫系統(tǒng)更好的為大家服務(wù)。成為客家語庫新用戶只需要點(diǎn)擊注冊按鈕,待頁面跳轉(zhuǎn)后填寫相關(guān)學(xué)習(xí)即可(國家級保密,不會(huì)透露個(gè)人信息)成為客家語庫用戶后將會(huì)贈(zèng)與客家學(xué)習(xí)資料一份。如圖3 所示。
圖3:部分學(xué)習(xí)資料
好記性不如爛筆頭,學(xué)習(xí)客家方言也是如此,客家語庫提供了聽、練一體的練習(xí)系統(tǒng),在學(xué)習(xí)客家話的同時(shí),為了鞏固學(xué)習(xí)的客家語言和拓展對客家語言的界限,練習(xí)系統(tǒng)會(huì)隨機(jī)提供一條客家語音,用戶可以根據(jù)自己所聽到的內(nèi)容翻譯成對應(yīng)的漢字信息后提交,提交后系統(tǒng)將數(shù)據(jù)提交至審核系統(tǒng),通過后成為信息流輸入到該條音頻對于的提交表中,在經(jīng)過系統(tǒng)信息過濾展現(xiàn)在該條音頻對應(yīng)的提交區(qū)反饋給用戶查看,查看后系統(tǒng)還會(huì)根據(jù)每條提交的支持?jǐn)?shù)形成降序展現(xiàn),這是為了激發(fā)用戶的好勝心,讓用戶認(rèn)真提交而設(shè)置。如圖4 和圖5 所示。
圖4:數(shù)據(jù)I/O 流圖
圖5:用戶與提交的實(shí)體聯(lián)系
如圖6 所示,根據(jù)清洗后的有效數(shù)據(jù),統(tǒng)計(jì)用戶的發(fā)音和音調(diào)得分。顏色越深,數(shù)字越多。直觀地獲得每個(gè)類別的評分頻率。在1732 次評估中,5 分的評論占比最高,而用戶的發(fā)音得分最高。
圖6:發(fā)音、音調(diào)的評分分布直方圖
存儲(chǔ)翻譯語庫的大數(shù)據(jù)集中化趨勢。存儲(chǔ)翻譯語庫、術(shù)語語庫等資源集中在中央服務(wù)器的文件中,將具有不同搜索習(xí)慣的用戶通過網(wǎng)絡(luò)連接到服務(wù)器進(jìn)行有針對性的辨別,檢索和維護(hù)更加方便。另一方面,通過資源數(shù)據(jù)集成,也是實(shí)現(xiàn)對語庫數(shù)據(jù)知識(shí)產(chǎn)權(quán)的有效保障,更好地順應(yīng)當(dāng)下網(wǎng)絡(luò)數(shù)據(jù)安全的趨勢。在用戶索檢對應(yīng)客家語音的時(shí)候會(huì)有專業(yè)的語音和索檢關(guān)鍵詞的相對于解析,還有協(xié)助用戶學(xué)習(xí)的發(fā)音標(biāo)準(zhǔn)。如圖7 所示。
圖7:客語辭典語音轉(zhuǎn)譯界面
可能大家耳熟能詳?shù)目图椅幕牡湫痛頌橛兄袊投贾Q的廣東省梅州市,但是我們也應(yīng)該知道,客家文化不在廣東梅州。客家文化包括客家話,客家民俗,戲劇等多個(gè)方面。其中廣東省的惠州、河源、深圳等地級市;江西,福建等多個(gè)省會(huì);甚至遠(yuǎn)至印度尼西亞、馬來西亞、日本、臺(tái)灣等地區(qū)都有客家文化存在的身影??图椅幕植紡V泛,影響深遠(yuǎn),有三個(gè)經(jīng)中華人民共和國文化部批準(zhǔn)的國家客家文化生態(tài)保護(hù)試驗(yàn)區(qū)。而客家系統(tǒng)根據(jù)大數(shù)據(jù)也設(shè)立了其他地區(qū)客家文化的特色資料學(xué)習(xí),也利用python 爬蟲技術(shù)收集了各個(gè)地區(qū)客家文化的主要官網(wǎng)地址供用戶學(xué)習(xí)和攬閱。
對于一個(gè)系統(tǒng)核心而言,邏輯功能必不可少,其次就是大量的準(zhǔn)確而具有科學(xué)性的數(shù)據(jù)。本系統(tǒng)不僅利用某些計(jì)算機(jī)技術(shù)進(jìn)行數(shù)據(jù)的開掘,另一方面也是進(jìn)行了實(shí)實(shí)在在的大量的數(shù)據(jù)搜素匹配,然后進(jìn)行過濾打量,對數(shù)據(jù)本身進(jìn)行篩選和優(yōu)化,才給予錄入該系統(tǒng)的條件;然而這樣龐大的工作量僅僅有開發(fā)團(tuán)隊(duì)來收集和處理顯然應(yīng)付不了大后期的系統(tǒng)需求;因此團(tuán)隊(duì)還開發(fā)了線上注音的功能,如圖8 所示,這一舉措也可以讓熱愛客家文化的用戶對我們的客語系統(tǒng)進(jìn)行數(shù)據(jù)的補(bǔ)充,從而緩解開發(fā)團(tuán)隊(duì)本就緊張的時(shí)間和成本資源,也能收集更多更廣的客家文化,讓開發(fā)團(tuán)隊(duì)和用戶一起進(jìn)行客家文化的運(yùn)用和傳承。
圖8:線上注音
不過,收集的數(shù)據(jù)可能會(huì)魚龍混雜,因此還是需要專業(yè)的客家后臺(tái)管理人員進(jìn)行對用戶提交的注音進(jìn)行審核后在覺得是否錄用用戶的提交,這樣不僅能保證數(shù)據(jù)的可靠性,也還是可以從一定的角度緩解開發(fā)團(tuán)隊(duì)的壓力。
8.1.1 應(yīng)添加的語庫后臺(tái)
對于現(xiàn)有的語庫系統(tǒng),從具有用戶權(quán)限的練習(xí)系統(tǒng)到對用戶開源的客家辭典;無論是查看客家資料,還是轉(zhuǎn)換到其他客家官網(wǎng),都可以進(jìn)一步的精述為致至用戶使用的一個(gè)系統(tǒng)。除開添加功能外,系統(tǒng)難免會(huì)對客語系統(tǒng)現(xiàn)有的數(shù)據(jù)進(jìn)行一些管理的更改,倘若從源碼底層去動(dòng)用這些龐大的數(shù)據(jù)流,先不談及工作量,也會(huì)導(dǎo)致管理效率變得及其的底下,因?yàn)橐M(jìn)入源碼層,需要預(yù)先配置好的系統(tǒng)環(huán)境變量以及源碼等條件,光是系統(tǒng)環(huán)境變量和源碼這兩項(xiàng),開發(fā)人員不可能隨身攜帶這些現(xiàn)成條件。所以,我們應(yīng)該給語庫系統(tǒng)添加理論上的可視化系統(tǒng)后臺(tái)數(shù)據(jù)管理界面以及功能。
8.1.2 語庫后臺(tái)功能介紹
(1)語庫練習(xí)系統(tǒng):在眾多的用戶提交答案中,難免有些用戶會(huì)提交一些系統(tǒng)過濾不了的不良的、不合乎正常邏輯的答案,那么我們就需要將這些提交的答案進(jìn)行一個(gè)刪除操作
(2)用戶權(quán)限管理:基于語庫練習(xí)系統(tǒng)的不良用戶提交,倘若該用戶多次利用系統(tǒng)本身具有的過濾功能的BUG 進(jìn)行一個(gè)提交答案,影響正常用戶的使用,那我們會(huì)給予撤銷該用戶的用戶權(quán),并且對該用戶進(jìn)行用戶注冊時(shí)填寫的聯(lián)系信息進(jìn)行一個(gè)短信警告。
(3)客家辭典:一個(gè)系統(tǒng)好壞首先看功能性能方面實(shí)現(xiàn)的如何,其次是該系統(tǒng)歸屬下的數(shù)據(jù)量海納多少,客家辭典就如同字典,數(shù)據(jù)信息必須齊全,用戶使用體驗(yàn)才會(huì)良好。對于添加數(shù)據(jù),開發(fā)人員亦然可以從底層數(shù)據(jù)庫進(jìn)行添加,但這樣就會(huì)顯得冗余,故該數(shù)據(jù)后臺(tái)應(yīng)該具備上傳文件的功能以導(dǎo)入數(shù)據(jù),不必動(dòng)用底層代碼而產(chǎn)生更多的系統(tǒng)問題。
(4)審核在線注音:數(shù)據(jù)可以有開發(fā)人員進(jìn)行添加,但不同的人,見識(shí)會(huì)有差異,項(xiàng)目團(tuán)隊(duì)的認(rèn)知并不是十全十美的,或許有些用戶正好見識(shí)過項(xiàng)目組所未見識(shí)的,那么這些用戶就可以行對客家知識(shí)的一個(gè)提交。提交的數(shù)據(jù)匯流到語庫后臺(tái),由專業(yè)組進(jìn)行一個(gè)審核與處理音頻,確定用戶提交的價(jià)值性后再給予納入系統(tǒng)數(shù)據(jù)。
8.2.1 客家語言文化
世界上現(xiàn)在僅存約六千種語言,約是上世紀(jì)末的一半,像不少的動(dòng)植物一樣,有些弱勢語言只剩下幾個(gè)人講,馬上就要淘汰。但是若以人口計(jì)算,客語在頭三十名內(nèi),照算是沒那么快會(huì)消失的。然而,有資料顯示,客家語被認(rèn)為是地球上衰落最快的語言之一。近20 年,全球會(huì)說客家話的人由6000 多萬減少到不足3000 萬,流失速度驚人??图艺Z言文化歷史悠久,雖是一方語言,但也是博大精深的中華文化缺一不可的一部分,也算是特色文化之一,承載了文化發(fā)展的腳印,具有重大的文化意義。而這種語言的形成,則是客家人向客家群體歸屬的基本條件。客家方言作為一種文化現(xiàn)象,不是孤立的,而是深深植根于客家民系的總體文化之中,昭示著自己祖先、來源的一面明鏡。
8.2.2 客家語庫
(1)客家語庫提供漢轉(zhuǎn)譯客家語音的功能供給用戶使用。
(2)系統(tǒng)配備的練習(xí)系統(tǒng)方便用戶的學(xué)習(xí)。
(3)系統(tǒng)收集了各地區(qū)的客家方言,供給用戶參考差異。
(4)考慮到客家系統(tǒng)的往后發(fā)展,客家系統(tǒng)可考慮類似的論壇功能,為客家文化。小白和客家文化熱衷者提供交流平臺(tái),方便用戶之間的溝通。