張丹青
(福建省農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所福州350013)
福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù)建設(shè)的思考
張丹青
(福建省農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所福州350013)
福州話是閩東方言的代表,被喻為古代漢語(yǔ)的活化石。但是,隨著普通話的推廣,能自然流利地使用福州方言的人群日趨減少,這就需要通過(guò)建立福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù),將這一承載著福州本地DNA的方言完整地保留下來(lái)。本文試從語(yǔ)音檔案建設(shè)背景、建設(shè)思路以及數(shù)據(jù)利用三個(gè)方面來(lái)論述福州方言語(yǔ)音檔案數(shù)據(jù)建設(shè)的設(shè)想。
福州方言語(yǔ)音檔案語(yǔ)言資源檢索
G270.7
A
2017-06-07
福州話是閩東方言的代表,以其歷史悠久、詞語(yǔ)豐富、語(yǔ)體多樣、語(yǔ)流音變復(fù)雜而著稱,在中華大地上獨(dú)樹(shù)一幟。福州話大致形成于唐代,乃漢語(yǔ)的一個(gè)分支,并且保存了大量的古音,因此,福州話被喻為古代漢語(yǔ)的活化石[1]1、2。
隨著普通話的推廣,能自然流利地使用方言的人群日趨減少,許多方言都瀕臨消亡,福州方言也不例外。知名編劇林瑞武曾聯(lián)合相關(guān)專家對(duì)福州200名中小學(xué)生進(jìn)行抽樣調(diào)查,調(diào)查結(jié)果顯示,福州僅有23.65%的中小學(xué)生經(jīng)常說(shuō)方言。2016年,福州民俗專家方炳桂的辭世,也帶走了他那滿嘴蝦油味的福州話和福州故事。當(dāng)我們惋惜方老先生的離去時(shí),應(yīng)該更多地去思考我們福州方言的傳承與保護(hù)。
目前,人們對(duì)福州方言的習(xí)得普遍停留在文字簡(jiǎn)單注音,如福州“虎糾”,很棒“丫霸”。但長(zhǎng)期致力于閩劇與福州評(píng)話研究的文史專家徐鶴蘋(píng)、福建省信息職業(yè)技術(shù)學(xué)院教授鄭廣森在接受福州新聞網(wǎng)采訪時(shí)指出,這種用文字注音福州話的方法會(huì)引起認(rèn)知的歧義。
因此,筆者認(rèn)為,要留住鄉(xiāng)音,最直接的辦法就是通過(guò)語(yǔ)音的形式讓鄉(xiāng)音永不流逝。隨著“文化強(qiáng)市”目標(biāo)的提出,也為承載著福州本地DNA的福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù)建設(shè)提供了政策支撐。
1.福州方言語(yǔ)言資源的收集。俗話說(shuō)“巧媳婦難為無(wú)米之炊”,福州方言語(yǔ)言資源的收集是福州方言語(yǔ)音檔案建設(shè)的基礎(chǔ)。方言語(yǔ)言資源的豐富性、完整性會(huì)直接影響方言語(yǔ)音檔案的開(kāi)發(fā)和利用。筆者認(rèn)為,要從“誰(shuí)在說(shuō)”和“說(shuō)什么”兩個(gè)方面,做好方言語(yǔ)言資源的收集工作,將資源形成檔案。
(1)“誰(shuí)在說(shuō)”。福州話主要通行于福州、閩侯、長(zhǎng)樂(lè)、連江、永泰、閩清、羅源、福清、平潭、屏南和古田等11個(gè)縣市,這就決定了福州方言的資源收集工作開(kāi)展的地理區(qū)域。
(2)“說(shuō)什么”。陳章太在《論語(yǔ)言資源》一文中指出,語(yǔ)言資源主要由語(yǔ)言本體和語(yǔ)言社會(huì)應(yīng)用兩部分構(gòu)成。語(yǔ)言本體包括語(yǔ)音系統(tǒng)、詞匯系統(tǒng)、語(yǔ)法系統(tǒng)和語(yǔ)義系統(tǒng);語(yǔ)言社會(huì)應(yīng)用包括語(yǔ)言在社會(huì)各領(lǐng)域的應(yīng)用和人類社會(huì)對(duì)語(yǔ)言文字的各種使用[2]10。因此,福州方言可以從語(yǔ)音、詞匯、語(yǔ)法、話語(yǔ)、熟語(yǔ)、歌謠等六個(gè)方面,進(jìn)行整理匯編,整合形成福州話資源手冊(cè)。
2.福州話語(yǔ)音檔案數(shù)據(jù)庫(kù)前期建設(shè)。雖然福州方言通行于11個(gè)縣市,但是這些地區(qū)在語(yǔ)音、語(yǔ)調(diào)上又略有不同,為豐富方言語(yǔ)音檔案,福州話數(shù)據(jù)庫(kù)的語(yǔ)音采集將在11個(gè)縣市分別進(jìn)行。因此除了使用統(tǒng)一的福州話資源手冊(cè)對(duì)錄音內(nèi)容進(jìn)行規(guī)范外,還必須實(shí)現(xiàn)數(shù)據(jù)采集程序的規(guī)范。不論是采集內(nèi)容還是采集程序的規(guī)范都是檔案數(shù)據(jù)庫(kù)“前端控制”的必然要求。
(1)統(tǒng)一錄音軟件。目前,多媒體語(yǔ)音文件的格式最常用的有wma、mp3、wav和mid這四種,為保證語(yǔ)音格式在導(dǎo)入數(shù)據(jù)庫(kù)的一致,使用統(tǒng)一的錄音軟件是語(yǔ)音采集工作的前提。在采集工作中,可以借鑒中國(guó)語(yǔ)言資源有聲數(shù)據(jù)庫(kù)建設(shè)所使用的軟件——北語(yǔ)錄音[3]13。事先通過(guò)excel文件將錄音對(duì)象進(jìn)行逐條命名、標(biāo)記,并導(dǎo)入北語(yǔ)軟件,然后進(jìn)行逐條錄音,軟件會(huì)自動(dòng)逐條保存并命名錄音文件為“*.wav”文件。同時(shí),可以利用該軟件,實(shí)現(xiàn)對(duì)已錄條目重新錄音后,并自動(dòng)替換舊文件的功能。
(2)統(tǒng)一命名規(guī)范。為便于數(shù)據(jù)庫(kù)更好地實(shí)現(xiàn)其檢索利用功能,對(duì)錄音文件的統(tǒng)一命名顯得尤為重要。福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù)建設(shè),涵蓋了11個(gè)縣市,將這些縣市分列11個(gè)子庫(kù),分別是FZ代表福州,MH代表閩侯,CL代表長(zhǎng)樂(lè),LJ代表連江,YT代表永泰,MQ代表閩清、LY代表羅源,F(xiàn)Q代表福清,PT代表平潭,PN代表屏南,GT代表古田。子庫(kù)下對(duì)錄音的語(yǔ)言資源進(jìn)行分類1代表語(yǔ)音、2代表詞匯、3代表語(yǔ)法、4代表話語(yǔ)、5代表熟語(yǔ)、6代表歌謠。各類別的語(yǔ)言資源中形成一個(gè)大流水號(hào),從00001開(kāi)始編寫(xiě)文件名。如,太陽(yáng),假設(shè)我們?cè)谠~匯這一類別中給它斌予00001的流水號(hào),則這一名詞,由長(zhǎng)樂(lè)發(fā)音人錄制的錄音文件則命名為CL20001;由平潭發(fā)音人錄制的錄音文件則命名為PT20001。
3.福州話語(yǔ)音檔案數(shù)據(jù)庫(kù)后期建設(shè)?;跇?biāo)準(zhǔn)化采集模式形成的福州方言檔案數(shù)據(jù)庫(kù),必須依賴檢索實(shí)現(xiàn)方言語(yǔ)言檔案的使用。結(jié)合福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù)的特點(diǎn),數(shù)據(jù)庫(kù)的服務(wù)對(duì)象不僅有不會(huì)說(shuō)福州方言的外地人,還有只會(huì)說(shuō)福州話的老福州。這就決定了該數(shù)據(jù)庫(kù)的檢索方式必須采用文本檢索和內(nèi)容檢索相結(jié)合。
(1)基于文本的檢索方式?;谖谋镜臋z索是通過(guò)數(shù)據(jù)庫(kù)中的關(guān)鍵字段與多媒體建立鏈接,從而通過(guò)檢索數(shù)據(jù)庫(kù)中的關(guān)鍵文本字段來(lái)獲取多媒體信息[4]42。檢索時(shí)按照既定的類別和關(guān)鍵詞搜索所需多媒體信息。這種檢索主要是通過(guò)前期對(duì)數(shù)據(jù)庫(kù)中語(yǔ)音文件名的命名和標(biāo)引來(lái)實(shí)現(xiàn)的。如方言歌謠中人們耳熟能詳?shù)恼Z(yǔ)句都可以成為標(biāo)引。以歌謠“祭灶”為例,最為人們所知的一句莫過(guò)于“灶公上天講好話,灶媽落來(lái)保佑奴”,這樣一句話就可以作為這首歌謠的標(biāo)引。用戶在使用時(shí)只要輸入文件名“祭灶”,或“灶公上天講好話”這樣的關(guān)鍵詞,11個(gè)縣市的歌謠“祭灶”語(yǔ)音材料就會(huì)被檢索到,用戶可以對(duì)根據(jù)自己的需要選擇,也可橫向?qū)Ρ冗@11個(gè)地市方言的區(qū)別,進(jìn)行研究。
(2)基于內(nèi)容的檢索方式?;趦?nèi)容的多媒體信息檢索是根據(jù)媒體和媒體對(duì)象的內(nèi)容及上下文聯(lián)系在大規(guī)模多媒體數(shù)據(jù)庫(kù)中進(jìn)行檢索?;趦?nèi)容的檢索是多媒體研究中的新興熱點(diǎn),它突破了傳統(tǒng)的基于文本檢索技術(shù)的局限[4]43。當(dāng)用戶檢索方言數(shù)據(jù)庫(kù)時(shí),系統(tǒng)一方面接受用戶規(guī)定的音頻內(nèi)容特征信息(即用戶的檢索提問(wèn));另一方面接受特征信息索引庫(kù)中的特征信息,然后進(jìn)行兩者之間的匹配,以找出符合用戶需求的多媒體信息。以歌謠“祭灶”為例,使用者只需直接用福州方言說(shuō)出“祭灶”或歌謠中的任何一句話或一個(gè)詞,系統(tǒng)就可進(jìn)行匹配。
文本檢索方式,方便不會(huì)說(shuō)福州方言的人進(jìn)行利用,為他們學(xué)習(xí)、查找語(yǔ)音資料提供便利;而內(nèi)容檢索對(duì)于福州本地人,特別是為不會(huì)說(shuō)普通話的福州人語(yǔ)音信息查找提供了方便。
4.福州話語(yǔ)音檔案數(shù)據(jù)庫(kù)的利用。福州方言語(yǔ)音數(shù)據(jù)庫(kù)建成后,可以借助圖書(shū)館、博物館、科技館、展覽館、高校、科研院所等多種途徑,讓廣大民眾參與其中,使數(shù)據(jù)庫(kù)的建設(shè)成果能夠?yàn)楦嗟纳鐣?huì)大眾所知、所用。當(dāng)然,也可考慮通過(guò)互聯(lián)網(wǎng)平臺(tái),特別是微信,延伸拓展福州方言語(yǔ)音檔案數(shù)據(jù)的共享面。讓那滿嘴蝦油味的福州話和福州故事,觸手可及,而不是遙不可及。
在信息共享時(shí)代,福州方言語(yǔ)音檔案數(shù)據(jù)庫(kù)的建設(shè),功在當(dāng)代,利在千秋。數(shù)據(jù)庫(kù)的建成,將讓福州方言家喻戶曉,成為外地人在福州的出門必備,成為福州人在外地的一份鄉(xiāng)情,成為老人們的回憶,成為孩子們的教科書(shū),使福州方言得以傳承與發(fā)揚(yáng)。
[1]趙麟斌,黃曦.福州方言現(xiàn)象淺析.閩江學(xué)院學(xué)報(bào),2015(6):1-9.
[2]陳章太.論語(yǔ)言資源.語(yǔ)言文字應(yīng)用,2008(1):9-14.
[3]許嘉璐等.中國(guó)語(yǔ)言資源有聲數(shù)據(jù)庫(kù)調(diào)查手冊(cè).北京:商務(wù)印書(shū)館,2014.
[4]吳玉萍.基于文本的多媒體檢索與基于內(nèi)容的多媒體檢索的比較.科壇論壇,2007:42-43.
10.16565/j.cnki.1006-7744.2017.20.13
張丹青,福建省農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所,助理館員,主要從事檔案管理、科研管理工作。