国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于碎片化信息采集的東莞方言語料庫建設(shè)過程研究

2019-01-14 02:32李玉嵩胡建慧吳娜
教育教學(xué)論壇 2019年52期
關(guān)鍵詞:信息采集語料庫方言

李玉嵩 胡建慧 吳娜

摘要:基于碎片化信息采集的多模態(tài)東莞方言語料庫建設(shè),能有效豐富采集內(nèi)容、立體描述語言體系,提高語言采集效率、準(zhǔn)確度,便于公眾共享與檢索,是目前較為理想的語料庫搭建模式。文章從碎片化信息采集為切入點(diǎn),集中論述了東莞方言語料庫建設(shè)過程中出現(xiàn)的情況。

關(guān)鍵詞:碎片化信息;信息采集;方言;語料庫

中圖分類號(hào):G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1674-9324(2019)52-0066-03

語言檔案資料庫建設(shè)的關(guān)鍵點(diǎn)和難點(diǎn)在于語言動(dòng)態(tài)采集,在語言交流和接觸越來越頻繁的今天,語料庫建設(shè)不能停留在單個(gè)方言代表人的采集上,而要廣泛采集語言使用者的語言檔案,不斷地?cái)U(kuò)大語言采集范圍,逐漸消除語言的個(gè)體差異,同時(shí)也要掌握更多語言變異的情況。

東莞地處珠江口,與廣州、惠州、深圳接壤,處于廣州話與客家話兩種方言之間,境內(nèi)主要通行東莞話,部分地區(qū)通行客家話,在語言調(diào)查及語言變異等方面都具有較高的研究價(jià)值。目前對(duì)東莞方言的調(diào)查研究比較豐富,但基本都停留在書面層面?;谒槠畔⒉杉恼Z料庫可以打破傳統(tǒng)語料庫采集對(duì)象較為單一,采集語料多為預(yù)設(shè)語料的局限,可以結(jié)合自然語料與預(yù)設(shè)語料,通過多模態(tài)的采集方式,整合地方的語言檔案。

一、發(fā)音人的選取及語言檔案采集內(nèi)容

(一)發(fā)音人的選取

發(fā)音人的選擇是語言檔案采集質(zhì)量的前提與基礎(chǔ)。東莞方言語料庫在發(fā)音人的選取上遵循以下原則:

代表性原則:發(fā)音人作為東莞方言的典型代表。在語言調(diào)查當(dāng)中,發(fā)音人的選擇往往會(huì)直接影響到一個(gè)調(diào)查的準(zhǔn)確性,因此發(fā)音人的代表性至關(guān)重要。傳統(tǒng)方言學(xué)研究在選擇發(fā)音人的時(shí)候往往會(huì)通過年齡、性別、教育和生活環(huán)境等因素來甄別。這樣的方法在人口流動(dòng)較少,方言差異比較穩(wěn)定的地區(qū)比較有效。因此過去的方言田野調(diào)查只需在選定的地區(qū)選取年齡相當(dāng)、口齒清晰、沒有長期離開該地的發(fā)音人即可?,F(xiàn)代社會(huì),由于人口流動(dòng)、教育普及、媒體傳播等模糊了發(fā)音人是否滿足代表屬性的界限,因此在收集東莞方言語料庫時(shí),發(fā)音人的代表性尤為關(guān)鍵,應(yīng)當(dāng)采用“代表屬性”來確定具備代表性的發(fā)音人。

差異性原則:發(fā)音人涵蓋不同范圍的人群。傳統(tǒng)方言調(diào)查為了消除個(gè)人語言的特殊性,通常會(huì)選取3—4名或者更多的人作為發(fā)音合作人,但語料采集范圍的狹窄不能完全消除語言的個(gè)人差異,特別是在人口構(gòu)成類別復(fù)雜的城市中,不同的人口類別在語言掌握、語言選擇、語言使用和語言態(tài)度等諸多方面均存在著差異性。因此在采集語料時(shí)需要注重發(fā)音人的差異化,要選取不同職業(yè)類別、不同文化程度、不同年齡、不同地域的發(fā)音人。

發(fā)展性原則:兼顧發(fā)音人的年齡差異,體現(xiàn)語言發(fā)展的動(dòng)態(tài)演變。語言是發(fā)展的,不同年齡階段的人群所使用的母語也有所不同。湯志祥,陳永康(2007)調(diào)查了深圳一個(gè)純客家話村落20個(gè)家庭中三代人的語言使用情況,發(fā)現(xiàn)年輕一代的母語方言使用比例下降,出現(xiàn)雙語或三語的語言使用狀態(tài)。雙語或多語必然會(huì)造成母語的變異,事實(shí)上不管是移民還是原居民,在雙語或多語的背景下其母語也會(huì)發(fā)生變異,因此在東莞這個(gè)城市化程度較高、語言使用情況較復(fù)雜的環(huán)境下,要?jiǎng)討B(tài)收集東莞方言的語料,需要考慮發(fā)展性原則,兼顧不同年齡階段的發(fā)音人。

通過以上原則,課題組選取了若干位東莞當(dāng)?shù)厝俗鳛楸狙芯康闹饕l(fā)音人。

(二)語料采集

本文論述的東莞方言語料庫的語料采集采取預(yù)設(shè)語料與自然語料相結(jié)合的方式。

預(yù)設(shè)語料為誘發(fā)式語料,語言調(diào)查員根據(jù)預(yù)設(shè)的調(diào)查材料引導(dǎo)發(fā)音人用母語方言說出相應(yīng)的語料,預(yù)設(shè)語料分字、詞及句子。字的調(diào)查用表為中國科學(xué)院語言研究所的《方言調(diào)查字表》(修訂本)以及暨南大學(xué)的《廣東方言調(diào)查通用字表》。其中使用了《方言調(diào)查字表》第x、xi、xii頁的聲調(diào)、聲母、韻母字對(duì)每個(gè)發(fā)音人進(jìn)行預(yù)調(diào)查并進(jìn)行初步的音系歸納。語音調(diào)查方面使用的是暨南大學(xué)漢語方言研究中心的《廣東方言調(diào)查通用字表》A級(jí)字表,A級(jí)字表收錄3743個(gè)字,包括漢語通用字以及部分粵方言字。

自然語料采取發(fā)音人自由發(fā)揮的方式采集,分給定題目及不固定題目兩種。給定題目如“節(jié)日風(fēng)俗”“家鄉(xiāng)的美食”、“動(dòng)植物”等,只提供語料范圍,要求發(fā)音人用母語方言自由表述;不固定題目則不限制語料范圍,讓發(fā)音人隨時(shí)隨地錄制方言語料。在采集自然語料的過程中,要求發(fā)音人將對(duì)應(yīng)的語料用普通話同時(shí)錄制,以便后續(xù)的轉(zhuǎn)寫及歸檔。

二、語言檔案的采集及歸檔

(一)語料采集的功能軟件

東莞方言語料庫的建設(shè),采取功能軟件進(jìn)行語料收集工作。其中預(yù)設(shè)語料部分采取多模態(tài)采集,使用的功能軟件是由上海高校比較語言學(xué)E-研究院以及上海師范大學(xué)語言研究所潘悟云、李龍、韓夏等研發(fā)的“斐風(fēng)語言田野調(diào)查與分析系統(tǒng)”(版本2.1.2,以下簡稱“斐風(fēng)系統(tǒng)”)。斐風(fēng)系統(tǒng)具備語音轉(zhuǎn)寫及分析功能,有利于快速對(duì)預(yù)設(shè)語料進(jìn)行語音轉(zhuǎn)寫,并進(jìn)行語言學(xué)分析。同時(shí),在預(yù)設(shè)語料的采集過程中還需要進(jìn)行攝像,同步記錄語言材料發(fā)音過程的畫面。后期對(duì)語料的轉(zhuǎn)寫音標(biāo)、音頻、視頻等材料整理存檔,形成多模態(tài)方言語料庫。

自然語料則通過上海斯旁信息科技有限公司開發(fā)的智能手機(jī)應(yīng)用“錄音達(dá)人”來采集。自然語料的采集具有不確定性,往往有很大的隨機(jī)性和即興性,不受時(shí)間、空間等因素的制約,因此需要一款方便使用的功能軟件來采集,智能手機(jī)應(yīng)用可以滿足自然語料的即時(shí)錄制、逐條歸檔及網(wǎng)絡(luò)分享,能實(shí)現(xiàn)語料的碎片化采集。

(二)采集過程

東莞方言語料庫預(yù)設(shè)語料的采集采用多模態(tài)的采集方式,語音采錄使用ZOOM H4N PRO便攜式數(shù)字錄音機(jī)進(jìn)行錄音,采樣率為44100Hz。同時(shí)進(jìn)行視頻采錄,視頻采錄使用索尼HDR-CX450高清數(shù)碼攝像機(jī)在錄音的過程中進(jìn)行同步拍攝,后期根據(jù)語料條目進(jìn)行剪輯歸檔。語音及視頻的采錄均在舒適安靜的錄音房內(nèi)進(jìn)行。

自然語料的采錄具有較強(qiáng)的隨機(jī)性,因此自然語料的收集要求發(fā)音人在安靜的環(huán)境下通過智能手機(jī)APP自行進(jìn)行采錄,采錄完成后根據(jù)語料內(nèi)容對(duì)音頻文件命名,并逐條保存,再通過網(wǎng)絡(luò)轉(zhuǎn)發(fā)給語料采集人。

(三)語言檔案的整理歸檔

東莞方言語料庫的語料轉(zhuǎn)寫標(biāo)注,在語料采集后由經(jīng)過專業(yè)語言學(xué)田野調(diào)查訓(xùn)練的研究人員轉(zhuǎn)寫,并使用國際音標(biāo)進(jìn)行標(biāo)注。每一個(gè)預(yù)設(shè)語料條目都對(duì)應(yīng)漢字、國際音標(biāo)標(biāo)注、音頻片段、視頻片段,自然語料條目對(duì)應(yīng)漢字說明、國際音標(biāo)標(biāo)注以及音頻片段。東莞方言語料庫集語音、視頻、文字、國際音標(biāo)標(biāo)注于一體,使語料檢索、分析更加方便,有效提升了語料庫的使用效率。

三、碎片化方言語料庫的意義及應(yīng)用

基于碎片化信息采集的東莞方言語料庫,能有效地反映東莞不同鎮(zhèn)街的語言使用情況。同時(shí)為語言發(fā)展與變異研究提供更多的佐證語料。

(一)豐富了東莞方言語料采集內(nèi)容

本項(xiàng)目覆蓋了東莞不同鎮(zhèn)區(qū)、人群、職業(yè)的語言采集范圍,建立了發(fā)音人信息檔案庫、語音數(shù)據(jù)庫、圖像數(shù)據(jù)庫等,采集內(nèi)容體現(xiàn)出了東莞方言現(xiàn)狀,為東莞片區(qū)語言檔案的研究注入了新的素材和資源。

(二)創(chuàng)新了東莞方言語料采集方式

與傳統(tǒng)的采集方式不同,本項(xiàng)目突破了平面的紙質(zhì)文檔與單一的音頻匯總,采用音頻、視頻、文字一體化的采集方式,將采集內(nèi)容存儲(chǔ)于PC端,方便擴(kuò)大傳播范圍。以提高檢索效率為目標(biāo),本項(xiàng)目將每個(gè)標(biāo)注的文件按照詞義、詞性、場合分類,對(duì)標(biāo)注后的多模態(tài)語料進(jìn)行分別存儲(chǔ),并對(duì)其個(gè)性化命名。

(三)促進(jìn)東莞語言檔案資源的共享性與開放性

語言檔案資源共享性與開放性,是語言檔案資源利用的基礎(chǔ),是所有語言檔案建設(shè)項(xiàng)目的終極目標(biāo)。語言的發(fā)展離不開使用者的支持與使用,本項(xiàng)目在建設(shè)過程中,努力避免讓采集到的語言資源成為信息孤島,積極開發(fā)數(shù)據(jù)庫形式的網(wǎng)站,并予以公開。并聯(lián)系當(dāng)?shù)氐臋n案機(jī)構(gòu),積極推動(dòng)更多的語言檔案資源的收錄工作,豐富當(dāng)?shù)卣Z言存儲(chǔ)量。

東莞方言語料庫是地方文化建設(shè)的重要組成部分,在提升公眾語言保護(hù)意識(shí)、提升語言資源保護(hù)的針對(duì)性和指向性方面發(fā)揮了一定的影響力,同時(shí)也有助于學(xué)界及公眾對(duì)東莞方言現(xiàn)狀有更深刻的理解。

注釋:

(1)梁源,黃良喜.代表屬性:發(fā)音人的選擇和語料有效性[R].“第三屆中國地理語言學(xué)”國際學(xué)術(shù)研討會(huì),廣州:暨南大學(xué),2014年8月.

(2)湯志祥,陳永康.從單語區(qū)到多語區(qū)的歷史演變[C].人類語言學(xué)在中國:中國首屆人類語言學(xué)國際學(xué)術(shù)研討會(huì)論文集.戴昭銘主編,黑龍江:黑龍江人民出版社,2007:342-351.

參考文獻(xiàn):

[1]李榮.東莞方言詞典[M].南京:江蘇教育出出版社,1997.

[2]詹伯慧.廣東粵方言概要[M].廣州:暨南大學(xué)出版社,2003.

[3]張曉.基于功能軟件的網(wǎng)絡(luò)多模態(tài)語料庫建設(shè)[J].伊犁師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2018,12(04):59-64.

[4]黃立鶴.語料庫4.0:多模態(tài)語料庫建設(shè)及其應(yīng)用[J].解放軍外國語學(xué)院學(xué)報(bào),2015,38(03):1-7+48+161.

[5]姜曉娜.我國瀕危方言語料檔案建設(shè)研究[J].山西檔案,2018,(03):69-71.

猜你喜歡
信息采集語料庫方言
方嚴(yán)的方言
方言
《語料庫翻譯文體學(xué)》評(píng)介
說說方言
留住方言
如何提高卷煙零售市場信息采集的有效性
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語料庫語言學(xué)未來發(fā)展趨勢
阜阳市| 黄陵县| 新河县| 东台市| 镶黄旗| 安龙县| 开原市| 河北区| 全南县| 九龙县| 虎林市| 福州市| 巴青县| 诸暨市| 永川市| 普定县| 山阳县| 洪洞县| 崇文区| 富裕县| 博罗县| 丹寨县| 涞水县| 桂平市| 沧州市| 博兴县| 合山市| 太白县| 夏河县| 珲春市| 汝南县| 天门市| 博爱县| 泗阳县| 赫章县| 东方市| 安仁县| 句容市| 普兰县| 潍坊市| 华坪县|