鐘經(jīng)華,朱 琳,高 旭,徐洪妹
(1. 北京聯(lián)合大學(xué) 特殊教育學(xué)院, 北京 100075; 2. 中國(guó)盲文出版社,北京 100165;3. 上海盲童學(xué)校,上海 200336)
?
漢語(yǔ)盲文語(yǔ)料庫(kù)語(yǔ)料采集研究
鐘經(jīng)華1,朱 琳1,高 旭2,徐洪妹3
(1. 北京聯(lián)合大學(xué) 特殊教育學(xué)院, 北京 100075; 2. 中國(guó)盲文出版社,北京 100165;3. 上海盲童學(xué)校,上海 200336)
盲文語(yǔ)料庫(kù)建設(shè)在國(guó)內(nèi)外還沒(méi)有先例。為了建設(shè)多功能、綜合性的漢語(yǔ)盲文語(yǔ)料庫(kù),通過(guò)對(duì)現(xiàn)行盲文頒布60多年來(lái)的盲文出版物語(yǔ)料、非出版物語(yǔ)料以及盲人語(yǔ)料的采集,力圖涵蓋盲文使用的全貌。從語(yǔ)料調(diào)查、語(yǔ)料篩選、語(yǔ)料采集流程幾個(gè)方面闡述了盲文語(yǔ)料庫(kù)語(yǔ)料采集的主要內(nèi)容,并指出語(yǔ)料采集的重點(diǎn)難點(diǎn)問(wèn)題及應(yīng)對(duì)策略。
盲文; 語(yǔ)料庫(kù); 采集
漢語(yǔ)語(yǔ)料庫(kù)的建設(shè)始于20世紀(jì)七、八十年代,30多年來(lái),取得了豐碩成果,漢語(yǔ)語(yǔ)料庫(kù)已成為漢語(yǔ)研究、漢語(yǔ)教學(xué)、語(yǔ)言信息處理不可或缺的基礎(chǔ)性資源。近年來(lái),小語(yǔ)種語(yǔ)料庫(kù)建設(shè)也如火如荼地展開。2012、2013連續(xù)兩年,國(guó)家社科基金開創(chuàng)先河,先后部署了“基于漢語(yǔ)和部分少數(shù)民族語(yǔ)言的手語(yǔ)語(yǔ)料庫(kù)建設(shè)研究”和“漢語(yǔ)盲文語(yǔ)料庫(kù)建設(shè)研究”兩個(gè)重大項(xiàng)目,體現(xiàn)了國(guó)家對(duì)殘疾人語(yǔ)言文字基礎(chǔ)工程的高度重視。漢語(yǔ)盲文語(yǔ)料庫(kù)建設(shè)將在國(guó)際上填補(bǔ)盲文語(yǔ)料庫(kù)的空白。
由于我國(guó)大陸使用的現(xiàn)行盲文存在獨(dú)特的分詞連寫和標(biāo)調(diào)規(guī)則,使其不同于明眼人使用的漢語(yǔ)拼音,現(xiàn)行盲文基本具備了獨(dú)立的文字地位。因此漢語(yǔ)盲文研究無(wú)法直接使用漢語(yǔ)明眼文語(yǔ)料庫(kù),需要建設(shè)專門的盲文語(yǔ)料庫(kù)。漢語(yǔ)盲文語(yǔ)料庫(kù)是具有鮮明特色的漢語(yǔ)語(yǔ)料庫(kù),是漢語(yǔ)語(yǔ)料庫(kù)大家庭的重要成員之一。[1]
語(yǔ)料庫(kù)在建設(shè)過(guò)程中應(yīng)充分考慮語(yǔ)言使用的多樣性,應(yīng)廣泛抽取語(yǔ)料,盡量使所收集的語(yǔ)料能在統(tǒng)計(jì)上代表各種類型真實(shí)語(yǔ)言的使用面貌。[2]語(yǔ)料采集是語(yǔ)料庫(kù)建設(shè)的第一步,是決定語(yǔ)料庫(kù)的平衡性和代表性的關(guān)鍵因素,關(guān)系到語(yǔ)料庫(kù)的總體質(zhì)量和應(yīng)用價(jià)值。漢語(yǔ)盲文語(yǔ)料庫(kù)建設(shè)的目標(biāo)是建成包含1 000萬(wàn)方盲文,具有較高的平衡性和代表性,多層信息標(biāo)注,在盲文領(lǐng)域通用性好的盲文—拼音—漢字對(duì)照的專門型語(yǔ)料庫(kù)。[3]為保證盲文語(yǔ)料庫(kù)的建設(shè)規(guī)模,語(yǔ)料采集數(shù)量應(yīng)當(dāng)增加10%左右的冗余,因此語(yǔ)料采集總規(guī)模應(yīng)超過(guò)1 100萬(wàn)方盲文。
漢語(yǔ)盲文語(yǔ)料庫(kù)的樣本應(yīng)包括自現(xiàn)行盲文頒布60多年來(lái)的盲文出版物、非出版物及盲人語(yǔ)料,要盡可能涵蓋盲文使用的全貌。語(yǔ)料采集之前需要對(duì)盲文語(yǔ)料的種類、分布做全面詳實(shí)的調(diào)查。由于盲文語(yǔ)料的特殊性,調(diào)查過(guò)程應(yīng)分為出版物盲文語(yǔ)料、非出版物語(yǔ)料以及盲人語(yǔ)料三大類逐一展開。
2.1 出版物盲文語(yǔ)料調(diào)查
盲文出版是中國(guó)出版業(yè)的盲區(qū)[4],盲文出版物的品種和數(shù)量都不足,盲文出版物發(fā)行渠道不暢[5]。漢語(yǔ)圖書只有極少部分被翻譯成盲文。盲文出版機(jī)構(gòu)少,中國(guó)大陸的盲文出版物僅來(lái)自中國(guó)盲文出版社、上海盲校盲文印刷廠。對(duì)這兩家單位的盲文出版情況進(jìn)行調(diào)研,可以獲得盲文出版物的第一手資料。
根據(jù)《中國(guó)盲文出版社出版物分類統(tǒng)計(jì)目錄》,自1953年現(xiàn)行盲文頒布至2015年底,中國(guó)盲文出版社翻譯出版的盲文讀物有5 217種,除少量無(wú)法歸類的圖書外,各類別盲文出版物占盲文總出版物的比例如下:文學(xué)類和醫(yī)藥衛(wèi)生類的圖書品種最多,分別占25.1%和21%,政治類占12.9%,文教體育和教材教輔各占12%,歷史地理占5.5%,科技、法律、哲學(xué)所占比例較小,依次是3.4%、3.2%、3%。中國(guó)盲文出版社出版的盲文圖書中,醫(yī)藥衛(wèi)生類圖書所占比例較大,反映了盲人集中從事中醫(yī)按摩的職業(yè)現(xiàn)象。而自然科學(xué)讀物的比例較小,與盲文表達(dá)圖表、公式的局限有關(guān)。
上海盲校盲文印刷廠一直為全國(guó)盲校制作義務(wù)教育盲文教材及練習(xí)冊(cè),因此義務(wù)教育的課程設(shè)置及學(xué)生數(shù)量決定了盲文印刷廠出版的教材種類和數(shù)量。2015學(xué)年上海盲校盲文印刷廠發(fā)行盲文教材及練習(xí)冊(cè)112種,共計(jì)7萬(wàn)余冊(cè)。在教材語(yǔ)料采集中,為了提高盲文語(yǔ)料庫(kù)的平衡性和代表性,根據(jù)學(xué)科特點(diǎn)進(jìn)行篩選,比如英語(yǔ)、音樂(lè)兩門學(xué)科中漢語(yǔ)盲文的比重特別小,不予采集。數(shù)理化學(xué)科的盲文教材包含大量公式、表格、化學(xué)方程式等與標(biāo)調(diào)、分詞連寫無(wú)關(guān)的內(nèi)容,采集時(shí)要盡量回避。
2.2 非出版物盲文語(yǔ)料和盲人語(yǔ)料調(diào)查
非出版物語(yǔ)料是指經(jīng)過(guò)校對(duì)、有批量復(fù)本的盲文語(yǔ)料。主要包括較大規(guī)模的、設(shè)有資源中心的盲校(特殊教育學(xué)院)制作的盲文試卷、講義、教材等,也包括盲人福利廠和大型按摩院的規(guī)章制度、業(yè)務(wù)培訓(xùn)等盲文資料。這些語(yǔ)料能夠反映盲文的實(shí)際使用情況,為研究非專業(yè)出版人員翻譯制作的漢語(yǔ)盲文提供第一手資料。
盲人語(yǔ)料是完成義務(wù)教育且使用盲文3年以上的盲人自然書寫、未經(jīng)校對(duì)、沒(méi)有復(fù)本、供他人閱讀的盲文語(yǔ)料。例如:答卷、作文、投稿等。通過(guò)盲人語(yǔ)料考察盲人的詞匯搭配,主要是分詞連寫、標(biāo)調(diào)等情況;考察不同方言區(qū)盲人標(biāo)調(diào)的情況。盲人寫給自己的盲文資料,如筆記、日記等,一方面可能存在隱私問(wèn)題,另一方面可能包含自己的簡(jiǎn)寫、速記符號(hào),他人的可讀性差,甚至無(wú)法機(jī)讀,因此盲人自讀的盲文語(yǔ)料不在采集范圍內(nèi)。
非出版物語(yǔ)料和盲人語(yǔ)料需要進(jìn)行田野調(diào)查、訪談,調(diào)研語(yǔ)料的存放地,明眼文原文是否保存完好,以及是否有電子版等相關(guān)信息。
盲文語(yǔ)料的平衡性和樣本的代表性,關(guān)系到盲文語(yǔ)料庫(kù)建設(shè)的科學(xué)性、學(xué)術(shù)性和應(yīng)用價(jià)值。漢語(yǔ)盲文語(yǔ)料庫(kù)參考國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)的選材原則,將時(shí)間、學(xué)科、媒體作為3個(gè)平衡因子[6],并根據(jù)出版物、非出版物和盲人語(yǔ)料的不同類別有所調(diào)整。
3.1 正式出版物語(yǔ)料的平衡性
正式出版物盲文語(yǔ)料的時(shí)間分布:以上世紀(jì)五十年代現(xiàn)行盲文方案出臺(tái)為起點(diǎn),按照盲文出版中重要事件為節(jié)點(diǎn)劃分,大致分3個(gè)時(shí)間段:第一階段(1953—1982年)盲文分詞連寫規(guī)則形成;第二階段(1983—1995年)盲文分詞連寫規(guī)則成熟;第三階段(1996—2017年)盲文國(guó)家標(biāo)準(zhǔn)頒布、盲文活字印刷開始。
盲文由于閱讀對(duì)象的特殊性導(dǎo)致出版物的學(xué)科分布也具有鮮明特色。盲文語(yǔ)料學(xué)科分類參考了國(guó)家圖書館分類目錄和國(guó)家語(yǔ)委現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)的分類[6],簡(jiǎn)化為:政治、文學(xué)、文科綜合、醫(yī)學(xué)、理科綜合和其他六大類。由于盲文出版物中文學(xué)(25.1%)和醫(yī)學(xué)(21%)所占比例特別大,使其獨(dú)立成類,不隸屬于文科綜合和理科綜合。
盲文出版物的媒體形式主要有教材、圖書、期刊3種。其中圖書的比例最大;在教材方面,義務(wù)教育階段的盲文教材是上海盲校盲文印刷廠的優(yōu)勢(shì)領(lǐng)域,高中以上教材教輔以中國(guó)盲文出版社為主;盲文期刊比例很小,繁榮時(shí)有十多種,目前除《盲人月刊》外,多數(shù)已經(jīng)???。
3.2 非正式出版物及盲人語(yǔ)料的平衡性
非正式出版物及盲人語(yǔ)料的平衡性面臨很多挑戰(zhàn)。由于非正式出版物及盲人語(yǔ)料保存的特殊困難,歷時(shí)平衡難以達(dá)到理想狀態(tài),很難確定平衡因子。尤其是社會(huì)成年盲人的語(yǔ)料,能夠收集到就很困難,共時(shí)平衡難度很大。在可能的情況下,減少對(duì)語(yǔ)料富裕地區(qū)的采集,對(duì)語(yǔ)料貧乏地區(qū)卻無(wú)能為力,只能追求盲人語(yǔ)料的相對(duì)平衡性和代表性。
為提高語(yǔ)料庫(kù)樣本的代表性,使盲文語(yǔ)料盡量反映1953年現(xiàn)行盲文方案實(shí)施以來(lái)漢語(yǔ)盲文實(shí)際使用的全貌,語(yǔ)料樣本的采集要遵循以下原則。
4.1 近期為主、早期為輔的原則
近期為主是語(yǔ)料庫(kù)采集的通行原則,體現(xiàn)了語(yǔ)料庫(kù)建設(shè)立足現(xiàn)在、兼顧過(guò)去、面向未來(lái)的根本宗旨。漢語(yǔ)盲文語(yǔ)料庫(kù)采集的主體是1996年以后的語(yǔ)料(盲文國(guó)家標(biāo)準(zhǔn)頒行后)約占70%,早期語(yǔ)料不等比例遞減。
4.2 正式出版物為主、其他語(yǔ)料為輔的原則
語(yǔ)料樣本的選取以正式出版物為主、其他語(yǔ)料為輔。正式出版物占85%左右,非出版物和盲人語(yǔ)料占15%左右。正式出版物語(yǔ)料的選取以圖書、教材為主,期刊雜志為輔。圖書以中國(guó)盲文出版社為主,教材以上海盲文印刷廠為主。非出版物語(yǔ)料的選取以盲校(試題、講義、校本教材)為主,高校、盲人按摩院等其他單位為輔。盲人語(yǔ)料以在校高中以上盲生為主,社會(huì)盲人為輔。
4.3 現(xiàn)實(shí)可能為主、理論完備為輔的原則
非出版物和盲人語(yǔ)料的收集無(wú)法按照理想的理論模型去實(shí)現(xiàn),只能在現(xiàn)實(shí)允許的前提下,力求達(dá)到理論上的完備。比如盲人語(yǔ)料采集的時(shí)間維度很難按照理論模型執(zhí)行。很少有盲生長(zhǎng)期保留作文本,因此只能在現(xiàn)實(shí)條件下,盡量提高盲文語(yǔ)料的代表性。
盲文語(yǔ)料庫(kù)的語(yǔ)料采集包括元數(shù)據(jù)采集、盲文出版物語(yǔ)料采集和漢語(yǔ)原文語(yǔ)料采集、非出版物盲文語(yǔ)料采集、盲人語(yǔ)料采集等。
5.1 元數(shù)據(jù)采集
正式出版物盲文語(yǔ)料元數(shù)據(jù)的采集參照“信息技術(shù)元數(shù)據(jù)的規(guī)范與標(biāo)準(zhǔn)化”系列6個(gè)國(guó)家標(biāo)準(zhǔn)[7],對(duì)語(yǔ)料類別、樣本名稱、作者信息、寫作時(shí)間、書刊名稱、編著者、出版者、出版日期、期號(hào)(版面號(hào))、版次(初版日期)、印冊(cè)數(shù)、總頁(yè)數(shù)、開本、樣本、起止頁(yè)數(shù)、樣本字?jǐn)?shù)、樣本總數(shù)等篇頭元數(shù)據(jù)進(jìn)行采集。
非出版物盲文語(yǔ)料元數(shù)據(jù)采集參照出版物執(zhí)行,簡(jiǎn)化掉不適合的項(xiàng)目。語(yǔ)料生成單位相當(dāng)于出版者,編著者可以空缺,語(yǔ)料類別主要分為試卷、講義、教材、公文等。
盲人語(yǔ)料的元數(shù)據(jù)包括作者姓名(可以化名)、地域、語(yǔ)料形成時(shí)間,以及語(yǔ)料形成時(shí)作者的年齡、學(xué)歷、職業(yè)等,語(yǔ)料類別主要包括答卷、作文、投稿等。
5.2 盲文出版物語(yǔ)料采集
盲文出版物語(yǔ)料采集包括盲文語(yǔ)料和漢語(yǔ)原文語(yǔ)料兩部分語(yǔ)料的采集。二者的采集流程基本一致。
5.2.1 盲文語(yǔ)料采集
1995年以前,大陸一直采用雕版(非活字)盲文印刷工藝,沒(méi)有電子版盲文,這部分盲文需要通過(guò)掃描轉(zhuǎn)換(或人工錄入)為電子版再進(jìn)行采集。1995年以后,中國(guó)盲文出版社、上海盲校盲文印刷廠先后引入了盲文電子制版系統(tǒng),為高效采集盲文語(yǔ)料提供了便捷條件。盲文語(yǔ)料采集由中國(guó)盲文出版社和上海盲校盲文印刷廠兩家盲文出版單位的采集子課題成員負(fù)責(zé),就地采集各自單位的盲文出版物語(yǔ)料,具體采集流程如圖1所示。
5.2.2 漢語(yǔ)原文語(yǔ)料采集
我國(guó)盲人作者的盲文稿成書出版的比例很小,盲文出版物絕大多數(shù)是由漢語(yǔ)出版物翻譯而來(lái)。翻譯過(guò)程基本上是對(duì)照漢語(yǔ)原文直接手工錄入盲文符號(hào),而不是由計(jì)算機(jī)自動(dòng)生成。凡是由漢語(yǔ)原文翻譯成盲文的,都要采集漢語(yǔ)原文。由于盲文出版單位很少保有漢語(yǔ)原文的電子版,漢語(yǔ)原文的采集對(duì)象主要是紙質(zhì)版語(yǔ)料,其采集流程與盲文語(yǔ)料的采集流程基本一致。
5.3 非出版物盲文語(yǔ)料采集
一般語(yǔ)料庫(kù)通常不采集非出版物語(yǔ)料。由于盲文正式出版物的數(shù)量極少,來(lái)源只有兩個(gè)盲文出版單位。由于盲文的特殊性,很難建設(shè)更多專項(xiàng)的盲文語(yǔ)料庫(kù)。漢語(yǔ)盲文語(yǔ)料庫(kù)作為綜合性多功能的盲文語(yǔ)料庫(kù),應(yīng)盡可能反映我國(guó)盲文使用狀況的全貌,語(yǔ)料類型應(yīng)盡可能豐富。
對(duì)較大規(guī)模的盲校(特殊教育學(xué)院)、盲人按摩院、盲人協(xié)會(huì)等單位進(jìn)行動(dòng)員,宣傳盲文語(yǔ)料庫(kù)建設(shè)對(duì)盲人文化發(fā)展、盲文研究、盲文教學(xué)、盲文信息化的意義,號(hào)召他們將其保有的盲文語(yǔ)料貢獻(xiàn)給盲文語(yǔ)料庫(kù)(原件返還)。具體采集過(guò)程由采集子課題組完成。
非出版物語(yǔ)料采集的關(guān)鍵是發(fā)現(xiàn)各方言區(qū)盲校、盲協(xié)、盲人按摩院的語(yǔ)料來(lái)源,因?yàn)檎Z(yǔ)料的總量少、變體少,采集難度相對(duì)較小。
5.4 盲人語(yǔ)料采集
盲人語(yǔ)料的采集是了解盲人語(yǔ)言生活狀況不可或缺的重要方面。盲人語(yǔ)料不能隨機(jī)抽樣,必須
經(jīng)過(guò)評(píng)估達(dá)到篩選的基本標(biāo)準(zhǔn)才能采集。首先對(duì)盲人語(yǔ)料進(jìn)行外觀初篩,對(duì)過(guò)于零散或保存不善無(wú)法辨識(shí)的直接淘汰,對(duì)符合外觀標(biāo)準(zhǔn)的盲人語(yǔ)料進(jìn)行復(fù)核和修校。修校盲人語(yǔ)料是一項(xiàng)棘手的工作,既要保持盲人語(yǔ)料的原貌,又要修校筆誤、因保存原因造成的丟點(diǎn)現(xiàn)象,以便更真實(shí)地反映盲人寫作的實(shí)際。盲人語(yǔ)料的評(píng)估篩選要把握好尺度,盡量做到寬嚴(yán)適度,標(biāo)準(zhǔn)放的過(guò)寬會(huì)造成后期標(biāo)注加工困難,標(biāo)準(zhǔn)把握過(guò)嚴(yán)又會(huì)造成大量語(yǔ)料流失。如果經(jīng)過(guò)修校還無(wú)法機(jī)讀的語(yǔ)料,要進(jìn)行二次淘汰。
盲人語(yǔ)料的采集對(duì)象包括在校盲生和社會(huì)盲人。在校盲生分布在各個(gè)學(xué)校,語(yǔ)料采集較容易,而社會(huì)盲人比較分散,語(yǔ)料采集難度較大。社會(huì)盲人語(yǔ)料采集主要依靠各級(jí)盲人協(xié)會(huì),采用滾雪球抽樣的方式進(jìn)行,具體采集流程如圖2所示。
盲人語(yǔ)料的采集對(duì)記錄盲文的發(fā)展變化、盲文的實(shí)際使用狀況有很高的價(jià)值,有助于研究不同階段盲人的標(biāo)調(diào)情況,分詞連寫情況(盲校沒(méi)有分詞連寫的教學(xué)內(nèi)容),研究普通盲人對(duì)盲文國(guó)家標(biāo)準(zhǔn)的執(zhí)行情況,研究盲人語(yǔ)料、出版物、非出版物語(yǔ)料三者之間的差異。
采集盲人鮮活的語(yǔ)言進(jìn)入盲文語(yǔ)料庫(kù),將盲人語(yǔ)料納入盲文本體研究是盲文語(yǔ)料庫(kù)建設(shè)的一個(gè)創(chuàng)新之處。
[1] 鐘經(jīng)華,肖航,韓萍,等.漢語(yǔ)盲文的升級(jí)之路[J].中國(guó)特殊教育,2014(10):46-50.
[2] Biber D. Representativeness in Corpus Design[J].Literary and Linguistics Computing,1993(6):37-45.
[3] 肖航,鐘經(jīng)華.漢語(yǔ)盲文語(yǔ)料庫(kù)建設(shè)方案[J].語(yǔ)言文字應(yīng)用,2015(8):109-118.
[4] 侯夷. 盲文出版物——中國(guó)出版業(yè)的盲區(qū)[J]. 中國(guó)出版,2005(11):30-32.
[5] 張映娣,張小慰.我國(guó)盲文讀物出版及使用回顧與思考[J].中國(guó)出版,2006(3):21-23.
[6] 劉連元. 現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)研制[J].語(yǔ)言文字應(yīng)用,1996(3):2-9.
[7] 中華人民共和國(guó)國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局.GB/T 18391.1-2009信息技術(shù)元數(shù)據(jù)注冊(cè)系統(tǒng)(MDR)[S]. 北京:中國(guó)標(biāo)準(zhǔn)出版社,2009.
(責(zé)任編輯 柴 智)
Study on Linguistic Material Collection of the Chinese Braille Corpus
ZHONG Jing-hua1,ZHU Lin1,GAO Xu2,XU Hong-mei3
(1.Special Education College, Beijing Union University, Beijing 10075, China; 2. China Braille Press, Beijing 100165, China; 3. Shanghai School for the Blind, Shanghai 200336, China)
The construction of Braille corpus is the first at home and abroad. We try to build a corpus of Chinese Braille multi-functional and comprehensive, which covering the whole using Braille. We studies word corpus of Braille publication, informal Braille publication and word corpus of the Blind since the promulgation of the current Chinese Braille. This paper explains linguistic material collection in terms of material investigation、selection and collection,and points out important and difficult issues in linguistic material collection process.
Braille; Corpus; Linguistic Material Collection
10.16255/j.cnki.ldxbz.2016.04.014
2016-07-11
國(guó)家社科基金重大項(xiàng)目“漢語(yǔ)盲文語(yǔ)料庫(kù)建設(shè)研究”(13&ZD187)。
鐘經(jīng)華(1962—),男,山東昌樂(lè)人,北京聯(lián)合大學(xué)特殊教育學(xué)院教授,主要研究方向?yàn)槊と私逃懊の难芯?。E-mail:zhongjinghua@buu.edu.cn
H 126.2
A
1005- 0310(2016)04- 0078- 05