許 晉 賈徐維
(內(nèi)蒙古大學,內(nèi)蒙古 呼和浩特 010070)
嶄新的“數(shù)字原生代”已經(jīng)在電腦,iPad和手機的陪伴下逐漸成長起來[1]?!敖ㄔO網(wǎng)絡強國、數(shù)字中國、智慧社會,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實體經(jīng)濟深度融合”是新時代的發(fā)展藍圖。利用網(wǎng)絡進行傳播的方式,已經(jīng)對社會風氣有潛移默化的影響,同時也發(fā)揮出教化育人的作用。中華多民族諺語浩如煙海,呈現(xiàn)出多樣態(tài)、多語種、多特性的總特點 。“數(shù)字人文”學科,就是將現(xiàn)代計算機技術、電子技術、網(wǎng)絡技術等應用到傳統(tǒng)人文學科中,例如:文學、歷史學、考古學等。這種應用在若干年前的人文學科研究中幾乎是無法想象的。古籍數(shù)字化作為采用電子信息技術對古籍文獻進行加工、處理,以揭示古籍文獻信息資源的系統(tǒng)工程,其文獻資源同樣涵蓋古代文學、文獻學、歷史學、考古學以及藝術學等等。[2]自20世紀90年代以來,以信息技術為代表的數(shù)字化技術被逐漸應用于各個領域,在取得了矚目的成就之后,數(shù)字化也作為文化遺產(chǎn)的保護手段得到了各國的高度重視。近幾年,在中國,非物質文化遺產(chǎn)數(shù)字化的保護手段也因此備受追捧。[3]
數(shù)字化是一種能夠讓諺語得以更好地傳承和發(fā)揚的新途徑,主要是采用數(shù)字錄入、數(shù)字保存、數(shù)字整理、數(shù)字展示、數(shù)字傳播等方式,將現(xiàn)存的已經(jīng)收集到的諺語轉換成一種可共享和可再生的數(shù)字形態(tài),進而以新的視角進行解讀,以新的方式進行保存,以新的需要進行利用。建立數(shù)字化存儲方式,對于多民族諺語辭書的整理與研究,探索挖掘和保護中華多民族諺語,尤其是瀕危語言諺語保護,會有很科學的改善。全球化、信息化時代的傳播戰(zhàn)略迫使我們必須以高遠的眼光來認識中華諺語辭書整理過程中遇到的問題,新時代的研究者理應積極投身這一恢宏的技術轉型之中,為文化傳播手段的升級去開拓創(chuàng)新。
從社會發(fā)展史看,人類正在經(jīng)歷第三次工業(yè)革命,對于辭書保護而言,數(shù)字化手段能加速其發(fā)展。諺語是民族智慧的結晶,也是一個民族語言的精華。中華多民族諺語是中華各民族諺語系統(tǒng)的集合,是中華各民族祖祖輩輩流傳下來的重要文化資源和精神財富。對中華諺語的整理,數(shù)字化和標準化顯得尤為重要。
首先,中華諺語圖書種類相當豐富。在20世紀上半葉,我國對于地域性諺語的搜集成果豐富,“五四”之后,諺語的采集還形成了跨省的蜂起規(guī)模。據(jù)統(tǒng)計,這一階段各省出版的諺語書籍加起來至少三四十種。新中國成立后諺語采集和諺書編纂工作有了新的開拓:從單類集子到綜合選編;從一般列舉到分類詮釋;從古諺尋源到今諺集錦;從漢族諺語薈萃到各族諺語乃至中外合璧;從個人搜集遴選到國家普查集成,諺語編纂工作規(guī)??涨埃〉瞄L足進步。如《中國諺語資料》(1961)共收諺語45800余條,是五六十年代具有全國性的大型資料選本,對國內(nèi)各兄弟民族間的文化交流具有重要意義和價值。20世紀50年代,中國加強對民族問題的調(diào)查研究,對國內(nèi)各少數(shù)民族的歷史、語言、社會、文化、風俗習慣等進行了比較廣泛的調(diào)查,積累了大量資料。此后20年間,少數(shù)民族諺語的搜集與出版成效顯著,其中蒙古語、維吾爾語諺語集最為突出。50年代后,各地氣象部門及研究機構重視氣象諺語的調(diào)查,出版大量反映各地氣候變化規(guī)律和經(jīng)驗的氣象諺語圖書。同時農(nóng)諺的采集整理也頗受重視。20世紀70~80年代,社會諺語采集編纂增多,這一時期最值得一提的是《中國諺語集成》,對我國各地各族、各行各業(yè)、古往今來的諺語資源進行普查,共采錄到大約385萬余條諺語,可以說是“集”我國古今諺語采集之大“成”。
其次,中華諺語傳承中華傳統(tǒng)語言文化,通過數(shù)字化和標準化整理諺語這種方式,建立大型的數(shù)據(jù)庫,能夠推進傳統(tǒng)文化的研究進程。一個國家對于文化的保護,決定了這個國家文化財產(chǎn)的豐富程度。數(shù)字化是延續(xù)民族文化的重要手段。一個民族的文化精神可以說是一個民族生存下去的理由和靈魂,對傳統(tǒng)的揚棄,決定著這個民族文化精神的統(tǒng)一性、傳承性和創(chuàng)新性。當前,我國提倡“文化自信”,要實現(xiàn)中華民族偉大復興,既需要的是對于中華文化的繼承和發(fā)揚,也是以信息技術為代表的新一輪科技和產(chǎn)業(yè)革命。另一方面,將諺語辭書進行標準化和數(shù)字化的整理,能夠形成全方位多層次的知識體系,數(shù)據(jù)庫的建設能夠使諺語傳承更加開放和多元,用戶能夠查詢到更多的信息,方便進行語料分析,為學術研究拓展一片新領域。同時也改變大眾查閱圖書的方式,研究者可以用移動硬盤來存儲,也可以隨時隨地查閱互聯(lián)網(wǎng)上豐富的資源和世界各大圖書館的藏書。這樣的閱讀和檢索方式,無論是對研究人員抑或是讀者而言,都具有劃時代的意義。標準化和數(shù)字化的諺語辭書整理,也為全球華人,為學術界提供良工利器,提供了更貼近現(xiàn)代學術的典籍資源,與學術界互動,推進傳統(tǒng)文化的現(xiàn)代化進程。通過對傳統(tǒng)文化的深入了解與接觸,能夠增強我們的民族自尊心和對本族文化的自信心,取其精華棄其糟粕,彌合文化的斷層,增強民族凝聚力,使中國傳統(tǒng)文化獲得健康的發(fā)展,推進社會的穩(wěn)定與和諧進步。[4]
第三,數(shù)字化存儲的更新能力強且存儲規(guī)模大。借助數(shù)字化手段來保護文化,不是一次性的工程,而是后續(xù)仍可以不斷進行更新和修改。對于中華諺語辭書的整理和保護,市場上有很多大型的相關書籍。就我們?nèi)粘9ぷ骱蛯W習而言,攜帶大量的圖書對于一個研究者來說是很不方便的。數(shù)字形式的內(nèi)容多種多樣,可以自由轉換,可以在任何設備上進行存儲。另外,數(shù)字內(nèi)容也可以進行壓縮。這樣就可以在一個很小的設備上裝大量的內(nèi)容。相比傳統(tǒng)紙質辭書出版,利用數(shù)字化辭書整理可以有效地進行修改和更新,及時對于新發(fā)現(xiàn)的內(nèi)容進行補充,亦可對于后期發(fā)現(xiàn)的問題進行修改。中華民族的傳統(tǒng)文化珍寶不勝枚舉,規(guī)模的限制也影響了研究的深入,采用數(shù)字化辭書整理則可以在規(guī)模上進行新的突破。
中華諺語整理旨在為中華多民族文化視域下探索各民族諺語的關聯(lián)性、差異性和互補性提供基礎資源,采用計算語言學、語料庫語言學視角研究中華多民族諺語具有一定的開創(chuàng)性,已具較高的前瞻性和開創(chuàng)性。中華諺語的數(shù)字化標準化整理主要為實現(xiàn)以下兩方面的內(nèi)容:其一為建立一個相對全面、實用、科學的、可持續(xù)增長的中華多民族諺語數(shù)據(jù)庫,即通過搜集、整理和數(shù)字化開發(fā)中華多民族常用諺語語料,采用人機互助方法實現(xiàn)諺語知識信息標注工作,構建包括漢、蒙、藏、維、哈、朝等24個語種的常用諺語語料庫和典藏庫。其二為研發(fā)便捷、友好、功能較全、網(wǎng)絡版諺語檢索系統(tǒng),基于學習、查詢和檢索諺語的理念進行開發(fā)和制作,以廣大用戶作為軟件設計的出發(fā)點,參照已建立的諺語語料庫以及相關標準、規(guī)范數(shù)據(jù)編制;將漢、蒙、藏、維、哈、朝等多民族諺語語料庫集成到統(tǒng)一平臺上,實現(xiàn)其多維度、多方面檢索以提供互聯(lián)網(wǎng)公眾服務。
上述工作總體來說需要經(jīng)過兩個步驟:第一步,按照科學、統(tǒng)一的規(guī)劃,大規(guī)模調(diào)查、搜集當代中國漢語、少數(shù)民族諺語語料,予以科學整理、加工和有效保存以實現(xiàn)其初步數(shù)字化過程和語料匯聚,以備處理,這是實現(xiàn)諺語整理數(shù)字化的基礎工程,也是一項重點內(nèi)容。第二步,基于上述搜集和整理語料,以數(shù)據(jù)庫格式針對不同語種設置不同分支庫,以不同屬性字段及其取值刻畫每一個語種諺語。該語料庫是在忠實于原語言材料的原則下構建,表述每一個不同語言單位的不同語義、文化、語用屬性。中華民族的諺語涉及眾多民族,建立數(shù)據(jù)庫時也可進行分類,例如漢、蒙、藏、維、哈、朝等民族,由于其文本資料較充足,可以設立單一民族諺語庫,其余則合并設立多民族諺語庫,能夠在一定程度上減少工作量。
1.要實現(xiàn)多語種平臺的建設
不同的語言要放在同一個數(shù)據(jù)庫中,能否讓讀者看懂并能夠在實際中應用就是最關鍵的問題。通過田野調(diào)查、在線采集、文本轉換、人工錄入等多種途徑搜集和整理涵蓋漢、蒙、藏、維、哈、朝等多語種的常用諺語語料數(shù)據(jù),包括其紙質版本和文本、圖形庫、數(shù)據(jù)庫等電子版本,經(jīng)過分類、編號、錄入、編碼轉換、校對等步驟獲取大型語料庫詞條;運用計算語言學學術界廣泛使用的屬性描述方法建庫,各個分庫之間通過“義類”“讀音(國際音標)”“翻譯”等屬性字段實現(xiàn)相互鏈接。每一個數(shù)據(jù)庫中初步設置七個屬性字段,需要相關研發(fā)人員填充相應的屬性取值。屬性字段即設定為“編號” “諺語詞條”“讀音(國際音標)”“義類”“釋義” “漢文翻譯” “文化主題描述”?!熬幪枴比≈禐榘⒗當?shù)字,隨著填充諺語詞條自動生成,表示當前數(shù)據(jù)庫中收錄的諺語詞條的總數(shù)量即諺語數(shù)據(jù)規(guī)模。“諺語詞條”使用本民族文字填充,先考慮收錄本民族最為常用的諺語詞條,以便滿足用戶能夠查詢或檢索常用諺語信息需求?!白x音”屬性取值為短文本或長文本,填充當前諺語讀音的國際音標形式,以便將來各個數(shù)據(jù)庫通過該屬性字段相關鏈接或諺語檢索平臺研發(fā)中實現(xiàn)以“讀音查詢”檢索功能?!傲x類”屬性取值完全依賴于每個少數(shù)民族諺語的義類相關理論研究成果,預期假設為每種語言均有其諺語義類體系?!搬屃x”填充當前諺語最為簡單易懂的意義。紙質版諺語工具書有的釋義較長并繁瑣,其中我們抽取當前釋義的若干個核心詞語或短語高度簡單地概括釋義不但能夠避開版權糾紛問題,也能讓用戶很容易理解或掌握該諺語意義?!皾h文翻譯”屬性取值是漢語文本,填充當前諺語的相應漢文翻譯結果,并且不同的每一個翻譯結果之間用“;”隔開。“文化主題描述”是針對各民族諺語文化研究領域設定的,填充當前諺語所表示的文化主題信息。
2. 要進行多項檢索功能的建設
為了高效利用和科學查詢諺語語料,搭建公眾服務系統(tǒng),運用編程開發(fā)網(wǎng)絡版諺語檢索軟件,為用戶提供高效快捷查詢、反饋學習和搜索結果的便利工具——“中華多民族諺語語料檢索軟件”。該軟件以上述諸多語種語料作為后臺數(shù)據(jù)庫,由漢語、蒙古語、藏語、維吾爾語等若干個不同諺語語料庫模塊組成,將其集成在統(tǒng)一管理平臺上;其中每一項語種模塊均具有按 “字母順序”“讀音(國際音標)”“關鍵詞”“各類屬性”查詢等諸多檢索功能,以便用戶根據(jù)不同需求獲取不同諺語知識。通過上述檢索功能,用戶最終可獲取可查目標諺語的“讀音”“釋義”“語義”“文化主題描述”等各種知識,這就保證使用者能夠從不同層次來了解和學習中華諺語。中華諺語的數(shù)字化標準化建設,為適應專業(yè)研究者的需求,在以往數(shù)據(jù)庫的經(jīng)驗上做出相應的創(chuàng)新,能實現(xiàn)多元檢索、關聯(lián)檢索、動態(tài)檢索。多項檢索功能能夠在學習和研究過程中排除冗余信息的干擾,快速準確地深入研究對象和研究資料。眾所周知,每個人的時間和精力都是有限的。在過去的研究項目中,檢索資料要浪費大量的人力物力,這些問題都將通過本系統(tǒng)進行解決。
對于語料較多的一些少數(shù)民族諺語,如蒙古族諺語、藏族諺語、維吾爾族諺語等,建立數(shù)據(jù)庫是相對較容易的。但是對于一些小語種,就會在建庫過程中產(chǎn)生很多難題,例如少數(shù)民族語言翻譯成漢語的標準化問題及編碼的標準和規(guī)范問題,在漢語、蒙古語、藏語、維吾爾語等文種的編碼過程中有國家標準和通用規(guī)范,而一些少數(shù)民族的諺語目前還沒有明確的規(guī)范。另外,不同的少數(shù)民族所流傳的諺語可能出現(xiàn)重復,在整理和標記過程中如何去進行民族、語言的歸屬;小語種口頭流傳但還沒有文字記錄的諺語的補充問題;小語種研究人員較少,研究者對于諺語的熟悉程度等等。這些都是在建設數(shù)據(jù)庫的過程中應該考慮到的,否則后續(xù)實踐的過程中,必然會出現(xiàn)更多的困惑。為避免此類問題影響到建庫的進程,在前期進行諺語的收集過程中要先就相關辭書、著作等前人研究成果中的基礎理論依據(jù)和各民族諺語前期研究成果相關劃分體系及其標記集作為技術標準。而對于一些少數(shù)民族諺語的古籍,既要對其進行整理和修繕,更重要的是弘揚和傳播古籍所記錄的優(yōu)秀文化和精神。讓專家學者以外的普通群眾也能學習及繼承本民族曾經(jīng)創(chuàng)造的輝煌文化,以增強其民族自信心和自豪感。因此,在保護的同時要考慮對其進行有效的開發(fā)與利用。
王寧先生已經(jīng)明確指出,古籍是用文字記錄下來的書面語言,所謂保留原貌,首先是保留原作品的語言事實。特殊需要時,也要保存字的原形。[5]對于中華多民族諺語的數(shù)字化而言,整理只是一種手段,保留其內(nèi)容的真實和正確才是目的。古人強調(diào),“書非校不能讀也”,在傳統(tǒng)紙質書中是這樣的要求,那么在數(shù)據(jù)庫的建立過程中也應遵循此準則。??本褪浅醪降恼砉ぷ鳌U淼哪康氖菫榱擞行У叵炚`,方便閱讀。首先要進行字形整理。由于漢字異體眾多,目前對異體字的歸并尚沒有統(tǒng)一的標準,尤其是古諺流傳至今,字形標準化更需要重點注意。整理字形的工作,已經(jīng)成為影響數(shù)字化工作的“瓶頸”。其次,一些內(nèi)容在收集過程中會出現(xiàn)書目破損或者某些篇章頁目內(nèi)容不全的問題,少數(shù)民族的諺語中也會出現(xiàn)此類難題,使校勘整理工作量增大。出現(xiàn)此類問題要和本民族研究人員去共同進行校勘和整理,以推進建庫工作。
各民族的諺語,負載著厚重的中華民族文明,凝聚著民族智慧,是祖先留給我們的一筆龐大的精神遺產(chǎn)。傳承文明是時代賦予我們每一個研究者義不容辭的責任,諺語辭書數(shù)字化保護任重而道遠。數(shù)字化和標準化的整理為中國諺語文化的繼承和發(fā)揚奠定了基礎。中華諺語的數(shù)字化和標準化整理保護,能夠借助新興的現(xiàn)代技術來使古老的中國文化歷久彌新,讓中國多民族文化在全世界展現(xiàn)恒久彌新的魅力,也可以使全球范圍的炎黃子孫能夠方便、快捷地學習了解本民族的文化。[6]
中華諺語的數(shù)字化建設將使國際性合作項目成為未來發(fā)展目標。當今社會,只有數(shù)字化產(chǎn)品才能迅速、準確地進行傳遞和交流,為互聯(lián)網(wǎng)信息平臺提供有價值的信息資源,使傳統(tǒng)文化在信息傳播的深度、廣度、速度上有一個質的飛躍。所以中華多民族諺語辭書數(shù)字化和標準化整理,使我們可以進行多民族學者國際間的通力合作,這對解決技術瓶頸無疑是有益的,同時使我國數(shù)千年來的寶貴文化遺產(chǎn)進一步發(fā)揚光大。