鄒嘉彥,鄺藹兒,路 斌,蔡永富
(1.香港教育學(xué)院 語言資訊科學(xué)研究中心;2. 香港城市大學(xué) 中文、翻譯及語言學(xué)系)
20世紀末信息技術(shù)的興起、互聯(lián)網(wǎng)的普及以及漢語自然語言處理的技術(shù)不斷提升和成熟,促使?jié)h語語料庫技術(shù)飛速發(fā)展[1-2]。20世紀80年代開始,世界各地區(qū)出現(xiàn)了許多漢語語料庫。隨著時間的推移,不少技術(shù)方面的困難得到克服,諸多難題得以解決,不少障礙得到清除,例如漢字的輸入(計算機或手機)、輸出和查詢,編碼的統(tǒng)一,大量資料的存儲,計算速度的高速提升等。
進入21世紀,漢語語料庫的發(fā)展更加深入和多元化。從內(nèi)容上看,有多種發(fā)展,包括古漢語語料庫、文言白話平行語料庫等。從形式上看,有不少的專項語料庫出現(xiàn),例如兒童語料庫、科技論文語料庫和專利語料庫[3]。從語種上看,除了單語種的漢語語料庫,涉及漢語的多語種語料庫快速發(fā)展,為跨語言的信息處理和檢索提供了堅實基礎(chǔ),其中包括可比語料庫(Comparable Corpora)和平行語料庫(Parallel Corpora)。從加工深度上看,漢語語料庫的標注層次越來越豐富,包括詞性、句法、語義等深層次標記,例如賓夕法尼亞大學(xué)所建的中文樹庫和中文命題庫,臺北中研院中文樹庫、清華中文樹庫[4]、哈工大依存樹庫等。
這些新構(gòu)建的漢語語料庫,大多是為了各種語言工程而構(gòu)建,比如自動分詞[5]、詞性標注、句法分析和語義分析等。值得注意的是,這些語料庫很大部份是暫時性的、開放性的,有的僅收集數(shù)年的語料,很多現(xiàn)在已停止增補,在時間上沒有持續(xù)性,例如北京語言學(xué)院(今北京語言大學(xué))語料庫、臺北中研院平衡語料庫[6-7]及北京航空學(xué)院(今北京航空航天大學(xué))語料庫等。
有的漢語語料庫雖然持續(xù)搜集新的語料,但語料本身是未經(jīng)處理的或只是自動處理而未經(jīng)人工校對,例如LDC(The Linguistic Data Consortium)發(fā)布的中文Gigaword語料庫[8],自2003年發(fā)布第一版,至今已更新至第四版,其語料來源也從最初的兩家新聞社(新華社和臺北中央社)擴展至另外六家(《聯(lián)合早報》、法新社、中國新聞社、《光明日報》、《人民日報》、《解放軍報》),但其為未經(jīng)處理的生語料、且選取資料的時間跨度各不相同,比如最新添加的四家新聞社的新聞資料時間跨度只覆蓋2006年11月至2008年12月。有標記的Gigaword語料庫[9]對語料進行了自動處理,包括分詞和詞性標注,但其結(jié)果未經(jīng)全面人工校對。這種情況可能影響一些追蹤應(yīng)用的準確性(見下面第2節(jié))。
時至今日,語料庫面臨新的發(fā)展方向,即(1)“量”與(2)“質(zhì)”的提高。網(wǎng)上可供利用的生語料可謂無窮無盡,有關(guān)資料的甄選及應(yīng)用,成為語料庫語言學(xué)發(fā)展的首務(wù)。如何進一步提升語料庫的質(zhì)素及用途,最大效率應(yīng)用龐大的資料,進而從語言學(xué)范疇躍升到人民、社會科學(xué)等其他領(lǐng)域,是語料庫語言學(xué)的新任務(wù)。與其他語料庫有所不同的LIVAC漢語共時語料庫持續(xù)處理泛華語地區(qū)17年4億字的語料,演變成為真正的“時間錦囊”,為緊密追蹤、科學(xué)觀察泛華地區(qū)語言現(xiàn)象及有關(guān)社會文化演變,提供了堅實的基礎(chǔ)和科學(xué)依據(jù)。
由香港教育學(xué)院語言資訊科學(xué)研究中心(前身為香港城市大學(xué)語言資訊科學(xué)研究中心)語料庫實驗室于1995年7月創(chuàng)建的LIVAC(Linguistic Variation in Chinese Speech Communities)共時語料庫(以下簡稱LIVAC)[10],一開始就刻意有異于過去的構(gòu)思,在長期、持續(xù)上做了充分準備,除了構(gòu)建語言工程外,也以服務(wù)社會、追蹤詞匯語法和社會文化的發(fā)展為指標。自1995年啟動,堅持共時性、歷時性,至今已有17年。十多年來的實踐充分證明,該語料庫為跟蹤、觀察泛華地區(qū)語言現(xiàn)象及其背后社會文化演變,提供了量化的科學(xué)研究依據(jù)。
LIVAC語料庫自1995年起不間斷地共時收集、處理和分析來自包括香港、澳門、臺北、北京、上海、廣州、深圳以及新加坡、日本等多地有代表性的中文報章與傳媒、電子新聞報道,選取內(nèi)容包括各媒體中的社論、國際新聞、當?shù)匦侣?、綜合新聞、經(jīng)濟新聞、體育新聞、娛樂新聞以及廣告等。
本語料庫采用前所未有的嚴謹“視窗”模式,最大特點首先是“共時性”,即定期收集各地同日的同步語料,每次約5萬字。由于收集內(nèi)容上刻意相約或重復(fù),以致可以專注探索用語的實況與內(nèi)容表達比較。其次是兼顧“歷時性”,自1995年至今歷時十多年來從未間斷,至今仍在運行,方便客觀窺探到各種大小視窗內(nèi)有代表性語言的全面動態(tài)以及有關(guān)語言背后的社會文化狀況,可利用一系列大小連續(xù)的視窗來探索觀察時期內(nèi)不同地方的各種變化。
到2011年,LIVAC語料庫處理過的總字數(shù)達4億,收集的詞種數(shù)目超過160萬條,并進行了多項語言分析和標注(包括分詞、詞性標注及人工校對)*LIVAC語料庫十多年恒長的自動分詞,人工校對前平均準確率很難超過88-89%,因為部分新聞?wù)Z料包括很多庫外新詞。,累積了大量有用的統(tǒng)計數(shù)據(jù),在語言工程上取得了多方面成果。同時,這個跨期長、字數(shù)多、規(guī)模巨大的語料庫,也為各個學(xué)科追蹤研究提供了一個可靠、翔實的資料平臺。
2000年期間,我們曾就香港回歸及千禧年為主題,以LIVAC語料庫數(shù)據(jù)為依據(jù),做了一些有意義的分析和總結(jié)。2003年8月,我們在《中文信息處理若干重要問題》一書上發(fā)表題為《漢語共時語料庫與信息開發(fā)》[11],對LIVAC語料庫做了詳盡介紹,并就共時語料庫的特性、結(jié)構(gòu)、信息開發(fā)、熵與專有名詞等理論做了全面的分析及探討,嘗試為LIVAC語料庫做一個重要的階段性總結(jié)。這段期間,我們也與牛津大學(xué)出版社、商務(wù)印書館[12]、復(fù)旦大學(xué)出版社和其他出版社在辭書出版方面進行了合作[13]。
時光荏苒,趁此機會,我們著重以LIVAC語料庫21世紀首10年的資料為主,再一次分析和探討,通過語料庫搜集到的資料如何跟蹤、分析最近十年來泛華語區(qū)漢語字詞以及由此反映出來的新社會文化演變和發(fā)展趨勢。
漢語言是華夏文化的載體,使用漢語的各主要華人社會依順各種歷史發(fā)展都有各種“同”和“異”之處。我們可以從它們的用語尋找這些異同之處,從中了解背后文化發(fā)展的“同”和“異”。漢語的字與詞有著密切的聯(lián)帶關(guān)系,LIVAC大型語料庫處理過的語料提供了翔實的資料平臺,讓我們可以更精確看到各地使用的字、詞和詞組的相關(guān)異同及探索其背后的社會文化意義。
從LIVAC所有17年語料看(見表1),如果只計京港臺三地的近90萬詞匯,其中三地都同時出現(xiàn)的只占23.53~29.44%,而只在一地出現(xiàn)的詞匯分別高達52.04%~61.46%,顯示三地雖然同是使用現(xiàn)代漢語,但所用的詞匯及用詞習(xí)慣上仍有較大差異。這除了近代歷史、地域原因外,應(yīng)該與人文、社會制度、生活習(xí)慣等因素都有關(guān)系,也證實了異中有同的事實。
而只在兩地出現(xiàn)的詞匯中,香港、北京兩地共現(xiàn)的詞匯最多,占10%以上,香港、臺灣兩地共現(xiàn)的詞匯次之,占10%左右,北京、臺灣兩地的共現(xiàn)詞匯最少,僅8%以下,這顯示在現(xiàn)代漢語17年總的用詞方面,港、京兩地相同的地方高于京、臺兩地。從宏觀的近代歷史角度看,這種情況是可以了解的。
如果縮小視窗范圍,將焦點放在最近兩年(2009至2010年),分別從三地各抽取最高頻3 000詞,可以觀察到三地詞匯同中存異(見圖1): 三地同時出現(xiàn)的高頻詞高達53.4%,并總重復(fù)量達80%,說明三地在常用詞方面,仍有很大的相似度。但只在兩地出現(xiàn)的詞匯中,只在港、臺兩地共現(xiàn)的詞匯最多(12.1%),京臺次之(9.73%),京港最小(6.9%),這個結(jié)果似乎有些出人意外,是否說明常用詞方面反映出近兩年里港、臺兩地有較多相同的關(guān)注點,而北京的常用詞則與香港、臺灣有較大的差別?這都值得更深入探討。
圖1 2009年至2010年間三地高頻3 000詞所占比例
但是,覆蓋率的概念需要詳解?!靶茇垺焙汀柏埿堋眱蓚€詞,在北京和臺北的媒體都有出現(xiàn)過。只是,“貓熊”在臺灣地區(qū)出現(xiàn)率遠遠高于中國大陸。這樣“貓熊”是否應(yīng)該算是泛華語的詞匯呢?表2展示出不同共現(xiàn)率條件下各地共現(xiàn)詞的數(shù)量。這也正是計算辭典學(xué)方面的一個主題。
表2 共現(xiàn)詞
各華語區(qū)對使用漢語的標準和習(xí)慣有著明顯不同,這種同中存異的情況每每見于詞匯、語法、詞義等各個語言層次,詞語兼類與詞類的變化正是一個例子。
漢語的詞類劃分不如英語直接簡單,因為漢語的詞缺乏形態(tài)變化,同一個詞形可以用在不同的位置,擔(dān)當不同的語法角色,因此動詞往往被用來修飾名詞(如“紅燒排骨”的“紅燒”不一定是說把排骨紅燒,而是指紅燒的排骨)、名詞又可以用來表達動作(如“每人每天都要微博一下”的“微博”本是名詞,現(xiàn)在都用作很多人上網(wǎng)的其中一個動作)。動名兼類的詞俯拾皆是。所謂動名兼類,是指一個詞被廣泛接受為同時擁有動詞與名詞特質(zhì),而這類詞很多會經(jīng)過動詞名詞化或名詞動詞化的轉(zhuǎn)化過程,因此觀察詞語及其詞類的流動性,可以比較各個地區(qū)在語言使用上的變化和趨向。
我們比較了LIVAC中香港、北京與臺北三個子語料庫里的動名兼類詞[14],發(fā)現(xiàn)動詞名詞化的情況在北京語料出現(xiàn)要比在另外兩個子語料庫里多。其中在北京語料里,大概有18.5%的動詞屬于動名兼類,而在香港和臺北語料分別只有14.4% 和 15.5% 的動詞屬于這類。數(shù)據(jù)一方面反映了漢語語法歐化的程度因地而異,另一方面也反映了不同社會的心理文化,對同一件事情的著眼點、用語表達方式和落墨點也有不同。表3列出了香港子語料庫的一些動名兼類的例子,按動名用法的比例,可以分為三種情況: “剛開始名詞化”、“動名用法相約”、以及“差不多完全名詞化”。
表3 不同階段的動名兼類詞例子(香港語料)
21世紀的首10年,很多新詞在結(jié)構(gòu)上有一個共同的特點,就是出現(xiàn)了許多前綴或后綴詞素,例如: XX族、XX男、XX女,或者零XX、硬XX、軟XX等等。這些詞素除了很少一部分是新出現(xiàn)的或外來的詞素外,其余大部份都是在舊有意義上加以引申,賦以新的詞義。另一方面,它們有很強的構(gòu)詞能力,通過簡縮、仿制、替換等方式,衍生出一系列的自成體系的新詞。這種現(xiàn)象值得我們關(guān)注,尤其是有代表性的新語素,因為它們比個別新詞有更深層次的意義,猶如關(guān)注個別樹與成片樹林之間的區(qū)別。
“族”本意指有血緣甚至組織的種族、民族、家族,也可以引申指稱具各種共同特征的群體,如“語族”、“芳香族”。千禧年后,日語“xx一族”之類詞語在兩岸三地更流行起來,誘發(fā)了漢語里大量“xx族”新詞的出現(xiàn)。“族”這個字根源于漢語,日本千多年來吸收漢字、漢語,現(xiàn)在這個“族”字變成了出口轉(zhuǎn)內(nèi)銷,也反映華人開始把一向有宗親認同的族群傳統(tǒng),延申到?jīng)]有宗親關(guān)系,而廣泛出現(xiàn)以下的新詞組。
4.1.1 只要有一些共同特征的群體,如“上班族”、“地鐵族”、“受薪族”、“北漂族”、“鐘擺族”、“商務(wù)族”、“蝸居族”、“納稅族”、“兼職族”、“弱勢族”、“腳車族”、“候鳥族”、“早起族”等。
4.1.2 泛指某種宗親以外而具有某種共同意愿的特征,如“追車族”、“追星族”、“賞櫻族”、“血拼族”、“網(wǎng)購族”、“搶鹽族”、“退鹽族”、“網(wǎng)購族”、“蹭涼族”、“悲催族”。
4.1.3 又或者自認或被認定的某種特征,不管得到認同與否,如“電腦族”、“快閃族”、“單車族”、“背包族”、“隱婚族”、“麥兜族”、“新銳族”、“沖浪族”、“步行族”、“偷供族”、“套現(xiàn)族”、“哈臺族”等等。
與“族”類似,也可以有多種的“男”和“女”新發(fā)展的詞組,用來泛指具有某種特征的不同性別人群。這類詞已存在多時,例如“猛男”、“舞男”、“賣花女”、“茶花女”、“叻女”等。日文里也有類似詞語如“一代男”、“浮世男”、“市女”、“齋女”。但千禧年后,中文里的“男”、“女”新詞組出現(xiàn)越來越多,分別指稱具某種特征的“男”或“女”的群體或個體。例如:
4.2.1 “男”的有:“型男”、“宅男”、“電車男”、“召妓男”、“四割男”、“事旦男”、“激凸男”、“變態(tài)男”、“性侵男”、“花弗男”、“體貼男”、“外遇男”、“家暴男”、“敗犬男”。
4.2.2. “女”的有:“熟女”、“剩女”、“應(yīng)召女”、“骨女”、“洗腳女”、“下崗女”、“陪睡女”、“世青女”、“高職女”、“選秀女”、“躁郁女”、“干物女”、“精障女”。
比較之下發(fā)現(xiàn),各地的“男”類詞與“女”類詞數(shù)量并不均衡,但大自然的分配應(yīng)該是陰陽對稱,應(yīng)該是“男”、“女”平均分布。然而自然的律理與人為語用所反映的情況大有分別,這是否反映社會上男女地位或工能平等的發(fā)展不相對應(yīng)?與重男輕女社會所引起男女同齡群人數(shù)不均有別?頗值得深思。還有的是,千禧年前日語與華語的“男”類詞比“女”類詞少,然而千禧年后華語的“男”類新詞比較多了,這意味著什么呢?
“零”是一個客觀的數(shù)詞,沒有客觀或主觀的價值,但現(xiàn)多用來表示強調(diào)“沒有”,反映出一種后現(xiàn)代主義要標新立異、表面簡單的兩極化追求,如:
4.3.1 “零團費”、“零首期”、“零成本”、“零意外”、“零病例”、“零失球”、“零利肉”、“零噪音”、“零轉(zhuǎn)會”、“零包裝”、“零當選”、“零生意”、“零命中”、“零存款”、“零堵塞”、“零對白”、“零緋聞”。
此外,還有指抽象性的,難以計算的,如:
4.3.2 “零容忍”、“零交流”、“零拒絕”、“零寬容”、“零投入”、“零睇頭”、“零麻煩”、“零創(chuàng)意”、“零受惠”、“零認識”、“零威脅”、“零效率”等。
千禧年后比千禧年前多了約八倍這樣的“零”詞語,這究竟意味著什么呢?
“軟”、“硬”原用來以形容實物,近來已漸漸虛化,一般人從“硬件、硬體”或“軟件、軟體”延申到熟悉的“硬道理”、“軟實力”,近十年來虛化的“軟”、“硬”系列詞用得越來越普遍,例如:
4.4.1 “硬資產(chǎn)”、“硬推銷”、“硬舉措”、“硬軍事”、“硬搖滾”、“硬執(zhí)行”、“硬調(diào)劑”、“硬方針”、“硬實績”、“硬優(yōu)惠”。
4.4.2 “軟商品”、“軟手腕”、“軟規(guī)定”、“軟優(yōu)勢”、“軟學(xué)科”、“軟形象”、“軟貪污”、“軟宣傳”、“軟命題”、“軟建設(shè)”、“軟革命”。
但相比之下,“軟”、“硬”系列詞并不相等,“軟”的新詞組出現(xiàn)多于“硬”系詞。
同類詞組在語法上可由前綴“零”、“軟”、“硬”和后綴“族”、“男”、“ 女”等識別,它們的詞素由原義引申出新的意義,從這些例子的量與質(zhì)的分析,可以看到過去二十一世紀前十年華人的社會文化對群體的認同有了新的見解與條件,并讓群體種類數(shù)量很快增加,對“有”及“沒有”絕對性高的分界與要求也越來越注重,而對“男”、“女”的看法也有了分化,并在某種程度上吃“軟”不吃“硬”的各種內(nèi)涵也擴展了并透露出來了。
值得注意的是,從數(shù)量上看,“族”類詞在臺灣最多,“女”、“零”類詞香港最多,“軟”類詞北京最多。這種現(xiàn)象反映出的多方面深層意義,特另陳述。
一個地區(qū)的社會文化發(fā)展傾向及其演變,可從當?shù)氐男侣劽襟w上得到體現(xiàn)。因為新聞媒體的報道緊貼社會動態(tài),反映了一定時期社會文化的關(guān)注傾向,并可為促進和推動社會文化演變的先哨。因此,要考察一個地區(qū)的社會文化,當?shù)刂饕襟w或暢銷傳媒便是一個很好的客觀考察對象。
作為反映一個地區(qū)的文化傾向的指標可以有多方面的,例如媒體對新聞內(nèi)容的取材和報道、新舊詞語的流行和消亡、讀者對體育娛樂新聞的關(guān)心程度及興趣點等等。其中有關(guān)新聞人物的見報率是一個十分重要的指標,因為絕大多數(shù)新聞都與人物、地點有關(guān),新聞人物及地名的見報及其出現(xiàn)頻率,可以反映出編者及受眾關(guān)注哪一方面的新聞,對哪一方面的社會動態(tài)感興趣,從而也反映出社會文化的定位和取向。因此,我們可從當?shù)貍髅綀蟮浪P(guān)注的新聞人物及地名見報頻率中,尋找到一些有關(guān)的線索。LIVAC自2000年創(chuàng)建至今的“京港臺滬雙周名人榜”和“京港臺滬全年名人榜”,就是為了達到這樣一個目標。
港臺京滬名人榜自2000年創(chuàng)立,至今已有10年歷史。正所謂“10年人事幾番新”,我們特別把過去10年的名人榜作綜合累計和回顧,看看各地有多少名人榜常客,甚至可以稱為“常青樹”,由此可以反映各地的社會文化的異同。10年來,四地上榜名人總數(shù)達8 468人,其中上海占3 174人,為四地之冠,香港最少,只有1 996人,四地都共同出現(xiàn)過的共有128人(見表4)。以各地區(qū)看,在過去10年都上榜的“常青樹”,香港多達14人,除小布殊、陳水扁、曾蔭權(quán)、胡錦濤四位舉足輕重的政治人物之外,娛樂圈人士竟占了8人。反觀臺北及北京都各有七位常青樹,除周杰倫及姚明外,其余全屬政要。上海最特別,10年“常青樹”只有姚明一人。以上數(shù)據(jù)顯示,香港媒體的新聞視野較具穩(wěn)定性,新聞人物變動不大,但覆蓋范圍廣闊,有政治和娛樂人物;上海則流動性大,除姚明外,沒有其他人能屹立10年。
表4 四地十年來上榜人數(shù)
通過追蹤名人榜,監(jiān)察各媒體對新聞人物的報道,可以看到各地媒體對重大新聞、社會活動或新聞人物的重視程度或評價。以中國第一位太空人楊利偉為例,楊利偉成為首位登上太空的炎黃子孫,為中國完成首次載人航天計劃,圓了中華民族千年的飛天夢,令中國成為第三個擁有載人航天科技的國家,楊利偉立即成為全球各新聞媒體爭相報道的對象。中國大陸和香港社會都對此十分關(guān)注,傳媒廣泛報道,但在2003年LIVAC四地全年名人榜的統(tǒng)計,卻發(fā)現(xiàn)一個有趣的現(xiàn)象。楊利偉的排名在上海榜上位居第11,北京榜居第13,香港榜居第25,唯獨在臺灣榜上,楊利偉名落孫山(見下文)。這與臺北甚少報道這件事有關(guān)。個中原因值得細味研究,例如當時臺灣社會對臺灣的身份認同問題。相對于2000年陳水扁當選臺灣的總統(tǒng)前后,北京傳媒也不公開點名報道,致使他未能打入當年的全年綜合榜。兩件事相互比較,實在耐人尋味。
京港臺滬四地2003年名人榜上榜名人分別為(按榜上先后次序排列):
香港: 小布殊、碧咸、薩達姆、董建華、劉德華、謝霆鋒、張國榮、張柏芝、梅艷芳、胡錦濤、王見秋、溫家寶、梁錦松、王菲、葉劉淑儀、鄭秀文、唐英年、陳水扁、陳冠希、江澤民、梁朝偉、楊永強、李克勤、貝理雅、楊利偉;
臺北: 小布希、陳水扁、哈珊、胡錦濤、劉泰英、李登輝、游錫堃、溫家寶、江澤民、馬英九、張國榮、布萊爾、謝深山、宋楚瑜、連戰(zhàn)、呂秀蓮、劉德華、朱安雄、阿諾、李遠哲、郝龍斌、吳國棟、林全、游盈隆、證嚴;
北京: 胡錦濤、溫家寶、布什、江澤民、吳邦國、薩達姆、李肇星、吳儀、阿巴斯、曾慶紅、賈慶林、李長春、楊利偉、希拉克、姚明、李元龍、唐家璇、毛澤東、鮑威爾、阿拉法特、布萊爾、李瑞環(huán)、郁建興、黃菊、陳衛(wèi)國;
上海: 姚明、薩達姆、布什、陳良宇、韓正、胡錦濤、哈恩、貝克漢姆、奧尼爾、科比、楊利偉、巴金、小威廉姆斯、阿拉法特、小泉純一郎、吳金貴、吳承瑛、烏代、成耀東、雷鋒、陳貞虎、馬良行、江澤民、阿加西、阿巴斯國。
新聞媒介對當?shù)匦侣劦年P(guān)注度,體現(xiàn)一個國家或地區(qū)對自己身份的認同程度,這可以從媒體對國家或地區(qū)領(lǐng)導(dǎo)人的稱呼看出認同程度。在香港九七回歸前后,LIVAC曾統(tǒng)計香港報章對中國國家主席及中國總理的稱謂,從而分析香港媒體對自己身份的認同。當時觀察到,在“主席”、“總理”之前冠以“中國”的比例很高,顯示香港媒體多數(shù)不太認同自己是“中國”的身份。
現(xiàn)在,我們統(tǒng)計從1995年至今香港報章對中國國家主席及中國總理的稱謂,結(jié)果發(fā)現(xiàn)(見圖2),在“主席”、“總理”之前冠以“中國”的,逐年減少,直接稱呼“主席”“總理”的逐年增加。可見,當時分析的結(jié)論認為,香港媒體多數(shù)已經(jīng)開始認同自己是“中國”的身份,可以由此得到證實。
也值得注意的是,1995年至今香港報章對英國首相則一貫不變的冠名為“英國”。這似乎反映出香港人對英國向來持有一種身份上不認同的態(tài)度。
圖2 稱呼冠以“中國”的歷年比例變化
見報率的高低,只能客觀反映出社會對某些事件或人物的關(guān)心程度,并不能表示社會所關(guān)注的重要內(nèi)容,例如對人物或事件的正負面評價。要得知媒體對新聞人物是褒或是貶,就必須做仔細審讀和深入分析,才能得出正確的結(jié)果。
我們嘗試以2004年港臺京三地都曾出現(xiàn)的高見報率的七位名人為例,詳細分析了與之有關(guān)的各新聞報道,按其不同程度的褒貶評價,自動給出正負評分,再綜合計算出各人全年的褒貶指數(shù),由最正面的10分到最負面的-10分(見表5)。
表5 名人褒貶指數(shù)(2004年)
從表中可見,在港臺京三地中,北京媒體對新聞人物的評價最涇渭分明,除了對布殊貶中有褒外,其余各人的正負評價十分明顯。相對地,香港媒體則較為平和,對董建華、陳水扁和布殊都有正負兩面的報道,但貶抑還是多于褒揚,只是貶抑程度各有不同,布殊、陳水扁的負面指數(shù)就遠高于董建華。
其次,以港臺京為代表的華人地區(qū)媒體,對同一位新聞人物的正負面報道和評價,還是比較趨于一致,只是程度上有差別。例如對鄧小平、劉翔和克里的報道大都是正面,尤其是鄧小平和劉翔在三地幾乎都是正面的報道;另一方面,陳水扁、小泉和布殊則都以負面新聞為多,北京對陳水扁的報道全都是負面,香港的報道也以負面為主,即使在臺灣,他的負面新聞也多于正面。小泉純一郎因為多次參拜靖國神社,北京和香港關(guān)于他的負面指數(shù)處于極高位置,臺灣也多持負面評價。
較為有趣的是對董建華的評價,在海峽兩岸各走極端,北京以褒揚為主,臺灣則多予否定,香港褒貶不一。這些現(xiàn)象是否與三地的民生、社會形式與取態(tài)有關(guān),也值得深入探討。
在自然語言處理領(lǐng)域,大規(guī)模語料庫作為基礎(chǔ)性的工具不可或缺,其重要性亦得到普遍認同,建立、開發(fā)、維護大規(guī)模語料庫也是漢語信息處理取得新突破極為必要的工作環(huán)節(jié)。在中國中文信息學(xué)會成立的30年期間,我們見證了漢語自然語言處理技術(shù)得到的快速發(fā)展,而漢語語料庫發(fā)展已經(jīng)成熟到可以擔(dān)當更有社會意義的新任務(wù)。超大規(guī)模的LIVAC語料庫,兼具共時和歷時的特點,不斷地進行動態(tài)更新,為緊密追蹤、科學(xué)觀察泛華語區(qū)的語言現(xiàn)象和社會變遷,提供了堅實的基礎(chǔ)和科學(xué)依據(jù),可以幫助我們進一步客觀的了解漢語及華語地區(qū)語言和多元化的社會發(fā)展。我們拭目以待中文信息處理的研究會層樓更上、有更多的新發(fā)展。
致謝本文的研究工作各階段期間得到黎邦洋、周嘉寶、游汝杰、錢志安和多位研究人員的協(xié)助,并曾得到多方面的資助,特此致謝。
[1] 黃昌寧,李涓子.語料庫語言學(xué)[M]. 北京: 商務(wù)印書館. 2002.
[2] 俞士汶,朱學(xué)峰,王惠,等. 現(xiàn)代漢語語法信息詞典詳解(第二版)[M]. 北京: 清華大學(xué)出版社, 2002.
[3] Lu, B. and Tsou, B.K. Cultivating Large-Scale Parallel Corpora from Comparable Patents: From Bilingual to Trilingual and Beyond [C]//Proceedings of the Roundtable Conference on Linguistic Corpus and Corpus Linguistics in the Chinese Context, Hong Kong Institute of Education, 2011.
[4] 周強. 漢語句法樹庫標注體系[J]. 中文信息學(xué)報,2004, 18(4): 1-8.
[5] Sproat, R. and T. Emerson. Report of the First International Chinese Word Segmentation Bakeoff [C]//The ACL Second SIGHAN Workshop on Chinese Language Processing, Sapporo, Japan. 2003.
[6] 臺北中央研究院平衡語料庫[DB/OL]. http://www.sinica.edu.tw/ftms-bin/kiwi1/mkiwi.sh.
[7] Chen, K. J., C. R. Huang, L. P. Chang, H. L. Hsu. Sinica Corpus: Design Methodology for Balanced Corpora [C]//Proceedings of the 11th Pacific Asia Conference on Language, Information, and Computation (PACLIC’11), Seoul Korea. 1996: 167-176.
[8] Parker, R., Graff, D., Chen, K., Kong, J., and Maeda, K. Chinese Gigaword Fourth Edition[DB/CD]. Linguistic Data Consortium, Philadelphia. 2009.
[9] Huang, C.R. Tagged Chinese Gigaword Version 2.0[DB/CD]. Linguistic Data Consortium, Philadelphia. 2009.
[10] 香港教育學(xué)院語言資訊科學(xué)研究中心. LIVAC共時語料庫[DB/OL]. http://www.livac.org.
[11] 鄒嘉彥,黎邦洋. 漢語共時語料庫與信息開發(fā)[M]//徐波,孫茂松,靳光謹.中文信息處理若干重要問題,北京: 科學(xué)出版社, 2003:147-165.
[12] 鄒嘉彥,錢志安,鄺藹兒,等. 從共時語料庫延伸到追蹤語料庫: LIVAC《漢語共時語料庫》的新發(fā)展[C]//漢語語料庫及語料庫語言學(xué)圓桌會議論文集. 香港教育學(xué)院. 2011.
[13] 鄒嘉彥,游汝杰. 全球華語新詞語詞典[M]. 北京: 商務(wù)印書館. 2010.
[14] Kwong, O.Y. and Tsou, B.K. A Synchronous Corpus-Based Study of Verb-Noun Fluidity in Chinese [J]. Journal of Chinese Language and Computing, 2004,13(3): 227-278.