国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言學(xué)研究

2013-09-06 03:31:42詹衛(wèi)東
關(guān)鍵詞:語(yǔ)言學(xué)漢語(yǔ)語(yǔ)言

詹衛(wèi)東

(北京大學(xué)中文系/中國(guó)語(yǔ)言學(xué)研究中心/計(jì)算語(yǔ)言學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)

意大利哲人尼可羅·馬基亞維利(Niccolò Machiavelli)有句名言:“風(fēng)景畫(huà)家要描繪山巒之美,需先置身卑谷”。要思考今天這個(gè)時(shí)代如何去做語(yǔ)言學(xué)的研究,恐怕也應(yīng)該跳出語(yǔ)言學(xué)自身的藩籬,放眼環(huán)顧我們身處的社會(huì)環(huán)境和學(xué)術(shù)生態(tài),從時(shí)代進(jìn)步的節(jié)奏和鄰近相關(guān)學(xué)科的發(fā)展脈絡(luò)中,或可反觀語(yǔ)言學(xué)的律動(dòng)軌跡,把握未來(lái)的方向。

一 身處大數(shù)據(jù)時(shí)代

近幾年來(lái),“大數(shù)據(jù)”(Big Data)這個(gè)詞見(jiàn)諸媒體越來(lái)越頻繁,無(wú)論是企業(yè)界,還是學(xué)術(shù)界,“大數(shù)據(jù)”都是一個(gè)正在迅速升溫的熱門(mén)話(huà)題。2013年年初,反映這一時(shí)代特征的代表性著作,舍恩伯格和庫(kù)克耶合著的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》[1]中文版和英文版先后面世①中文翻譯版先于英文原著出版,也可以算是信息時(shí)代的一個(gè)有趣特點(diǎn)。,為“2013年是大數(shù)據(jù)元年”提供了最好的注腳。正如該書(shū)副標(biāo)題所宣稱(chēng)的,大數(shù)據(jù)是一場(chǎng)大變革,從生活到工作,乃至思維方式,影響可謂既廣又深。書(shū)中給出了很多佐證這一觀點(diǎn)的例子,這些令人印象深刻的例子,其引人入勝之處,既在于它們直接解決了大眾生活中面臨的一些普遍問(wèn)題,同時(shí)又在于其解決之道正是引入了大規(guī)模數(shù)據(jù)資源和先進(jìn)的數(shù)據(jù)分析技術(shù)。這里舉其中兩例略加說(shuō)明,一個(gè)例子是商業(yè)消費(fèi)領(lǐng)域的:研究人員從網(wǎng)上飛機(jī)票預(yù)定系統(tǒng)的機(jī)票銷(xiāo)售歷史數(shù)據(jù)中,提取機(jī)票價(jià)格隨時(shí)間波動(dòng)的趨勢(shì)性規(guī)律,從而為人們選擇恰當(dāng)?shù)馁?gòu)票時(shí)機(jī),節(jié)省購(gòu)買(mǎi)成本[2]②這項(xiàng)研究后來(lái)得到風(fēng)險(xiǎn)投資成立了名為Farecast的公司,該公司后來(lái)又被微軟公司以1.1億美元收購(gòu),集成到微軟Bing搜索引擎中為用戶(hù)提供服務(wù)(http://www.bing.com/travel)。。這個(gè)非常典型的基于大數(shù)據(jù)的商業(yè)應(yīng)用系統(tǒng),無(wú)疑對(duì)于企業(yè),對(duì)于普通消費(fèi)者都有很強(qiáng)的吸引力,通過(guò)大數(shù)據(jù)計(jì)算,直接為社會(huì)創(chuàng)造了經(jīng)濟(jì)價(jià)值。另一個(gè)例子是公共衛(wèi)生領(lǐng)域的:研究人員發(fā)現(xiàn),從人們?cè)贕oogle搜索引擎中輸入的最常見(jiàn)的5 000萬(wàn)個(gè)檢索關(guān)鍵詞數(shù)據(jù)中,可以找到一些特定的檢索模式。這些模式跟美國(guó)疾控中心存儲(chǔ)的季節(jié)性流感爆發(fā)期間的病例報(bào)告數(shù)據(jù)之間有很高的相關(guān)性,從而可以依據(jù)這些檢索模式,加上分布在全美各地的以百萬(wàn)計(jì)的Google用戶(hù)的實(shí)時(shí)查詢(xún)數(shù)據(jù),來(lái)估計(jì)季節(jié)性流感在美國(guó)各州的傳播態(tài)勢(shì)。傳統(tǒng)的基于實(shí)際病例統(tǒng)計(jì)和實(shí)驗(yàn)室病毒分析的方法通常需要一到兩周時(shí)間才能給出報(bào)告,而基于用戶(hù)查詢(xún)記錄的大數(shù)據(jù)方法則可以做到每天都發(fā)布流感態(tài)勢(shì)報(bào)告①Google流感趨勢(shì)網(wǎng)站(http://www.google.org/flutrends/us/#US)將流感狀態(tài)分為“極輕、輕、中等、重、極重”五級(jí),并以五種顏色區(qū)分,在Google地圖上標(biāo)記每個(gè)地區(qū)的流感狀態(tài)。。這項(xiàng)研究成果發(fā)表在2009年2月份的《自然》(Nature)雜志上[3]。

大數(shù)據(jù)處理的魅力不僅體現(xiàn)在上述典型的數(shù)據(jù)計(jì)算和分析領(lǐng)域,而且也開(kāi)始在一些人文社會(huì)科學(xué)研究領(lǐng)域初試啼聲。比如基于維基百科(Wikipedia)②http://www.wikipedia.org/有285種語(yǔ)言,超過(guò)2200萬(wàn)篇文章。的大規(guī)模文本分析來(lái)從某些特定角度展示人類(lèi)歷史變遷的宏觀面貌,就是一個(gè)有代表性的例子[4]。研究人員利用一臺(tái)有4000個(gè) CPU,內(nèi)存為64TB(1TB=1000GB,即1012字節(jié))的超級(jí)計(jì)算機(jī)對(duì)400萬(wàn)篇以英語(yǔ)寫(xiě)的百科文章進(jìn)行處理,提取其中的日期、地點(diǎn)信息,并通過(guò)統(tǒng)計(jì)每篇文章中的情感詞,計(jì)算某個(gè)特定年份的情感指數(shù)(取值從極負(fù)面到極正面分為200級(jí)),用這種方法計(jì)算了1800-2012年間212年的情感指數(shù),并將計(jì)算結(jié)果用212張疊加的世界地圖來(lái)表示,即以地圖上不同地點(diǎn)標(biāo)記不同顏色來(lái)反映當(dāng)?shù)卦谀硞€(gè)特定年份的情感指數(shù)。這212張按年疊加帶有顏色變化的世界地圖以可視化(Visualization)的方式在網(wǎng)頁(yè)上呈現(xiàn)③https://www.youtube.com/watch?v=KmCQVIVpzWg,在某種程度上,可以說(shuō)是直接把一幅“風(fēng)云際會(huì)、斗轉(zhuǎn)星移”的世界史動(dòng)態(tài)畫(huà)卷鋪展在了讀者面前④需要說(shuō)明的是,盡管上述這些大數(shù)據(jù)計(jì)算的例子確有震撼效果,但客觀而言,大數(shù)據(jù)計(jì)算無(wú)論在實(shí)際應(yīng)用還是科學(xué)研究中,都還在初期探索階段,基于大數(shù)據(jù)得到的結(jié)論有的已經(jīng)可以直接指導(dǎo)人們的社會(huì)實(shí)踐,但也有不少還只是起到一定的參考作用,并不能取代傳統(tǒng)的方法。。

毫無(wú)疑問(wèn),“大數(shù)據(jù)”已經(jīng)給這個(gè)時(shí)代打下了鮮明的印記,身處其中,無(wú)論是否愿意,都將受其影響。就科學(xué)研究而言,有的學(xué)科因?yàn)橹苯由婕按髷?shù)據(jù)分析而已經(jīng)發(fā)生顯著的變化,比如計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的交叉學(xué)科——計(jì)算語(yǔ)言學(xué)在近十年來(lái)的發(fā)展,就是這樣的例證。下面不妨快速掃描一下這門(mén)年輕的學(xué)科近半個(gè)世紀(jì)的發(fā)展歷程,以更深刻地體會(huì)“大數(shù)據(jù)”對(duì)一個(gè)學(xué)科所帶來(lái)的沖擊和影響。漢語(yǔ)語(yǔ)言學(xué)未來(lái)的進(jìn)程或可從中有所借鑒。

二 來(lái)自計(jì)算語(yǔ)言學(xué)的啟示

計(jì)算語(yǔ)言學(xué)(Computational Linguistics)從其應(yīng)用目標(biāo)來(lái)說(shuō),就是讓計(jì)算機(jī)能夠“理解”人類(lèi)的自然語(yǔ)言(Natural Language Understanding,NLU)。這個(gè)任務(wù)的實(shí)質(zhì)是希望找到從語(yǔ)言的形式映射到語(yǔ)言的意義的機(jī)械方法。如果把“理解”人類(lèi)的自然語(yǔ)言看做是人類(lèi)智能行為的主要特征,那么,自然語(yǔ)言理解顯然屬于人工智能的研究范疇,即探求作為高級(jí)智能的人的語(yǔ)言行為在多大程度上可以機(jī)械化。

作為一個(gè)誕生在僅僅半個(gè)世紀(jì)前的相當(dāng)新的研究領(lǐng)域,NLU所經(jīng)歷的發(fā)展過(guò)程稱(chēng)得上是跌宕起伏。而伴隨其間的,可以說(shuō)正是在NLU不同發(fā)展階段人們對(duì)于其處理對(duì)象——“自然語(yǔ)言”的不同理解。眾所周知,NLU脫胎于機(jī)器翻譯(Machine Translation,MT)。上世紀(jì)中葉,自動(dòng)計(jì)算裝置在二戰(zhàn)中破譯密碼的威力在戰(zhàn)后繼續(xù)發(fā)酵,刺激著正在重建新世界的人們的想象力。用剛問(wèn)世不久的電子計(jì)算機(jī)把一種自然語(yǔ)言翻譯成另一種自然語(yǔ)言順理成章地也被看做是密碼破譯的過(guò)程。MT從想法到能實(shí)際運(yùn)行的演示系統(tǒng),只用了短短五年時(shí)間(1949-1954)。然而,由美國(guó)Georgetown大學(xué)和IBM聯(lián)合研制的第一個(gè)MT系統(tǒng)只是在媒體宣傳和爭(zhēng)取政府資助上獲得了實(shí)實(shí)在在的成功,真正能夠服務(wù)于社會(huì)解決翻譯問(wèn)題的MT系統(tǒng)并沒(méi)有像其研制者所宣稱(chēng)的那樣在三五年內(nèi)就問(wèn)世。相反,1966年發(fā)布的著名的ALPAC⑤ALPAC是美國(guó)國(guó)會(huì)為調(diào)查MT而成立的“自動(dòng)語(yǔ)言處理咨詢(xún)委員會(huì)”的英文名首字母縮寫(xiě)。報(bào)告終結(jié)了MT的頭一個(gè)十年熱潮。人們開(kāi)始透過(guò)計(jì)算機(jī)難以逾越的翻譯障礙反思人類(lèi)自然語(yǔ)言本身的性質(zhì)。翻譯不再僅僅被簡(jiǎn)單地看做是密碼破譯的信息處理過(guò)程,自然語(yǔ)言也不僅僅是一串單詞的序列。如何讓計(jì)算機(jī)真正“理解”人類(lèi)的自然語(yǔ)言,語(yǔ)言的層次結(jié)構(gòu)該如何分析,如何從形式結(jié)構(gòu)映射到意義表示……等等理論問(wèn)題開(kāi)始引起來(lái)自計(jì)算機(jī)科學(xué)、數(shù)學(xué)、語(yǔ)言學(xué)等跨學(xué)科研究人員的深思,新興的交叉學(xué)科——計(jì)算語(yǔ)言學(xué)也正是在這個(gè)背景中走上歷史舞臺(tái)的。20世紀(jì)七八十年代,各種分析自然語(yǔ)言的形式理論和計(jì)算方法如雨后春筍般涌現(xiàn),其中著名的如基于概念依存圖(Concept Dependency Graph)的知識(shí)表示方法與腳本理論(Script Theory),廣義短語(yǔ)結(jié)構(gòu)語(yǔ)法(GPSG),詞匯功能語(yǔ)法(LFG),中心詞驅(qū)動(dòng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法(HPSG),擴(kuò)充的遞歸轉(zhuǎn)移網(wǎng)絡(luò)(ATN)等等,均各領(lǐng)一時(shí)風(fēng)騷。不僅如此,語(yǔ)言學(xué)家提出的一些并不是直接要為計(jì)算機(jī)服務(wù)的語(yǔ)言學(xué)理論(如系統(tǒng)功能語(yǔ)法)也受到計(jì)算機(jī)科研人員的重視,被用來(lái)作為計(jì)算機(jī)模擬人類(lèi)語(yǔ)言行為的理論指導(dǎo)[5]。在經(jīng)歷了MT被工業(yè)界和政府科研經(jīng)費(fèi)資助冷落十年之后,科學(xué)家們?cè)凇袄斫狻比祟?lèi)自然語(yǔ)言方面所取得的進(jìn)展為NLU燃起了希望。這個(gè)階段,NLU躺在語(yǔ)言學(xué)的懷抱里,自然語(yǔ)言在理性主義哲學(xué)的觀照下被看做是有限結(jié)構(gòu)(有限規(guī)則)的無(wú)限遞歸應(yīng)用,MT的主流是基于規(guī)則的方法,計(jì)算機(jī)程序首先按照語(yǔ)言學(xué)理論提供的規(guī)則模型,拆解原文的結(jié)構(gòu),把原文句子分析為詞和短語(yǔ)結(jié)構(gòu),然后再按照目標(biāo)語(yǔ)言的語(yǔ)序和結(jié)構(gòu)要求,重新拼裝,生成譯文。但是,當(dāng)這些針對(duì)小規(guī)模語(yǔ)言實(shí)例“表現(xiàn)良好”的理論和方法遇到大規(guī)模真實(shí)語(yǔ)料時(shí),無(wú)論是對(duì)原文的分析,還是對(duì)譯文的生成,研究人員總結(jié)的理想的規(guī)則卻遠(yuǎn)遠(yuǎn)無(wú)法勝任,人們對(duì)NLU的憧憬再次敗倒在自然語(yǔ)言的無(wú)比復(fù)雜性面前。NLU的大旗也逐漸易幟為NLP(Natural Language Processing,自然語(yǔ)言處理),比起“理解”自然語(yǔ)言這樣的目標(biāo),“處理”自然語(yǔ)言的信息,要?jiǎng)?wù)實(shí)得多。歷史年輪很快轉(zhuǎn)到了20世紀(jì)90年代,伴隨著互聯(lián)網(wǎng)的迅速普及,主要以自然語(yǔ)言作為載體的海量數(shù)字化信息開(kāi)始進(jìn)入人們的生活。在這樣的社會(huì)背景下,得益于計(jì)算技術(shù)的進(jìn)步和大規(guī)模語(yǔ)言數(shù)據(jù)的易于獲得,以統(tǒng)計(jì)方法為主導(dǎo)的NLP應(yīng)用研究開(kāi)始逐漸成為計(jì)算語(yǔ)言學(xué)學(xué)術(shù)會(huì)議和期刊論文的主角。從1990年IBM公司的Brown等人提出基于信源信道模型的統(tǒng)計(jì)機(jī)器翻譯模型[6,7]到2002年Och提出基于最大熵的統(tǒng)計(jì)機(jī)器翻譯方法[8],在時(shí)隔半個(gè)世紀(jì)后,統(tǒng)計(jì)機(jī)器翻譯再一次繞開(kāi)了對(duì)語(yǔ)言結(jié)構(gòu)的“理解”,讓自然語(yǔ)言的翻譯任務(wù)又一次回歸到字符串信號(hào)處理[9,10]。2004 年 Och 加入 Google,基于統(tǒng)計(jì)的機(jī)器翻譯借力Google的大規(guī)模雙語(yǔ)對(duì)齊語(yǔ)料和并行計(jì)算平臺(tái),通過(guò)互聯(lián)網(wǎng)開(kāi)始為社會(huì)提供切實(shí)的翻譯服務(wù)①目前Google在線翻譯可以支持66種語(yǔ)言之間的互譯。。盡管跟以往基于規(guī)則的方法相比,翻譯質(zhì)量很難說(shuō)有本質(zhì)性的改觀,但其開(kāi)發(fā)周期短、維護(hù)成本低、支持語(yǔ)言多等諸多工程上的優(yōu)勢(shì)仍然廣為業(yè)界稱(chēng)道。相比之下,傳統(tǒng)的“先理解,再翻譯”的所謂理性主義語(yǔ)言觀不再是理所當(dāng)然的信條。統(tǒng)計(jì)機(jī)器翻譯的后來(lái)居上,讓人們見(jiàn)識(shí)了計(jì)算機(jī)如何在大數(shù)據(jù)的平臺(tái)上做到“不懂也能裝懂”。為了近距離感受一下統(tǒng)計(jì)機(jī)器翻譯方法的效果,下面不妨利用網(wǎng)上的三個(gè)在線機(jī)器翻譯系統(tǒng)②MT1是國(guó)外的規(guī)則機(jī)器翻譯系統(tǒng);MT2是國(guó)內(nèi)的規(guī)則機(jī)器翻譯系統(tǒng);MT3是國(guó)外的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)。,來(lái)做一個(gè)漢英翻譯的小測(cè)試。見(jiàn)表1。

表1 漢—英機(jī)器翻譯示例

對(duì)比表1中的三個(gè)機(jī)器翻譯結(jié)果,不難發(fā)現(xiàn),基于統(tǒng)計(jì)方法的MT3表現(xiàn)要更勝一籌。以原文中的幾個(gè)語(yǔ)言難點(diǎn):連續(xù)動(dòng)詞結(jié)構(gòu)“聲明稱(chēng)”“堅(jiān)持要求”,專(zhuān)名“美伊駐軍地位協(xié)議”,以及引語(yǔ)句“不可延長(zhǎng)”的翻譯結(jié)果來(lái)看,MT3的譯文結(jié)構(gòu)都更準(zhǔn)確,自然度也更高。基于規(guī)則的MT1系統(tǒng)的結(jié)果中出現(xiàn)了“stated said”“insisted requested”這樣明顯的語(yǔ)法錯(cuò)誤。對(duì)“美伊駐軍地位協(xié)議”這個(gè)專(zhuān)名的翻譯,MT1勉強(qiáng)可以接受,而MT2則完全沒(méi)有翻譯出來(lái),而且還把其中的“伊”當(dāng)成了第三人稱(chēng)代詞,同時(shí)又無(wú)法確定其性別,因而譯文中出現(xiàn)了“He|she”帶上所有格標(biāo)記“’s”的奇怪形式。這是基于規(guī)則方法的機(jī)器翻譯系統(tǒng)更容易出現(xiàn)的問(wèn)題。

盡管上面給出的基于不同方法的機(jī)器譯文都算不上高質(zhì)量,但總體來(lái)說(shuō),基于統(tǒng)計(jì)方法開(kāi)發(fā)的機(jī)器翻譯系統(tǒng)后來(lái)居上,超越現(xiàn)有的基于規(guī)則方法的機(jī)器翻譯系統(tǒng),已是不爭(zhēng)的事實(shí)。計(jì)算語(yǔ)言學(xué)中發(fā)生這種研究范式的轉(zhuǎn)變,并非偶然,而是有其深刻原因的:

(1)社會(huì)已經(jīng)全面進(jìn)入互聯(lián)網(wǎng)時(shí)代。這個(gè)時(shí)代的特點(diǎn)是信息量大,信息傳播速度快。自然語(yǔ)言的活躍程度遠(yuǎn)遠(yuǎn)高于以往任何一個(gè)時(shí)期。這就意味著語(yǔ)言字符本身的不確定性在增強(qiáng)①自然語(yǔ)言的不確定性體現(xiàn)在兩個(gè)方面:一是原本就有不少語(yǔ)言單位有不確定性;二是近年來(lái)由網(wǎng)絡(luò)而逐漸擴(kuò)散到普通社會(huì)生活用語(yǔ)中的新興語(yǔ)言現(xiàn)象有明顯加快的趨勢(shì)。前者的例子如:(1)斯諾登給北京和華盛頓出了外交難題——美國(guó)“家務(wù)事”考驗(yàn)中國(guó)。(2)北京和華盛頓的時(shí)差是13個(gè)小時(shí)。其中“北京和華盛頓”在例1中指中美兩國(guó)政府,例2中指地理上的兩個(gè)城市。這種不確定性在網(wǎng)絡(luò)時(shí)代變得更為常見(jiàn)。后者的例子比如“被畢業(yè),被自殺,被就業(yè),被代表,被失蹤,被小康,被增長(zhǎng),被繁榮,被開(kāi)心、被捐款、被健康……”等等許多不合一般語(yǔ)法的“被××”構(gòu)造,“百度百科”中甚至有一個(gè)條目叫“被時(shí)代”。這類(lèi)新的語(yǔ)言現(xiàn)象涉及語(yǔ)言中的字、詞、句、篇各個(gè)層次。。這種情況對(duì)基于理性主義的規(guī)則方法,是一個(gè)比較嚴(yán)峻的挑戰(zhàn)。而用統(tǒng)計(jì)方法來(lái)發(fā)現(xiàn)不確定性對(duì)象背后的概率性的規(guī)律,則更為適應(yīng)互聯(lián)網(wǎng)時(shí)代的這種特點(diǎn)。

(2)互聯(lián)網(wǎng)規(guī)模的驚人增速為統(tǒng)計(jì)模型準(zhǔn)備了海量的數(shù)據(jù),為統(tǒng)計(jì)方法大展拳腳提供了充足的彈藥。比如基于手工構(gòu)建的Wiki百科文章和整個(gè)互聯(lián)網(wǎng)的網(wǎng)頁(yè)文獻(xiàn),研究人員已經(jīng)獲得了巨型知識(shí)庫(kù)如 DBpedia,F(xiàn)reebase,Probase,WikiTaxonomy,YAGO等,并且仍在繼續(xù)擴(kuò)大規(guī)模。以Freebase為例,庫(kù)中目前包含了39 732 785個(gè)主題和1 814 525 012個(gè)事實(shí)。基于如此龐大的知識(shí)庫(kù),新型的計(jì)算機(jī)問(wèn)答系統(tǒng)(QA)就有能力回答諸如“Which composer from the eternal city wrote the score for the Ecstasy scene?(哪位來(lái)自永恒之城的作曲家是《沉醉》一劇的作曲者?)”這樣的刁鉆問(wèn)題。[11,12]

(3)計(jì)算機(jī)的能力主要表現(xiàn)在“記憶”和“搜索”,而不是創(chuàng)新和演繹推理。統(tǒng)計(jì)方法在機(jī)器翻譯以及中文分詞等技術(shù)上的成績(jī),可以理解為計(jì)算機(jī)依靠其強(qiáng)大記憶能力,在海量數(shù)據(jù)和恰當(dāng)?shù)慕y(tǒng)計(jì)模型兩駕馬車(chē)的輔佐下取得的成功。完全人工的規(guī)則在語(yǔ)言知識(shí)的概括度和層級(jí)的系統(tǒng)性等方面可以表現(xiàn)出簡(jiǎn)潔的美感,但在工程應(yīng)用層面,卻缺乏對(duì)真實(shí)語(yǔ)料的有效覆蓋,缺乏對(duì)具體而微的詞語(yǔ)共現(xiàn)信息的準(zhǔn)確刻畫(huà)。人工規(guī)則更多的是在“類(lèi)”(type)的層面描述語(yǔ)言對(duì)象的性質(zhì),而基于大數(shù)據(jù)的統(tǒng)計(jì)方法則基本上可以接近甚至做到在“例”(token)的層面描述語(yǔ)言對(duì)象的分布、搭配、對(duì)齊等方面的性質(zhì)。

在上述這些因素的綜合作用下,隨著近十年來(lái)機(jī)器學(xué)習(xí)(Machine Learning)熱潮在NLP領(lǐng)域的推波助瀾,自然語(yǔ)言作為計(jì)算機(jī)的信息處理對(duì)象,其自身的特殊性越來(lái)越被工程技術(shù)人員淡化,研究人員更多的是從工程效果,而不是從內(nèi)在理?yè)?jù)的角度去看待他們開(kāi)發(fā)的NLP系統(tǒng)。一種觀念似乎已成為工程師們的共識(shí):即便是最時(shí)髦的語(yǔ)言學(xué)理論,在NLP中也起不到多少錦上添花的作用。但是,話(huà)又說(shuō)回來(lái),這種狀況顯然并不是NLU的理想主義者所愿意看到的。當(dāng)工程師們津津樂(lè)道于NLP憑借統(tǒng)計(jì)模型、機(jī)器學(xué)習(xí)技術(shù)所取得的最新成就的時(shí)候,也不乏傳統(tǒng)的計(jì)算語(yǔ)言學(xué)的擁躉開(kāi)始反思這個(gè)學(xué)科的未來(lái)之路。如果只是在工程上而不是在科學(xué)研究上具有獨(dú)立性,計(jì)算語(yǔ)言學(xué)豈不成了應(yīng)用統(tǒng)計(jì)學(xué)的一個(gè)分支[13]?要實(shí)現(xiàn)人工智能的終極理想NLU,僅靠NLP工程上的進(jìn)步顯然是不夠的,沒(méi)有了科學(xué)根基的工程技術(shù),其命運(yùn)大概只能是“行之不遠(yuǎn)”。那么,計(jì)算語(yǔ)言學(xué)以及更基礎(chǔ)的語(yǔ)言學(xué)研究前進(jìn)的方向又在哪里呢?

三 漢語(yǔ)研究的未來(lái)之路

本文并不想冒險(xiǎn)去預(yù)測(cè)未來(lái),但從過(guò)去的問(wèn)題出發(fā)去探索未來(lái)之路總不是壞事。反觀過(guò)去半個(gè)世紀(jì)計(jì)算語(yǔ)言學(xué)的發(fā)展歷程,其實(shí)不難看到關(guān)于語(yǔ)言的理論研究的問(wèn)題所在:(1)理論語(yǔ)言學(xué)的關(guān)注點(diǎn)過(guò)于注重所謂的抽象的“語(yǔ)言能力”,而在一定程度上忽視了具體的“語(yǔ)言使用”。(2)過(guò)去的語(yǔ)言學(xué)建模中大都只看自然語(yǔ)言的終端語(yǔ)符序列,即語(yǔ)言成品,基本忽略了作為交際主體的人的能動(dòng)性,以及在交際過(guò)程中除語(yǔ)言符號(hào)本身之外的其他非語(yǔ)言本體知識(shí)的作用。

針對(duì)上述第一個(gè)問(wèn)題,可以說(shuō)大數(shù)據(jù)時(shí)代的語(yǔ)言工程正是一個(gè)改進(jìn)的方向?,F(xiàn)在比以往任何時(shí)候都能更容易地獲得豐富的語(yǔ)言資源。借助集群計(jì)算機(jī)強(qiáng)大的計(jì)算能力和選擇適當(dāng)?shù)慕y(tǒng)計(jì)模型,就有可能從海量語(yǔ)言數(shù)據(jù)中挖掘出更符合語(yǔ)言真實(shí)使用情況的規(guī)律知識(shí),這不僅可以促進(jìn)語(yǔ)言學(xué)理論研究,也有助于語(yǔ)言研究成果更好地轉(zhuǎn)化為信息處理產(chǎn)品。

針對(duì)上述第二個(gè)問(wèn)題,未來(lái)的語(yǔ)言學(xué)研究應(yīng)該更注重跟心理學(xué)、神經(jīng)科學(xué)、腦科學(xué)、認(rèn)知科學(xué)研究的互動(dòng),把注意力從僅僅盯在終端語(yǔ)符序列,拓展到也深入考察語(yǔ)言交際的心理過(guò)程,研究人類(lèi)在概念組織、意義推理等能力上的內(nèi)在認(rèn)知機(jī)制。事實(shí)上,計(jì)算語(yǔ)言學(xué)領(lǐng)域近年來(lái)的熱點(diǎn)研究方向“隱喻理解”“情感分析”等,也已經(jīng)從應(yīng)用需求角度把這些值得深入探索的問(wèn)題擺在了研究者的面前。已經(jīng)有學(xué)者注意到,從心理學(xué)角度對(duì)文本(語(yǔ)言)特征及其創(chuàng)作者(或說(shuō)話(huà)人)所做的分析,可以在面向應(yīng)用的計(jì)算模型中發(fā)揮積極作用。比如基于英語(yǔ)的一些心理學(xué)研究發(fā)現(xiàn),心情沮喪的學(xué)生更多地使用第一人稱(chēng);說(shuō)話(huà)人更多使用抽象的表達(dá)方式(形容詞比動(dòng)詞更抽象)描述他人行為特征時(shí),可能意味著描述中帶有更多偏見(jiàn);人們?cè)谥阜Q(chēng)表達(dá)式中給出的信息往往比所需要的更多①這跟Grice的“信息足量”語(yǔ)用原則并不完全一致。,等等[14]。

上述這兩個(gè)方面中,第一個(gè)方面可能更具體一些,因?yàn)檫@是大數(shù)據(jù)時(shí)代對(duì)語(yǔ)言學(xué)提出的直接的要求,同時(shí)這也是語(yǔ)言學(xué)工作者的分內(nèi)之事。這個(gè)方面做好了,再去跟其他學(xué)科交叉結(jié)合,可能也會(huì)更容易一些,而且進(jìn)行大規(guī)模語(yǔ)言工程建設(shè)的過(guò)程,同時(shí)也就是檢驗(yàn)既有語(yǔ)言學(xué)理論的過(guò)程,在這個(gè)過(guò)程中,很可能也會(huì)提出新的理論問(wèn)題。下面主要就這個(gè)方面簡(jiǎn)略談兩點(diǎn)看法。

第一,漢語(yǔ)的電子化的大規(guī)模語(yǔ)言資源的數(shù)量、類(lèi)型多樣性、易獲得性等方面都還有待提高。跟英語(yǔ)的情況相比,漢語(yǔ)這方面目前仍有較大差距。以美國(guó)賓州大學(xué)的語(yǔ)言數(shù)據(jù)聯(lián)盟(LDC)②http://www.ldc.upenn.edu/為例,LDC是英語(yǔ)語(yǔ)言資源(同時(shí)也包括很多其他語(yǔ)種)的大超市,不同的研究單位按照LDC的格式規(guī)范將自己的語(yǔ)言資源提交給LDC,由LDC統(tǒng)一發(fā)布、管理、銷(xiāo)售(既有免費(fèi)資源,也有收費(fèi)資源)。從1993年成立至今,LDC的語(yǔ)言資源規(guī)模已經(jīng)達(dá)到565種(其中中文資源有50種),包括語(yǔ)料庫(kù)、知識(shí)庫(kù)、音頻資源、視頻資源等多種形式。中國(guó)中文信息學(xué)會(huì)仿照LDC的做法,在2003年成立了Chinese LDC(中文語(yǔ)言資源聯(lián)盟)③http://www.chineseldc.org/,目前語(yǔ)言資源規(guī)模僅95種。差距可見(jiàn)一斑。此外,隨著語(yǔ)言類(lèi)型學(xué)的研究不斷深入,積累的語(yǔ)言數(shù)據(jù)不斷增加,國(guó)外也出現(xiàn)了可以方便查詢(xún)的世界語(yǔ)言在線數(shù)據(jù)庫(kù),其中WALS(世界語(yǔ)言結(jié)構(gòu)地圖)④http://wals.info/languoid/lect/wals_code_mnd(世界語(yǔ)言在線地圖網(wǎng)站關(guān)于漢語(yǔ)普通話(huà)的數(shù)據(jù))是一個(gè)典型代表,WALS目前包含了2 678種語(yǔ)言的76 492個(gè)數(shù)據(jù)點(diǎn)。有些常見(jiàn)特征在很多語(yǔ)言中都有對(duì)應(yīng)的數(shù)據(jù)采集,比如關(guān)于“賓語(yǔ)和動(dòng)詞的語(yǔ)序”特征,就有1 519種語(yǔ)言的數(shù)據(jù)包含在WALS數(shù)據(jù)庫(kù)中。國(guó)內(nèi)漢語(yǔ)方言研究和少數(shù)民族語(yǔ)言研究多年來(lái)也積累了很多紙面的和若干電子化的材料,但把這些材料大規(guī)模數(shù)據(jù)化,并且放在互聯(lián)網(wǎng)上供學(xué)術(shù)界使用,還未曾見(jiàn)到。我國(guó)學(xué)者向來(lái)有治學(xué)首先應(yīng)注重材料的傳統(tǒng)。在大數(shù)據(jù)時(shí)代,語(yǔ)言材料的規(guī)模已遠(yuǎn)超昔日,要繼承乾嘉學(xué)派以來(lái)的樸學(xué)之風(fēng),就應(yīng)該群策群力,聯(lián)合起來(lái),盡快將漢語(yǔ)語(yǔ)言資源電子化,并加以系統(tǒng)整理,放到互聯(lián)網(wǎng)上供學(xué)界和社會(huì)使用。

第二,大數(shù)據(jù)時(shí)代的漢語(yǔ)語(yǔ)言資源建設(shè)不僅追求“量”,同時(shí)也重視“質(zhì)”。語(yǔ)言資源的“質(zhì)”可以從多個(gè)方面體現(xiàn),包括:(1)語(yǔ)言范疇形式化;(2)語(yǔ)言數(shù)據(jù)專(zhuān)項(xiàng)化;(3)語(yǔ)言知識(shí)可視化??偟哪繕?biāo)就是讓大型語(yǔ)言數(shù)據(jù)庫(kù)規(guī)范、好用。

語(yǔ)言范疇形式化是構(gòu)建大規(guī)模語(yǔ)言資源的理論基礎(chǔ)和工程基礎(chǔ),即提出一套元語(yǔ)言符號(hào)系統(tǒng),嚴(yán)密地表達(dá)一個(gè)語(yǔ)言模型,從而可以?xún)?nèi)部一致地對(duì)語(yǔ)言對(duì)象(事實(shí))進(jìn)行標(biāo)識(shí)。比如漢語(yǔ)的詞類(lèi)體系、短語(yǔ)結(jié)構(gòu)分類(lèi)體系、語(yǔ)義分類(lèi)體系等,都可以加以形式化,并用相應(yīng)的范疇標(biāo)記來(lái)標(biāo)注漢語(yǔ)的語(yǔ)料。以加工漢語(yǔ)樹(shù)庫(kù)(Treebank)為例,我們擬定了17個(gè)短語(yǔ)范疇標(biāo)記和95個(gè)詞范疇標(biāo)記①標(biāo)記集參見(jiàn):http://ccl.pku.edu.cn/doubtfire/Projects/Treebank_Tags.pdf,對(duì)100多萬(wàn)字的漢語(yǔ)真實(shí)語(yǔ)料進(jìn)行了分詞、詞性標(biāo)注、句法結(jié)構(gòu)標(biāo)注。在標(biāo)注過(guò)程中,發(fā)現(xiàn)了一些用傳統(tǒng)的短語(yǔ)結(jié)構(gòu)語(yǔ)法理論難以描述的語(yǔ)言現(xiàn)象(比如“他這是想家想的”,其句法結(jié)構(gòu)樹(shù)就很難用現(xiàn)有的短語(yǔ)結(jié)構(gòu)進(jìn)行標(biāo)注),這就促使我們重新思考原來(lái)的漢語(yǔ)句法理論設(shè)計(jì)。而在標(biāo)注完成后,我們可以定量分析樹(shù)庫(kù)中各詞類(lèi)、短語(yǔ)類(lèi)的分布情況,以及詞類(lèi)序列構(gòu)成歧義結(jié)構(gòu)的情況等,這些定量分析反過(guò)來(lái)也可以評(píng)價(jià)初始的詞類(lèi)劃分理論框架是否合理,為漢語(yǔ)的理論研究提供參考[15-17]。

語(yǔ)言數(shù)據(jù)專(zhuān)項(xiàng)化是語(yǔ)言資源工程建設(shè)不斷深化和擴(kuò)展的自然結(jié)果。為獲得優(yōu)質(zhì)語(yǔ)言數(shù)據(jù),人們已經(jīng)開(kāi)始建設(shè)各種不同性質(zhì)適應(yīng)不同需求的大規(guī)模專(zhuān)項(xiàng)語(yǔ)言數(shù)據(jù)庫(kù),比如中文輸入法中應(yīng)用的超大規(guī)模的領(lǐng)域詞典,文本情感分析中應(yīng)用的情感詞典,面向?qū)ν鉂h語(yǔ)教學(xué)的漢語(yǔ)述補(bǔ)結(jié)構(gòu)用法詞典等等,都是語(yǔ)言資源中的專(zhuān)項(xiàng)數(shù)據(jù)庫(kù)。跟早期的通用型語(yǔ)言數(shù)據(jù)庫(kù)相比,這些專(zhuān)項(xiàng)數(shù)據(jù)庫(kù)通常選擇特定的語(yǔ)言對(duì)象,有相對(duì)單一的應(yīng)用目的,因而有可能在資源規(guī)模、質(zhì)量和易用性等方面達(dá)到更高的水平。

語(yǔ)言知識(shí)的可視化,目標(biāo)是以形象生動(dòng)的方式展現(xiàn)枯燥的數(shù)據(jù)及數(shù)據(jù)間的關(guān)聯(lián)。無(wú)論是宏觀層面還是微觀層面的語(yǔ)言事實(shí),如果可以通過(guò)可視化界面來(lái)呈現(xiàn)相應(yīng)的語(yǔ)言事實(shí),用戶(hù)就更容易直觀地把握。下面是我們正在構(gòu)建的漢語(yǔ)述補(bǔ)結(jié)構(gòu)數(shù)據(jù)庫(kù)的兩個(gè)可視化頁(yè)面。見(jiàn)圖1、圖2。

圖1 述語(yǔ)“吃”所帶結(jié)果補(bǔ)語(yǔ)

圖2 計(jì)算機(jī)自動(dòng)提取的“干凈”的相關(guān)事件角色

圖1中“吃”所帶的補(bǔ)語(yǔ)詞“飽、完、掉、好……”等是人工搜集的。按照其在大規(guī)模語(yǔ)料中出現(xiàn)的頻次高低,安排它們離“吃”的位置遠(yuǎn)近,頻次高的距離“吃”近,反之則遠(yuǎn)。通過(guò)這種“距離像似性”,可以體會(huì)“吃”搭配不同補(bǔ)語(yǔ)的能力差異。點(diǎn)擊其中的補(bǔ)語(yǔ)節(jié)點(diǎn)“干凈”可以彈出一個(gè)文本框,顯示“吃-干凈”這個(gè)述補(bǔ)結(jié)構(gòu)的一些基本信息。進(jìn)一步點(diǎn)擊框中的“事件角色”,則可以顯示“吃”“干凈”各自的事件參與角色和二者共享的事件角色。圖2中的詞語(yǔ)就是“干凈”的事件參與角色,這些詞語(yǔ)是從CCL現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)①http://ccl.pku.edu.cn:8080/ccl_corpus(3.3億字)中用程序自動(dòng)抽取的,凡是跟“干凈”在同一個(gè)句子中共現(xiàn)的名詞,都被抽取出來(lái),按照共現(xiàn)頻次高低安排其在圖中的位置、顏色及字號(hào)大小。頻次越高的詞位置越靠中間、顏色越亮、字號(hào)越大。盡管自動(dòng)抽取的結(jié)果中有不少誤判,但因?yàn)閿?shù)據(jù)量大,那些典型的跟“干凈”共現(xiàn)頻率高的名詞(如“衣服、人、水、房間……”)還是凸顯出來(lái)了。

在大數(shù)據(jù)時(shí)代,語(yǔ)言學(xué)家擔(dān)當(dāng)著語(yǔ)言數(shù)據(jù)(知識(shí))的挖掘者、整理者、呈現(xiàn)者的角色。作為一個(gè)漢語(yǔ)研究者,有責(zé)任去挖掘和發(fā)現(xiàn)新的、有價(jià)值的漢語(yǔ)事實(shí),并作出盡可能詳盡的描寫(xiě)和盡可能合理的解釋。而且漢語(yǔ)語(yǔ)言學(xué)研究應(yīng)更加開(kāi)放,更加重視多學(xué)科的交叉和融合。這要求我們自覺(jué)地用更加多元的視角去看語(yǔ)言對(duì)象,像盲人摸象一樣,從單個(gè)視角,我們可能只能了解對(duì)象的一個(gè)側(cè)面,如果多一些視角,就可以提供關(guān)于研究對(duì)象的更為完整的畫(huà)面,使我們有可能更接近真理一些。這種開(kāi)放的研究態(tài)度,并非大數(shù)據(jù)時(shí)代的新鮮事物,語(yǔ)言學(xué)理論研究中也早有先例。比如語(yǔ)言學(xué)家借鑒信息論的思想,提出把語(yǔ)言中的重音位置跟語(yǔ)言成分所負(fù)載信息量的大小關(guān)聯(lián)起來(lái)的理論[18],就是以跨學(xué)科視角開(kāi)展研究的極佳例證。現(xiàn)在我們已經(jīng)邁入到大數(shù)據(jù)時(shí)代,開(kāi)展交叉和融合型的漢語(yǔ)語(yǔ)言學(xué)研究有更好的條件,理應(yīng)更加普遍。

[1]Viktor Mayer-Sch?nberger,Kenneth Cukier.Big Data:A Revolution That Will Transform How We Live,Work,and Think[M].Eamon Dolan/Houghton Mifflin Harcourt.中文版《大數(shù)據(jù)時(shí)代》.盛揚(yáng)燕,周 濤,譯.杭州:浙江人民出版社,2013.

[2]Oren Etzioni,Rattapoom Tuchinda,Craig A Knoblock,Alexander Yates.To buy or not to buy:mining airfare data to minimize ticket purchase price[C]//Proceedings of The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data mining.washington D C,USA:August 24-27,2003.

[3]Jeremy Ginsberg,Matthew H Mohebbi,Rajan S Patel,Lynnette Brammer,Mark S Smolinski,Larry Brilliant.Detecting influenza epidemics using search engine query data[J].Nature,2009(457):1012-1014.

[4]Kalev H Leetaru.A big data approach to the humanities,arts and social sciences[J].Research Trends,2012(30).

[5]馮志偉.自然語(yǔ)言處理的形式模型[M].北京:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2010.

[6]Peter F Brown,John Cocke,Stephen A Della Pietra,Vincent J Della Pietra,F(xiàn)redrick Jelinek,John D Lafferty,Robert L Mercer,Paul S Roossin.A Statistical Approach to Machine Translation[J].Computational Linguistics,1990,16(2).

[7]Peter F Brown,Stephen A Della Pietra,Vincent J Della Pietra,Robert L Mercer.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2).

[8]Franz Josef Och,Hermann Ney.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C].Proceedings of ACL,2002:295-302.

[9]劉 群.統(tǒng)計(jì)機(jī)器翻譯綜述[J].中文信息學(xué)報(bào),2003(4):1-12.

[10]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.

[11]Weikum G,Hoffart J,Nakashole N,Spaniol M,Suchanek F,Yosef M A.Big Data Methods for Computational Linguistics[J].IEEE Data Engineering Bulletin:Special Issue on Data Management beyond Database Systems,2012,35(3):46-55.

[12]David Ferrucci,Eric Brown,Jennifer Chu-Carroll,James Fan,David Gondek,Aditya A Kalyanpur,Adam Lally,William J Murdock,Eric Nyberg,John Prager,Nico Schlaefer,Chris Welty.Building Watson:An Overview of the DeepQA Project[J].AI Magazine,2010,31(3).

[13]Shuly Wintner.What Science Underlies Natural Language Engineering?[J].Computational Linguistics,2009,35(4):641-644.

[14]Emiel Krahmer.What Computational Linguists Can Learn from Psychologists(and Vice Versa)[J].Computational Linguistics,2010,36(2):285-294.

[15]詹衛(wèi)東.基于大規(guī)模中文樹(shù)庫(kù)的漢語(yǔ)句法知識(shí)獲取研究[C].第四屆漢學(xué)國(guó)際會(huì)議,中國(guó)臺(tái)北:臺(tái)灣中研院語(yǔ)言學(xué)研究所,2012.6.20-22.

[16]詹衛(wèi)東.從語(yǔ)言工程的角度看“中心擴(kuò)展條件”與“并列條件”[J].語(yǔ)言科學(xué),2012(5):449-463.

[17]詹衛(wèi)東.計(jì)算機(jī)句法結(jié)構(gòu)分析需要什么樣的詞類(lèi)知識(shí)——兼評(píng)近年來(lái)漢語(yǔ)詞類(lèi)研究的新進(jìn)展[J].中國(guó)語(yǔ)文,2013(2).

[18]端木三.重音、信息和語(yǔ)言的分類(lèi)[J].語(yǔ)言科學(xué),2007(5):5-18.

猜你喜歡
語(yǔ)言學(xué)漢語(yǔ)語(yǔ)言
學(xué)漢語(yǔ)
金橋(2022年6期)2022-06-20 01:36:16
輕輕松松聊漢語(yǔ) 后海
金橋(2020年11期)2020-12-14 07:52:56
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
讓語(yǔ)言描寫(xiě)搖曳多姿
追劇宅女教漢語(yǔ)
漢語(yǔ)不能成為“亂燉”
認(rèn)知語(yǔ)言學(xué)與對(duì)外漢語(yǔ)教學(xué)
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
我有我語(yǔ)言
語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
周至县| 绥化市| 高淳县| 东源县| 巴青县| 巴南区| 高阳县| 灯塔市| 温宿县| 尼玛县| 江陵县| 百色市| 达州市| 阿合奇县| 麻城市| 始兴县| 潜江市| 乐安县| 七台河市| 黎川县| 旅游| 三穗县| 张家界市| 浙江省| 韩城市| 屏南县| 黄龙县| 安平县| 南城县| 乐昌市| 共和县| 修水县| 沙坪坝区| 吉木乃县| 洪泽县| 定远县| 安徽省| 民权县| 镇江市| 法库县| 苗栗市|