国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計算機(jī)正改變著我們的語言生活

2020-01-18 10:16:14李宇明
韓山師范學(xué)院學(xué)報 2020年1期
關(guān)鍵詞:語言學(xué)漢字智能

李宇明

(北京語言大學(xué) 語言資源高精尖創(chuàng)新中心,北京 100083)

中文信息處理的發(fā)展史只有幾十年,但對于中國語言生活的影響,對于中國社會的推進(jìn),卻是巨大的。回顧中文信息發(fā)展的歷史,討論語言生活的變化,有利于認(rèn)識中文信息發(fā)展的規(guī)律并預(yù)測其走向,有利于把握語言生活的新狀況并幫助過好語言生活。本文討論三個問題:第一,中文信息處理的進(jìn)展;第二,語言生活的新時代;第三,語言學(xué)與中文信息處理。

一、中文信息處理的進(jìn)展

科學(xué)技術(shù)都是由問題驅(qū)動而前的。中文信息處理是在處理漢字、詞語和句子的一系列問題中,步步向前的。

1.漢字處理

中文信息處理起步于20 世紀(jì)七八十年代。一開始是處理書面語,遇到的第一個大問題便是漢字。在解決漢字信息處理時,取得了諸多成就:大規(guī)模統(tǒng)計了漢字使用頻率,總結(jié)出了“漢字效用遞減率(周有光)”,制定了第一個漢字編碼國家標(biāo)準(zhǔn)GB 2312-80。漢字鍵盤輸入的編碼方案“萬馬(碼)奔騰”,漢字自動識別技術(shù)、漢字存儲技術(shù)及輸出技術(shù)迅速發(fā)展。特別是王選教授研發(fā)的漢字激光照排系統(tǒng),使?jié)h字印刷告別了鉛與火的時代。此期,信息檢索也有進(jìn)步,主題詞表、文獻(xiàn)庫、全文檢索、自動標(biāo)引、自動文摘等方面都有成績可述。

2.詞語處理

漢字進(jìn)入計算機(jī)的難題逐步攻克,詞語處理成為亟待解決的問題,其基本任務(wù)是自動分詞和詞性標(biāo)注。漢語書面語,不像英、法、俄、德等語言以詞為單位排列,而是以字為單位排列。信息處理是以詞語為識別單位的,故而需要制定信息處理的分詞規(guī)則、建立分詞詞表、妥善處理表外的“未登錄詞”(基本上是專有名詞和專業(yè)術(shù)語)。漢語形態(tài)不發(fā)達(dá),詞類兼類現(xiàn)象較為普遍,需要制定適合信息處理的詞類系統(tǒng)、建立詞類標(biāo)注規(guī)范、確立詞性標(biāo)記集。為支持詞語處理,信息處理學(xué)界還建立了“語言工程”理念,建設(shè)了一些知識庫、語料庫,進(jìn)行了大規(guī)模的詞頻統(tǒng)計。此期,漢語語音處理技術(shù)(特別是語音識別)、機(jī)器翻譯、計算機(jī)輔助語言教學(xué)與測試等也都有進(jìn)步。中文信息處理技術(shù)整體邁入實(shí)用化、商業(yè)化階段。

3.句處理

詞語處理進(jìn)展到一定時期,句處理的任務(wù)就緊迫起來。句處理需要進(jìn)行句法分析和語義分析,還有更多的語用問題。句處理其實(shí)就是真實(shí)的自然語言處理,對于語言資源的需求也更為急切。為支持句處理工作,一批高質(zhì)量、大容量的大型通用漢語語料庫建立起來,如國家語委、清華大學(xué)、北京大學(xué)、北京語言大學(xué)等都建立了自己的大型語料庫。各類知識庫也先后被開發(fā)出來,如《現(xiàn)代漢語語法信息詞典》《動詞大詞典》、“知網(wǎng)”、《現(xiàn)代漢語語義詞典》《中文概念詞典》《同義詞詞林?jǐn)U展版》、漢語虛詞知識庫、漢語事件知識庫等等。此期,機(jī)器翻譯研究呈現(xiàn)新面貌,在語料庫語言學(xué)的指導(dǎo)下,基于實(shí)例的翻譯方法和統(tǒng)計翻譯方法得到廣泛運(yùn)用,網(wǎng)上機(jī)器翻譯系統(tǒng)發(fā)展迅速,口語機(jī)器翻譯研究取得突破。互聯(lián)網(wǎng)的進(jìn)步和網(wǎng)絡(luò)技術(shù)的發(fā)展,大大地促進(jìn)了信息檢索技術(shù)的發(fā)展,信息檢索、文本分類、信息抽取、文本摘要等的研究價值也充分顯現(xiàn)出來。計算機(jī)學(xué)界與語言學(xué)界合作緊密,中文信息處理呈現(xiàn)出蓬勃發(fā)展的情景。

4.數(shù)據(jù)驅(qū)動

2010年前后,中文信息處理掃除諸多中文處理的特殊困難,開始與國際自然語言處理更加同步。此時,“深度學(xué)習(xí)”“知識圖譜”“大數(shù)據(jù)”等概念流行起來,中文信息處理走上了“數(shù)據(jù)驅(qū)動”之路。詞向量技術(shù)帶動著語義分析領(lǐng)域的進(jìn)展,機(jī)器翻譯、信息檢索、人機(jī)對話、機(jī)器寫作、虛擬主持人、社會計算等領(lǐng)域都有突破性進(jìn)展,情感分析、機(jī)器語言行為等也受到關(guān)注。當(dāng)前,社會對于包括中文信息處理在內(nèi)的人工智能特別關(guān)心,國家制定了人工智能發(fā)展規(guī)劃,一批人工智能、語言智能的研究院、學(xué)院相繼建立起來。語言信息處理進(jìn)入一個新的繁榮期。

二、語言生活的新時代

中文信息處理開展的時間不長,機(jī)器的中文智能還比較低下,但的確是“人工智能一小步,人類社會一大步”?;厥走^往,會發(fā)現(xiàn)我們的語言生活已經(jīng)發(fā)生了巨大變化。

1.鍵盤時代

過去漢字要用筆書寫,現(xiàn)在主要用鍵盤敲擊?!版I盤時代”使我們常?!疤峁P忘字”,很多人已是手拙字丑,只認(rèn)識印刷體不認(rèn)識手寫體。鍵盤輸入,筆畫、筆順已經(jīng)沒有寫字時代那么重要,那么,小學(xué)識字教學(xué),是否還要特別強(qiáng)調(diào)“四、國”的第二筆有鉤無鉤?是否還要強(qiáng)調(diào)“萬”的第二筆、“方”的第三筆是寫一撇還是寫橫折鉤?從歷史上看,漢字形體的發(fā)展變化都是由書寫推進(jìn)的,如篆書演變?yōu)殡`書的“隸變”,隸書演變?yōu)榭瑫摹翱?。那么,以后漢字的形體還會發(fā)生變化嗎?鍵盤時代,帶給人很多寫字的憂慮,帶給人很多關(guān)于漢字前景的思考與遐想。

2.融媒體時代

語言總是需要媒介、需要載體的。文字和印刷術(shù)的出現(xiàn),使語言在聲波的基礎(chǔ)上又獲得了光波這一新媒介,產(chǎn)生了書面語,有了圖書報刊等平面媒體。廣播、電視的出現(xiàn),使語言又獲得了電波媒介,人類有了有聲媒體?;ヂ?lián)網(wǎng)的發(fā)展為人類構(gòu)筑了一個虛擬空間,產(chǎn)生了網(wǎng)絡(luò)媒體。平面媒體、有聲媒體、網(wǎng)絡(luò)媒體的迭代融合,便形成了融合媒體。中文信息處理,使我們在網(wǎng)絡(luò)時代可以進(jìn)入融媒體時代。

網(wǎng)絡(luò)媒體和融媒體,正在改變著我們的閱讀習(xí)慣。碎片化閱讀、行走中閱讀、讀標(biāo)題、讀圖等所謂的“淺閱讀”成為常態(tài),專心閱讀一篇長文已是“奢侈”之舉、罕見之事。信息檢索主要靠網(wǎng)絡(luò),靠知識庫,紙媒圖書已經(jīng)退居到知識的“橋欄桿”的地位。許多治學(xué)者也主要靠數(shù)據(jù)庫查閱文獻(xiàn),平時的文獻(xiàn)閱讀、素材積累的功夫正在退化。圖書、雜志等信息提供者已經(jīng)不滿足于向用戶被動地提供書目單或內(nèi)容提要,而探索著信息的二次加工和信息的精準(zhǔn)投送。融媒體時代,知識的生產(chǎn)、儲載、應(yīng)用的模式都在悄悄地發(fā)生著變化。

3.虛擬語言生活

互聯(lián)網(wǎng),特別是移動互聯(lián)網(wǎng),4G及5G互聯(lián)網(wǎng)為人類架構(gòu)了一個“虛擬空間”。而正是因?yàn)橛辛酥形男畔⑻幚淼某晒瑖朔娇稍谔摂M空間中過上虛擬語言生活。過去的語言交際方式是“人-人”交際,現(xiàn)在多數(shù)是“人-機(jī)”交際和“人-機(jī)-人”交際,在“人-機(jī)”交際和“人-機(jī)-人”交際的背后,其實(shí)還存在著“機(jī)-機(jī)”交際。網(wǎng)絡(luò)里,人們可以用虛擬身份進(jìn)行交際,可以利用微信等聊天工具同時在多個群里出現(xiàn),同時扮演不同的交際角色。人類的語言交際方式發(fā)生了重大變化。

人類在現(xiàn)實(shí)空間從事的各種活動,都嘗試遷移到虛擬空間中。在這種“空間大挪移”的魔術(shù)中,有些活動比在現(xiàn)實(shí)空間做得更好,有些則無法遷移,有些則可以在兩個空間中合作進(jìn)行。凡在虛擬空間做得更好的活動,就可能不在現(xiàn)實(shí)空間中進(jìn)行,比如信件被電子郵件代替了,郵遞員這個職業(yè)消失了。虛擬語言生活在改變著人類的活動方式,增加了許多新行業(yè),也“取締”了不少傳統(tǒng)職業(yè)。

虛擬語言生活十分活躍,新詞語及語言的新用法常在網(wǎng)絡(luò)上孕育,再傳播到現(xiàn)實(shí)語言生活中。就語言發(fā)展、語言風(fēng)格等方面來看,現(xiàn)在是虛擬語言生活在引領(lǐng)現(xiàn)實(shí)語言生活。網(wǎng)絡(luò)媒體成了新詞語、新現(xiàn)象產(chǎn)生的溫床,網(wǎng)民是語言發(fā)展最為重要的力量。對待網(wǎng)絡(luò)語言的態(tài)度要與時俱進(jìn)。

4.人與機(jī)器人的語言合作

隨著計算機(jī)語言智能的提升,計算機(jī)可以做的語言工作越來越多,介入人類的語言生活也越來越廣泛、越來越深入。語音輸入、口語與書面語的自動轉(zhuǎn)換、機(jī)器翻譯、文獻(xiàn)處理、人機(jī)對話、機(jī)器寫作等等,帶來了人與機(jī)器在語言生活中的深度合作。特別是將來具有語言智能的機(jī)器人出現(xiàn),人類將與機(jī)器人共處共事,共同進(jìn)行語言生活。這不是童話故事,而是正在實(shí)現(xiàn)的未來。目前,網(wǎng)絡(luò)上機(jī)器人的寫作已經(jīng)占到15%左右。

在人與機(jī)器人的語言合作中,不僅馴化著機(jī)器,人類也在馴化機(jī)器中改變自己,改變著自己的書寫習(xí)慣、閱讀習(xí)慣、語言交際習(xí)慣甚至是語言思維習(xí)慣。這些習(xí)慣正在形成一種新文化,這種新文化需要通過教育傳授給社會和未來人,正如文字產(chǎn)生之后要進(jìn)行掃盲和學(xué)校語文教育一樣。更為重要的是,語言智能會為社會各領(lǐng)域帶來發(fā)展“紅利”,也會促進(jìn)社會勞動力的大轉(zhuǎn)移,從被取締的行業(yè)轉(zhuǎn)移到新興行業(yè)。就個人而言,需注意語言智能的前沿發(fā)展,為自己插上語言智能的翅膀,而不是被機(jī)器碾壓。就國家來說,語言智能的發(fā)展已經(jīng)嚴(yán)重影響到國家人力資源的分配與開發(fā),需要及時調(diào)整學(xué)校的學(xué)科設(shè)置和課程設(shè)置,培養(yǎng)適合于語言智能時代的人才,同時也要及時發(fā)出產(chǎn)業(yè)預(yù)警,并通過社會培訓(xùn)有計劃地進(jìn)行勞動力轉(zhuǎn)移,防止出現(xiàn)大面積失業(yè)現(xiàn)象。

語言智能的發(fā)展在支撐著一個信息化時代,同時也須思考,語言智能(包括智能機(jī)器人)是否會用在危及人類的地方,機(jī)器人的智力“無限增長”是否會變得不可控制,而最終把人作為它的奴隸。這也許是“杞人憂天”,但也確實(shí)應(yīng)為語言智能裝上“牛韁繩”“馬籠頭”。這韁繩和籠頭,包括從業(yè)者的自律、科學(xué)道德和法律的保障。2018年,北京語言大學(xué)開始設(shè)立“語言智能與社會發(fā)展高層論壇”,既要促進(jìn)語言智能的快速發(fā)展,保證社會獲取人工智能的最大紅利,也要應(yīng)對語言智能發(fā)展可能帶來的倫理學(xué)、法學(xué)問題。

三、語言學(xué)與中文信息處理

1.數(shù)據(jù)與規(guī)則“雙輪驅(qū)動”

數(shù)據(jù)驅(qū)動著中文信息處理駛?cè)肟燔嚨?,在許多領(lǐng)域,中文信息處理已經(jīng)走在世界自然語言處理的前列。數(shù)據(jù)驅(qū)動的能量還極其強(qiáng)大,要不失時機(jī)地釋放數(shù)據(jù)的能量,推進(jìn)語言智能的快速發(fā)展,推進(jìn)語言智能的社會應(yīng)用。但是,數(shù)據(jù)驅(qū)動的缺陷也是比較明顯的,比如數(shù)據(jù)所包含的知識并不全面,可能具有“偏頗性”;數(shù)據(jù)學(xué)習(xí)表現(xiàn)的是統(tǒng)計頻率,而不是因果關(guān)系,不是客觀規(guī)律;機(jī)器從數(shù)據(jù)中學(xué)到了什么,人們并不十分清楚,深度學(xué)習(xí)是一只“灰箱”。有學(xué)者預(yù)測,數(shù)據(jù)驅(qū)動的發(fā)展也會遇到“天花板”。而規(guī)則是人對事物的認(rèn)識,對規(guī)律的把握,反映的是因果關(guān)系。語言智能的下一個學(xué)術(shù)發(fā)展周期,應(yīng)當(dāng)是數(shù)據(jù)與規(guī)則的“雙輪驅(qū)動”。這規(guī)則可能來自于多個學(xué)科,其中一個基礎(chǔ)學(xué)科就是語言學(xué),是語言學(xué)得到的關(guān)于語言及其運(yùn)用的規(guī)則。

2.語言學(xué)的“規(guī)則之輪”

語言學(xué)與中文信息處理有過一段超長的“蜜月期”,只是到了語料庫語言學(xué)時期,統(tǒng)計方法可以有效解決一些問題時,語言學(xué)的“規(guī)則”效力始被質(zhì)疑。到了深度學(xué)習(xí)的理論與方法流行之后,語言學(xué)的規(guī)則仿佛成了“無用之物”。語言學(xué)之“無用”源自三個方面:

其一,數(shù)據(jù)效力遮蔽了語言學(xué)效力,其實(shí)語言智能關(guān)于語言的屬性與概念、語言各層級各單位之間的關(guān)系、語言與人類社會的關(guān)系的認(rèn)識等,還都來自于語言學(xué)的基本知識體系。

其二,語言學(xué)的知識表述沒有形式化,是供人看的知識,而不適合于機(jī)器閱讀。形式化表述成了語言學(xué)知識到達(dá)語言智能車間的“最后一公里”。

其三,語言學(xué)是以語言結(jié)構(gòu)為學(xué)術(shù)基點(diǎn)的,主要精力在于語言結(jié)構(gòu)的研究上,而中文信息處理在基本解決了字、詞語的問題進(jìn)入句處理階段后,就開始了對真實(shí)話語的處理,而語言學(xué)對話語研究用力不夠,積蓄不多。為了打造語言智能的語言學(xué)“規(guī)則之輪”,語言學(xué)必須實(shí)現(xiàn)“話語轉(zhuǎn)向”,把學(xué)術(shù)基點(diǎn)轉(zhuǎn)至“話語”。話語是語言的真實(shí)存在狀態(tài),本應(yīng)成為語言學(xué)研究的重要對象。

中文信息處理的發(fā)展過程中,語言學(xué)起到了重要的支撐作用,包括人才支撐和語言學(xué)知識體系的支撐。同時,中文信息處理也得到了一些新的數(shù)據(jù),比如字頻和詞頻;提出了或強(qiáng)調(diào)了一些研究課題,比如詞的識別和詞性的識別、詞語兼類、專有名詞及其簡稱、數(shù)量結(jié)構(gòu)、代詞的指代關(guān)系、詞語和句子歧義問題等等;建設(shè)了一批語言工程,如各種語料庫、知識庫等,這些資源支持著語言研究的現(xiàn)代化;問世了一批語言信息化產(chǎn)品,如電子詞典、自動翻譯機(jī)等,幫助語言學(xué)開展社會語言服務(wù)。這些新數(shù)據(jù)、研究課題、語言工程、語言信息化產(chǎn)品也在啟發(fā)著語言學(xué),裝備著語言學(xué),提升著語言學(xué)的研究能力,推進(jìn)著語言學(xué)的現(xiàn)代化。

3.國家語言規(guī)劃

中文信息處理取得如此顯著的成就,與國家的語言規(guī)劃具有密切關(guān)系。1986年1月召開的全國語言文字工作會議就提出:漢語漢字的信息處理是一門新興的邊緣科學(xué),有廣闊的前景,加強(qiáng)這方面的研究,對經(jīng)濟(jì)、文化、科學(xué)技術(shù)的發(fā)展具有長遠(yuǎn)的意義。因此,當(dāng)前語言文字工作的任務(wù)必須包括這項內(nèi)容。之后,又進(jìn)一步提出了語言文字的“三化”(規(guī)范化、標(biāo)準(zhǔn)化、信息化),漢字整理工作的“四定”(定量、定形、定音、定序),并發(fā)布了信息處理用的多個規(guī)范標(biāo)準(zhǔn),甚至還成立了“語言文字信息管理司”專司語言文字信息工作。1986年之后,國家語委一直把語言信息化作為重要工作,除了制定語言信息化的工作目標(biāo)之外,所有工作都會考慮信息化的背景和對信息化的支持,許多語言文字規(guī)范,包括《通用規(guī)范漢字表》,都充分照顧到語言信息化問題。如果沒有國家語言政策的支持,我國的中文信息處理事業(yè),乃至整個國家的信息化事業(yè)都不可能有今天的局面。在語言智能時代,需要什么樣的國家語言規(guī)劃,這是應(yīng)當(dāng)繼續(xù)考慮的。多少有點(diǎn)遺憾的是,人們常常忽略國家語言政策、語言規(guī)劃對信息處理發(fā)展做出的重要貢獻(xiàn)。

4.語言學(xué)與信息科學(xué)的“雙棲教育”

學(xué)科交叉不僅是科學(xué)發(fā)展的要求,也是人才培養(yǎng)的要求。培養(yǎng)語言學(xué)與自然語言信息處理的交叉人才,是語言智能發(fā)展能夠獲得雙輪驅(qū)動的必要保證,也是促進(jìn)語言學(xué)能夠充分利用現(xiàn)代信息技術(shù)、實(shí)現(xiàn)話語轉(zhuǎn)向、乘借語言智能而發(fā)展自己的必要保證。而當(dāng)前,我國語言學(xué)人才培養(yǎng)的體制和機(jī)制,都不適應(yīng)新時代的語言生活,不適應(yīng)語言智能的時代發(fā)展,需要進(jìn)行改革。

在一些重要的文獻(xiàn)中,已經(jīng)理智地認(rèn)識到人工智能的發(fā)展,要與神經(jīng)科學(xué)、認(rèn)知科學(xué)、量子科學(xué)、心理學(xué)、數(shù)學(xué)、經(jīng)濟(jì)學(xué)、社會學(xué)等相關(guān)基礎(chǔ)學(xué)科交叉融合,但是往往忽視了語言學(xué),這是“語言意識薄弱”的一種表現(xiàn),也是不利于人工智能事業(yè)發(fā)展的。

猜你喜歡
語言學(xué)漢字智能
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
漢字這樣記
漢字這樣記
認(rèn)知語言學(xué)與對外漢語教學(xué)
語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
語料庫語言學(xué)未來發(fā)展趨勢
基于認(rèn)知語言學(xué)的“認(rèn)知修辭學(xué)”——從認(rèn)知語言學(xué)與修辭學(xué)的兼容、互補(bǔ)看認(rèn)知修辭學(xué)的可行性
新建县| 托克逊县| 上高县| 五大连池市| 来凤县| 铁岭县| 巴马| 响水县| 永川市| 正镶白旗| 中江县| 当涂县| 英山县| 台江县| 镇远县| 北辰区| 泰和县| 潢川县| 昭平县| 安陆市| 平乐县| 新安县| 大足县| 四会市| 平湖市| 深州市| 安塞县| 确山县| 西丰县| 织金县| 南昌市| 弥勒县| 连云港市| 德令哈市| 鹤壁市| 富顺县| 海原县| 高雄市| 广西| 迁安市| 德令哈市|