尹穎堯+曹曉晨+田媛
計算語言學到底研究啥
北語的計算語言學開設于全校唯一理工科學院信息科學學院(簡稱信科)。學院副書記李超是學院首屆本科學生,作為本碩博都在這兒讀的,徹頭徹尾的土著,講起北語信科和計算語言學,他滔滔不絕。
北語信科的歷史有近三十年了,前身是計算機科學與技術系,成立于2000年,再之前,是1987年成立的中國第一個以漢語信息處理為主要研究方向的“語言信息處理研究所”。2014年,北語進行了大部制改革,信科在原有的語言信息處理研究所基礎上,成立了另外三個研究所,分別是:大數(shù)據與語言教學研究所、語言監(jiān)測與社會計算研究所(國家語言監(jiān)測與研究平面媒體中心)和管理科學與工程研究所。幾個研究所基本上都與計算語言學學科直接相關,分別對語言的教學、研究和應用開展深入的研究。信科的主要任務是培養(yǎng)外語水平出色,具有信息處理基本素養(yǎng)的
人工智能大潮滾滾而來,語言信息處理是人工智能中最難突通用人才,在信息領域開展一些前沿性的研究。破和最難解決的核心技術問題之一。“語言智能與技術,是北語在中國語言文學一級
北京語言大學語言智能與技術(以下稱計算語言學),就是學科下,自主設置的二級學科。”李超說,計算語言專門做語言信息處理的。計算語言學是語言學的一個分支,學就是利用計算機對語言進行計算處理,比如要提出
某個語言現(xiàn)象,若沒有語言數(shù)據的支持,就不能成為
利用計算機對語言進行研究。不同于傳統(tǒng)的語言學,它是一一個語言規(guī)律。而發(fā)現(xiàn)規(guī)律一般有兩種方法:一種基門由語言學、計算機科學和數(shù)學三者交叉的新型學科,融合于規(guī)則,如語法專家經過研究,發(fā)現(xiàn)語言規(guī)律;另一了計算機的奧妙、語言學的神秘,還有數(shù)學的邏輯,在人工種基于統(tǒng)計,根據大規(guī)模數(shù)據提煉規(guī)則。后一種就是智能的科技大潮中,顯示出非凡的生命力和創(chuàng)造力。計算語言學主要做的事。
在這門融合了計算機科學、語言學和數(shù)學的計算語言學中,計算機科學是研究工具,語言學是處理對象,數(shù)學是建模工具,此外還會用到物理學等知識。李超進一步解釋:“計算語言學,是從字、詞、句、篇章、語音等各個維度去研究語言,比如讓計算機自動評判一個留學生寫漢字寫得對不對、好不好,這項技術的核心是數(shù)學曲線在二維平面的變換;再比如研究日本人說漢語,計算機可以判斷他們說得對不對、準不準,這項技術就利用了物理學中的聲學理論,通過發(fā)音的波形進行判斷?!庇嬎阏Z言學的應用還有很多,最常見的比如在拼音輸入法中,有一項功能是“拼寫和語法錯誤”,一旦判定有錯誤嫌疑,系統(tǒng)就會用紅色波浪線劃出。還有讓計算機評判一篇論文寫得好不好,對不對等。
資源優(yōu)勢獨一無二
除了北語,國內開展計算語言研究的還有清華大學、北京大學、中國科技大學、哈爾濱工業(yè)大學、復旦大學、中國科學院等名校。每所大學的研究各有側重,比如中國科技大學的科大訊飛主攻語音信息處理,特別是語音識別。語音識別的應用也很多,比如語音輸入法,又比如語音考試,“在口語考試中,有一種題型是模仿原聲讀句子,計算機會給考生自動評分。”傳統(tǒng)牛校的計算語言研究規(guī)模大,相比之下,北語更像是小團隊作戰(zhàn),但在某些領域有得天獨厚的優(yōu)勢。
這優(yōu)勢就是在語言資源方面,尤其是搜集外國人的語言資源上面。李超在寫博士論文時,需要收集各國人書寫的漢字樣本做研究。當時,他的一個師弟在英國讀博,也做著相同的研究。師弟采集樣本時跑遍了英國,還專門跑去了埃及,可是一年下來,收集的樣本規(guī)模還不如李超在北語一堂漢語課上收集得多?!霸诒闭Z,隨便推開一間教室的門,20位同學就可能來自20個國家,我只要收集每個人的漢字,就是20個國別樣本。”李超自豪地說。目前,約有170多個國家和地區(qū)的學生在北語學習,校園里能見到世界各地的人。在北語,研究語言信息處理根本不愁樣本,這是其他高校無法比擬的。
李超的博士論文研究外國人寫漢字。在傳統(tǒng)教學模式中,老師只能看到留學生寫完的漢字,看不到寫字過程中的筆畫順序,無法全方位判斷寫得怎么樣。李超研究時用了一種數(shù)碼筆,“它看起來和普通圓珠筆一樣,但書寫的時候,能記錄書寫者書寫漢字時的位置、速度、壓力等信息,再加上研制的算法,計算機就能告訴留學生寫的漢字到底對不對了,如果不對還能指出哪里寫得不對,給出修正意見。”
北語堅持‘專業(yè)+外語的復合型人才培養(yǎng)模式。大一到大四都開設英語課,學院本科生的英語專八考試通過率能達到70%。
此外,計算語言研究需要的理論知識,北語也有著得天獨厚的條件。“全球近300所孔子學院,由北語承辦的就有17所。在培養(yǎng)漢語國際教學師資方面,北語是培訓漢語國際教學師資的官方機構,對漢語國際教學中的各種教學研究得非常深入?!必S富的學生資源、專業(yè)的理論積累,都為北語的計算語言學提供了良好環(huán)境。
專業(yè)教學各有特色
北語計算語言學專業(yè)招收本科、碩士和博士。本科時要將基礎數(shù)學、物理、統(tǒng)計等基礎學科學扎實了,這可不簡單。在本科生眼里,高等數(shù)學、線性代數(shù)、離散數(shù)學和概率論與數(shù)理統(tǒng)計是“四座大山”。李超認為,在計算語言學專業(yè)中,數(shù)學是基礎,所有的語言現(xiàn)象都要對應一個語言模型。什么是語言模型?說得簡單點兒就是一個數(shù)學公式。攻克了“四座大山”,大三大四的學生就可以選人工智能、自然語言處理等選修課了,還可以參與到學院老師們的研究項目中。本科生直接申請項目或直接參與科學研究,這是北語信科的特色。
至于碩士和博士,北語的計算語言學專業(yè)文理兼收,“我們不挑人,會針對每個人的專業(yè)特長、興趣點對他們的研究方向進行專門定制?!崩畛f,多數(shù)碩士博士是理工科出身,他們會編程,但一般不懂語言學,進來后要補修《語言學概論》等語言學基礎課程。文科背景的研究生則要補數(shù)學和計算機課程,但這沒有想象中那么痛苦,“甚至有幾位文科研究生經過一段時間的學習,成了編程大拿。”
北語計算語言學強調動手能力,本科生、碩士生和博士生有時會參加同一個研究課題,但是對他們的要求是不同的:本科生做的是基礎工作;研究生則是解決課題中的一兩個具體問題;對于博士生,則必須有三五個完整的創(chuàng)新點,并以此為基礎完成博士論文,這是畢業(yè)的硬性要求。
去向好,招生難
談起同學們的畢業(yè)去向,李超精神一振:“北語堅持‘專業(yè) +外語的復合型人才培養(yǎng)模式。信科大一到大四都開設英語課,學院本科生的英語專八考試通過率能達到70%。”選擇就業(yè)的本科生和研究生,除了去外交部、新華社等國家級機構,以及中國銀行、工商銀行等金融單位從事信息技術相關工作外,還有不少畢業(yè)生在IBM、微軟、Google、百度、阿里巴巴、騰訊、新浪等從事軟件開發(fā)、信息管理、技術服務工作。
因為做的都是前沿研究,有意深造的同學去向也不錯,每年都有50%左右的本科畢業(yè)生赴國內外名校讀研,如清華、北大、北航、北郵、牛津大學、斯坦福、帝國理工、加州伯克利、哥倫比亞、賓夕法尼亞、卡耐基·梅隆、東京大學等。想讀博也不難,張勁松教授門下四位2015屆研究生,一個去了日本京都大學,一個去了美國伊利諾伊大學厄巴納 -香檳分校分校,一個去了澳大利亞麥考利大學,還有一個去了德國德累斯頓工業(yè)大學,都拿了全額獎學金。還有一個研究前后鼻韻母的2016屆研究生,聯(lián)系了西澳大利亞大學的一個大牛級教授,兩封信就談妥了讀博事宜。如今,每年都有外國高校請北語計算語言學的教授推薦博士生候選人。
“2012年,北語邀請第三方機構調查了校友滿意度,各院系中信科校友滿意度排名第一?!崩畛院赖卣f。不過校友滿意度第一也可能是由于一個令人哭笑不得的原因:沒來信科之前,不少同學對北語的唯一理工科學院不了解甚至有怨氣,來了后卻發(fā)現(xiàn)真的很棒,不虛此行。
畢業(yè)不愁出路的計算語言學,招生時卻讓學院操碎了心。考研時第一志愿填報北語計算語言學的,只要能過國家分數(shù)線就能被錄取。但每年招的30名碩士研究生,還是有近一半要靠調劑。2015年,計算語言學收到了100多個調劑申請,最后調劑生的平均分數(shù)比第一志愿錄取的還要高。
采訪手記:
這一次為報道北語計算語言學,記者們采訪了八位老師和學生。自豪和無奈,是每一位被采訪者都流露出的情感。他們自豪于自己的前沿研究,自豪于自己靈活的本碩博培養(yǎng)方案,自豪于學生的就業(yè)去向,自豪于畢業(yè)生對學院的真心熱愛。但是,也無奈于本科招不滿,研究生靠調劑的局面。正如李超所堅信的,是金子的終會發(fā)光。而北語計算語言學,不僅是金子,還是一座蘊藏著金子的金礦。
探索前沿,低調耕耘
采寫/本刊記者 尹穎堯 曹曉晨文字整理/陳林芩
北語計算語言學有一群大牛教師,他們的研究前沿、有趣。記者分別采訪了研究語言教學、研究和應用的幾位代表教授。
于東副教授——讓計算機“聽懂”語言
主攻語言信息處理的于東老師研究語義計算,即讓計算機“聽懂”、并且理解人說的話。
于老師介紹,語義學歷經了三代研究。第一代是做生物分類體系般的語詞典,通過條目分類囊括所有的詞語。第二代是制作知識圖譜,如網友自發(fā)編輯的百度、維基等百科,每一個詞條形成一個小數(shù)據庫。第三代則將詞義抽象表示出來,再通過計算機分析詞與詞之間千絲萬縷的關系。比如“雞蛋”,可讓計算機通過50個數(shù)字表示,表面看50個數(shù)字毫無關聯(lián),但一旦所有的食物都由50個數(shù)字表示出來后,計算機就能發(fā)現(xiàn)“雞蛋”和“母雞”間的聯(lián)系,并能將它們的關系類比為人類母親和孩子的關系。
提取個人中文簡歷中的信息,也是于老師重點負責的項目之一。對于有百度百科詞條的人,他們的信息比較完整,普通人的信息則散落在互聯(lián)網的各個角落,需要好好尋找。簡歷中,人們往往會寫祖籍、出生地、年齡等信息,于東和學生們將這些信息提取后建模,再在更大的互聯(lián)網文本中,找與這個人有關的
用計算機解決語言應信息,比如曾經待過的地方、做過的職位、人物關系用問題,即計算機理等等。之后逐層推導,繪制出一份社交圖譜——以一解語言的句法結構和個人為中心,找出與之相關的人及其職位,構成人物語意結構,是當前大關系網絡。這個項目2013年啟動,仍在進行中。熱的人工智能的一個用計算機解決語言應用問題,即讓計算機理解方向。語言的句法結構和語意結構,是當前大熱的人工智能
的一個方向。餓了吃飯,臟了洗澡,這是人的常識,但計算機沒有這個常識,如何讓計算機獲取、表示,甚至運算這種常識性知識,仍是研究的一個難點。 2015年,于老師所在的大數(shù)據研究所團隊加入了國家 “863”計劃項目“面向基礎教育的知識能力智能測評與類人答題驗證系統(tǒng)”,2016年再次申請到國家社科重點項目資助,目標就是以語法、語義結構分析為核心技術,幫助人工智能參加高考,并在高考科目中達到一定水平。
鏈接:在知識圖譜領域,清華大學和中國科學院都在做相關研究,前者注重在知識圖譜基礎上的知識推理,而后者關注如何從原始文本中抽取知識圖譜。北語計算語言學更多是在積累資源,從文本中挖掘知識,并著手清華和中科院都不怎么關注的常識領域。
荀恩東教授——寫手漂亮的漢字
信科學院大數(shù)據與語言教學研究所所長荀恩東教授的研究,主要包括兩個部分。一是用計算機幫助漢語學習。在北語這個擁有不同膚色學生的“小聯(lián)合國”,很多留學生寫漢字如同畫畫,而且沒有筆順概念。荀教授和同學們研發(fā)了幫助留學生寫好漢字的手機APP——“易漢字”,以國家規(guī)定的筆畫筆順為標準,指導學生寫出標準的漢字。這款軟件針對的不僅僅是外國人,沒機會“練筆”的中國成年人同樣是目標對象。
如今,人們提筆忘字的現(xiàn)象越來越嚴重,為讓人們寫得一手好字,荀教授還請來了書法家,采集其書寫漢字的過程和成型的字體,讓大家在APP上跟著書法家一筆一畫地臨摹。此外,荀教授還將師生互動從課堂上搬到了移動終端上。課前,他將課上要講的內容發(fā)送至手機等終端,供學生預習,課后,他收集學生練習的結果,作為研究的第一手資料。
與于東老師一樣,荀教授也關注人工智能中的常識問題。此外,他還牽頭建立了BCC現(xiàn)代漢語語料庫(http://bcc.blcu.edu.cn/),總字數(shù)約 150 億字,包括報刊(20億字)、文學(30億字)、微博(30億字)、科技( 30億字)、綜合( 10億字)和古漢語(20億字)等多領域語料,可供檢索,服務于教學、輿情等。它是目前國內最大、被使用次數(shù)最多的語料庫,不論是博士、碩士生寫論文,還是老師做語言學研究,都能用到它。
鏈接:北京語言大學在漢語學習的理論方法領域做得最深入,比如漢語的字、詞、句、篇章的分析和處理技術,在國內可比肩清華大學、中國科學院大學、哈爾濱工業(yè)大學、和復旦大學等知名院校,也絲毫不比國外遜色。
荀教授和同學們研發(fā)了幫助留學生寫好漢字的手機APP——“易漢字”,以國家規(guī)定的筆畫筆順為標準,指導學生寫出標準的漢字。
2015年,張教授的團隊在日本同學中做測試,參加測試前,日本同學發(fā)音的準確率是80%,經過一段時間的訓練,準確率達到了90%。
張勁松教授——改進洋腔洋調
張勁松教授關注計算機輔助發(fā)音教學和實用語音學。經過調研,張教授發(fā)現(xiàn)計算機輔助發(fā)音的第一代產品,運用的是語音匹配技術,用打分的方式判斷發(fā)音是否標準,但這對學生改進和提高發(fā)音的幫助實在有限?!皩W生只知道自己發(fā)音的水平,卻不知道哪兒出了問題。這樣的反饋,于教學而言遠遠不夠?!?/p>
怎樣才能讓學生更好地改進發(fā)音呢?
帶著這一目標,張老師把發(fā)音分成“三個環(huán)節(jié)、五個層面”,挨個兒攻克難關。五個層面指音段、聲調、語調、語段和韻律?!叭齻€環(huán)節(jié)”的第一個環(huán)節(jié)是產出環(huán)節(jié)。張老師發(fā)現(xiàn),將漢語作為第二語言學習,不同國家的學生有著不同程度的“洋腔洋調”。比如日本人分不清l、r和zhi、chi、shi,送氣也不足。此外,日本人講中文時,也許每個音調都正確,但他們不明白漢語的韻律、節(jié)奏,連起來說時句子聽起來十分生硬。第二個環(huán)節(jié)是知覺層面,這個層面常見的問題是在教學過程中,老師講的東西同學能理解多少,老師不能確定,如“媽”和“馬”,有的同學聽起來完全一樣。第三個層面是交際層面,這個層面也有一些容易產生的問題,比如,中國人與外國人聊天時,為了讓對話順利進行下去,有時會選擇性忽略外國人說中文時的錯誤,這樣一來,外國人就認為自己的錯誤表達是正確的,這是加深印象或鞏固錯誤的陷阱。
隨后,張教授帶領同學們有針對性地解決這些問題。在知覺環(huán)節(jié),針對日本學生陽平上聲不分的問題,團隊利用物理參數(shù)合成音高區(qū)間,并劃分了十個次級,“對母語是漢語者來說,聽 1~4 級時, 100%的人都表示聽到的是陽平;聽 7~10級時, 100%聽到的都是上聲;而聽 5或6級時,他們也會拿不準。”團隊把中國人聽1~10次級的情況告訴日本同學,并針對他們的薄弱環(huán)節(jié)進行針對性的訓練。 2015年,張教授的團隊在日本同學中做測試,參加測試前,日本同學發(fā)音的準確率是 80%,經過一段時間的訓練,準確率達到了 90%。
鏈接:在計算機輔助發(fā)音教學領域,美國佐治亞理工學院、香港中文大學、新加坡A*STAR(Agency for Science,Technology andReseach)研究所、日本京都大學等都有相關研究。由于北語開展得比較早,目前在國內外都處于前沿地位,研究成果在領域內也極受重視。