連誼慧
編者的話:人工智能近年來的飛速發(fā)展離不開自然語言處理技術(shù),即讓機器理解人類的語言。自然語言處理技術(shù)的發(fā)展和應(yīng)用正在改變著人類的生存方式。它既是語言生活的重要組成部分,也是推動語言發(fā)揮社會功能的重要動力。8月28日,中國中文信息學會和中國計算機學會聯(lián)合主辦的“首屆語言與智能高峰論壇”在北京召開。在論壇的討論環(huán)節(jié)中,八位專家就“語言與智能技術(shù)的未來發(fā)展”發(fā)表看法,分別探討了類人語言理解系統(tǒng)的特點、深度學習的原理及應(yīng)用、AlphaGo成功的啟示、未來五年語言理解領(lǐng)域關(guān)鍵技術(shù)和研究方向等問題。本期我們整理了這部分發(fā)言,以饗讀者。
關(guān)注人類學習語言的過程
孫 樂(中國科學院軟件研究所) 人類智能的演化歷經(jīng)猿腦到人類祖先的進化,靈巧手及簡單工具的使用,基因遺傳智力的發(fā)展,大腦容量持續(xù)增加以及語言的出現(xiàn)。其中基因遺傳智力、大腦容量的增大以及語言的出現(xiàn),是人類智能發(fā)展的幾個關(guān)鍵節(jié)點。
人類語言不同于動物語言的地方在于:人類的語言單位是非常明晰的,音義結(jié)合具有任意性,語言具有結(jié)構(gòu)性、開放性、可傳授性,不受時間、地點的約束,我們可以看到,人類語言的句子可以進行切分,而且可以依據(jù)語法把切分得到的成分重新進行組合,生成新的語言片斷,從而能夠用有限的符號表達出無限的意義。
以色列歷史學家尤瓦爾·赫拉利在《人類簡史》中提到,距今7萬年前智人的認知能力發(fā)生了革命性的變化,智人在與其他人類物種的競爭中勝出的原因,最有可能的是智人擁有獨特的語言。這本書給出了幾個例子,當智人會講述河邊有只獅子的時候,實際上是具有了傳達身邊環(huán)境信息的能力,而進一步能夠規(guī)劃并執(zhí)行復雜的計劃,比如狩獵。此外,智人逐漸具備了另外一個能力,就是八卦,這實際上是人和人之間對社會關(guān)系的信息的傳遞,也意味著人類開始有了能夠傳達虛構(gòu)概念信息的能力。有了虛構(gòu)故事以后,就可以組織更大更有凝聚力的團體,也可以開展陌生人之間的分工合作和協(xié)同創(chuàng)新。
當代最有影響力的哲學家卡爾波普爾教授提出了三個世界的理論。他把世界分成客觀世界、精神世界和知識世界,而這三個世界之間是交互的,進而形成了人類社會與自然界之間錯綜復雜的關(guān)系。自然語言正是對這三個世界的描述。隨著語言研究的深入,我們越來越認識到問題并不僅僅在于語言的復雜性,而在于整個世界的復雜性。
在人類語言的習得過程中最關(guān)鍵的是出生后五年的時間,從牙牙學語到單個詞的發(fā)音,到兩個詞的組合,最后到短語、復雜句子的掌握。對這個過程的論述有兩種傳統(tǒng)論點:一是喬姆斯基的先天論,語言功能被編碼于人類大腦之中;二是斯金納的后天論,語言通過學習原理獲得。
如今的AI(Artificial Intelligence,人工智能)大勢,涉及從邏輯推理到規(guī)則專家系統(tǒng),到深度學習、機器學習的大數(shù)據(jù)智能??梢哉f,大數(shù)據(jù)時代代表的人工智能系統(tǒng),不但要有數(shù)據(jù)、模型,還需要有大規(guī)模的知識和強大的計算能力。在這一主題下,我們應(yīng)重點關(guān)注人類學習語言的過程,并研究如何構(gòu)建一個類人的語言理解系統(tǒng)。未來五年,語言理解領(lǐng)域中需重點突破哪些關(guān)鍵技術(shù)、拓展哪些研究方向,還有待學界共同探索。
從“遷移學習”反觀人類如何學習語言
楊 強(香港科技大學) 人是否能夠從少量的樣本學習語言,這是關(guān)系到人工智能發(fā)展的一個核心命題。對此,我們目前還不知道人是怎么學習語言的,而更多的只是知道如何讓機器學習語言。但是,我們會從一些現(xiàn)象中看出這一點:我有很多朋友在美國,也在做自然語言處理研究,但是當他們有了小孩子以后,觀察自己的孩子學習語言,會發(fā)現(xiàn)語言學可能“白費了”。孩子往往能舉一反三,不知道哪一天就學會了語言,他們就覺得非常的驚喜。
從機器智能的角度有幾個方面可以作為研究的入口,比如“遷移學習”。在“深度學習”和“強化學習”策略的基礎(chǔ)上,把模型從一個通用的場景遷移到一個個性化的場景,遷移到小數(shù)據(jù)以及有冷啟動需求的場景,就可以引入“遷移學習”。我認為人類正是在大腦已經(jīng)有了很多固定的模型的基礎(chǔ)上,再借助其中一些可以改變的地方,通過“遷移學習”,加上環(huán)境影響以及初始幾年的觀察去學習語言。
腦科學研究也呼應(yīng)了這一假設(shè)。中國科學院外籍院士蒲慕明教授在第二屆人工智能大會上表示,人類在一開始確實存在很多神經(jīng)網(wǎng)絡(luò),留給后天學習的空間,但是隨著年齡增長,很多又被遺忘,遺忘的速度和人類的疾病又直接相關(guān)。如果遺忘得太多就變成老年癡呆,如果遺忘得比較慢就會變成自閉癥。這完全是從生物學角度來觀察,卻給了我們新的啟發(fā)。
語言理解領(lǐng)域未來五年的機遇和挑戰(zhàn)
胡 郁(科大訊飛股份有限公司) 在語言理解領(lǐng)域,研究需要和工業(yè)應(yīng)用緊密結(jié)合,但二者卻有著各自的特點。
首先,是它們關(guān)注的領(lǐng)域不同,分工也不一樣,而且各自的發(fā)展是交錯遞進的。比如說,做語音識別的黃金時間是20世紀90年代,有大量的文章建立在隱馬爾可夫模型基礎(chǔ)上,建立在貝葉斯網(wǎng)絡(luò)的基礎(chǔ)上,取得了不少研究成果。然而最終這方面的技術(shù)在工業(yè)上的應(yīng)用卻比較有限。事實證明,近十年來深度神經(jīng)網(wǎng)絡(luò)方面的研究成果卻被工業(yè)界所廣泛使用。
其次,對于同樣的領(lǐng)域,學術(shù)研究和工業(yè)應(yīng)用的出發(fā)點和研究路徑也不同。以深度神經(jīng)網(wǎng)絡(luò)為例,可以通過它很簡單地用大數(shù)據(jù)去凝練一個東西。從工業(yè)界的角度來說,這沒有問題,因為工業(yè)界要看最終結(jié)果,只要能夠為我所用,整合起來用到產(chǎn)品上并產(chǎn)生效益即可。而研究不是這樣的套路,研究需要去了解其背后的模型以及方法,包括其內(nèi)部的結(jié)合規(guī)律。學術(shù)研究需要“積累一桶水”,而工業(yè)生產(chǎn)可能“只取一瓢飲”。從技術(shù)發(fā)展的角度講,技術(shù)總要從初步研究階段到達技術(shù)爆炸階段,然后躍過技術(shù)爆炸,再到技術(shù)普及的階段。
未來五年,學術(shù)界應(yīng)主要做兩方面的事情,一是進行更加前瞻性的研究。比如腦科學領(lǐng)域,它對人工神經(jīng)網(wǎng)絡(luò)到底會產(chǎn)生什么影響。二是深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用型研究。在這方面,工業(yè)界的廣泛應(yīng)用已經(jīng)形成了大數(shù)據(jù)。學術(shù)界需要在此基礎(chǔ)上深入發(fā)掘,看看里面還有沒有其他的機器學習規(guī)律和需要解決的問題。對于工業(yè)界,目前有兩大挑戰(zhàn)。一是在技術(shù)還不完美的情況下將其充分應(yīng)用,如何揚長避短、取長補短,并通過產(chǎn)品設(shè)計和場景設(shè)計讓技術(shù)真正有用。二是對技術(shù)本身的拓展,如何充分發(fā)揮已有的大數(shù)據(jù)和人工智能成果,聯(lián)合學術(shù)界進行深入研究。
什么是“語言的理解”
聶建云(加拿大蒙特利爾大學) 什么是語言的理解?在不同的時期談到的語言理解,意義不一樣。過去,某個人對語言的理解就是會用這個語言,比如寫一個句子可能沒有語法錯誤等,據(jù)此可以認定他已對該語言有一定的理解能力。而現(xiàn)在我們講的語言理解更多是從語義角度來說的,比如說話人所講的一些概念、所要說的內(nèi)容,我們能否完整地理解。
此外,語言的理解存在不同的層次。舉一個例子,某人寫了一篇英語文章,但其英語不是很好,叫一個人去改英語。修改者對文章的內(nèi)容或許并不理解,但他完全可以從語言的角度進行修改。這時候我們說他對文章有一定的理解,并非意味著對其內(nèi)容有完整的理解,而是對語言本身有一定的理解。而更深入的層次,應(yīng)該是對語言本身和文章內(nèi)容的雙重理解。
因此,我們考慮建立一個完整的語言理解體系,必須明確目標,即做到哪一個層次。對于相關(guān)領(lǐng)域的企業(yè),有哪些任務(wù),需要用什么手段去完成,這和語言理解到什么程度,針對哪個方向、哪個方面的理解密切相關(guān)。某個方面的運用可能并不需要對語言里的每一個層次都去理解,可能只需要某一個方面的理解。比如,我們對英語的改錯,可能對內(nèi)容不需要理解,只需對表面的現(xiàn)象做一些修改即可。
另外,在促進語言理解方面,少量樣本學習非常重要。目前,我們尚未充分發(fā)揮其作用。學界做了很多知識圖譜,重點關(guān)注如何將其從大數(shù)據(jù)里挖出來并形成規(guī)律,然而對這些知識如何運用卻挖掘得比較少。究其原因,我們從文本里挖掘知識的前提是描述知識本身,而要去描述對知識的應(yīng)用則困難得多。從這個角度上來說,少量樣本學習的研究有更加廣闊的空間,應(yīng)引起更多的關(guān)注。
如何構(gòu)建一個類人的語言理解系統(tǒng)
王海峰(百度公司) 構(gòu)建類人的語言理解系統(tǒng),首先要確定“類”的內(nèi)涵。比如,我問一個人他專業(yè)領(lǐng)域之外的問題,他能聽清楚我說的每一個字卻無法回答我的問題。如果我去問這個領(lǐng)域的專家,專家一定可以回答。然而,若一個90后的小朋友用網(wǎng)絡(luò)語言的表達方式來問他,他則不一定能聽懂,從而也無法回答。反過來,如果他聽懂了問題并用一種專業(yè)的表述來回答,這個小朋友也聽不懂。
這里涉及一系列的問題。以問答系統(tǒng)為例,一是要有對人類語言的理解,二是要有對知識的掌握和運用,三是要有語言的生成,這樣一個問答系統(tǒng)才能夠形成。這是計算機模擬人的問答交流的過程,而模擬人的翻譯過程又是另一套方法。因此到目前為止,我們還無法去建立一個完全通用的“類人”系統(tǒng),“類人”和目標設(shè)定密切相關(guān)。
對語言的理解,對知識的掌握和運用,其背后是什么?我認為是基于大規(guī)模數(shù)據(jù)的深入挖掘。不管是挖掘語言規(guī)律,還是挖掘知識,或是運用這些知識去推理,都需要從海量數(shù)據(jù)中做數(shù)據(jù)挖掘。目前,從完成任務(wù)的角度來說,在某些方面,計算機的水平甚至比人的水平還要高,比如“百度翻譯”,可以翻譯幾十種語言,很多場景下翻譯結(jié)果基本是可靠的,從某種程度上來說這超出了一個人的能力。
人和機器的不同在于,人可以去舉一反三,或采用這樣一種學習模式,而機器不是“看到一個反三個”,而是可以直接看到一百個、一千個,甚至更多,進而去學習、整理。比如,一個翻譯系統(tǒng),我們可以用數(shù)以億計的人翻譯過的、從互聯(lián)網(wǎng)中挖掘出來的雙語數(shù)據(jù)去訓練它。再比如,AlphaGo之所以可以戰(zhàn)勝李世石,正是因為它能夠利用計算機的優(yōu)勢看到更多的棋譜,從而進行學習。因此,機器和人的學習機理不一樣,這也正是計算機進行語言理解的優(yōu)勢,是我們構(gòu)建“類人”的語言理解系統(tǒng)的基礎(chǔ)。
從技術(shù)向原理回歸
邢 波(美國卡耐基梅隆大學) 這幾年在機器學習以及NLP(Natural Language Processing, 自然語言處理)領(lǐng)域,刷比分的文章層出不窮,我對此比較擔憂。我認為,學者們應(yīng)有自覺的沖動和熱情去關(guān)注技術(shù)的原創(chuàng)性和原理的突破。
從我個人的觀察以及與很多同行的交流來看,很多談?wù)摱技性趯τ趩栴}的描述或者宏觀性的展望,少有對于技術(shù)性或者原理性的執(zhí)著。很多知名學者和研發(fā)領(lǐng)袖的大量言論、頻繁演說都集中在這個層面。近幾年,這種情況在機器學習領(lǐng)域中非常突出。甚至還有一些近乎輕浮的觀點,諸如建議初學者不要從理論開始入手,不要在算法上花費太多時間,甚至無需懂線性代數(shù)這樣的誤導性極強的、來自個別新潮明星應(yīng)用工程師們的論調(diào)在公共論壇中大行其道,被奉為圭臬。
特別是當有一個“大錘子”,像深度學習這樣的方法出現(xiàn)之后,就更加速了大家去“摘果子”的熱情,對原創(chuàng)性、原理性的熱情便減弱了。原創(chuàng)性研究和對原理的探索非??菰铮貓笾芷陂L,但卻是任何一個學科發(fā)展的必要環(huán)節(jié)。此外,這樣的工作不是某個人、某部分人或者某個團體能夠獨立完成的,它需要學術(shù)界和工業(yè)界共同合作完成。
一個好的研究環(huán)境不存在學校和企業(yè)、工程和理科的區(qū)別,一個好的學者必須擁有融會貫通的能力,能夠在對實際問題進行深入理解的同時充分地掌握原理。而這往往是我們在現(xiàn)代科學環(huán)境里缺乏的一種學術(shù)品位。
舉個例子,如果在原理不明的情況下去推動一個產(chǎn)品,你是否敢用,如何介紹給別人用呢?原理不清,就表示你對其結(jié)果沒有十分的把握,在這種情況下售賣產(chǎn)品有極大的風險性。就最近的特斯拉自動駕駛車事故來說,一個機器視覺或者機器人專家絕不會在自動車上把手離開方向盤去睡覺,因為他知道這個系統(tǒng)其實沒有那么可靠。但是由于過度的宣傳以及社會對人工智能的依賴和期待,人們往往忽視了它的局限和缺陷。這就需要學者和工程師對產(chǎn)品的原理和透明度有執(zhí)著的追求,也需要媒體、政府對人工智能應(yīng)用開發(fā)的理性和冷靜,對基礎(chǔ)研究的理解和重視。
在常規(guī)的人工智能開發(fā)中去做任何一個突破性的判斷,都值得研發(fā)者充分思考。希望大家更冷靜一些,去關(guān)注數(shù)學原理,重視枯燥的基礎(chǔ)性的工作,在實現(xiàn)的形式和算法的保障方面多下功夫。
語言理解的數(shù)據(jù)、方法和應(yīng)用
周 明(微軟亞洲研究院) 關(guān)于語言理解領(lǐng)域,我特別關(guān)注三方面的問題:
一是數(shù)據(jù)。過去幾年無論是做搜索還是做語音,方法在一定水平情況下動不了的時候,誰有大數(shù)據(jù)誰就最厲害,比如搜索,學術(shù)界玩兒了半天IR(Information Retrieval,信息檢索),沒有大規(guī)模的用戶搜索的日志和反饋數(shù)據(jù),水平根本上不去。語音也一樣,像Siri,把海量用戶的每天使用的語音數(shù)據(jù)拿過來重新訓練系統(tǒng),Siri的語音就提高了很多。似乎數(shù)據(jù)工作包括獲得數(shù)據(jù)、整理數(shù)據(jù),從數(shù)據(jù)中做出一些歸類、聚類,發(fā)現(xiàn)知識和規(guī)律,似乎是很煩瑣的工作,但卻是我們這個學科的根本。在今年的ACL(Annual Meeting of the Association for Computational Linguistics,計算語言學年會)上,少有學者談數(shù)據(jù)的問題。我認為數(shù)據(jù)是值得大家好好討論的問題,尤其是對中國學者而言,如果狠抓各類有用數(shù)據(jù),包括無標注、有標注的數(shù)據(jù),就很有希望實現(xiàn)趕超。
二是方法。將“遷移學習”演繹一下,就是將在A領(lǐng)域好用的方法,放到B領(lǐng)域去研究、繼承和發(fā)展。通過應(yīng)用可以發(fā)現(xiàn)有什么更好的方法,會遇到哪些挑戰(zhàn),遇到挑戰(zhàn)后如何調(diào)整?這樣又會產(chǎn)生新的方法。遷移的概念,推而廣之,其實就是跨學科合作或跨領(lǐng)域合作的問題。目前神經(jīng)網(wǎng)絡(luò)機器翻譯很熱,可是我們從中發(fā)現(xiàn)了很多問題,比如丟詞特別厲害,或者翻出了多余的片段?,F(xiàn)在大家都在把統(tǒng)計機器翻譯的方法一點點放到神經(jīng)網(wǎng)絡(luò)中去?,F(xiàn)在神經(jīng)網(wǎng)絡(luò)機器翻譯中的Attention 模型,它是概率分布式的,對每個詞的翻譯,要利用所對應(yīng)的源語句子的詞匯,按照不同的概率發(fā)生作用。統(tǒng)計機器翻譯中的成分,比如翻譯概率和詞匯對齊,通過這種方式融入到神經(jīng)網(wǎng)絡(luò)中,我認為就是一種有效的方法的遷移和融合,只不過上升到了一個新的概念。目前,多數(shù)文章都從自己的角度闡述了應(yīng)用神經(jīng)網(wǎng)絡(luò)改進某些NLP(自然語言處理)任務(wù),但是少有將領(lǐng)域有關(guān)的知識、規(guī)則和深度學習相融合的研究。我認為這兩者融合未來非常重要。
三是應(yīng)用。自然語言處理是一個應(yīng)用學科,要由應(yīng)用來牽動科研的發(fā)展,如果沒有應(yīng)用驅(qū)動,可以天天談腦科學的問題,談50年、500年也還是這些問題。通過應(yīng)用將研究的長遠目標和短期目標結(jié)合起來,是學科發(fā)展的關(guān)鍵。
最后談?wù)凬LP未來的研究重點,我比較關(guān)注如下兩個方面。一是上下文建模和多輪對話。我們做機器翻譯,做問答系統(tǒng),做聊天系統(tǒng),目前面臨的最大問題就是對上下文建模的能力不足,而且多輪對話能力不足。隨著手機的應(yīng)用越來越普及,NLP工作者渴望解決口語現(xiàn)象和多輪對話問題。也許深度學習和強化學習會有很好的用武之地。二是神經(jīng)網(wǎng)絡(luò)機器翻譯。目前已有很好的進展,但是方興未艾。其中探討神經(jīng)網(wǎng)絡(luò)機器翻譯和統(tǒng)計翻譯各種形式(模型、特征)的結(jié)合,將會有很大的發(fā)展前途。
AlphaGo的成功對語言理解有何啟發(fā)
馬少平(清華大學) AlphaGo(一款圍棋人工智能程序,由Google旗下的DeepMind公司研發(fā))到底成功在哪里?從原理上說,其核心是深度學習、左右手互搏以及強化學習,但如果從方法策略上來說,它與以前的成果,比如深藍(IBM公司生產(chǎn)的一臺超級國際象棋電腦),存在很大的不同。
兩者之不同和圍棋本身的特點有關(guān)。圍棋感性的東西多,模樣怎么樣,是厚還是薄,這些東西很難描述,過去之所以認為計算機下圍棋存在困難,正是因為這一點。深藍采用α-β剪枝的辦法,有一套評價體系,評價完全是靠知識。IBM在研發(fā)時請了很多下棋高手、國際大師幫他們總結(jié)各種知識,最后再結(jié)合搜索來實現(xiàn)。 而多年來圍棋的評價一直沒有得到解決。AlphaGo靠深度學習來解決了評價的問題。它有四個網(wǎng)絡(luò),包括快速網(wǎng)絡(luò)、兩個策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)。其中,快速網(wǎng)絡(luò)嚴格來說不是深度的,是很淺的,甚至就是一個回歸,是根據(jù)人的知識在幾萬個模式的基礎(chǔ)上構(gòu)成的。它在AlphaGo中起了很大的作用,然而單靠它可能打不過李世石。它的網(wǎng)絡(luò)速度非??欤鹊诙?、第三個網(wǎng)絡(luò)快一千倍左右,在蒙特卡羅樹搜索(Monte Carlo Tree Search)時用于模擬,可以在同等時間內(nèi)快一千倍。這對最終勝負起到了關(guān)鍵作用。
因此,AlphaGo既有人的知識,又有深度學習感性的東西,同時又借助了蒙特卡羅樹搜索。知識和搜索都是傳統(tǒng)的基于符號主義人工智能的精髓,而深度學習是所謂的連接主義。這樣,AlphaGo把符號主義的方法跟連接主義的方法很好地融合在一起。這是他成功的地方。
現(xiàn)在大家都運用深度學習,靠數(shù)據(jù)驅(qū)動,把知識完全拆解掉了。然而,我們應(yīng)該深入思考如何把規(guī)則和知識,即傳統(tǒng)的符號主義思想和深度學習的連接主義思想結(jié)合到自然語言處理中,這樣才能夠解決問題。兩者通常是互補的。舉個例子,AlphaGo跟李世石比賽第四盤下輸了,源于一步錯著,至少到7月份距離比賽已經(jīng)過去了4個月的時候,AlphaGo也未能解決這個問題,即便經(jīng)過長時間訓練,仍然沒有解決?;谏疃葘W習大量數(shù)據(jù)的訓練方法,想把一個錯誤改掉是很難的,而且改正以后其他問題不一定不出現(xiàn)。而基于知識和規(guī)則,就很容易避免。
將知識、規(guī)則與深度學習相結(jié)合,AlphaGo給予我們很深的啟示。這也應(yīng)該是自然語言處理領(lǐng)域今后努力的方向。
責任編輯:劉玥妍