仇廣宇
冰島一處公路上的指示牌。圖/視覺中國?
你知道Sau??ljóst是什么意思嗎?它是冰島語中的一個(gè)詞,描述的是一天中一個(gè)特殊時(shí)刻,在這個(gè)朦朧的黎明時(shí)分,大自然的光線,剛好讓人們能夠看清楚羊群。
用一個(gè)簡單的詞匯傳達(dá)出詩意和美感,這正是冰島語的特色。多年來,這門語言的精美讓不少文人墨客為之著迷。但近百年來,這門精美的語言曾經(jīng)數(shù)次面臨滅絕危機(jī)。隨著全球化和高新科技的發(fā)展,只有三十幾萬人使用的冰島語,在現(xiàn)實(shí)里會(huì)受到英語等強(qiáng)勢(shì)語言的威脅,在網(wǎng)絡(luò)空間里也沒有太多展示的空間。
不過,冰島人一直在為自己母語的生存而努力,而且這種努力已經(jīng)頗具成效,它甚至強(qiáng)大到將冰島語本身的命運(yùn)反轉(zhuǎn)了過來。2023年3月15日,美國人工智能研究公司Open AI發(fā)布最新的人工智能系統(tǒng)——GPT-4,并公布了一些正在使用GPT模型的案例。通過這些案例,人們才發(fā)現(xiàn),冰島政府正在訓(xùn)練GPT模型學(xué)習(xí)冰島語。目前這種訓(xùn)練已經(jīng)取得了相當(dāng)大的突破,GPT-4已經(jīng)可以具備邏輯地用冰島語回答問題,并學(xué)會(huì)書寫冰島語的詩歌了。
人工智能學(xué)會(huì)了保護(hù)小眾語言,這件事,讓人工智能軟件在人們眼中多了一層善良、溫柔的色彩,人們發(fā)現(xiàn)它不只會(huì)搶走人類的飯碗,也能夠在恰當(dāng)?shù)睦弥拢鲆恍┍Wo(hù)傳統(tǒng)文化的有益工作。不過,說到底,這件事還是倔強(qiáng)的冰島人促成的。
冰島人之所以會(huì)選擇用人工智能去保護(hù)冰島語,是因?yàn)楸鶏u語在十幾年前遭遇過一次瀕臨滅絕的危機(jī)。2012年,一份由歐洲多家學(xué)術(shù)機(jī)構(gòu)聯(lián)合編寫的、名為《歐洲語言平等》的報(bào)告顯示,因?yàn)槿狈?shù)字技術(shù)的支持,有超過20種語言可能在網(wǎng)絡(luò)世界中滅絕,其中,冰島語的消失風(fēng)險(xiǎn)名列榜單的第二位,僅次于馬耳他語。那時(shí),報(bào)告研究者憂心忡忡地呼吁,導(dǎo)致問題的原因,可能是多數(shù)歐洲語言都嚴(yán)重缺乏語言資源——這種資源,指的正是相關(guān)的語言數(shù)據(jù)庫和語言技術(shù)工具。
具體說來,這種危機(jī)是科技革命給小眾語言帶來的生存困境。十多年前,智能手機(jī)開始普及,之后,智能語音系統(tǒng)也開始伴隨智能音箱等產(chǎn)品進(jìn)駐千家萬戶。在使用電子產(chǎn)品時(shí),人們必須使用某種語言去和機(jī)器對(duì)話。但是,冰島人慢慢發(fā)現(xiàn),當(dāng)他們?cè)谧约杭依锸褂弥悄芤粝浠蛘咂渌O(shè)備時(shí),這些設(shè)備中沒有冰島語的選項(xiàng)。當(dāng)然,大部分冰島人都是精通多語種的,他們可以改用英語、挪威語、丹麥語,也不會(huì)覺得有太大問題,但在政府層面看來,這種不能在自己家里使用母語的局面,實(shí)在是有些荒唐。
從那時(shí)起,這個(gè)問題就留在了很多冰島人的心里,他們開始思考如何解決冰島語在數(shù)碼世界可能消失的問題。擔(dān)憂的人包括詩人、學(xué)者甚至科技從業(yè)者,而首先站出來的正是一位技術(shù)從業(yè)人員——特勞斯蒂·克里斯蒂安松(Trausti Kristjánsson)。克里斯蒂安松的父親編纂過冰島語詞典,他對(duì)本民族語言也有著強(qiáng)烈的情感。早在2012年,在谷歌公司任職的他就開始強(qiáng)烈建議,要求他身邊的同事把冰島語加入谷歌語音的備選語言中。
但這個(gè)提議一開始就被谷歌的其他員工否決了,原因是,這些科技公司想要在語音系統(tǒng)里加入冰島語,就首先需要為冰島語建立數(shù)據(jù)庫,而對(duì)科技公司而言,為越小眾的語言建立數(shù)據(jù)庫,他們所支出的成本就會(huì)越多,因?yàn)樵嫉恼Z言材料不夠,為了收集這些材料,公司還要花費(fèi)額外的人力物力,這樣做,對(duì)一家企業(yè)而言很不劃算。為此,克里斯蒂安松只好與冰島當(dāng)?shù)氐囊晃粚W(xué)者展開合作,通過手機(jī)收集了冰島人朗讀的數(shù)百萬個(gè)句子。最終,通過他們當(dāng)年收集的語料基礎(chǔ),谷歌建立了互聯(lián)網(wǎng)上第一個(gè)完整的冰島語語料庫。如今,谷歌翻譯里的冰島語翻譯選項(xiàng),也是以這個(gè)數(shù)據(jù)庫為基礎(chǔ)制作的。
在克里斯蒂安松之后,冰島政府也開始行動(dòng)。2014年起,冰島政府開始在一項(xiàng)語言保護(hù)計(jì)劃的牽頭之下,組織相關(guān)公司收集語言資料,促成人工語言數(shù)據(jù)庫的建設(shè)。數(shù)年后,當(dāng)數(shù)據(jù)庫的建設(shè)初具規(guī)模,冰島官員就開始了下一步行動(dòng),他們公開致信,或是親自到訪各大科技公司,希望他們開展用機(jī)器學(xué)習(xí)冰島語的業(yè)務(wù),或者,希望這些公司至少先在系統(tǒng)語言中添加冰島語選項(xiàng)。
冰島文化和商務(wù)部部長莉莉婭·阿弗萊德多蒂爾(Lilja Alfredsdóttir)曾在2021年寫信給迪士尼,希望對(duì)方在網(wǎng)絡(luò)播放的電影添加冰島語的字幕和配音,后來迪士尼回復(fù)稱,愿意在《冰雪奇緣》等動(dòng)畫片中添加冰島語的字母和配音。此后,她又致信蘋果公司CEO蒂姆·庫克,但沒有收到回音。直到2022年4月,事情出現(xiàn)了較大的突破,冰島總統(tǒng)古德尼·約翰內(nèi)松親自帶著團(tuán)隊(duì)訪問了Open AI,并最終促成了該公司與冰島的合作。
對(duì)于能夠教會(huì)人工智能說冰島語,冰島文化和商務(wù)部部長阿弗萊德多蒂爾笑得很開心,曾為此事多方奔走的她,激動(dòng)地對(duì)媒體講述:為了訓(xùn)練人工智能說冰島語,冰島方面花費(fèi)了四五年時(shí)間,調(diào)集了六十多名專家來研究這個(gè)問題。此外,數(shù)家冰島科技公司也參與了這一過程。
使用人工智能學(xué)習(xí)一門語言,其背后的道理并不難理解。當(dāng)人工智能學(xué)會(huì)了某門小眾語言,就相當(dāng)于這門語言有了一個(gè)永不停歇、不斷進(jìn)化的“傳人”,那么,它作為小眾語言的滅絕風(fēng)險(xiǎn)也就會(huì)大大降低了。這個(gè)學(xué)習(xí)的過程同樣不難以理解。只要人們能夠收集到某種語言使用者提供的、足夠多的語言資料,比如對(duì)話、互聯(lián)網(wǎng)網(wǎng)頁和出版物等文字資料等,將這些資料建成語言數(shù)據(jù)庫,再把數(shù)據(jù)庫的內(nèi)容輸入人工智能的模型中進(jìn)行訓(xùn)練,稍微花費(fèi)時(shí)間和精力,就可以做到。
但簡單道理的背后,還是有不少困難需要解決,尤其是,人工智能對(duì)語言的學(xué)習(xí)是依靠語言資料組成的語料庫完成的,那么語言本身的特點(diǎn),以及數(shù)據(jù)庫的質(zhì)量,就會(huì)決定人工智能學(xué)習(xí)一門語言的效果。語言學(xué)家、教育部語言文字應(yīng)用研究所研究員,84歲的馮志偉是中國計(jì)算語言學(xué)的開拓者。在他看來,中文即使比冰島語大眾很多,在機(jī)器學(xué)習(xí)方面,它也面臨很多挑戰(zhàn)。
首先,如果語言材料本身的內(nèi)容不豐富,量不夠大或者質(zhì)量不夠高,都會(huì)令機(jī)器的學(xué)習(xí)效果大打折扣。比如,單獨(dú)以書本資料作為考察對(duì)象,中文的出版物大概只占目前全人類的語料庫的百分之5%,相比之下,英文出版物可以占到整個(gè)語料庫的60%,這樣的話,機(jī)器學(xué)習(xí)英語的效果自然更好。其次,如果某一門語言的獨(dú)特性過強(qiáng),也會(huì)妨礙機(jī)器對(duì)它的學(xué)習(xí)。比如,中文在世界語言中的獨(dú)特性就很強(qiáng),它不屬于表音文字,是表意的,其一個(gè)詞匯可能有很多重含義,此外,中文的詞和詞之間沒有空格,機(jī)器對(duì)這種一長串組成的句子并不能很好地理解。這也增加了機(jī)器識(shí)別的難度。
用這幾個(gè)條件比照,在機(jī)器學(xué)習(xí)領(lǐng)域,冰島語確實(shí)面臨著類似的困境。由于使用人數(shù)、語言資料都比較少,因此用冰島語書寫的互聯(lián)網(wǎng)資源的數(shù)量更是少得可憐。其次,冰島語雖然屬于表音的語言,但有大量長度極長,中間不會(huì)空格的復(fù)合詞,這些單詞也容易讓機(jī)器“讀不懂”。
如今,能夠成功訓(xùn)練人工智能,其背后數(shù)據(jù)庫的建成,都是冰島人共同努力的結(jié)果。除了前述谷歌員工建立的數(shù)據(jù)庫之外,自從2014年政府建立相關(guān)項(xiàng)目以來,冰島本土的一些科技公司都投入到了數(shù)據(jù)庫的收集中去。比如,有家公司為此建設(shè)了一個(gè)網(wǎng)站,呼吁所有會(huì)說冰島語的人都把自己說話的錄音傳上去,為語料庫做一份貢獻(xiàn)。冰島前總統(tǒng)維格迪絲·芬博阿多蒂爾也帶頭參加這些語音項(xiàng)目的收集工作,親自在數(shù)據(jù)庫里錄下了她的聲音。
數(shù)據(jù)庫建成后,又有其他冰島本地的公司參與進(jìn)來進(jìn)行后續(xù)工作。其中一家公司組建了將近40個(gè)人的團(tuán)隊(duì),這個(gè)團(tuán)隊(duì)每天的主要工作就是專門負(fù)責(zé)訓(xùn)練GPT-4 回答冰島語問題。這些工作人員每天給GPT-4 留一些冰島語的“作業(yè)”,他們負(fù)責(zé)把答案收集進(jìn)行評(píng)估。若發(fā)現(xiàn)機(jī)器的回答不準(zhǔn)確,再重新教會(huì)它改進(jìn),如此循環(huán)往復(fù),這種訓(xùn)練有了成果,在GPT4的上一代模型——GPT3.5所輸出的答案里,還會(huì)混有英語或其他北歐語言的單詞,但是很快,GPT4就能給出純冰島語的答案了,而且日益準(zhǔn)確。
在語言學(xué)家馮志偉看來,語言保護(hù)是冰島政府的“國策”。而冰島人將這種保護(hù)做出了特色。除了應(yīng)用人工智能技術(shù)保護(hù)語言,冰島一直設(shè)有一個(gè)類似“語言規(guī)劃部”的語言規(guī)劃組織。該組織受到政府的資助,其中活躍著很多語言和技術(shù)學(xué)者,這些人的工作是審定外來技術(shù)詞語,再以此為標(biāo)注提倡冰島公民使用。馮志偉提到,這種保護(hù)規(guī)格還是很高的,目前在歐洲國家中,除了冰島,只有法國才有“法語推廣委員會(huì)”,其他國家都沒有專門建立。
人們會(huì)好奇,為何冰島人如此執(zhí)著于本民族的語言保護(hù)?除了民族性格之外,這也與冰島的歷史傳統(tǒng)相關(guān)。將語言上升為一種民族情感和“國策”,這與冰島建國的歷史有很大的關(guān)系。從公元9世紀(jì)起,冰島就開始有移民居住,在這個(gè)小島上,很早就誕生了獨(dú)立的民族意識(shí)和自己的文化,但千百年來,它始終不能算是一個(gè)獨(dú)立的國家,而是處于挪威和丹麥的勢(shì)力范圍內(nèi)。后來,冰島于1944年正式建立共和國。
冰島人形成了一種文化共識(shí),他們深知,他們的祖國不是一個(gè)大國,因此,獨(dú)立的經(jīng)濟(jì)和獨(dú)特的文化才是他們的生存之道。因此,大概也是從19世紀(jì)開始,冰島的上層人士和學(xué)者們,就開始把這種共識(shí)傳播開來,逐漸形成了冰島人骨子里對(duì)民族語言文化的熱愛。此外,雖然長期和挪威語、丹麥語以及英語共處,但在現(xiàn)代社會(huì)之前,冰島語的樣貌沒有太多變化,它一直是與古代北歐語言最接近的一門語言,冰島人可以毫不費(fèi)力地閱讀他們的祖先在千年前寫下的詩歌。這種身為世界文化遺產(chǎn)的自豪感,也促進(jìn)了冰島人對(duì)冰島語言的熱愛。
因?yàn)檫@樣的共識(shí),冰島人早在百年前就開始嘗試用系統(tǒng)方法進(jìn)行語言保護(hù)。那個(gè)所謂的“語言規(guī)劃部”早在1927年就成立了,如今,它的名字是阿尼·馬格努松研究所,是一間由冰島大學(xué)獨(dú)立資助的學(xué)術(shù)研究機(jī)構(gòu),在冰島文化和商務(wù)部的主持下運(yùn)作。最早,這個(gè)機(jī)構(gòu)是為了解決外來詞和冰島語的結(jié)合問題而設(shè)置。當(dāng)時(shí),隨著時(shí)代發(fā)展,越來越多的外來詞涌入冰島,為了和游客、客戶等對(duì)象溝通,普通百姓也開始將英語等其他語言與冰島語混用。慢慢地,大到學(xué)術(shù)會(huì)議的官方語言,小到家電說明書,食品商標(biāo)和孩子們玩的游戲卡,冰島人眼中的外語詞匯日益增多,母語詞匯一再被蠶食。這一現(xiàn)象令政府人士十分頭疼。
為了解決這一問題,“語言規(guī)劃部”想到了一個(gè)辦法:他們把所有外來詞都用冰島語的語法重新造詞,再通過手冊(cè)、報(bào)紙、廣播、電視等各種形式推廣至全國。這些詞匯很多都是當(dāng)年比較新的科技發(fā)明。舉例說來,冰島語中原本沒有“電視”和“電腦”這兩個(gè)詞,當(dāng)出現(xiàn)了這些新鮮事物后,研究所就開始構(gòu)造這些詞匯,他們構(gòu)造出的“電視”這個(gè)詞,是“視覺”加上“投射、發(fā)射”的意思組合而成的。而諸如“TV”“Computer”這樣的外來詞,是不被鼓勵(lì)在冰島本土使用的。
隨著時(shí)代發(fā)展,冰島語語言危機(jī)愈演愈烈時(shí),“語言規(guī)劃部”反而越挫越勇,它們甚至發(fā)展出相關(guān)的“人名地名規(guī)劃局”來規(guī)范人名和地名?,F(xiàn)在的阿尼·馬格努松研究所有一個(gè)下屬機(jī)構(gòu),專門對(duì)人名和地名如何進(jìn)行準(zhǔn)確地冰島語表達(dá)加以研究。
如今,一切努力都有了成果。當(dāng)人工智能成功地學(xué)會(huì)了用冰島語寫詩歌,執(zhí)拗的冰島人展露出了欣慰的笑容,除了“語言規(guī)劃部”以外,他們從此有了一個(gè)新的、守護(hù)本民族語言的幫手。在最新公布的2023年版的《歐洲語言平等》報(bào)告中,冰島人為本民族語言留存所做的一切努力都得到了高度贊揚(yáng),在這些研究者看來,盡管冰島語依然有著滅絕的風(fēng)險(xiǎn),但這個(gè)趨勢(shì)是在不斷減小的。這也正如冰島文化和商務(wù)部部長阿弗萊德多蒂爾所感慨的那樣:作為一個(gè)小國,只要做足了功課,我們依然可以很好地保護(hù)我們的語言。
(參考資料:《冰島主權(quán)觀念:構(gòu)建文化獨(dú)特性與優(yōu)先經(jīng)濟(jì)發(fā)展》,作者陳安琪)