在計(jì)算機(jī)領(lǐng)域,作為算法的其中一類,大型語言模型的用途日益廣泛。它可以學(xué)習(xí)數(shù)十億個(gè)單詞和短語之間的統(tǒng)計(jì)關(guān)聯(lián),并完成語言翻譯、摘要生成、文本分類和問題解答等任務(wù)。
這類模型采用了一種名為“神經(jīng)網(wǎng)絡(luò)”的靈感架構(gòu),通過不斷調(diào)整那些被稱為參數(shù)的值來執(zhí)行模型訓(xùn)練,并以抹去文字的方法,完成現(xiàn)實(shí)與預(yù)測結(jié)果之間的比對。
完成訓(xùn)練后的模型不僅可以自動(dòng)生成美好的詩歌,還能正確回答很多生活中會(huì)遇到的小問題,在一定程度上給予了人們較大幫助。
不過,目前的語言模型并沒有感知語言意義的能力,因此,模型在執(zhí)行任務(wù)的時(shí)候,可能發(fā)生“胡言亂語”的情況。更令人擔(dān)憂的是,模型在選擇源頭學(xué)習(xí)數(shù)據(jù)時(shí)存在局限性,會(huì)給之后的工作帶來嚴(yán)重的倫理缺陷或?qū)嵺`缺陷,比如泄露私密數(shù)據(jù)、提供錯(cuò)誤信息、助長虐待或偏見等。因?yàn)榇蠖鄶?shù)此類模型由大型科技公司開發(fā),其內(nèi)部工作原理并不對外展示,所以,想要解決上述問題并不容易。
為了克服這些難題,打破大型科技公司對自然語言處理的壟斷,減少可能出現(xiàn)的有害影響,一個(gè)名為“BigScience”的國際合作項(xiàng)目推出了BLOOM模型的早期版本,希望它能有助于減少人工智能語言模型的有害輸出。
BLOOM模型是第一個(gè)大規(guī)模多語言模型,擁有1760億個(gè)參數(shù),并由數(shù)百名研究人員完成,其中大部分是學(xué)者,包括哲學(xué)家、法律學(xué)家和倫理學(xué)家,也有一些來自臉書、谷歌等公司、以個(gè)人身份參與工作的員工。該模型的計(jì)算訓(xùn)練工作得到了價(jià)值700萬美元的公共資助,從規(guī)模來看可與OpenAI、谷歌等公司開發(fā)的語言模型相媲美,但它將是開源的。
通常情況下,包括Reddit網(wǎng)站在內(nèi)的大多數(shù)語言模型都直接從網(wǎng)絡(luò)上抓取語言,而語言模型的好壞卻取決于其基于的數(shù)據(jù)集。對此,Hugging Face公司的機(jī)器學(xué)習(xí)研究員雅辛·杰尼特認(rèn)為:“選擇模型需要學(xué)習(xí)的文本是一項(xiàng)非常關(guān)鍵的任務(wù)?!?/p>
為了選擇文本資源,研究人員參與了非洲自然語言處理社區(qū)Masakhane、 LatinX in AI、Machine Learning Tokyo等在內(nèi)的一系列社區(qū)團(tuán)體研討會(huì)。此后,BigScience 的研究人員從500個(gè)來源中精心挑選了規(guī)模為3410億字的數(shù)據(jù)集中近2/3的內(nèi)容。
其內(nèi)容不僅包括《自然》等文章,還包括語義學(xué)者這類人工智能支持的學(xué)術(shù)出版物搜索引擎。杰尼特表示:“我們希望確保那些與他們的國家、與他們所說的語言以及與數(shù)據(jù)密切相關(guān)的人能夠參與進(jìn)來,共同選擇進(jìn)入模型訓(xùn)練的語言文本?!?/p>
研究人員為解決語言模型存在的缺陷付出了諸多努力。首先,他們充分利用現(xiàn)有的計(jì)算能力,在使用多語言網(wǎng)絡(luò)進(jìn)行抓取的同時(shí),對數(shù)據(jù)進(jìn)行了質(zhì)量過濾,還完成了隱私編輯工作。其次,他們還通過減少網(wǎng)站的過度呈現(xiàn),來克制模型中可能產(chǎn)生的偏見與歧視。雖然BLOOM模型不可能完全消除偏見,但在確保提供多元文化和高質(zhì)量資源的基礎(chǔ)上,模型的整體質(zhì)量可以得到很大的提升。
作為一個(gè)擁有人工智能模型和數(shù)據(jù)集的開源平臺(tái)的公司,Hugging Face的聯(lián)合創(chuàng)始人托馬斯·沃爾夫評價(jià)說:“BLOOM模型背后的代碼和數(shù)據(jù)集是開放的,所以研究人員可以試圖了解有害行為的根源,這可能有助于未來迭代版本的改進(jìn)。”
同時(shí),在模型評估方面,研究人員除了比較BLOOM模型與其他模型在回答問題方面的能力,還設(shè)置了更為多樣化的指標(biāo),包括語言模型產(chǎn)生特定刻板印象的強(qiáng)度、語言模型在特定語言下產(chǎn)生的偏見大小等。布朗大學(xué)自然語言學(xué)習(xí)研究員艾麗·帕弗里克認(rèn)為:“由于這個(gè)模型已經(jīng)被訓(xùn)練成多語言,因此它可能對語言有著更深的理解,有助于其能力延伸至各類任務(wù)?!?/p>
目前,BLOOM模型正處于3個(gè)月訓(xùn)練期的最后幾周。訓(xùn)練結(jié)束后的模型可供研究人員下載,并開展進(jìn)一步的實(shí)驗(yàn)和新數(shù)據(jù)訓(xùn)練。
需要說明的是,第一,下載并運(yùn)行該模型需要很大的硬件容量。第二,為允許實(shí)驗(yàn)室跨服務(wù)器共享模型,BigScience還將發(fā)布更小且更少的硬件密集型版本,完成分布式系統(tǒng)的創(chuàng)建。第三,近期Hugging Face公司還會(huì)發(fā)布一款應(yīng)用程序,幫助使用者在不下載的狀態(tài)下查詢BLOOM模型。第四,在使用該模型之前,使用者需要簽署一份不斷發(fā)展的法律許可,不得用模型來服務(wù)不當(dāng)目的。
目前,BLOOM模型已在多領(lǐng)域得到了應(yīng)用。它既可以作為探索人工智能的工具,又可以從歷史文本中提取信息,還可以完成一些生物學(xué)方面的分類工作。