可翻譯語言的模型也會(huì)“胡言亂語”？

2022-10-13 10:36

海外星云 2022年16期

在計(jì)算機(jī)領(lǐng)域，作為算法的其中一類，大型語言模型的用途日益廣泛。它可以學(xué)習(xí)數(shù)十億個(gè)單詞和短語之間的統(tǒng)計(jì)關(guān)聯(lián)，并完成語言翻譯、摘要生成、文本分類和問題解答等任務(wù)。

這類模型采用了一種名為“神經(jīng)網(wǎng)絡(luò)”的靈感架構(gòu)，通過不斷調(diào)整那些被稱為參數(shù)的值來執(zhí)行模型訓(xùn)練，并以抹去文字的方法，完成現(xiàn)實(shí)與預(yù)測結(jié)果之間的比對。

完成訓(xùn)練后的模型不僅可以自動(dòng)生成美好的詩歌，還能正確回答很多生活中會(huì)遇到的小問題，在一定程度上給予了人們較大幫助。

不過，目前的語言模型并沒有感知語言意義的能力，因此，模型在執(zhí)行任務(wù)的時(shí)候，可能發(fā)生“胡言亂語”的情況。更令人擔(dān)憂的是，模型在選擇源頭學(xué)習(xí)數(shù)據(jù)時(shí)存在局限性，會(huì)給之后的工作帶來嚴(yán)重的倫理缺陷或?qū)嵺`缺陷，比如泄露私密數(shù)據(jù)、提供錯(cuò)誤信息、助長虐待或偏見等。因?yàn)榇蠖鄶?shù)此類模型由大型科技公司開發(fā)，其內(nèi)部工作原理并不對外展示，所以，想要解決上述問題并不容易。

為了克服這些難題，打破大型科技公司對自然語言處理的壟斷，減少可能出現(xiàn)的有害影響，一個(gè)名為“BigScience”的國際合作項(xiàng)目推出了BLOOM模型的早期版本，希望它能有助于減少人工智能語言模型的有害輸出。

BLOOM模型是第一個(gè)大規(guī)模多語言模型，擁有1760億個(gè)參數(shù)，并由數(shù)百名研究人員完成，其中大部分是學(xué)者，包括哲學(xué)家、法律學(xué)家和倫理學(xué)家，也有一些來自臉書、谷歌等公司、以個(gè)人身份參與工作的員工。該模型的計(jì)算訓(xùn)練工作得到了價(jià)值700萬美元的公共資助，從規(guī)模來看可與OpenAI、谷歌等公司開發(fā)的語言模型相媲美，但它將是開源的。

通常情況下，包括Reddit網(wǎng)站在內(nèi)的大多數(shù)語言模型都直接從網(wǎng)絡(luò)上抓取語言，而語言模型的好壞卻取決于其基于的數(shù)據(jù)集。對此，Hugging Face公司的機(jī)器學(xué)習(xí)研究員雅辛·杰尼特認(rèn)為：“選擇模型需要學(xué)習(xí)的文本是一項(xiàng)非常關(guān)鍵的任務(wù)?！?/p>

為了選擇文本資源，研究人員參與了非洲自然語言處理社區(qū)Masakhane、 LatinX in AI、Machine Learning Tokyo等在內(nèi)的一系列社區(qū)團(tuán)體研討會(huì)。此后，BigScience 的研究人員從500個(gè)來源中精心挑選了規(guī)模為3410億字的數(shù)據(jù)集中近2/3的內(nèi)容。

其內(nèi)容不僅包括《自然》等文章，還包括語義學(xué)者這類人工智能支持的學(xué)術(shù)出版物搜索引擎。杰尼特表示：“我們希望確保那些與他們的國家、與他們所說的語言以及與數(shù)據(jù)密切相關(guān)的人能夠參與進(jìn)來，共同選擇進(jìn)入模型訓(xùn)練的語言文本?！?/p>

研究人員為解決語言模型存在的缺陷付出了諸多努力。首先，他們充分利用現(xiàn)有的計(jì)算能力，在使用多語言網(wǎng)絡(luò)進(jìn)行抓取的同時(shí)，對數(shù)據(jù)進(jìn)行了質(zhì)量過濾，還完成了隱私編輯工作。其次，他們還通過減少網(wǎng)站的過度呈現(xiàn)，來克制模型中可能產(chǎn)生的偏見與歧視。雖然BLOOM模型不可能完全消除偏見，但在確保提供多元文化和高質(zhì)量資源的基礎(chǔ)上，模型的整體質(zhì)量可以得到很大的提升。

作為一個(gè)擁有人工智能模型和數(shù)據(jù)集的開源平臺(tái)的公司，Hugging Face的聯(lián)合創(chuàng)始人托馬斯·沃爾夫評價(jià)說：“BLOOM模型背后的代碼和數(shù)據(jù)集是開放的，所以研究人員可以試圖了解有害行為的根源，這可能有助于未來迭代版本的改進(jìn)。”

同時(shí)，在模型評估方面，研究人員除了比較BLOOM模型與其他模型在回答問題方面的能力，還設(shè)置了更為多樣化的指標(biāo)，包括語言模型產(chǎn)生特定刻板印象的強(qiáng)度、語言模型在特定語言下產(chǎn)生的偏見大小等。布朗大學(xué)自然語言學(xué)習(xí)研究員艾麗·帕弗里克認(rèn)為：“由于這個(gè)模型已經(jīng)被訓(xùn)練成多語言，因此它可能對語言有著更深的理解，有助于其能力延伸至各類任務(wù)?！?/p>

目前，BLOOM模型正處于3個(gè)月訓(xùn)練期的最后幾周。訓(xùn)練結(jié)束后的模型可供研究人員下載，并開展進(jìn)一步的實(shí)驗(yàn)和新數(shù)據(jù)訓(xùn)練。

需要說明的是，第一，下載并運(yùn)行該模型需要很大的硬件容量。第二，為允許實(shí)驗(yàn)室跨服務(wù)器共享模型，BigScience還將發(fā)布更小且更少的硬件密集型版本，完成分布式系統(tǒng)的創(chuàng)建。第三，近期Hugging Face公司還會(huì)發(fā)布一款應(yīng)用程序，幫助使用者在不下載的狀態(tài)下查詢BLOOM模型。第四，在使用該模型之前，使用者需要簽署一份不斷發(fā)展的法律許可，不得用模型來服務(wù)不當(dāng)目的。

目前，BLOOM模型已在多領(lǐng)域得到了應(yīng)用。它既可以作為探索人工智能的工具，又可以從歷史文本中提取信息，還可以完成一些生物學(xué)方面的分類工作。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

可翻譯語言的模型也會(huì)“胡言亂語”？

可翻譯語言的模型也會(huì)“胡言亂語”？