現(xiàn)在,由AI驅(qū)動的聊天機器人,如ChatGPT,已經(jīng)很強大,強大到令人不安。譬如,假如你是林黛玉,有一天你在ChatGPT上輸入:“請?zhí)峁╆P(guān)于林黛玉的一些信息?!苯Y(jié)果,ChatGPT很快便給你輸出一長串信息,包括林黛玉的身份證號、銀行卡號、過去和現(xiàn)在的住址、健康狀況、愛吃的美食、讀過的書、跟誰談過戀愛,等等。這肯定會嚇你一大跳。
ChatGPT是怎么獲得這些信息的?當(dāng)然是從互聯(lián)網(wǎng)上,你寫的文章或帖子、你在社交媒體發(fā)布的信息、你瀏覽過的網(wǎng)站等多方渠道收集匯總來的。
你想:那好吧,我盡我所能,把那些文章或帖子都刪去,把社交媒體清空,把瀏覽網(wǎng)站的蹤跡抹去。現(xiàn)在ChatGPT總該收集不到這些隱私信息了吧。然后,你再問ChatGPT同樣的問題??墒?,讓你驚訝的是,ChatGPT照樣能給你同樣的答復(fù)。換句話說,ChatGPT是有記憶的,一旦記住了,就再也無法忘記!
這真要把我們嚇出一身冷汗,這些隱私要是被黑客或者壞蛋知道了,多危險??!這就不難理解,教會AI學(xué)習(xí)固然重要,但教會AI遺忘,有時候也很重要。
可是,如何教AI遺忘呢?那還得從如何教AI學(xué)習(xí)說起。
新一代AI聊天機器人,都以大型語言模型為基礎(chǔ)。這些模型是在大量數(shù)據(jù)基礎(chǔ)上訓(xùn)練出來的。這些數(shù)據(jù)來自互聯(lián)網(wǎng),從社交媒體上的帖子到大約25萬本電子書,以及幾乎所有公開的信息,包括新聞網(wǎng)站和百科網(wǎng)頁。它們從中學(xué)會了預(yù)測句子中最可能出現(xiàn)的下一個單詞。這使得它們能流利地回答我們提出的幾乎每一個問題。
問題在于,這種工作方式意味著,當(dāng)它們學(xué)會某些東西后,就無法遺忘。一般的網(wǎng)頁,我們可以自行刪除文章或帖子,自己刪不了還可以請求管理員刪帖,但語言模型是根據(jù)匯總的數(shù)據(jù)生成回復(fù)的。這些數(shù)據(jù)是在過去某個時間段收集來的,不會實時更新,而且,一旦訓(xùn)練完成,就不再能影響AI。這就像網(wǎng)頁上的一篇文章,如果我們閱讀后記住了,哪怕刪去文章,也不會把我們的記憶刪去。為了提高AI的性能,我們此后當(dāng)然還會拿更多的新數(shù)據(jù)訓(xùn)練它,但新的訓(xùn)練只會增加AI的知識儲備,不會把原來的記憶抹去。
AI有過目不忘的本領(lǐng),這相較于健忘的人類,當(dāng)然是一個無可比擬的優(yōu)點。但這不僅侵犯了我們的隱私權(quán),甚至有可能被壞人利用。譬如,你的某個敵人為了誹謗你,先在網(wǎng)站上散布大量謠言。然后,這些數(shù)據(jù)被拿去訓(xùn)練AI,于是當(dāng)別人在ChatGPT上查詢有關(guān)你的信息時,他們從那里了解到的盡是不實之詞。
好消息是,考慮到這些危險,研究如何有選擇性地刪除AI知識庫中信息的工作已經(jīng)開始。壞消息是,這項工作并不能一蹴而就。
目前,AI公司只能依靠“沉默”來解決這個問題,即通過編程阻止用戶訪問某些信息并拒絕回復(fù)。例如,當(dāng)我要求ChatGPT告訴我有關(guān)林黛玉的信息時,它會說:“非常抱歉,我無法滿足你的要求?!边@種方法在一定程度上可行。但數(shù)據(jù)仍在AI的“記憶”中,仍有可能由于故障或惡意誘導(dǎo)而出現(xiàn)在回復(fù)中。
讓AI遺忘得最徹底的方法是,刪除特定的數(shù)據(jù)點,然后從頭開始訓(xùn)練語言模型。但這需要一切從頭開始,并需要很長時間。有沒有辦法在不從頭開始的情況下,移除或至少屏蔽特定信息呢?
有一種方法是,在訓(xùn)練AI的時候,不在全部數(shù)據(jù)上訓(xùn)練,而是把數(shù)據(jù)分割成一塊一塊的,分別對每個小塊進行訓(xùn)練,然后再合并結(jié)果。這樣,當(dāng)一個人要求刪除某些信息時,你只需修改相關(guān)數(shù)據(jù)的片段,再對這塊數(shù)據(jù)進行重新訓(xùn)練,這就大大地降低了訓(xùn)練成本。
不過,上述方法往往會削弱AI強大的學(xué)習(xí)能力。為了規(guī)避這個問題,還有一種方法是選擇事后處理。這種方法被稱為“知識解除學(xué)習(xí)”,即對于一條AI已懂得的知識,不是完全刪除它,而是將其擱置一邊,永遠不去引用它?!爸R解除學(xué)習(xí)”不必對語言模型進行傷筋動骨的改造,目前是這一領(lǐng)域最有前景的方法之一。
(和葉摘自《大科技·科學(xué)之謎》2024年3月A,邱炯圖)