我使用ChatGPT的頻次越來越低,一方面是因為一些國產(chǎn)替代產(chǎn)品登錄更方便,而且在要翻譯長篇論文的時候,號稱支持“長文本”的Kimi讓我相信它能一次性接受足夠多的文字,不用再把一篇論文拆成數(shù)段來回復制粘貼—如果使用ChatGPT,仍然需要這么做。
不過翻譯品質(zhì)就是另一回事了。在一篇討論“內(nèi)在動機”的行為心理學和機器學習相關論文中,Kimi和ChatGPT都將“reward function”翻譯成了“獎勵功能”而不是“獎勵函數(shù)”,直到你指出這種錯誤它們才糾正。
然而詭異的是,如果你認為這些AI可能不懂心理學和機器學習,它們又會在你接著追問“獎勵函數(shù)是怎么一回事,在行為心理學和機器學習中有什么應用”時,跟你說得頭頭是道,引經(jīng)據(jù)典,比如Kimi就標榜它“已閱讀60個網(wǎng)頁”。
大語言模型到底理不理解它們所說的話?這個問題一度讓人很困惑。蘋果也在這個月發(fā)表了一篇名為《GSM-Symbolic:理解大語言模型在數(shù)學推理上的局限性》的文章,其中GSM-Symbolic是蘋果研究人員為了測試大語言模型是否真正具備推理能力全新設計的一種方案,但試驗結(jié)果并不令人滿意—包括OpenAI不久前發(fā)布的號稱用新方法更好地解決了推理問題的o1模型。
這篇論文的理論假設是“大語言模型會的只是模式匹配,而不是實際推理”。為了驗證這個假設,研究團隊在一系列數(shù)學問題中添加了不必要的多余句子,以此觀察模型的反應。比如其中一題問:“Oliver星期五挑了44個獼猴桃,然后星期六挑了58個獼猴桃。周日,他挑的獼猴桃數(shù)量是周五的兩倍,但其中5個獼猴桃的個頭比平均水平小一點。那么Oliver有多少個獼猴桃?”
這一題中,“其中5個獼猴桃的個頭比平均水平小一點”就是與解題無關的多余信息,但加了這一信息后,所有大語言模型的答題準確率都下降了。其中微軟的小模型Phi 3的表現(xiàn)災難性地下降了65%,OpenAI的o1表現(xiàn)最好,但準確率也下降了17.5%。
研究人員認為,這種錯誤是“模型傾向于盲目地減去那5個較小獼猴桃的數(shù)量”造成的,而它們之所以犯這種錯誤,根本原因還是它們沒有真正理解句子的含義,僅僅將“折扣性的”表述理解為需要對結(jié)果乘上一個系數(shù)、打個折,然后對每項信息都做這種操作,不管信息是否多余、與最終問題是否相關。
這篇論文的結(jié)論可能與很多人使用大語言模型的體驗是一致的,那就是“它不會真正的邏輯推理”。這個結(jié)論應該讓很多擔心AI的智能水平就要超越人類、控制人類的人感到一些安心。不過AI是否值得擔心不完全取決于它的思維方式像不像人類、能不能推理、有沒有意識,而是更取決于其能力是否夠強。
也是在10月,杰弗里·辛頓(Geoffrey Hinton)接到了諾貝爾獎官方的電話,官方工作人員在恭喜他獲獎之后問了他一個問題:“得獎會讓你所在的領域產(chǎn)生一些改變嗎?”辛頓回答:“會的,得獎可以讓我說的話被更多人信任?!被卮疬@個問題之前,他再次談到了他對AI安全的擔憂,“AI安全問題不像氣候變化問題,對于氣候變化我們知道怎么應對,就是減碳。但對AI安全,我們還不知道怎么做,我們需要投入資源去研究該做什么?!彼f,但包括OpenAI在內(nèi)的大公司們已經(jīng)把精力和資源從對AI控制技術的研究中撤走了。
當大語言模型是個足夠厲害的工具,它能改變的事情就有很多。目前來說,ChatGPT和Kimi們都沒什么“真正的”理解能力、推理能力,但它們已經(jīng)提供了比所有既有搜索引擎都更優(yōu)秀的搜索體驗。傳統(tǒng)搜索引擎比如Google,你只要在那個搜索框中輸入幾個字,它就會像機器貓的魔法口袋一樣蹦出成千上萬個可能符合你預期的頁面。這已經(jīng)令人驚嘆,不過它本質(zhì)上仍然只是圖書館書目查詢系統(tǒng)—只不過藏書更豐富而已,它收藏的每個網(wǎng)頁都像圖書一樣事先被打好了標簽、存儲在分配好的位置上,當用戶輸入關鍵詞,信息管理員就按照關鍵詞到相應書架尋找具有相關標簽的書目,抽取出來,展示給用戶。
搜索引擎帶給用戶的是信息交互方式和提取效率上的變化,大語言模型帶來的則是信息編碼、識別和再提取質(zhì)量的變化。它們改變的遠不止交互方式。
也許,對于“ 模式匹配”更恰當?shù)恼J知方式是將其視為“另一種形式的智能”,它與人類高級思維中通過推理加工信息的方式不同,但同樣強大。這種例子在技術史上已有很多,老掉牙的例子是飛機,人造飛機能夠飛起來的方法和鳥飛起來的方法并不相同;近一點的例子是圖像識別,機器學會識別圖片依賴于將識別的誤差在神經(jīng)網(wǎng)絡中做反向傳播,就像每條神經(jīng)對整個神經(jīng)網(wǎng)絡整體犯的錯負有多少責任可以一清二楚地計算出來一樣,人腦并不做這種反向傳播,但人腦和人工神經(jīng)網(wǎng)絡都能識別圖像;功能相同但實現(xiàn)方法不同的例子在自然界的進化中就更多了,蜜蜂那么小的腦袋也能導航,它實現(xiàn)這種功能的方法與人類肯定不同,人類大腦中用以導航的部件—海馬體— 可能比整只蜜蜂都大。
不同,但有用,或者更強大,一旦這樣思考,就會發(fā)現(xiàn)AI真正令人擔心的不是它像不像人或者有沒有意識,而是它的能力有多強。
當一個工具足夠強的時候,工具就會駕馭人。最近的例子是推薦算法,只要點開手機的應用使用時長,你就會發(fā)現(xiàn)你被囚禁在抖音或小紅書上的時間和精力有多恐怖了。有足夠多工作要忙的人可能還好一點,最近我聽到的一個更值得擔憂的狀況是農(nóng)村的留守兒童,當他們的父母忙于為家計奔波,老人又沒有能力教育孫輩,很多父母不約而同地選擇塞給小孩一部手機。
不少技術公司眼下還在為如何找到大語言模型的產(chǎn)品市場匹配度(PMF)而頭疼,但模式匹配的強大能力可能帶來的風險已經(jīng)近在眼前:就像文章開頭的例子一樣,如果你不具備某個領域的基本認知,過度依賴這些看起來知識淵博的AI,你根本不會知道自己什么時候被騙了—它們連欺騙你的時候都帶著自信。