□潘香霖 褚樂陽 陳向東
當前大模型(Large Language Model,又譯作大型語言模型或大語言模型)在許多任務(wù)和領(lǐng)域展現(xiàn)出的強大能力,尤其是在文本生成、語言翻譯、情感分析等任務(wù)中的卓越表現(xiàn),以及其展現(xiàn)出類似人類的行為引起了多個學(xué)科的關(guān)注(陳向東,等,2023a)。正如圣塔菲研究所的學(xué)者們認為的(Mitchell,et al.,2023):直至不久前,人工智能研究界對于機器理解的問題都尚有普遍的共識--它們并不能像人類一樣理解自己處理的數(shù)據(jù),然而大模型的嶄露頭角,卻改變了一些人對“機器能夠理解語言”的可能性的看法。神經(jīng)科學(xué)家謝諾夫斯基的觀點則更為直接:“臨界點到了,就好像突然出現(xiàn)了一個能夠以類人方式與我們交流的外星人。只有一件事是清楚的--大模型不是人類……但它們的表現(xiàn)行為在某些方面似乎體現(xiàn)了智能”(Sejnowski,2023)。
大模型涌現(xiàn)的能力與目前語言模型所采用的技術(shù)架構(gòu)有很大的關(guān)系(Belcak,et al.,2023),Transformer 架構(gòu)的自注意力機制允許模型在長文本中建立全局關(guān)系,預(yù)訓(xùn)練使模型能夠從大規(guī)模數(shù)據(jù)中學(xué)習(xí)到豐富的語義知識和模式,大量的參數(shù)使得模型能夠在訓(xùn)練數(shù)據(jù)中捕捉更多的細微模式和關(guān)聯(lián),這些特點都有助于語言模型產(chǎn)生多樣性、創(chuàng)造性和復(fù)雜性的文本內(nèi)容。大模型的新興能力引發(fā)了人們對于人工智能(Artificial Intelligence,AI)應(yīng)用在數(shù)據(jù)隱私、風險行為和可解釋性等方面的擔憂(王佑鎂,等,2023):預(yù)訓(xùn)練、交互、交付方式將威脅數(shù)據(jù)隱私保護;生成內(nèi)容的偏見、有毒文本與幻覺將產(chǎn)生難以管控的風險行為;內(nèi)部處理過程的復(fù)雜、輸出結(jié)果的偏差與不確定性導(dǎo)致的大模型在可解釋性與透明度方面存在不足。這些問題雖然不是大模型所獨有的,但目前的技術(shù)架構(gòu)不僅增加了倫理研究的復(fù)雜性,也涌現(xiàn)了許多新的研究領(lǐng)域。
大模型所呈現(xiàn)的“類人”行為以及大模型的潛在風險引發(fā)了研究者廣泛的興趣,越來越多的心理學(xué)家開始深入探索其背后的原因,以更清楚地劃定大模型的能力邊界。人們關(guān)心這些模型是否可能具備類似人類的認知方式,是否能夠模擬人類的思維過程,以及它們所展示的智力水平是否與某個特定年齡段的兒童相當。心理學(xué)家通過對人類的思想和行為進行研究以及使用腦成像和計算機建模等其他實驗方法來試圖了解大腦的工作機制,理解人類的思維并發(fā)展人類的認知技能,心理學(xué)的部分工具同樣可以幫助檢驗大模型的風險(Binz,et al.,2023)。隨著大模型在社會中的影響日益增大,對于研究和評估它們行為的重要性不斷上升,同時也推動我們深入挖掘這些模型可能具備的新能力。因此,機器心理學(xué)(Machine Psychology)開始受到越來越多的關(guān)注。
機器心理學(xué)由克里奇馬爾等人(Krichmar,et al.,2002)提出,最初旨在研究動物行為過程中的大腦活動,通過對神經(jīng)解剖學(xué)的詳盡分析操作為未來智能機器的開發(fā)奠定基礎(chǔ)。借用這一術(shù)語,當前機器心理學(xué)的應(yīng)用領(lǐng)域略有不同,被用于理解大模型“智能”行為背后的機制,類似于心理學(xué)研究人類認知的方式來研究大模型。這種方法探究了模型如何從輸入數(shù)據(jù)中提取信息、進行推理、生成回應(yīng),并在某種程度上模仿人類的思維模式。例如,通過心理調(diào)查可以衡量大模型所表現(xiàn)出來的黑暗性和負面性(Li,et al.,2023),使用大模型模擬人類參與者進行社會科學(xué)研究(Chen,et al.,2023),這類研究都是機器心理學(xué)在新興領(lǐng)域的應(yīng)用。借助機器心理學(xué),研究者將能夠更深入地了解大模型如何處理信息、如何產(chǎn)生類似人類思維的結(jié)果。這不僅有助于更好地利用這些模型的優(yōu)勢,還能夠識別和糾正它們的不足之處。通過深入研究模型的認知過程,我們可以更準確地判斷它們的適用范圍,避免不當?shù)氖褂?,并更好地引?dǎo)它們在教育領(lǐng)域的應(yīng)用。因此,機器心理學(xué)對大模型背后原理的深入探求,可以為我們理解模型的智能行為提供新的途徑。
本文旨在梳理機器心理學(xué)視角下大模型應(yīng)用研究的現(xiàn)狀,為其教育應(yīng)用引入新的分析維度。機器心理學(xué)通過深入挖掘模型的認知機制,了解它們與人類認知的異同,既有助于我們更加準確地判斷大模型在教育領(lǐng)域的適用性及潛在風險,也可以幫助我們更好地理解和模擬人類心理過程,為大模型教育領(lǐng)域的應(yīng)用提供新的可能性。
人工智能研究探討機器(主要指包含AI 的技術(shù)系統(tǒng))行為和人類行為的異同,主要通過對(人類)行為學(xué)和機器行為研究進行類比。傳統(tǒng)AI 研究圍繞解釋機器行為的分析維度,大多從產(chǎn)生行為的機制、行為發(fā)展和行為進化等多個層面對機器行為展開探索,積累了豐富的成果。在產(chǎn)生行為的機制方面,有研究者研究無人駕駛汽車表現(xiàn)的駕駛行為如變換車道、在十字路口轉(zhuǎn)彎或鳴笛,探討了這些行為的策略決策過程(Galceran,et al.,2017)。在行為發(fā)展方面,研究者通過將機器暴露于特定的訓(xùn)練刺激環(huán)境中來塑造機器的行為。例如,許多圖像和文本分類算法經(jīng)過訓(xùn)練,可以優(yōu)化人類手動標記的一組特定數(shù)據(jù)集的準確性,數(shù)據(jù)集的數(shù)量和選擇以及對數(shù)據(jù)集的評估方法可以極大影響分類的準確性(Buolamwini,et al.,2018;Bolukbasi,et al.,2016)。在行為進化方面,行為還受到過去的自然選擇和先前進化的機制的影響,對于機器的行為而言,有關(guān)微處理器設(shè)計的早期選擇繼續(xù)影響著現(xiàn)代計算,而算法設(shè)計的傳統(tǒng)(例如神經(jīng)網(wǎng)絡(luò))來源于早期。因此,某些算法可能會特別關(guān)注某些功能而忽略其他功能,因為這些功能在早期成功的應(yīng)用程序中都較重要(Wagner,2013)。
傳統(tǒng)機器行為的研究偏宏觀,但面對大模型不斷涌現(xiàn)的強大能力,我們需要從更細致微觀的角度對機器行為進行研究。機器心理學(xué)的視角可以幫助研究者從心理學(xué)的視角認識大模型:一方面可以幫助探索大模型的“類人”特征以更好地為教育服務(wù),另一方面其研究成果可以推動教育研究的發(fā)展。精心設(shè)計的心理學(xué)實驗可以幫助描述、解釋、預(yù)測和改變?nèi)祟惢騽游镄袨?,心理學(xué)家用觀察與實驗數(shù)據(jù)來評估人類對各種情況的反應(yīng),為人類行為創(chuàng)造理論和解釋原因,這些潛在的原因包括生物因素、社會交互因素以及個人認知因素等。心理學(xué)的研究成果使研究者能夠繪制人類的認知發(fā)展軌跡,并深入了解關(guān)鍵概念的發(fā)展時間和方式。這種從心理學(xué)實驗的角度對于大模型的研究具有以下幾個方面的作用,如圖1所示。
圖1 機器心理學(xué)的重要性
使用心理學(xué)的經(jīng)典實驗可以幫助探索通用人工智能模型(特別是大模型)的“類人”特征,心理學(xué)的方法論技術(shù)對于評估大模型較有幫助(Kosoy,et al.,2023)。例如,改變大模型語言編碼的方式,觀察其語言理解能力的變化。研究者無法僅通過與兒童的對話來準確判斷他們的認知能力,但是面對大模型卻可以做到。許多大模型的研究者最初將人類的心理學(xué)概念和實驗方法直接應(yīng)用于大模型,假設(shè)所謂的人類認知和大模型認知具有相似性,從心理上對大模型進行分類,甚至采用模擬人類行為的方式評估大模型的表現(xiàn)。
一方面,這種方法允許研究者通過多次在大模型上執(zhí)行相同任務(wù)的方式,來深入研究模型隨著時間推移而發(fā)展的情況。通過生成縱向數(shù)據(jù)并進行對比,研究者可以建立起一種基線,用以推測大模型推理能力的發(fā)展趨勢。這些數(shù)據(jù)對于人工智能安全和一致性研究變得越發(fā)重要,因為它們有潛力預(yù)測單個大模型或多個大模型相互交互的實例在未來行為上的潛在表現(xiàn)。
另一方面,通過建立人類用戶與大模型之間的長期互動,我們可以觀察這種互動是否能夠促進大模型在情感識別、話語理解、社交能力等方面的進步。通過深入探索這些潛力,機器心理學(xué)為人工智能的可解釋性提供了一種創(chuàng)新的途徑。有研究(Jones,et al.,2022)使用認知偏差這一心理學(xué)概念識別并測試大模型的問題,結(jié)果表明認知科學(xué)的實驗方法可以幫助表征大模型系統(tǒng)的行為方式。還有研究從行為主義的視角出發(fā),以分析大模型輸入和輸出之間的相關(guān)性為切入點,而不是試圖解釋神經(jīng)網(wǎng)絡(luò)的內(nèi)部機制(Hagendorff,2023a),這樣的研究有助于推導(dǎo)出人工智能模型的可能內(nèi)在結(jié)構(gòu)或基礎(chǔ)。這種方法不僅僅是對傳統(tǒng)的自然語言處理基準測試方法的有益補充,更是提供了一個更全面的視角,以理解和評估人工智能系統(tǒng)在真實世界環(huán)境中的表現(xiàn)。
由于與心理學(xué)科的研究范式高度近似,機器心理學(xué)的研究成果對推動教育研究的發(fā)展具有一定的積極意義。
首先,將大模型作為研究對象可以更深入了解人類學(xué)習(xí)的內(nèi)在機制。將大模型與兒童的輸出結(jié)果進行對比,可以了解哪些知識是從語言和符號中學(xué)習(xí)到的,哪些需要與世界進行交互,從而可以更深入地了解人類學(xué)習(xí)的內(nèi)在機制。如研究者會從神經(jīng)科學(xué)的角度來解釋偏見和刻板印象,將其歸因于大腦和神經(jīng)結(jié)構(gòu)的運作方式(Amodio,2014)。大模型完全依賴于文本數(shù)據(jù)進行生成和決策,缺乏人類決策所需的思維信息、感官刺激或個人體驗。因此,人類的偏見和刻板印象可能更多地受到語言內(nèi)部因素的影響,而不僅僅是外部因素的影響,這可能有助于糾正對人類心理過程的過度解釋。目前大模型在語言文字上表現(xiàn)優(yōu)異,但兒童在相同數(shù)量級的文字語言輸入下會表現(xiàn)出更高的學(xué)習(xí)效率,并有能力推理出新的語言任務(wù)(Frank,2023)。這是因為兒童通常通過結(jié)構(gòu)化的社交互動獲取語言輸入,積極參與互動,而且成人常簡化兒童的語言輸入,確保易于理解,導(dǎo)致兒童詞匯的有限和句子結(jié)構(gòu)相對簡單的語言輸入。而這種互動式的輸入與大模型的訓(xùn)練數(shù)據(jù)不同,大模型需要處理來自多種復(fù)雜且脫離語境來源的大量文本,而且沒有互動或干預(yù)的機會。由此可見,在早期兒童語言文字學(xué)習(xí)階段,互動式學(xué)習(xí)以及基于語境的學(xué)習(xí)對于兒童而言至關(guān)重要。目前大模型能夠幾乎完美地模仿自然的人類語言模式和特定的寫作風格,其隱喻理解的能力甚至優(yōu)于大學(xué)生(Ichien,et al.,2023)。這表明在大量語言文本中尋找模式可能足以獲取語言的許多特征,而與世界的互動無關(guān),因此人類兒童可以以類似方式學(xué)習(xí)語言特征。類似的,科索伊等人(Kosoy,et al.,2023)發(fā)現(xiàn)LaMDA 會產(chǎn)生與社會理解任務(wù)的兒童相似的反應(yīng),這提供了證據(jù)表明這些領(lǐng)域的知識是通過語言發(fā)現(xiàn)的,而LaMDA在因果推理任務(wù)中的反應(yīng)與兒童有很大不同,這也表明這些領(lǐng)域需要更多對真實世界的實際探索才能完成,不能簡單地從語言輸入的模式中學(xué)習(xí)。
其次,將大模型作為研究環(huán)境,機器心理學(xué)研究成果對解釋“人類是如何學(xué)習(xí)”等學(xué)習(xí)科學(xué)的基本議題有重要幫助。需要說明的是,盡管學(xué)習(xí)科學(xué)的理論很大程度參照心理學(xué)等高度控制的實驗環(huán)境下產(chǎn)生的研究成果而提出,但由于教育情境的復(fù)雜性、方法學(xué)的局限以及倫理因素的限制,一些心理學(xué)假說難以在人類主體上驗證,大模型為我們提供了一個可重復(fù)調(diào)控變量的理想實驗平臺。首先,大模型為研究者提供了一個可以生成、優(yōu)化和測試各種假設(shè)和概念的控制平臺。研究者可以在大模型上進行實驗,以探索不同的教育場景和學(xué)習(xí)情境,而無須涉及復(fù)雜的人際互動或教育場所。其次,研究者可以向大模型提出各種問題,以觀察其可能的響應(yīng)和行為。這有助于研究者更好地理解特定問題的可能解決途徑,還可以提供關(guān)于大模型如何處理不同情境和信息的見解。第三,大模型可以在研究者收集到人類數(shù)據(jù)后提供額外的驗證和對照。通過將大模型的輸出與實際人類反應(yīng)進行比較,可以更加確保研究的穩(wěn)健性和可重復(fù)性,從而增強了研究的可信度。最后,相較于人類參與者,大模型可以對數(shù)百個枯燥無味的任務(wù)做出回應(yīng),且不違反倫理規(guī)范。一個典型的案例是,霍頓(Horton,2023)將GPT-3 作為實驗對象進行多項實驗,發(fā)現(xiàn)大模型可以真實代表人類在實驗中的發(fā)現(xiàn),并且具有樣本量大、便宜等特點。
現(xiàn)階段的機器心理學(xué)主要采用行為主義的視角,側(cè)重比較心理學(xué)實驗提示(輸入)和提示完成(輸出)之間的相關(guān)性,而不是通過檢查大模型的內(nèi)在屬性(即神經(jīng)結(jié)構(gòu))來推斷大模型的性質(zhì)(Hagendorff,2023a)。機器心理學(xué)通過將大模型視為心理學(xué)實驗的參與者來識別大模型的行為模式、涌現(xiàn)能力以及決策和推理機制,有助于深入理解大模型在教育領(lǐng)域的行為、決策和推理機制,從而改善教育應(yīng)用的性能和有效性。
隨著能力越來越強的大模型的出現(xiàn),研究者需要提高對它們?nèi)绾螌W(xué)習(xí)和做出決策的認識(Gunning,et al.,2019)。從許多角度上來看,大模型的作用令人印象深刻,它們生成與人類創(chuàng)作無異的文本、情感分析以及機器翻譯。更進一步的是,這些模型的能力不僅僅是語言生成,他們還可以在輸出中交織語言和計算機代碼,甚至可以完成復(fù)雜的決策分析。盡管大多數(shù)人仍然認為這些模型距離人類對語言和語義的理解相去甚遠,但不少人開始持這樣的觀點:基礎(chǔ)模型在海量的數(shù)據(jù)上進行大規(guī)模訓(xùn)練并適應(yīng)廣泛的下游任務(wù),已經(jīng)顯示出某種形式的通用智能(Binz,et al.,2023)。但是,如何才能真正評估這些模型(至少在某些情況下)是否做了一些智能的事情?本研究希望通過心理學(xué)的手段來回答一些問題,判斷大模型是否在思維上和人類具有相似性,畢竟心理學(xué)家在理解人類的思維上有著豐富的經(jīng)驗。
多元智能理論認為智力是多元的而不是單一的,可以分為不同的類別,包括語言智能、邏輯數(shù)學(xué)智能、空間智能等(Davis,et al.,2011)。在大模型中,只能評估智力的特定維度,如語言推理、邏輯和抽象思維或空間智力。智力測試被用于教育評估中,幫助教育者了解學(xué)生的智力水平和認知水平,幫助制定個性化的教育方案??梢哉J為,人類智力測試的測試框架能夠作為測試大模型的基礎(chǔ)。
例如,韋伯等人(Webb,et al.,2023)將基于文本的矩陣推理任務(wù)應(yīng)用于GPT-3,該任務(wù)的問題結(jié)構(gòu)和復(fù)雜性與衡量人類流體智力的Raven 漸進矩陣相當,發(fā)現(xiàn)GPT-3 有類比推理的能力,在各種基于文本的問題類型中展現(xiàn)出超越人類的表現(xiàn)。在大模型中,智力測試可以幫助研究者評估大模型的認知能力,以更準確地確定模型能力的改進。有研究(Han,et al.,2023)將GPT-3 和GPT-4 應(yīng)用于人類歸納推理中的一個經(jīng)典問題(屬性歸納)。通過兩次實驗,每次實驗都側(cè)重于將人類歸納判斷與GPT-3、GPT-4得出的判斷進行比較。結(jié)果表明,盡管GPT-3 很難捕捉到人類行為的許多方面,但GPT-4 卻十分成功,在大多數(shù)情況下的表現(xiàn)與人類的表現(xiàn)相當。智力測試還可以幫助識別大模型的性能瓶頸,以便優(yōu)化模型在各項任務(wù)中的表現(xiàn)。史蒂文森等人(Stevenson,et al.,2022)在吉爾福德替代用途測試(AUT)中評估了GPT-3 的創(chuàng)造力,并將其性能與之前收集的人類回答進行了比較,包括原創(chuàng)性、有用性、驚喜性等,結(jié)果表明在創(chuàng)造力的得分上人類得分更高。
智力測試是衡量測量對象認知能力的一種手段,研究者可以通過分析智力測試結(jié)果來了解大模型的強項和有待提升的領(lǐng)域,從而對其能力邊界有更清晰的認識。
人格是一個相對穩(wěn)定的心理結(jié)構(gòu),與親社會行為和道德認同都相關(guān)(陳誠,等,2023)。評估人格的框架也可以應(yīng)用于大模型,如有研究(Jiang,et al.,2023)用機器人格清單(MPI)數(shù)據(jù)集來評估大模型人格,結(jié)果表明大模型具備人格特征。一些研究應(yīng)用大五人格(Big Five)(Digman,1990)等不同心理測試來評估他們的虛擬人格(如行為傾向)。例如,卡拉等人(Karra,et al.,2023)使用大五人格分析了各種大模型的人格特質(zhì),西西里等人(Sicilia,et al.,2023)使用語言學(xué)方法分析了GPT-3.5 的社交語言特征,米奧托等人(Miotto,et al.,2022)研究了GPT-3 的人格特征、價值觀和自我報告的人口特征。值得注意的是,另外一些研究通過人格測試檢測其模型中的社會和道德風險(如種族偏見)(Rao,et al.,2023),以更全面地了解模型的風險行為。例如,有研究(Li,et al.,2023)使用黑暗人格測試(Short Dark Triad,SD-3)研究了GPT-3 的人格,發(fā)現(xiàn)其人格模式相對消極。
越來越多的研究認為大模型具有虛擬人格和心理,這在指導(dǎo)他們的反應(yīng)和互動模式方面發(fā)揮著至關(guān)重要的作用。
個體與他人交往時需要了解他人的愿望、情緒和信念,對他人的心理狀態(tài)進行想象從而推斷他人的行為,這種能力被稱為心理理論(Theory of Mind,ToM)(劉建榕,等,2024)。對大模型進行心理理論的測試可以幫助我們了解模型是否具備某種程度的社交認知能力,以及其是否能夠在生成文本或做出決策時考慮到他人的立場和情感。例如,在生成內(nèi)容的機制中,模型應(yīng)該結(jié)合上下文理解不同教育者的需求和感受,避免生成具有冒犯性的和有毒的內(nèi)容,然而,泰克等人(Tack,et al.,2022)研究了大模型在教育對話中回復(fù)學(xué)生生成對話的能力,發(fā)現(xiàn)該能力目前還遠落后于人類。
心理理論是社會認知的基礎(chǔ),在社會互動、預(yù)測他人能力和培養(yǎng)共情能力方面十分重要。有研究者認為,心理理論是一種基本的認知和社會特征,使研究者能夠通過可觀察或潛在的行為和言語線索來推測彼此的想法(Baron-Cohen,1999)。多篇論文研究了大模型中心理理論的存在和程度:例如,布貝克等人(Bubeck,et al.,2023)提出了用錯誤信念測試、意圖測試等來評估GPT-4 的心理理論,結(jié)果表明GPT-4 可以通過Sally-Anne 和ZURFIN 測試,其具有非常高的心理理論水平,能夠推理他人在真實場景下的心理狀態(tài);普里斯塔夫斯基等人(Prystawski,et al.,2023)研究了GPT-3 中的隱喻理解能力,并根據(jù)隱喻理解的心理模型開發(fā)了兩種類型的提示,得出大模型擅長將隱喻和恰當?shù)尼屃x進行匹配。最新的ChatGPT(GPT-4)則可以完成93%的心理理論任務(wù),具有強大的分析和決策能力(Kosinski,2023)。
鑒于現(xiàn)有研究證實了大模型存在一定程度的心理理論,已經(jīng)有研究者將其應(yīng)用于教育領(lǐng)域,例如,讓GPT-3.5 模擬校長、家長、學(xué)生等不同角色作為社會調(diào)查對象,模擬不同角色對利益相關(guān)議題的反饋(陳向東,等,2023b)。
心理學(xué)實驗可以幫助了解大模型在不同領(lǐng)域的應(yīng)用潛力和局限性,因此,一些研究通過在大模型上重復(fù)心理學(xué)的經(jīng)典實驗來判斷大模型的能力以便更好應(yīng)用于教育。
其中,最典型的是BIG-Bench(Beyond the Imitation Game Benchmark)測試(Srivastava,et al.,2023),該測試包括204 項任務(wù),問題涉及語言學(xué)、兒童發(fā)展、數(shù)學(xué)、常識推理、生物學(xué)、物理學(xué)、社會偏見、軟件開發(fā)等領(lǐng)域。有研究(Huang,et al.,2023;Qiao,et al.,2023)對大模型中推理能力作為一種新興能力的含義進行了概念分析并推斷原因。賓茲等人(Binz,et al.,2023)使用基于小插圖的認知心理學(xué)工具研究大模型的決策推理、信息搜索、思考能力和因果推理能力,大模型顯示出基于模型的強化學(xué)習(xí)特征,其在一些任務(wù)上和人類的表現(xiàn)相當。
一些研究利用心理學(xué)實驗判斷大模型的行為模式和認知特征,以便確認其是否可以輔助決策。有研究者(Hagendorff,et al.,2023b;Dasgupta,et al.,2022;Nye,et al.,2021;Talboy,et al.,2023;Jones,et al.,2022;Chen,et al.,2023)應(yīng)用判斷和決策心理學(xué)的實驗(Linda 問題、Wason 選擇任務(wù)、Cab 問題等)來測試模型中的認知偏差現(xiàn)象?;纛D(Horton,2023)在GPT-3 上提供資源、信息、偏好等,通過模擬場景進行行為經(jīng)濟學(xué)實驗,并發(fā)現(xiàn)其行為在質(zhì)量上與人類參與者的行為相似。
一些研究將大模型作為參與者參與心理學(xué)實驗。帕克等人(Park,et al.,2023)將人類對心理學(xué)實驗的反應(yīng)與GPT-3.5 的輸出進行了比較,結(jié)果表明GPT-3.5 與人類被試相比,更易于進行控制實驗,這些實驗既具高功效,又在統(tǒng)計上有效,使用大模型可以快速且廉價地收集大量樣本。阿赫等人(Aher,et al.,2023)使用不同大模型來模擬經(jīng)典心理學(xué)實驗(最后通牒博弈、米爾格拉姆實驗、群體智慧實驗等)中的人類,將該模型用于收集各種參與者行為方面的數(shù)據(jù)。
這些研究不僅有助于了解大模型的認知過程,還為我們理解人類決策和思考提供了新的視角,并且這些心理學(xué)實驗為我們揭示了大模型可能存在的局限性和弱點,進一步促進了我們對其優(yōu)化和改進的思考。
“思維鏈”(Chain of Thought)一詞最早由谷歌實驗室提出(Wei,et al.,2022),旨在讓大模型模仿人的思考過程,其中引起大模型最終輸出的一系列中間推理步驟的提示稱為思維鏈提示。通過引導(dǎo)模型沿著特定的思維鏈或思考路徑,可以更容易地解釋模型的決策過程和生成的輸出。思維鏈方法可以顯著提高許多大模型的表現(xiàn),包括在算術(shù)、符號和常識推理任務(wù)上表現(xiàn)得更優(yōu)異。
思維鏈涉及到機器如何鏈接、組織和理解信息。人類在面對信息時,會根據(jù)已有的知識和經(jīng)驗來形成各種關(guān)聯(lián)和邏輯鏈條,這種能力使得我們能夠更加高效地處理信息、做決策和創(chuàng)造新知識。對于大模型而言,思維鏈不僅僅是處理信息的一種方式,還是它展現(xiàn)出一種類似于人類的認知過程的手段。大模型的思維鏈可以讓我們深入探索機器的“心理”工作機制,例如,大模型如何決定哪些信息是相關(guān)的? 它是如何根據(jù)上下文調(diào)整其思維鏈的? 這些研究不僅有助于我們更好地設(shè)計和理解大模型,還為我們提供了一個窗口,觀察機器可能存在的心理過程和認知模式。因此,思維鏈是機器心理學(xué)的一個重要研究案例,為我們提供了理解機器與人類思維差異的有力工具,從而使我們能夠更加合理地預(yù)測和引導(dǎo)大模型的行為。
思維鏈提示在給出答案之前,分解成多個中間推理步驟,再進行求解,如圖2所示。使用思維鏈可以引導(dǎo)模型生成特定類型的文本,從而控制輸出,確保其符合用戶的需求或預(yù)期。蘇茲貢等人(Suzgun,et al.,2022)將思維鏈方法應(yīng)用于大模型PaLM,并評估其對23 項BIG-Bench 任務(wù)的完成情況,發(fā)現(xiàn)有17項任務(wù)超越了人類,包括算術(shù)、邏輯、幾何和自然語言理解等任務(wù)。不同的任務(wù)或應(yīng)用領(lǐng)域可能需要不同類型的思維鏈,通過為特定任務(wù)設(shè)計思維鏈,可以使模型更專注于特定領(lǐng)域的知識和信息,提高模型在該領(lǐng)域的性能和效率。
圖2 思維鏈提示
思維鏈是模仿大腦的思考過程所提出的一種優(yōu)化大模型表現(xiàn)的方式,其中間步驟類似于大模型的燈塔,用于實現(xiàn)在模型輸出中復(fù)制符號以形成答案,而不是真正學(xué)習(xí)如何解決問題(Madaan,et al.,2022)。思維鏈試圖借鑒人類思維和問題解決的方法,以提高大模型在復(fù)雜任務(wù)中的表現(xiàn)。它們強調(diào)了反思、分解任務(wù)、漸進式解決和靈活性等認知策略的重要性。通過將這些策略應(yīng)用于大模型,研究者試圖提高大模型的問題解決能力,使其更接近人類智能的表現(xiàn)。這些方法的有效性在教育和其他領(lǐng)域具有重要意義,因為它們可以改進大模型的學(xué)習(xí)和決策能力,提高教育支持和問題解決的質(zhì)量。在思維鏈的幫助下,大模型可以順利解決多語言小學(xué)的數(shù)學(xué)問題(Shi,et al.,2022)、多步驟推理問題(Wang,et al.,2022)和用于翻譯質(zhì)量的提高(Lu,et al.,2023)。
然而需要指出的是,盡管思維鏈雖然在各種自然語言推理任務(wù)中表現(xiàn)出了卓越的性能,但它在完成比示例更復(fù)雜的任務(wù)上表現(xiàn)不佳,研究者在思維鏈基礎(chǔ)上提出了許多拓展方案,例如零樣本思維鏈、思維鏈自洽性、思維樹、思維圖的概念,如圖3所示。
零樣本思維鏈是指在問題的結(jié)尾附加“讓我們一步一步思考”等句子,引導(dǎo)大模型按步驟進行思考而生成回答,這類似于教師引導(dǎo)學(xué)生分步考慮問題。人類在解決復(fù)雜問題時通常會經(jīng)歷考慮多個角度、反復(fù)思考和調(diào)整答案的過程,因此有研究在思維鏈基礎(chǔ)上提出思維鏈自洽性,特點是在思維鏈的基礎(chǔ)上對多種答案進行權(quán)衡,讓大模型自己進行反思迭代(Wang,et al.,2023)。還有研究提出思維樹,特點是在思維鏈自洽性的基礎(chǔ)上,將大任務(wù)列舉出一些子任務(wù)以及子步驟,根據(jù)每一步推理后的每一種可能性的答案進行投票,并且其可以根據(jù)投票結(jié)果回溯上一步并重新推理(Yao,et al.,2023)。結(jié)果表明思維樹的方法顯著提高了大模型在三個新任務(wù)(24 點游戲、創(chuàng)意寫作、迷你填字游戲)中的問題解決能力,相比思維鏈方法,用該方法的大模型表現(xiàn)更優(yōu)異。思維樹方法將任務(wù)分解為子任務(wù)和子步驟,并在推理過程中考慮每一步可能的答案。這種方法類似于人類在解決復(fù)雜問題時可能會構(gòu)建思維樹,考慮不同決策路徑的方式。思維樹允許模型根據(jù)投票結(jié)果迭代地重新考慮先前的決策,這可以增加問題解決的靈活性,類似于人類在思考時可能會回頭檢查并重新評估之前的選擇。除此之外,另一個延伸的概念為思維圖(Besta,et al.,2023),是將不同的思考過程、推理鏈或想法組合在一起綜合優(yōu)點來生成更好的解決方案,類似于人類推理會按照一種思考路徑或推理鏈進行思考,然后回溯或嘗試另一種推理鏈,相互結(jié)合,進而形成一個綜合各個優(yōu)點的解決方案。這些提高推理能力的方法不僅可以用于大模型中,也可以將大模型視為研究對象將其反應(yīng)應(yīng)用于人類。
對于機器心理學(xué)而言,通過對思維鏈的研究,可以為我們提供一個橋梁連接機器的計算過程和人類心理活動:首先,可以更好地理解機器是如何模擬人類的這一認知過程,從而為構(gòu)建更加復(fù)雜和高效的算法提供指導(dǎo);其次,可以讓機器通過理解其自身的思維鏈和可能的選擇路徑,做出更加明智的決策;再次,思維鏈也可以幫助我們更好地與大模型互動,這為設(shè)計更加自然、直觀和人性化的用戶界面提供了可能性;最后,研究機器上的思維鏈也可能為我們提供關(guān)于人類心理學(xué)的新洞見。機器的模擬過程為揭示人類心智中難以覺察的細微結(jié)構(gòu)和模式提供了新途徑。
教師和學(xué)生如何更好地理解和信任大模型的行為?教師需要確保大模型提供的支持和回答是準確、可靠的,并且需要理解為什么大模型會做出特定的決策。機器心理學(xué)的視角為解決這些問題提供了一個可能的途徑,大模型嘗試使用心理學(xué)或人類可理解的術(shù)語來解釋機器行為模式,以提高對其行為的可解釋性,并提高教育領(lǐng)域中這些技術(shù)的可信度和適用性。
然而這一做法引發(fā)了一系列有關(guān)其認知能力和行為特征的爭議。如大模型運用心理學(xué)術(shù)語在某種程度上能夠增進大模型對行為的理解,但這種理解也受制于模型在訓(xùn)練過程中所接觸到的數(shù)據(jù)和模式,無法真正領(lǐng)會行為背后的深層含義?,F(xiàn)有研究普遍存在一些局限性,如依賴于小樣本量,以及對提示措辭的高度敏感等,這些問題可能會影響研究結(jié)果的可靠性和適用性。但是,目前機器心理學(xué)的這種爭議可以幫助提高模型的可解釋性,使教育者和學(xué)生更好地理解模型的決策和行為模式,從而建立信任,制定更智能、更有效的教育工具支持學(xué)生的學(xué)習(xí)需求,提供更好的學(xué)習(xí)體驗。
機器心理學(xué)常用兩種心理學(xué)方法與大模型交互(Hagendorff,2023a),這兩種心理學(xué)方法都基于語言文本提示大模型。一種是自我報告法,如訪談和問卷調(diào)查,可以通過測量某些態(tài)度或行為的普遍程度來獲取有關(guān)大模型的系統(tǒng)信息。例如,用封閉式問題或等級量表對大模型進行測試時,可以自動化對問卷進行解釋,這使得研究者能更快捷地收集數(shù)據(jù),且研究結(jié)果更可靠。另一種是觀察法,觀察法可以幫助研究者進行行為記錄并從中獲取記錄模式。需要說明的是,在發(fā)展心理學(xué)、道德心理學(xué)或判斷和決策心理學(xué)的許多測試框架中,自我報告法并不適用,只有觀察法適用(Hagendorff,2023a)。
僅依靠語言文本與大模型交互會產(chǎn)生很多局限性,首先是許多心理學(xué)研究使用的實驗設(shè)計不能轉(zhuǎn)移到大模型上,一些實驗設(shè)計要求使用語言以外的刺激、感官數(shù)據(jù)、短長期記憶等來產(chǎn)生嚴格的實驗設(shè)計,例如,對于心理理論的測試,理解非語言線索的能力,像面部表情、手勢或語氣的能力也十分重要,而目前的測試無法感知社交互動的復(fù)雜性和豐富性。其次,雖然機器心理學(xué)的研究具備及時反應(yīng)性,一定的輸入可以立即得到輸出結(jié)果,但相比于人類被試,該輸出結(jié)果很難解釋。心理學(xué)家很早就意識到,表面上相似的行為可能具有截然不同的心理根源,并且可能是截然不同的學(xué)習(xí)技術(shù)和數(shù)據(jù)的結(jié)果。人類被試的測試結(jié)果可以從神經(jīng)科學(xué)、反應(yīng)時、文化背景上得到解釋,而大模型缺乏感官刺激和個體經(jīng)驗,其輸出完全來源于語言,因此較難從多方面對大模型的輸出結(jié)果進行解釋。
在心理學(xué)實驗中,如果參與者之前已經(jīng)接觸過特定的刺激物品,他們可能會展現(xiàn)出已經(jīng)學(xué)會的反應(yīng),而不是根據(jù)新的線索進行推理。因此,許多研究會使用那些參與者在日常生活中不太可能遇到的詞匯或物品,以防止他們依賴已有的學(xué)習(xí)反應(yīng)來完成任務(wù)。然而,由于大型模型接受了數(shù)百甚至數(shù)千篇科學(xué)論文的訓(xùn)練,這些論文包含了機器學(xué)習(xí)和心理學(xué)評估的示例,因此使用傳統(tǒng)的實驗方法來評估這類模型可能會毫無效果。模型的輸出可能會反映訓(xùn)練數(shù)據(jù)集中的內(nèi)容,例如模型的輸出可能會依賴于知識庫中研究論文的已知答案,而不是進行推理和綜合分析。一項研究表明,GPT-3 可以像人類受試者一樣或更好地解決一些基于小插圖的實驗,然而解釋這些結(jié)果很困難,因為其中許多小插圖可能是其訓(xùn)練集的一部分(Binz,et al.,2023)。目前機器心理學(xué)領(lǐng)域已經(jīng)進行的許多研究都可能存在這樣一種隱患:他們使用包含心理學(xué)實驗材料的提示并將其應(yīng)用到大模型,而沒有針對性地改進這些實驗材料的措辭、任務(wù)順序等。
心理學(xué)實驗通常需要經(jīng)過嚴格篩選和控制的數(shù)據(jù)集,以確保實驗的可靠性和有效性。然而,大模型的輸出是基于其訓(xùn)練數(shù)據(jù),并且隨著大模型訓(xùn)練規(guī)模的上升,回答問題的準確性也會提高,如隨著GPT版本的提升,大模型解決錯誤信念任務(wù)的正確率從40%提升至95%(Kosinski,2023),GPT-4 比GPT-3在歸納任務(wù)中的表現(xiàn)更出色(Han,et al.,2023)。GPT-3.5 和GPT-4 通過人類反饋的強化學(xué)習(xí)進行了微調(diào),在GPT 的迭代中,人類的作用可能是不透明且可變的,并且可能只是簡單地修改了比較明顯的錯誤。即使針對同一個GPT 模型,同一類任務(wù)的表現(xiàn)也有可能不同,如僅對心理理論的原始小插圖實驗進行微小的更改,GPT-3 的表現(xiàn)就會受到很大的影響(Binz,et al.,2023),而這些干擾對于具有心理理論能力的人來說是不影響的。
因此,在采用心理學(xué)測試框架來評估大型語言模型時,必須確保大模型的訓(xùn)練數(shù)據(jù)不包含與測試內(nèi)容相同或相似的信息,以確保測試的可靠性和有效性。與此同時,任務(wù)的設(shè)置條件在獲得可靠的結(jié)果方面至關(guān)重要,就像在設(shè)計心理學(xué)任務(wù)時,研究者會為參與者創(chuàng)造全新的刺激環(huán)境來確保測量的準確性。在設(shè)計用于評估大型模型的新任務(wù)時,需要充分發(fā)揮創(chuàng)新,包括測試提示的創(chuàng)新措辭、指令和行為,以激發(fā)模型在不同情境下產(chǎn)生有價值的回答。然而也需要注意,在將心理學(xué)任務(wù)創(chuàng)新地轉(zhuǎn)化為大模型可理解的格式時,研究者必須確保所使用的提示能夠合理地反映他們所要測量的結(jié)構(gòu),這可能需要適當?shù)恼{(diào)整和簡化以確保任務(wù)的有效性和模型的理解能力。
盡管大模型的機器心理學(xué)研究通常采用高度受控的實驗設(shè)置,排除了影響研究的混雜因素,但目前很多機器心理學(xué)研究的共同問題是使用小樣本量。小樣本量在機器心理學(xué)研究中可能引起抽樣偏差,這意味著即使微小的提示變化也可能顯著影響模型的輸出,從而影響研究的準確性和可信度。
除小樣本的問題以外,選擇具有代表性的樣本也至關(guān)重要,在理想情況下,這些測試應(yīng)該在模型訓(xùn)練過程中多次進行,以確定隨著模型獲得更多經(jīng)驗其表現(xiàn)如何變化,只有這樣我們才能可靠地評估某種行為是否具有系統(tǒng)性的重復(fù)性和普遍性。在測試大模型的某種能力時,我們還需要在涉及相同抽象概念的多個任務(wù)和測量上進行,并將這些不同的實驗任務(wù)的輸出證據(jù)結(jié)合在一起以獲得更全面、可靠的證據(jù),以確保其在不同情境下能夠表現(xiàn)出一致的能力。例如,評估大模型的推理能力,需要設(shè)計一系列和推理相關(guān)的實驗任務(wù),包括邏輯推理任務(wù)、數(shù)學(xué)推理任務(wù)、圖像推理任務(wù)等。
需要注意的是,隨著GPT-4 等多模態(tài)或增強型大模型的出現(xiàn),機器心理學(xué)將變得更重要,這意味著外部信息源、工具、感官數(shù)據(jù)、圖像、物理對象等與大模型可以進行交互(Mialon,et al.,2023)。這些交互可以更方便地幫助教育者更好地理解學(xué)生的認知過程和學(xué)習(xí)需求。通過分析學(xué)生與這些模型的互動,教育者可以獲得有關(guān)學(xué)生的深層次信息,如情感狀態(tài)、理解水平和學(xué)習(xí)風格。因此,研究者可以采用更多元化的測試方法對大模型進行測試,涵蓋各個維度,并且擴展測試場景,使其能夠模擬真實的社交互動和交流情境以提高測量大模型應(yīng)用的準確性。
大模型的迅速發(fā)展突顯了機器心理學(xué)的重要性。教育學(xué)長期以來一直專注于如何優(yōu)化學(xué)習(xí)過程以提高教育效果,而機器心理學(xué)為研究者提供了一種獨特的方式來深入了解大模型的認知和情感過程。正如OECD(2023)指出的,人工智能系統(tǒng)在整個生命周期中應(yīng)保持穩(wěn)健、可靠和安全,以便在正常使用、可預(yù)見使用或誤用或其他不利條件下,它們能夠正常運行,不會造成不合理的安全風險。大模型在多項測試中超越人類的表現(xiàn),使得我們重新思考評價與應(yīng)用大模型的方法和策略。本研究旨在思考機器心理學(xué)的研究視角,探討機器心理學(xué)在教育中的關(guān)鍵作用,以及通過思維鏈案例展示機器心理學(xué)在教育中的應(yīng)用潛力,這為大模型的機器心理學(xué)實驗提供了新的研究要求和方向。
機器心理學(xué)不僅有助于揭示人工智能的復(fù)雜性,從另一個層面看也有助于人類了解自身的心理活動。當我們在未來繼續(xù)探索和開發(fā)更為先進的AI系統(tǒng)時,機器心理學(xué)或許可以成為窺探機器之竅的強大工具,幫助我們了解大模型的認知和決策機制,以及這些機制是如何影響其在教育應(yīng)用中的表現(xiàn)。雖然大模型已經(jīng)可以在很大程度上回應(yīng)和適應(yīng)不同的提示,但我們?nèi)匀徽J為這些機器代表了對認知的一種模擬,而非真實的意識或情感。然而,大模型不斷涌現(xiàn)的能力迫使我們時刻提醒自己:它們的“心智”到底是什么,這不僅僅是一個技術(shù)問題,更需要倫理和哲學(xué)上的深入反思。