王 野
(南寧師范大學(xué) 計算機與信息工程學(xué)院,廣西 南寧 530299)
隨著ChatGPT 模型的發(fā)布[1],大型語言模型在文本生成、問答、摘要等領(lǐng)域為整個世界的技術(shù)和應(yīng)用帶來了巨大的推動。當(dāng)前,國內(nèi)的中文大型語言模型也迅速跟進,阿里巴巴、清華大學(xué)等科技公司與研究院校紛紛推出了各自有代表性的中文大型語言模型,為教育教學(xué)的數(shù)字化轉(zhuǎn)型提供了有力的幫助。同時,以ChatGPT 為主導(dǎo)的大型語言模型在教育教學(xué)的自動評價技術(shù)中開始廣泛應(yīng)用[2]。例如,Moore 等[3]利用ChatGPT 3 在化學(xué)教育教學(xué)中對學(xué)生的學(xué)習(xí)成績進行了智能評估,并根據(jù)評估結(jié)果提出不同的專業(yè)與指導(dǎo)建議;Shen 等[4]在數(shù)學(xué)的教育教學(xué)中,利用大型語言模型來生成數(shù)學(xué)題目;Bernius 等[5]在整個課程中都利用大型語言模型來評價與評估學(xué)生的學(xué)習(xí)成績,準確率達到了92%,被教師普遍接受;Zhu 等[6]建立了地理學(xué)科在線課程的形成性反饋系統(tǒng),反饋系統(tǒng)采用自動評分技術(shù)來評估學(xué)生的表現(xiàn);Reham等[7]通過人工智能對學(xué)生的學(xué)習(xí)結(jié)果進行自動評價,取得了較好的效果。而大型語言模型在自動化的教學(xué)評價中不只針對學(xué)生個體,也可以大規(guī)模地進行問題的自動生成與回答,如Qu 等[8]利用大型語言模型來生成高質(zhì)量的學(xué)科題目,同時生成答案講解,這在問題與答案的生成任務(wù)上取得了很大的突破;在英語學(xué)科上,Dijkstra 等[9]利用大型語言模型自動生成總結(jié)性反饋和評分測試;Jia 等[10]嘗試通過使用各種機器學(xué)習(xí)和深度學(xué)習(xí)模型檢測不同的特征來評估同行評審,最終利用先進的預(yù)訓(xùn)練語言模型更好地完成了同行評審的評估。
綜上可看出,從國際上來說,大型語言模型在教育教學(xué)領(lǐng)域的應(yīng)用十分廣泛。中文大型語言模型已經(jīng)步入了新的發(fā)展階段,但其在教育教學(xué)應(yīng)用中的真實效果仍需進一步驗證,其潛在的局限性和進一步的優(yōu)化方向也值得深入探索。本文基于特定數(shù)據(jù)集對中文大型語言模型的自動評估能力進行實驗與測試,來驗證中文大型語言模型的推理能力,并進一步說明中文大型語言模型對教育教學(xué)自動評估的應(yīng)用與影響。
為了更好地驗證中文大型語言模型在教育教學(xué)領(lǐng)域的表現(xiàn),本文以模型的訓(xùn)練數(shù)據(jù)、參數(shù)規(guī)模與設(shè)計架構(gòu)為依據(jù),從業(yè)界和學(xué)術(shù)界具有重要影響力的中文大型語言模型中篩選出11 個具有代表性的中文大型語言模型。具體如下:
BELLE[11]由鏈家科技公司于2023 年3 月底發(fā)布,旨在推進中文對話大模型開源社區(qū)的建設(shè),并致力于讓每一位用戶都能夠獲得屬于自己的、效果優(yōu)良的指令驅(qū)動語言模型。其核心目的是降低大型語言模型,尤其是中文大型語言模型的研究和應(yīng)用難度。BELLE 不僅專注于大語言模型的預(yù)訓(xùn)練,而且還關(guān)注基于開源預(yù)訓(xùn)練的大語言模型,使每位用戶能獲得具備高效指令表達能力的定制模型。BELLE 項目持續(xù)提供指令訓(xùn)練數(shù)據(jù)、相關(guān)模型、訓(xùn)練代碼及應(yīng)用場景,同時還持續(xù)評估不同的訓(xùn)練數(shù)據(jù)和算法對模型表現(xiàn)的影響。
MOSS[12]是由復(fù)旦大學(xué)開發(fā)的一個高級聊天模型,于2023 年4 月正式上線。該模型支持中英雙語和多種額外功能,有160 億參數(shù),并且可以在不同類型的高級顯卡上運行。它在大量的中英文數(shù)據(jù)和代碼上進行了預(yù)訓(xùn)練,因此非常擅長理解語言和代碼。該模型還經(jīng)過了特殊訓(xùn)練,以支持復(fù)雜的多輪對話和多種應(yīng)用。
Fengshenbang-LM[15](封神榜大模型系列)在2023 年5 月中旬由IDEA 研究院認知計算與自然語言研究中心主導(dǎo)發(fā)布,旨在成為中文大型語言模型和認知智能的基礎(chǔ)設(shè)施,以解決當(dāng)前中文研究資源嚴重缺乏和研究進展滯后的問題。此體系是一個以中文驅(qū)動的基礎(chǔ)生態(tài)系統(tǒng),包括預(yù)訓(xùn)練大模型、特定任務(wù)的微調(diào)應(yīng)用、基準和數(shù)據(jù)集;目標是構(gòu)建一個全面、標準化、以用戶為中心的生態(tài)系統(tǒng);還包括多模態(tài)、特定領(lǐng)域等任務(wù)。IDEA研究院提供了微調(diào)好的相關(guān)模型,使得計算資源有限的用戶也能輕松地使用。
清華大學(xué)在2023 年6 月發(fā)布了第二代中文大語言模型ChatGLM 2[16]。ChatGLM 2 在初代模型的基礎(chǔ)上全面升級,在多個數(shù)據(jù)集上的性能大幅提升;此外,該模型還利用Flash Attention[17]技術(shù),將其上下文長度從2K 擴展至32K,為了支持更長的上下文,推出了ChatGLM2-6B-32K 模型,并使其大大加快了推理速度。
上海人工智能實驗室與商湯科技公司在2023年6 月聯(lián)合推出了InternLM[18],別稱“書生·浦語大模型”,展現(xiàn)了一套包含70 億參數(shù)的基礎(chǔ)模型及對話模型,使用了上萬億高質(zhì)量的語料來構(gòu)建。該模型支持8K 的語境窗口長度,這不僅允許更長的語句輸入,而且提供了較強的推理體驗。InternLM 設(shè)計了通用工具的調(diào)用功能,從而為用戶提供了一個靈活、自助的流程搭建平臺。為了支持模型的預(yù)訓(xùn)練,InternLM 提供了一個輕量化的訓(xùn)練框架。
YuLan-Chat[19]是由中國人民大學(xué)高瓴人工智能學(xué)院的師生聯(lián)合開發(fā)的。這一系列模型在2023年6 月發(fā)布,它專為聊天設(shè)計,名字“玉蘭”(YuLan)靈感來源于中國人民大學(xué)的?;?。該系列模型在LLaMA[20]的基礎(chǔ)上進一步進行了中英雙語的預(yù)訓(xùn)練與指令微調(diào)。該模型具有優(yōu)化語言的能力,用中文詞語擴展了英文數(shù)據(jù)集的原始詞表,增加了問答上下文的長度。同時,該模型還構(gòu)建了高質(zhì)量的雙語指令,從而可以更加高效地響應(yīng)用戶問題。
百聆(BayLing)[21]是由中國科學(xué)院計算技術(shù)研究所的自然語言處理研究組研發(fā)的大規(guī)模語言模型,于2023 年6 月發(fā)布。該模型的特點是增強了中英生成、指令響應(yīng)和多輪交互能力,可以在16GB 顯存的消費級顯卡上運行,協(xié)助用戶進行翻譯、寫作、創(chuàng)作和提供建議。BayLing 利用了LLaMA 作為其基礎(chǔ)模型,通過自動構(gòu)建的交互式翻譯指令進行調(diào)優(yōu)。
悟道·天鷹[22](Aquila)語言模型由智源研究院在2023 年6 月發(fā)布,為首個結(jié)合中英雙語知識、遵循國內(nèi)數(shù)據(jù)合規(guī)并支持開源商用許可的語言大模型。該模型基于中英文高質(zhì)量語料進行從零訓(xùn)練,中文數(shù)據(jù)占比約為40%,確保在預(yù)訓(xùn)練階段獲得原生中文知識,而非依賴翻譯。Aquila 模型的中文數(shù)據(jù)來源于智源研究院多年積累的數(shù)據(jù)集,主要包含1 萬多個中文互聯(lián)網(wǎng)站源(其中99%為國內(nèi)源)以及國內(nèi)權(quán)威機構(gòu)提供的高質(zhì)量中文文獻和書籍。與此同時,此模型的訓(xùn)練數(shù)據(jù)還在不斷地增長。
百川智能于2023年7月發(fā)布了一個名為Baichuan-13B[23]的開源中文語言模型。這個模型的數(shù)據(jù)量是目前最大的,訓(xùn)練了1.4 萬億個詞片段,比LLaMA-13B[20]多了40%。它還支持中英雙語,并使用了先進的位置編碼技術(shù),對于開發(fā)者來說,這是一個非常強大的工具。而Baichuan-13B-Chat版本則是專門為與用戶對話而設(shè)計的,易于用戶在客戶端部署。
3)力學(xué)模型和有限元分析結(jié)果表明支架的薄弱環(huán)節(jié)為伸縮梁、頂梁和護幫板,特別是伸縮梁比較脆弱,在超前支架的結(jié)構(gòu)工程設(shè)計時應(yīng)予以重視。
元象科技公司在2023 年8 月初推出了名為XVERSE-13B[24]的大型語言模型,它支持40 多種語言,如中文、英文、俄文和西班牙文等。這個模型采用了標準的Transformer 網(wǎng)絡(luò)結(jié)構(gòu),基于1.4萬億的特征數(shù)據(jù)進行訓(xùn)練,能夠同時處理多種語言。
本實驗以GAOKAO-Bench[25]數(shù)據(jù)集為基準,對以上11 個大型中文語言模型的推理能力進行評估與測試。
顯卡型號:Geforce RTX 3080 Ti * 1。
編程語言:Python 3.8,PyTorch 1.9。
GAOKAO-Bench 數(shù)據(jù)集收集了2012—2022 年全國高考卷的題目,涵蓋了廣泛的學(xué)科領(lǐng)域。GAOKAOBench 包含2 811 個題目,其中選擇題1 781 題、填空題218 題、解答題812 題,多樣的題目分布可以較為客觀地評估模型在不同題型上的表現(xiàn),如表1 所示。
表1 數(shù)據(jù)集分布情況
其中:TAVe表示所有學(xué)科的平均得分。Rcorrect,i取每一個學(xué)科的正確率,SFull表示該學(xué)科滿分,n 表示學(xué)科總數(shù)。
Rcorrect,i表示第i 個學(xué)科的正確率,Scorrect表示該學(xué)科的正確得分,Tpossible,i表示第i 個學(xué)科的總可能得分。
根據(jù)以上實驗設(shè)計,本文基于GAOKAO-Bench數(shù)據(jù)集,在9 個不同學(xué)科的基礎(chǔ)上,對當(dāng)前國內(nèi)流行的11 個開源中文大模型進行了準確率評估實驗,得到評估結(jié)果,見表2。
表2 11 個開源中文大模型評估結(jié)果
阿里云發(fā)布的Qwen 模型得分最高,平均分為46.23,其次是清華大學(xué)發(fā)布的ChatGLM 2 模型,其平均分為38.31。商湯科技等聯(lián)合發(fā)布的InternLM 模型在英語和數(shù)學(xué)上則較高。Baichuan 模型的平均分為37.15,表現(xiàn)與InternLM 相當(dāng),尤其在歷史和政治方面表現(xiàn)較好。中國人民大學(xué)發(fā)布的YuLan 模型與BayLing 模型分別在政治和地理學(xué)科上表現(xiàn)較為優(yōu)秀。
在英語學(xué)科中,商湯科技等聯(lián)合發(fā)布的InternLM 模型展現(xiàn)了類似母語者的能力,獲得了高達95.20 的得分。相比之下,Moss 和Jiangziya的表現(xiàn)較為不足,分別獲得了25.30 和18.80 的分數(shù)。這可能暗示著這兩個模型在英語學(xué)科的訓(xùn)練數(shù)據(jù)相對較少,或者其模型結(jié)構(gòu)不太適應(yīng)英語學(xué)科。在數(shù)學(xué)學(xué)科中,ChatGLM 2 模型和InternLM模型展現(xiàn)了出色的表現(xiàn),得分分別為77.25 和86.05;可能因為兩者接受了大量數(shù)學(xué)題目的訓(xùn)練,或者模型結(jié)構(gòu)可以很好地理解數(shù)學(xué)邏輯。對于科學(xué)學(xué)科如物理、化學(xué)和生物,大部分模型的表現(xiàn)都比較弱。在人文學(xué)科,如歷史、政治和地理中,InternLM 模型在歷史上取得了64.21 的高分,遠高于其他模型。這可能表明它在歷史學(xué)科的訓(xùn)練數(shù)據(jù)相對豐富。而大多數(shù)模型在政治上的表現(xiàn)都相對較弱,如BayLing 和XVERSE 的得分都為0。
總結(jié)來說,這些模型在不同的學(xué)科上存在顯著的性能差異,這可能是由于它們的訓(xùn)練數(shù)據(jù)、模型結(jié)構(gòu)或算法優(yōu)化策略不同。語言模型為了在各自擅長的學(xué)科上有著更好的表現(xiàn),研究者們在未來的模型開發(fā)中可能需要考慮更多針對特定學(xué)科的優(yōu)化策略和訓(xùn)練方法。
像Qwen 和Aquila 這樣的模型并沒有采用明顯的預(yù)訓(xùn)練模型或基座,這可能是因為它們采用了自定義或混合的預(yù)訓(xùn)練模型。從結(jié)果來看,Qwen 的表現(xiàn)最佳,這顯示,完全自定義的模型也可能取得出色的成績。唯一使用了GLM 預(yù)訓(xùn)練基座的模型是ChatGLM 2,在所有的模型中它取得了較高的平均分,也表明了采用GLM 預(yù)訓(xùn)練模型可能帶來較好的效果。InternLM 是唯一一個使用InterLM 預(yù)訓(xùn)練模型的模型,雖然它在綜合平均分上排名第4,但它在英語和數(shù)學(xué)這兩門學(xué)科上的表現(xiàn)超過了其他所有模型。Baichuan 和XVERSE 都使用了Transformer 預(yù)訓(xùn)練模型,但表現(xiàn)相對較弱。在此,本研究不能僅根據(jù)這一點來評估Transformer 預(yù)訓(xùn)練模型的性能,因為模型的表現(xiàn)受許多因素的影響,包括數(shù)據(jù)質(zhì)量、模型調(diào)優(yōu)和特定任務(wù)的適應(yīng)性等。有3 個模型YuLan、BayLing 和BELLE 采用了LLaMA 預(yù)訓(xùn)練模型,它們的平均分在中等到低分之間,但在個別學(xué)科上表現(xiàn)相對較好,表明使用LLaMA 預(yù)訓(xùn)練模型可能在特定學(xué)科上取得較好的表現(xiàn)。
阿里云發(fā)布的Qwen 模型在所有模型中得分最高,突顯了大型科技公司在人工智能和自然語言處理方面的優(yōu)勢。清華大學(xué)發(fā)布的ChatGLM 2 模型以及由上海人工智能實驗室與商湯科技聯(lián)合發(fā)布的InternLM 模型也有出色的表現(xiàn),彰顯了學(xué)術(shù)研究和工業(yè)界合作對于推動這個領(lǐng)域發(fā)展的重要性。InternLM 在英語和數(shù)學(xué)上表現(xiàn)卓越,這可能反映了商湯科技等單位在技術(shù)和應(yīng)用研究方向的主攻點。作為新興的模型如XVERSE,雖然總體得分并不高,但其開源模型也在一定程度上推動了中文大型語言模型的發(fā)展。因此,大企業(yè)、研究機構(gòu)和新興公司都在人工智能與教育交叉領(lǐng)域發(fā)揮著重要的作用。
1.中文大型語言模型的自主創(chuàng)新能力問題
大型語言模型在不同語言的基礎(chǔ)上工作時展現(xiàn)了不同的推理能力。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導(dǎo)致中文數(shù)據(jù)集的規(guī)模相對較小。此外,英文作為科研主流語言,在學(xué)術(shù)界和工業(yè)界都得到廣泛應(yīng)用,積累了大量高質(zhì)量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢。盡管中文大型語言模型在教育領(lǐng)域有一定的應(yīng)用價值和潛力,但大多數(shù)中文大型語言模型的核心算法和架構(gòu)往往直接借鑒或修改來自國外研究者和機構(gòu)發(fā)布的模型,如GPT[26]、BERT[27]和T5[28]。在本研究中,如表2 所示,LLaMA 模型基座在不少中文大型語言模型中被投入應(yīng)用。這意味著,在算法和應(yīng)用層面,中文大型語言模型依然在英文大型語言模型的基礎(chǔ)上工作,并有一定的依賴性,這可能對未來中文大型語言模型在教育領(lǐng)域的應(yīng)用產(chǎn)生一定的制約。所以,對于我國來說,建立自己的中文大型語言模型極為重要。
2.中文大型語言模型在某些學(xué)科上的推理能力問題
通過對11 個不同來源的中文大型語言模型進行跨九大學(xué)科的綜合評估,研究發(fā)現(xiàn):每個模型均有薄弱的學(xué)科。例如,大多數(shù)模型在自然科學(xué)上的推理能力都相對較弱。原因可能是供中文大型模型訓(xùn)練的數(shù)據(jù)集較為稀少,截至本文編寫結(jié)束(2023 年8 月30 日),教育領(lǐng)域中已經(jīng)開源的中文大型語言模型數(shù)據(jù)集相對較少,而專門針對單一學(xué)科進行訓(xùn)練的數(shù)據(jù)集更為稀有。筆者認為,為了提高中文大型語言模型在某些薄弱學(xué)科上的推理能力,可以專門使用單一學(xué)科的數(shù)據(jù)集進行微調(diào)與遷移學(xué)習(xí),如在數(shù)學(xué)學(xué)科,就有專門的訓(xùn)練數(shù)據(jù)集GSM8K 和Math[29-30];而在物理學(xué)科,有供模型訓(xùn)練的數(shù)據(jù)集PIQA[31]。綜上,針對中文大型語言模型在不同學(xué)科上的表現(xiàn)差異,未來的研究需要有針對性地對不同學(xué)科的教學(xué)內(nèi)容和目標進行分類、策略調(diào)整及優(yōu)化。
3.中文大型語言模型的透明度與倫理問題
在實驗過程中,研究發(fā)現(xiàn)部分公司的中文大型語言模型尚未開源,如百度公司的中文大型語言模型文心一言。這些公司有更多的資源來開發(fā)和優(yōu)化模型,但由于商業(yè)利益,可能不愿意公開模型的完整細節(jié)。這并不利于中文大型語言模型的整體發(fā)展與進步,更嚴重的后果可能會導(dǎo)致倫理問題。一方面,在國內(nèi)中文大型語言模型的研究中,需要強化模型的透明度和可解釋性,比如采用開源或第三方審計的方式,從而增加模型決策邏輯的可審查性;另一方面,在此背景下也應(yīng)當(dāng)建立全面的倫理指導(dǎo)原則和治理框架,這樣不僅能提高模型在教育評估和個性化教學(xué)中的準確性和可靠性,還有助于構(gòu)建一個更加公平、透明和責(zé)任明確的大型語言模型應(yīng)用生態(tài)環(huán)境。
文章通過綜合評估11 個不同來源的中文大型語言模型,揭示了模型在不同學(xué)科上的推理能力及存在的不足。由于數(shù)據(jù)和算法的局限,以及資源和透明度缺乏等問題,中文語言模型在教育應(yīng)用方面還面臨多重挑戰(zhàn)。然而,機會總是與挑戰(zhàn)并存的。面對這一情況,相關(guān)領(lǐng)域的研究者要采取多元化的策略來應(yīng)對,如提高中文大型語言模型的推理精度、數(shù)據(jù)多樣性和公開透明度等。這些模型有望在未來的教育自動評估、個性化教學(xué)和課程設(shè)計等領(lǐng)域發(fā)揮更加重要的作用。期待這些新技術(shù)不僅能推動教育的數(shù)字化轉(zhuǎn)型,同時也能在更加廣泛的社會文化層面產(chǎn)生深遠的影響。