隨著生成式人工智能技術(shù)的迅速演進(jìn),全球掀起了大模型構(gòu)建的熱潮,我國多所高校也紛紛參與其中。例如,清華大學(xué)聯(lián)合企業(yè)研發(fā)了GLM系列基礎(chǔ)大模型,并成立了人工智能研究院基礎(chǔ)模型研究中心,積極推動(dòng)了大模型技術(shù)在教育、醫(yī)療、金融等領(lǐng)域的應(yīng)用。其他高校也計(jì)劃或正在研發(fā)具備自身特色的教育大模型。這一浪潮不僅推動(dòng)了技術(shù)創(chuàng)新,也培養(yǎng)了相關(guān)領(lǐng)域的人工智能人才。然而,教育大模型的構(gòu)建有其特殊性,需綜合考慮教育規(guī)律與技術(shù)成本,避免盲目發(fā)展。
構(gòu)建教育大模型的必要性
在當(dāng)前的人工智能時(shí)代,大模型的研發(fā)主要集中在通用領(lǐng)域,國內(nèi)外陸續(xù)出現(xiàn)了GPT-4和GLM-4等通用基礎(chǔ)大模型。通用基礎(chǔ)大模型具備強(qiáng)大的泛化能力,能夠理解和生成多模態(tài)信息,并在多個(gè)領(lǐng)域和任務(wù)之間實(shí)現(xiàn)遷移與應(yīng)用。
然而,盡管其具備一定的跨領(lǐng)域適應(yīng)能力,通用基礎(chǔ)大模型仍無法完全替代教育大模型。教育領(lǐng)域有其獨(dú)特的復(fù)雜場景,要求深入捕捉學(xué)習(xí)者的認(rèn)知過程和教學(xué)互動(dòng)的細(xì)節(jié),強(qiáng)調(diào)個(gè)性化教學(xué)并符合教育教學(xué)規(guī)律,且涉及倫理與價(jià)值觀的傳遞。此外,通用基礎(chǔ)大模型也難以完全滿足教育數(shù)據(jù)的隱私保護(hù)與合規(guī)性等方面的要求。相比之下,教育大模型能夠針對(duì)這些特殊需求進(jìn)行構(gòu)建,提供更精準(zhǔn)的個(gè)性化支持和更深入的教學(xué)分析,確保符合教育規(guī)律和要求。因此,盡管通用大模型能力日益增強(qiáng),在教育領(lǐng)域仍需構(gòu)建教育大模型以實(shí)現(xiàn)更佳效果。
具體而言,教育大模型需要收集并整合通用領(lǐng)域與教育領(lǐng)域的多模態(tài)數(shù)據(jù),這些數(shù)據(jù)包括但不限于課堂音視頻、作業(yè)與試卷、慕課內(nèi)容、論壇討論以及教學(xué)理論和學(xué)科知識(shí),這些多模態(tài)數(shù)據(jù)是構(gòu)建教育大模型的信息來源。在此基礎(chǔ)上,再通過不同模態(tài)數(shù)據(jù)與特定模型框架的結(jié)合,采用自監(jiān)督學(xué)習(xí)等方式進(jìn)行預(yù)訓(xùn)練,從而形成教育大模型。與傳統(tǒng)模型相比,該模型能夠更深入地理解教學(xué)資源、教學(xué)對(duì)象和教學(xué)過程這三個(gè)核心要素。教育大模型的核心能力包括理解教育資源的屬性、關(guān)聯(lián)與語義信息,識(shí)別教學(xué)對(duì)象的行為、語言與意圖,并解析教學(xué)過程中各類互動(dòng)、活動(dòng)和目標(biāo)。最終,教育大模型能夠?yàn)榻虒W(xué)平臺(tái)和系統(tǒng)提供自動(dòng)生成教學(xué)資源的能力,為線上線下學(xué)習(xí)者提供個(gè)性化學(xué)習(xí)支持和互動(dòng)體驗(yàn),同時(shí)為教師和教育管理者提供教學(xué)設(shè)計(jì)和決策支持。通過這些方式構(gòu)建出教育大模型,可以更好地服務(wù)于不同學(xué)段和教育場景,顯著提升教學(xué)質(zhì)量和學(xué)習(xí)效果,并支撐多類教育智能化服務(wù)和系統(tǒng)。
構(gòu)建教育大模型需要大量技術(shù)與成本
構(gòu)建教育大模型的過程可分為幾個(gè)關(guān)鍵步驟,每一步都涉及不同的技術(shù)要求和資源投入。首先,是數(shù)據(jù)收集與處理,這是構(gòu)建大模型的基礎(chǔ)環(huán)節(jié),涉及大量教育數(shù)據(jù)。這些數(shù)據(jù)來源廣泛,數(shù)據(jù)的質(zhì)量和有效性對(duì)模型的構(gòu)建也起到了至關(guān)重要的作用。其次,需要選擇合適的深度學(xué)習(xí)模型架構(gòu),并通過堆疊大量神經(jīng)網(wǎng)絡(luò)層來提升模型的表示能力和泛化能力。在訓(xùn)練過程中,需要大量數(shù)據(jù)進(jìn)行迭代優(yōu)化,持續(xù)調(diào)整模型參數(shù)以最小化損失函數(shù)。最后,在模型訓(xùn)練完成后,還需對(duì)其進(jìn)行不斷調(diào)整與優(yōu)化,包括采用更先進(jìn)的優(yōu)化算法和改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù),以確保模型在不同教育場景中的適用性。
而構(gòu)建教育大模型的成本首先體現(xiàn)在其龐大的計(jì)算資源需求上。深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要高性能的GPU或TPU集群,訓(xùn)練硬件的購置費(fèi)用驚人,且運(yùn)行和維護(hù)成本也非常高。例如,大規(guī)模訓(xùn)練大模型的計(jì)算集群在運(yùn)行過程中耗電量巨大,完成一次基礎(chǔ)模型訓(xùn)練的電費(fèi)往往高達(dá)幾十萬元人民幣甚至更多。其次,存儲(chǔ)資源開銷巨大,教育大模型需處理和存儲(chǔ)海量的多模態(tài)教育數(shù)據(jù),包括訓(xùn)練數(shù)據(jù)、模型參數(shù)及中間結(jié)果,對(duì)存儲(chǔ)系統(tǒng)的容量和讀寫速度提出了極高要求。再次,人力成本同樣占據(jù)了相當(dāng)大的比例,構(gòu)建大模型需要由數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師和教育領(lǐng)域?qū)<医M成專業(yè)團(tuán)隊(duì),團(tuán)隊(duì)的薪酬、培訓(xùn)及協(xié)作成本不菲。最后,持續(xù)優(yōu)化也是一項(xiàng)長期成本投入,涵蓋算法改進(jìn)、模型調(diào)整、性能監(jiān)控和問題解決等多個(gè)方面。這些都需要持續(xù)的人力和物力投入,才能確保所構(gòu)建的大模型能夠在教育領(lǐng)域落地應(yīng)用并達(dá)到預(yù)期效果。
構(gòu)建教育大模型需科學(xué)規(guī)劃和引導(dǎo)
統(tǒng)籌規(guī)劃與多方協(xié)同相結(jié)合。構(gòu)建教育大模型是一項(xiàng)復(fù)雜的系統(tǒng)性工程,涉及高昂的軟硬件成本和龐大的人力投入。因此,需要在國家層面進(jìn)行統(tǒng)籌規(guī)劃,科學(xué)合理地推進(jìn)教育大模型的構(gòu)建。教育與科技管理部門在這一過程中不僅扮演著引領(lǐng)和規(guī)范的角色,還肩負(fù)著政策制定、資源配置和監(jiān)督落實(shí)的責(zé)任,以確保教育大模型的構(gòu)建與國家的教育方針、發(fā)展戰(zhàn)略及實(shí)際需求緊密結(jié)合。這一規(guī)劃過程需要深入分析不同教育階段的特點(diǎn)和需求,例如基礎(chǔ)教育側(cè)重于知識(shí)的普及與基礎(chǔ)技能的培養(yǎng),職業(yè)教育注重技能實(shí)訓(xùn)與就業(yè)導(dǎo)向,而高等教育則著重于科研創(chuàng)新和專業(yè)人才培養(yǎng)。因此,可以分別構(gòu)建滿足不同教育層次需求的教育大模型,但應(yīng)避免在數(shù)量和規(guī)模上的盲目擴(kuò)張,以防資源浪費(fèi)和低效重復(fù)建設(shè)。
在構(gòu)建教育大模型的過程中,需鼓勵(lì)高校與企業(yè)協(xié)同推進(jìn)。高校擁有豐富的教育資源和科研能力,可以參與教育大模型的基礎(chǔ)研究、技術(shù)開發(fā)和人才培養(yǎng),并為模型開發(fā)提供理論支持。企業(yè)則可以借助其資本和技術(shù)優(yōu)勢(shì),推動(dòng)大模型的研發(fā)進(jìn)程、產(chǎn)品化和市場化。通過技術(shù)創(chuàng)新,企業(yè)還能進(jìn)一步利用高校的科研成果,優(yōu)化和升級(jí)教育大模型的功能,滿足市場需求。此外,教育大模型的構(gòu)建需考慮教育的多樣性和地域性,應(yīng)鼓勵(lì)地方政府、一線學(xué)校及社會(huì)各界共同參與,形成多方協(xié)同、共建共享的格局。例如,不同地區(qū)可以提供其典型的教育場景數(shù)據(jù)和教育服務(wù)需求,在構(gòu)建教育大模型的基礎(chǔ)上,進(jìn)行適當(dāng)微調(diào)和優(yōu)化,從而確保其能夠服務(wù)于不同地區(qū)和不同特點(diǎn)的教育對(duì)象。
數(shù)據(jù)安全與倫理規(guī)范建設(shè)相結(jié)合。教育大模型的構(gòu)建需要大量教育數(shù)據(jù),因此在數(shù)據(jù)確權(quán)和脫敏的基礎(chǔ)上,需要建立基礎(chǔ)教育領(lǐng)域的數(shù)據(jù)資源開放共享機(jī)制,以提供可靠、真實(shí)和準(zhǔn)確的教育數(shù)據(jù),打通教育數(shù)據(jù)使用的“堵點(diǎn)”。同時(shí),嚴(yán)格規(guī)范教育數(shù)據(jù)的采集、存儲(chǔ)和使用,保護(hù)學(xué)校和教師的數(shù)字資產(chǎn),并強(qiáng)化“知情——同意”原則,以保障師生的隱私和信息安全。此外,教育大模型依賴無標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),其訓(xùn)練過程中難以避免產(chǎn)生數(shù)據(jù)偏見、知識(shí)產(chǎn)權(quán)糾紛和計(jì)算準(zhǔn)確性等問題。因此,在應(yīng)用于教育時(shí),必須從公平性和可解釋性等方面進(jìn)行風(fēng)險(xiǎn)評(píng)估,并確保模型輸出內(nèi)容的科學(xué)性和準(zhǔn)確性,以避免價(jià)值觀偏差。
另外,基于教育大模型的人工智能產(chǎn)品可以為教學(xué)提供輔助,應(yīng)明確其在教育中的應(yīng)用邊界,制定相應(yīng)的規(guī)則、標(biāo)準(zhǔn)和責(zé)任,確保合法合規(guī)、倫理有序。例如,教師或教育管理者應(yīng)監(jiān)管模型的使用,特別是在人機(jī)協(xié)同和智能教學(xué)輔助中,要明確功能限定,避免模型影響學(xué)生的獨(dú)立思考和認(rèn)知能力。同樣需要注意的是,教育大模型的構(gòu)建是一個(gè)長期且復(fù)雜的過程,需要持續(xù)進(jìn)行跟蹤研究和評(píng)估,以確保其在實(shí)際教育教學(xué)應(yīng)用中能夠切實(shí)提高教育質(zhì)量和效率。
充分利用現(xiàn)有大模型推動(dòng)教學(xué)與科研。目前,國內(nèi)外開源的通用領(lǐng)域和跨領(lǐng)域的大模型逐步增多,并展現(xiàn)出其在多任務(wù)上的強(qiáng)大泛化能力,尤其在多模態(tài)復(fù)雜信息的理解和推理上取得了顯著進(jìn)展。因此,應(yīng)該鼓勵(lì)國內(nèi)高??蒲袌F(tuán)隊(duì)通過下游任務(wù)的適配與微調(diào)等方式,充分利用現(xiàn)有的大模型來解決實(shí)際問題而非從零開始構(gòu)建。例如,國內(nèi)高??梢越Y(jié)合自身學(xué)科的特點(diǎn)和科研需求,對(duì)現(xiàn)有大模型進(jìn)行低成本的微調(diào),進(jìn)而構(gòu)建適合特定專業(yè)(如法律、醫(yī)療、公共管理等)的技術(shù)解決方案和科研服務(wù)。通過這種方式,國內(nèi)高??梢栽谫Y源有限的情況下,充分利用前沿人工智能技術(shù)提升其教學(xué)與科研工作的智能化水平,滿足相關(guān)學(xué)科甚至跨學(xué)科的實(shí)際需求,提升教學(xué)與科研的效率。