謝紅標 劉芳 覃浩軒
摘要:程序設(shè)計基礎(chǔ)是一門極為重要的基礎(chǔ)課程,對培養(yǎng)計算思維具有重要作用,同時這門課程的教學(xué)具有抽象性,需要投入大量時間練習(xí),存在老師教得累學(xué)生也學(xué)得累的情況。人工智能技術(shù)特別是大語言模型的出現(xiàn),為程序設(shè)計基礎(chǔ)的教學(xué)改革提供了新的思路和方法。文章首先介紹了什么是大語言模型,闡述了國內(nèi)外大語言模型發(fā)展及其在教育等多個行業(yè)的應(yīng)用情況,隨后以程序設(shè)計基礎(chǔ)教學(xué)為例探索利用國內(nèi)著名的大語言模型輔助教學(xué)的實例和分析,為智能時代程序設(shè)計類課程教學(xué)改革提供新的思路。
關(guān)鍵詞:大語言模型;程序設(shè)計;教學(xué)改革;教學(xué)創(chuàng)新
中圖分類號:G642? ? ? 文獻標識碼:A
文章編號:1009-3044(2024)08-0039-04
開放科學(xué)(資源服務(wù))標識碼(OSID)
0 引言
以ChatGPT為代表的大語言模型的崛起,帶領(lǐng)我們進入了通用人工智能的新階段,為教育行業(yè)帶來了巨大的變革。從一開始,教育工作者會擔心大語言模型會對教育產(chǎn)生負面影響,如會取代教師、降低學(xué)生的學(xué)習(xí)能力,從而產(chǎn)生抗拒心理,到現(xiàn)在隨著大語言模型在金融、醫(yī)療和教育領(lǐng)域的應(yīng)用越來越廣泛,老師們慢慢認識到他的價值,逐漸運用到教學(xué)過程中來提高工作效率。
目前大語言模型在教學(xué)中起到輔助作用,主要表現(xiàn)在個性化的詞匯和語法建議,生成各種教學(xué)資源,分析學(xué)習(xí)行為提供個性化的學(xué)習(xí)推薦,作為教學(xué)助手進行智能輔導(dǎo)和答疑,為教育教學(xué)研究提供新的視角。
盡管自2018年以來,大語言模型已在對話機器人、在線學(xué)習(xí)分析、人機協(xié)同寫作和編程等教與學(xué)的場景中廣泛應(yīng)用,但業(yè)界普遍存在對大語言模型特性認識不夠、實際應(yīng)用效果不明、教學(xué)支持策略掌握不全、賦能學(xué)生核心素養(yǎng)培養(yǎng)的途徑了解不深、帶來的挑戰(zhàn)認知及其應(yīng)對方略不足等問題[1]。因此本文從介紹大語言模型出發(fā),調(diào)研國內(nèi)外各行業(yè)特別是教育行業(yè)運用大語言模型的一些情況,結(jié)合程序設(shè)計基礎(chǔ)這門課程介紹如何利用大語言模型來促進教學(xué)改革。
1 什么是大語言模型
人工智能經(jīng)歷了4次高潮。第三次高潮是2010年前后由深度學(xué)習(xí)推動的。2022年11月,OpenAI發(fā)布由大模型支持的ChatGPT–3.5,標志著人工智能第四次高潮的到來[2]。
大語言模型是一種人工智能模型,旨在理解和生成人類語言。它在大量的文本數(shù)據(jù)上進行訓(xùn)練,可以執(zhí)行廣泛的任務(wù),包括文本總結(jié)、翻譯、情感分析等,它的特點是規(guī)模龐大,包含數(shù)十億的參數(shù)[3]。
大語言模型取得進展主要有以下幾個原因。
1) 自監(jiān)督學(xué)習(xí)成本低。模型可以學(xué)習(xí)如何從輸入數(shù)據(jù)中提取有用的特征,而無需人工標注數(shù)據(jù)。通過挖詞構(gòu)造帶有標準答案的填空題,毫無成本地產(chǎn)生無限量的訓(xùn)練數(shù)據(jù),讓機器在努力學(xué)習(xí)解答填空題的過程中獲得通用的語言智能。
2) 模型、數(shù)據(jù)和計算資源的擴展。如ChatGPT-3有1 750億個參數(shù),比人類的神經(jīng)元數(shù)量還高出一個數(shù)量級,從而由量變到了質(zhì)變。
3) 表達語義方式改變。傳統(tǒng)表達方式把詞看作符號,符號與符號之間需要建立額外的知識庫去定義他們之間的關(guān)系,而大語言模型采用連續(xù)、稠密的詞向量,利用語義距離來表示詞之間的關(guān)系。
4) 用戶體驗更好。傳統(tǒng)的問答系統(tǒng)以數(shù)據(jù)庫的結(jié)構(gòu)化方式存儲信息,用標準SQL語句進行訪問,這種方式很不自然。搜索引擎雖然因為其以非結(jié)構(gòu)化方式存儲信息,可以使用關(guān)鍵詞進行搜索,但是表達還是不夠自然,同時檢索結(jié)果也較為粗糙。而大語言模型允許用戶用自然語言的方式進行提問,并對收集的信息以參數(shù)化的方式進行存儲,能充分滿足用戶的需求。
基于Transformer的大語言模型主要有BERT、T5和GPT三大技術(shù)路線。他們各有自己的特征[4](如表1所示)。
GPT是OpenAI開發(fā)的交互式大語言模型包括GPT-1、GPT-2、GPT-3和GPT-4幾個版本。
GPT-1是最早的版本,他沒有使用任何人工標注的數(shù)據(jù),而是通過無監(jiān)督學(xué)習(xí)從互聯(lián)網(wǎng)上收集的大量文本中學(xué)習(xí)到了語言知識,其模型參數(shù)量為1.75萬億,訓(xùn)練數(shù)據(jù)量是1200萬條,訓(xùn)練過程采用了預(yù)訓(xùn)練和微調(diào)的二段式訓(xùn)練策略。GPT-2是在GPT-1的基礎(chǔ)上使用了更多的網(wǎng)絡(luò)參數(shù)和更大的數(shù)據(jù)集,以此來訓(xùn)練一個泛化能力更強的詞向量模型,其模型參數(shù)量為15億個,訓(xùn)練數(shù)據(jù)量為3.6億條。GPT-3是GPT系列中的最新版本相較于GPT-2,其訓(xùn)練數(shù)據(jù)量增加了近15倍,從40GB到570GB;同時,其參數(shù)量也增加了約116倍,從15億到1750億,也提升了算法性能。
不同于BERT和T5,GPT沒有開源,參數(shù)量極大,需要花費極高的復(fù)現(xiàn)和研發(fā)成本,同時單次預(yù)訓(xùn)練成本約980萬元人民幣[5],僅適合大型企業(yè)和政府組織進行研發(fā)。
2 國內(nèi)外大語言模型發(fā)展及應(yīng)用情況
美國在大語言模型領(lǐng)域的布局方面處于領(lǐng)先地位。上游市場,以O(shè)penAI和Google為代表的行業(yè)巨頭和科研機構(gòu),在大模型的通用性方面實現(xiàn)了跨越式的突破。如OpenAI公司推出的ChatGPT是目前最具有代表性的通用語言生成應(yīng)用,除了能完成連續(xù)對話、翻譯、編程等工作外,可以根據(jù)用戶需求修改、完善回答。在下游市場,以微軟為代表的企業(yè)將其與自身產(chǎn)品生態(tài)相結(jié)合(如搜索引擎),極大增強了產(chǎn)品的競爭力[6]。如微軟接入了GPT-4推出了AI版的搜索引擎New Bing,同時在辦公方面也推出了365 Copilot。
英國和俄羅斯雖然也推出了Gopher和YaLM等大模型,但是和美國還有一定的差距。其中Gopher是DeepMind公司發(fā)布的大模型但是其應(yīng)用范圍相對來說比較狹窄,離通用型還有一定的距離。而YaLM是Yandex(俄羅斯最大的搜索引擎)推出的具有千億參數(shù)級別的開源大模型,在語音助手和搜索中有了初步應(yīng)用,但是在生成搜索結(jié)果時不能直接生成文本答案。
我國在大模型領(lǐng)域里已經(jīng)有30多家公司發(fā)布或宣布研發(fā)大模型,如互聯(lián)網(wǎng)巨頭的BAT、華為、科大訊飛等,還有清華、復(fù)旦等知名高校。同時在應(yīng)用領(lǐng)域有廣泛的落地,比如在智能大模型中有訊飛星火、華為的TinyBERT、百度文心一言、智譜清言等。
目前大語言模型已經(jīng)在搜索引擎、辦公軟件、金融、醫(yī)療、教育、傳媒等多個行業(yè)落地應(yīng)用。
如在教育方面,針對學(xué)生大語言模型主要有自主學(xué)習(xí)、合作學(xué)習(xí)和探究學(xué)習(xí)三個方面。以ChatGPT為代表的大語言模型能為學(xué)生提供個性化和定制化的學(xué)習(xí)體驗,為自主學(xué)習(xí)創(chuàng)造了便利條件[7]。具備文字處理和數(shù)據(jù)分析能力,可以輔助學(xué)生進行考試準備、翻譯、背誦和編程等活動[8],可以為學(xué)生推薦有個性化的學(xué)習(xí)資源。大語言模型提供了一種“基于對話的學(xué)習(xí)是一種包容性學(xué)習(xí)法”[9],從而促進人機和人人互動,提升動機和參與度,從而促進合作學(xué)習(xí)。大語言模型建立在豐富的知識庫之上,通過輔助理解、促進語言表達,通過學(xué)習(xí)工具和跨學(xué)科應(yīng)用激發(fā)思考,從而促進探究學(xué)習(xí)。針對教師教學(xué),大語言模型能夠讓教師從簡單的基礎(chǔ)性工作中解放出來。如在課前準備上,大語言模型的生成功能可以幫助教師設(shè)計課堂講義、生成教案等,同時還能幫助教師創(chuàng)新教學(xué)策略[10]。在課堂教學(xué)中,教師利用大語言模型的交互式學(xué)習(xí)和合作學(xué)習(xí)能夠有效地增加課堂的氣氛和活躍性。同時在測評方面大語言模型可以輔助教師命題并通過多角色的方式命制較為復(fù)雜的綜合性試題,它強大的監(jiān)控和分析能力減少教師數(shù)據(jù)處理的時間。同時,也應(yīng)當規(guī)避大語言模型在教育應(yīng)用可能導(dǎo)致的異化和失范風(fēng)險,推動教育數(shù)字化轉(zhuǎn)型可持續(xù)發(fā)展。
3 如何用大語言模型改進程序設(shè)計基礎(chǔ)教學(xué)
程序設(shè)計基礎(chǔ)是大學(xué)計算機相關(guān)專業(yè)的一門極為重要的基礎(chǔ)課程,對培養(yǎng)計算思維具有重要作用,能為以后學(xué)生更高效地解決問題打下良好的基礎(chǔ)。同時程序設(shè)計基礎(chǔ)這門課也是面向?qū)ο蠡A(chǔ)、數(shù)據(jù)結(jié)構(gòu)與算法、計算機組成原理、軟件工程、數(shù)據(jù)庫應(yīng)用、移動應(yīng)用開發(fā)等一系列課程的前置課,重要程度不言而喻。
同時程序設(shè)計基礎(chǔ)這門課程的教學(xué)具有抽象性,需要反復(fù)理解,學(xué)生要投入大量時間練習(xí)和學(xué)習(xí),對于教師來說大量學(xué)生的練習(xí)題設(shè)計、批改、指導(dǎo)、答疑等工作量也很大,導(dǎo)致教學(xué)效果一般,老師教得累學(xué)生也學(xué)得累的情況。
人工智能技術(shù)特別是大語言模型的應(yīng)用對程序設(shè)計教學(xué)產(chǎn)生了深遠的影響,為程序設(shè)計教學(xué)帶來了新的機遇和挑戰(zhàn)。
目前,國內(nèi)對于大語言模型教育應(yīng)用的具體政策尚處于初步階段,相關(guān)政策和規(guī)范仍在研究和制定過程中。但在人工智能、教育信息化等領(lǐng)域的政策文件中,已經(jīng)涉及了大語言模型技術(shù)在教育中的應(yīng)用。如教育部《關(guān)于加強“三個課堂”建設(shè)的指導(dǎo)意見》提出,要加強人工智能等新技術(shù)與教育的融合,推動大規(guī)模開放在線課程(MOOC) 和虛擬實驗室等公共服務(wù)平臺建設(shè)[11]。國家發(fā)展改革委、教育部等六部門聯(lián)合發(fā)布的《關(guān)于加快構(gòu)建高?!叭斯ぶ悄?+ 教育”新型基礎(chǔ)設(shè)施促進教育公平和高質(zhì)量發(fā)展的若干意見》也提出,要加強人工智能教育基礎(chǔ)設(shè)施建設(shè),推動大規(guī)模開放在線課程(MOOC) 和人工智能技術(shù)等公共服務(wù)平臺建設(shè),提高教育質(zhì)量[12]。
雖然目前關(guān)于融入大語言模型的教育教學(xué)理念共識尚未完全形成,但在教育領(lǐng)域,人工智能助手、智能教育平臺等應(yīng)用已經(jīng)在逐步改變傳統(tǒng)的教育教學(xué)方式,為教師和學(xué)生提供更加便捷、高效的學(xué)習(xí)體驗。融入大語言模型的教學(xué)改革會越來越廣泛和深入。本文以程序設(shè)計基礎(chǔ)這一門課為例,嘗試利用大語言模型來進行教學(xué)改革以提高教學(xué)質(zhì)量和學(xué)生的學(xué)習(xí)體驗。
1) 利用訊飛星火進行程序設(shè)計基礎(chǔ)知識問答,幫助學(xué)生自主學(xué)習(xí)。目前基于大語言模型的問答系統(tǒng)主要有四種:基于預(yù)訓(xùn)練語言模型的問答系統(tǒng)(如BERT、GPT等)、基于嵌入式模型的問答系統(tǒng)(如 word2vec、doc2vec等)、基于知識圖譜的問答系統(tǒng)(如Google知識圖譜、百度知識圖譜等)、基于指令微調(diào)的問答系統(tǒng)(如谷歌Dialogflow、亞馬遜Lex、ChatterBot等)和基于多模態(tài)輸入的問答系統(tǒng)(如谷歌Duplex、蘋果Siri、百度小度等)。本文采用的訊飛星火屬于第一種,是科大訊飛研發(fā)的以中文為核心的新一代認知智能大模型,能用自然語言進行對話互動,我們用他來進行程序設(shè)計基礎(chǔ)知識問答。如輸入“C語言包含哪幾種數(shù)據(jù)類型,各自的長度和表示數(shù)的范圍是什么”,訊飛星火返回的答案如圖1所示。
當然除了這些基本概念外,訊飛星火也能判斷語法的正確性和理解程序基本語句的意義,如圖2所示。
相對于搜索引擎而言通過這種方式學(xué)生可以進行更加高效的自主學(xué)習(xí),提高學(xué)習(xí)主動性和積極性。
2) 利用智譜清言進行輔助式編程,提升學(xué)生編程能力。輔助式編程是一種使用計算機來幫助程序員完成編程任務(wù)的技術(shù)。它可以通過分析代碼、提供建議、自動修復(fù)錯誤等方式,幫助程序員提高編程效率和代碼質(zhì)量。利用編譯器的代碼提示等都是一種輔助式編程:一種是基于模型的輔助式編程,另一種是基于符號的輔助式編程。而智譜清言是融合了這兩種方式,在基于模型的輔助式編程中,使用編程模型來輔助編程,例如生成代碼、提供代碼示例和建議。在基于符號的輔助式編程中,使用符號來表示代碼元素,例如變量、函數(shù)和類,并使用這些符號來輔助編程。下面讓它來實現(xiàn)猴子吃桃問題的程序代碼,如圖3所示。
圖3中不僅給出了正確的程序代碼還進行了解釋,相對于在網(wǎng)絡(luò)上搜索答案不僅可以去除很多錯誤的內(nèi)容,還能對疑問代碼進行提問,如圖3是遞歸實現(xiàn),還可以用遞推實現(xiàn)。
3) 利用文心一言進行輔助試題生成。輔助生成試題是利用大語言模型來創(chuàng)建和自動生成試題,這種技術(shù)可以大大提高教育效率,減少教師的工作負擔。主要有四種方法:基于規(guī)則的方法、基于模版的方法、基于機器學(xué)習(xí)的方法、混合方法。下面讓他來根據(jù)要求生成一份C語言的試卷,輸入“你是一名程序設(shè)計基礎(chǔ)C語言的教師,請你出一份C語言試卷,包含選擇題2題,填空題2題,程序閱讀題2題,包含知識點為基本數(shù)據(jù)類型、基本輸入輸出、選擇結(jié)構(gòu)和循環(huán)結(jié)構(gòu)”如圖4所示。
4) 利用阿里通義千問進行輔助試題批改。 輔助試題批改是一項利用大語言模型自動化評估學(xué)生答案的技術(shù),它可以幫助教師更快地完成試題批改任務(wù),減輕教師的工作負擔。本文嘗試利用阿里通義千進行程序設(shè)計基礎(chǔ)選擇題的批改如圖5所示。
目前針對中小學(xué)的一些試題某些應(yīng)用可以實現(xiàn)圖片批改試題,這里對于程序設(shè)計類試題雖然不能給出具體的分數(shù)但是給出了正確答案,完全實現(xiàn)試題的批改特別是圖片的識別還需要進一步改進。
4 總結(jié)
在未來大語言模型將成為教育行業(yè)重要的工具和資源,為學(xué)生和教師提供更準確、更便捷、個性化的教育服務(wù),能讓教師從繁重的日常工作中解脫出來,更加關(guān)注于對學(xué)生的個別指導(dǎo)和教育質(zhì)量的提升,還可以幫助教師進行教學(xué)研究,提高教學(xué)質(zhì)量。能給學(xué)生提供更加豐富和多樣的學(xué)習(xí)資源,滿足不同學(xué)生的學(xué)習(xí)需求。同時,大語言模型還可以根據(jù)學(xué)生的學(xué)習(xí)情況,提供個性化的學(xué)習(xí)建議和輔導(dǎo),幫助學(xué)生提高學(xué)習(xí)效率。
隨著大語言模型在教育行業(yè)的不斷發(fā)展,未來將會有更多的頭部企業(yè)和科研院所投入這一領(lǐng)域的研究和開發(fā)中,開發(fā)出更多適用于教育行業(yè)的語言模型服務(wù),共同推動教育事業(yè)的創(chuàng)新和進步。
未來大語言模型在程序設(shè)計領(lǐng)域的應(yīng)用將越來越廣泛,如目前像Visual Studio接入了大語言模型可以協(xié)助開發(fā)者編寫一些小模塊,因而針對程序設(shè)計基礎(chǔ)課程的教學(xué)會有越來越多的研究和開發(fā)也會有各種優(yōu)秀的工具來輔助教學(xué)。
參考文獻:
[1] 焦建利.ChatGPT:學(xué)校教育的朋友還是敵人?[J].現(xiàn)代教育技術(shù),2023,33(4):5-15.
[2] 劉挺.從ChatGPT談大語言模型及其應(yīng)用[J].語言戰(zhàn)略研究,2023,8(5):14-18.
[3] 知乎. 什么是LLM大語言模型?Large Language Model,從量變到質(zhì)變[EB/OL].
[4] 劉明,吳忠明,廖劍,等.大語言模型的教育應(yīng)用:原理、現(xiàn)狀與挑戰(zhàn)——從輕量級BERT到對話式ChatGPT[J].現(xiàn)代教育技術(shù),2023,33(8):19-28.
[5] 劉高暢,楊然.計算機:ChatGPT 需要多少算力[EB/OL].
[6] 郭全中,朱燕.廣布局、重應(yīng)用:生成式大語言模型的新進展[J].新聞愛好者,2023(8):21-25.
[7] 周洪宇,李宇陽.ChatGPT對教育生態(tài)的沖擊及應(yīng)對策略[J].新疆師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2023,44(4):102-112.
[8] 張志禎,張玲玲,米天伊,等.大型語言模型會催生學(xué)校結(jié)構(gòu)性變革嗎?——基于ChatGPT的前瞻性分析[J].中國遠程教育, 2023(4):32-41.
[9] 焦建利.ChatGPT助推學(xué)校教育數(shù)字化轉(zhuǎn)型——人工智能時代學(xué)什么與怎么教[J].中國遠程教育,2023,43(4):16-23.
[10] 盧宇,余京蕾,陳鵬鶴,等.生成式人工智能的教育應(yīng)用與展望——以ChatGPT系統(tǒng)為例[J].中國遠程教育,2023,43(4):24-31,51.
[11] 中華人民共和國教育部.《教育部關(guān)于加強“三個課堂”建設(shè)的指導(dǎo)意見》[EB/OL].教育部,2020.http://www.moe.gov.cn/srcsite/A16/s3342/202003/t20200316_431659.html.
[12] 教育部,中央網(wǎng)信辦等.《教育部等六部門關(guān)于加快構(gòu)建高校“人工智能 + 教育”新型基礎(chǔ)設(shè)施促進教育公平和高質(zhì)量發(fā)展的若干意見》[EB/OL].教育部,2021.http://www.moe.gov.cn/srcsite/A16/s3342/202107/t20210720_545783.html.
【通聯(lián)編輯:王 力】