国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生成式人工智能技術(shù)原理及其教育適用性考證

2023-11-28 08:25苗逢春
現(xiàn)代教育技術(shù) 2023年11期
關(guān)鍵詞:人工智能內(nèi)容模型

苗逢春

生成式人工智能技術(shù)原理及其教育適用性考證

苗逢春1,2

(1.北京師范大學(xué) 互聯(lián)網(wǎng)教育智能技術(shù)及應(yīng)用國家工程實(shí)驗(yàn)室,北京 1000875;2.聯(lián)合國教科文組織總部 教育信息化與人工智能教育部門,法國巴黎 75007)

作為對聯(lián)合國教科文組織發(fā)布的《生成式人工智能教育與研究應(yīng)用指南》進(jìn)行系列解讀的第一篇,文章著重對生成式人工智能技術(shù)原理進(jìn)行追本溯源的辨析并考證其教育適用性。生成式人工智能是可跨人類思維表征符號加工和生成新內(nèi)容的人工智能技術(shù),但其并不理解語義和真實(shí)世界的技術(shù)局限會限制其變革教育的潛力。壟斷性基礎(chǔ)模型已引發(fā)數(shù)字基礎(chǔ)設(shè)施升級的安全憂患并存在投射西方價(jià)值觀和語言文化偏見的風(fēng)險(xiǎn),故研發(fā)自主可控的基礎(chǔ)模型和更具適用性的教育基礎(chǔ)模型是生成式人工智能教育應(yīng)用的安全底線。生成式人工智能主要以成人應(yīng)用互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)作為訓(xùn)練用數(shù)據(jù),其基于聊天的內(nèi)容服務(wù)方式不適合未成年人,應(yīng)設(shè)置獨(dú)立聊天的年齡下限。從教育內(nèi)容提供的視域考證,基于廣而雜數(shù)據(jù)集訓(xùn)練并采取付費(fèi)內(nèi)容服務(wù)模式的人工智能生成內(nèi)容作為主要的教育內(nèi)容獲取來源,存在既不符合技術(shù)設(shè)計(jì)初衷也不符合教學(xué)目的的悖論。而從教學(xué)育人過程的視域考證,生成式人工智能輸出內(nèi)容可用自動化的“內(nèi)容預(yù)制菜”明喻其惰化學(xué)習(xí)主體通過解構(gòu)內(nèi)容實(shí)現(xiàn)知識建構(gòu)和技能獲得的反智風(fēng)險(xiǎn)。課程內(nèi)容制作、雙基學(xué)習(xí)、特殊學(xué)習(xí)需求、高階思維和探究實(shí)踐,是設(shè)計(jì)主體適應(yīng)和學(xué)科適用的生成式人工智能教學(xué)應(yīng)用的主要情境與脈絡(luò)。

生成式人工智能;ChatGPT;人類思維符號表征;價(jià)值觀及語言偏見;教育適用性;基礎(chǔ)模型

引言

自2022年11月美國開放人工智能研究中心(OpenAI Artificial Intelligence Research Center INC,簡稱“OpenAI”)發(fā)布第三代聊天生成式預(yù)訓(xùn)練轉(zhuǎn)換模型(Chat Generative Pre-trained Transformers,ChatGPT,下文簡稱“ChatGPT”)——ChatGPT-3以來,人工智能開發(fā)商便開始炒作關(guān)于生成式人工智能(Generative Artificial Intelligence,GenAI)教育潛力的激進(jìn)觀點(diǎn),學(xué)術(shù)界也跟風(fēng)式地持續(xù)涌現(xiàn)關(guān)于其教育應(yīng)用模式或引發(fā)教育變革的理論假設(shè)。為確保在教育中有目的、有組織地合法、有效應(yīng)用生成式人工智能,亟需矯正“技術(shù)躍遷焦慮”驅(qū)動、忽視實(shí)然新技術(shù)性能和技術(shù)局限的人為理論造魅及其對政策的誤導(dǎo),并回歸技術(shù)與教育的應(yīng)然互動關(guān)系來論證其教育價(jià)值。為此,聯(lián)合國教科文組織于2023年9月發(fā)布《生成式人工智能教育與研究應(yīng)用指南》(下文簡稱《指南》)[1]。作為生成式人工智能在教育領(lǐng)域的第一個全球性指導(dǎo)文件,《指南》力圖從以下五個層面考證其教育寓意:①可能威脅教育作為公共產(chǎn)品屬性的基本爭議。作為技術(shù)起點(diǎn),《指南》首先概要敘述了生成式人工智能的工作原理并辨析了其技術(shù)局限,總結(jié)和剖析了該技術(shù)可能引發(fā)的八個主要法律和倫理憂患。②確保可信教育人工智能的治理規(guī)則?!吨改稀芬浴耙匀藶楸镜娜斯ぶ悄軕?yīng)用原則”為指導(dǎo),基于對全球人工智能治理現(xiàn)狀的調(diào)研和分析,提出了各國制定生成式人工智能管理辦法的路線圖和具體管理建議,尤其倡議各國應(yīng)考慮設(shè)置未成年獨(dú)立使用ChatGPT等聊天平臺的年齡下限。③教育管制與應(yīng)用政策?!吨改稀吩敿?xì)闡述了在教育領(lǐng)域合法、有效應(yīng)用生成式人工智能技術(shù)的政策要件和實(shí)施策略。④教育實(shí)踐應(yīng)用的設(shè)計(jì)與評估。因循優(yōu)先管制、確保包容、引導(dǎo)應(yīng)用的隱含邏輯,《指南》提出“人類主導(dǎo)、主體適用的互動性應(yīng)用”的生成式人工智能教育實(shí)踐應(yīng)用框架,建議從科學(xué)研究及研究性學(xué)習(xí)助理、協(xié)同課程制作、雙基教學(xué)助理、可計(jì)算的技能操作診斷、特殊學(xué)習(xí)需求等生成式人工智能具有明顯技術(shù)潛能的領(lǐng)域,審慎論證生成式人工智能的應(yīng)用場景。⑤對學(xué)習(xí)過程、學(xué)習(xí)結(jié)果及其評估等的深遠(yuǎn)影響?!吨改稀烦h各國追蹤研判并反思生成式人工智能對學(xué)習(xí)目標(biāo)與評價(jià)、知識產(chǎn)權(quán)、學(xué)生思維、心智發(fā)展等的長遠(yuǎn)影響,據(jù)此制定中長期應(yīng)對措施。

本研究是對《指南》進(jìn)行解讀的第一篇,重點(diǎn)結(jié)合生成式人工智能的工作原理,考證其教育應(yīng)用的安全性、價(jià)值觀投射、未成年人獨(dú)立聊天的風(fēng)險(xiǎn),并辯證分析其在支持教育內(nèi)容提供、教學(xué)過程實(shí)施等方面的適用性和變革潛能,以期探索更有針對性的管理和應(yīng)用策略。

一 生成式人工智能的基本性能:對人類思維符號表征系統(tǒng)的模式識別與內(nèi)容生成

在以文本、圖像和視頻制作為產(chǎn)品輸出的商業(yè)領(lǐng)域,已投入使用的ChatGPT對于生產(chǎn)力的提升效果顯著。哈佛商學(xué)院對律師、咨詢等行業(yè)中ChatGPT應(yīng)用效果的調(diào)查結(jié)果顯示,ChatGPT可提高12.2%的文本生產(chǎn)力,文本加工的質(zhì)量提升了40%[2]。但文本、圖像和視頻加工產(chǎn)品在教育領(lǐng)域?qū)儆诔跏嫉膬?nèi)容輸入,而絕非教學(xué)目的,甚至不是教學(xué)過程的重點(diǎn)。因此,諸多關(guān)于生成式人工智能會對教育產(chǎn)生根本性變革的假說,多屬于既脫離技術(shù)原理又無視教育目標(biāo)和過程的無端推測。深入辨析生成式人工智能的技術(shù)原理、已有的技術(shù)邊界和可能的技術(shù)發(fā)展路向,并從教學(xué)育人目標(biāo)和過程出發(fā)考證其適用性,是理性判斷其教育價(jià)值的邏輯基點(diǎn)。

1 從處理人類思維符號表征系統(tǒng)的角度理解生成式人工智能

(1)生成式人工智能的定義

《指南》從人工智能對人類思維表征符號系統(tǒng)的模擬角度,對“生成式人工智能”進(jìn)行了定義:生成式人工智能是根據(jù)人類借助思維符號表征系統(tǒng)表達(dá)的提示(Prompts)自動生成內(nèi)容的人工智能技術(shù)。不同于僅能對已有網(wǎng)頁進(jìn)行搜索排序或單純地對現(xiàn)有內(nèi)容進(jìn)行提取和重新編排的數(shù)字技術(shù),生成式人工智能可以生產(chǎn)先前并不存在的新內(nèi)容。生成式人工智能技術(shù)允許用文字、語音等格式呈現(xiàn)提示或提供圖形圖像、視頻、軟件代碼等參考范例,然后以論文或報(bào)告、聲音、圖像、繪畫、視頻、軟件代碼等各類符號表征呈現(xiàn)輸出的內(nèi)容。生成式人工智能的核心技術(shù)是生成式預(yù)訓(xùn)練轉(zhuǎn)換模型,這是一種利用從互聯(lián)網(wǎng)網(wǎng)頁、社交媒體對話和其他在線媒體中收集的數(shù)據(jù)進(jìn)行訓(xùn)練的內(nèi)容生成深度學(xué)習(xí)模型。生成式人工智能雖然可以生產(chǎn)新內(nèi)容,但不能理解文本背后隱含的現(xiàn)實(shí)世界中的物體、物體之間的關(guān)系和社會關(guān)系,因而不能形成新的觀點(diǎn)或應(yīng)對現(xiàn)實(shí)世界復(fù)雜挑戰(zhàn)的解決方案。此外,盡管生成式人工智能具有內(nèi)容輸出的流暢性、相對于提示要求的內(nèi)容輸出針對性等特點(diǎn),但當(dāng)前仍不能被信任為可生成準(zhǔn)確、可靠內(nèi)容的技術(shù)。即便是ChatGPT也在用戶協(xié)議中聲明:盡管諸如ChatGPT的工具可生成看似合理的答案,但不能被視為可依據(jù)的準(zhǔn)確答案(詳見https://chat.openai.com)。生成式人工智能輸出中的錯誤很難被那些對相關(guān)查詢和聊天主題缺乏牢固知識基礎(chǔ)的用戶察覺,對尚未掌握足夠事實(shí)性知識的未成年人用戶來說此問題尤為嚴(yán)重。為此,OpenAI等生成式人工智能提供商建議:在高厲害關(guān)系領(lǐng)域,包括面向未成年人講授事實(shí)性知識的教育領(lǐng)域,應(yīng)該慎用或不用ChatGPT等并非基于專業(yè)數(shù)據(jù)培訓(xùn)的生成式人工智能平臺。

(2)生成式人工智能對人類思維符號表征系統(tǒng)的模式識別與內(nèi)容生成

在近期生成式人工智能的諸多突破性技術(shù)中,真正引發(fā)深思的是該技術(shù)看似逐步具備了處理人類思維所采用的全部表征符號的性能。人類常用的符號表征有口頭或書面語言呈現(xiàn)的自然語言、圖形圖像(包括抽象圖形、照片或視頻、圖像、繪畫等)、音樂和軟件代碼等。生成式人工智能技術(shù)支持人類借助自己慣常使用的各類符號表征來呈現(xiàn)提示或提供參考范例,然后通過生成式預(yù)訓(xùn)練轉(zhuǎn)換模型,以人類無法覺察其延遲的運(yùn)算速度,用論文、報(bào)告、演示文稿、聲音、圖像、繪畫、視頻、數(shù)字或數(shù)值、軟件代碼等各類符號,表征呈現(xiàn)其生產(chǎn)的內(nèi)容、答案或建議。

在接受輸入提示方面,ChatGPT-3和ChatGPT-3.5僅限于文本輸入,而ChatGPT-4接受用戶在文本輸入的基礎(chǔ)上同時使用語音和圖像呈現(xiàn)混合提示,在“文生文”的基礎(chǔ)上實(shí)現(xiàn)了“圖(含視頻)生文”“文生圖(含視頻)”等跨符號表征的功能,并支持在提示和響應(yīng)中混合使用計(jì)算機(jī)代碼。2023年9月,OpenAI發(fā)布人工智能圖像合成模型的測試版本DALL?E 3,其以ChatGPT為基礎(chǔ),支持用戶通過提示工程(Prompt Engineering)逐步展開復(fù)雜的描述,再根據(jù)描述自動生成圖像,展現(xiàn)了通過自然語言對話生成圖像的能力。ChatGPT-4也獲得了可為靜止圖像或錄像自動生產(chǎn)字幕、對圖像中的元素進(jìn)行分類識別并分析圖像中的文本內(nèi)容、解釋圖像傳承的藝術(shù)模因(Memes)、對同時含有文本和圖像的文件進(jìn)行總結(jié)提煉等技術(shù)性能。

除了ChatGPT系列產(chǎn)品,2023年初谷歌公司發(fā)布“詩人”(Bard,詳見https://bard.google.com)大語言模型,可實(shí)現(xiàn)與互聯(lián)網(wǎng)保持實(shí)時鏈接,并為其輸出的響應(yīng)提供即時更新的信息;隨后,又發(fā)布了多模態(tài)大模型“雙子座”(Gemini),能夠理解和生成文本、計(jì)算機(jī)代碼,并能夠識別和生成圖像,是與ChatGPT-4性能對標(biāo)的基礎(chǔ)模型。元宇宙公司(下文簡稱“Meta公司”)的大語言模型“羊駝”(Alpaca,詳見https://crfm.stanford.edu/2023/03/13/alpaca.html),致力于解決大語言模型輸出中的錯誤信息、社會刻板印象和有害語言問題?!癕eta大語言人工智能模型”(也稱Llama大模型,詳見https://ai.facebook.com/blog/large-language-model-llama-meta-ai)則是基于更小的超算能力和較少的訓(xùn)練資源,來探索新型生成式人工智能開發(fā)模式的前沿嘗試。

由于生成式人工智能在技術(shù)性能、技術(shù)集成的深度和綜合性等方面已超越單純的大語言模型,有研究者認(rèn)為“大語言模型”已不再適合概括生成式人工智能技術(shù)的全部內(nèi)涵,故提出用生成式人工智能“基礎(chǔ)模型”(Foundation Models)的概念代替大語言模型[3]。生成式人工智能最近的技術(shù)進(jìn)展也為人工智能上下游垂直技術(shù)研發(fā)提供了具有突破性的基礎(chǔ)模型,并觸發(fā)了人工智能芯片、超算能力、數(shù)據(jù)分析和表達(dá)、模型優(yōu)化等各核心技術(shù)領(lǐng)域的競爭。圍繞生成式人工智能基礎(chǔ)模型新涌現(xiàn)的“卡脖子”關(guān)鍵技術(shù)集群,將是自主可控?cái)?shù)字技術(shù)研發(fā)的必爭領(lǐng)域。

2 生成式人工智能的技術(shù)原理

(1)生成式人工智能的基本工作原理

①文本生成式人工智能的基本工作原理。文本生成式人工智能使用人工神經(jīng)網(wǎng)絡(luò)技術(shù)中的通用文本轉(zhuǎn)換器,通常又被稱為“大語言模型”(Large Language Model),但大語言模型不能被用來概括圖像生成式人工智能,也不能用來統(tǒng)稱生成式人工智能的所有門類。經(jīng)過訓(xùn)練的生成式預(yù)訓(xùn)練轉(zhuǎn)換器可通過以下步驟,根據(jù)人類用戶的提示指令生成文本或輸出其支持的其他格式:第1步,提示指令被分解為文本的最小單位或基本元素字節(jié)(Token),然后輸入到生成式預(yù)訓(xùn)練轉(zhuǎn)換器中。第2步,轉(zhuǎn)換器通過統(tǒng)計(jì)模型預(yù)測組合為連貫反應(yīng)的最可能的詞語或句子,具體流程是轉(zhuǎn)換器先從訓(xùn)練用大數(shù)據(jù)模型中確認(rèn)單詞或短語的語言模式,之后轉(zhuǎn)換器借助這些語言模式預(yù)測特定單詞或短語在特定語境中出現(xiàn)的概率,最后基于概率預(yù)測,轉(zhuǎn)換器在其反饋中預(yù)測后續(xù)最有可能的單詞或短語。第3步,預(yù)測產(chǎn)生的單詞或短語轉(zhuǎn)化為可閱讀的文本(或可理解的聲音)。第4步,可理解的文本或聲音經(jīng)過“護(hù)欄技術(shù)”(Guardrails)處理,過濾掉不良輸出(如明顯違法或違反已知倫理法規(guī)的內(nèi)容等)。第5步,重復(fù)第2步至第4步,直到完成一個完整的響應(yīng)(即達(dá)到字節(jié)數(shù)的最高限度或預(yù)先設(shè)定的響應(yīng)停止基準(zhǔn))。第6步,產(chǎn)生的響應(yīng)采用后處理技術(shù)進(jìn)一步加工,通過格式編排、添加標(biāo)點(diǎn)及其他語言增強(qiáng)方法(如模擬人類可能應(yīng)用的語氣詞“是的”“當(dāng)然”“對不起”等),來提高其可閱讀性或可理解性。

文本生成式人工智能模型為需要內(nèi)容處理和表達(dá)的各領(lǐng)域提供了基礎(chǔ)性自動化內(nèi)容加工工具,并已引發(fā)了內(nèi)容加工行業(yè)的生產(chǎn)方式變革。例如,微軟的文字處理、電子表格、演示文稿制作等辦公套件,已實(shí)現(xiàn)內(nèi)嵌ChatGPT的軟件升級。再如,谷歌在Chrome瀏覽器內(nèi)嵌“文案寫作人工智能”(Compose AI)模型,支持寫作中的語句自動完成和文章生成;內(nèi)嵌于PDF軟件的“PDF聊天”(ChatPDF,詳見https://www.chatpdf.com)可對PDF格式文件內(nèi)的文本、圖表等進(jìn)行識別和加工,并自動總結(jié)文件的要點(diǎn),開展基于文本的問答對話。

生成式人工智能借助概率對文本上下文進(jìn)行模式識別,根據(jù)句法規(guī)則生成文本內(nèi)容,但它并不理解語言的語義(Semantics),與人類理解自然語言并基于對語言的理解借助各類符號表征進(jìn)行溝通和問題解決的能力相去甚遠(yuǎn)。同時,生成式人工智能不能借助句法理解文本和圖像等背后真實(shí)世界中的物體和復(fù)雜的社會關(guān)系,盡管它可以為人類的知識發(fā)現(xiàn)提供文獻(xiàn)綜述和數(shù)據(jù)計(jì)算的支持,但其自身不能發(fā)現(xiàn)新知識。囿于現(xiàn)有技術(shù)局限,生成式人工智能技術(shù)無法為解決現(xiàn)實(shí)世界中的復(fù)雜挑戰(zhàn)提供創(chuàng)新型解決方案,也不能做出社會價(jià)值判斷或價(jià)值觀引導(dǎo)。這一技術(shù)局限制約了生成式人工智能較為獨(dú)立地引導(dǎo)復(fù)雜知識學(xué)習(xí)和問題解決的導(dǎo)學(xué)性能,進(jìn)而限制了其變革教育的潛能。

②圖像及音樂生成式人工智能的基本工作原理。圖像及音樂生成式人工智能采用不同的人工神經(jīng)網(wǎng)絡(luò)技術(shù)——“生成對抗網(wǎng)絡(luò)”(Generative Adversarial Networks,GANs),可與變分自動編碼器合并使用。GANs由兩個對抗器組成,即生成器(Generator)和判別器(Discriminator)。以圖像生成對抗網(wǎng)絡(luò)為例,生成器會根據(jù)提示對圖像要素組合模式進(jìn)行識別并生成一個隨機(jī)圖像,判別器會對比生成圖像與真實(shí)圖像的擬合度。隨后,生成器會根據(jù)判別器的對比結(jié)果調(diào)整其使用的復(fù)雜參數(shù),以生成更優(yōu)化的圖像。在預(yù)訓(xùn)練中,該過程會被重復(fù)千百次,以保證生成器創(chuàng)作出判別器難以判斷與提示預(yù)期存在差異的圖像。例如,如果用數(shù)千張關(guān)于某地的風(fēng)景照片訓(xùn)練一個生成對抗器,其創(chuàng)作的關(guān)于該地的非真實(shí)圖像將幾乎無法被識別為假圖片。與此類似,如果用某種風(fēng)格、某個音樂家或某一歌名的不同音樂數(shù)據(jù)集訓(xùn)練生成對抗器,其創(chuàng)作的新音樂將能復(fù)制原始音樂的復(fù)雜音樂特征。

圖像生成式人工智能亦多被ChatGPT的相關(guān)技術(shù)模型所壟斷,如“達(dá)利?E 2”(DALL?E 2,詳見https://openai.com/product/dall-e-2),這是OpenAI的圖像生成人工智能工具,在此基礎(chǔ)上還衍生出了“蠟筆”(Craiyon,詳見https://www.craiyon.com)平臺。此外,“途中”(Midjourney,詳見https://www.midjourney.com)綜合了DALL?E和穩(wěn)定擴(kuò)散模型(Stable Diffusion Model),而“夜間咖啡館”(NightCafe,詳見https://creator.nightcafe.studio)、“圖像沖擊波”(Photosonic,詳見https://writesonic.com/photosonic-ai-art-generator)、“攝影師”(Fotor,詳見https://www.fotor.com/features/ai-image-generator)等也都采用了DALL?E 2平臺。

視頻生成式人工智能基礎(chǔ)模型除了ChatGPT-4,還有“膠質(zhì)云平臺”(GliaCloud,詳見https://www.gliacloud.com),此平臺可從新聞內(nèi)容、社交媒體發(fā)帖、現(xiàn)場運(yùn)動賽事、統(tǒng)計(jì)數(shù)據(jù)中生成視頻。此外,“圖像工廠”(Pictory,詳見https://pictory.ai)和“跑道”(Runway,詳見https://runwayml.com)也都可從文字中生成或編輯加工具有專業(yè)品質(zhì)的視頻。

音樂生成式基礎(chǔ)模型或平臺包括:“人工智能虛擬藝術(shù)家”(Aiva,詳見https://www.aiva.ai),可自動創(chuàng)作個性化的原聲音帶;“爆音”(Boomy,詳見https://boomy.com)、“聲音玩家”(Soundraw,詳見https://soundraw.io)、“變聲器”(Voicemod,詳見https://www.voicemod.net/text-to-song)等,都是可支持零音樂創(chuàng)作基礎(chǔ)的用戶用文本自動生成歌曲的平臺。

表1 OpenAI各版本GPT的訓(xùn)練用數(shù)據(jù)集和參數(shù)

(2)生成式人工智能的模型架構(gòu)、預(yù)訓(xùn)練用數(shù)據(jù)量和參數(shù)的迭代升級

每一個新版本的生成式預(yù)訓(xùn)練轉(zhuǎn)化器均在先前版本的基礎(chǔ)上對人工智能架構(gòu)、訓(xùn)練方法等進(jìn)行綜合的迭代優(yōu)化,所使用的預(yù)訓(xùn)練數(shù)據(jù)集數(shù)量和所采用的參數(shù)也呈爆炸式增長。其中,參數(shù)是人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)中決定該系統(tǒng)如何加工輸入和產(chǎn)生輸出的數(shù)值。參數(shù)通過訓(xùn)練中的數(shù)據(jù)界定,對模型中的知識和技能進(jìn)行編碼。參數(shù)決定預(yù)訓(xùn)練轉(zhuǎn)化器的性能和應(yīng)用表現(xiàn),故而對預(yù)訓(xùn)練轉(zhuǎn)換技術(shù)來說至關(guān)重要。一般而言,參數(shù)越多,能處理的數(shù)據(jù)和做出的表達(dá)越復(fù)雜。GPT使用了萬億數(shù)量級的參數(shù),支持其處理復(fù)雜任務(wù)、生成邏輯連貫的文本的能力(具體如表1所示)。生成式人工智能架構(gòu)和訓(xùn)練方法的迭代優(yōu)化、預(yù)訓(xùn)練用數(shù)據(jù)集和數(shù)以億計(jì)的參數(shù)處理,都依賴于超算能力的同步加速提升。2012年以來,用于生成式人工智能模型訓(xùn)練的算力的翻倍周期為3~4個月,其算力翻倍速度打破了預(yù)測計(jì)算機(jī)計(jì)算能力每兩年翻一倍的“摩爾定律”[4]。

(3)現(xiàn)有壟斷性生成式人工智能系統(tǒng)的訓(xùn)練用數(shù)據(jù)集來源和語言分布

上述處于壟斷地位的生成式人工智能模型的訓(xùn)練用數(shù)據(jù)集主要來源于互聯(lián)網(wǎng)網(wǎng)頁的“爬取”信息、社交媒體對話信息、在線圖書館圖書資料和互聯(lián)網(wǎng)百科類平臺的百科內(nèi)容。根據(jù)OpenAI公開的資料和第三方統(tǒng)計(jì),ChatGPT-3實(shí)際使用的訓(xùn)練用文本數(shù)據(jù)(即語料)不到1000GB,即1TB左右[5]。主要的數(shù)據(jù)來源有:互聯(lián)網(wǎng)“通用網(wǎng)絡(luò)爬蟲數(shù)據(jù)集”(Common Crawl,詳見https://commoncrawl.org),約占數(shù)據(jù)總量的61.75%;“紅迪”(Reddit,詳見https://www.reddit.com)電子布告欄,約占18.86%;“創(chuàng)世紀(jì)圖書館”(Library Genesis,詳見https://librarygenesis.net)的圖書,約占8.1%;“碎文”(Smashwords,詳見https://www.smashwords.com/)圖書平臺的圖書,約占7.8%;維基百科,約占3.49%。

與此同時,目前壟斷性生成式人工智能模型的訓(xùn)練用數(shù)據(jù)集以美國及其歐洲結(jié)盟國家的語言為主。在ChatGPT公布的訓(xùn)練數(shù)據(jù)集語言分布中,英語語料占比高達(dá)92.64708%,其次是法語(占比1.81853%)、德語(占比1.46937%),而漢語語料占比僅為0.09905%[6]。針對這一問題,后續(xù)發(fā)布的大語言模型開發(fā)商宣稱將致力于提高訓(xùn)練用數(shù)據(jù)集的語言代表性,但整體上仍無法改變英語及西方結(jié)盟國家語言占絕對優(yōu)勢的現(xiàn)狀。例如,在自稱致力于提升大語言模型語言多樣性的Meta公司開發(fā)的Llama 2語料中,英語占比雖有所下降,但仍占89.7%;其他占比排前15的語言幾乎沒有改變;漢語語料略有提高,占0.13%[7]。

(4)現(xiàn)有壟斷生成式人工智能平臺的內(nèi)容服務(wù)收費(fèi)

字節(jié)通常被用作生成式人工智能收費(fèi)服務(wù)的計(jì)價(jià)單位。1字節(jié)大概等于0.75個英文單詞,而一個簡體的中文漢字大概等于1.2~3字節(jié)或平均相當(dāng)于2.7字節(jié)。以ChatGPT的定價(jià)為例,OpenAI細(xì)分出實(shí)用的產(chǎn)品變型并根據(jù)變型分類定價(jià)。每個產(chǎn)品變型通過可支持用戶輸入、輸出的上下文長度(即提示輸入的字節(jié)限制、內(nèi)容生成的字節(jié)限制)進(jìn)行劃分,其中4K上下文最多允許4,096字節(jié),而16K上下文最多允許16,384字節(jié)。OpenAI以GPT-3.5增強(qiáng)版作為起點(diǎn)服務(wù)平臺,其服務(wù)定價(jià)如表2所示。而ChatGPT-4支持更長的上下文長度,其中型號為32K的產(chǎn)品的字節(jié)輸入、輸出長度均可達(dá)32,768字節(jié),可支持對輸入、輸出性能要求較高的二級開發(fā)商和個體用戶處理范圍更寬泛的文件,并在對話中保持篇幅更長的上下文理解能力,但服務(wù)價(jià)格大幅提高,其服務(wù)定價(jià)如表3所示。

表3 GPT-4的服務(wù)定價(jià)

OpenAI的圖像和音樂等平臺根據(jù)生成圖像的分辨率或像素劃分服務(wù)類型,并以圖像為單元收費(fèi)。DALL?E的圖像生產(chǎn)服務(wù)收費(fèi)標(biāo)準(zhǔn)如表4所示。

表4 DALL?E的圖像生產(chǎn)服務(wù)收費(fèi)標(biāo)準(zhǔn)

二 已有壟斷性生成式人工智能平臺教育應(yīng)用的安全和價(jià)值觀風(fēng)險(xiǎn)

美國OpenAI、谷歌、Meta公司的壟斷性基礎(chǔ)模型已被廣泛應(yīng)用,并已被內(nèi)嵌為數(shù)字基礎(chǔ)設(shè)施的有機(jī)組成部分,將對包括教育在內(nèi)的各領(lǐng)域數(shù)字安全產(chǎn)生廣泛而長遠(yuǎn)的影響。考證壟斷性生成式人工智能平臺對數(shù)字安全性、價(jià)值觀等方面的深遠(yuǎn)影響,是討論其教育應(yīng)用的安全底線。

1 壟斷性生成式人工智能平臺的數(shù)字安全控制和價(jià)值觀投射

(1)壟斷性基礎(chǔ)模型的數(shù)字安全威脅

現(xiàn)有壟斷性基礎(chǔ)模型引發(fā)的數(shù)字基礎(chǔ)設(shè)施升級,從某種意義上也將是對其他國家數(shù)字安全威脅的升級。生成式人工智能已被互聯(lián)網(wǎng)搜索引擎、瀏覽器等在線數(shù)據(jù)控制性基礎(chǔ)設(shè)施采納為內(nèi)嵌模型,并已引發(fā)數(shù)字基礎(chǔ)設(shè)施的升級。例如,谷歌公司的Chrome瀏覽器內(nèi)嵌了多種生成式人工智能功能,主要包括:①“網(wǎng)絡(luò)聊天GPT”(WebChatGPT,詳見https://tools.zmo.ai/webchatgpt),可將ChatGPT與互聯(lián)網(wǎng)連接以獲取更準(zhǔn)確、更及時的對話信息;②“智慧合一”(Wiseone,詳見https://wiseone.io),可協(xié)助閱讀過程中相關(guān)信息的實(shí)時查詢;③“人工智能個人助理團(tuán)隊(duì)”(TeamSmart AI,詳見https://www.teamsmart.ai),可綜合調(diào)用ChatGPT-4、谷歌PaLM 2的Bison版本、Meta公司的Llama 2版本和其他大型基礎(chǔ)模型。這些內(nèi)嵌的生成式人工智能服務(wù)會要求用戶提供電子郵件、社交賬號等信息,并且會誘導(dǎo)用戶在提示工程中開放社交賬號中的文本、圖像、視頻等信息。由此,生成式人工智能即成為控制網(wǎng)絡(luò)安全和個人網(wǎng)絡(luò)隱私、主導(dǎo)網(wǎng)絡(luò)流量的最底層數(shù)字基礎(chǔ)設(shè)施的重要節(jié)點(diǎn)。失去基礎(chǔ)模型的自主可控權(quán),就意味著失去國家網(wǎng)絡(luò)安全和公民數(shù)據(jù)保護(hù)的主動權(quán)。自2018年中美貿(mào)易沖突以來,美國隨時可用維護(hù)國家安全的借口,針對其管轄范圍內(nèi)的核心技術(shù)對中國采取強(qiáng)制封鎖和禁用措施。在此歷史背景下,ChatGPT等美國的壟斷性生成式人工智能平臺在中國的應(yīng)用,不具備技術(shù)可達(dá)性和數(shù)字安全的底線保障。

(2)生成式人工智能不理解價(jià)值觀,但會投射價(jià)值觀

當(dāng)前,在壟斷性生成式人工智能模型的訓(xùn)練用數(shù)據(jù)集的語言分布中,英語及美國主要?dú)W洲結(jié)盟國家的語言占絕大多數(shù)。生成式人工智能并不能理解人類的價(jià)值觀,但在訓(xùn)練轉(zhuǎn)換器的過程中,如果訓(xùn)練用數(shù)據(jù)集的擁有者持有某種價(jià)值觀,那么與該價(jià)值觀相符的詞匯和句法等便會被更多次地重復(fù),從而被轉(zhuǎn)換器識別為標(biāo)準(zhǔn)的文本模式而在其輸出過程中得到強(qiáng)化并作為標(biāo)準(zhǔn)答案輸出。這些被技術(shù)強(qiáng)化的、隱含某種價(jià)值觀的語句,會被用戶解讀并生成與價(jià)值觀關(guān)聯(lián)的意義。盡管壓制其他價(jià)值觀和文化標(biāo)準(zhǔn)或許并非生成式人工智能的設(shè)計(jì)初衷,但對未被納入預(yù)訓(xùn)練數(shù)據(jù)集的語言來說,其相關(guān)的語言范式、文化觀念無法在轉(zhuǎn)換器得到確認(rèn)和重復(fù)。因此,主要基于美歐語料的基礎(chǔ)模型對該領(lǐng)域的壟斷客觀上會借助文本、圖像、視頻等內(nèi)容產(chǎn)品的掩蓋,以難以察覺且難以抵制的方式更集中地投射“價(jià)值觀和文化標(biāo)準(zhǔn)答案”,潛移默化地對處于語言文化風(fēng)格和價(jià)值觀成長期的青少年進(jìn)行價(jià)值觀滲透,并導(dǎo)致弱勢群體數(shù)字殖民的升級[8]。

2 確保生成式人工智能教育應(yīng)用的安全性

(1)強(qiáng)化對面向境內(nèi)提供服務(wù)的跨國生成式人工智能提供商的管理

2023年7月,我國國家互聯(lián)網(wǎng)信息辦公室聯(lián)合多部門公布《生成式人工智能服務(wù)管理暫行辦法》(下文簡稱《辦法》)[9],明確了轄域內(nèi)服務(wù)適用的治理范疇界定,即“用生成式人工智能技術(shù)向中華人民共和國境內(nèi)公眾提供生成文本、圖片、音頻、視頻等內(nèi)容的服務(wù)”都應(yīng)該接受本《辦法》的管理;同時,明確規(guī)定提供和使用生成式人工智能服務(wù)應(yīng)“堅(jiān)持社會主義核心價(jià)值觀”,并強(qiáng)調(diào)要“在算法設(shè)計(jì)、訓(xùn)練數(shù)據(jù)選擇、模型生成和優(yōu)化、提供服務(wù)等過程中,采取有效措施防止產(chǎn)生民族、信仰、國別……等歧視”。鑒于生成式人工智能的價(jià)值觀投射具有極高的隱蔽性,目前可預(yù)見的監(jiān)控方法主要有兩個:一是要求向境內(nèi)提供服務(wù)的生成式人工智能平臺體現(xiàn)轄域內(nèi)主要語言在訓(xùn)練語料中的代表性,考慮設(shè)置中文在訓(xùn)練語料中的占比下限;二是監(jiān)管部門和用戶合作,對生成式人工智能輸出內(nèi)容投射的價(jià)值觀進(jìn)行監(jiān)控,“建立健全投訴、舉報(bào)機(jī)制”,一旦“發(fā)現(xiàn)違法內(nèi)容的,應(yīng)當(dāng)及時采取停止生成、停止傳輸、消除等處置措施,采取模型優(yōu)化訓(xùn)練等措施進(jìn)行整改?!?/p>

(2)優(yōu)先基礎(chǔ)模型的自主可控研發(fā)和基于開源技術(shù)的國際合作

應(yīng)對目前壟斷性生成式人工智能平臺引發(fā)的數(shù)字安全升級,中國應(yīng)鼓勵和支持產(chǎn)權(quán)自主、安全可控的核心基礎(chǔ)模型的技術(shù)研發(fā),評估與預(yù)判已有壟斷性基礎(chǔ)模型引發(fā)的底層數(shù)字基礎(chǔ)設(shè)施升級帶來的安全隱患,并制定安全可控的自主數(shù)字基礎(chǔ)設(shè)施升級方案。盡管百度的“文心一言”、阿里巴巴的“通義千問”以及其他的中國自主可控大語言模型在模型架構(gòu)、訓(xùn)練用數(shù)據(jù)集和參數(shù)規(guī)模、模型的性能及其成熟程度等方面,均與上述壟斷性基礎(chǔ)模型存在代際差距,但基于本國數(shù)據(jù)集和本土技術(shù)團(tuán)隊(duì)的基礎(chǔ)模型研發(fā)是實(shí)現(xiàn)產(chǎn)權(quán)自主、安全自控的唯一戰(zhàn)略選擇。同時,要倡導(dǎo)和支持基于開源技術(shù)的國際合作,通過知識共享提升技術(shù)研發(fā)能力,并探索構(gòu)建優(yōu)質(zhì)數(shù)據(jù)和超級計(jì)算資源共享的機(jī)制,以對抗現(xiàn)有基礎(chǔ)模型開發(fā)的壟斷。在開源生成式人工智能領(lǐng)域,較為成熟和有影響力的是HuggingFace社團(tuán)開發(fā)的“擁抱聊天”大語言模型(Hugging Chat,詳見https://huggingface.co/chat),該社團(tuán)倡導(dǎo)研發(fā)和訓(xùn)練的倫理合規(guī)性、透明性,并強(qiáng)調(diào)其用于模型訓(xùn)練的數(shù)據(jù)全部開源。另外,“開源助手”平臺(Open Assistant,詳見https://open-assistant.io)提供大量的開源模型、數(shù)據(jù)等,支持技術(shù)專業(yè)知識豐富的人士合作開發(fā)產(chǎn)權(quán)可控的大語言模型。

(3)支持基于本國課程標(biāo)準(zhǔn)的教育基礎(chǔ)模型開發(fā)

在超前研發(fā)產(chǎn)權(quán)自主的核心基礎(chǔ)模型的同時,應(yīng)同步布局各關(guān)鍵專業(yè)領(lǐng)域自主可控基礎(chǔ)模型研發(fā)的新賽道。教育基礎(chǔ)模型或教育生成式預(yù)訓(xùn)練轉(zhuǎn)換器(EdGPT)是基于本國審核批準(zhǔn)的課程標(biāo)準(zhǔn)和教材內(nèi)容數(shù)據(jù)、數(shù)字化教育管理和教學(xué)過程數(shù)據(jù)訓(xùn)練的生成式預(yù)訓(xùn)練轉(zhuǎn)化器,可最大程度地確保生成式人工智能智能教育應(yīng)用的價(jià)值觀與語言文化自主。目前,已推出實(shí)測或?qū)嵱冒姹镜慕逃A(chǔ)模型主要有“數(shù)學(xué)GPT”(MathGPT,詳見https://www.mathgpt.com)和“默林大腦”(Merlyn Mind,詳見https://www.merlyn.org)。從本質(zhì)上來說,教育專用模型是放棄基于海量互聯(lián)網(wǎng)數(shù)據(jù)訓(xùn)練出的大模型所具有的寬域內(nèi)容輸出這一教育低相關(guān)性技術(shù)特性,轉(zhuǎn)而追求用小而專的教育數(shù)據(jù)訓(xùn)練更安全、更去除價(jià)值觀偏見的轉(zhuǎn)化器以輸出更符合教學(xué)需求的精準(zhǔn)內(nèi)容和對話響應(yīng)。教育專用模型能在多大程度上將生成式人工智能的最新技術(shù)進(jìn)展降維應(yīng)用到教育領(lǐng)域、教育專用模型的底層技術(shù)組合和架構(gòu)設(shè)計(jì)等能在多大程度上實(shí)現(xiàn)學(xué)科專業(yè)知識“理解力”方面的升維突破,將是考察教育大模型性能和應(yīng)用效果的重要指標(biāo)。與此同時,教育基礎(chǔ)模型的功能設(shè)計(jì)還需要界定內(nèi)嵌主體適用的基本教學(xué)法與保護(hù)真實(shí)師生互動之間的邊界,預(yù)防教育基礎(chǔ)模型成為預(yù)設(shè)教學(xué)方法和流程甚至取代師生互動活動的“教學(xué)過程預(yù)制工具”。

三 生成式人工智能的年齡適用性和教學(xué)適用性

超越目前壟斷性基礎(chǔ)模型的安全性和適用性的范疇,生成式人工智能作為通用性的技術(shù),也存在自身的技術(shù)性能有限并受人機(jī)互動邊界的限制。從用戶年齡、教學(xué)內(nèi)容提供的需求、教學(xué)過程的特點(diǎn)等角度考證生成式人工智能的適用性,是發(fā)揮其教學(xué)育人潛力、規(guī)避風(fēng)險(xiǎn)的前提。

1 “聊天式”內(nèi)容服務(wù)的年齡適用性

①未成年人借助生成式人工智能平臺聊天的風(fēng)險(xiǎn)。未成年人借助現(xiàn)有的通用生成式人工智能平臺聊天的年齡適用性,是考證中小學(xué)階段生成式人工智能教育應(yīng)用的法律和倫理前提。從上述預(yù)訓(xùn)練用數(shù)據(jù)來源的考證可以看出:現(xiàn)有的通用生成式人工智能模型將未經(jīng)選擇的成年人應(yīng)用互聯(lián)網(wǎng)過程中產(chǎn)生的數(shù)據(jù)作為主要的訓(xùn)練用語料,以支持成年人聊天式的內(nèi)容服務(wù)為目的而開發(fā)。道德判斷能力和社會行事能力均未達(dá)到自我保護(hù)下限的未成年人在與這些預(yù)訓(xùn)練模型的一對一聊天互動中,不可避免地會面臨諸多風(fēng)險(xiǎn),包括曝光于輸出響應(yīng)中的不適內(nèi)容、借助未成年人肖像的“深偽”數(shù)字圖像合成和網(wǎng)絡(luò)傳播、通過聊天互動對未成年人的行為操控等。

②未成年人獨(dú)立使用生成式人工智能平臺聊天的年齡下限。鑒于可預(yù)判的獨(dú)立聊天風(fēng)險(xiǎn)和生成式人工智能技術(shù)在生成不準(zhǔn)確內(nèi)容等方面的不確定影響,聯(lián)合國教科文組織在《指南》中建議各國政府對未成年人在無成年人監(jiān)督下使用生成式人工智能平臺的獨(dú)立聊天設(shè)置年齡下限。參考已有的未成年人獨(dú)立使用社交媒體聊天的相關(guān)法律[10][11][12],《指南》建議獨(dú)立使用生成式人工智能平臺聊天的年齡下限設(shè)置為13歲,并考慮16歲的更嚴(yán)格年齡限制。在我國,《生成式人工智能服務(wù)管理暫行辦法》提出生成式人工智能“提供者應(yīng)當(dāng)明確并公開其服務(wù)的適用人群”,并要求“采取有效措施防范未成年人用戶過度依賴或者沉迷生成式人工智能服務(wù)”[13]。相關(guān)監(jiān)管部門應(yīng)在此基礎(chǔ)上,考慮進(jìn)一步明確未成年人在無成人監(jiān)督下與生成式人工智能聊天平臺獨(dú)立聊天的年齡下限。

2 生成式人工智能用于教育內(nèi)容獲取的悖論

(1)生成式人工智能的商業(yè)內(nèi)容產(chǎn)品輸出不具備公共教育內(nèi)容輸入的直接適用性

在商業(yè)領(lǐng)域,生成式人工智能提供商面向商業(yè)客戶開發(fā)并提供文案、圖像、繪畫、視頻和音樂等產(chǎn)品服務(wù),然后按服務(wù)質(zhì)量和數(shù)量收費(fèi)的服務(wù)模式無可厚非。但是,內(nèi)容收費(fèi)服務(wù)模式與知識屬于公眾領(lǐng)域、教育提供屬于公益范疇的基本共識相悖。故而,這種以輸出商業(yè)內(nèi)容產(chǎn)品為目的的技術(shù),也不具備直接用作教育內(nèi)容輸入的適用性??赡艿慕鉀Q方案包括開發(fā)和采用更具可承受性的本土教育生成式人工智能模型、政府集體購買現(xiàn)有平臺的使用權(quán)限并作為教育技術(shù)方案的一部分供學(xué)校和師生免費(fèi)使用等方式,為教育系統(tǒng)提供可承受的生成式教育內(nèi)容。而生成式人工智能在教育內(nèi)容提供方面的適用性或適用的范圍,是一個更值得深入考證的悖論。

(2)生成式教育內(nèi)容獲取悖論

生成式人工智能在內(nèi)容生成方面取得的技術(shù)進(jìn)展,引發(fā)了該技術(shù)可為教育提供教材和教師之外的第三方對話式知識獲取來源的邏輯聯(lián)想,也產(chǎn)生了可通過生成式人工智能解決貧困地區(qū)教育內(nèi)容供給不足的假設(shè),并引發(fā)了該技術(shù)會對知識的獲取和生成方式乃至教學(xué)互動過程產(chǎn)生革命性影響的預(yù)測[14]。基于對生成式人工智能技術(shù)原理的追溯,這些假設(shè)似乎存在多重悖論。

①技術(shù)設(shè)計(jì)“目的與用途”間的悖論:生成式人工智能技術(shù)的設(shè)計(jì)初衷,是服務(wù)于專業(yè)文案創(chuàng)作者、視覺效果設(shè)計(jì)者、法律服務(wù)或咨詢機(jī)構(gòu)等。生成式人工智能平臺文本輸出中的少許錯誤或其他符號表征作品的缺陷,均可被具備高度鑒別能力的專業(yè)人員識別,并通過對話式的提示工程逐步剔除,最終輸出符合預(yù)期的作品。但學(xué)生尤其是低學(xué)段學(xué)生往往缺乏鞏固的事實(shí)性知識、專業(yè)領(lǐng)域知識、鑒別內(nèi)容準(zhǔn)確性的能力以逐步遞推的提示工程所需的元認(rèn)知能力,不是生成式人工智能技術(shù)設(shè)計(jì)的直接目標(biāo)人群,因此直接使用生成式人工智能的輸出作為學(xué)生尤其是低學(xué)段學(xué)生的主要學(xué)習(xí)內(nèi)容來源也不符合其設(shè)計(jì)初衷。

②教師天然知識與“機(jī)器瓶裝內(nèi)容”之間的選擇悖論:預(yù)訓(xùn)練模型采用的訓(xùn)練數(shù)據(jù)是人類教師知識儲備的數(shù)千萬倍,但人類教師的知識是由人理解、由人輸出的天然知識,其與學(xué)生的互動也是由人負(fù)責(zé)、由人隨時動態(tài)更正和更新的天然人際互動過程。預(yù)訓(xùn)練模型的內(nèi)容可用預(yù)先封裝的“瓶裝內(nèi)容”來比喻,受其技術(shù)原理的局限,這種瓶裝知識廣度有余但準(zhǔn)確度和人文互動不足。盡管谷歌、OpenAI等公司已將其大模型接入搜索引擎以支持即時信息和驗(yàn)證,試圖打開“瓶裝內(nèi)容”的“瓶蓋”。但如果忽視教師的天然知識及其對注意力、情緒等非智力因素的把控,而過分重視不理解語義和真實(shí)世界的機(jī)器內(nèi)容,那么將陷入教學(xué)內(nèi)容獲取主渠道的悖論。

③借助生成式人工智能面向貧困地區(qū)提供教學(xué)內(nèi)容的預(yù)算悖論:針對教育內(nèi)容和優(yōu)質(zhì)師資匱乏的貧困地區(qū)、通過生成式人工智能平臺支持學(xué)生內(nèi)容獲取的主張,從邏輯上是一種“用更不可承受的方案解決固有資源匱乏問題”的悖論。生成式人工智能的部署和日常性可持續(xù)應(yīng)用對數(shù)字設(shè)備和寬帶網(wǎng)普及率、學(xué)生數(shù)字技能等方面的數(shù)字準(zhǔn)備狀態(tài)要求極高,缺乏經(jīng)費(fèi)提高生/師比的國家和地區(qū)不具備這些需要充足經(jīng)費(fèi)且數(shù)十年積累才能達(dá)到的數(shù)字化準(zhǔn)備狀態(tài)。同時,越是在低收入國家和地區(qū),個體用戶需承受的互聯(lián)網(wǎng)數(shù)據(jù)流量費(fèi)用在其平均收入中的占比越高。據(jù)國際電信聯(lián)合會統(tǒng)計(jì),非洲地區(qū)國家2022年的互聯(lián)網(wǎng)數(shù)據(jù)流量費(fèi)用占平均國民收入的5%左右,低收入國家的互聯(lián)網(wǎng)數(shù)據(jù)流量費(fèi)用占平均國民收入的9.3%[15]。在低收入地區(qū)的師生及家長已無力承擔(dān)現(xiàn)有通用互聯(lián)網(wǎng)數(shù)據(jù)流量費(fèi)用的前提下,要求師生再承擔(dān)額外費(fèi)用不具有可行性。

3 “內(nèi)容預(yù)制菜”應(yīng)用于教學(xué)過程的反智隱憂

生成式人工智能根據(jù)人類用戶的提示,在對各類素材進(jìn)行模式識別基礎(chǔ)上輸出的文本、圖像、音樂、視頻等作品可稱為“內(nèi)容預(yù)制菜”?!皟?nèi)容預(yù)制菜”既可作為最終成果,也可作為半成品供進(jìn)一步編輯、完善。生成式人工智能基礎(chǔ)模型在商業(yè)領(lǐng)域的迅速普及,引發(fā)了“內(nèi)容預(yù)制菜”商業(yè)模式在教育界的機(jī)械模仿。然而,學(xué)習(xí)主體在對確信的學(xué)習(xí)內(nèi)容進(jìn)行解構(gòu)的基礎(chǔ)上,開展主體能動的知識建構(gòu)、技能獲得和價(jià)值觀養(yǎng)成,是實(shí)現(xiàn)內(nèi)容的教育價(jià)值的根基。通過機(jī)器對訓(xùn)練用數(shù)據(jù)進(jìn)行解構(gòu)(即模式識別),在此基礎(chǔ)上建構(gòu)的“內(nèi)容預(yù)制菜”反映的是對學(xué)生內(nèi)容解構(gòu)的替代邏輯。盲目強(qiáng)調(diào)“內(nèi)容預(yù)制菜”的教育變革價(jià)值,可能會引發(fā)多層面的反智隱憂。

①內(nèi)容幻象引發(fā)基礎(chǔ)知識幻象。在內(nèi)容輸出過程中,生成式人工智能平臺會生成關(guān)于客觀事實(shí)和學(xué)科知識的“一本正經(jīng)”的錯誤或者說是內(nèi)容幻象。如果缺乏成人或教師的及時糾錯,缺乏事實(shí)性知識和學(xué)習(xí)知識基礎(chǔ)的低學(xué)段學(xué)生會基于人工智能幻象形成基礎(chǔ)知識幻象。

②“內(nèi)容預(yù)制菜”引發(fā)智力活動惰化?!皟?nèi)容預(yù)制菜”在商業(yè)領(lǐng)域可提高內(nèi)容生產(chǎn)效率和質(zhì)量。但在教育領(lǐng)域,內(nèi)容更多地被用作教學(xué)講解和學(xué)生理解的信息或知識輸入,以培養(yǎng)人的智力、能力和價(jià)值觀為主要目的。生成式人工智能對內(nèi)容解構(gòu)和建構(gòu)的自動化替代,會剝奪學(xué)生尤其是低學(xué)段學(xué)生有目的地獲取內(nèi)容、有意識地從內(nèi)容中解讀意義、進(jìn)行知識理解或形成技能的認(rèn)知過程。處于智力和能力成長期的未成年學(xué)生如果長期無批判、去原理解讀地復(fù)制“內(nèi)容預(yù)制菜”并以此作為學(xué)習(xí)結(jié)果提交,會存在智力發(fā)展弱化(Intellectual Enfeeblement)的風(fēng)險(xiǎn)。

③與不理解世界的人工智能的對話可能引發(fā)導(dǎo)學(xué)反智?,F(xiàn)有的壟斷性生成式人工智能系統(tǒng)并不能理解文本或圖像背后的真實(shí)世界,導(dǎo)致其在指導(dǎo)復(fù)雜知識的建構(gòu)、結(jié)構(gòu)不良問題的解決、通過觀察的經(jīng)驗(yàn)獲取等方面均具有明顯的技術(shù)劣勢。如果缺乏對此技術(shù)局限的理解,忽視教師引導(dǎo)的作用而過分依賴生成式人工智能聊天平臺對學(xué)生開展導(dǎo)學(xué),將限制學(xué)生與現(xiàn)實(shí)世界互動中的經(jīng)驗(yàn)獲取、復(fù)雜問題解決能力的培養(yǎng)和價(jià)值觀的養(yǎng)成。

總之,應(yīng)明確在生成式人工智能教育應(yīng)用過程中師生主體主觀能動性的不可替代性,明確學(xué)生的復(fù)雜知識理解與建構(gòu)、開放性問題解決、與真實(shí)世界的互動等尚屬于人工智能技術(shù)不能也不應(yīng)替代的人類主體性教學(xué)的邊界。同時,要防止用不理解世界的生成式人工智能技術(shù)來取代教師輔助、引導(dǎo)學(xué)生高水平思維培養(yǎng)和開放式學(xué)習(xí)的理論假設(shè)或?qū)嵺`模式。

四 基于教學(xué)育人需求解鎖技術(shù)潛能的生成式人工智能應(yīng)用模式探索

在具體的教學(xué)過程中,生成式人工智能在基于模式識別的新內(nèi)容生成、貫通表征符號的文圖轉(zhuǎn)換、參考提示標(biāo)準(zhǔn)的擬合度評判、提煉文圖要點(diǎn)的發(fā)散性聚合等方面具有較為明顯的優(yōu)勢。解鎖生成式人工智能的技術(shù)潛能,應(yīng)先鎖定教學(xué)育人的現(xiàn)實(shí)困境和發(fā)展需求,由此確認(rèn)具有教育適用性的人機(jī)協(xié)作方案或研發(fā)可“解鎖”教學(xué)方式變革的創(chuàng)新實(shí)踐“密鑰”。對此,《指南》倡導(dǎo)構(gòu)建“人類主導(dǎo)、主體適用的互動性應(yīng)用”的生成式人工智能教學(xué)應(yīng)用設(shè)計(jì)框架。在此基礎(chǔ)上,本研究建議將課程內(nèi)容制作、雙基學(xué)習(xí)、特殊學(xué)習(xí)需求、高階思維、探究實(shí)踐等宏觀教學(xué)需求作為教學(xué)設(shè)計(jì)的主要情境和脈絡(luò),并據(jù)此設(shè)計(jì)和實(shí)施適用于不同年齡和學(xué)習(xí)能力、不同學(xué)習(xí)領(lǐng)域需求的中觀課程與微觀教學(xué),以超越內(nèi)容過剩的人工智能教育應(yīng)用現(xiàn)狀。

1 支持包容性課程資源制作的“轉(zhuǎn)換器”:手腳增強(qiáng)的“人頭馬模式”

人工智能與教育中人類主體的關(guān)系不應(yīng)是簡單的競爭和替代,更不應(yīng)是在已有數(shù)字化基礎(chǔ)上增加的額外數(shù)字系統(tǒng)負(fù)擔(dān),而應(yīng)從基礎(chǔ)性支持工具層面貫通或升級數(shù)字化工具,在課程資源開發(fā)、行政管理等場域成為與人類智能共生和全教學(xué)過程融合的減負(fù)增智工具。

生成式人工智能在教育領(lǐng)域與人類智能共生的應(yīng)用模式之一是“人頭馬”模式,即借助生成式人工智能跨符號表征的內(nèi)容“轉(zhuǎn)換器”性能,充當(dāng)人類內(nèi)容加工的增強(qiáng)型“手腳”,而人類專注于價(jià)值觀判斷、高水平思維和創(chuàng)造性活動。該模式已涌現(xiàn)的實(shí)踐應(yīng)用場景主要是支持廣域課程資源開發(fā)和數(shù)字教材拓展的人機(jī)協(xié)作:生成式人工智能支持教育數(shù)字圖書館、教材庫、師生自創(chuàng)內(nèi)容庫的自動化搜索與內(nèi)容生成,并支持自動添加音視頻字幕、基于文本或視頻生成手語解說、基于文本生產(chǎn)視頻等跨符號表征的內(nèi)容自動化加工,然后由人類審核確認(rèn)并分享,實(shí)現(xiàn)包容性課程資源開發(fā)、拓展性數(shù)字教材支持等方面的人機(jī)互補(bǔ)。例如,為教師提供免費(fèi)開源課程資源的英國“橡果學(xué)院”,通過生成式人工智能將課程內(nèi)容轉(zhuǎn)錄為視頻并添加手語解說,然后由課程專家審核驗(yàn)證,以確保人類主體的全過程決策(詳見https://www.thenational.academy);再如,韓國政府已宣布將在中小學(xué)各科電子教材中內(nèi)嵌生成式人工智能技術(shù)(詳見https://news.kbs.co.kr/news/pc/view/view.do?ncd=7695671),該計(jì)劃將于2025年秋季全面推廣,其設(shè)計(jì)的功能之一,是通過生成式人工智能支持師生實(shí)現(xiàn)更智能化的課程資源檢索和格式轉(zhuǎn)換、教學(xué)流程中的實(shí)時問答、學(xué)習(xí)結(jié)果的多媒體作品制作等。

2 支持基本技能形成性評價(jià)與反饋的“判別器”:教學(xué)助理數(shù)字孿生模式

教育教學(xué)作為一種復(fù)雜的形成性社會關(guān)系實(shí)踐,并非在各個環(huán)節(jié)都需要實(shí)現(xiàn)個別化——其中最需要個別化的環(huán)節(jié),是學(xué)生在練習(xí)基本技能過程中的形成性正誤判別和糾正。生成式人工智能可依據(jù)人類提供的標(biāo)準(zhǔn),實(shí)現(xiàn)對可計(jì)算的技能表現(xiàn)結(jié)果的擬合度匹配和判別,并提供形成性評價(jià)與反饋。對此,可以挖掘生成式人工智能迅速而強(qiáng)大的“判別器”潛力,構(gòu)建部分實(shí)現(xiàn)教學(xué)助理功能的生成式教學(xué)助理數(shù)字孿生模式。在教育領(lǐng)域,可計(jì)算的技能表現(xiàn)包括人類的語言發(fā)音與拼寫、計(jì)算機(jī)代碼、基礎(chǔ)性藝術(shù)學(xué)習(xí)中的基本藝術(shù)作品等。利用生成式人工智能,可以實(shí)現(xiàn)教師自身無法承擔(dān)的、針對學(xué)生基本技能學(xué)習(xí)表現(xiàn)的一對一自動判別和個別化分析性反饋。2023年,哈佛大學(xué)采用ChatGPT支持其“計(jì)算機(jī)基礎(chǔ)”課程的編碼教學(xué)[16],但該前瞻性探索不能被夸大為“哈佛大學(xué)用ChatGPT取代教師教計(jì)算機(jī)編程”:ChatGPT僅被用于幫助有堅(jiān)實(shí)計(jì)算機(jī)知識技能基礎(chǔ)的大學(xué)生理解編程語句中的重點(diǎn)和難點(diǎn),通過對話方式判別和解釋學(xué)生在學(xué)習(xí)過程中出現(xiàn)的代碼錯誤,并提供改進(jìn)代碼編寫的建議等。

但是,開展基本技能訓(xùn)練的教學(xué)助理數(shù)字孿生模式還遠(yuǎn)遠(yuǎn)不能支持語言領(lǐng)域的綜合語言應(yīng)用能力和跨文化理解力、計(jì)算機(jī)領(lǐng)域的高級編程能力和計(jì)算思維、藝術(shù)領(lǐng)域的藝術(shù)想象力等高階能力的培養(yǎng)。另外,此模式對學(xué)生已有的知識技能基礎(chǔ)、自我監(jiān)控和調(diào)整學(xué)習(xí)進(jìn)展的元認(rèn)知能力和自我監(jiān)控能力都有較高的要求。因此,教學(xué)助理數(shù)字孿生模式更適合高校、中高等職業(yè)教育及成人學(xué)習(xí)者。

3 支持主體認(rèn)知和探究的內(nèi)容“增壓器”:從內(nèi)容富裕到探究富裕的研究助理模式

生成式人工智能支持下內(nèi)容生成過程的高度自動化和生成結(jié)果的難以判別性,將倒逼課程與評價(jià)目標(biāo)從“內(nèi)容富?!鞭D(zhuǎn)為“探究富?!?。生成式人工智能合成的內(nèi)容既無法被教師識別,也難以通過識別軟件判別。如果教學(xué)目標(biāo)局限于事實(shí)性知識的記憶且評價(jià)僅考察事實(shí)性知識的表達(dá),學(xué)生就極易通過技術(shù)合成的內(nèi)容應(yīng)付作業(yè)和評價(jià),導(dǎo)致生成式人工智能作弊的泛濫。

生成式人工智能在教學(xué)領(lǐng)域的潛在優(yōu)勢不是支持事實(shí)性知識的獲取,而在于為探究性學(xué)習(xí)提供人類信息加工能力所無法觸達(dá)的發(fā)散思維視角和文獻(xiàn)綜述廣度,并通過對內(nèi)容的濃縮綜述和對數(shù)據(jù)的“增壓”處理提升高水平思維和探究活動的效率。對此,可以挖掘基于生成式人工智能的探究性活動“增壓器”潛力,探索研究助理模式或研究性學(xué)習(xí)助理模式。一個成人開發(fā)者借助生成式人工智能對話支持自我定制天氣預(yù)報(bào)軟件開發(fā)的實(shí)例(詳見https://medium.com/@liorelgali),展示了生成式人工智能技術(shù)在創(chuàng)意激發(fā)、已有工具的綜述和優(yōu)缺點(diǎn)分析、專題研究、方案對比和功能取舍、自我思維局限挑戰(zhàn)等方面的探究性“增壓”價(jià)值。從科學(xué)發(fā)現(xiàn)的視域分析,人工智能基礎(chǔ)模型在數(shù)據(jù)搜集、挖掘、計(jì)算等方面的突破,為人類提供了繼觀察、實(shí)驗(yàn)、推理之后的第四類科學(xué)發(fā)現(xiàn)范式——“基于人工智能的科學(xué)發(fā)現(xiàn)”(AI for Science)[17],使生成式人工智能研究助理模式在嚴(yán)謹(jǐn)?shù)目茖W(xué)研究領(lǐng)域也有了巨大的應(yīng)用空間。

需要注意的是,研究助理模式中的探究動機(jī)不可能通過技術(shù)的供給自動觸發(fā),而必須由課程與評價(jià)目標(biāo)的調(diào)整和人類教師的教學(xué)設(shè)計(jì)激發(fā)引導(dǎo),并最終由學(xué)生自主自導(dǎo)。應(yīng)對生成式人工智能作弊風(fēng)險(xiǎn)的挑戰(zhàn),應(yīng)允許學(xué)生借助技術(shù)替代一定低水平的內(nèi)容處理,以從機(jī)械、重復(fù)中適度釋放無意義的時間消耗。同時,通過評價(jià)目標(biāo)調(diào)整和教學(xué)設(shè)計(jì),引導(dǎo)學(xué)生將“剩余學(xué)習(xí)時間”更多地用于探究性學(xué)習(xí)。此外,研究助理模式中的認(rèn)知過程也應(yīng)由人類主導(dǎo),設(shè)計(jì)師生與技術(shù)協(xié)作互動的探究活動,確保學(xué)習(xí)主體進(jìn)行了具身認(rèn)知與協(xié)作探究。尤其要注意發(fā)揮人類在有意義的問題界定、聚合思維、問題解決方法的頓悟等方面的優(yōu)勢,并與生成式人工智能的發(fā)散性內(nèi)容綜述和報(bào)告生成互補(bǔ),實(shí)現(xiàn)人機(jī)智力的相互增強(qiáng)。

五 結(jié)語

考證生成式人工智能的教育適用性,不能局限于從已有教育體系的固有教育目標(biāo)出發(fā)進(jìn)行單向論證。近七八年來,人工智能已展現(xiàn)出通過任務(wù)單元的自動化來替代已有工作崗位、創(chuàng)造新崗位、打破現(xiàn)有工作技能培養(yǎng)格局的顛覆能力。生成式人工智能對工作崗位的顛覆已始于文稿創(chuàng)作、圖像制作、音視頻加工等行業(yè)[18],但其對工作崗位及其技能預(yù)期的沖擊不會僅限于此。盡管生成式人工智能不應(yīng)撼動教育的基本心智能力培養(yǎng)、價(jià)值觀樹立等育人目標(biāo),但其對工作技能更新與課程教學(xué)目標(biāo)調(diào)適的即時沖擊和長遠(yuǎn)影響已成為各國需共同面對的基礎(chǔ)性課題。

生成式人工智能雖仍有較大的迭代創(chuàng)新空間,但現(xiàn)有的模型不理解語義和真實(shí)世界的技術(shù)局限會限制其變革教育的潛能,并模糊了教學(xué)過程中相對獨(dú)立地引導(dǎo)復(fù)雜知識建構(gòu)和問題解決的人際互動邊界。從“傳道、授業(yè)、解惑”的教育價(jià)值底線出發(fā),可將生成式人工智能技術(shù)的適用性概述如下:目前該技術(shù)具有較強(qiáng)的一對一“解惑”能力,但應(yīng)首先確保學(xué)生獨(dú)立聊天的年齡限制和平臺的價(jià)值觀去偏;經(jīng)由教育數(shù)據(jù)訓(xùn)練的基礎(chǔ)模型會獲得一定的個別化“授業(yè)”能力,但目前僅限于對學(xué)習(xí)結(jié)果表現(xiàn)具有可計(jì)算性的有限“學(xué)業(yè)”領(lǐng)域,這就需要警惕人工智能內(nèi)容輸出對學(xué)生內(nèi)部認(rèn)知過程的替代和惰化;在目前及可預(yù)見的未來,人工智能技術(shù)不但不具備“傳道”的育人適用性,而且在數(shù)字安全、價(jià)值觀誤導(dǎo)、學(xué)習(xí)過程反智等方面已顯現(xiàn)出反育人的威脅。對此,在討論生成式人工智能是否可以為教學(xué)育人的種種問題提供“新答案”之前,必須先辨析和防范其造成的“新問題”。

[1][10]Miao F C, Wayne H. Guidance for generative AI in education and research[M]. Paris: UNESCO, 2023:1-38.

[2]Dell’Acqua F. Navigating the jagged technological frontier: Field experimental evidence of the effects of AI on knowledge worker productivity and quality[OL].

[3]Bommasani R, Hudson D A, Adeli E, et al. On the opportunities and risks of foundation models[OL].

[4]Stanford University. Artificial intelligence index report[OL].

[5][6]Thompson A D. Contents of GPT-3 the pile v1[OL].

[7]Touvron H, Martin L, Stone K, et al. Llama 2: Open foundation and fine-tuned chat models[OL].

[8]苗逢春.數(shù)字文明變局中的教育數(shù)字化轉(zhuǎn)型[J].電化教育研究,2023,(2):47-63、91.

[9][13]中國網(wǎng)信網(wǎng).生成式人工智能服務(wù)管理暫行辦法[OL].

[11]Federal Trade Commission. Children’s online privacy protection act of 1998[OL].

[12]European Union. General data protection regulation[OL].

[14]David B A, Ansah L O. Education in the era of generative AI: Understanding the potential benefits of ChatGPT in promoting teaching and learning[J]. Journal of AI, 2023,(7):52-62.

[15]United Nations. A global digital compact: An open, free and secure digital future for All[R]. New York: UN, 2023:4.

[16]Coffey L. Harvard taps AI to help teach computer science course[OL].

[17]Wang H, Fu T, Du Y. et al. Scientific discovery in the age of artificial intelligence[J]. Nature, 2023,620:47-60.

[18]Frey C B, Osborne M. Generative AI and the future of work: A reappraisal[J]. Brown Journal of World Affairs, 2023:1-12.

Examination of the Technique Principle of Generative AI and Its Educational Applicability

MIAO Feng-chun1,2

The paper is the first edition of a series of interpretative articles on the Guidance for Generative Artificial Intelligence(GenAI) in education and research released by UNESCO, focusing on the tracking of the technique principle behind GenAI and the examination of its educational applicability. GenAI is a category of AI technology that can produce new content across symbolic representations used by human thinking, but its technological limitation of not being able to understand semantics of text will reduce its potential in transforming education. As foundation models, GenAI has triggered the upgrading of monopolized digital infrastructure and generated threats on digital security and it risks to project the linguistic and cultural bias held by western people whose data were used to train GPT models. The development of self-automatic GenAI models, especially EdGPT, is threshold for the secure and trustable use of GenAI in education. Based on the datasets generated by adults’ application of the Internet used to train GPT models, the chatbots-based service is not appropriate for independent use by children, and national regulatory agencies should set up the age restriction for children’s independent conversations with GenAI chatbots. From the perspective of provision of education content, the use of the service of generative content priced by tokens as main sources of education content is a paradox that is not supported by the original design of GenAI and the main aims of education. From the processes of learning and values fostering, an allegory of “automatic prefabricated content dishes” helps reveal that the unconscious use of outputs of GenAI risks of enfeeblement through reducing human agency in deconstructing content in order to construct knowledge and develop skills. The co-creation of inclusive curricular content, foundational learning, learners with special needs, and higher-order thinking as well as inquiry practices are the main contextual criteria to design human-agent and pedagogy-proper interactive use of GenAI in teaching and learning.

GenAI; ChatGPT; symbolic representations of human thinking; biases in values and linguistic biases; educational applicability; foundation model

G40-057

A

1009—8097(2023)11—0005—14

10.3969/j.issn.1009-8097.2023.11.001

苗逢春,北京師范大學(xué)研究員,聯(lián)合國教科文組織總部部門主任,研究方向?yàn)槿斯ぶ悄芘c教育、數(shù)字學(xué)習(xí)政策、未來數(shù)字學(xué)校,郵箱為f.miao@unesco.org。

2023年8月28日

編輯:小米

猜你喜歡
人工智能內(nèi)容模型
內(nèi)容回顧溫故知新
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
3D打印中的模型分割與打包
下一幕,人工智能!
主要內(nèi)容
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
轮台县| 隆化县| 车致| 浦城县| 朝阳区| 望都县| 上思县| 湾仔区| 岑巩县| 淮北市| 洪洞县| 南川市| 和静县| 屏南县| 秭归县| 焦作市| 潼南县| 肇庆市| 保靖县| 芒康县| 佛山市| 海盐县| 清丰县| 莱阳市| 枣阳市| 肇州县| 平陆县| 五华县| 阜城县| 鄱阳县| 武山县| 湖北省| 东乡| 临桂县| 多伦县| 凤阳县| 保山市| 玉龙| 河东区| 油尖旺区| 长沙市|