ChatGPT大語言模型中文寫作能力評價研究初探

2024-12-31 00:00:00祝南星周逸凡王正印高家紅李慶蓮

中學(xué)語文·教師版 2024年11期

關(guān)鍵詞：人工智能

摘要隨著人工智能在教育領(lǐng)域的應(yīng)用日益增多，特別是在以ChatGPT為代表的大模型時代，研究者不斷關(guān)注人工智能在中文寫作中的能力和表現(xiàn)。盡管普遍認為人工智能的語言處理能力不及人類，但這一觀點缺乏實證支持。為此，本研究選取人工智能生成的作文與人類學(xué)生作文作為樣本，邀請具有豐富高考閱卷經(jīng)驗的語文教師進行三輪評判，評估ChatGPT的中文寫作能力，并測試人類專家識別人工智能作文的能力。結(jié)果表明，ChatGPT的中文寫作水平相當(dāng)于人類學(xué)生中等偏上的水平，在內(nèi)容和表達上與人類學(xué)生無顯著差異，但發(fā)展評分略低于人類學(xué)生。同時，人工智能文本識別軟件的準確率達到0.88，顯著高于人類專家的識別能力。研究結(jié)果表明，正確引導(dǎo)ChatGPT等人工智能工具在語文教學(xué)中的應(yīng)用，有助于提升教學(xué)效率和學(xué)生的學(xué)習(xí)興趣。

關(guān)鍵詞 ChatGPT 人工智能智能識別中文寫作能力評價

一、引言

寫作是人類高層次思維活動的一種體現(xiàn)，而寫作教學(xué)的核心在于幫助學(xué)生科學(xué)地積累知識、負責(zé)任地陳述觀點，并通過個性化的方式表達思想。寫作能力對個人綜合發(fā)展具有重要意義，良好的寫作訓(xùn)練不僅能夠提升學(xué)生的溝通能力和邏輯思維，還能增強學(xué)習(xí)能力、拓寬文化認知、強化自我表達，并培養(yǎng)創(chuàng)造力。因此，寫作能力的培養(yǎng)一直是中小學(xué)語文教育中的重點，并最終客觀反映在高考作文得分上。

人工智能（Artificial Intelligence，AI）（以下簡稱“AI”）在教育領(lǐng)域的應(yīng)用正引起越來越多研究者的關(guān)注。其中，生成式預(yù)訓(xùn)練轉(zhuǎn)換器（Generative Pre-training Transformer，GPT）是由 OpenAI 訓(xùn)練的大型語言模型，通過海量文本數(shù)據(jù)的無監(jiān)督、半監(jiān)督或自監(jiān)督學(xué)習(xí)，掌握了廣泛的語言知識和能力[1]。ChatGPT是這一技術(shù)的具體應(yīng)用形式，它作為一種AI驅(qū)動的自然語言處理工具，已在教育、醫(yī)學(xué)和物理等多個領(lǐng)域展現(xiàn)出顯著的應(yīng)用潛力。

盡管研究者普遍認為AI在處理語言和文字的能力上不如人類，但這一觀點大多基于零散的個例，缺乏系統(tǒng)的研究支持。對于ChatGPT等大語言模型在中文寫作能力上究竟達到何種水平，以及人類專家能否準確識別出AI生成的作文，目前國內(nèi)外相關(guān)研究較少。因此，本研究以AI生成的作文和高考作文為樣本，邀請具有豐富高考閱卷經(jīng)驗的語文教師進行三輪評判，評估ChatGPT大語言模型的中文寫作能力，以及人類專家識別AI作文的能力，并深入探討AI在中文寫作教學(xué)中的利弊及其有效應(yīng)用途徑。

二、研究設(shè)計

1.研究對象選擇

本研究選取了30篇中文作文，其中7篇由ChatGPT 4.0生成，歸為AI作文組（實驗組）；其余23篇從《2022年全國各省高考優(yōu)秀作文報告》[2]中選取，均為得分高于40分的高考考場作文（二類文及以上），歸為高考作文組（對照組）。兩組作文均是2022年新高考Ⅰ卷作文題的回答，作文總分為60分，題目要求如下：

“本手、妙手、俗手”是圍棋的三個術(shù)語。本手是指合乎棋理的正規(guī)下法；妙手是指出人意料的精妙下法；俗手是指貌似合理，而從全局看通常會受損的下法。對于初學(xué)者而言，應(yīng)該從本手開始，本手的功夫扎實了，棋力才會提高。一些初學(xué)者熱衷于追求妙手，而忽視更為常用的本手。本手是基礎(chǔ)，妙手是創(chuàng)造。一般來說，對本手理解深刻，才可能出現(xiàn)妙手；否則，難免下出俗手，水平也不易提升。

以上材料對我們頗具啟示意義。請結(jié)合材料寫一篇文章，體現(xiàn)你的感悟與思考。

要求：選準角度，確定立意，明確文體，自擬標題；不要套作，不得抄襲；不得泄露個人信息；不少于 800 字。

（注明：ChatGPT 4.0生成的作文均基于與高考作文組相同的題目要求。）

2.研究過程

（1）評分

首先，將兩組作文混合后，使用隨機數(shù)生成器（版本號2.3.0）對作文進行隨機編號。隨后，邀請三位具有五年以上高考閱卷經(jīng)驗的語文教師，按照高考閱卷模式進行模擬評分。

首次評分時，教師在三十分鐘內(nèi)對每篇作文進行快速閱讀并給出整體評分，以比較兩組作文整體評分的差異。為減少實驗誤差的影響，經(jīng)過一周的間隔后，在確保教師基本消除之前評分印象的前提下，再次將兩組作文混合并重新隨機編號，邀請三位教師對作文進行精細閱讀。在九十分鐘內(nèi)，教師分別從內(nèi)容、表達和發(fā)展這三個方面對每篇作文進行評分，三項得分的總和作為該作文的整體評分，最終比較兩組作文在內(nèi)容、表達、發(fā)展以及整體評分上的差異。評分標準統(tǒng)一采用高考作文評分標準，且所有評分者在評分前均接受相關(guān)培訓(xùn)，以確保評分的一致性。

（2）比較

為比較三位教師在快速閱讀和精細閱讀兩種不同閱卷模式下整體評分的差異，本研究采用配對 t 檢驗的方法進行統(tǒng)計分析。

（3）判斷

在再次評閱中，邀請三位教師再次閱讀30篇作文，并根據(jù)他們的判斷將每篇作文標記為“非常不可能由AI生成”“不太可能由AI生成”“不清楚是否由AI生成”以及“可能由AI生成”四個等級。這四個等級分別對應(yīng)AI生成的可能性，具體為：小于10%、10%—45%、45%—90%和90%—98%。同時，研究者使用AI文本

識別軟件（https：//gpt.fengshengyusheng.cn/？bd_vid=

8142511219285234558）對30篇作文進行評分，評分指標包括文本隨機性和文本隨機變化幅度。文本隨機性用于評價文本內(nèi)容的隨機程度，得分越高，文本由AI生成的概率越低；文本隨機變化幅度用于評價文本內(nèi)容隨機性的變化程度，得分越高，文本由AI生成的概率越低。最后，采用受試者工作特征曲線（receiver operating characteristic curve， ROC）來評估人類專家和AI文本識別軟件在識別AI生成作文方面的能力。

（4）統(tǒng)計

數(shù)據(jù)分析使用EXCEL（2019版）和SPSS在線工具作為統(tǒng)計軟件。對于小樣本計量資料，采用百分位數(shù)表示，并使用中位數(shù)描述數(shù)據(jù)的集中趨勢。兩組樣本均數(shù)的比較采用非參數(shù)秩和檢驗中的Mann-Whitney U檢驗；對于同一計量資料的前后比較，使用配對t檢驗。通過受試者工作特征曲線（ROC）來評估人類專家和AI文本識別軟件在識別AI生成作文方面的能力。所有統(tǒng)計檢驗中，以P＜0.05作為判斷差異具有統(tǒng)計學(xué)意義的標準。

三、數(shù)據(jù)分析與研究結(jié)果

1.評分

30篇作文在快速閱讀和精細閱讀時的整體評分情況分別見表1和表2。AI作文組與高考作文組在快速閱讀和精細閱讀中的評分對比見表3。結(jié)果顯示，在快速閱讀和精細閱讀時，AI作文組與高考作文組的整體評分均無顯著差異（P＞0.05）。在精細閱讀中，AI作文組與高考作文組在內(nèi)容和表達方面的評分無顯著差異（P gt; 0.05），但在發(fā)展方面，AI作文組的評分顯著低于高考作文組（P＜0.05）。

2.比較

結(jié)果顯示，人類專家在快速閱讀和精細閱讀兩種模式下的整體評分無顯著差異（P gt; 0.05）。在快速閱讀時，高考作文組與AI作文組的整體評分相近，并無顯著差別（47分對46分）。然而，在精細閱讀時，高考作文組的整體評分中位數(shù)仍為47分，而AI作文組的中位數(shù)則從46分下降至45分。

3.判斷

在人類專家識別AI作文的測試中，有兩位專家選擇放棄識別，僅一位專家提供了有效數(shù)據(jù)。在AI文本識別軟件的測試中，設(shè)定隨機性得分小于27.5，以及隨機變化幅度得分小于9為識別AI作文的標準。ROC分析結(jié)果顯示，人類專家識別AI作文的AUC值為0.63，而AI文本識別軟件的AUC值為0.88，表明AI文本識別軟件在識別AI作文方面的能力顯著高于人類專家（P lt; 0.01）。

四、討論與建議

1.討論

（1）ChatGPT大語言模型中文寫作能力的評估與分析

ChatGPT大語言模型在寫作方面表現(xiàn)出較強的語言表達能力，能夠根據(jù)提供的信息和指導(dǎo)生成清晰、連貫且富有邏輯的文章，并且可以適應(yīng)不同的寫作風(fēng)格和主題。在本研究中，我們發(fā)現(xiàn)，ChatGPT的中文寫作能力整體上相當(dāng)于人類學(xué)生的中等偏上水平。在內(nèi)容和表達方面，AI生成的作文與人類學(xué)生的作文無顯著差異，但在發(fā)展能力上略低于人類學(xué)生。在滿分為60分的作文中，AI生成的作文有半數(shù)得分在45分以上，這表明其寫作能力已接近經(jīng)過12年訓(xùn)練的高中生水平?？紤]到大語言模型使用的語料庫遠遠超過人類所能接觸的內(nèi)容，當(dāng)參與同一場考試時，AI更像是在“開卷考”，而人類學(xué)生則是在“閉卷考”。因此，AI寫作水平超越多數(shù)高中生并不令人意外。

然而，AI在寫作方面仍存在一些局限性，例如缺乏真實的生活體驗，無法表達情感和個人觀點，思想深度不足，素材使用較為扁平，觀點呈現(xiàn)出套路化等。因此，雖然AI的寫作能力較為強大，但在當(dāng)前階段，其在發(fā)展能力方面仍低于人類學(xué)生，仍需要人類的審閱和修改才能達到更高水平?？偟膩碚f，ChatGPT的中文寫作能力與人類學(xué)生的中等偏上水平差別已非常細微，這種差別需要通過仔細閱讀才能識別[3]。

（2）人類專家與AI軟件在作文識別中的表現(xiàn)

研究結(jié)果顯示，AI文本識別軟件在識別AI作文方面的能力顯著高于人類專家。盡管人們通常認為AI生成的作文在語言表達、文采風(fēng)格、邏輯性、主題理解以及創(chuàng)造性等方面與人類學(xué)生的作文存在差異[4]，但在實際操作中，人類專家往往難以準確區(qū)分出來。

AI生成的文本通常表現(xiàn)出較高的重復(fù)性、標準化的流程，以及相對固定的規(guī)則，這些特點導(dǎo)致其文本隨機性和文本隨機變化幅度較低。因此在本研究中，GPT模型生成的文本雖然流暢，但由于缺乏多樣性和變化性，其隨機性得分偏低。此外，GPT生成的文本在風(fēng)格和語氣上保持一致，導(dǎo)致其隨機變化幅度得分也較低。通過結(jié)合文本隨機性和文本隨機變化幅度來識別AI作文，AI文本識別軟件的準確率達到了0.88。

然而，值得注意的是，使用AI軟件來識別AI作文存在一定的潛在風(fēng)險。因為在這種情況下，AI既充當(dāng)了“運動員”也充當(dāng)了“裁判員”，這可能影響識別結(jié)果的公正性和客觀性。

2.建議

（1）借助人工智能提升學(xué)生的中文寫作能力

在中文教學(xué)中，教師可以充分利用AI的寫作能力來輔助學(xué)生提高中文寫作水平。首先，AI可以展示不同題材和風(fēng)格的優(yōu)秀作文，提供范例供學(xué)生參考。同時，AI具備強大的語言分析能力，能夠評估學(xué)生的作文，并在語法、流暢性、邏輯性等方面提供詳細反饋。教師還可以利用AI生成練習(xí)題和寫作提示，幫助學(xué)生進行相應(yīng)的訓(xùn)練。對于不同難度或主題的作文，AI可以生成相關(guān)素材、觀點和論證結(jié)構(gòu)，激發(fā)學(xué)生的創(chuàng)作熱情，并為其提供指導(dǎo)。AI能夠模擬語文教師的角色，提供寫作指導(dǎo)和修改建議，通過分析學(xué)生作文中存在的問題，提出具體的改進方向和參考范文，以幫助學(xué)生在文采、結(jié)構(gòu)和語法等方面取得進步。

此外，AI還能根據(jù)每位學(xué)生的寫作水平和需求，提供個性化的輔導(dǎo)建議和學(xué)習(xí)計劃。通過分析學(xué)生在寫作中的常見誤區(qū)，AI可以為其提供自主學(xué)習(xí)的材料和任務(wù)，幫助他們有針對性地提升寫作能力。最后，AI還可以根據(jù)考試作文的要求和評分標準，為學(xué)生提供模擬考試的機會。學(xué)生可以通過向AI提交作文，獲得自動評估和分數(shù)，從而更好地理解并完成寫作任務(wù)。

（2）正視AI寫作的潛在危害

盡管AI在寫作方面展現(xiàn)出巨大的潛力，但也伴隨著一系列潛在危害，如侵犯版權(quán)、傳播虛假信息、加劇偏見與歧視、剝奪人類工作機會，以及缺乏道德判斷等問題。特別是像ChatGPT這樣的AI工具，可能助長抄襲和作弊行為，導(dǎo)致師生對其形成過度依賴，進而削弱批判性思維能力。更為嚴重的是，這種依賴可能讓學(xué)生質(zhì)疑學(xué)習(xí)寫作的真正意義。

圍繞是否應(yīng)在所有課堂、作業(yè)和評估中禁止使用AI工具，還是應(yīng)注重教授學(xué)生數(shù)字道德，并引導(dǎo)他們負責(zé)任且明智地使用AI工具，學(xué)界仍存在爭議[5][6][7]。因此，制定并遵守倫理準則，對AI的應(yīng)用進行監(jiān)管與審核，以及加強對公眾的教育，顯得尤為重要。對于教師而言，更需要注意的是如何引導(dǎo)學(xué)生正確使用AI，避免其對寫作能力培養(yǎng)產(chǎn)生不利影響。我們必須明確，AI只能作為輔助工具來提升學(xué)生的中文寫作能力，而不能替代他們的創(chuàng)作和思考過程。教師仍需提供有效的指導(dǎo)、反饋和互動，以確保學(xué)生發(fā)展獨立思考和創(chuàng)作的能力。

（3）推動人工智能時代教育教學(xué)模式的轉(zhuǎn)型

AI寫作展現(xiàn)出的能力，為應(yīng)試教育敲響了警鐘。AI對傳統(tǒng)教育模式的沖擊不僅要求我們在寫作教學(xué)中摒棄機械化、程序化的套路，同時也迫使教育理念本身發(fā)生轉(zhuǎn)變。當(dāng)下的教育應(yīng)更加注重創(chuàng)新性、想象力和思維深度的培養(yǎng)，這也是未來高考作文命題的發(fā)展趨勢。學(xué)生要寫好作文，關(guān)鍵在于多觀察、多思考、多練筆，注重寫作過程中思維的訓(xùn)練和積累，而非僅僅關(guān)注最終的結(jié)果。在這種背景下，將AI作為學(xué)習(xí)工具融入教育教學(xué)中，幫助學(xué)生掌握利用AI進行寫作的技巧，并鼓勵他們享受表達思想的過程，不僅能有效提高作文訓(xùn)練的效率，縮短訓(xùn)練時間，還能進一步提升作文的規(guī)范性和整體質(zhì)量。

在AI時代，教育目標正從單純的知識傳授和技能培養(yǎng)，逐步轉(zhuǎn)向適應(yīng)性學(xué)習(xí)。面對這一變革，教育行業(yè)必須承擔(dān)起培養(yǎng)學(xué)生批判性思維、問題分析和解決能力的責(zé)任。在這一過程中，ChatGPT等AI工具不僅是提升教學(xué)效率的利器，更應(yīng)成為激發(fā)學(xué)生學(xué)習(xí)熱情的重要手段。然而，我們必須時刻警惕并確保這些工具在應(yīng)用中發(fā)揮積極作用，避免它們削弱學(xué)生的獨立思考與寫作能力。在此背景下的語文教育，不僅要與AI同行，還要通過AI推動學(xué)生在知識與能力上的全面發(fā)展。只有這樣，我們才能有效應(yīng)對不斷變化的教育格局，確保教育質(zhì)量的持續(xù)提升。

參考文獻

[1]BISWAS S.ChatGPT and the future of medical writing[J].Radiology，2023，307（2）：223312.

[2]范立.課堂內(nèi)外創(chuàng)新作文：2022 年全國各省高考優(yōu)秀作文報告[M].重慶：課堂內(nèi)外雜志社，2022.

[3]ZIMMERMAN A. A ghostwriter for the masses： ChatGPT and the future of writing[J].Annals of surgical oncology，2023，30（6）：3170-3173.

[4]DESAIRE H， CHUA A E， Isom M， et al. Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools[J]. Cell Reports Physical Science， 2023，4（6）：101426.

[5]CULP JR W C. Artificial intelligence and ChatGPT： bane or boon for academic writing[J]. The Journal of Education in Perioperative Medicine： JEPM，2023，25（2）：E702.

[6]SHEN Y Q， HEACOCK L， ELIAS J， et al. ChatGPT and other large language models are double-edged swords[J].Radiology，2023，307（2）：230163.

[7]曾建華.人工智能與人文學(xué)術(shù)范式革命：來自 ChatGPT 的挑戰(zhàn)與啟示[J].北京師范大學(xué)學(xué)報（社會科學(xué)版），2023（4）：78-88.

[作者通聯(lián)：祝南星，南昌大學(xué)第二臨床醫(yī)學(xué)院；

周逸凡，湖南師范大學(xué)；

王正印，長沙市第一中學(xué)；

高家紅，長沙市周南中學(xué)；

李慶蓮，湖南株洲市南方中學(xué)]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

ChatGPT大語言模型中文寫作能力評價研究初探