朱奕瑾, 饒高琦
(北京語言大學 國際中文教育研究院,北京 100083)
中文教學資源是指應用于中文教學各環(huán)節(jié)的各種教育資源,包括中文教材、教學視頻、課件、語音識別軟件、在線字典、語法練習軟件等。教學資源建設是當今國際中文教育事業(yè)發(fā)展和學科建設的重要內容,對事業(yè)的智慧化轉型和高質量發(fā)展起到關鍵作用。(1)馬箭飛,梁宇,吳應輝,等.國際中文教育教學資源建設70年:成就與展望[J].天津師范大學學報(社會科學版),2021,(6).然而,當前國際中文教育在教育資源,尤其是語料庫資源方面存在數(shù)據(jù)建設、開放服務等方面的困難。而ChatGPT為代表的大規(guī)模語言模型及其應用的出現(xiàn)無疑為國際中文教育在語料庫資源方面的探索提供了一種新的可能。
在實踐中,ChatGPT展現(xiàn)出了相較于小模型更突出的優(yōu)勢:1.語料生成流暢且內容準確。2.具備大規(guī)模文本生成能力。而當前國際中文教育資源建設中存在數(shù)據(jù)建設困難、大規(guī)模定制語料的技術能力不足等問題。針對這些問題,ChatGPT自然流暢的語料生成能力可以解決教育資源建設中的數(shù)據(jù)建設問題,同時ChatGPT具備的大規(guī)模文本生成能力可以結合提示工程(prompt-engineering)對語料進行定制和篩選,進一步提高中文教育資源的質量和效益。這些具體的優(yōu)勢背后則蘊含了更為深刻的變革。首先,ChatGPT等大模型應用的出現(xiàn)逐漸改變了知識的生成方式,知識生產(chǎn)方式逐步由“手動式”“半自動式”轉向“自動化”和“智能化”。(2)馮志偉,張燈柯,饒高琦.從圖靈測試到ChatGPT——人機對話的里程碑及啟示[J].語言戰(zhàn)略研究,2023,(2);鄭永和,丁雨楠,鄭一,等.ChatGPT類人工智能催生的多領域變革與挑戰(zhàn)(筆談)[J].天津師范大學學報(社會科學版),2023,(3).這一變化為國際中文教育數(shù)字化轉型帶來了機遇和挑戰(zhàn)。資源生產(chǎn)成了當前最重要的應用抓手之一。其次,在教學資源質量方面,一些地區(qū)的中文語用環(huán)境薄弱,同時缺乏中文文化體驗,難以提供全面的中文教育服務。生成式教育資源有助于改善局部教育資源不足的問題。此外,ChatGPT可以根據(jù)資源建設者的需求批量定制語料,以生成符合不同教學類型的資源,進一步提高教育資源的針對性。
基于此,本文嘗試基于大規(guī)模語言模型(以ChatGPT為例)建設國際中文教育領域的生成式文化例句庫,利用提示工程(prompt-engineering)進行例句篩選,并使用構建詞表的方式將當代共同價值標準融入教學例句庫中,從研究背景、例句庫建設方法、例句評價篩選和結論等方面對生成式文化教學例句庫進行闡述。
隨著大模型應用場景的不斷拓展,傳統(tǒng)語料庫的局限日趨明顯。為解決這一問題,本文提出了生成式語料庫概念。相較于傳統(tǒng)語料庫需要依賴人工采集真實數(shù)據(jù),生成式語料庫可以通過提示來調整語料內容,快速生成符合語言規(guī)范的句子。而當前的教學實踐中,語料庫在預習、課堂講授、教學評估的各個環(huán)節(jié)都發(fā)揮著重要作用。由于不同環(huán)節(jié)所需的語料庫內容各不相同,因此需要按需定制的語料庫來滿足教學需求。這與生成式語料庫的“按需定制,快速生成”的理念相契合,可以提高語料庫的效率和靈活度。在此基礎上,本文探索了生成式語料庫應用于教學的可行性,并期望為教育資源領域帶來更多的創(chuàng)新和變革。
生成式語料庫是一種基于ChatGPT為代表的大模型應用大規(guī)模語言模型的教學語料庫,其中例句來源于生成式語言模型,目的是讓學生通過這些例句能夠更好地學習和掌握自然語言的語法、詞匯、語義等方面的知識。傳統(tǒng)語料庫通常通過對自然語言文本采集、存儲、加工,憑借大規(guī)模語料庫提供的客觀語言事實。(3)荀恩東,饒高琦,肖曉悅,等.大數(shù)據(jù)背景下BCC語料庫的研制[Z].語料庫語言學,2016.與傳統(tǒng)語料庫的語料來源不同,在生成式語料庫的建設過程中,語言模型可以根據(jù)人工提示給定的條件和語境,生成符合語法和語義規(guī)則的自然語言句子。生成式語料庫與傳統(tǒng)在線語料庫相比在很多方面更有優(yōu)勢:
1. 精度方面,生成式語料庫是經(jīng)過特定的算法和技術生成的,可以更加準確地滿足用戶的需求。相比之下,傳統(tǒng)語料庫中可能會包含大量噪聲數(shù)據(jù)或與用戶需求不符合的內容。例如資源建設者可以通過在提示中舉例,引導語料庫批量生成符合規(guī)范的例句,而在傳統(tǒng)語料庫中篩選卻不一定能找出符合規(guī)范的例句。
2. 適用度方面,傳統(tǒng)語料庫的范圍通常是某一確定領域,例如“中文古典文獻庫”只適用于文學研究,具有局限性。而生成例句庫可以根據(jù)不同的需求和目的生成多樣化的句子,例如不同主題、語言風格等,具有更高的適用度。
3. 自然度方面,生成式語料庫可以通過提示工程控制生成句子的自然度,例如在句長、詞長、詞類和主要句法關系等方面進行控制。而傳統(tǒng)語料庫則難以控制生成句子的自然度,可能會產(chǎn)生語法、用詞不當?shù)葐栴}。除此之外,生成式語料庫還具有實時性,隨時可以根據(jù)需求生成自然流暢的句子。而傳統(tǒng)例句庫則需要大量的人力和時間進行拓展,效率相對低下且無法滿足用戶的需求。
4. 成本方面,生成式語料庫在道德標準評價和可擴展性上具備成本較低的特點。道德標準評價是生成式語料庫在應用中需要考慮的一個重要方面。目前已經(jīng)有研究人員嘗試通過特定的訓練方法和數(shù)據(jù)篩選等手段,使得ChatGPT生成的大部分文本更符合道德標準,這就在一定程度上減少了時間和人力成本。同時,生成式語料庫不需要大規(guī)模數(shù)據(jù)收集過程即可在已生成的例句基礎上進行擴展。例如,可以將“去+地點”這一結構擴展為“去北京/上海/香港”等內容。因此在成本方面,生成式語料庫大大優(yōu)于傳統(tǒng)語料庫。
5. 版權方面,ChatGPT生成的文本是通過自然語言處理算法自動生成的,避免了版權問題的出現(xiàn)。而傳統(tǒng)語料庫通常是從已有的文章、書籍等中抽取或者收集而來,這些文本往往存在版權問題。由此可見,與傳統(tǒng)語料庫相比,生成式語料庫的生成內容更加可信、可重復,不會引發(fā)版權糾紛和法律風險。
可以看到,雖然傳統(tǒng)語料庫可以在短期內獲得大量數(shù)據(jù),在規(guī)模方面存在短期優(yōu)勢,但生成式語料庫可以通過調整端口等方式彌補規(guī)模方面的不足。除此之外,生成式語料庫在自然度、精度、適用性和版權方面具有長期優(yōu)勢,并且在長期內更具有成本效益。
由于生成式語料庫在規(guī)模和精度等方面具備以上優(yōu)勢,本文選擇以大規(guī)模語言模型生成的方式建設一類典型的國際中文教育語料庫,即例句庫。本文中的例句庫具有以下特點:
首先,生成式語料庫具有動態(tài)性。由于生成式語料庫是由人工智能系統(tǒng)不斷學習和生成新的內容,從而具備不斷變化的數(shù)據(jù)庫。因此,它可以作為創(chuàng)建廣泛和多樣化例句集合的工具,可在各種語言學習和自然語言處理中應用。
其次,生成式語料庫具有穩(wěn)定性。由于大規(guī)模語言模型具有強大的魯棒性,使其能夠完成多種自然語言處理任務。雖然這些模型生成的例句具有一定的隨機性,但例句數(shù)據(jù)庫可以使用語言模型構建,并提供可靠的教學例句。
同時,生成式語料庫個性化特點利于打破“信息繭房”(4)信息繭房,是指通過算法推薦、個性化定制和篩選過濾等方式,使用戶只能看到和自己觀點相符合、能引起共鳴的信息,從而導致信息孤立、信息封閉和認知偏見等問題。。教師和學生可以根據(jù)自己的偏好和要求調整思維鏈的方向和內容。此外,提示工程對生成的例句具有重要影響,教師和學生都可以利用語言模型,并根據(jù)自身需求不斷更新例句庫,增強例句庫的個性化特點。
最后,生成式語料庫的操作便捷。信息素養(yǎng)尚處于起步階段的教育資源建設者也可根據(jù)自身需求建設符合教學需求的例句庫。
綜上,生成式語料庫具備動態(tài)和穩(wěn)定特性,結合其高度的個性化和強大的可操作性,可以使其成為語言學習和自然語言處理中極具應用價值的工具。在信息技術的賦能下,生成式語料庫更加貼合網(wǎng)絡教學環(huán)境,助力教師在線上教學中更新符合線上教學環(huán)境的教學方法。
例句庫是國際中文教育實踐中最重要的語料庫類型之一。近年來隨著相關研究的不斷深入,例句庫的規(guī)模和質量均取得了顯著提升。然而,長期以來,不論在辭書領域還是教學實踐中,例句的價值觀問題都沒有得到充分的重視。目前,多數(shù)通識性中國文化教材大多只涉及具體的文化表現(xiàn)形式,而中國優(yōu)秀文化中價值觀的內容卻體現(xiàn)較少。建立共同價值標準例句庫不僅可以滿足語言教學需求,還能減少跨文化教學中的文化沖突,使得學生能夠更好地理解其他文化,減少由于跨文化交際而產(chǎn)生的隔閡和誤解。
共同價值觀是人類社會目前普遍崇奉和接受的思想和觀念。由于共同價值觀凝結的是人性中的真善美情愫,因而其表現(xiàn)形式是普遍主義的。這些基本價值觀包括人權、自由、平等、正義、尊重、責任和公共利益等,被認為是所有人類社會的共同目標。
目前,與當代共同價值標準相關的文件有《聯(lián)合國世界人權宣言》《聯(lián)合國教科文組織世界宣言》和《聯(lián)合國可持續(xù)發(fā)展議程》等,旨在確立全球共同的人權標準和原則。其中,在《聯(lián)合國世界人權宣言》(1948年)中強調了人權是普世的、不可分割的和平等的,并明確規(guī)定了各種基本權利和自由的內容。(5)世界人權宣言(聯(lián)合國大會1948年12月10日通過)[J].人民論壇,1994,(11).同時,《聯(lián)合國可持續(xù)發(fā)展議程》(2015年)中從全球可持續(xù)發(fā)展的局勢上提出了要增強可持續(xù)發(fā)展的普遍性和平等性,呼吁各國采取行動保護地球,促進人類的發(fā)展和福祉。(6)陳迎.聯(lián)合國2015年后全球發(fā)展議程:從理念到實踐[J].當代世界,2015,(4).這些文件都體現(xiàn)了不同文化中自由、平等、博愛、民主、法治、人權等觀念的共同性。
綜上所述,當代共同價值標準的理論是涉及政治、倫理、社會學等多個領域,同時由于這一標準在全球范圍內的大部分地區(qū)都具有共識性,目前并沒有明確的文件規(guī)定符合共識價值標準的教育資源體系。由此可見,結合共識價值體系建構國際中文教育領域的例句庫資源尤為重要。
語言文化教學的目標與跨文化能力之間有著必然的關系。(7)祖曉梅.跨文化能力與文化教學的新目標[J].世界漢語教學,2003,(4).國際中文教學包含跨文化交際過程,更需要在教學內容方面探索不同文化之間價值觀的異同點。因此,針對共識價值觀的教學資源可以創(chuàng)新國際中文教育文化教學內容,增強學生對中國文化的共情,同時可以滿足教師文化教學的需求。
當前《國際中文教育用中國文化和國情教學參考框架》(以下簡稱《參考框架》)規(guī)范了國際中文教育領域的文化教學內容,使得文化教學符合“由淺入深、由具體到抽象、由零散到系統(tǒng)循環(huán)往復、螺旋上升的特點”(8)吳勇毅.文化的理解與分享——《國際中文教育用中國文化和國情教學參考框架》之要義[J].寧波大學學報(教育科學版),2023,(1).。然而,《參考框架》僅僅為文化教學提供了規(guī)范,教師可以在教學中對《參考框架》的使用進行適當調整。吳勇毅(2022)指出,教師可以根據(jù)教學對象、其語言水平、教學階段和教學環(huán)境對某個文化點的講授深淺與體驗方式進行適當?shù)耐卣够蜓由臁S纱丝梢?在《參考框架》的規(guī)范和引導下,教師可以結合自身的教學需求靈活調整教學內容。
綜上,共同價值標準例句庫可以填補深層文化教學資源的空白,在教學上為國際中文教師的文化點講授提供新思路,使得教師可以在教學過程中從不同文化的共性入手,更好地展示中國優(yōu)秀文化中的價值觀。
由于只有為模型提供準確的指令才能獲得理想的文本產(chǎn)出內容,因而需要設計清晰、具體的指令以指導模型的輸出?;谶@樣的認識,我們選擇了以ChatGPT為數(shù)據(jù)來源,采用人機交互方式建構生成式例句庫,并結合國際中文教育領域的例句特點,采用提示工程理論提高輸出文本的準確度和相關性。具體而言,在建構例句庫的過程中,首先通過人工標注生成了備選詞表,并利用詞表中符合共同價值標準的詞匯以人工篩選和人工智能生成兩種路徑建構例句庫。
根據(jù)國際中文教育例句庫的需求,本文對《國際中文教育水平等級大綱》(以下簡稱《等級標準》)進行標注,并生成符合共同價值標準的教學詞表。
《等級標準》是國際中文教育領域的一種標準化、規(guī)范化的等級標準體系,其中高等詞匯包括7~9級,共有5636個詞語。通過對《等級標準》的高等詞匯進行標注,從“主體、行為、狀態(tài)和屬性”四個方面篩選出符合共同價值標準的詞匯1014個。并將這些詞匯選定后進行標注,最終生成詞表,見表1。
表1 詞表示例
這一過程利用大規(guī)模語言模型,根據(jù)訓練數(shù)據(jù)中詞語的上下文語境和情感標簽判斷詞語的感情極性。在研究中發(fā)現(xiàn)人工智能在判斷以上詞語的情感傾向時的正確率為70%,因此需要在標注情感極性時進行人工篩選。人工篩選過程中,作者參考《臺灣大學中文情感極性詞典》從詞語的情感方面進行篩選。綜上,通過ChatGPT和人工標注共同生成了備選詞表。其中,詞表中共有正向詞1014個,負向詞740個,中性詞3882個。本文中的例句來源以正向詞為主,詞表中的負向詞和中性詞用于備選,需在提問時設計特別的框架進行引導。
作者參考了《商務館學漢語詞典》等國際中文教育領域常用的詞典和《漢語教程》等教材,結合已生成的詞表,從中總結出常見的詞性組合。在此基礎上,本文總結了兩種生成式例句庫建構路徑,即人工篩選為主以及人工智能生成為主。具體內容如下:
1. 人工篩選為主。在人工判定《等級標準》和詞典中的詞語后確定符合當代共識標準的詞表,教育資源生成者在統(tǒng)計國際中文教育領域經(jīng)典教材中的典型語法結構、常用情景以及詞性組合結構后利用詞表形成提示框架。例如選擇詞表中正向詞“榜樣”一詞,明確常見的詞性組合“名詞+動詞+名詞”,例句語法點為“是字句”,常見的場景為“中國校園”。將這些信息依次輸入,即可生成例句“她是我們班的榜樣?!边@樣生成的例句更為規(guī)范,但需要耗費較多的人力進行統(tǒng)計和篩選。
2. 人工智能生成為主。直接使用《等級標準》中的詞語對ChatGPT進行提問。教育資源生成者再通過設定提問框架對人工智能生成的例句進行篩選。例如可以提問“用案件一詞造句,要求句子是單句,句子長度在12~15個詞之間。所有句子要符合中國語言環(huán)境的具體場景,如果詞語負面,句子也要符合共同價值標準。”在這樣的標準下生成的句子即可符合大多數(shù)共同價值標準例句的要求。為提高例句的質量,生成后需要抽樣人工確認和調整。其中,抽樣確認工作的重點在于確保語料中的生詞沒有被遺漏并且符合共同價值標準,人工調整包括修改語料中不符合現(xiàn)代漢語語感的內容,最終形成適用于教學的高質量例句。
綜上,本文在設計提問模板時參考了兩種建構路徑,力圖在保證符合普遍場景前提下的例句更加規(guī)范,更符合教學需求。
由于當前語言模型生成文本具有不穩(wěn)定性,例句篩選在例句庫的建設過程中尤為關鍵。本文結合提示工程,建構了以ChatGPT和人工互動為核心的語料庫加工建設流程。該流程通過生成式例句庫的建設,結合國際中文教育領域中的例句設計原則,實現(xiàn)了對例句的篩選和優(yōu)化。為了進一步提高大模型在例句生成過程中的性能,本文采用思維鏈推導的原理,通過提示工程對例句進行篩選,最終生成了適用于教學的共同價值標準例句庫。
目前已有國際中文教育領域的教育資源建設者根據(jù)教學實踐在宏觀層面提出了例句的設計原則,具體內容如下:
1. 規(guī)范性原則。例句設計應考慮到例句中生詞的難度等級、句法結構和語義關系等。因此,設計例句時應充分考慮例句的規(guī)范性,使得學習者可以借助例句順利習得生詞。該例句庫在詞表生成中確定了生詞的難度等級,需要通過對句長、詞類和語法關系方面進一步篩選和控制,從而增強例句的規(guī)范性。
2. 實用性原則。張文華(2012)認為例句設計應該有實用性,注意例句中的文化背景因素,并且例句設計不應有消極暗示的感情因素。(9)張文華.對外漢語教學中的例句設計[J].文學界(理論版),2012,(10).本文建構的共同價值標準例句庫中的生詞符合共同價值標準,而文化背景方面需要進一步篩選。同時,王弘宇(2011)認為例句應兼顧表達和理解,符合外國人說出的原則。(10)王弘宇.建立教材例句庫的構想[J].世界漢語教學學會通訊,2011,(2).因此,在設計例句時,應選擇符合漢語的語言環(huán)境的例句,使例句滿足日常交際的需要。
3. 趣味性原則。為提高教學例句的可學性和趣味性,可從時事新聞和歌曲影視中進行例句篩選,從而提高學習者的學習興趣。
基于以上原則,本文認為,共同價值標準生成式例句庫的評價體現(xiàn)在以下兩個方面:一是例句在道德評價上符合當代共同價值標準,二是例句可以應用于國際中文教育領域的教學實踐。針對這兩個方面,為了讓所有的例句符合共同的價值標準,本文使用了生成詞表的方法,對詞語進行了價值標準評價。對于后者,本文總結了以下標準:
1. 語法關系方面。相關研究表明,由于學習者會受到句法結構和句子長度的交互作用的影響,(11)高思暢,王建勤.句法結構和句子長度對漢語學習者口語韻律組塊的影響[J].世界漢語教學,2020,(1).因此生成例句時應控制句子中的語法結構和例句長度,減少例句中的焦點,凸顯例句中生詞的語義特點,盡量做到語言形式和意義一一對應。結合以上理論,本文中的例句標準以單句為主,句子長度在12~15個詞左右。
2. 語用原則方面。例句應減少歧義,具有規(guī)范性,同時要包含豐富的社會環(huán)境,因此,本文中例句的渠道為正式書面語等,在保證例句社會性的同時保證其權威性和準確性,同時避免在例句中使用過于口語化或方言化的詞匯和表達方式。
3. 詞匯搭配方面。例句中應包含豐富的詞性搭配,同時詞性搭配要符合大多數(shù)漢語例句,應利用國際中文教育例句中常用的語法結構,例如“定中結構”“狀中結構”等,并以此為標準用思維鏈推導的方式對例句庫進行了篩選。
根據(jù)以上標準,運用思維鏈(chain-of-thought,CoT)推導的方式對教學例句進行篩選。
思維鏈(Chain of Thought,COT)是指人們在思考問題時所形成的思維流程或思維路徑。具體的提問指令是ChatGPT等大模型在應用過程中呈現(xiàn)出來的思維鏈表現(xiàn)形式。結合思維鏈的推導準則,確定準確的提問類型對文本生成具有重要作用。在大規(guī)模語言模型的應用中,思維鏈提示作為簡單而廣泛適用的方法可以增強語言模型的推理能力。(12)Jason Wei,Xuezhi Wang,Dale Schuurmans,et al.Chain-of-Thought Prompting Elicits Reasoning in Large Language Models[J/OL].2022:arXiv:2201.11903.https://arxiv.org/abs/2201.11903.前文提到的所有例句生成路徑都需要基于大規(guī)模語言模型進行思維鏈推導。因此,如何使用思維鏈推導的方式建構提示問句是教育資源建設中需要進一步探討的問題。本文結合例句庫的建設過程,根據(jù)提示工程已有理論和例句庫的評價標準的思維鏈推導原則:
首先,大規(guī)模語言模型的生成具有一定的隨機性。因此,應設計明確簡潔的指令,使其明白教育資源建設者的需求。具體包括“不要回答除了……以外的內容”“你的角色是……”,以及“你的任務是……”等。只有在提問過程中明確語言模型的角色、任務和回答范圍,才能更有效地獲得答案。
其次,當前的大規(guī)模語言模型在例句生成過程中存在容易失去句子焦點的情況,因此,在程序性指令的過程中應明確句子的焦點。具體方法有通過標點明確句子焦點,例如使用“”{ }等標點以及正則表達式(13)正則表達式是一種用來描述字符串規(guī)律的表達式,廣泛應用于文本處理和編程中。它可以通過一系列字符和特殊字符的組合來匹配符合特定模式的字符串。本文應用正則表達式匹配語料中的生詞,以確保生成過程中生詞沒有遺漏。、Markdown(14)Markdown是一種輕量級標記語言,常被用于快速排版和發(fā)布文檔,并廣泛應用于各種文檔處理場合。本文使用Markdown語言生成例句,旨在方便資源建設者直接從生成結果中提取例句。等明確的語法形式提高提問效率。
同時,明確例句具體的情景也可以提高例句的生成效率。在設計提問框架時可以明確例句出現(xiàn)的常見情景,例如“中國食堂、公園、博物館”等,可以使例句更符合日常交際,滿足例句的交際需求。
除了以上原則,確定合適的提示類型也可以提升提問效率。在提示工程領域,已有提示類型包括任務性提示、示例性提示、限定性提示、個性化提示和編程式提示等不同的提示方式。不同類型的提示會對生成的文本產(chǎn)生影響。
1. 個性化提示是指為模型提供特定角色,指導ChatGPT輸出和角色相關的內容。在提示過程中測試了“教育專家”“國際中文教育領域的專家”“中小學語文教育專家”等角色,由于以上這些角色生成的句子在語義上差別不大,因此在最終的提示框架中根據(jù)國際中文教育的教育目標選擇了“具備共同價值標準和跨文化交際能力的教育專家”這一角色。
2. 任務性提示是提示工程中一種常用的選項,用于指導ChatGPT通過為模型提供特定的任務輸出。例如在例句庫的建設中提示任務“請為我生成例句?!?/p>
3. 示例性提示是指在提示中提供特定的示例控制ChatGPT文本的生成。在例句庫的生成提示中,可以給出規(guī)范例句作為參考,以規(guī)范例句為標準進行提問,以提高提問效率。
4. 限定性提示是指在提示中為模型提供一組特定輸入,以此指導ChatGPT生成更可控、更可預測的文本。在提示語(prompt)應用中,多數(shù)傾向于使用英文編寫。本文在例句庫建設中嘗試了使用英文編寫限定性提示,但生成的例句大多不符合共同價值標準,同時不適合用于教學。例如“國際學生們經(jīng)常在中國食堂里喝酒?!币虼吮疚臎Q定選擇中文作為提示框架來引導生成的句子。
5. 編程式提示是指在提示中給定具體的語法指導模型生成文本。例如可以在建設例句庫時給定明確的語法,使得所有例句根據(jù)已有的搭配精準搭配生詞。
基于以上的提示原則和提示類型,本文對不同的提示進行了研究和調整。以下以“榜樣”一詞為例在不同的提示下生成了不同的例句。見表2.
表2 提示對比
綜上,本文提出了提問框架供教育資源建設者使用,這有助于大規(guī)模創(chuàng)建更有效和高效的例句數(shù)據(jù)庫。因此在和ChatGPT交互的過程中設計了如下指令,便于使用者利用ChatGPT精準高效地生成教學例句。具體內容如下:
“請你擔任具備共同價值標準和跨文化交際能力的教育專家。基于{“詞表”:{“詞語一”,“詞語二”}},按順序完成以下任務:
任務一:每個詞造一個句子。希望這些句子都是單句,句子長度在12~15個詞之間。所有句子要符合中國語言環(huán)境的具體場景,如果詞語負面,句子也要符合共同價值標準價值觀。
任務二:用正則表達式匹配任務一中的搭配,如“詞語一|詞語二”,用括號里的詞生成“現(xiàn)代漢語詞語搭配詞表”。詞語搭配來源可以是社交媒體、電影報刊或經(jīng)典文學作品,注意詞語搭配的語法結構要多樣,包括但不限于“定中結構、狀中結構”等,有一定的文化內涵。每個詞生成兩個語法搭配。只輸出兩個搭配,不要回答其他問題。
任務三:用任務二的搭配造句,用Markdown格式輸出,不要回答除了句子以外的內容。
本框架適用于國際中文教育領域一般性的例句生成。在這一提問框架下每個詞可獲得兩個例句供使用者選擇??蚣苤械摹霸~語一、詞語二”等可替換為《國際中文教育中文水平等級標準》中各個等級的詞語,同時資源建設者可在任務一中根據(jù)需求補充例句出現(xiàn)的情景,例如“所有句子要符合中國食堂的具體場景”,使例句更加滿足具體的教學需求。
結合以上研究,本文利用《等級標準》中的7~9級詞匯中符合共同價值標準的詞建設了小型例句庫,旨在以此個例句庫為例,嘗試探索生成式例句庫的建設方法。在前文提問框架的基礎上,本文使用人工篩選和人工智能生成的兩種生成路徑共生成了10432個句子,即為5216個生詞每個詞生成了兩個適用于國際中文教育的例句。
限于篇幅,本文對例句庫中前十個生詞生成的例句進行簡單展示,如表3:
表3 生成式例句示例
基于ChatGPT提出的生成式語料庫理念對國際中文教育例句庫的建設具有指導意義。本文選擇傳統(tǒng)教學例句庫中容易被忽視的例句價值觀問題,嘗試采用生成式理念快速建構符合共同價值觀標準的例句庫。實踐表明以大規(guī)模語言模型為基礎建設國際中文教學的生成式例句庫效果尚佳,且具有很高的可行性,希望以此為國際中文教育例句庫的建設提供有益的思考。
以提示工程理論為基礎建設生成式例句庫這一目標是個漫長的過程。目前本文提出的提問框架不足以應對所有例句的情景,還需要教育資源建設者根據(jù)自身的教學需求繼續(xù)改進提問框架。在例句的規(guī)范性上,目前ChatGPT生成的文本時常存在不符合現(xiàn)代漢語語感的問題,需要對生成句子進行進一步篩選和人工改寫。同時,本文的例句庫規(guī)模相對較小,例句范圍僅僅以共同價值為標準,例句種類不夠全面。未來會繼續(xù)探索生成式例句庫的可能性,以便更好解決國際中文教育領域教育資源不足的問題。