摘要:大語言模型的出現(xiàn)對自然語言處理產(chǎn)生了廣泛的影響,已有研究表明大語言模型在各類下游任務(wù)中具有出色的Zero-shot 及Few-shot 能力,而對于大語言模型的語義分析能力的評估仍然比較缺乏。因此,本文基于漢語框架語義分析中的三個子任務(wù):框架識別、論元范圍識別和論元角色識別,分別在Zero-shot 及Few-shot 設(shè)定下評估了ChatGPT、Gemini 和ChatGLM三個大語言模型在CFN2.0 數(shù)據(jù)集上的語義分析能力,并與目前基于BERT(BidirectionalEncoder Representations from Transformers)的SOTA模型進(jìn)行了比較。在框架識別任務(wù)中,大語言模型的準(zhǔn)確率僅比SOTA模型低0.04;但在論元范圍識別與論元角色識別任務(wù)上,大語言模型表現(xiàn)不佳,與SOTA(Stateof the Art)模型相比,F(xiàn)1 分?jǐn)?shù)分別相差0.13 和0.39。以上結(jié)果表明,大語言模型雖具備一定的框架語義分析能力,但進(jìn)一步提升大語言模型的語義分析能力仍然是一個具有挑戰(zhàn)性的工作。
關(guān)鍵詞:大語言模型;框架識別;論元范圍識別;論元角色識別
中圖分類號:TP39 文獻(xiàn)標(biāo)志碼:A 文章編號:0253-2395(2024)05-1004-11
0 引言
大語言模型憑借其龐大的參數(shù)化知識和強(qiáng)大的推理能力,在自然語言理解與生成和復(fù)雜推理等任務(wù)上成效顯著,尤其是LLaMA[1-2]、ChatGLM[3]、GPT[4-6]等系列的新一代大語言模型的出現(xiàn),在關(guān)系抽?。?]、文本摘要[8]等各種自然語言處理任務(wù)中展現(xiàn)出令人矚目的效果。隨著相關(guān)研究的不斷深入,借助上下文學(xué)習(xí)、思維鏈等方法[9]進(jìn)一步提升了大語言模型在許多下游任務(wù)中的性能,對自然語言處理領(lǐng)域產(chǎn)生了巨大的影響。
探究大語言模型在各種下游任務(wù)上的能力邊界已成為一個熱點問題。Bang 等[10]聚合了覆蓋8 種不同自然語言處理任務(wù)的23 個數(shù)據(jù)集,對ChatGPT 在不同任務(wù)上的性能進(jìn)行了全面的評估。Bian 等[11]針對大語言模型所掌握的常識進(jìn)行了評估,發(fā)現(xiàn)ChatGPT 雖然擁有豐富的知識,但在解決問題的經(jīng)驗上存在欠缺。Gao 等[12]、Wei 等[13]、Li 等[14]均在信息抽取任務(wù)上評估了大語言模型的能力,結(jié)果表明大語言模型在多數(shù)情況下具有良好的真實性,但偶爾會出現(xiàn)過度自信的問題。Yuan 等[15]和EvEval[16]在事件抽取任務(wù)上評估了大語言模型的性能,其結(jié)論表明,盡管大語言模型對單一事件有所了解,但它們感知事件之間語義相似性的能力存在欠缺。Xie 等[17]對大語言模型的實體識別能力進(jìn)行了評估,并提出了包括句法分析在內(nèi)的四種不同策略來增強(qiáng)其命名實體識別能力,并證明了額外引入的句法分析結(jié)果對大模型命名實體識別能力具有增強(qiáng)作用。以上研究雖然在一定程度上探索了大語言模型在各種下游任務(wù)上的能力邊界,但缺少對大模型本身語義分析能力的評估,導(dǎo)致大語言模型所具備的語義理解能力尚不明確,這阻礙了大語言模型的進(jìn)一步研究與應(yīng)用,尤其是在中文上,由于訓(xùn)練語料相對英文較少,對其進(jìn)行全面評估更是非常有必要的。為此,本文基于框架語義分析任務(wù)[18],在Chinese FrameNet 2.0(CFN2.0)數(shù)據(jù)集上對目前主流支持中文的大語言模型進(jìn)行了一系列的評估,探究了大語言模型在語義分析任務(wù)上的能力邊界。
框架語義分析是以Fillmore 的框架語義學(xué)[19]為基礎(chǔ)的語義分析任務(wù),該任務(wù)旨在通過三個子任務(wù):框架識別、論元邊界識別和論元角色識別,從框架語義學(xué)的角度將句子解析為結(jié)構(gòu)化的表示形式[20-22]。具體而言,框架語義學(xué)使用語義框架來表示事件的語義場景,使用框架元素來表示參與這一事件的語義角色,這種結(jié)構(gòu)化形式更具表達(dá)力,對于閱讀理解[23-25]、文本摘要[26-27]、關(guān)系抽?。?8]和文本生成[29]等下游任務(wù)具有重要意義。如圖1 所示,在例句“他組織班級的同學(xué)明天參加由學(xué)院舉辦的學(xué)術(shù)研討會”中,目標(biāo)詞“組織”激活了“安排”框架?!八弊鳛槭﹦诱?,實施了安排的動作;“班級的同學(xué)”作為受益人,是被安排的對象;“明天”是事件發(fā)生的時間,“參加由學(xué)院舉辦的學(xué)術(shù)研討會”是安排進(jìn)行的具體事件。因此,整個句子的語義場景可以概括為:施動者安排受益人在特定時間進(jìn)行某一事件。我們可以將句子中的短語與框架元素相匹配,得到其結(jié)構(gòu)化表示。這種結(jié)構(gòu)化表示全面地刻畫了語義場景下的各個角色,對于語義理解具有重要作用[30-31]。此外,由圖1 中的示例可見,框架語義分析任務(wù)具有較細(xì)的粒度,需要從完整的句義中抽象出目標(biāo)詞所觸發(fā)的語義場景,并細(xì)致分析句子中各個短語的劃分、短語含義、短語之間的關(guān)系等,進(jìn)而分析出這一語義場景下與目標(biāo)詞相關(guān)的各種語義角色。這種較細(xì)的粒度使得框架語義分析具有更細(xì)致的表達(dá)能力,能夠更好地作用于下游任務(wù),但同樣也增強(qiáng)了漢語框架語義分析任務(wù)本身的難度。
以框架語義分析任務(wù)為背景,我們?yōu)榱烁玫卦u估大語言模型的語義分析能力,構(gòu)建了一系列不同的提示模板,在Zero-shot 和Fewshot兩種設(shè)置下,基于框架識別、論元范圍識別、論元角色識別三個框架語義分析的子任務(wù),對大語言模型的框架語義分析能力進(jìn)行了評估和測試,并對評估結(jié)果進(jìn)行了分析。結(jié)果表明,大語言模型在框架語義分析能力和提示信息利用能力上存在不足,即使是在思維鏈的引導(dǎo)下仍然難以激發(fā)出其框架語義分析能力。
1 任務(wù)定義
1.1 框架識別
框架識別(Frame Identification, FI)任務(wù)需要大語言模型為句子中的目標(biāo)詞匹配最適合的語義框架,其主要的挑戰(zhàn)是目標(biāo)詞通常是有歧義的,會激活多個語義框架,如圖1 中的“組織”在不同場景下可以激活“使結(jié)合”和“安排”等多個框架。該任務(wù)的定義為:給定一個句子S ={ w1,w2,…,wn },目標(biāo)詞wt ∈ S (1 ≤ t ≤ n ),要求通過目標(biāo)詞wt 在句子S 中的上下文來理解語義場景,并從給定的框架集合F ={ f1,f 2,…,f m } 中選擇出最恰當(dāng)?shù)目蚣躥t。該任務(wù)主要評估大語言模型對句子中目標(biāo)詞語義場景的理解和概括能力。在圖1 的實例中,框架識別任務(wù)需要在“使結(jié)合”“安排”等框架組成的集合中確定目標(biāo)詞“組織”在句子中所屬的框架為“安排”。
1.2 論元范圍識別
論元范圍識別(Argument Identification , AI)任務(wù)需要大語言模型從給定的句子S ={ w1,w2,…,wn } 中找出目標(biāo)詞wt ∈ S (1 ≤ t ≤n ) 所支配的全部論元at ∈ { a1,a2,…,ak },其主要挑戰(zhàn)在于論元的范圍較長,數(shù)量也不確定。該任務(wù)能夠評估大語言模型分析并尋找句子中與目標(biāo)詞在語義上相關(guān)的片段的能力。如圖1 所示,論元范圍識別任務(wù)需要在句子中找出目標(biāo)詞“ 組織”所支配的所有論元:“ 他”“ 班級的同學(xué)”“ 明天”“ 參加由學(xué)院舉辦的學(xué)術(shù)研討會”。
1.3 論元角色識別
論元角色識別(Role Identification, RI)任務(wù)需要大語言模型將目標(biāo)詞所支配的全部論元與目標(biāo)詞所屬框架的框架元素進(jìn)行匹配,確定每個論元在其所屬框架中對應(yīng)的語義角色,主要的挑戰(zhàn)在于角色數(shù)量多,框架語義知識庫中的角色數(shù)量上千,其分類難度較高。該任務(wù)的定義為:給定一個句子S = { w1,w2,…,wn },已知其中的目標(biāo)詞wt ∈ S (1 ≤ t ≤ n ) 及其所激活的框架ft 和目標(biāo)詞在句子中所支配的全部論元at ∈ { a1,a2,…,ak },該任務(wù)需要大語言模型將這些論元映射到框架ft 具有的框架元素Rf ={ r1,r 2,…,r k } 中。該任務(wù)是框架語義分析任務(wù)的最終步驟,需要大語言模型對目標(biāo)詞語義場景中所有參與者的具體角色進(jìn)行分析,完整解析出目標(biāo)詞在句子中的框架語義信息。如圖1所示,論元角色識別任務(wù)需要在句子中找出目標(biāo)詞“組織”所支配的所有論元,并將這些論元分別映射到“ 安排”框架下的“ 施動者”“ 受益人”“時間”和“事件”角色。
2 實驗
2.1 實驗設(shè)定
2.1.1 數(shù)據(jù)集
我們使用CFN2.0 數(shù)據(jù)集[18]來評估大語言模型的框架語義分析能力。該數(shù)據(jù)集來源于山西大學(xué)中文信息處理團(tuán)隊,其測試集包含4 000 個例句,覆蓋了432 個不同的框架、711 種不同的框架元素。但受限于調(diào)用大語言模型的成本,我們從中隨機(jī)采樣了50 個不同的框架,并為這50 個框架各隨機(jī)采樣了2 個例句,形成了包含100 個例句、覆蓋50 個框架的數(shù)據(jù)集。
2.1.2 實驗方案
我們的實驗主要針對Zero-shot 和Few-shot兩種不同場景設(shè)定,采用的提示模板結(jié)構(gòu)如圖2 所示。在Zero-shot 場景下,我們在提示模板中不提供任何帶有答案的信息,僅說明任務(wù)需求,要求大語言模型解決框架語義分析的相關(guān)問題。這樣的場景設(shè)定主要評估大語言模型自身是否具有框架語義的相關(guān)知識,并分析其能否利用相關(guān)知識解決框架語義分析的相關(guān)問題。而在Few-shot 場景下,我們在提示模板中引入了少量帶有正確答案的示例樣本,并要求大語言模型按照模板中提供的示例格式進(jìn)行輸出。這使得大語言模型能夠通過給定樣例中攜帶的正確答案更好地理解任務(wù)需求,從而評估大語言模型能否有效利用自身的上下文學(xué)習(xí)能力從少量的示例信息學(xué)習(xí)相關(guān)知識來提升其框架語義分析能力。此外,受到Wang 等[32]的啟發(fā),我們注意到當(dāng)同一目標(biāo)詞在句子中出現(xiàn)多次時,若不顯式地標(biāo)記出句子中的目標(biāo)詞,則大語言模型將無法確定需要進(jìn)行框架語義分析的目標(biāo)詞的具體位置。因此,我們設(shè)計了不同的提示方法,在句子中使用“ $ ”符號作為位置提示來標(biāo)出目標(biāo)詞,評估大語言模型在引入目標(biāo)詞位置信息前后的框架語義分析任務(wù)性能差異。此外,我們也設(shè)計了基于思維鏈的提示模板,評估大語言模型在引入思維鏈前后的框架語義分析能力變化。
2.2 評價指標(biāo)
根據(jù)上述三項框架語義分析任務(wù)的不同特點,我們使用了不同的評價指標(biāo)來評估解析結(jié)果。
對于框架識別任務(wù),我們將正確率AccFI 作為評價指標(biāo)。其定義為:給定ntotal 個句子和一個候選框架集合F′ = { f1,f2,…,f m },使用大語言模型為每一個句子中的目標(biāo)詞在F′ 中選擇一個框架,將選擇正確的句子數(shù)量記為ncorrect,則框架識別任務(wù)的AccFI 定義如下:
AccFI =ncorrect/ntotal。(1)
對于論元范圍識別任務(wù),我們統(tǒng)計每一個預(yù)測結(jié)果與所有真實標(biāo)簽的最大重合字?jǐn)?shù),并計算F1 作為評價指標(biāo)。具體來說,給定一組句子及其所包含的所有真實論元agold ={ ag1,ag2,…,agm },將模型預(yù)測出的所有論元記作apred = { ap1,ap2,…,apn },則論元范圍識別任務(wù)的F1AI 計算如下:
對于論元角色識別任務(wù),我們同樣計算F1值作為評價指標(biāo)。與論元范圍識別任務(wù)不同的是,論元角色識別任務(wù)的評估只有在論元邊界和論元角色均與標(biāo)簽完全一致的情況下才被認(rèn)為是正確的。具體來說,給定一組句子及其所包含的所有真實論元agold = { ag1,ag2,…,agm } 和對應(yīng)的角色rgold = { rg1,r g2,…,r gm },將模型預(yù)測出的所有論元記作apred = { ap1,ap2,…,apn },預(yù)測出的對應(yīng)角色記作rpred = { rp1,rp2,…,rpn },完全正確的預(yù)測結(jié)果數(shù)量記為kcorrect,則論元角色識別任務(wù)的F1RI 計算如下:
2.3 實驗結(jié)果
2.3.1 使用基礎(chǔ)提示模板的實驗結(jié)果
我們在上述實驗設(shè)置下對多個大語言模型進(jìn)行了評估,包括ChatGPT-3.5[33] 、Gemini-Pro[34]以及ChatGLM2-6B[3]。ChatGPT-3.5 是由OpenAI 于2022 年推出的商用大語言模型,通過大量語料進(jìn)行訓(xùn)練,并通過監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行微調(diào),使其能夠理解和生成自然語言,在自然語言處理領(lǐng)域的各項任務(wù)中展現(xiàn)出了較好的性能。Gemini 系列商用大語言模型由Google 于2023 年推出,同樣在各項自然語言處理領(lǐng)域的任務(wù)上具有出眾的效果,其特點在于原生具備對多模態(tài)的支持,根據(jù)模型規(guī)模大小分為Nano、Pro 和Ultra 版本,本文采用的Gemi?ni-Pro 是中等規(guī)模的版本。而ChatGLM2 則是由清華大學(xué)于2023 年推出的開源大語言模型,其參數(shù)量僅為6 B,規(guī)模遠(yuǎn)小于ChatGPT-3.5 和Gemini-Pro,但同樣在自然語言處理領(lǐng)域的通用任務(wù)上具有不俗的表現(xiàn),且具有便于部署的特點。作為對比的SOTA(State of the Art)模型[35]均為以BERT(Bidirectional Encoder Representa?tions from Transformers)[36]為基礎(chǔ)進(jìn)行微調(diào)后的模型,該方法使用旋轉(zhuǎn)矩陣對絕對位置進(jìn)行編碼,同時將顯式的相對位置依賴性納入自注意公式中,在框架識別等任務(wù)中達(dá)到了SOTA。主要實驗結(jié)果見表1(Zero-shot 場景)和表2(Few-shot 場景)。表中加粗表示最高的分?jǐn)?shù),下劃線表示第二高的分?jǐn)?shù)。
由表1 與表2 中的主要實驗結(jié)果可見,大語言模型在Few-shot 場景下的框架語義分析能力要顯著優(yōu)于Zero-shot 場景,這表明大語言模型具備的上下文學(xué)習(xí)能力在框架語義分析任務(wù)中能夠發(fā)揮積極作用,使其能夠根據(jù)提示樣例更好地理解任務(wù)需求。然而,無論是在Zero-shot還是Few-shot 場景下,大語言模型在框架語義分析任務(wù)中的表現(xiàn)與傳統(tǒng)模型相比仍存在一定的差異,特別是隨著任務(wù)粒度的細(xì)化,大語言模型的表現(xiàn)下滑明顯。特別的,即使是本次評估中性能最佳的Gemini,也僅在框架識別任務(wù)上達(dá)到了與SOTA 模型相近的性能,而在粒度較細(xì)的論元范圍識別和論元角色識別任務(wù)上,其性能與SOTA 模型的性能差異逐漸加大??傮w而言,我們的評估結(jié)果表明現(xiàn)階段的大語言模型具備了一定的框架語義分析能力,但是并不能很好地理解粒度較細(xì)的語義信息,因此其在框架語義分析任務(wù)上仍存在一定不足。
2.3.2 引入目標(biāo)詞位置信息的實驗結(jié)果
為了分析目標(biāo)詞位置信息對大模型框架語義分析能力的影響,我們設(shè)計實驗對比了在提示信息中引入目標(biāo)詞的位置信息對各項評估任務(wù)性能的影響。在兩種少樣本場景下,不同目標(biāo)詞位置信息設(shè)定的實驗結(jié)果如表3(Zero-shot場景)和表4(Few-shot 場景)所示。
實驗結(jié)果表明,即使是細(xì)微的位置信息的變動也會給其解析能力帶來較為顯著的擾動,且這種擾動是難以預(yù)知的,由此可見大語言模型在框架語義分析任務(wù)上對提示信息的利用是不穩(wěn)定的。
2.3.3 引入思維鏈的實驗結(jié)果
此外,為分析思維鏈對大語言模型框架語義分析任務(wù)的影響,我們分別使用傳統(tǒng)提示構(gòu)建方法以及基于思維鏈的構(gòu)建方法來構(gòu)建提示模板。在不同的提示模板構(gòu)建方法上得到的實驗結(jié)果見表5(Zero-shot 場景)和表6(Few-shot 場景)。
由實驗結(jié)果可見,即使使用思維鏈引導(dǎo),也并不能穩(wěn)定地激發(fā)出大語言模型的框架語義分析能力,且對于一些參數(shù)量較小的模型(如ChatGLM2),甚至?xí)苯訉?dǎo)致輸出內(nèi)容不可控,這也體現(xiàn)了大語言模型在框架語義分析能力上的不足。
2.3.4 不同溫度系數(shù)下的實驗結(jié)果
除提示模板外,由于大語言模型自身生成時具有一定的隨機(jī)性,且這一隨機(jī)性與溫度系數(shù)呈正相關(guān),在不同的溫度系數(shù)下其輸出結(jié)果存在很大的差異。因此我們分析了這一隨機(jī)性對其框架語義分析能力的影響。對于每一個任務(wù)的不同模板設(shè)定,我們均分別測試了大語言模型在T = 0.1,0.3,0.5,1.0 四種不同溫度系數(shù)下的表現(xiàn),并統(tǒng)計了其在不同的溫度系數(shù)下取得最好成績的次數(shù),實驗結(jié)果如圖3 所示。
結(jié)果表明,大語言模型更偏向于在較低的溫度系數(shù)下完成框架語義分析任務(wù),且僅有極少數(shù)的實驗在溫度系數(shù)為1.0 時取得了最好的效果。具體而言,在Few-shot 場景下,溫度系數(shù)為0.5 時有最多的實驗達(dá)到了最好效果,而在Zero-shot 場景下時這一數(shù)值為0.1。我們認(rèn)為,在Zero-shot 場景下,較大的溫度系數(shù)導(dǎo)致模型隨機(jī)性過高,在沒有充足示例的情況下導(dǎo)致輸出偏離了任務(wù)本身;而由于Few-shot 場景下的輸入中含有示例,因此在相對較高的溫度系數(shù)下其輸出仍然可控,且相對較高的溫度系數(shù)更好地激發(fā)出大語言模型的表達(dá)能力。由此可見,溫度系數(shù)的改變同樣對大語言模型的框架語義解析能力具有非常顯著的影響。
3 分析與討論
3.1 語義消歧能力分析
我們通過上述大量實驗結(jié)果可以看出,大語言模型并不能很好地完成框架語義分析任務(wù),其性能與傳統(tǒng)模型相比仍有較大差距。一方面,框架語義分析需要具有一定的框架語義專業(yè)知識,而大語言模型雖然經(jīng)過了海量文本數(shù)據(jù)的訓(xùn)練,但這些數(shù)據(jù)中包含的框架語義專業(yè)知識的數(shù)量、質(zhì)量是難以確定的,這會嚴(yán)重影響大語言模型對框架語義信息的理解和處理。另一方面,框架語義分析任務(wù)粒度較細(xì),其中包含了許多細(xì)致、嚴(yán)謹(jǐn)?shù)亩x,且不同定義之間的差異可能是非常細(xì)微的。如圖4 所示,“ 供應(yīng)”與“提供”兩個框架均表示轉(zhuǎn)移體在兩者之間轉(zhuǎn)移的場景,其定義上的區(qū)分僅在于更強(qiáng)調(diào)“ 提供者”的“提供意愿”還是“接收者”的“接受意愿”,而這種區(qū)分是非常細(xì)致的。這使得漢語框架語義能夠更細(xì)致地刻畫語義場景,但對于大語言模型而言則極大地增強(qiáng)了其進(jìn)行框架語義分析的難度。大語言模型雖然擅長對輸入的上下文進(jìn)行處理,但它們在理解詞語和概念之間的復(fù)雜關(guān)系和識別歧義能力方面存在局限性。
3. 2 論元邊界識別能力分析
本節(jié)以論元范圍識別任務(wù)為例,對大模型的論元邊界識別能力進(jìn)行樣例分析,重點關(guān)注了目標(biāo)詞位置信息的影響。圖5 為論元范圍識別任務(wù)中表現(xiàn)最好的Gemini 模型在不同位置信息提示設(shè)定下的識別結(jié)果樣例。在例句中,目標(biāo)詞“豐富”出現(xiàn)了兩次,因此在沒有明確指定目標(biāo)詞位置信息的情況下,大語言模型會受到無關(guān)詞語的影響而誤判或遺漏論元,而在提示中加入位置信息則緩解了這一問題。特別地,正如示例中所示,我們在Zero-shot 場景下的絕大多數(shù)實驗中引入位置信息都達(dá)到了相對更好的效果,但在Few-shot 場景中卻相反。這是由于在Zero-shot場景中不存在提示樣例,導(dǎo)致大語言模型對任務(wù)需求的理解有限,而額外引入的位置信息提示作為任務(wù)需求的補(bǔ)充,對于大語言模型更好地理解任務(wù)具有積極作用,進(jìn)而使其能夠更準(zhǔn)確地進(jìn)行推理;而Few-shot 場景下的提示樣例已經(jīng)能夠清晰地描述任務(wù)所需的輸入和輸出,此時引入的位置信息可能會被大語言模型理解為噪音,對其推理過程造成干擾。
3.3 論元角色識別能力分析
本節(jié)以論元角色識別任務(wù)為例,對大語言模型的論元角色識別能力進(jìn)行樣例分析,并重點關(guān)注了思維鏈推理對其的影響。如圖6 所示,參數(shù)量較小的ChatGLM2 在該任務(wù)上產(chǎn)生了完全不可控的輸出,無論是否使用思維鏈進(jìn)行引導(dǎo),均出現(xiàn)了F1 值為0 的情況,即其輸出內(nèi)容完全錯誤。由此可見,一些大語言模型在語義論元識別能力上仍存在欠缺,雖然其能夠理解上下文內(nèi)容的語義,但是在分析和分辨句子中不同片段所充當(dāng)?shù)恼Z義角色時,其難以分辨這些粒度較細(xì)的語義信息,即使在思維鏈的引導(dǎo)下其表現(xiàn)仍然不佳。我們認(rèn)為這是由于論元角色識別任務(wù)更傾向于考驗大模型對語義的理解能力,但思維鏈通常用于強(qiáng)化大語言模型的推理能力,而這種推理能力并不能很好地作用于語義理解能力的增強(qiáng)。此外,思維鏈的引入在一定程度上增加了模型需要理解和生成的上下文長度,這也使得一些參數(shù)量較小的模型在輸出中出現(xiàn)不可控的情況。
4 結(jié)論
盡管大語言模型在許多自然語言處理領(lǐng)域的任務(wù)上取得了令人印象深刻的效果,但經(jīng)過我們的評估,與傳統(tǒng)模型相比,大語言模型在框架語義分析任務(wù)上仍存在不足。這種不足主要體現(xiàn)在:(1)語義分析任務(wù)上解析能力嚴(yán)重不足;(2)無法穩(wěn)定利用額外提示信息提升解決此類問題的能力;(3)在思維鏈的引導(dǎo)下仍然難以激發(fā)出其框架語義分析能力。此外,我們也通過實驗發(fā)現(xiàn)了大語言模型溫度系數(shù)設(shè)定對其框架語義分析能力的影響,并分析了溫度系數(shù)設(shè)定與示例樣本量之間存在的關(guān)聯(lián)。這些評估結(jié)果為我們今后的研究提供了新的方向,一方面,我們將在今后的工作中有針對性地改進(jìn)大語言模型存在的問題,使其能夠在框架語義分析任務(wù)中展現(xiàn)出更具競爭力的表現(xiàn);另一方面,現(xiàn)階段大語言模型的不足表明我們繼續(xù)基于傳統(tǒng)模型來解決框架語義分析任務(wù)仍然是非常有意義的。
參考文獻(xiàn):
[1] TOUVRON H, LAVRIL T, IZACARD G, et al. LLaMA:Open and Efficient Foundation Language Models[EB/OL]. arXiv Preprint: 2302.13971, 2023. https://arxiv.org/abs/2302.13971.
[2] TOUVRON H, MARTIN L, STONE K, et al. Llama 2:Open Foundation and Fine-Tuned Chat Models[EB/OL].arXiv Preprint: 2307.09288, 2023. https://arxiv. org/abs/2307.09288.
[3] DU Z, QIAN Y, LIU X, et al. GLM: General LanguageModel Pretraining with Autoregressive Blank Infilling[C]//Proceedings of the 60th Annual Meeting of the Asso‐ciation for Computational Linguistics (Volume 1: LongPapers). Stroudsbarg, PA: ACL, 2022: 320-335. DOI:10.18653/v1/2022.acl-long.26.
[4] RADFORD A, NARASIMHAN K, SALIMANS T, et al.Improving Language Understanding by Generative Pre-Training[EB/OL]. (2018-06-09) [2024-02-15]. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf.
[5] RADFORD A, WU J, CHILD R, et al. Language Modelsare Unsupervised Multitask Learners[EB/OL]. (2019-02-15) [2024-03-10]. https://cdn. openai. com/better-language-models/language_models_are_unsupervised_mul ‐titask_learners.pdf.
[6] BROWN T, MANN B, RYDER N, et al. Language Modelsare Few-Shot Learners[J]. Adv Neural Inform ProcessSyst, 2020, 33: 1877-1901.
[7] WADHWA S, AMIR S, WALLACE B C. Revisiting RelationExtraction in the era of Large Language Models[C]//Proceedings of the 61st Annual Meeting of the Associationfor Computational Linguistics (Volume 1: LongPapers), Stroudsburg, PA: ACL, 2023: 15566-15589.DOI: 10.18653/v1/2023.acl-long.868.
[8] LUO Z, XIE Q, ANANIADOU S. ChatGPT as a FactualInconsistency Evaluator for Text Summarization[EB/OL]. arXiv Preprint: 2303.15621, 2023. https://arxiv.org/abs/2303.15621.
[9] WEI J, WANG X, SCHUURMANS D, et al. Chain-of-Thought Prompting Elicits Reasoning in Large LanguageModels[J]. Adv Neural Inform Process Syst, 2022, 35:24824-24837.
[10] BANG Y, CAHYAWIJAYA S, LEE N, et al. A Multitask,Multilingual, Multimodal Evaluation of ChatGPTon Reasoning, Hallucination, and Interactivity[C]//Proceedingsof the 13th International Joint Conference onNatural Language Processing and the 3rd Conference ofthe Asia-Pacific Chapter of the Association for ComputationalLinguistics (Volume 1: Long Papers). Romania:AACL, 2023: 675-718. DOI: 10.18653/v1/2023. ijcnlpmain.45.
[11] BIAN N, HAN X, SUN L, et al. ChatGPT is a Knowledgeablebut Inexperienced Solver: An Investigation ofCommonsense Problem in Large Language Models[EB/OL]. arXiv Preprint: 2303.16421, 2024. https://arxiv.org/abs/2303.16421.
[12] GAO J, ZHAO H, YU C, et al. Exploring the Feasibilityof ChatGPT for Event Extraction[EB/OL]. arXivPreprint: 2303.03836, 2023. https://arxiv. org/abs/2303.03836.
[13] WEI X, CUI X, CHENG N, et al. Zero-Shot InformationExtraction via Chatting with ChatGPT[EB/OL].arXiv Preprint: 2302.10205, 2023. https://arxiv.org/abs/2302.10205.
[14] LI B, FANG G, YANG Y, et al. Evaluating ChatGPT'sInformation Extraction Capabilities: An Assessment ofPerformance, Explainability, Calibration, and Faithfulness[EB/OL]. arXiv Preprint: 2304.11633, 2023. https://arxiv.org/abs/2304.11633.
[15] YUAN C, XIE Q, ANANIADOU S. Zero-shot TemporalRelation Extraction with ChatGPT[C]//The 22ndWorkshop on Biomedical Natural Language Processingand BioNLP Shared Tasks. Stroudsbarg, PA: ACL,2023: 92-102. DOI: 10.18653/v1/2023.bionlp-1.7.
[16] TAO Z, JIN Z, BAI X, et al. EvEval: A ComprehensiveEvaluation of Event Semantics for Large LanguageModels[EB/OL]. arXiv Preprint: 2305.15268, 2023.https://arxiv.org/abs/2305.15268.
[17] XIE T, LI Q, ZHANG J, et al. Empirical Study of Zero-Shot NER with ChatGPT[C]//Proceedings of the 2023Conference on Empirical Methods in Natural LanguageProcessing. Stroudsbarg, PA: ACL, 2023: 7935-7956.DOI: 10.18653/v1/2023.emnlp-main.493.
[18] LI J, YAN Z, SU X, et al. Overview of CCL23-EvalTask 3: Chinese FrameNet Semantic Parsing[C]//Proceedingsof the 22nd Chinese National Conference onComputational Linguistics (Volume 3: Evaluations).Beijing: CIPS, 2023: 113-123.
[19] FILLMORE C J. Frame Semantics[M]//GEERAERTSD. Cognitive Linguistics: Basic Readings. Berlin, NewYork: De Gruyter Mouton, 2006: 373-400. DOI:10.1515/9783110199901.373.
[20] 閆智超, 李茹, 蘇雪峰, 等. 融合目標(biāo)詞上下文序列與結(jié)構(gòu)信息的框架識別方法[J]. 中文信息學(xué)報, 2024, 38(1): 86-96.
YAN Z C, LI R, SU X F, et al. Integrating Contextual andStructural Information of Target Words for FrameIdentification[J]. J Chin Inf Process, 2024, 38(1): 86-96.
[21] SU X F, LI R, LI X L, et al. A Span-based Target-awareRelation Model for Frame-semantic Parsing[J]. ACMTrans Asian Low-Resour Lang Inf Process, 2023, 22(3):1-24. DOI: 10.1145/3569581.
[22] YAN Z C, SU X F, CHAI Q H, et al. Multiple POSDependency-aware Mixture of Experts for Frame Identification[J]. IEEE Access, 2023, 11: 25604-25615. DOI:10.1109/ACCESS.2023.3253128.
[23] GUO S, GUAN Y, LI R, et al. Incorporating Syntax andFrame Semantics in Neural Network for Machine Read‐ing Comprehension[C]//Proceedings of the 28th InternationalConference on Computational Linguistics.America: ICCL, 2020: 2635-2641. DOI: 10.18653/v1/2020.coling-main.237.
[24] GUO S, LI R, TAN H, et al. A Frame-based SentenceRepresentation for Machine Reading Comprehension[C]//Proceedings of the 58th Annual Meeting of the Associationfor Computational Linguistics. Stroudsbarg,PA: ACL, 2020: 891-896. DOI: 10.18653/v1/2020. aclmain.83
[25] 王智強(qiáng), 李茹, 梁吉業(yè), 等. 基于漢語篇章框架語義分析的閱讀理解問答研究[J]. 計算機(jī)學(xué)報, 2016, 39(4):795-807. DOI: 10.11897/SP.J.1016.2016.00795.
WANG Z Q, LI R, LIANG J Y, et al. Research onQuestion Answering for Reading Comprehension Basedon Chinese Discourse Frame Semantic Parsing[J]. ChinJ Comput, 2016, 39(4): 795-807. DOI: 10.11897/SP.J.1016.2016.00795.
[26] GUAN Y, GUO S, LI R, et al. Frame Semantic-Enhanced Sentence Modeling for Sentence-level ExtractiveText Summarization[C] //Proceedings of the 2021Conference on Empirical Methods in Natural LanguageProcessing. Stroudsbarg, PA: ACL, 2021: 4045-4052.DOI: 10.18653/v1/2021.emnlp-main.331.
[27] GUAN Y, GUO S, LI R, et al. Integrating Semantic Scenarioand Word Relations for Abstractive SentenceSummarization[C]//Proceedings of the 2021 Conferenceon Empirical Methods in Natural Language Processing.Stroudsbarg, PA: ACL, 2021: 2522-2529.DOI: 10.18653/v1/2021.emnlp-main.196.
[28] ZHAO H Y, LI R, LI X L, et al. CFSRE: Context-awareBased on Frame-semantics for Distantly Supervised RelationExtraction[J]. Knowl Based Syst, 2020, 210:106480. DOI: 10.1016/j.knosys.2020.106480.
[29] 譚紅葉, 閆真, 李茹, 等. 邁向創(chuàng)造性語言生成: 漢語幽默自動生成的探索[J]. 中國科學(xué): 信息科學(xué), 2018, 48(11): 1497-1509. DOI: 10.1360/N112018-00158.
TAN H Y, YAN Z, LI R, et al. Towards CreativeLanguage Generation: Exploring Chinese HumorGeneration[J]. Sci Sin Informationis, 2018, 48(11):1497-1509. DOI: 10.1360/N112018-00158.
[30] 郝曉燕, 劉偉, 李茹, 等. 漢語框架語義知識庫及軟件描述體系[J]. 中文信息學(xué)報, 2007, 21(5): 96-100.DOI: 10.3969/j.issn.1003-0077.2007.05.018.
HAO X Y, LIU W, LI R, et al. Description Systems ofthe Chinese FrameNet Database and Software Tools[J].J Chin Inf Process, 2007, 21(5): 96-100. DOI: 10.3969/j.issn.1003-0077.2007.05.018.
[31] 劉開瑛. 漢語框架語義網(wǎng)構(gòu)建及其應(yīng)用技術(shù)研究[J].中文信息學(xué)報, 2011, 25(6): 46-52. DOI: 10.3969/j.issn.1003-0077.2011.06.007.
LIU K Y. Research on Chinese FrameNet Construction andApplication Technologies[J]. J Chin Inf Process, 2011, 25(6): 46-52. DOI: 10.3969/j.issn.1003-0077.2011.06.007.
[32] WANG S, SUN X, LI X, et al. GPT-NER: Named EntityRecognition via Large Language Models[EB/OL].arXiv Preprint: 2304.10428, 2023. https://arxiv.org/abs/2304.10428.
[33] OUYANG L, WU J, JIANG X, et al. Training LanguageModels to Follow Instructions with Human Feedback[J]. Adv Neural Inform Process Syst, 2022, 35:27730-27744.
[34] ANIL R, BORGEAUD S, ALAYRAC J, et al. Gemini:A Family of Highly Capable Multimodal Models[EB/OL]. arXiv Preprint: 2312.11805, 2024. https://arxiv.org/abs/2312.11805.
[35] LI Z, GUO X, QIAO D, et al. System Report for CCL23-Eval Task 3: Application of Entity Classification ModelBased on Rotary Position Embedding in Chinese FrameSemantic Parsing[C]//Proceedings of the 22nd ChineseNational Conference on Computational Linguistics (Volume3: Evaluations). Beijing: CIPS, 2023: 94-104.
[36] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pretrainingof Deep Bidirectional Transformers for LanguageUnderstanding[C]//Proceedings of the 2019 Conferenceof the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies, Volume 1 (Long and Short Papers).Stroudsbarg, PA: ACL, 2019: 4171-4186. DOI:10.18653/v1/N19-1423.
基金項目:山西省科技合作交流專項項目(202204041101016);山西省基礎(chǔ)研究計劃項目(202203021211286);國家自然科學(xué)基金重點項目(61936012)