許亮,張春,張寧,田雪濤
融合多Prompt模板的零樣本關(guān)系抽取模型
許亮*,張春,張寧,田雪濤
(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,北京 100044)(?通信作者電子郵箱20120467@bjtu.edu.cn)
Prompt范式被廣泛應(yīng)用于零樣本的自然語言處理(NLP)任務(wù)中,但是現(xiàn)有基于Prompt范式的零樣本關(guān)系抽?。≧E)模型存在答案空間映射難構(gòu)造與模板選擇依賴人工的問題,無法取得較好的效果。針對這些問題,提出一種融合多Prompt模板的零樣本RE模型。首先,將零樣本RE任務(wù)定義為掩碼語言模型(MLM)任務(wù),舍棄答案空間映射的構(gòu)造,將模板輸出的詞與關(guān)系描述文本在詞向量空間中進行比較,以此判斷關(guān)系類別;其次,引入待抽取關(guān)系類別的描述文本的詞性作為特征,學(xué)習(xí)該特征與各個模板之間的權(quán)重;最后,利用該權(quán)重融合多個模板輸出的結(jié)果,以此減少人工選取的Prompt模板引起的性能損失。在FewRel(Few-shot Relation extraction dataset)和TACRED(Text Analysis Conference Relation Extraction Dataset)這兩個數(shù)據(jù)集上的實驗結(jié)果顯示,與目前最優(yōu)的模型RelationPrompt相比,所提模型在不同數(shù)據(jù)資源設(shè)置下,F(xiàn)1值分別提升了1.48~19.84個百分點和15.27~15.75個百分點??梢姡崮P驮诹銟颖綬E任務(wù)上取得了顯著的效果提升。
關(guān)系抽?。恍畔⒊槿?;零樣本學(xué)習(xí);Prompt范式;預(yù)訓(xùn)練語言模型
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,文本數(shù)據(jù)規(guī)模呈指數(shù)級增長。為了更好地使用這些數(shù)據(jù),學(xué)術(shù)界和工業(yè)界涌現(xiàn)了很多新興的研究和應(yīng)用。關(guān)系抽?。≧elation Exaction, RE)是自然語言處理(Natural Language Processing, NLP)領(lǐng)域的一項重要的基礎(chǔ)工作,旨在從非結(jié)構(gòu)化文本數(shù)據(jù)中提取實體對之間的關(guān)系,支撐了包括知識圖譜構(gòu)建、智能問答和閱讀理解等多個下游任務(wù)[1]。目前,許多有效新穎的RE方法被提出,例如融合長短記憶(Long Short-Term Memory, LSTM)[2]的RE方法PFN(Partition Filter Network)[3]、基于令牌(token)對鏈接預(yù)測的RE模型TPLinker(Token Pair Linker)[4]、結(jié)合帶噪觀測模型與深度神經(jīng)網(wǎng)絡(luò)的基于帶噪觀測的遠監(jiān)督神經(jīng)網(wǎng)絡(luò)RE模型[5]、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)與預(yù)訓(xùn)練語言模型的全詞掩模的雙向變形編碼器CNN(Bidirectional Encoder Representation from Transformers and CNN based on whole word mask,BERT(wwm)-CNN)[6]等。這些方法擁有非常好的性能,但是在訓(xùn)練過程中通常需要充足的標(biāo)注數(shù)據(jù);同時,它們只能識別在訓(xùn)練過程中已知的關(guān)系類別。然而在現(xiàn)實世界中無法為所有的關(guān)系都收集好充足的訓(xùn)練樣本,為了解決這一問題,零樣本學(xué)習(xí)(Zero-Shot Learning, ZSL)應(yīng)運而生。
Lampert等[7]提出了ZSL的概念,核心思想是希望計算機模擬人類的推理方式,進而識別從未見過的新事物。在一般的有監(jiān)督學(xué)習(xí)任務(wù)中,測試階段的類別必須存在于訓(xùn)練階段,即所有類別可見;而在ZSL的任務(wù)中,訓(xùn)練和測試階段中分別為可見類和不可見類,通過訓(xùn)練階段的學(xué)習(xí),需要識別測試階段的不可見類的樣本。盡管ZSL應(yīng)用潛力巨大,但目前這一具有挑戰(zhàn)性的任務(wù)研究較少。為了使模型能夠預(yù)測不可見類,既有的研究聚焦任務(wù)的建模過程,通常的方法是將零樣本RE任務(wù)設(shè)計成不同的任務(wù)形式,例如:Levy等[8]將任務(wù)設(shè)計成問答的形式;Obamuyide等[9]將任務(wù)設(shè)計成文本蘊含問題。但是這種方法無法形成有效的關(guān)系語義表示空間,且任務(wù)之間存在較大差距,模型性能通常較差。近幾年,預(yù)訓(xùn)練語言模型緩解了文本語義空間表示不充分的問題,NLP領(lǐng)域中ZSL任務(wù)的研究重心也逐漸轉(zhuǎn)移為更好地使用預(yù)訓(xùn)練語言模型。
以基于Transformer的雙向編碼器技術(shù)BERT(Bidirectional Encoder Representations from Transformer)[10]為代表的預(yù)訓(xùn)練語言模型使NLP領(lǐng)域進入了一個新的發(fā)展階段,NLP任務(wù)開始采用在下游任務(wù)中微調(diào)預(yù)訓(xùn)練語言模型的范式。在該范式中,由于預(yù)訓(xùn)練語言模型和下游任務(wù)的訓(xùn)練目標(biāo)不同,訓(xùn)練過程存在一定的不穩(wěn)定性。Prompt是一種通過給預(yù)訓(xùn)練模型提示的方式激發(fā)模型處理下游任務(wù)所需隱藏知識的技術(shù)。通過將原始任務(wù)轉(zhuǎn)換成預(yù)訓(xùn)練模型的訓(xùn)練任務(wù)減小預(yù)訓(xùn)練階段和下游任務(wù)階段這兩個階段的差距,以此在特定任務(wù)上部署預(yù)訓(xùn)練語言模型。Razniewski等[11]通過完形填空的形式測試預(yù)訓(xùn)練語言模型中蘊藏的知識,證明了預(yù)訓(xùn)練模型可以有效地保存事實知識。類似地,Scao等[12]證明了Prompt范式在低資源環(huán)境中可以有效地提高樣本使用效率。但是,目前零樣本環(huán)境下Prompt模板的構(gòu)建大部分為手動[13-14],費時費力。Zhao等[15]表明Prompt模板的選取是反直覺的。此外,Hu等[16]還提出手工設(shè)計和梯度下降得到的答案映射會帶來覆蓋范圍不全導(dǎo)致的高偏差和高方差的問題。綜上,傳統(tǒng)Prompt范式高效應(yīng)用在零樣本RE任務(wù)上存在Prompt模板依賴手動選擇和難構(gòu)造答案映射這兩個問題。
針對上述問題,本文提出了一種基于多Prompt模板的零樣本RE模型。該模型把零樣本RE任務(wù)轉(zhuǎn)化為關(guān)系的表示生成任務(wù),直接舍棄傳統(tǒng)的答案空間映射,對齊詞向量空間和關(guān)系的表示空間。通過比較預(yù)訓(xùn)練語言模型輸出的[MASK]詞向量和關(guān)系描述文本的詞向量的相似度判斷所屬的關(guān)系類別,從根本上解決不可見類的映射構(gòu)造困難的問題。此外,針對不同模板生成的表示空間差異較大、模板選擇依賴人工選擇的問題,本文提出了一種多Prompt模板融合方法,根據(jù)關(guān)系描述文本的詞性賦予不同Prompt模板的權(quán)重,由這些權(quán)重融合多Prompt模板,以此提高模型RE能力。最后,在TACRED(Text Analysis Conference Relation Extraction Dataset)[17]和FewRel(Few-shot Relation extraction dataset)[18]這兩個數(shù)據(jù)集上進行驗證,實驗結(jié)果表明了本文模型的有效性。
ZSL的目標(biāo)是在訓(xùn)練集中可見類和測試集中不可見類的特征空間中建立一種可以連接彼此的中間語義。Levy等[8]首次闡明了ZSL在RE上的概念,將目標(biāo)任務(wù)建模為問答問題,通過讓模型回答預(yù)定義的問題模板對不可見類進行歸類;然而,該方法對于新出現(xiàn)的類別需要手動創(chuàng)建額外的問題,即在測試時需要增加新出現(xiàn)的類別實例,偏離了ZSL的測試集不可見的前提。Obamuyide等[9]將目標(biāo)任務(wù)建模為文本蘊涵任務(wù),由于關(guān)系的描述通常是公開的,通過判斷輸入的句子是否蘊含對應(yīng)的關(guān)系描述識別關(guān)系類別,契合ZSL的任務(wù)定義;然而,該模型無法建立一個有效的語義表示空間,難以實現(xiàn)關(guān)系之間的比較。隨著BERT[10]等預(yù)訓(xùn)練語言模型的出現(xiàn),文本的語義表示能力得到進一步發(fā)展。Chen等[19]分別對輸入文本和關(guān)系描述文本使用不同的投影函數(shù),將二者轉(zhuǎn)換到同一語義空間,并基于此空間下的表示進行關(guān)系分類;該方法較好地建立了語義空間且實現(xiàn)了類間比較,但由于測試集不可見,該方法的投影函數(shù)對測試集中的關(guān)系類別的映射能力有限。
Prompt范式的思想是將下游任務(wù)的輸入輸出形式轉(zhuǎn)換為預(yù)訓(xùn)練任務(wù)中的形式,即掩碼語言模型(Masked Language Model, MLM)等任務(wù),以降低模型與任務(wù)之間的差異。早在GPT-1(Generative Pre-trained Transformer 1)[20]中就開始在情感分析等任務(wù)上探索Prompt的應(yīng)用。隨著GPT-3[21]的Prompt方法成果顯著,越來越多研究[22-24]嘗試將Prompt范式引入較小的語言模型。Prompt模板可以將輸入的普通文本轉(zhuǎn)化為滿足預(yù)訓(xùn)練任務(wù)輸入的字符序列,例如在句子中加入[MASK]令牌([MASK]令牌表示BERT待預(yù)測位置的占位符,沒有實際含義)使輸入滿足MLM任務(wù)需要的數(shù)據(jù)形式。如圖1所示,根據(jù)預(yù)訓(xùn)練語言模型和Prompt模板的使用方式,Prompt范式的訓(xùn)練策略可以概括為4種不同情況。除了訓(xùn)練策略的多變,Prompt范式中模板的構(gòu)造與選擇也是主要的研究方向。Liu等[25]總結(jié)了相關(guān)研究。靈活的Prompt范式在信息抽取領(lǐng)域發(fā)展迅速,然而它在RE任務(wù)上的相關(guān)研究較少,特別是ZSL的特殊情況。
圖1 Prompt的不同使用形式
零樣本RE的核心目的是鏈接句子、主體和客體與對應(yīng)的關(guān)系描述。由于測試集中的關(guān)系在訓(xùn)練集中不存在,因此通常需要大量的數(shù)據(jù)或者復(fù)雜的模型獲得描述文本的表征能力;然而,零樣本的任務(wù)特性又無法提供充足的數(shù)據(jù)以有效支持模型訓(xùn)練。針對上述問題,直接使用語言模型的詞向量空間能確保模型在有限的訓(xùn)練樣本下建立較好的語義表征。本文利用Prompt范式生成關(guān)系的表示,以實現(xiàn)句子、主體和客體與對應(yīng)的關(guān)系描述之間的鏈接。
2.2.1Prompt模板設(shè)計和MLM預(yù)測
圖2 基于Prompt范式的RE模型
2.2.2關(guān)系比較
值得注意的是,在零樣本RE任務(wù)中,關(guān)系對應(yīng)的描述就是token序列,而完形填空生成的詞可以直接與關(guān)系描述在詞向量空間中進行比較。例如,在將關(guān)系類別“P177”中的句子實例以Prompt方式輸入預(yù)訓(xùn)練語言模型中時,“[CLS]…Mississippi River bridge to replace the deteriorating Cape Girardeau Bridge. [SEP]The cape Girardeau bridge [MASK] the Mississippi River.[SEP]”模型輸出填充被掩蓋位置的詞是“crosses”,這與標(biāo)簽關(guān)系類別的名稱完全重合,說明直接使用關(guān)系描述文本的詞向量空間也可以較好地充當(dāng)類表示空間。綜上所述,為了盡可能減少RE下游任務(wù)和預(yù)訓(xùn)練語言模型之間的差異,本文舍棄構(gòu)造答案空間映射,直接將生成的詞向量作為關(guān)系表示,并將這個表示與關(guān)系描述經(jīng)過預(yù)訓(xùn)練語言模型后生成的詞向量進行比較。如式(4)所示,使用歐氏距離對MLM生成的詞向量與關(guān)系描述文本的詞向量進行比較:
實驗發(fā)現(xiàn),將相同的實例輸入不同的Prompt模板后,模型的輸出存在差異,這種差異一般體現(xiàn)在模型對不同關(guān)系的抽取能力。Prompt模板的選擇對模型的表現(xiàn)起著非常關(guān)鍵的作用;然而,現(xiàn)有的自動模板選取算法需要一定的數(shù)據(jù)量,不適合零樣本任務(wù),手動選取模板費時費力。為此,本文提出一種適合零樣本任務(wù)的多Prompt模板融合方法。如圖3所示,通過引入可見類與不可見類通用的詞性信息融合多個模板的輸出結(jié)果。
圖3 基于詞性的多Prompt模板融合方法
式(5)表示不同模板對不同關(guān)系類別的權(quán)重:
表1 NLTK庫中部分詞性及其縮寫的含義
FewRel數(shù)據(jù)集[18]包含80個關(guān)系,其中65個關(guān)系用于模型訓(xùn)練,15個關(guān)系用于模型測試。每種關(guān)系具有700個遠程監(jiān)督生成的樣本實例,這些實例中包含主體和客體構(gòu)成的實體對。此外,每個關(guān)系的文本描述由關(guān)系名稱和關(guān)系描述構(gòu)成。TACRED數(shù)據(jù)集[17]是一個擁有106 264個實例的大規(guī)模RE數(shù)據(jù)集,共有42個關(guān)系類別。該數(shù)據(jù)集中的數(shù)據(jù)樣本呈長尾分布,關(guān)系類別的樣本實例間差距達到10倍以上。該數(shù)據(jù)集缺少關(guān)系的文本描述,本文在實驗中使用了TAC-KBP(Text Analysis Conference Knowledge Base Population)關(guān)系本體指南中對這些關(guān)系的描述。
本文實驗采用Transformers庫[27],使用BERT-base和BERT-large預(yù)訓(xùn)練語言模型進行模型實現(xiàn)。預(yù)訓(xùn)練語言模型的token表示維度為768或1 024。FewRel和TACRED數(shù)據(jù)集中句子最大長度分別為110和250。模型訓(xùn)練初始學(xué)習(xí)率為2×10-5,batch size大小為2,選用AdamW[28]作為優(yōu)化器。實驗環(huán)境為RTX3090Ti顯卡。評估指標(biāo)選取精確率(Precision, Prec)、召回率(Recall, Rec)和宏平均(Macro-F1, F1)。
3.3.1有監(jiān)督的RE模型
監(jiān)督學(xué)習(xí)范式構(gòu)建的RE模型通過不同方式從句子中提取特征進行預(yù)測,包括Att-Bi-LSTM(Attention-based Bidirectional LSTM)[29]和R-BERT(Relational model with Bidirectional Encoder Representations from Transformer)[30]。前者結(jié)合注意力機制和雙向長短記憶(Bi-directional LSTM, Bi-LSTM),是有監(jiān)督RE中非常經(jīng)典的算法,可以有效地在句子中抽取對應(yīng)的關(guān)系與實體,本文將它應(yīng)用到零樣本RE任務(wù)中,并作為基線進行比較;后者是針對零樣本RE任務(wù)優(yōu)化后的有監(jiān)督RE模型,它通過將模型最后的Softmax層轉(zhuǎn)換為具有tanh激活函數(shù)的全連接層,并利用最近鄰搜索找到關(guān)系描述的向量的方式,生成關(guān)系類別的預(yù)測。
3.3.2文本蘊含模型
將零樣本RE任務(wù)轉(zhuǎn)換為文本蘊涵任務(wù),通過判斷句子和關(guān)系描述是否有語義蘊含的關(guān)系決定所屬關(guān)系類別。ESIM(Enhanced long Short-term memory Inference Model)[31]是一種使用Bi-LSTM 對輸入序列進行編碼并評估蘊含關(guān)系的模型。
3.3.3關(guān)系的表示生成模型
利用模型生成代表關(guān)系的句子表示,將句子的表示和類的表示進行距離比較,進而選出最合適的類別。ZS-BERT(Zero-Shot BERT)[19]通過學(xué)習(xí)投影函數(shù),將句子與詞向量空間中的關(guān)系對齊,從而能夠預(yù)測在訓(xùn)練階段未見的關(guān)系類。
3.3.4基于Prompt的模型
利用Prompt激活預(yù)訓(xùn)練語言模型中的內(nèi)部知識進行零樣本RE任務(wù)。RelationPromt(Relation label Prompt)[32]是基于GPT-2的文本生成模型與BART(Bidirectional and Auto-Regressive Transformer)[33]的RE模型組合而成的,前者結(jié)合文本生成模型和Prompt,生成不可見的關(guān)系類的訓(xùn)練樣本;后者利用這些訓(xùn)練樣本對抽取模型進行有監(jiān)督的訓(xùn)練。通過這種方式抽取未見的關(guān)系類。MFP(zero-shot relation extraction Method Fusing multiple templates based on Prompt)[34]是使用梯度回歸讓模型自己學(xué)習(xí)模板的詞性特征向量的方法。該方法在通過預(yù)訓(xùn)練語言模型得到詞向量后,構(gòu)建了一個新的映射輸出關(guān)系表示,并且模型由梯度回歸自動學(xué)習(xí)詞性的特征表示。
3.4.1性能對比實驗
表2展示了在FewRel和TACRED數(shù)據(jù)集上的性能對比實驗結(jié)果,其中為測試集的不可見類別種類數(shù),是訓(xùn)練的數(shù)據(jù)量。本文在不同參數(shù)規(guī)模的BERT上進行了實驗。實驗結(jié)果直觀地展示了參數(shù)量越大的預(yù)訓(xùn)練語言模型的性能表現(xiàn)越好。此外,與目前最優(yōu)的模型RelationPrompt相比,本文模型在兩個數(shù)據(jù)集的不同訓(xùn)練數(shù)據(jù)量設(shè)置中分別提高了1.48~19.84個百分點和15.27~15.75個百分點,說明了本文模型的有效性。一般地,數(shù)據(jù)量越充足,模型的效果越出色。但是從表2中可以看出,本文模型在低資源的數(shù)據(jù)量下也可以有很好的效果。
事實上,根據(jù)數(shù)據(jù)集的不同,本文模型在低數(shù)據(jù)資源的情況下甚至與其他對比模型在充足訓(xùn)練數(shù)據(jù)(=all)下的效果更接近。具體地,在TACRED數(shù)據(jù)集中,本文模型在=100條件下相較于其他對比模型,F(xiàn)1指標(biāo)至少提升了15.27個百分點;同時,在該資源條件下與其他對比模型在充足數(shù)據(jù)的條件下F1指標(biāo)有只有3.30個百分點的性能差異。以上實驗結(jié)果驗證了Prompt范式確實可以提高數(shù)據(jù)的利用效率。RelationPrompt[32]通過將Prompt與文本生成模型相融合生成零樣本數(shù)據(jù)資源的方式也有不錯的性能表現(xiàn);但是由于它的預(yù)訓(xùn)練模型GPT-2與BART都是通過更多參數(shù)與更多訓(xùn)練數(shù)據(jù)得到的,兩個預(yù)訓(xùn)練模型的差異會造成較大的誤差傳遞。在TACRED中20的實驗設(shè)置下,RelationPrompt會出現(xiàn)無法生成需要的訓(xùn)練數(shù)據(jù)的現(xiàn)象,從而無法訓(xùn)練需要的不可見RE模型。值得注意的是,MFP通過梯度回歸學(xué)習(xí)關(guān)系描述文本的詞性特征的方法增大了需要學(xué)習(xí)的參數(shù)量,卻導(dǎo)致了模型表現(xiàn)的下降,特別是訓(xùn)練樣本數(shù)減少時,表現(xiàn)更加明顯。這是因為額外的參數(shù)學(xué)習(xí)需要新的數(shù)據(jù)保證模型的表現(xiàn),本質(zhì)上,Prompt范式的使用就是為了最大限度不引入新的參數(shù)變量。本文使用了語言學(xué)的統(tǒng)計學(xué)的特征,一定程度上減少了模型的參數(shù)量,使模型更加適合零樣本RE任務(wù)。
表2 不同數(shù)據(jù)集和不同不可見關(guān)系種類數(shù)在不同訓(xùn)練數(shù)據(jù)量下的性能對比 單位: %
本文對齊詞向量空間和語義關(guān)系的表示空間,緩解了上述MFP存在的問題。值得注意的是,本文模型召回率較高,精確度卻較低。這說明了本文模型對某些類特別敏感,可以很好識別該目標(biāo)類,但同時也會導(dǎo)致將其他不屬于該類的實例識別成該類的問題。文獻[35-37]中提到預(yù)訓(xùn)練語言模型有表示退化問題,模型更傾向輸出高頻詞,導(dǎo)致模型的詞嵌入空間呈圓錐分布。這種情況是普遍的,同樣也是進一步研究的方向。
3.4.2消融實驗
如表3所示,在TACRED和FewRel數(shù)據(jù)集上進行消融實驗以探究模型各個部分的影響。為了更關(guān)注模型的整體效果,消融實驗在充足的訓(xùn)練數(shù)據(jù)(all)和使用BERT-base的條件下進行。首先探究各個模板對模型的影響。本文通過手工的方式設(shè)置了36個Prompt模板作為模板庫,表3隨機展示了5個不同的模板在單模板情況下的模型性能??梢钥吹皆诓煌0宓那闆r下,雖然模型性能不同,但是同條件下與表2中除RelationPrompt和MFP的其他基線模型性能相比,F(xiàn)ewRel和TACRED數(shù)據(jù)集中F1指標(biāo)分別至少提升了14.90個百分點和5.94個百分點。這說明了將[MASK]位置的詞向量空間與類表示空間對齊的方法是有效的。
圖4為不同模板中預(yù)測的[MASK]位置的詞性的統(tǒng)計(詞性縮寫含義見表1),其中Prompt模板是表3中的5個模板,軸的縮寫的解釋說明如表1所示,具體信息可以參考NLTK庫中的函數(shù)說明??梢钥闯鲈诓煌0逯校A(yù)訓(xùn)練語言模型預(yù)測的[MASK]位置的單詞的詞性有著特殊的規(guī)律。例如,在其他條件相同的情況下,模板4預(yù)測的詞的詞性集中在NN;類似地,模板1在預(yù)測[MASK]位置單詞的任務(wù)中,輸出了更多的VBN詞性的詞匯。這說明了Prompt模板與輸出單詞的詞性是相關(guān)的。不同模板的效果有差異,但是差異的變化范圍有限。實驗結(jié)果表明,不能通過簡單地修改手工設(shè)計的模板實現(xiàn)效果的巨大提升。
為了深入地探究基于詞性的融合方法的優(yōu)勢,研究還比較了平均融合、加權(quán)融合和基于詞性梯度回歸的融合方法。平均融合是將多模板的參數(shù)進行均值處理,加權(quán)融合是利用梯度回歸讓模型自己學(xué)習(xí)各個模板的權(quán)重。
從實驗結(jié)果看,盡管在TACRED數(shù)據(jù)集中,不同的融合方法都比單獨使用一種模板模型的效果好,但是在FewRel數(shù)據(jù)集中,卻出現(xiàn)了模型效果下降的情況。這說明了多模板融合的方法會對不同數(shù)據(jù)集產(chǎn)生不同的影響,但是這種影響是不確定的,無法穩(wěn)定地提高效果。此時,詞性作為橋梁的作用就得到了體現(xiàn),相較于其他融合方法,即使數(shù)據(jù)集不同,基于詞性的融合方法都明顯優(yōu)于其他方法。無論是單Prompt模板RE方法還是將多模板通過其他不同的方法融合的方法,效果都低于基于詞性的多Prompt模板融合方法。
表3TACRED和FewRel數(shù)據(jù)集上的消融實驗結(jié)果 單位: %
Tab.3 Ablation experimental results on TACRED and FewRel datasets unit: %
圖4 不同模板預(yù)測的詞的詞性部分統(tǒng)計
3.4.3交叉域研究實驗
為了深入研究模型的泛化性,本文還進行了交叉域的研究。本文將FewRel和TACRED數(shù)據(jù)集的訓(xùn)練集與測試集進行了調(diào)換,用FewRel訓(xùn)練集訓(xùn)練的模型預(yù)測TACRED中的測試集和用TACRED訓(xùn)練集訓(xùn)練的模型預(yù)測FewRel的測試集,并將得到的結(jié)果與其他模型進行了比較,實驗結(jié)果如表4所示。顯然,本文模型的性能表現(xiàn)出色。在對比原訓(xùn)練集時,RelationPrompt在兩個數(shù)據(jù)集上分別比原有的F1指標(biāo)下降了28.36個百分點和12.5個百分點;而在相同條件下,本文模型的F1指標(biāo)只下降了5.84個百分點和7.58個百分點,這說明了本文模型優(yōu)秀的魯棒性。
3.4.4模板個數(shù)對模型性能的影響
本節(jié)研究模板數(shù)對多Prompt模板RE模型的實驗效果的影響。從模板庫中隨機抽取1~5個不同數(shù)的模板,并對基于詞性的多Prompt模板融合方法在不同模板數(shù)上進行性能評估??紤]到不同模板對實驗也有影響,因此本節(jié)實驗中采用重復(fù)5次實驗取平均值的實驗設(shè)置。圖5分別為在兩個數(shù)據(jù)集中的實驗結(jié)果。基于詞性的多Prompt模板融合方法需要一定數(shù)量的模板才能發(fā)揮較好的效果;但是它對模板數(shù)的需求有限,當(dāng)模板數(shù)超過一定值時,模型的效果開始下降;同時,針對不同的數(shù)據(jù)集的最優(yōu)模板數(shù)參數(shù)并不相同。值得注意的是,無論Prompt模板數(shù)為多少,本文模型的效果始終超過單Prompt模板,這說明基于詞性的多Prompt模板融合方法是穩(wěn)定有效的。
表4交叉域?qū)嶒灲Y(jié)果 單位: %
Tab.4 Results of cross domain experiments unit: %
圖5 不同模板數(shù)的性能比較
在RE領(lǐng)域中,存在著無法為全部關(guān)系標(biāo)注足量訓(xùn)練數(shù)據(jù)的問題,因此ZSL在該任務(wù)上具有較大的研究價值。現(xiàn)有基于Prompt范式的RE算法由于答案空間映射問題難構(gòu)造與自動構(gòu)建模板有一定的數(shù)據(jù)資源需求的問題,無法較好地應(yīng)用在零樣本RE任務(wù)。本文提出了一種融合多Prompt模板的零樣本RE模型,該模型通過對齊類表示空間與詞向量空間和利用詞性融合多個Prompt模板解決上述問題,將Prompt范式引入零樣本RE任務(wù)。最后,在FewRel和TACRED數(shù)據(jù)集進行了多組實驗,驗證了本文模型的具有優(yōu)秀的性能表現(xiàn)。目前Prompt在零樣本RE任務(wù)中還是具體表現(xiàn)為離散的單詞,未來將進一步研究如何自動化地構(gòu)建連續(xù)且能夠高效激活預(yù)訓(xùn)練語言模型的Prompt,進一步提高零樣本RE的性能。
[1] ZHANG F, YUAN N, LIAN D, et al. Collaborative knowledge base embedding for recommender systems [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York: ACM, 2016: 353-362.
[2] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[3] YAN Z, ZHANG C, FU J, et al. A partition filter network for joint entity and relation extraction [C]// Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, Stroudsburg, PA: Association for Computational Linguistics, 2021: 185-197.
[4] WANG Y, YU B, ZHANG Y, et al. TPLinker: single-stage joint extraction of entities and relations through token pair linking [C]//Proceedings of the 28th International Conference on Computational Linguistics. Stroudsburg, PA: International Committee on Computational Linguistics, 2020: 1572-1582.
[5] 葉育鑫,薛環(huán),王璐,等. 基于帶噪觀測的遠監(jiān)督神經(jīng)網(wǎng)絡(luò)關(guān)系抽?。跩].軟件學(xué)報,2020,31(4):1025-1038.(YE Y X,XUE H,WANG L, et al. Distant supervision neural network relation extraction base on noisy observation[J]. Journal of Software, 2020, 31(4): 1025-1038.)
[6] 武小平,張強,趙芳,等. 基于BERT的心血管醫(yī)療指南實體關(guān)系抽取方法[J]. 計算機應(yīng)用, 2021, 41(1): 145-149.(WU X P, ZHANG Q, ZHAO F, et al. Entity relation extraction method for guidelines of cardiovascular disease based on bidirectional encoder representation from transformers [J]. Journal of Computer Applications, 2021, 41(1):145-149.)
[7] LAMPERT C H, NICKISCH H, HARMELING S. Learning to detect unseen object classes by between-class attribute transfer [C]// Proceedings of the 2009 Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2009: 951-958.
[8] LEVY O, SEO M, CHOI E, et al. Zero-shot relation extraction via reading comprehension [C]// Proceedings of the 21st Conference on Computational Natural Language Learning, Stroudsburg, PA: Association for Computational Linguistics, 2017: 333-342.
[9] OBAMUYIDE A, VLACHOS A. Zero-shot relation classification as textual entailment [C]// Proceedings of the First Workshop on Fact Extraction and Verification, Stroudsburg, PA: Association for Computational Linguistics, 2018: 72-78.
[10] DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding [C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long and Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2019: 4171-4186.
[11] RAZNIEWSKI S, YATES A, KASSNER N, et al. Language models as or for knowledge bases [EB/OL]. (2021-10-10)[2022-07-14]. https://arxiv.org/pdf/2110.04888.pdf.
[12] SCAO T L, RUSH A M. How many data points is a prompt worth?[EB/OL]. (2021-03-15)[2022-07-14]. https://arxiv.org/pdf/2103.08493.pdf.
[13] SAINZ O, DE LACALLE O L, LABAKA G, et al. Label verbalization and entailment for effective zero-and few-shot relation extraction [EB/OL]. (2021-09-08)[2022-07-14]. https://arxiv.org/pdf/2109.03659.pdf.
[14] LIU X, ZHENG Y, DU Z, et al. GPT understands, too [EB/OL]. (2021-03-18)[2022-07-14]. https://arxiv.org/pdf/2103.10385.pdf.
[15] ZHAO J, HU Y, XU N, et al. An exploration of prompt-based zero-shot relation extraction method [C]// Proceedings of the 21st Chinese National Conference on Computational Linguistic. Beijing: Chinese Information Processing Society of China, 2022: 786-797.
[16] HU S, DING N, WANG H, et al. Knowledgeable prompt-tuning: incorporating knowledge into prompt verbalizer for text classification [EB/OL]. (2021-08-04)[2022-07-14]. https://arxiv.org/pdf/2108.02035.pdf.
[17] ZHANG Y, ZHONG V, CHEN D, et al. Position-aware attention and supervised data improve slot filling [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 35-45.
[18] HAN X, ZHU H, YU P, et al. FewRel: a large-scale supervised few-shot relation classification dataset with state-of-the-art evaluation [C]// Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 4803-4809.
[19] CHEN C-Y, LI C-T. ZS-BERT: towards zero-shot relation extraction with attribute representation learning [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2021: 3470-3479.
[20] RADFORD A, NARASIMHAN K, SALIMANS T, et al. Improving language understanding by generative pre-training [EB/OL]. [2022-07-14]. https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf.
[21] BROWN T, MANN B, RYDER N, et al. Language models are few-shot learners [C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook:Curran Associates Inc., 2020: 1877-1901.
[22] SCHICK T, SCHüTZE H. Exploiting cloze questions for few shot text classification and natural language inference [C]// Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2021: 255-269.
[23] SCHICK T, SCHüTZE H. It’s not just size that matters: small language models are also few-shot learners [C]// Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Stroudsburg, PA: Association for Computational Linguistics, 2021: 2339-2352.
[24] GAO T, FISCH A, CHEN D. Making pre-trained language models better few-shot learners [C]// Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2021: 3816-3830.
[25] LIU P, YUAN W, FU J, et al. Pre-train, prompt, and predict: a systematic survey of prompting methods in natural language processing [EB/OL]. (2021-07-28)[2022-07-14]. https://arxiv.org/pdf/2107.13586.pdf.
[26] WAGNER W .Natural language processing with Python: analyzing text with the natural language Toolkit [J]. Language Resources and Evaluation, 2010, 44(4):421-424.
[27] LOSHCHILOV I, HUTTER F. Decoupled weight decay regularization [EB/OL]. (2019-01-04)[2022-07-14]. https://arxiv.org/pdf/1711.05101.pdf.
[28] WOLF T, DEBUT L, SANH V, et al. Transformers: state-of-the-art natural language processing [C]// Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2020: 38-45.
[29] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification [C]// Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2016: 207-212.
[30] WU S, HE Y. Enriching pretrained language model with entity information for relation classification [C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 2361-2364.
[31] CHEN Q, ZHU X, LING Z, et al. Enhanced LSTM for natural language inference [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 1657-1668.
[32] CHIA Y K, BING L, PORIA S, et al. RelationPrompt: leveraging prompts to generate synthetic data for zero-shot relation triplet extraction [EB/OL]. (2022-03-17)[2022-07-14]. https://arxiv.org/pdf/2203.09101.pdf.
[33] LEWIS M, LIU Y, GOYAL N, et al. BART: denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension [EB/OL]. (2019-10-29)[2022-07-14]. https://arxiv.org/pdf/1910.13461.pdf.
[34] 北京交通大學(xué). 一種基于Prompt多模板融合的零樣本關(guān)系抽取方法: CN202211082703.4[P]. 2023-02-03.(Beijing Jiaotong University. A zero-shot relation extraction method fusing multiple templates based on Prompt: CN202211082703.4[P]. 2023-02-03.)
[35] WANG L, HUANG J, HUANG K, et al. Improving neural language generation with spectrum control [EB/OL]. (2022-03-11)[2022-07-14]. https://openreview.net/attachment?id=ByxY8CNtvr&name=original_pdf.
[36] GAO J, HE D, TAN X, et al. Representation degeneration problem in training natural language generation models [EB/OL]. (2019-07-28)[2022-07-14]. https://arxiv.org/pdf/1907.12009.pdf.
[37] LI B, ZHOU H, HE J, et al. On the sentence embeddings from pre-trained language models [EB/OL]. (2020-11-02)[2022-07-14]. https://arxiv.org/pdf/2011.05864.pdf.
Zero-shot relation extraction model via multi-template fusion in Prompt
XU Liang*, ZHANG Chun, ZHANG Ning, TIAN Xuetao
(,,100044,)
Prompt paradigm is widely used to zero-shot Natural Language Processing (NLP) tasks. However, the existing zero-shot Relation Extraction (RE) model based on Prompt paradigm suffers from the difficulty of constructing answer space mappings and dependence on manual template selection, which leads to suboptimal performance. To address these issues, a zero-shot RE model via multi-template fusion in Prompt was proposed. Firstly, the zero-shot RE task was defined as the Masked Language Model (MLM) task, where the construction of answer space mapping was abandoned. Instead, the words output by the template were compared with the relation description text in the word embedding space to determine the relation class. Then, the part of speech of the relation description text was introduced as a feature, and the weight between this feature and each template was learned. Finally, this weight was utilized to fuse the results output by multiple templates, thereby reducing the performance loss caused by the manual selection of Prompt templates. Experimental results on FewRel (Few-shot Relation extraction dataset) and TACRED (Text Analysis Conference Relation Extraction Dataset) show that, the proposed model significantly outperforms the current state-of-the-art model, RelationPrompt, in terms of F1 score under different data resource settings, with an increase of 1.48 to 19.84 percentage points and 15.27 to 15.75 percentage points, respectively. These results convincingly demonstrate the effectiveness of the proposed model for zero-shot RE tasks.
Relation Extraction (RE); information extraction; Zero-Shot Learning (ZSL); Prompt paradigm; pre-trained language model
This work is partially supported by the National Key Research and Development Program of China (2019YFB1405202).
XU Liang, born in 1997, M. S. candidate. His research interests include natural language processing.
ZHANG Chun,born in 1966, M. S., research fellow. Her research interests include railway information, intelligent information processing.
ZHANG Ning,born in 1958, Ph. D., research fellow. His research interests include railway information, intelligent information processing, embedded system.
TIAN Xuetao,born in 1995, Ph. D. His research interests include natural language processing.
TP391.1
A
1001-9081(2023)12-3668-08
10.11772/j.issn.1001-9081.2022121869
2022?12?22;
2023?03?27;
2023?03?28。
國家重點研發(fā)計劃項目(2019YFB1405202)。
許亮(1997—),男,安徽蕪湖人,碩士研究生,主要研究方向:自然語言處理;張春(1966—),女(滿族),北京人,研究員,博士生導(dǎo)師,碩士,主要研究方向:鐵路信息、智能信息處理;張寧(1958—),男,北京人,研究員,博士生導(dǎo)師,博士,主要研究方向:鐵路信息、智能信息處理、嵌入式系統(tǒng);田雪濤(1995—),男(蒙古族),內(nèi)蒙古通遼人,博士,主要研究方向:自然語言處理。