葉鍇, 魏晶晶, 魏冬春, 王強(qiáng), 廖祥文
(1. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福建 福州 350108; 2. 福建江夏學(xué)院電子信息科學(xué)學(xué)院, 福建 福州 350108)
主觀性文本能反映人們對(duì)現(xiàn)實(shí)事物的看法, 具有巨大的研究?jī)r(jià)值. 論辯挖掘[1]的目標(biāo)是自動(dòng)學(xué)習(xí)文本的論辯結(jié)構(gòu), 進(jìn)而識(shí)別論點(diǎn)和提取相關(guān)論點(diǎn)間的邏輯關(guān)系, 從而幫助人們?cè)谌缯疀Q策等事務(wù)中做出決策, 提供便利.
傳統(tǒng)的論辯挖掘方法主要采用機(jī)器學(xué)習(xí)模型, 如樸素貝葉斯[2]等, 并取得不錯(cuò)的性能. 但傳統(tǒng)方法依賴于特征工程的設(shè)計(jì), 難以應(yīng)用于低資源場(chǎng)景. 現(xiàn)有工作大多采用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的特征表示學(xué)習(xí)[3],但論辯挖掘單一領(lǐng)域的現(xiàn)有標(biāo)注數(shù)據(jù)難以滿足神經(jīng)網(wǎng)絡(luò)的訓(xùn)練. 因此, 有研究者對(duì)多個(gè)領(lǐng)域數(shù)據(jù)集進(jìn)行聯(lián)合訓(xùn)練[4-5], 利用任務(wù)間的關(guān)聯(lián)信息改進(jìn)模型性能. 但這些方法沒(méi)有利用文本的層級(jí)結(jié)構(gòu)信息, 難以檢測(cè)跨段落的論點(diǎn)部件邊界.
針對(duì)上述問(wèn)題, 本研究提出一種面向低資源場(chǎng)景的多任務(wù)學(xué)習(xí)論辯挖掘方法, 該方法采用多任務(wù)學(xué)習(xí)策略, 學(xué)習(xí)文本的字符級(jí)共享表示, 同時(shí)在序列編碼中融入文本的結(jié)構(gòu)信息進(jìn)行求解. 該模型共享任務(wù)的字符級(jí)特征, 有效利用領(lǐng)域間的信息以解決低資源場(chǎng)景訓(xùn)練數(shù)據(jù)不足的問(wèn)題; 此外, 學(xué)習(xí)到的結(jié)構(gòu)信息能有效捕獲長(zhǎng)依賴關(guān)系, 幫助模型更好識(shí)別長(zhǎng)論點(diǎn)部件. 采用了文獻(xiàn)[4]中所使用的六個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 與當(dāng)前最好的方法相比, 本研究提出的方法在宏觀F1值上有1%~2%的提升, 較好地驗(yàn)證了該方法的有效性.
論辯挖掘是自然語(yǔ)言處理中的新興領(lǐng)域. 文獻(xiàn)[2]首先在法律文本上通過(guò)樸素貝葉斯模型完成論點(diǎn)分類任務(wù). 這些方法嚴(yán)重依賴手工特征, 成本高昂. 文獻(xiàn)[3]首次提出基于神經(jīng)網(wǎng)絡(luò)端到端的論辯挖掘模型, 并證明論辯挖掘任務(wù)更適合視作序列標(biāo)注進(jìn)行求解. 文獻(xiàn)[6]發(fā)現(xiàn)論辯挖掘領(lǐng)域標(biāo)簽的概念化差異一定程度上阻礙了論辯挖掘任務(wù)的跨域訓(xùn)練. 文獻(xiàn)[7-8]的研究工作表明由于論辯挖掘領(lǐng)域概念化不同, 大多數(shù)據(jù)集缺乏規(guī)范的論辯架構(gòu)且存在噪音, 因而難以在網(wǎng)絡(luò)文本中開(kāi)展. 文獻(xiàn)[9]首次采用監(jiān)督學(xué)習(xí)檢索文本中與給定主題相同立場(chǎng)的論證內(nèi)容. 文獻(xiàn)[4]首次將多任務(wù)學(xué)習(xí)應(yīng)用在論辯挖掘并提升了性能, 證明了多任務(wù)學(xué)習(xí)也能處理論辯挖掘這一復(fù)雜任務(wù). 文獻(xiàn)[5]通過(guò)對(duì)多個(gè)數(shù)據(jù)集進(jìn)行聯(lián)合訓(xùn)練, 利用多任務(wù)之間的關(guān)聯(lián)信息一定程度上改進(jìn)了論點(diǎn)部件檢測(cè)和識(shí)別的性能.
多任務(wù)學(xué)習(xí)目的是在學(xué)習(xí)主任務(wù)時(shí), 同時(shí)學(xué)習(xí)其它任務(wù)以獲取額外信息改進(jìn)主任務(wù). 文獻(xiàn)[10]首次提出多任務(wù)學(xué)習(xí), 認(rèn)為將復(fù)雜問(wèn)題分解為更小且合理的獨(dú)立子問(wèn)題分別求解再組合, 能夠解決初始的復(fù)雜問(wèn)題. 文獻(xiàn)[11]在此基礎(chǔ)上增加了“竊聽(tīng)”機(jī)制, 所有任務(wù)共享模型的編碼層. 文獻(xiàn)[12]的工作表明多任務(wù)學(xué)習(xí)對(duì)于數(shù)據(jù)稀少的任務(wù)更加有效. 文獻(xiàn)[13]通過(guò)同時(shí)借鑒同任務(wù)高資源語(yǔ)言數(shù)據(jù)和相關(guān)的任務(wù)數(shù)據(jù)學(xué)到的知識(shí), 解決低資源語(yǔ)言訓(xùn)練數(shù)據(jù)缺乏, 即低資源問(wèn)題. 文獻(xiàn)[14]提出一種新的參數(shù)共享機(jī)制——稀疏共享, 為每個(gè)任務(wù)從基網(wǎng)絡(luò)中抽取出一個(gè)對(duì)應(yīng)的子網(wǎng)絡(luò)來(lái)處理該任務(wù), 在任務(wù)相關(guān)性弱的場(chǎng)景下, 稀疏共享提升較大.
論辯挖掘任務(wù)的目標(biāo)是學(xué)習(xí)文本的論辯結(jié)構(gòu)以識(shí)別論點(diǎn), 本質(zhì)是序列標(biāo)注任務(wù). 因此, 對(duì)于論辯挖掘問(wèn)題, 其形式化定義描述如下, 在給定的某個(gè)含n個(gè)單詞的主觀性文本x={x1,x2, …,xn}和對(duì)應(yīng)的標(biāo)簽y={y1,y2, …,yn}, 其中yi定義如下:yi={(b,c)|b∈(B, I, O),c∈(P, C, MC)},b代表論點(diǎn)邊界檢測(cè)的標(biāo)簽, B代表起始單元, I代表中間單元, O則表示非論辯單元,c表示論點(diǎn)部件的類型. 這里以學(xué)生論文數(shù)據(jù)集作為示例, P表示前提, C代表主張, M則表示文本中唯一的主要主張. 具體的標(biāo)注示例如表1.
表1 學(xué)生論文數(shù)據(jù)集標(biāo)注樣例
圖1 論辯挖掘多任務(wù)學(xué)習(xí)模型
本研究引入多任務(wù)學(xué)習(xí)解決多個(gè)不同領(lǐng)域數(shù)據(jù)集的論辯挖掘任務(wù), 所提出的框架CNN-Highway-On-LSTM-CRF如圖1所示. 該模型主要包括以下模塊: 1)基于CNN的字符表示; 2)基于高速神經(jīng)網(wǎng)絡(luò)的特征過(guò)濾層; 3)基于ON-LSTM模型的詞級(jí)標(biāo)注方法; 4)輸出層. 本研究將以自下而上方式詳細(xì)介紹所提出的模型框架.
本研究拓展了文獻(xiàn)[15]提出的CNN模型. 具體如下:
為進(jìn)一步提高實(shí)驗(yàn)效果, 引入高速神經(jīng)網(wǎng)絡(luò)進(jìn)行特征過(guò)濾. 其主要通過(guò)轉(zhuǎn)換門和進(jìn)位門控制不同層信息衰減的比例, 具體實(shí)現(xiàn)如下:at=z?σ(Wat-1+b)+(1-z)?at-1. 這里,σ為非線性函數(shù),z=σ(Wat-1+b)為轉(zhuǎn)換門, (1-z)成為進(jìn)位門, 這里W表示轉(zhuǎn)關(guān)門的權(quán)重矩陣.
文本的每個(gè)句子可以被表示為層級(jí)結(jié)構(gòu), 在低資源場(chǎng)景下, 這些結(jié)構(gòu)特征能改善模型性能. 因此, 引入有序神經(jīng)元長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(ON-LSTM)[16]作為詞級(jí)序列標(biāo)注模型.
在ON-LSTM通過(guò)對(duì)內(nèi)部的神經(jīng)元進(jìn)行排序?qū)蛹?jí)結(jié)構(gòu)信息集成到LSTM中, 通過(guò)控制神經(jīng)元的更新頻率來(lái)表示不同尺度的依賴關(guān)系, 與標(biāo)準(zhǔn)的LSTM架構(gòu)相比, 其引入了新的更新規(guī)則, 定義如下:
這里,xt是當(dāng)前輸入,ht-1為前一時(shí)間步的隱藏狀態(tài).
標(biāo)簽依賴是解決序列標(biāo)注任務(wù)的關(guān)鍵. 例如BIO標(biāo)注方法中, 標(biāo)記I不能出現(xiàn)在B之前. 因此, 聯(lián)合解碼標(biāo)簽鏈可以確保得到的標(biāo)簽是有意義的. 條件隨機(jī)場(chǎng)(CRF)已被證明能夠捕捉標(biāo)簽依賴信息. 因此, 采用CRF作為模型的最終預(yù)測(cè)層.
本研究整個(gè)模型的輸入為一段論辯挖掘文本序列, 最終輸出為該文本序列預(yù)測(cè)的標(biāo)簽序列Y.
采用文獻(xiàn)[4]所使用的數(shù)據(jù)集, 數(shù)據(jù)集具體情況如表2所示. 其中Domain表示數(shù)據(jù)集所屬的領(lǐng)域, Len為數(shù)據(jù)集的最大句子長(zhǎng)度, Token為每個(gè)數(shù)據(jù)集每篇文章的平均單詞數(shù)量, Class 為每個(gè)數(shù)據(jù)集論點(diǎn)部件的類型, 每個(gè)數(shù)據(jù)集的類型都不相同.
表2 數(shù)據(jù)集詳情
本節(jié)將從實(shí)驗(yàn)的對(duì)比模型、 參數(shù)設(shè)置以及評(píng)價(jià)指標(biāo)進(jìn)行介紹, 同時(shí)對(duì)不同場(chǎng)景的實(shí)驗(yàn)結(jié)果進(jìn)行簡(jiǎn)要的分析.
為了驗(yàn)證本研究模型的有效性, 選取以下模型作為基準(zhǔn)實(shí)驗(yàn).
1) STL[4]. 單任務(wù)學(xué)習(xí)模型, 該模型僅針對(duì)單一數(shù)據(jù)集進(jìn)行訓(xùn)練和預(yù)測(cè).
2) MTL-Bi-LSTM-CRF[4]. 多任務(wù)學(xué)習(xí)模型, 采用Bi-LSTM進(jìn)行特征提取, 用CRF進(jìn)行序列標(biāo)注, 記為MTL.
3) CharLSTM+Bi-LSTM-CRF[17]. 該模型在2)的基礎(chǔ)上引入字符級(jí)的LSTM進(jìn)行字符特征提取, 記為L(zhǎng)BLC.
4) CharCNN+Bi-LSTM-CRF[17]. 與3)不同的是字符級(jí)的LSTM換成了字符級(jí)的CNN, 記為CBLC.
5) CNNs-Highway+Bi-LSTM-CRF[5]. 與4)不同的是字符級(jí)的CNN換為TextCNN-Highway, 記為CHBLC.
在現(xiàn)實(shí)場(chǎng)景中, 由于標(biāo)注代價(jià)高昂, 論辯挖掘仍十分缺乏標(biāo)注數(shù)據(jù), 因此, 本研究模擬了低資源場(chǎng)景, 比較模型在各種場(chǎng)景中的性能. 為模擬低資源場(chǎng)景, 按照21 k, 12 k, 6 k, 1 k的單詞規(guī)模對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽取, 其規(guī)模指的是訓(xùn)練樣本數(shù)目.
5.3.1多任務(wù)學(xué)習(xí)的任務(wù)數(shù)量和任務(wù)差異對(duì)實(shí)驗(yàn)的影響
為探究任務(wù)數(shù)量對(duì)實(shí)驗(yàn)的影響, 以Hotel為主任務(wù), 逐次增加輔助任務(wù)的數(shù)量. 如圖2~3所示, 在迭代次數(shù)相同的情況下, 隨著任務(wù)的增加, 模型的訓(xùn)練時(shí)間隨之增長(zhǎng), 模型性能也逐步提高. 與模型復(fù)雜度增加改善的性能提高相比, 其帶來(lái)的訓(xùn)練時(shí)間增加仍在可接受的范圍.
圖2 任務(wù)數(shù)量對(duì)模型訓(xùn)練時(shí)間的影響
圖3 任務(wù)數(shù)量對(duì)模型性能的影響
為了探究多任務(wù)學(xué)習(xí)方法中任務(wù)間差異對(duì)實(shí)驗(yàn)的影響, 分別以Essays等五個(gè)數(shù)據(jù)集作為Hotel輔助任務(wù)進(jìn)行對(duì)比實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如圖4~5所示.從圖4可以看出, 每個(gè)任務(wù)的引入都對(duì)模型性能有一定的提升, 而任務(wù)間差異的大小影響性能的提升幅度. 由圖5可以發(fā)現(xiàn), 差異較大的News作為輔助任務(wù)時(shí)模型收斂時(shí)間較長(zhǎng), 而幾個(gè)差異相近的輔助任務(wù): Var, Wiki, Web等, 其收斂時(shí)間相近. 從實(shí)驗(yàn)結(jié)果綜合來(lái)看, 模型的差異性對(duì)模型收斂時(shí)間有一定的影響, 但影響有限.
圖4 任務(wù)差異對(duì)模型性能的影響
圖5 任務(wù)差異對(duì)模型收斂時(shí)間的影響
5.3.2數(shù)據(jù)稀疏情況下對(duì)比各個(gè)模型性能
在不同低資源場(chǎng)景下的模型Macro-F1值如表3所示, 其中, 提升最高且穩(wěn)定的是Hotel數(shù)據(jù)集, 在四種低資源場(chǎng)景下均獲得了1%~4%的提升. 在1 k, 6 k, 12 k的單詞場(chǎng)景中, 大部分?jǐn)?shù)據(jù)集都取得了1%~5%的提升, 在21 k的單詞場(chǎng)景中, 雖然沒(méi)有取得顯著的提升, 但也達(dá)到了與當(dāng)前最優(yōu)方法模型相近的性能. 從表4中可以看到, 在絕大部分場(chǎng)景中, 本研究模型性能高于所有基準(zhǔn)模型, 在數(shù)據(jù)規(guī)模越小的場(chǎng)景中, 性能提升越大.
觀察實(shí)驗(yàn)結(jié)果發(fā)現(xiàn), MTL等多任務(wù)模型較單任務(wù)模型在各個(gè)任務(wù)上都獲得了一定的提高, 特別是Wiki數(shù)據(jù)集, 在21 k的單詞場(chǎng)景提升了8.9%. 這可能是因?yàn)閃iki數(shù)據(jù)集是社交媒體上隨機(jī)采集的文本, 存在大量非論辯成分, 影響其他論點(diǎn)部件類型的判斷, 而多任務(wù)機(jī)制的引入降低了過(guò)擬合的風(fēng)險(xiǎn), 提升了對(duì)論辯類型的預(yù)測(cè)準(zhǔn)確率. 例如在News數(shù)據(jù)集中Premise因?yàn)榇嬖诖罅康腛而被單任務(wù)模型預(yù)測(cè)為O, 而多任務(wù)減少了這種情況.
結(jié)合實(shí)驗(yàn)預(yù)測(cè)標(biāo)簽情況對(duì)結(jié)果進(jìn)一步分析, 發(fā)現(xiàn)本研究所提出的模型捕獲了層級(jí)結(jié)構(gòu)信息, 利用這些信息能夠較好地判斷論點(diǎn)邊界, 進(jìn)而提升模型的性能. 如Hotel數(shù)據(jù)集中, 在1 k的單詞規(guī)模下提升了8.8%, 其他規(guī)模也提升了2%左右. 這是因?yàn)檎擖c(diǎn)部件長(zhǎng)度過(guò)長(zhǎng), 存在跨段部件時(shí), 基準(zhǔn)模型難以捕捉這一長(zhǎng)依賴信息, 使得預(yù)測(cè)的論點(diǎn)邊界過(guò)小而發(fā)生錯(cuò)誤, 而本研究模型利用層級(jí)結(jié)構(gòu)信息, 能夠捕獲長(zhǎng)依賴信息, 提升邊界的預(yù)測(cè)準(zhǔn)確度, 進(jìn)而提升了模型性能.
綜上所述, 與單任務(wù)學(xué)習(xí)模型和其他的基準(zhǔn)模型相比, 本研究的模型方法在大部分低資源的場(chǎng)景下都能取得一定的提升, 由此證明本研究方法在面向低資源場(chǎng)景下是有效的.
表3 不同低資源場(chǎng)景下各個(gè)模型的Macro-F1值
5.3.3在完整數(shù)據(jù)集場(chǎng)景下比較各個(gè)模型性能
雖然論辯挖掘任務(wù)目前仍缺少標(biāo)注數(shù)據(jù), 但隨著研究的進(jìn)行, 數(shù)據(jù)資源將不斷豐富. 因而, 所提方法還需考慮有足夠訓(xùn)練數(shù)據(jù)的場(chǎng)景. 因此, 將在完整數(shù)據(jù)集場(chǎng)景中比較各個(gè)模型性能, 以驗(yàn)證所提方法的有效性(表4). 從表4的實(shí)驗(yàn)結(jié)果可以看出, 本研究所提出的模型在完整數(shù)據(jù)的場(chǎng)景中較前面的基準(zhǔn)模型獲得了一定的提升. 其中Hotel較其他模型提升較為明顯, 這可能是因?yàn)镠otel論點(diǎn)部件長(zhǎng)度普遍較長(zhǎng)且標(biāo)簽多達(dá)7種, 其他模型難以解決這種長(zhǎng)依賴多標(biāo)簽問(wèn)題, 而本研究模型通過(guò)學(xué)習(xí)隱藏的層次信息, 可以較好地解決這類長(zhǎng)依賴問(wèn)題.
表4 完整數(shù)據(jù)集下各個(gè)模型的Macro-F1值
從對(duì)比實(shí)驗(yàn)中, 可以發(fā)現(xiàn)MTL模型所代表的多任務(wù)架構(gòu)較單任務(wù)性能有較大改善. 其在Essays數(shù)據(jù)集上提升最為顯著, 提升了3.74%, 而提升最少的Var和News也提升0.5%~1.0%, 說(shuō)明多任務(wù)方法是解決多個(gè)數(shù)據(jù)集論辯挖掘任務(wù)的有效方法.
綜上所述, 與單任務(wù)學(xué)習(xí)模型相比, 多任務(wù)學(xué)習(xí)模型能獲得較好的效果, 利用字符級(jí)信息模型也能進(jìn)一步提升性能. 而本研究方法較其他模型更加優(yōu)秀, 說(shuō)明本方法在完整數(shù)據(jù)集上也有不錯(cuò)的效果.
本研究提出一種面向低資源場(chǎng)景的多任務(wù)學(xué)習(xí)論辯挖掘方法. 該方法應(yīng)用多任務(wù)學(xué)習(xí)策略獲取多任務(wù)間的共享信息表示, 并引入ON-LSTM, 最后通過(guò)條件隨機(jī)場(chǎng)進(jìn)行標(biāo)注. 通過(guò)與現(xiàn)有方法的實(shí)驗(yàn)結(jié)果對(duì)比, 證明所提方法利用多任務(wù)可有效解決論辯挖掘任務(wù)缺乏數(shù)據(jù)的問(wèn)題, 同時(shí)解決跨段論點(diǎn)部件難以檢測(cè)的問(wèn)題. 接下來(lái)的研究中, 將繼續(xù)探索如何更加有效地利用資源以提升模型性能, 促進(jìn)論辯挖掘在新興領(lǐng)域中的應(yīng)用.