張世奇,馬 進(jìn),周夏冰,賈 昊,陳文亮,張 民
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
屬性抽取任務(wù)是從非結(jié)構(gòu)化文本中抽取出與實(shí)體相關(guān)的屬性值。屬性抽取作為構(gòu)建知識(shí)圖譜[1]的重要環(huán)節(jié),可以用于拓展實(shí)體節(jié)點(diǎn)屬性。在事件抽取任務(wù)中,可以用于識(shí)別出事件的特有屬性;在信息檢索領(lǐng)域,可以提供關(guān)鍵詞的支持;還可應(yīng)用于智能問答系統(tǒng)中,輔助抽取問句中三元組信息。
面對(duì)海量數(shù)據(jù),屬性抽取可抽取出與實(shí)體節(jié)點(diǎn)相關(guān)的屬性和屬性值,是構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù)。在電商知識(shí)圖譜中,屬性抽取是對(duì)電商平臺(tái)評(píng)論文本、社交媒體數(shù)據(jù)等進(jìn)行分析,獲得屬性和屬性值對(duì),從而達(dá)到擴(kuò)充電商知識(shí)圖譜的目的。由于相關(guān)數(shù)據(jù)源源不斷地產(chǎn)生,如何高效地從電商數(shù)據(jù)中抽取出與商品相關(guān)的屬性信息就顯得尤為重要。
在本文中,主要任務(wù)是商品屬性抽取,即從無標(biāo)注文本中抽取出給定商品類目的屬性及其屬性值(1)類目是一小類商品的統(tǒng)稱。。例如,給定一個(gè)商品類目“衛(wèi)衣”及其描述文本“外貿(mào)男士秋季連帽衛(wèi)衣出色拼接拉絨布嘻哈衛(wèi)衣大碼外套”,目標(biāo)是從描述文本中抽取與“衛(wèi)衣”相關(guān)的屬性及屬性值,如“材質(zhì)-拉絨布”、“風(fēng)格-嘻哈”,其中,“材質(zhì)”和“風(fēng)格”是“衛(wèi)衣”的屬性,“拉絨布”和“嘻哈”是相應(yīng)的屬性值。
現(xiàn)有屬性抽取方法主要分為基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?;谝?guī)則的方法需要人工構(gòu)造特征模板,并利用模板從文本中匹配屬性值?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法通常使用有監(jiān)督學(xué)習(xí)的方式抽取屬性值?;谏疃葘W(xué)習(xí)的方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory Network,LSTM)等神經(jīng)網(wǎng)絡(luò)模型抽取屬性值?;谝?guī)則的方法嚴(yán)重依賴人工構(gòu)造模板,而基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法需要大量標(biāo)注語(yǔ)料。
本文采用深度學(xué)習(xí)模型在電商場(chǎng)景下進(jìn)行屬性抽取。因電商數(shù)據(jù)包含的屬性種類繁多、缺乏標(biāo)注語(yǔ)料且人工標(biāo)注成本過高,我們使用遠(yuǎn)程監(jiān)督方法(Distant Supervision,DS)標(biāo)注語(yǔ)料,語(yǔ)料來源于微博文本、電商平臺(tái)商品標(biāo)題、用戶評(píng)論數(shù)據(jù)。遠(yuǎn)程監(jiān)督利用<類目名稱,屬性類型,屬性值>,通過對(duì)齊三元組和句子的屬性及屬性值完成標(biāo)注。三元組來源于人工構(gòu)建的屬性詞典,規(guī)模有限,致使遠(yuǎn)程監(jiān)督標(biāo)注易出現(xiàn)漏標(biāo)問題,因此我們提出了基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督方法(Distant Supervision Based on Extended Triples,EXDS)。本方法以商品類目之間存在屬性值重疊和相似類目可進(jìn)行屬性、屬性值擴(kuò)充為約束條件,彌補(bǔ)了遠(yuǎn)程監(jiān)督標(biāo)注時(shí)有限三元組覆蓋度不足的缺點(diǎn),有效緩解了漏標(biāo)問題。同時(shí)為精準(zhǔn)評(píng)估系統(tǒng)性能,我們采用人工標(biāo)注方式構(gòu)建測(cè)試集。我們利用多種預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行領(lǐng)域內(nèi)和跨領(lǐng)域?qū)傩猿槿 ?shí)驗(yàn)表明,預(yù)訓(xùn)練語(yǔ)言模型可進(jìn)一步提高屬性抽取性能,增加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)能提升跨領(lǐng)域?qū)傩猿槿⌒Ч鰪?qiáng)模型的領(lǐng)域適應(yīng)性。
目前在屬性抽取領(lǐng)域,研究人員大都基于在特定領(lǐng)域構(gòu)建的語(yǔ)料。康睿智等人[2]利用軍事網(wǎng)頁(yè)中的文本構(gòu)建了面向軍事領(lǐng)域的語(yǔ)料,張巧等人[3]基于美國(guó)10所大學(xué)的導(dǎo)師頁(yè)面構(gòu)建了用于主頁(yè)人物屬性抽取的語(yǔ)料。TAC KBP競(jìng)賽提供了大型英文屬性抽取語(yǔ)料庫(kù),該語(yǔ)料庫(kù)要經(jīng)過繁瑣的預(yù)處理才能使用。KnowledgeNet[4]是一個(gè)用于構(gòu)建知識(shí)圖譜的數(shù)據(jù)集,可用于屬性抽取任務(wù)。該數(shù)據(jù)集給出了相對(duì)完善的訓(xùn)練數(shù)據(jù),其中包含了大量人工標(biāo)注的數(shù)據(jù)。但是這些人工標(biāo)注的數(shù)據(jù)存在很多冗余,測(cè)試集也并未公開,數(shù)據(jù)預(yù)處理繁瑣,不易于研究人員開展相關(guān)研究工作。
在屬性抽取方面,早期的工作大都基于規(guī)則或者機(jī)器學(xué)習(xí)算法來進(jìn)行,例如,Vandic等人[5]利用領(lǐng)域詞典進(jìn)行屬性抽取任務(wù),Ghani等人[6]利用監(jiān)督學(xué)習(xí)的方式抽取出與商品相關(guān)的屬性值。本文基于電商領(lǐng)域?qū)傩猿槿?shù)據(jù)集,利用序列標(biāo)注的思想處理屬性抽取任務(wù)。近年來,眾多研究人員將神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)(CRF)[7]結(jié)合,在屬性抽取任務(wù)上進(jìn)行了一系列探索。馬進(jìn)等人[8]利用雙向長(zhǎng)短時(shí)記憶-條件隨機(jī)場(chǎng)(BiLSTM-CRF)的方法進(jìn)行百科人物屬性抽取,Zheng等人[9]利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)、CRF和注意力機(jī)制從標(biāo)題中抽取相關(guān)屬性值,Xu等人[10]在電商領(lǐng)域使用注意力機(jī)制結(jié)合BiLSTM-CRF,捕獲商品標(biāo)題內(nèi)在的語(yǔ)義聯(lián)系。隨著預(yù)訓(xùn)練語(yǔ)言模型的興起,BERT[11]、ALBERT[12]、RoBERTa[13]、ELECTRA[14]以及XLNet[15]等一眾預(yù)訓(xùn)練語(yǔ)言模型均在序列標(biāo)注任務(wù)上有出色的表現(xiàn)。
遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注方法依賴于詞典資源和無標(biāo)注語(yǔ)料,為此我們使用某電商平臺(tái)提供的數(shù)據(jù)資源,包括類目-商品對(duì)照表、類目屬性詞典和三類電商相關(guān)的文本數(shù)據(jù)。
類目-商品對(duì)照表有助于判斷商品的類目。在表中的單條數(shù)據(jù)由一個(gè)類目和一個(gè)商品構(gòu)成,如“褲子-運(yùn)動(dòng)褲”,其中“運(yùn)動(dòng)褲”是類目“褲子”包含的一個(gè)商品。一個(gè)類目可以包含多個(gè)商品。
類目屬性詞典共有950個(gè)類目、94種屬性和13 586種屬性值。詞典采用三元組的表示方式: <類目名,屬性名,屬性值>,屬性類型代表某個(gè)類目的固有屬性,每個(gè)屬性類型包含了若干屬性值。如三元組<衛(wèi)衣,風(fēng)格,復(fù)古>、<衛(wèi)衣,風(fēng)格,時(shí)尚>,類目“衛(wèi)衣”的屬性“風(fēng)格”包含了“復(fù)古”“時(shí)尚”兩個(gè)屬性值。
數(shù)據(jù)文件由微博、標(biāo)題、評(píng)論三個(gè)領(lǐng)域的數(shù)據(jù)組成,微博數(shù)據(jù)為微博頁(yè)面與商品有關(guān)的文本數(shù)據(jù);標(biāo)題數(shù)據(jù)來自電商網(wǎng)站中類目或商品的標(biāo)題文本;評(píng)論數(shù)據(jù)是電商平臺(tái)內(nèi)用戶對(duì)商品的評(píng)論文本。表1列出了三類數(shù)據(jù)的具體數(shù)目和平均長(zhǎng)度。數(shù)據(jù)文件的格式如表2所示,其中描述文本的來源是評(píng)論數(shù)據(jù),一級(jí)類目是男裝,二級(jí)類目是衛(wèi)衣,一級(jí)類目包含二級(jí)類目。
表1 數(shù)據(jù)整體情況
表2 數(shù)據(jù)文件樣例
遠(yuǎn)程監(jiān)督(DS)利用已有的類目屬性詞典與文本數(shù)據(jù)中的類目進(jìn)行對(duì)齊,進(jìn)而在文本數(shù)據(jù)中標(biāo)注出類目的屬性及屬性值。在本文實(shí)驗(yàn)中,我們選擇顏色、風(fēng)格、材質(zhì)三種較為通用的屬性利用DS標(biāo)注數(shù)據(jù)。由于類目屬性詞典規(guī)模有限,無法包含所有相關(guān)的屬性值,所以DS標(biāo)注會(huì)造成較為嚴(yán)重的漏標(biāo)問題。
為緩解漏標(biāo)問題,我們提出了一種基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督標(biāo)注方法(EXDS)。其思想是在相似類目之間進(jìn)行屬性和屬性值的擴(kuò)充,彌補(bǔ)類目三元組屬性缺失和屬性值覆蓋度不足問題。本文首先統(tǒng)計(jì)類目屬性詞典中每個(gè)二級(jí)類目對(duì)應(yīng)的屬性及其屬性值,比對(duì)各個(gè)二級(jí)類目(不一定同屬于一個(gè)一級(jí)類目)之間相同屬性的屬性值,合并含有重疊屬性值的屬性。其次,統(tǒng)計(jì)數(shù)據(jù)文件中每一個(gè)一級(jí)類目包含的二級(jí)類目。最后,對(duì)各個(gè)一級(jí)類目包含的二級(jí)類目進(jìn)行屬性和屬性值的相互合并擴(kuò)充。
由表3可見,DS漏標(biāo)了大量的屬性值,特別是在微博和標(biāo)題數(shù)據(jù)上。表4統(tǒng)計(jì)了三類屬性值在兩種標(biāo)注方式下的分布情況。
表3 屬性值標(biāo)注數(shù)目表
表4 三類屬性統(tǒng)計(jì)表
圖1展示了兩種遠(yuǎn)程監(jiān)督方式,圖中給定了一個(gè)一級(jí)類目“男鞋”和對(duì)應(yīng)的二級(jí)類目“帆布鞋”“籃球鞋”,以及原始屬性詞典。目標(biāo)是對(duì)“帆布鞋”的描述文本“復(fù)古白色帆布鞋配水洗牛仔褲真好看”進(jìn)行標(biāo)注。原始屬性詞典中“帆布鞋”“籃球鞋”的“顏色”屬性存在重疊屬性值“黑色”,二者顏色屬性可進(jìn)行相互擴(kuò)充,“籃球鞋”的“顏色”屬性擴(kuò)展了“白色”屬性值。 “帆布鞋”“籃球鞋”屬于同一個(gè)一級(jí)類目,再對(duì)其含有的屬性互相擴(kuò)充,使二者含有彼此的屬性及其屬性值,其中“帆布鞋”獲得了屬性“風(fēng)格”和屬性值“復(fù)古”,擴(kuò)充結(jié)果見圖1的擴(kuò)充后屬性詞典。圖中DS標(biāo)注結(jié)果依賴原始屬性詞典,由于“帆布鞋”缺少“風(fēng)格”屬性,漏標(biāo)了屬性值“復(fù)古”。EXDS標(biāo)注的結(jié)果由擴(kuò)充后的的屬性詞典得到,“帆布鞋”的屬性和屬性值擴(kuò)充后擁有了“籃球鞋”的“風(fēng)格”屬性及屬性值,該方式有助于在標(biāo)注時(shí)緩解漏標(biāo)問題。
圖1 遠(yuǎn)程監(jiān)督標(biāo)注
由于遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)難免存在錯(cuò)誤,為了準(zhǔn)確評(píng)估系統(tǒng)性能,我們構(gòu)建了一份近6 000條的人工標(biāo)注數(shù)據(jù)。這份人工標(biāo)注數(shù)據(jù)標(biāo)注了描述文本中與類目相關(guān)的屬性及屬性值,包含2 000條微博數(shù)據(jù),2 000條標(biāo)題數(shù)據(jù)和1 998條評(píng)論數(shù)據(jù)。
為評(píng)估EXDS的標(biāo)注效果,我們基于DS和EXDS在三類數(shù)據(jù)的測(cè)試集上進(jìn)行標(biāo)注,使用人工標(biāo)注的測(cè)試集測(cè)試。由表5可見,EXDS損失了部分準(zhǔn)確率,但是大幅提高了召回率,且EXDS的F值遠(yuǎn)好于DS,說明EXDS會(huì)引入部分錯(cuò)標(biāo),但能大幅提高正確標(biāo)注的覆蓋率,可有效擴(kuò)展類目屬性詞典,增強(qiáng)其屬性值覆蓋度、提高標(biāo)注的整體質(zhì)量。
表5 DS與EXDS標(biāo)注效果評(píng)估
本節(jié)以類目、商品、屬性值的分布情況展示三類數(shù)據(jù)的特點(diǎn),采用兩種匹配方式統(tǒng)計(jì)類目和商品的分布。
表6為平均每句類目種類數(shù)和商品種類數(shù)的統(tǒng)計(jì)結(jié)果。表中方式一利用商品對(duì)文本進(jìn)行精確匹配,并統(tǒng)計(jì)商品對(duì)應(yīng)的類目,其得到的類目種類數(shù)多于商品種類數(shù),可見數(shù)據(jù)中存在一個(gè)商品包含在多個(gè)類目中的情況。方式二分別用類目和商品對(duì)文本進(jìn)行匹配,結(jié)果顯示匹配得到的類目種類數(shù)小于1,即二級(jí)類目不會(huì)顯式出現(xiàn)在所有描述文本中。表7統(tǒng)計(jì)了屬性值分布情況,由表中結(jié)果可得,微博和標(biāo)題數(shù)據(jù)屬于高密度屬性值數(shù)據(jù),評(píng)論數(shù)據(jù)屬于低密度屬性值數(shù)據(jù)。
表6 平均每句類目及商品種類數(shù)
表7 屬性值分布表
基于電商場(chǎng)景的屬性抽取任務(wù),不僅要識(shí)別出文本中可能與類目有關(guān)系的屬性值,而且需要進(jìn)一步判斷出屬性值的屬性類型。本文將屬性抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù),使用序列標(biāo)注的方法在描述文本中標(biāo)注出類目的屬性及其屬性值。本文將BiLSTM-CRF以及ELMo-BiLSTM-CRF作為基線模型,并在多種預(yù)訓(xùn)練語(yǔ)言模型上進(jìn)行領(lǐng)域內(nèi)和跨領(lǐng)域的屬性抽取實(shí)驗(yàn)。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型,它有效解決了梯度消失與梯度爆炸的問題,但是LSTM只能學(xué)習(xí)單向的序列信息。本實(shí)驗(yàn)采用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM),由前向LSTM層和后向LSTM層組成,能夠獲取前向和后向的序列信息。
BiLSTM-CRF結(jié)構(gòu)圖如圖2(a)所示。
圖2 BiLSTM-CRF與BERT架構(gòu)圖
第一層是詞嵌入層,該層將輸入序列的字映射為向量表示。本文使用隨機(jī)初始化字向量作為詞嵌入層。
第二層是BiLSTM層,該層將向量矩陣輸入前向LSTM和后向LSTM,捕獲序列過去和未來的上下文信息。前向LSTM和后向LSTM的輸出按位置拼接得到BiLSTM層的輸出。
第三層是CRF層,該層主要學(xué)習(xí)序列中的約束條件,糾正BiLSTM輸出的錯(cuò)誤預(yù)測(cè)。對(duì)于輸入序列X=(x1,x2,…,xn),及其預(yù)測(cè)標(biāo)簽序列Y=(y1,y2,…,yn),其得分如式(1)所示。
(1)
其中,A為轉(zhuǎn)移得分矩陣,Ai,j是標(biāo)簽i轉(zhuǎn)移至標(biāo)簽j的得分,y0為標(biāo)簽序列的起始標(biāo)簽,yn是結(jié)束標(biāo)簽。經(jīng)歸一化可得標(biāo)簽序列的條件概率,如式(2)所示。
(2)
式(2)中,YX表示輸入序列X所有可能的標(biāo)簽序列集合,y代表正確的標(biāo)簽序列。訓(xùn)練模型時(shí)最大化式(2)中正確標(biāo)簽序列的對(duì)數(shù)似然概率。
(3)
對(duì)類目的描述文本標(biāo)注時(shí),選取式(3)中序列全局概率最大的結(jié)果y*作為最佳預(yù)測(cè)標(biāo)簽序列。
ELMo[16]是一種預(yù)訓(xùn)練語(yǔ)言模型,以BiLSTM作為其基本網(wǎng)絡(luò)結(jié)構(gòu)。ELMo通過利用BiLSTM各隱藏層的狀態(tài)信息,使ELMo-BiLSTM-CRF能夠進(jìn)一步學(xué)習(xí)輸入序列中的語(yǔ)義信息與句法信息。相較于BiLSTM-CRF,ELMo-BiLSTM-CRF能捕獲更豐富的上下文信息。
本文選擇BERT、ALBERT、RoBERTa、ELECTRA、XLNet五種預(yù)訓(xùn)練語(yǔ)言模型在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。
BERT使用堆疊雙向Transformer[17]架構(gòu),圖2(b)為BERT的架構(gòu)圖,其他預(yù)訓(xùn)練語(yǔ)言模型基本結(jié)構(gòu)與之類似。BERT預(yù)訓(xùn)練階段主要包含遮蔽語(yǔ)言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)任務(wù)(Next Sentence Prediction,NSP)。MLM采用靜態(tài)掩碼,即在預(yù)訓(xùn)練之前對(duì)序列進(jìn)行遮蔽操作。NSP通過預(yù)測(cè)兩個(gè)句子是否緊連在一起,使模型理解句子間的關(guān)系。BERT的不足之處在于僅在預(yù)訓(xùn)練階段引入[MASK]標(biāo)記,導(dǎo)致預(yù)訓(xùn)練階段與微調(diào)階段不一致;BERT假設(shè)每一個(gè)被遮蔽的部分與文本中沒有被遮蔽的部分是相互獨(dú)立的,這種假設(shè)極大簡(jiǎn)化了文本中的長(zhǎng)期依賴關(guān)系。
表8展示了ALBERT、RoBERTa、ELECTRA、XLNet相較于BERT的改進(jìn)。ALBERT相比于BERT模型,將詞嵌入矩陣進(jìn)行分解并實(shí)現(xiàn)跨層參數(shù)共享。ALBERT在預(yù)訓(xùn)練階段取消了NSP任務(wù),引入了句子順序預(yù)測(cè)任務(wù)(Sentence-Order Prediction,SOP),SOP更注重句子間的連貫性。
RoBERTa在預(yù)訓(xùn)練階段使用了更多的訓(xùn)練數(shù)據(jù),摒棄了NSP任務(wù)。不同于BERT在預(yù)訓(xùn)練時(shí)使用的靜態(tài)掩碼,RoBERTa在預(yù)訓(xùn)練時(shí)采用了動(dòng)態(tài)掩碼操作,對(duì)相同輸入序列采用不同的隨機(jī)遮蔽方式。
表8 預(yù)訓(xùn)練語(yǔ)言模型對(duì)比
XLNet結(jié)合了自回歸模型與自編碼模型的優(yōu)點(diǎn),針對(duì)BERT預(yù)訓(xùn)練和微調(diào)階段輸入不一致的問題,提出了排列語(yǔ)言模型(Permutation Language Model,PLM)和雙流自注意力機(jī)制(Two-Stream Self-Attention)。排列語(yǔ)言模型將序列重排使模型獲取不同的上下文信息。雙流自注意力機(jī)制使模型在預(yù)測(cè)當(dāng)前位置單詞時(shí),通過注意力遮蔽矩陣僅注意上下文和未被遮蔽的位置信息,解決了BERT預(yù)訓(xùn)練階段與微調(diào)階段不一致的問題。
ELECTRA基于生成對(duì)抗網(wǎng)絡(luò)的思想采用了新的預(yù)訓(xùn)練框架,采用生成器和判別器相結(jié)合的方式訓(xùn)練模型。ELECTRA將生成式的遮蔽語(yǔ)言模型改為判別一個(gè)單詞是否被替換過的任務(wù)(Replaced Token Detection,RTD)。ELECTRA把MLM作為生成器,預(yù)訓(xùn)練過程中生成器將生成序列中被遮蔽的單詞,其輸出結(jié)果輸入判別器,判斷序列中的單詞是原始的還是由生成器生成的。
本文利用DS和EXDS標(biāo)注領(lǐng)域內(nèi)屬性抽取訓(xùn)練數(shù)據(jù),將人工標(biāo)注數(shù)據(jù)作為測(cè)試集。我們基于標(biāo)注數(shù)據(jù)在基線模型與預(yù)訓(xùn)練語(yǔ)言模型上進(jìn)行領(lǐng)域內(nèi)商品屬性抽取實(shí)驗(yàn)。
本文分別將微博和標(biāo)題數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù),評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù),在各個(gè)預(yù)訓(xùn)練語(yǔ)言模型中將學(xué)習(xí)率調(diào)至開發(fā)集性能最優(yōu)的條件下進(jìn)行跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)。本文設(shè)置了兩組實(shí)驗(yàn),均使用EXDS構(gòu)建實(shí)驗(yàn)數(shù)據(jù)。
實(shí)驗(yàn)一: 僅用源領(lǐng)域數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。該實(shí)驗(yàn)主要用于對(duì)比領(lǐng)域數(shù)據(jù)間的差異,觀察不同預(yù)訓(xùn)練語(yǔ)言模型的性能損失。
實(shí)驗(yàn)二: 使用添加少量目標(biāo)領(lǐng)域數(shù)據(jù)的源領(lǐng)域數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。為證明添加少量目標(biāo)領(lǐng)域數(shù)據(jù)有效,實(shí)驗(yàn)二使用兩種不同的源數(shù)據(jù)進(jìn)行實(shí)驗(yàn),通過對(duì)比實(shí)驗(yàn)一的結(jié)果驗(yàn)證其有效性。
在本文實(shí)驗(yàn)中,我們使用DS和EXDS(詳見2.2節(jié))兩種方式自動(dòng)標(biāo)注數(shù)據(jù),分為訓(xùn)練集和開發(fā)集,而測(cè)試集使用人工標(biāo)注數(shù)據(jù),其中訓(xùn)練集包括12 000條微博和標(biāo)題數(shù)據(jù),6 000條評(píng)論數(shù)據(jù)(評(píng)論數(shù)據(jù)符合遠(yuǎn)程監(jiān)督標(biāo)注條件的較少),開發(fā)集包括2 000條微博和標(biāo)題數(shù)據(jù),1 000條評(píng)論數(shù)據(jù)??珙I(lǐng)域?qū)嶒?yàn)數(shù)據(jù)如表9所示,實(shí)驗(yàn)采用EXDS自動(dòng)標(biāo)注數(shù)據(jù)。
表9 跨領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)
我們針對(duì)基線模型設(shè)置多組超參數(shù)進(jìn)行實(shí)驗(yàn),選擇在開發(fā)集上表現(xiàn)最優(yōu)的超參數(shù)組合作為基線模型的超參數(shù),其設(shè)置如表10所示。本文使用中文語(yǔ)料訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型,五種預(yù)訓(xùn)練語(yǔ)言模型均使用隱層大小為768,包含12個(gè)隱層和12頭注意力規(guī)模的模型。預(yù)訓(xùn)練語(yǔ)言模型對(duì)學(xué)習(xí)率比較敏感,我們根據(jù)預(yù)訓(xùn)練語(yǔ)言模型在開發(fā)集上的最佳性能選擇模型的學(xué)習(xí)率,如表11所示。
表10 基線模型超參數(shù)
表11 預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)率
本節(jié)分別使用DS和EXDS構(gòu)造訓(xùn)練標(biāo)注數(shù)據(jù),使用人工標(biāo)注數(shù)據(jù)作為測(cè)試集。表12是基線模型和預(yù)訓(xùn)練語(yǔ)言模型的領(lǐng)域內(nèi)實(shí)驗(yàn)結(jié)果,F(xiàn)(OOV)用于評(píng)估模型識(shí)別類目屬性詞典之外的新屬性值的能力。從表12可以看出,各個(gè)模型使用EXDS的效果都遠(yuǎn)好于DS。DS實(shí)驗(yàn)結(jié)果顯示,多數(shù)預(yù)訓(xùn)練語(yǔ)言模型的實(shí)驗(yàn)結(jié)果低于基線模型,而EXDS的結(jié)果則相反。原因一方面是類目屬性詞典的屬性和屬性值并不完備,僅能覆蓋部分?jǐn)?shù)據(jù),導(dǎo)致DS漏標(biāo)大量屬性值;另一方面,預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)能力較強(qiáng),使用包含大量漏標(biāo)的數(shù)據(jù)訓(xùn)練系統(tǒng),易誤導(dǎo)系統(tǒng)預(yù)測(cè)。依據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),所有模型的EXDS結(jié)果明顯好于DS,大多數(shù)預(yù)訓(xùn)練語(yǔ)言模型在EXDS上的結(jié)果優(yōu)于基線模型。其中,XLNet和ELECTRA在評(píng)論和標(biāo)題數(shù)據(jù)中表現(xiàn)較為突出;在微博數(shù)據(jù)上BERT的性能最好。
表12 領(lǐng)域內(nèi)屬性抽取實(shí)驗(yàn)結(jié)果
在OOV方面,絕大多數(shù)模型利用EXDS構(gòu)建的標(biāo)注數(shù)據(jù)訓(xùn)練可大幅提升其識(shí)別OOV的能力,該實(shí)驗(yàn)結(jié)果進(jìn)一步證明了EXDS標(biāo)注方式能有效緩解漏標(biāo)問題。由此可見,漏標(biāo)不僅會(huì)損失模型識(shí)別詞典內(nèi)屬性及屬性值的性能,也會(huì)削弱模型識(shí)別未登錄屬性值的能力。在下文的實(shí)驗(yàn)中,如無特別說明,我們使用EXDS構(gòu)建標(biāo)注數(shù)據(jù)作為訓(xùn)練集。
我們首先用標(biāo)題數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù),評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù),進(jìn)行跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn),結(jié)果如表13所示。
表13 跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)
由實(shí)驗(yàn)結(jié)果可得:
(1) 跨領(lǐng)域?qū)嶒?yàn)一的F值相較于領(lǐng)域內(nèi)實(shí)驗(yàn)有明顯下滑。依據(jù)兩類數(shù)據(jù)的屬性值分布情況,我們發(fā)現(xiàn)標(biāo)題數(shù)據(jù)中屬性值的密度較高,而評(píng)論數(shù)據(jù)相反,因此僅使用源領(lǐng)域數(shù)據(jù)微調(diào)模型,易使模型偏向于建模大量屬性值與類目的上下文關(guān)系,導(dǎo)致實(shí)驗(yàn)一的結(jié)果較差。
(2) 跨領(lǐng)域?qū)嶒?yàn)二的F值接近領(lǐng)域內(nèi)實(shí)險(xiǎn)的F值。由標(biāo)題和評(píng)論的數(shù)據(jù)特點(diǎn)可知,標(biāo)題數(shù)據(jù)與評(píng)論數(shù)據(jù)長(zhǎng)度相似,且數(shù)據(jù)中屬性值大都與句子給定的類目有關(guān),數(shù)據(jù)噪聲小。因此,該實(shí)驗(yàn)訓(xùn)練集中的少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)有利于緩解由兩類數(shù)據(jù)間屬性值分布不一致造成的模型性能下降問題。
(3) 在識(shí)別未登錄屬性值方面,實(shí)驗(yàn)二中大部分預(yù)訓(xùn)練語(yǔ)言模型的F(OOV)值在實(shí)驗(yàn)一的基礎(chǔ)上有大幅提升,說明利用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)可提升模型識(shí)別未登錄屬性值的能力。
表14展示了將微博數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù),評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù),進(jìn)行跨領(lǐng)域?qū)傩猿槿〉膶?shí)驗(yàn)結(jié)果。
表14 跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)
根據(jù)實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn):
(1) 跨領(lǐng)域?qū)嶒?yàn)二中,ELMo-BiLSTM-CRF、RoBERTa和XLNet的性能在實(shí)驗(yàn)一的基礎(chǔ)上有明顯提升,說明ELMo-BiLSTM-CRF、RoBERTa和XLNet對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)更為敏感,能夠通過學(xué)習(xí)少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)增強(qiáng)其領(lǐng)域適應(yīng)性。
(2) 相較于跨領(lǐng)域?qū)嶒?yàn)一的結(jié)果,實(shí)驗(yàn)二中ALBERT、BERT和ELECTRA性能略微下降。我們通過對(duì)比微博、標(biāo)題與評(píng)論數(shù)據(jù)的異同,發(fā)現(xiàn)微博數(shù)據(jù)平均長(zhǎng)度大約為標(biāo)題和評(píng)論數(shù)據(jù)的兩倍,且含有較多與句子類目無關(guān)的商品,數(shù)據(jù)噪聲大,這增加了模型學(xué)習(xí)類目與屬性值之間的上下文信息的難度。故添加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)(約4%)不足以緩解數(shù)據(jù)差異和數(shù)據(jù)噪聲對(duì)ALBERT、BERT和ELECTRA帶來的影響。
(3) 在識(shí)別未登錄屬性值方面,跨領(lǐng)域?qū)嶒?yàn)二中大部分預(yù)訓(xùn)練語(yǔ)言模型的F(OOV)值相較于實(shí)驗(yàn)一有1%左右的提升,進(jìn)一步證明添加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)有效增強(qiáng)了模型識(shí)別未登錄屬性值的能力。
基于上述分析,得出以下結(jié)論:
(1) 跨領(lǐng)域?qū)傩猿槿〈嬖陬I(lǐng)域適應(yīng)問題。源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)在文本長(zhǎng)度、屬性值分布和數(shù)據(jù)噪聲上的差異,會(huì)導(dǎo)致模型在目標(biāo)領(lǐng)域產(chǎn)生不同程度的性能損失。不同語(yǔ)言模型對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)的敏感度不同,可依據(jù)不同源領(lǐng)域數(shù)據(jù)對(duì)模型在目標(biāo)領(lǐng)域上的性能影響,選擇與源數(shù)據(jù)適配的模型。
(2) 在源領(lǐng)域中添加少量目標(biāo)領(lǐng)域數(shù)據(jù),有助于提升模型的領(lǐng)域適應(yīng)性,增強(qiáng)模型識(shí)別未登錄屬性值的能力,有效緩解部分領(lǐng)域標(biāo)注數(shù)據(jù)不足的問題。
(3) 選擇與目標(biāo)領(lǐng)域數(shù)據(jù)長(zhǎng)度相近,且含有較少數(shù)據(jù)噪聲的源領(lǐng)域數(shù)據(jù),有利于緩解數(shù)據(jù)間差異帶來的模型性能損失。
基于電商場(chǎng)景的屬性抽取任務(wù)依賴大量標(biāo)注語(yǔ)料,而人工標(biāo)注數(shù)據(jù)耗時(shí)耗力,常利用遠(yuǎn)程監(jiān)督的方式標(biāo)注語(yǔ)料。由于遠(yuǎn)程監(jiān)督標(biāo)注依賴類目屬性詞典,易造成數(shù)據(jù)漏標(biāo)且構(gòu)建的標(biāo)注語(yǔ)料有限。為解決以上問題,本文提供了適用于屬性抽取的電商數(shù)據(jù)集和高質(zhì)量人工標(biāo)注數(shù)據(jù),提出了EXDS標(biāo)注方法。本文基于多種預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行了領(lǐng)域內(nèi)和跨領(lǐng)域?qū)傩猿槿?,?shí)驗(yàn)證明預(yù)訓(xùn)練語(yǔ)言模型可有效提高商品屬性抽取性能。我們?cè)诳珙I(lǐng)域?qū)傩猿槿?shí)驗(yàn)中通過添加少量目標(biāo)領(lǐng)域訓(xùn)練樣本取得了較好的實(shí)驗(yàn)效果。
屬性抽取是構(gòu)建電商知識(shí)圖譜的重要手段之一。本文采用的EXDS標(biāo)注方法引入部分錯(cuò)標(biāo),會(huì)影響模型性能。此外,我們沒有深入研究復(fù)雜的跨領(lǐng)域?qū)傩猿槿》椒ǎ趯?shí)驗(yàn)設(shè)計(jì)上還有很大提升空間。未來的工作中,會(huì)考慮利用句法信息加強(qiáng)模型抽取屬性值的能力,并探索緩解遠(yuǎn)程監(jiān)督引入錯(cuò)標(biāo)的問題。