基于預(yù)訓(xùn)練語(yǔ)言模型的商品屬性抽取

2022-03-10 01:25張世奇周夏冰陳文亮

中文信息學(xué)報(bào) 2022年1期

張世奇，馬進(jìn)，周夏冰，賈昊，陳文亮，張民

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，江蘇蘇州 215006)

0 引言

屬性抽取任務(wù)是從非結(jié)構(gòu)化文本中抽取出與實(shí)體相關(guān)的屬性值。屬性抽取作為構(gòu)建知識(shí)圖譜[1]的重要環(huán)節(jié)，可以用于拓展實(shí)體節(jié)點(diǎn)屬性。在事件抽取任務(wù)中，可以用于識(shí)別出事件的特有屬性；在信息檢索領(lǐng)域，可以提供關(guān)鍵詞的支持；還可應(yīng)用于智能問答系統(tǒng)中，輔助抽取問句中三元組信息。

面對(duì)海量數(shù)據(jù)，屬性抽取可抽取出與實(shí)體節(jié)點(diǎn)相關(guān)的屬性和屬性值，是構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù)。在電商知識(shí)圖譜中，屬性抽取是對(duì)電商平臺(tái)評(píng)論文本、社交媒體數(shù)據(jù)等進(jìn)行分析，獲得屬性和屬性值對(duì)，從而達(dá)到擴(kuò)充電商知識(shí)圖譜的目的。由于相關(guān)數(shù)據(jù)源源不斷地產(chǎn)生，如何高效地從電商數(shù)據(jù)中抽取出與商品相關(guān)的屬性信息就顯得尤為重要。

在本文中，主要任務(wù)是商品屬性抽取，即從無標(biāo)注文本中抽取出給定商品類目的屬性及其屬性值(1)類目是一小類商品的統(tǒng)稱。。例如，給定一個(gè)商品類目“衛(wèi)衣”及其描述文本“外貿(mào)男士秋季連帽衛(wèi)衣出色拼接拉絨布嘻哈衛(wèi)衣大碼外套”，目標(biāo)是從描述文本中抽取與“衛(wèi)衣”相關(guān)的屬性及屬性值，如“材質(zhì)-拉絨布”、“風(fēng)格-嘻哈”，其中，“材質(zhì)”和“風(fēng)格”是“衛(wèi)衣”的屬性，“拉絨布”和“嘻哈”是相應(yīng)的屬性值。

現(xiàn)有屬性抽取方法主要分為基于規(guī)則的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法?；谝?guī)則的方法需要人工構(gòu)造特征模板，并利用模板從文本中匹配屬性值?；趥鹘y(tǒng)機(jī)器學(xué)習(xí)的方法通常使用有監(jiān)督學(xué)習(xí)的方式抽取屬性值?；谏疃葘W(xué)習(xí)的方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory Network，LSTM)等神經(jīng)網(wǎng)絡(luò)模型抽取屬性值?；谝?guī)則的方法嚴(yán)重依賴人工構(gòu)造模板，而基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的方法需要大量標(biāo)注語(yǔ)料。

本文采用深度學(xué)習(xí)模型在電商場(chǎng)景下進(jìn)行屬性抽取。因電商數(shù)據(jù)包含的屬性種類繁多、缺乏標(biāo)注語(yǔ)料且人工標(biāo)注成本過高，我們使用遠(yuǎn)程監(jiān)督方法(Distant Supervision，DS)標(biāo)注語(yǔ)料，語(yǔ)料來源于微博文本、電商平臺(tái)商品標(biāo)題、用戶評(píng)論數(shù)據(jù)。遠(yuǎn)程監(jiān)督利用<類目名稱，屬性類型，屬性值>，通過對(duì)齊三元組和句子的屬性及屬性值完成標(biāo)注。三元組來源于人工構(gòu)建的屬性詞典，規(guī)模有限，致使遠(yuǎn)程監(jiān)督標(biāo)注易出現(xiàn)漏標(biāo)問題，因此我們提出了基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督方法(Distant Supervision Based on Extended Triples，EXDS)。本方法以商品類目之間存在屬性值重疊和相似類目可進(jìn)行屬性、屬性值擴(kuò)充為約束條件，彌補(bǔ)了遠(yuǎn)程監(jiān)督標(biāo)注時(shí)有限三元組覆蓋度不足的缺點(diǎn)，有效緩解了漏標(biāo)問題。同時(shí)為精準(zhǔn)評(píng)估系統(tǒng)性能，我們采用人工標(biāo)注方式構(gòu)建測(cè)試集。我們利用多種預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行領(lǐng)域內(nèi)和跨領(lǐng)域?qū)傩猿槿　?shí)驗(yàn)表明，預(yù)訓(xùn)練語(yǔ)言模型可進(jìn)一步提高屬性抽取性能，增加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)能提升跨領(lǐng)域?qū)傩猿槿⌒Ч鰪?qiáng)模型的領(lǐng)域適應(yīng)性。

1 相關(guān)工作

目前在屬性抽取領(lǐng)域，研究人員大都基于在特定領(lǐng)域構(gòu)建的語(yǔ)料。康睿智等人[2]利用軍事網(wǎng)頁(yè)中的文本構(gòu)建了面向軍事領(lǐng)域的語(yǔ)料，張巧等人[3]基于美國(guó)10所大學(xué)的導(dǎo)師頁(yè)面構(gòu)建了用于主頁(yè)人物屬性抽取的語(yǔ)料。TAC KBP競(jìng)賽提供了大型英文屬性抽取語(yǔ)料庫(kù)，該語(yǔ)料庫(kù)要經(jīng)過繁瑣的預(yù)處理才能使用。KnowledgeNet[4]是一個(gè)用于構(gòu)建知識(shí)圖譜的數(shù)據(jù)集，可用于屬性抽取任務(wù)。該數(shù)據(jù)集給出了相對(duì)完善的訓(xùn)練數(shù)據(jù)，其中包含了大量人工標(biāo)注的數(shù)據(jù)。但是這些人工標(biāo)注的數(shù)據(jù)存在很多冗余，測(cè)試集也并未公開，數(shù)據(jù)預(yù)處理繁瑣，不易于研究人員開展相關(guān)研究工作。

在屬性抽取方面，早期的工作大都基于規(guī)則或者機(jī)器學(xué)習(xí)算法來進(jìn)行，例如，Vandic等人[5]利用領(lǐng)域詞典進(jìn)行屬性抽取任務(wù)，Ghani等人[6]利用監(jiān)督學(xué)習(xí)的方式抽取出與商品相關(guān)的屬性值。本文基于電商領(lǐng)域?qū)傩猿槿?shù)據(jù)集，利用序列標(biāo)注的思想處理屬性抽取任務(wù)。近年來，眾多研究人員將神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)(CRF)[7]結(jié)合，在屬性抽取任務(wù)上進(jìn)行了一系列探索。馬進(jìn)等人[8]利用雙向長(zhǎng)短時(shí)記憶-條件隨機(jī)場(chǎng)(BiLSTM-CRF)的方法進(jìn)行百科人物屬性抽取，Zheng等人[9]利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-LSTM)、CRF和注意力機(jī)制從標(biāo)題中抽取相關(guān)屬性值，Xu等人[10]在電商領(lǐng)域使用注意力機(jī)制結(jié)合BiLSTM-CRF，捕獲商品標(biāo)題內(nèi)在的語(yǔ)義聯(lián)系。隨著預(yù)訓(xùn)練語(yǔ)言模型的興起，BERT[11]、ALBERT[12]、RoBERTa[13]、ELECTRA[14]以及XLNet[15]等一眾預(yù)訓(xùn)練語(yǔ)言模型均在序列標(biāo)注任務(wù)上有出色的表現(xiàn)。

2 電商領(lǐng)域?qū)傩猿槿?shù)據(jù)集

2.1 數(shù)據(jù)源簡(jiǎn)介

遠(yuǎn)程監(jiān)督數(shù)據(jù)標(biāo)注方法依賴于詞典資源和無標(biāo)注語(yǔ)料，為此我們使用某電商平臺(tái)提供的數(shù)據(jù)資源，包括類目-商品對(duì)照表、類目屬性詞典和三類電商相關(guān)的文本數(shù)據(jù)。

類目-商品對(duì)照表有助于判斷商品的類目。在表中的單條數(shù)據(jù)由一個(gè)類目和一個(gè)商品構(gòu)成，如“褲子-運(yùn)動(dòng)褲”，其中“運(yùn)動(dòng)褲”是類目“褲子”包含的一個(gè)商品。一個(gè)類目可以包含多個(gè)商品。

類目屬性詞典共有950個(gè)類目、94種屬性和13 586種屬性值。詞典采用三元組的表示方式： <類目名，屬性名，屬性值>，屬性類型代表某個(gè)類目的固有屬性，每個(gè)屬性類型包含了若干屬性值。如三元組<衛(wèi)衣，風(fēng)格，復(fù)古>、<衛(wèi)衣，風(fēng)格，時(shí)尚>，類目“衛(wèi)衣”的屬性“風(fēng)格”包含了“復(fù)古”“時(shí)尚”兩個(gè)屬性值。

數(shù)據(jù)文件由微博、標(biāo)題、評(píng)論三個(gè)領(lǐng)域的數(shù)據(jù)組成，微博數(shù)據(jù)為微博頁(yè)面與商品有關(guān)的文本數(shù)據(jù)；標(biāo)題數(shù)據(jù)來自電商網(wǎng)站中類目或商品的標(biāo)題文本；評(píng)論數(shù)據(jù)是電商平臺(tái)內(nèi)用戶對(duì)商品的評(píng)論文本。表1列出了三類數(shù)據(jù)的具體數(shù)目和平均長(zhǎng)度。數(shù)據(jù)文件的格式如表2所示，其中描述文本的來源是評(píng)論數(shù)據(jù)，一級(jí)類目是男裝，二級(jí)類目是衛(wèi)衣，一級(jí)類目包含二級(jí)類目。

表1 數(shù)據(jù)整體情況

表2 數(shù)據(jù)文件樣例

2.2 基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督

遠(yuǎn)程監(jiān)督(DS)利用已有的類目屬性詞典與文本數(shù)據(jù)中的類目進(jìn)行對(duì)齊，進(jìn)而在文本數(shù)據(jù)中標(biāo)注出類目的屬性及屬性值。在本文實(shí)驗(yàn)中，我們選擇顏色、風(fēng)格、材質(zhì)三種較為通用的屬性利用DS標(biāo)注數(shù)據(jù)。由于類目屬性詞典規(guī)模有限，無法包含所有相關(guān)的屬性值，所以DS標(biāo)注會(huì)造成較為嚴(yán)重的漏標(biāo)問題。

為緩解漏標(biāo)問題，我們提出了一種基于擴(kuò)充三元組的遠(yuǎn)程監(jiān)督標(biāo)注方法(EXDS)。其思想是在相似類目之間進(jìn)行屬性和屬性值的擴(kuò)充，彌補(bǔ)類目三元組屬性缺失和屬性值覆蓋度不足問題。本文首先統(tǒng)計(jì)類目屬性詞典中每個(gè)二級(jí)類目對(duì)應(yīng)的屬性及其屬性值，比對(duì)各個(gè)二級(jí)類目(不一定同屬于一個(gè)一級(jí)類目)之間相同屬性的屬性值，合并含有重疊屬性值的屬性。其次，統(tǒng)計(jì)數(shù)據(jù)文件中每一個(gè)一級(jí)類目包含的二級(jí)類目。最后，對(duì)各個(gè)一級(jí)類目包含的二級(jí)類目進(jìn)行屬性和屬性值的相互合并擴(kuò)充。

由表3可見，DS漏標(biāo)了大量的屬性值，特別是在微博和標(biāo)題數(shù)據(jù)上。表4統(tǒng)計(jì)了三類屬性值在兩種標(biāo)注方式下的分布情況。

表3 屬性值標(biāo)注數(shù)目表

表4 三類屬性統(tǒng)計(jì)表

圖1展示了兩種遠(yuǎn)程監(jiān)督方式，圖中給定了一個(gè)一級(jí)類目“男鞋”和對(duì)應(yīng)的二級(jí)類目“帆布鞋”“籃球鞋”，以及原始屬性詞典。目標(biāo)是對(duì)“帆布鞋”的描述文本“復(fù)古白色帆布鞋配水洗牛仔褲真好看”進(jìn)行標(biāo)注。原始屬性詞典中“帆布鞋”“籃球鞋”的“顏色”屬性存在重疊屬性值“黑色”，二者顏色屬性可進(jìn)行相互擴(kuò)充，“籃球鞋”的“顏色”屬性擴(kuò)展了“白色”屬性值。 “帆布鞋”“籃球鞋”屬于同一個(gè)一級(jí)類目，再對(duì)其含有的屬性互相擴(kuò)充，使二者含有彼此的屬性及其屬性值，其中“帆布鞋”獲得了屬性“風(fēng)格”和屬性值“復(fù)古”，擴(kuò)充結(jié)果見圖1的擴(kuò)充后屬性詞典。圖中DS標(biāo)注結(jié)果依賴原始屬性詞典，由于“帆布鞋”缺少“風(fēng)格”屬性，漏標(biāo)了屬性值“復(fù)古”。EXDS標(biāo)注的結(jié)果由擴(kuò)充后的的屬性詞典得到，“帆布鞋”的屬性和屬性值擴(kuò)充后擁有了“籃球鞋”的“風(fēng)格”屬性及屬性值，該方式有助于在標(biāo)注時(shí)緩解漏標(biāo)問題。

圖1 遠(yuǎn)程監(jiān)督標(biāo)注

由于遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)難免存在錯(cuò)誤，為了準(zhǔn)確評(píng)估系統(tǒng)性能，我們構(gòu)建了一份近6 000條的人工標(biāo)注數(shù)據(jù)。這份人工標(biāo)注數(shù)據(jù)標(biāo)注了描述文本中與類目相關(guān)的屬性及屬性值，包含2 000條微博數(shù)據(jù)，2 000條標(biāo)題數(shù)據(jù)和1 998條評(píng)論數(shù)據(jù)。

為評(píng)估EXDS的標(biāo)注效果，我們基于DS和EXDS在三類數(shù)據(jù)的測(cè)試集上進(jìn)行標(biāo)注，使用人工標(biāo)注的測(cè)試集測(cè)試。由表5可見，EXDS損失了部分準(zhǔn)確率，但是大幅提高了召回率，且EXDS的F值遠(yuǎn)好于DS，說明EXDS會(huì)引入部分錯(cuò)標(biāo)，但能大幅提高正確標(biāo)注的覆蓋率，可有效擴(kuò)展類目屬性詞典，增強(qiáng)其屬性值覆蓋度、提高標(biāo)注的整體質(zhì)量。

表5 DS與EXDS標(biāo)注效果評(píng)估

2.3 數(shù)據(jù)特點(diǎn)

本節(jié)以類目、商品、屬性值的分布情況展示三類數(shù)據(jù)的特點(diǎn)，采用兩種匹配方式統(tǒng)計(jì)類目和商品的分布。

表6為平均每句類目種類數(shù)和商品種類數(shù)的統(tǒng)計(jì)結(jié)果。表中方式一利用商品對(duì)文本進(jìn)行精確匹配，并統(tǒng)計(jì)商品對(duì)應(yīng)的類目，其得到的類目種類數(shù)多于商品種類數(shù)，可見數(shù)據(jù)中存在一個(gè)商品包含在多個(gè)類目中的情況。方式二分別用類目和商品對(duì)文本進(jìn)行匹配，結(jié)果顯示匹配得到的類目種類數(shù)小于1，即二級(jí)類目不會(huì)顯式出現(xiàn)在所有描述文本中。表7統(tǒng)計(jì)了屬性值分布情況，由表中結(jié)果可得，微博和標(biāo)題數(shù)據(jù)屬于高密度屬性值數(shù)據(jù)，評(píng)論數(shù)據(jù)屬于低密度屬性值數(shù)據(jù)。

表6 平均每句類目及商品種類數(shù)

表7 屬性值分布表

3 屬性抽取模型

基于電商場(chǎng)景的屬性抽取任務(wù)，不僅要識(shí)別出文本中可能與類目有關(guān)系的屬性值，而且需要進(jìn)一步判斷出屬性值的屬性類型。本文將屬性抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注任務(wù)，使用序列標(biāo)注的方法在描述文本中標(biāo)注出類目的屬性及其屬性值。本文將BiLSTM-CRF以及ELMo-BiLSTM-CRF作為基線模型，并在多種預(yù)訓(xùn)練語(yǔ)言模型上進(jìn)行領(lǐng)域內(nèi)和跨領(lǐng)域的屬性抽取實(shí)驗(yàn)。

3.1 基線模型

長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型，它有效解決了梯度消失與梯度爆炸的問題，但是LSTM只能學(xué)習(xí)單向的序列信息。本實(shí)驗(yàn)采用雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)，由前向LSTM層和后向LSTM層組成，能夠獲取前向和后向的序列信息。

BiLSTM-CRF結(jié)構(gòu)圖如圖2(a)所示。

圖2 BiLSTM-CRF與BERT架構(gòu)圖

第一層是詞嵌入層，該層將輸入序列的字映射為向量表示。本文使用隨機(jī)初始化字向量作為詞嵌入層。

第二層是BiLSTM層，該層將向量矩陣輸入前向LSTM和后向LSTM，捕獲序列過去和未來的上下文信息。前向LSTM和后向LSTM的輸出按位置拼接得到BiLSTM層的輸出。

第三層是CRF層，該層主要學(xué)習(xí)序列中的約束條件，糾正BiLSTM輸出的錯(cuò)誤預(yù)測(cè)。對(duì)于輸入序列X=(x1,x2,…,xn)，及其預(yù)測(cè)標(biāo)簽序列Y=(y1,y2,…,yn)，其得分如式(1)所示。

(1)

其中，A為轉(zhuǎn)移得分矩陣，Ai,j是標(biāo)簽i轉(zhuǎn)移至標(biāo)簽j的得分，y0為標(biāo)簽序列的起始標(biāo)簽，yn是結(jié)束標(biāo)簽。經(jīng)歸一化可得標(biāo)簽序列的條件概率，如式(2)所示。

(2)

式(2)中，YX表示輸入序列X所有可能的標(biāo)簽序列集合，y代表正確的標(biāo)簽序列。訓(xùn)練模型時(shí)最大化式(2)中正確標(biāo)簽序列的對(duì)數(shù)似然概率。

(3)

對(duì)類目的描述文本標(biāo)注時(shí)，選取式(3)中序列全局概率最大的結(jié)果y*作為最佳預(yù)測(cè)標(biāo)簽序列。

ELMo[16]是一種預(yù)訓(xùn)練語(yǔ)言模型，以BiLSTM作為其基本網(wǎng)絡(luò)結(jié)構(gòu)。ELMo通過利用BiLSTM各隱藏層的狀態(tài)信息，使ELMo-BiLSTM-CRF能夠進(jìn)一步學(xué)習(xí)輸入序列中的語(yǔ)義信息與句法信息。相較于BiLSTM-CRF，ELMo-BiLSTM-CRF能捕獲更豐富的上下文信息。

3.2 預(yù)訓(xùn)練語(yǔ)言模型

本文選擇BERT、ALBERT、RoBERTa、ELECTRA、XLNet五種預(yù)訓(xùn)練語(yǔ)言模型在數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

BERT使用堆疊雙向Transformer[17]架構(gòu)，圖2(b)為BERT的架構(gòu)圖，其他預(yù)訓(xùn)練語(yǔ)言模型基本結(jié)構(gòu)與之類似。BERT預(yù)訓(xùn)練階段主要包含遮蔽語(yǔ)言模型(Masked Language Model，MLM)和下一句預(yù)測(cè)任務(wù)(Next Sentence Prediction，NSP)。MLM采用靜態(tài)掩碼，即在預(yù)訓(xùn)練之前對(duì)序列進(jìn)行遮蔽操作。NSP通過預(yù)測(cè)兩個(gè)句子是否緊連在一起，使模型理解句子間的關(guān)系。BERT的不足之處在于僅在預(yù)訓(xùn)練階段引入[MASK]標(biāo)記，導(dǎo)致預(yù)訓(xùn)練階段與微調(diào)階段不一致；BERT假設(shè)每一個(gè)被遮蔽的部分與文本中沒有被遮蔽的部分是相互獨(dú)立的，這種假設(shè)極大簡(jiǎn)化了文本中的長(zhǎng)期依賴關(guān)系。

表8展示了ALBERT、RoBERTa、ELECTRA、XLNet相較于BERT的改進(jìn)。ALBERT相比于BERT模型，將詞嵌入矩陣進(jìn)行分解并實(shí)現(xiàn)跨層參數(shù)共享。ALBERT在預(yù)訓(xùn)練階段取消了NSP任務(wù)，引入了句子順序預(yù)測(cè)任務(wù)(Sentence-Order Prediction，SOP)，SOP更注重句子間的連貫性。

RoBERTa在預(yù)訓(xùn)練階段使用了更多的訓(xùn)練數(shù)據(jù)，摒棄了NSP任務(wù)。不同于BERT在預(yù)訓(xùn)練時(shí)使用的靜態(tài)掩碼，RoBERTa在預(yù)訓(xùn)練時(shí)采用了動(dòng)態(tài)掩碼操作，對(duì)相同輸入序列采用不同的隨機(jī)遮蔽方式。

表8 預(yù)訓(xùn)練語(yǔ)言模型對(duì)比

XLNet結(jié)合了自回歸模型與自編碼模型的優(yōu)點(diǎn)，針對(duì)BERT預(yù)訓(xùn)練和微調(diào)階段輸入不一致的問題，提出了排列語(yǔ)言模型(Permutation Language Model，PLM)和雙流自注意力機(jī)制(Two-Stream Self-Attention)。排列語(yǔ)言模型將序列重排使模型獲取不同的上下文信息。雙流自注意力機(jī)制使模型在預(yù)測(cè)當(dāng)前位置單詞時(shí)，通過注意力遮蔽矩陣僅注意上下文和未被遮蔽的位置信息，解決了BERT預(yù)訓(xùn)練階段與微調(diào)階段不一致的問題。

ELECTRA基于生成對(duì)抗網(wǎng)絡(luò)的思想采用了新的預(yù)訓(xùn)練框架，采用生成器和判別器相結(jié)合的方式訓(xùn)練模型。ELECTRA將生成式的遮蔽語(yǔ)言模型改為判別一個(gè)單詞是否被替換過的任務(wù)(Replaced Token Detection，RTD)。ELECTRA把MLM作為生成器，預(yù)訓(xùn)練過程中生成器將生成序列中被遮蔽的單詞，其輸出結(jié)果輸入判別器，判斷序列中的單詞是原始的還是由生成器生成的。

4 實(shí)驗(yàn)設(shè)置

4.1 領(lǐng)域內(nèi)屬性抽取

本文利用DS和EXDS標(biāo)注領(lǐng)域內(nèi)屬性抽取訓(xùn)練數(shù)據(jù)，將人工標(biāo)注數(shù)據(jù)作為測(cè)試集。我們基于標(biāo)注數(shù)據(jù)在基線模型與預(yù)訓(xùn)練語(yǔ)言模型上進(jìn)行領(lǐng)域內(nèi)商品屬性抽取實(shí)驗(yàn)。

4.2 跨領(lǐng)域?qū)傩猿槿?/h3>
本文分別將微博和標(biāo)題數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù)，評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù)，在各個(gè)預(yù)訓(xùn)練語(yǔ)言模型中將學(xué)習(xí)率調(diào)至開發(fā)集性能最優(yōu)的條件下進(jìn)行跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)。本文設(shè)置了兩組實(shí)驗(yàn)，均使用EXDS構(gòu)建實(shí)驗(yàn)數(shù)據(jù)。
實(shí)驗(yàn)一：僅用源領(lǐng)域數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。該實(shí)驗(yàn)主要用于對(duì)比領(lǐng)域數(shù)據(jù)間的差異，觀察不同預(yù)訓(xùn)練語(yǔ)言模型的性能損失。
實(shí)驗(yàn)二：使用添加少量目標(biāo)領(lǐng)域數(shù)據(jù)的源領(lǐng)域數(shù)據(jù)微調(diào)預(yù)訓(xùn)練語(yǔ)言模型。為證明添加少量目標(biāo)領(lǐng)域數(shù)據(jù)有效，實(shí)驗(yàn)二使用兩種不同的源數(shù)據(jù)進(jìn)行實(shí)驗(yàn)，通過對(duì)比實(shí)驗(yàn)一的結(jié)果驗(yàn)證其有效性。

4.3 實(shí)驗(yàn)參數(shù)設(shè)置

在本文實(shí)驗(yàn)中，我們使用DS和EXDS(詳見2.2節(jié))兩種方式自動(dòng)標(biāo)注數(shù)據(jù)，分為訓(xùn)練集和開發(fā)集，而測(cè)試集使用人工標(biāo)注數(shù)據(jù)，其中訓(xùn)練集包括12 000條微博和標(biāo)題數(shù)據(jù)，6 000條評(píng)論數(shù)據(jù)(評(píng)論數(shù)據(jù)符合遠(yuǎn)程監(jiān)督標(biāo)注條件的較少)，開發(fā)集包括2 000條微博和標(biāo)題數(shù)據(jù)，1 000條評(píng)論數(shù)據(jù)?？珙I(lǐng)域?qū)嶒?yàn)數(shù)據(jù)如表9所示，實(shí)驗(yàn)采用EXDS自動(dòng)標(biāo)注數(shù)據(jù)。

表9 跨領(lǐng)域?qū)嶒?yàn)數(shù)據(jù)

我們針對(duì)基線模型設(shè)置多組超參數(shù)進(jìn)行實(shí)驗(yàn)，選擇在開發(fā)集上表現(xiàn)最優(yōu)的超參數(shù)組合作為基線模型的超參數(shù)，其設(shè)置如表10所示。本文使用中文語(yǔ)料訓(xùn)練的預(yù)訓(xùn)練語(yǔ)言模型，五種預(yù)訓(xùn)練語(yǔ)言模型均使用隱層大小為768，包含12個(gè)隱層和12頭注意力規(guī)模的模型。預(yù)訓(xùn)練語(yǔ)言模型對(duì)學(xué)習(xí)率比較敏感，我們根據(jù)預(yù)訓(xùn)練語(yǔ)言模型在開發(fā)集上的最佳性能選擇模型的學(xué)習(xí)率，如表11所示。

表10 基線模型超參數(shù)

表11 預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)率

5 實(shí)驗(yàn)結(jié)果

5.1 領(lǐng)域內(nèi)屬性抽取

本節(jié)分別使用DS和EXDS構(gòu)造訓(xùn)練標(biāo)注數(shù)據(jù)，使用人工標(biāo)注數(shù)據(jù)作為測(cè)試集。表12是基線模型和預(yù)訓(xùn)練語(yǔ)言模型的領(lǐng)域內(nèi)實(shí)驗(yàn)結(jié)果，F(xiàn)(OOV)用于評(píng)估模型識(shí)別類目屬性詞典之外的新屬性值的能力。從表12可以看出，各個(gè)模型使用EXDS的效果都遠(yuǎn)好于DS。DS實(shí)驗(yàn)結(jié)果顯示，多數(shù)預(yù)訓(xùn)練語(yǔ)言模型的實(shí)驗(yàn)結(jié)果低于基線模型，而EXDS的結(jié)果則相反。原因一方面是類目屬性詞典的屬性和屬性值并不完備，僅能覆蓋部分?jǐn)?shù)據(jù)，導(dǎo)致DS漏標(biāo)大量屬性值；另一方面，預(yù)訓(xùn)練語(yǔ)言模型學(xué)習(xí)能力較強(qiáng)，使用包含大量漏標(biāo)的數(shù)據(jù)訓(xùn)練系統(tǒng)，易誤導(dǎo)系統(tǒng)預(yù)測(cè)。依據(jù)實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，所有模型的EXDS結(jié)果明顯好于DS，大多數(shù)預(yù)訓(xùn)練語(yǔ)言模型在EXDS上的結(jié)果優(yōu)于基線模型。其中，XLNet和ELECTRA在評(píng)論和標(biāo)題數(shù)據(jù)中表現(xiàn)較為突出；在微博數(shù)據(jù)上BERT的性能最好。

表12 領(lǐng)域內(nèi)屬性抽取實(shí)驗(yàn)結(jié)果

在OOV方面，絕大多數(shù)模型利用EXDS構(gòu)建的標(biāo)注數(shù)據(jù)訓(xùn)練可大幅提升其識(shí)別OOV的能力，該實(shí)驗(yàn)結(jié)果進(jìn)一步證明了EXDS標(biāo)注方式能有效緩解漏標(biāo)問題。由此可見，漏標(biāo)不僅會(huì)損失模型識(shí)別詞典內(nèi)屬性及屬性值的性能，也會(huì)削弱模型識(shí)別未登錄屬性值的能力。在下文的實(shí)驗(yàn)中，如無特別說明，我們使用EXDS構(gòu)建標(biāo)注數(shù)據(jù)作為訓(xùn)練集。

5.2 跨領(lǐng)域?qū)傩猿槿?/h3>
我們首先用標(biāo)題數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù)，評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù)，進(jìn)行跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)，結(jié)果如表13所示。
表13 跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)
由實(shí)驗(yàn)結(jié)果可得：
(1) 跨領(lǐng)域?qū)嶒?yàn)一的F值相較于領(lǐng)域內(nèi)實(shí)驗(yàn)有明顯下滑。依據(jù)兩類數(shù)據(jù)的屬性值分布情況，我們發(fā)現(xiàn)標(biāo)題數(shù)據(jù)中屬性值的密度較高，而評(píng)論數(shù)據(jù)相反，因此僅使用源領(lǐng)域數(shù)據(jù)微調(diào)模型，易使模型偏向于建模大量屬性值與類目的上下文關(guān)系，導(dǎo)致實(shí)驗(yàn)一的結(jié)果較差。
(2) 跨領(lǐng)域?qū)嶒?yàn)二的F值接近領(lǐng)域內(nèi)實(shí)險(xiǎn)的F值。由標(biāo)題和評(píng)論的數(shù)據(jù)特點(diǎn)可知，標(biāo)題數(shù)據(jù)與評(píng)論數(shù)據(jù)長(zhǎng)度相似，且數(shù)據(jù)中屬性值大都與句子給定的類目有關(guān)，數(shù)據(jù)噪聲小。因此，該實(shí)驗(yàn)訓(xùn)練集中的少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)有利于緩解由兩類數(shù)據(jù)間屬性值分布不一致造成的模型性能下降問題。
(3) 在識(shí)別未登錄屬性值方面，實(shí)驗(yàn)二中大部分預(yù)訓(xùn)練語(yǔ)言模型的F(OOV)值在實(shí)驗(yàn)一的基礎(chǔ)上有大幅提升，說明利用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)可提升模型識(shí)別未登錄屬性值的能力。
表14展示了將微博數(shù)據(jù)作為源領(lǐng)域數(shù)據(jù)，評(píng)論數(shù)據(jù)作為目標(biāo)領(lǐng)域數(shù)據(jù)，進(jìn)行跨領(lǐng)域?qū)傩猿槿〉膶?shí)驗(yàn)結(jié)果。
表14 跨領(lǐng)域?qū)傩猿槿?shí)驗(yàn)
根據(jù)實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn)：
(1) 跨領(lǐng)域?qū)嶒?yàn)二中，ELMo-BiLSTM-CRF、RoBERTa和XLNet的性能在實(shí)驗(yàn)一的基礎(chǔ)上有明顯提升，說明ELMo-BiLSTM-CRF、RoBERTa和XLNet對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)更為敏感，能夠通過學(xué)習(xí)少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)增強(qiáng)其領(lǐng)域適應(yīng)性。
(2) 相較于跨領(lǐng)域?qū)嶒?yàn)一的結(jié)果，實(shí)驗(yàn)二中ALBERT、BERT和ELECTRA性能略微下降。我們通過對(duì)比微博、標(biāo)題與評(píng)論數(shù)據(jù)的異同，發(fā)現(xiàn)微博數(shù)據(jù)平均長(zhǎng)度大約為標(biāo)題和評(píng)論數(shù)據(jù)的兩倍，且含有較多與句子類目無關(guān)的商品，數(shù)據(jù)噪聲大，這增加了模型學(xué)習(xí)類目與屬性值之間的上下文信息的難度。故添加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)(約4%)不足以緩解數(shù)據(jù)差異和數(shù)據(jù)噪聲對(duì)ALBERT、BERT和ELECTRA帶來的影響。
(3) 在識(shí)別未登錄屬性值方面，跨領(lǐng)域?qū)嶒?yàn)二中大部分預(yù)訓(xùn)練語(yǔ)言模型的F(OOV)值相較于實(shí)驗(yàn)一有1%左右的提升，進(jìn)一步證明添加少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)有效增強(qiáng)了模型識(shí)別未登錄屬性值的能力。
基于上述分析，得出以下結(jié)論：
(1) 跨領(lǐng)域?qū)傩猿槿〈嬖陬I(lǐng)域適應(yīng)問題。源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)在文本長(zhǎng)度、屬性值分布和數(shù)據(jù)噪聲上的差異，會(huì)導(dǎo)致模型在目標(biāo)領(lǐng)域產(chǎn)生不同程度的性能損失。不同語(yǔ)言模型對(duì)目標(biāo)領(lǐng)域數(shù)據(jù)的敏感度不同，可依據(jù)不同源領(lǐng)域數(shù)據(jù)對(duì)模型在目標(biāo)領(lǐng)域上的性能影響，選擇與源數(shù)據(jù)適配的模型。
(2) 在源領(lǐng)域中添加少量目標(biāo)領(lǐng)域數(shù)據(jù)，有助于提升模型的領(lǐng)域適應(yīng)性，增強(qiáng)模型識(shí)別未登錄屬性值的能力，有效緩解部分領(lǐng)域標(biāo)注數(shù)據(jù)不足的問題。
(3) 選擇與目標(biāo)領(lǐng)域數(shù)據(jù)長(zhǎng)度相近，且含有較少數(shù)據(jù)噪聲的源領(lǐng)域數(shù)據(jù)，有利于緩解數(shù)據(jù)間差異帶來的模型性能損失。

6 總結(jié)與展望

基于電商場(chǎng)景的屬性抽取任務(wù)依賴大量標(biāo)注語(yǔ)料，而人工標(biāo)注數(shù)據(jù)耗時(shí)耗力，常利用遠(yuǎn)程監(jiān)督的方式標(biāo)注語(yǔ)料。由于遠(yuǎn)程監(jiān)督標(biāo)注依賴類目屬性詞典，易造成數(shù)據(jù)漏標(biāo)且構(gòu)建的標(biāo)注語(yǔ)料有限。為解決以上問題，本文提供了適用于屬性抽取的電商數(shù)據(jù)集和高質(zhì)量人工標(biāo)注數(shù)據(jù)，提出了EXDS標(biāo)注方法。本文基于多種預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行了領(lǐng)域內(nèi)和跨領(lǐng)域?qū)傩猿槿?，?shí)驗(yàn)證明預(yù)訓(xùn)練語(yǔ)言模型可有效提高商品屬性抽取性能。我們?cè)诳珙I(lǐng)域?qū)傩猿槿?shí)驗(yàn)中通過添加少量目標(biāo)領(lǐng)域訓(xùn)練樣本取得了較好的實(shí)驗(yàn)效果。

屬性抽取是構(gòu)建電商知識(shí)圖譜的重要手段之一。本文采用的EXDS標(biāo)注方法引入部分錯(cuò)標(biāo)，會(huì)影響模型性能。此外，我們沒有深入研究復(fù)雜的跨領(lǐng)域?qū)傩猿槿》椒ǎ趯?shí)驗(yàn)設(shè)計(jì)上還有很大提升空間。未來的工作中，會(huì)考慮利用句法信息加強(qiáng)模型抽取屬性值的能力，并探索緩解遠(yuǎn)程監(jiān)督引入錯(cuò)標(biāo)的問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡