王仁武 孟現(xiàn)茹 孔琦
〔摘 要〕[目的/意義]研究利用深度學習的循環(huán)神經(jīng)網(wǎng)絡GRU結合條件隨機場CRF對標注的中文文本序列進行預測,來抽取在線評論文本中的實體—屬性。[方法/過程]首先根據(jù)設計好的文本序列標注規(guī)范,對評論語料分詞后進行實體及其屬性的命名實體標注,得到單詞序列、詞性序列和標注序列;然后將單詞序列、詞性序列轉為分布式詞向量表示并用于GRU循環(huán)神經(jīng)網(wǎng)絡的輸入;最后輸出層采用條件隨機場CRF,輸出標簽即是實體或屬性。[結果/結論]實驗結果表明,本文的方法將實體—屬性抽取簡化為命名實體標注,并利用深度學習的GRU捕獲輸入數(shù)據(jù)的上下文語義以及條件隨機場CRF獲取輸出標簽的前后關系,比傳統(tǒng)的基于規(guī)則或一般的機器學習方法具有較大的應用優(yōu)勢。
〔關鍵詞〕實體屬性抽??;GRU;循環(huán)神經(jīng)網(wǎng)絡;條件隨機場;命名實體識別
DOI:10.3969/j.issn.1008-0821.2018.10.009
〔中圖分類號〕TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)10-0057-08
〔Abstract〕[Purpose/Significance]The study used the recurrent neural network GRU combined conditional random field CRF to predict the annotated Chinese sequence text to extract the entity-attribute in the online review text.[Method/Process]Firstly,according to the designed annotation specification to a text sequence,the paper made name entity annotations for entities and their attributes after the segmentation of corpus,and got word sequence,part of speech sequence and annotation sequence;Then the word sequence and part-of-speech sequence were converted into distributed word vector representation and used for input of GRU recurrent neural network;finally,the output layer used the conditional random field CRF and the output label was the entity or attribute.[Result/Conclusion]The method in this paper simplified entity-attribute extraction to named entity annotation,and used GRU to capture the contextual semantics of input data and conditional random field CRF to obtain the output label context,which had a larger application advantage than the traditional rule based or general machine learning method.
〔Key words〕entity attribute extraction;GRU;RNN;CRF;NER
實體—屬性抽取是從非結構的文本數(shù)據(jù)中抽取有價值的語義單元的重要手段,是信息抽取、觀點挖掘、智能檢索、自動問答、知識圖譜等構建任務的基礎。實體—屬性抽取屬于自動內(nèi)容抽?。ˋutomatic Content Extraction,ACE)的研究范疇。美國國家標準與技術研究院(National Institute of Standards and Technology,NIST)組織開展了系列ACE測評會議。ACE會議旨在研究自動抽取出新聞語料中的實體、關系以及事件等內(nèi)容[1]。ACE的目標是發(fā)展包括自動識別和標識文本在內(nèi)的自動內(nèi)容抽取技術,以支持對語料庫的自動處理[2]。
本文研究的實體是文本中描述的對象,或者說是文本中包含的特定事實信息,例如產(chǎn)品評論中的產(chǎn)品、服務、商家等。與此對應,屬性是描述產(chǎn)品或服務的特定屬性的特征,例如,屬性的一些示例是品牌、顏色、材料、包裝、價格、質量等。屬性值是賦予屬性的特定值。涉及到實體的研究,使用比較多的方法是命名實體識別。在命名實體識別研究中,MUC-6[3]中命名實體類型分為3大類(實體類、時間類和數(shù)字類)和7小類(機構名、地名、人名、日期、時間、百分比和貨幣)。隨著研究的深入和社會的發(fā)展,一些新的實體類型逐漸成為研究熱點,例如醫(yī)學生物信息、商業(yè)信息等。在大數(shù)據(jù)時代,我們生活中絕大多數(shù)的數(shù)據(jù)都是非結構的文本數(shù)據(jù),我們已淹沒在非結構化數(shù)據(jù)的海洋之中。實體識別與實體—屬性抽取已經(jīng)成為非結構化文本理解的一個重要手段。
在本文研究中,我們充分利用循環(huán)神經(jīng)網(wǎng)絡捕捉文本上下文語義的能力來抽取文本中的實體與屬性。首先利用命名實體標注的方法來標注文本中的實體與屬性形成實驗語料,然后利用循環(huán)神經(jīng)網(wǎng)絡(本文使用GRU)來訓練標注好的語料,網(wǎng)絡輸出層使用條件隨機場(CRF),好處是在輸出時也能利用標注標簽之間的先后關系,提高輸出的準確率。本文方法的思路來源于深度學習強大的無監(jiān)督自主學習的能力,避免了傳統(tǒng)機器學習比較耗時且復雜的特征工程。實驗表明,本文的實體—屬性抽取方法,利用GRU+CRF,可以取得較好的效果。
本文余下部分的結構安排:第1部分相關的研究工作情況;第2部分模型框架;第3部分語料標注;第4部分實驗與分析評估;第5部分總結與展望。
1 相關研究
自20世紀80年代開始召開的信息理解會議MUC(Message Understanding Conferences)和自動內(nèi)容抽取ACE評測會議等多個信息抽取領域的會議極大地推動了信息抽取技術的發(fā)展。本世紀ACE評測已經(jīng)舉辦了八屆,經(jīng)過多年發(fā)展,當前對信息的提取已經(jīng)有一些研究成果[4],信息抽取的研究方法主要有以下兩種:模式匹配方法和機器學習方法?;谀J狡ヅ涞姆椒▽χR的表達比較直觀、自然,類似于規(guī)則,更接近人的思維方式。模式匹配多是面向領域的,準確率較高;基于機器學習方法靈活性較好,不需要太多的背景知識,但是它需要大規(guī)模的語料庫支持以及手工標注。
在基于機器學習的實體屬性抽取方面,Liu H等[5]利用屬性值信息和最大熵模型構造屬性與標簽之間的映射關系,并對實體實例進行標注,然后,將隱馬爾可夫模型應用于相關實體屬性提取。Li C X等[6]則提出了一種基于實體屬性分類的Web實體抽取方法,使用Libsvm分類器對物品的實體與屬性進行分類抽取。曾道建等[7]將屬性抽取看作是一個序列標注問題,利用百度百科信息框已有的結構化內(nèi)容來自動產(chǎn)生訓練數(shù)據(jù),然后使用條件隨機場(CRF)作為分類器來從非結構化文本中抽取屬性。劉倩等[8]在實體屬性抽取的進一步研究中提出了利用全局信息構造神經(jīng)網(wǎng)絡感知器模型來抽取實體屬性,整體效果優(yōu)于傳統(tǒng)的CRF。
近年來,隨著深度學習在圖像領域應用的成功,不少學者開始關注深度學習在信息抽取方面的應用。Zhong B等[9]通過構造深度信念網(wǎng)(Deep Belief Network)來進行實體屬性抽取。蘇豐龍等[10]將深度學習框架的詞語嵌入表示方法(Word Embedding)引入到領域實體屬性抽取研究中,方法是采用詞的聚類方法,在無監(jiān)督條件下解決大規(guī)模語料、領域實體屬性詞表人工參與構建代價較高的問題。Gridach M等人[11]使用循環(huán)神經(jīng)網(wǎng)絡GRU結合CRF進行了推特文本中的法文文本的命名實體識別,而Huang Z等人[12]則研究利用循環(huán)神經(jīng)網(wǎng)絡BiLSTM結合CRF對英文語料CoNLL2000、CoNLL2003文進行NER,都取得了較好的效果。
由于傳統(tǒng)的機器學習其分類算法的數(shù)據(jù)來自有限數(shù)據(jù)集合L=(X,y),其中X為輸入樣本并以二維數(shù)組形式給出,形狀為n_samples×m_features,即n個樣本,m個特征;輸出值以數(shù)組y的形式給出,并以y中的Symbolic(符號)值表示。傳統(tǒng)的機器學習的質量嚴重受制于X數(shù)據(jù)的獲得與處理,需要繁瑣的特征工程(即m_features的獲得過程)來進行處理,它主要依靠設計者的先驗知識,很難利用大數(shù)據(jù)的優(yōu)勢,而且還不一定能取得好的效果。而深度學習與傳統(tǒng)機器學習方法最大不同之處在于它能從數(shù)據(jù)中自動學習特征。例如,傳統(tǒng)的圖像分類,要識別圖片中的貓,需要設計好的特征,給出貓的胡須、耳朵、眼睛等特征,而深度學習,只需標注圖片是否是貓即可,剩下的工作,交給神經(jīng)網(wǎng)絡去調節(jié)聯(lián)結權重,通過輸入數(shù)據(jù)(圖片)與調節(jié)后權重的矢量乘積的激活,產(chǎn)生是否是貓的預測。
本文在前人研究的基礎上,利用Keras[13]的深度學習框架,設計構造了雙向GRU[14]循環(huán)神經(jīng)網(wǎng)絡,在輸出層使用CRF[15],對序列標注的中文在線評論文本進行實體屬性抽取。本文的方法將傳統(tǒng)的大量依賴映射詞表與規(guī)則的比較繁瑣的實體屬性抽取,簡化為文本序列標注。充分利用了深度神經(jīng)網(wǎng)絡雙向GRU綜合學習利用語料上下文的語義關系,以及利用條件隨機場CRF在序列標簽上的預測能力,提高模型的預測輸出效果。盡管語料標注需要一定的工作量,但標注工作本身簡單易行,具有較大的應用優(yōu)勢。
2 模型框架
本文使用循環(huán)神經(jīng)網(wǎng)絡GRU(輸出層使用CRF)對輸入的經(jīng)過人工標注的中文在線評論文本序列進行學習(文本標注的相關內(nèi)容見第4部分)。
2.1 GRU模型
GRU全稱是Gated Recurrent Unit,即門限循環(huán)單元,是循環(huán)神經(jīng)網(wǎng)絡(RNN[16])的一種。我們知道卷積神經(jīng)網(wǎng)絡(CNN[17])擅長處理空間信息,例如圖像,而RNN則擅長處理時間信息,例如語音、文本序列等。GRU則是對RNN存在的比較嚴重的梯度消失或梯度爆炸問題的改進。
RNN的“梯度消失”是指,如果梯度較?。?lt;1),多層迭代以后,指數(shù)相乘,梯度很快就會下降到對調參幾乎沒有影響(設想一下,0.9的n次方,當n足夠大時,值將很?。!疤荻缺ā眲t反過來,如果梯度較大(>1),多層迭代以后,又導致了梯度很大(設想一下,1.1的n次方,當n足夠大時,值將很大)。盡管在理論上,RNN能夠捕獲長距離依賴性,但實際上,它們由于梯度消失/爆炸問題而失敗[18]。GRU等是RNN的優(yōu)化,能夠解決RNN在梯度上面臨的問題。
GRU具有與RNN常用的一個優(yōu)化版本LSTM[19]類似的結構,但是更為簡化,如圖1所示。
GRU模型中的參數(shù)U∈Rd×k,W∈Rd×d,在所有時間步中共享,并在模型訓練過程中學習?!驯硎驹刂g相乘,描述U和W中的k是表示隱藏層向量的維度的超參數(shù)。直觀的理解一下,如果更新門關閉,即zt=0,則無論序列有多長,都可以保持初始時間步中的信息。
2.2 用于實體—屬性抽取的BGRU+CRF模型
2.2.1 BGRU(Bidirectional GRU)
單個GRU的主要缺點是僅利用一個方向上的上下文的語義關系。對于命名實體識別(NER)、分詞(POS)等文本序列任務建模,一個強大的建模思想,要能捕捉在每個時間步上的過去的和未來的特征。為了解決這個問題,我們使用雙向GRU,即BGRU(Bidirectional GRU)。BGRU可以在兩個方向上處理數(shù)據(jù),輸出層從兩個單獨的隱藏層接收結果。對于給定的文本句子Sentence S,S={w1,w2,…,wn},包含n個單詞w,BGRU計算兩個表示:前向GRU,即右邊的單詞的上下文關系,F(xiàn)orward GRU ht;后向GRU,即左邊的單詞的上下文關系,Backward GRU ht。然后,對每個單詞計算其表示值是將Forward GRU ht與Backward GRU ht合并起來。
2.2.2 BGRU+CRF模型
圖2給出了BGRU+CRF模型結構,對文本序列的標注類型預測最后是通過CRF(條件隨機場)來完成。標注序列之間的也有聯(lián)系,而CRF在判斷文本序列中單詞的標注類型時,能充分考慮標注值之間的關系,從而使得標注的預測更加準確。
BGRU+CRF模型說明:
1)模型的第一層是輸入層,輸入句子中的單詞的詞向量,處理過程一般是:
①例如,對紙尿褲的原始語料,對媽咪寶貝紙尿褲的一條評論語句分詞后為[“除了”,“媽寶”,“,”,“其它”,“的”,“柔軟度”,“都”,“好”],進一步可得到每個單詞的one-hot向量,維數(shù)是字典大小(由實驗語料中所有詞構成)。one-hot向量的含義是一個向量中只有一個值是1(熱值,hot value),其它都是0。
②利用預編譯的或隨機初始化的詞向量(Word Embedding)矩陣將句子中的每個詞由one-hot向量映射為低維稠密的詞向量(Word Embedding),Embedding的維度可以自行設置,對中文來說可選擇100維、200維等。
③設置Dropout去除輸入數(shù)據(jù)的某些維度以緩解過擬合。
2)模型的第二層是BGRU層,其處理過程:
①將一個句子的各個詞的詞向量序列作為BGRU各個時間步的輸入。
②輸出前向Forward GRU的隱狀態(tài)序列。
③輸出后向Backward GRU的隱狀態(tài)序列。
④將前向與后向GRU輸出的隱狀態(tài)序列在各個位置輸出的隱狀態(tài)進行按位置拼接得到完整的隱狀態(tài)序列。
⑤設置Dropout去除輸入數(shù)據(jù)的某些維度以緩解過擬合。
⑥將隱狀態(tài)向量從m維映射到k維,k是標注集的標簽數(shù),得到自動提取的句子特征。
⑦為單詞分類到k個標簽計算打分值。
3)模型的第三層是CRF層
CRF層完成序列標注的標簽預測,CRF層由連接連續(xù)輸出層的行表示。CRF層將BGRU輸出的狀態(tài)轉換矩陣作為參數(shù),有了該層,我們可以有效地使用標注標簽之間的關系來預測當前標簽。
3 語料序列標注
3.1 在線評論語料獲取與處理
本項目研究以淘寶網(wǎng)主題市場下的“童裝玩具/孕產(chǎn)/用品”主題的“孕產(chǎn)”用品中的紙尿褲,以及奶粉輔食的在線評論數(shù)據(jù)作為研究語料來源。利用Python語言編程采集了花王、幫寶適、好奇、媽咪寶貝等紙尿褲及愛他美、羊奶粉、惠氏、雅培等奶粉輔食近150個品種(作為實體)。評論數(shù)據(jù)從2017年1月至2018年12月,經(jīng)過語料數(shù)據(jù)預處理,去除無效的評論,得到有效評論數(shù)據(jù)29 807條。語料預處理過程包括數(shù)據(jù)清洗、分詞與詞性標注。
數(shù)據(jù)清洗包括:1)刪除不適合本文研究的圖片和表情符號;2)刪除與評論主題無關的評論;3)刪除重復發(fā)帖的記錄;4)刪除店家回復的記錄;5)刪除淘寶系統(tǒng)自動評論,例如“評價方未及時做出評價,系統(tǒng)默認好評!”等。
分詞的質量關鍵取決于詞典,一般的分詞軟件都不帶有領域的詞典。所以要想提高特定領域的分詞效果,則要先建立該領域用戶詞典。本項目是母嬰用品中的紙尿褲和奶粉,應該先建立該領域詞典,因本項目需要人工標注,所以開始并沒有建立比較完整的領域詞典,而是在標注過程中不斷積累需要增加的領域詞匯,為后面的模型應用建立領域詞典做好積累。例如,在標注過程中,發(fā)現(xiàn)“媽咪寶貝”多數(shù)用戶稱作“媽寶”以及“防漏性”,也有些用戶稱作“防漏”,這些都需要加入領域詞典。分詞與詞性標注需要分詞軟件,本文采用Python編程語言中的Jieba分詞模塊進行分詞。
3.2 語料標注及質量管理
本項目使用Bakeoff-3[20]評測中所采用的BIO2標注集,即B-PER、I-PER代表人名首字、人名非首字,B-ORG、I-ORG代表組織機構名首字、組織機構名非首字等,O代表該字不屬于命名實體的一部分。對母嬰用品的各種實體類型,制定如表1的命名實體標注規(guī)則。本研究中,產(chǎn)品、服務、商家等文本中談論的主要對象統(tǒng)稱為實體,不做細分。例如,本項目研究的紙尿褲和奶粉的各個品牌,花王、媽咪寶貝、惠氏、雅培等都是實體,屬性則是這些實體的某一方面的特征。
所以本實驗的標注標簽集合為{B-E,I-E,B-AGC,I-AGC,B-AM,I-AM,B-AI,I-AI,B-AP,I-AP,B-AT,I-AT,B-AS,I-AS,B-APP,I-APP,B-AN,I-AN,B-APF,I-APF,B-APO,I-APO,O}??偣?3個標簽值,因實際標注時,有些實體—屬性不會有組合標簽,所以語料的實際標簽要小于23個。
有了標注規(guī)范后,就可對語料預處理后的評論數(shù)據(jù)進行人工標注,標注時,詞與詞之間空格隔開,每個詞的標注由3部分組成,即:詞|詞性|標注標簽,例如:柔軟aB-APP,表示單詞“柔軟”,形容詞,屬性是產(chǎn)品的物理性能,B表示是一個獨立的標簽或一個組合標簽的開始。
具體標注時,要注意做好以下工作。
1)對不規(guī)范用語的進一步規(guī)范。在語料預處理環(huán)節(jié)已經(jīng)處理了明顯的錯誤和明顯的不合法、不規(guī)范的內(nèi)容。因模型主要是以詞為單位,來預測每個詞可能的標簽值。所以同樣含義的單詞最好能統(tǒng)一,以提高模型預測的正確率。例如,文中舉例的“媽寶”與“媽咪寶貝”,“柔軟”與“柔軟度”、“柔軟性”要統(tǒng)一采用一個詞,除了有利輸出標簽預測外,這樣它們的分布式表示詞向量也一樣,即作為模型的輸入也一致。
2)實體與屬性的界定。需要標注人員準確理解,確實區(qū)分實體與屬性,以及屬性應準確地屬于哪一類屬性。即要準確地把人類知識賦予標注的語料,以便于深度學習模型準確獲取語料的含義。
3)對于不屬于實體與屬性的詞,一律標注為“O”,包括標點符號。
4)為了解決多人標注可能的錯誤和不一致的地方,標注完成后,一定要做好標注質量管理。比較好的解決辦法是使用有一個具有質量控制的標注系統(tǒng)來進行標注,或至少有一個標注質量檢查程序。
3.3 標注好的語料情況
本文共標注了9 240條紙尿褲語料和1 520條奶粉輔食語料,各標簽數(shù)量如表2所示。
3.4 實體—屬性關系初始化
為了提高本文模型的泛化推廣能力,特意選擇了母嬰用品的兩個子領域,紙尿褲與奶粉。這兩個子領域有較大的差別,有不同的屬性,例如紙尿褲沒有奶粉的營養(yǎng)元素(標注標簽為AN)、口味(標注標簽為AT)等屬性。
語料標注完成后,可以對標注結果進行匯總、分析,構建實體標簽對應的詞語與屬性標簽對應的詞語的關系,這樣在實際應用中可以避免在抽取實體—屬性時,將奶粉的屬性賦予紙尿褲。
4 實驗與分析
4.1 實驗數(shù)據(jù)準備
GRU接受的輸入文本數(shù)據(jù)的字或詞通常是詞向量(Word Embedding)格式,為此需要將輸入的標注好的文本序列數(shù)據(jù),即單詞序列、詞性序列轉換成詞向量格式,而NER標注標簽轉換成一般的one-hot向量格式。目前在深度學習應用中將單詞轉換成詞向量表示,多用Google開源的Word2vec[21]工具。Google公司在2013年開源Word2vec后,目前已有一些基于詞向量Word2vec的文本處理方面的研究[22]。
2)為評論單詞、詞性創(chuàng)建詞向量,本實驗采用的是300維的詞向量。即一個單詞或詞性由一個300維的向量表示。為NER標簽創(chuàng)建one-hot向量,要注意的是,在標注的標簽集上,再加一個標簽“PAD”對應索引值0,和一個標簽“UNK”對應索引值最大值后的值?!癙AD”一般用于序列長度不滿足長度要求,在序列后填充該值直到符合要求的序列長度,“UNK”用于未知的內(nèi)容。one-hot向量的含義是一個向量中只有一個值是1(熱值,hot value),其它都是0。在機器學習中,對于多分類問題,one-hot是轉換目標變量,即多分類標簽值的通用方法。
4.2 模型構建與模型訓練
我們使用Python編程,在深度學習框架Keras下,后端使用Tensorflow[23],電腦帶有GPU的NVIDIA Geforce 940MX顯卡,并配置好使用GPU功能。
我們在實驗數(shù)據(jù)上實驗了BGRU+CRF模型,作為對比也實驗了機器學習中常用的支持向量機模型(SVM)[24],RNN的另一個優(yōu)化版本LSTM[19](使用雙向LSTM,即BiLSTM,采用Softmax激活函數(shù)作為輸出)和單獨的CRF模型(CRF是傳統(tǒng)的文本序列標注預測最常用的模型)。4個模型構建與訓練的參數(shù)設置如表3所示。
BGRU+CRF模型與單獨的BGRU模型的參數(shù)設置基本相同,不同在于前者的最后一層是CRF(Keras-Contrib中帶的CRF模塊),而后者使用的是Softmax激活函數(shù),每個詞可能取15個標簽之一(本實驗實際用到了15個標簽,用one-hot編碼),取最大概率的值。實驗使用的詞向量是根據(jù)本實驗的語料生成的,通過多次實驗我們選擇的詞向量維度為300。窗口大小90表示使用的輸入句子最大長度是90,即一條評論句子由90個單詞構成(包括標點符號),不足部分用4.1中提到的“PAD”填充。實驗中,對于BGRU+CRF模型,使用詞性和沒有使用詞性也分別做了實驗。
實驗中單獨的CRF模型使用的是Python支持的Pycrfsuite套件。輸入數(shù)據(jù)是單詞和詞性的組合數(shù)據(jù),為防止過擬合,設置了CRF的懲罰系數(shù)L1、L2。
4.3 實驗評估與結果分析
以下用3個模型代表BGRU+CRF、單獨的BGRU和單獨的CRF。
4.3.1 3個模型算法的整體評估
考慮到序列標注的分類預測自身的特點,也即盡管其也是一個多分類問題,但在NER識別中,更關注的是有意義標簽的分類的正確性,而不是所有分類標簽的正確性。即在評估模型的精度(Precision)、召回率(Recall)和F1值(f1-score)時,不考慮標簽O,只考慮標簽B、I構成的標簽的評估。3個模型的評估結果如表4所示。
通過實驗我們看出,CRF模型確實體現(xiàn)了其在序列預測上的能力,單獨CRF模型訓練速度也較快,實驗中同樣的數(shù)據(jù)量,4秒不到就完成訓練。BGRU+CRF比單獨的CRF模型高幾個百分點的原因是其在輸入和輸出時都利用了上下文關系,因此比較適合做文本的序列分析。單獨的BGRU使用Softmax作為輸出,只是在輸入信息時利用GRU獲取了上下文關系,而Softmax輸出時,沒有利用這些關系,所有評估值都較差。
對于BGRU+CRF模型,我們也對比實驗了詞性對實驗結果的影響。理論上,在已知單詞序列上,再增加一個已知詞性序列,對求未知的標注序列的分類預測時應更有幫助。但實驗結果卻是無詞性的比有詞性的評估效果更好。我們檢查了詞性情況,發(fā)現(xiàn)分詞軟件在分詞時,給單詞的詞性的質量上還是有問題,我們對比了幾個軟件,都還有待提高。
4.3.2 3個模型算法的分類評估
本實驗中,我們用序列標注的標簽值代表實體與屬性。對實體與屬性的相應標簽值的分類實驗預測結果分析如表5所示。表中的P值是Precision值。
實驗結果表明,使用到CRF模型在實體與屬性的標簽分類預測上基本上都取得80%以上的評測結果,而且BGRU+CRF模型都要好于單獨的CRF模型,同樣的單獨的BGRU表現(xiàn)都不好。通過對幾個評測指標較高和較低的進一步分析,發(fā)現(xiàn)樣本量對分類預測結果有較大影響,樣本量的增加會提升標簽分類預測的正確率。例如I-E評估指標較差,原因就是樣本中含有組合標簽I-E的數(shù)量遠小于B-E的數(shù)量。
4.3.3 模型優(yōu)化
眾所周知,模型的質量取決于2個方面:訓練數(shù)據(jù)的質量和模型算法的質量。對訓練語料的質量控制在第4部分已經(jīng)簡單提及,這一塊還有較大的提升空間。而影響模型算法質量的因素有很多種,在BGRU中主要是調參。實驗中,主要根據(jù)表6來調參。我們嘗試改變模型構建過程當中涉及到的變量和參數(shù),以期尋找最佳的組合。
實驗中,手工改變參數(shù),通過多次實驗,表3中的默認值是效果比較好的參數(shù)。
4.4 實體—屬性確認
通過前面的實驗,模型可以以比較高的準確率,抽取出在線評論中實體與屬性。下面的任務是要確認每條評論中抽取出的實體與屬性是否有對應關系。目前,本文采用的方法是用3.4初始化的實體—屬性關系數(shù)據(jù)來保證實體與屬性的對應關系,實際應用時,還需要一定的人工審核。后續(xù)的研究計劃將利用深度學習自動確認實體—屬性的對應關系。
5 總結與展望
本文提出了一種實體—屬性的抽取方法,將傳統(tǒng)的大量依賴映射詞表與規(guī)則的比較繁瑣實體屬性抽取,簡化為文本序列標注。然后利用深度神經(jīng)網(wǎng)絡BGRU綜合學習利用語料上下文的語義關系,并有效地利用條件隨機場(CRF)在序列標簽上的預測能力,提高模型的輸出效果。相比較單獨的BGRU和單獨的CRF模型,本文的方法在實體—屬性的抽取上取得了較好的效果。
本文模型算法的評估指標還可以進一步提高,而且組合標簽的預測準確率還比較低,下一步可考慮加大語料量,同時引入新的深度學習技術,例如遷移學習、注意力機制(Attention)等,探索不斷提升實體—屬性抽取的效果與質量,同時做好模型的相關應用推廣。
參考文獻
[1]Doddington G R,Mitchell A,Przybocki M A,et al.The Automatic Content Extraction(ACE)Program-Tasks,Data,and Evaluation[C]//LREC,2004,(2):1.
[2]趙琦,劉建華,馮浩然.從ACE會議看信息抽取技術的發(fā)展趨勢[J].現(xiàn)代圖書情報技術,2008,(3):18-23.
[3]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C]//Proceedings of the 16th Conference on Computational Linguistics-Volume 1.Association for Computational Linguistics,1996:466-471.
[4]黃勛,游宏梁,于洋.關系抽取技術研究綜述[J].現(xiàn)代圖書情報技術,2013,(11):30-39.
[5]Liu H,Chen C,Zhang L,et al.The Research of Label-Mapping-Based Entity Attribute Extraction[C]//IEEE International Conference on Progress in Informatics and Computing.IEEE,2011:635-639.
[6]Li C X,Chen P,Wang R J,et al.Web Entity Extraction Based on Entity Attribute Classification[C]//International Conference on Machine Vision.International Society for Optics and Photonics,2011:39.
[7]曾道建,來斯惟,張元哲,等.面向非結構化文本的開放式實體屬性抽取[J].江西師范大學學報:自然科學版,2013,37(3):279-283.
[8]劉倩,伍大勇,劉悅,等.結合全局特征的命名實體屬性值抽取[J].計算機研究與發(fā)展,2016,53(4):941-948.
[9]Zhong B,Kong L,Liu J.Entity Attribute Extraction from Unstructured Text with Deep Belief Network[C]//Advanced Science and Technology,2016:429-433.
[10]蘇豐龍,謝慶華,邱繼遠,等.基于深度學習的領域實體屬性詞聚類抽取研究[J].微型機與應用,2016,35(1):53-55.
[11]Gridach M,Haddad H,Mulki H.FNER-BGRU-CRF at Cap 2017 NER Challenge:Bidirectional GRU-CRF for French Named Entity Recognition in Tweets[C]//Cap,2017.
[12]Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF Models for Sequence Tagging.ArXiv Preprint ArXiv:1508.01991,2015.
[13]Keras中文文檔[EB/OL].http://keras-cn.readthedocs.io/en/latest/.
[14]Chung J,Gulcehre C,Cho K H,et al.Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling[J].Eprint Arxiv,2014.
[15]Mccallum A.Efficiently Inducing Features of Conditional Random Fields[J].Computer Science,2003,19(4):1.
[16]Mikolov T,Karafiát M,Burget L,et al.Recurrent Neural Network Based Language Model[C]//INTERSPEECH 2010,Conference of the International Speech Communication Association,Makuhari,Chiba,Japan,September.DBLP,2010:1045-1048.
[17]Lawrence S,Giles C L,Tsoi A C.Convolutional Neural Networks for Face Recognition[C]//Computer Vision and Pattern Recognition,1996.Proceedings CVPR96,1996 IEEE Computer Society Conference on.IEEE,1997:217-222.
[18]Hihi S E,Bengio Y.Hierarchical Recurrent Neural Networks for Long-Term Dependencies[C]//International Conference on Neural Information Processing Systems.MIT Press,1995:493-499.
[19]Gers F A,Schmidhuber J,Cummins F.Learning to Forget:Continual Prediction with LSTM.[C]//Artificial Neural Networks,1999.ICANN 99.Ninth International Conference on.IET,2002:2451.
[20]Zhang S,Qin Y,Wen J,et al.Word Segmentation and Named Entity Recognition for SIGHAN Bakeoff3[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing,2006:158-161.
[21]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].ArXiv Preprint ArXiv:1301.3781,2013.
[22]王仁武,宋家怡,陳川寶.基于Word2vec的情感分析在品牌認知中的應用研究[J].圖書情報工作,2017,61(22):6-12.
[23]Abadi M,Barham P,Chen J,et al.TensorFlow:A System for Large-Scale Machine Learning[C]//OSDI,2016,16:265-283.
[24]Lin X D,Peng H,Liu B.Chinese Named Entity Recognition using Support Vector Machines[C]//International Conference on Machine Learning and Cybernetics.IEEE,2009:4216-4220.
(責任編輯:陳 媛)