楊善良 孫 啟
1(山東理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 山東 淄博 255049)2(中國傳媒大學(xué)傳媒科學(xué)研究所 北京 100024)
評(píng)價(jià)對(duì)象是評(píng)論文本中的評(píng)價(jià)主體,評(píng)論文本內(nèi)容集中反映了對(duì)該主體的情感態(tài)度。評(píng)價(jià)對(duì)象抽取任務(wù)就是從評(píng)論文本中抽取出評(píng)價(jià)對(duì)象,但是評(píng)價(jià)對(duì)象在評(píng)論文本中的表現(xiàn)形式多樣,抽取過程面臨諸多挑戰(zhàn)。首先,評(píng)論文本中通常包含顯式和隱式評(píng)價(jià)對(duì)象,對(duì)于顯式評(píng)價(jià)對(duì)象容易從文本中直接抽取,然而隱式評(píng)價(jià)對(duì)象往往不出現(xiàn)在評(píng)論文本中,需要通過上下文進(jìn)行推理,完成抽取任務(wù)相對(duì)困難。其次,顯式評(píng)價(jià)對(duì)象通常是一個(gè)短語,由一個(gè)或多個(gè)詞語組成,確定評(píng)價(jià)對(duì)象的邊界非常困難。下面以“中美貿(mào)易戰(zhàn)”話題的相關(guān)評(píng)論為例進(jìn)行說明,評(píng)論示例如表1所示。評(píng)論1中并沒有評(píng)價(jià)對(duì)象出現(xiàn),但是在該話題語境下其評(píng)價(jià)對(duì)象是“美國發(fā)動(dòng)貿(mào)易戰(zhàn)”這件事;評(píng)論2的第二句中有顯式評(píng)價(jià)對(duì)象“美國”,是一個(gè)名詞,抽取該評(píng)價(jià)對(duì)象較為容易;評(píng)論3中的評(píng)價(jià)對(duì)象是“中美和平發(fā)展”,該評(píng)價(jià)對(duì)象是一個(gè)名詞短語,可以看作由“中美”、“和平”和“發(fā)展”等三個(gè)詞語組成。
表1 評(píng)論示例表
本文重點(diǎn)研究顯式評(píng)價(jià)對(duì)象抽取任務(wù),解決評(píng)價(jià)對(duì)象由多個(gè)詞語組成時(shí)所面臨的困難。提出一種端到端的神經(jīng)網(wǎng)絡(luò)模型,減少手動(dòng)設(shè)計(jì)特征模板的工作,同時(shí)提高網(wǎng)絡(luò)評(píng)價(jià)文本中評(píng)價(jià)對(duì)象抽取準(zhǔn)確率。本文把顯式評(píng)價(jià)對(duì)象抽取任務(wù)看做序列標(biāo)注問題,將文本序列映射到評(píng)價(jià)對(duì)象序列,標(biāo)注的標(biāo)簽為該字符是否屬于評(píng)價(jià)對(duì)象。采用IOB序列標(biāo)注模式,B-term代表當(dāng)前字符是評(píng)價(jià)對(duì)象的開始,I-term代表當(dāng)前字符包含在評(píng)價(jià)對(duì)象字符串序列中,O-term代表當(dāng)前字符不屬于評(píng)價(jià)對(duì)象。IOB標(biāo)注模式在標(biāo)注出目標(biāo)字符串的同時(shí)也給出了評(píng)價(jià)對(duì)象的邊界,B-Term為起始邊界,最后一個(gè)I-term為終止邊界。顯示評(píng)價(jià)對(duì)象的標(biāo)注示例如下:
評(píng)論數(shù)據(jù):“中美和平發(fā)展才是兩國人民的殷切期望?!?/p>
標(biāo)注數(shù)據(jù):“B I I I I I O O O O O O O O O O O O”
隨著網(wǎng)絡(luò)評(píng)論數(shù)據(jù)的增多,以及評(píng)論數(shù)據(jù)的可獲取性增強(qiáng),評(píng)價(jià)對(duì)象抽取任務(wù)已經(jīng)成為情感分析中的研究熱點(diǎn)之一。Liu等[1]將評(píng)價(jià)詞語和評(píng)價(jià)對(duì)象之間的對(duì)應(yīng)關(guān)系作為詞語對(duì)齊的依據(jù),使用詞對(duì)齊算法從網(wǎng)絡(luò)評(píng)論中抽取評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語。Zhou等[2]使用集成算法抽取中文微博評(píng)論中的評(píng)價(jià)對(duì)象。首先使用對(duì)稱條件概率SCP指標(biāo)切分微博話題標(biāo)簽字符串,提取粘性值最高的字符作為候選評(píng)價(jià)對(duì)象;然后根據(jù)規(guī)則條件和詞語長度限制提取語句中的候選評(píng)價(jià)對(duì)象;最后使用基于圖的標(biāo)簽傳播算法對(duì)候選評(píng)價(jià)對(duì)象排序,選擇排名最高的候選評(píng)價(jià)對(duì)象作為最終抽取結(jié)果。Min等[3]首先根據(jù)句法和語義特征抽取候選評(píng)價(jià)對(duì)象,然后基于語句間的相似度計(jì)算設(shè)計(jì)出迭代程序?qū)蜻x評(píng)價(jià)對(duì)象排序并確定抽取結(jié)果。Qiu等[4]利用評(píng)價(jià)對(duì)象和情感詞語之間的關(guān)聯(lián)關(guān)系,使用雙向傳播算法抽取評(píng)價(jià)對(duì)象并擴(kuò)展情感詞語。
隱馬爾科夫模型和條件隨機(jī)場模型是解決序列標(biāo)注問題的常用方法。條件隨機(jī)場模型在評(píng)價(jià)對(duì)象抽取任務(wù)上已經(jīng)取得了許多成果。例如,文獻(xiàn)[5]使用條件隨機(jī)場CRF抽取評(píng)價(jià)對(duì)象,然后使用線性分類器對(duì)評(píng)價(jià)對(duì)象的情感傾向性進(jìn)行分類。蔣潤等[6]提出一種基于協(xié)同訓(xùn)練機(jī)制的評(píng)價(jià)對(duì)象抽取算法,使用支持向量機(jī)、最大熵、條件隨機(jī)場三種模型組成評(píng)價(jià)對(duì)象候選集分類器。鄭敏潔等[7]提出層疊條件隨機(jī)場算法抽取句子中的評(píng)價(jià)對(duì)象,解決復(fù)合評(píng)價(jià)對(duì)象和未登錄評(píng)價(jià)對(duì)象的問題。層疊條件隨機(jī)場模型首先在底層條件隨機(jī)場提取候選評(píng)價(jià)對(duì)象,然后對(duì)噪聲進(jìn)行過濾,補(bǔ)充未登錄評(píng)價(jià)對(duì)象,合并復(fù)合評(píng)價(jià)對(duì)象,在高層條件隨機(jī)場輸出最終評(píng)價(jià)對(duì)象。Zhou等[8]為解決不同語言之間標(biāo)注數(shù)據(jù)不平衡問題,提出跨語言評(píng)價(jià)對(duì)象抽取模型。首先根據(jù)英文標(biāo)注數(shù)據(jù)集生成漢語訓(xùn)練數(shù)據(jù),然后使用條件隨機(jī)場模型抽取評(píng)價(jià)對(duì)象,并通過使用大量未標(biāo)注漢語評(píng)論數(shù)據(jù)聯(lián)合訓(xùn)練,以提升條件隨機(jī)場模型的抽取效果。雖然條件隨機(jī)場模型在評(píng)價(jià)對(duì)象抽取上取得了不錯(cuò)的效果,但是需要手工設(shè)計(jì)特征模板,抽取結(jié)果受特征模板的影響。
深度學(xué)習(xí)技術(shù)已經(jīng)在圖像處理、語音識(shí)別、人臉識(shí)別、自然語言處理等多個(gè)領(lǐng)域取得了顯著成果。神經(jīng)網(wǎng)絡(luò)模型的特征表示能力和非線性擬合能力在評(píng)價(jià)對(duì)象抽取任務(wù)中同樣能夠發(fā)揮作用。在這方面已經(jīng)取得了一些研究成果,例如,文獻(xiàn)[9]使用卷積神經(jīng)網(wǎng)絡(luò)完成評(píng)價(jià)對(duì)象抽取任務(wù)。文獻(xiàn)[10]使用循環(huán)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)評(píng)價(jià)對(duì)象抽取模型。Ding等[11]針對(duì)跨領(lǐng)域評(píng)價(jià)對(duì)象抽取問題,使用基于規(guī)則的非監(jiān)督方法生成輔助標(biāo)簽,然后使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)隱藏表達(dá)形式,以提高跨領(lǐng)域評(píng)價(jià)對(duì)象抽取效果。還有研究者把循環(huán)神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場結(jié)合在一起,利用神經(jīng)網(wǎng)絡(luò)的特征自動(dòng)抽取能力和條件隨機(jī)場的序列預(yù)測能力提高序列標(biāo)注任務(wù)的準(zhǔn)確率。目前LSTM、CNN等神經(jīng)網(wǎng)絡(luò)和CRF結(jié)合的模型多應(yīng)用在序列標(biāo)注、命名實(shí)體識(shí)別等任務(wù)上。例如,文獻(xiàn)[12]結(jié)合使用雙向LSTM、CNN和CRF提出新的模型框架,解決序列標(biāo)注問題。首先使用CNN對(duì)單詞字符編碼,形成單詞向量,然后經(jīng)過雙向LSTM網(wǎng)絡(luò)層處理后得到詞語編碼,最后應(yīng)用CRF標(biāo)注詞語標(biāo)簽。本文將評(píng)價(jià)對(duì)象抽取任務(wù)作為序列標(biāo)注問題解決,所以可以結(jié)合神經(jīng)網(wǎng)絡(luò)模型和條件概率模型來解決評(píng)價(jià)對(duì)象抽取問題,同時(shí)提高評(píng)價(jià)對(duì)象抽取效果。本文提出一種端到端的神經(jīng)網(wǎng)絡(luò)模型LSTM-Attention-CRF,在模型訓(xùn)練過程中不需要專門設(shè)計(jì)特征模板,序列預(yù)測過程中能夠利用條件隨機(jī)場的序列標(biāo)注能力。
評(píng)價(jià)對(duì)象抽取任務(wù)的目標(biāo)是提取評(píng)論文本中的評(píng)價(jià)詞語或短語,可以把評(píng)價(jià)對(duì)象抽取任務(wù)轉(zhuǎn)化為序列標(biāo)注問題,根據(jù)評(píng)論文本序列數(shù)據(jù)標(biāo)注每個(gè)字符對(duì)應(yīng)的IOB標(biāo)簽。序列標(biāo)注系統(tǒng)的框架結(jié)構(gòu)如圖1所示,包含模型訓(xùn)練、模型評(píng)估和模型應(yīng)用三個(gè)部分。第一部分是模型訓(xùn)練階段,在這個(gè)階段需要標(biāo)注訓(xùn)練數(shù)據(jù)集,并設(shè)計(jì)序列標(biāo)注模型,對(duì)模型進(jìn)行訓(xùn)練使目標(biāo)函數(shù)最小化;第二部分是模型測試評(píng)估階段,把訓(xùn)練好的模型在測試數(shù)據(jù)上進(jìn)行驗(yàn)證,評(píng)價(jià)模型效果;第三部分是模型的實(shí)際應(yīng)用階段,將評(píng)估結(jié)果最優(yōu)的模型放在實(shí)際應(yīng)用數(shù)據(jù)集上使用。
圖1 序列標(biāo)注系統(tǒng)框架圖
序列標(biāo)注模型主要包括隱馬爾科夫模型HMM、最大熵馬爾科夫模型MEMM、條件隨機(jī)場模型CRF(Conditional Random Field)等。本文主要對(duì)序列標(biāo)注模型進(jìn)行研究,結(jié)合條件隨機(jī)場模型和神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢,在減少特征模板設(shè)計(jì)工作的同時(shí)提高評(píng)價(jià)對(duì)象抽取的準(zhǔn)確率。
CRF模型是由John D. Lafferty等提出的一種無向圖模型[13],在隱馬爾科夫模型的基礎(chǔ)上發(fā)展而來,避免了嚴(yán)格的獨(dú)立性假設(shè)問題。CRF模型經(jīng)常用于序列數(shù)據(jù)標(biāo)注問題,在給定輸入隨機(jī)變量序列的情況下計(jì)算輸出隨機(jī)變量序列的概率分布,在中文命名實(shí)體識(shí)別、詞性標(biāo)注等任務(wù)上取得了非常好的效果。
條件隨機(jī)場的參數(shù)化表達(dá)形式中定義了狀態(tài)特征函數(shù)、狀態(tài)轉(zhuǎn)移特征函數(shù)和預(yù)測序列的條件概率公式。假設(shè)輸入觀測序列x,標(biāo)注序列y的條件概率計(jì)算式表示為:
(1)
(2)
式中:Z(x)是歸一化因子;tk為狀態(tài)轉(zhuǎn)移特征函數(shù),計(jì)算當(dāng)前位置和前一個(gè)位置的特征;sl是狀態(tài)特征函數(shù),計(jì)算當(dāng)前位置特征,特征函數(shù)的取值為1或者0,當(dāng)滿足特征條件時(shí)取值為1,當(dāng)不滿足特征條件時(shí)取值為0;λk和ul是對(duì)應(yīng)的特征函數(shù)權(quán)重。
特征選擇是使用條件隨機(jī)場進(jìn)行評(píng)價(jià)對(duì)象抽取的第一步,選擇與評(píng)價(jià)對(duì)象相關(guān)的特征對(duì)CRF模型準(zhǔn)確率起到關(guān)鍵作用。這里選擇詞語、詞性、依存句法關(guān)系等作為模型特征。將這些特征組合起來作為條件隨機(jī)場模型的輸入信息。
詞語本身是評(píng)論文本的組成部分,能夠直接反映評(píng)價(jià)對(duì)象信息。詞性作為詞語在句子中表達(dá)的重要語法信息,對(duì)評(píng)價(jià)對(duì)象抽取有重要影響。評(píng)價(jià)對(duì)象多為名詞、名詞短語、動(dòng)詞等,評(píng)價(jià)詞語多為形容詞,所以詞性為名詞、動(dòng)詞、形容詞的詞語對(duì)抽取評(píng)價(jià)對(duì)象有參考價(jià)值。依存句法分析是分析語句的語法成分以及詞語之間的依存關(guān)系,可以用樹形結(jié)構(gòu)進(jìn)行表示。依存關(guān)系包括“主謂關(guān)系”、“動(dòng)賓關(guān)系”、“定中關(guān)系”等。這里將當(dāng)前節(jié)點(diǎn)與父節(jié)點(diǎn)之間的依存關(guān)系作為條件隨機(jī)場模型的特征。
使用本文引言中的示例:“中美和平發(fā)展才是兩國人民的殷切期望?!苯o出其特征表示,具體信息如表2所示。其中評(píng)價(jià)對(duì)象為“中美和平發(fā)展”,是一個(gè)名詞短語,包含兩個(gè)名詞和一個(gè)動(dòng)詞。
表2 特征表示示例
模板是對(duì)特征函數(shù)的定義,反映了上下文依賴關(guān)系和特征組合形式。模板通過設(shè)置窗口大小反映上下文依賴距離,通過定義當(dāng)前位置特征反映當(dāng)前位置與前后位置之間的關(guān)系。這里使用的特征模板定義如表3所示。
表3 模板形式示例
CBOW和Skip-gram是最為經(jīng)典的詞嵌入模型。CBOW通過當(dāng)前詞語的上下文預(yù)測當(dāng)前詞語,Skip-gram則通過當(dāng)前詞語預(yù)測其上下文詞語。兩者都屬于神經(jīng)網(wǎng)絡(luò)語言模型,通過訓(xùn)練模型參數(shù)得到最優(yōu)的詞語向量。經(jīng)過詞嵌入模型得到詞語在語義空間上的表達(dá)。
CBOW模型根據(jù)詞語的上下文來預(yù)測當(dāng)前詞語,模型結(jié)構(gòu)包括輸入層、投影層和輸出層。
輸入層是詞語wi的上下文,取窗口寬度為c,上下文詞語序列表示為context(wi)=[wi-c,wi-c+1, …,wi+c-1,wi+c],序列長度為2c。這里wi∈Rm,m代表詞向量的維度。
投影層將上下文詞向量累加求和,求和計(jì)算如下所示:
(3)
輸出層為一顆二叉樹,根據(jù)訓(xùn)練語料中詞語構(gòu)建出來的Huffman樹,使用Hierarchical softmax計(jì)算最后的概率p(wi|context(wi))。
將對(duì)數(shù)似然函數(shù)作為CBOW模型的目標(biāo)函數(shù),公式如下所示:
(4)
式中:C為訓(xùn)練樣本中包含的詞語,在模型訓(xùn)練中利用Huffman樹結(jié)構(gòu)把最終目標(biāo)預(yù)測轉(zhuǎn)化成多個(gè)二分類概率相乘的形式。
Skip-gram模型根據(jù)當(dāng)前詞語預(yù)測其上下文詞語,網(wǎng)絡(luò)結(jié)構(gòu)同樣包括輸入層、投影層和輸出層。輸入層為當(dāng)前詞語的詞向量wi,投影層對(duì)wi未作任何改變,輸出層與CBOW模型中相同,同樣是一顆Huffman樹。輸出層計(jì)算上下文詞語條件概率值p(context(wi)|wi),該概率值計(jì)算式表示為:
(5)
將對(duì)數(shù)似然函數(shù)作為Skip-gram模型的目標(biāo)函數(shù):
(6)
式中:C為訓(xùn)練樣本中包含的詞語。模型訓(xùn)練同樣使用到Huffman樹結(jié)構(gòu),只是對(duì)每個(gè)上下文詞語進(jìn)行層次二分類預(yù)測,最后將多個(gè)上下文詞語的預(yù)測概率相乘。
神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制是受到人類視覺選擇性注意力機(jī)制的啟發(fā)而產(chǎn)生的。人類視覺在處理圖像數(shù)據(jù)時(shí)根據(jù)需要將注意力集中在圖像的某一部分,篩選出最有價(jià)值的信息。同樣在神經(jīng)網(wǎng)絡(luò)模型中,輸入數(shù)據(jù)的各個(gè)部分對(duì)模型計(jì)算結(jié)果的重要程度不同,所以采用注意力機(jī)制增加重要數(shù)據(jù)的權(quán)重,同時(shí)降低噪聲數(shù)據(jù)的權(quán)重。
注意力機(jī)制最早被應(yīng)用在圖像處理領(lǐng)域,2014年Mnih等[14]基于注意力機(jī)制設(shè)計(jì)了新的循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu),能夠自適應(yīng)地從圖像中選擇區(qū)域序列,只處理選中的圖像區(qū)域。神經(jīng)網(wǎng)絡(luò)注意力機(jī)制在情感分析領(lǐng)域也得到了應(yīng)用。例如Ma等[15]提出使用外部知識(shí)解決評(píng)價(jià)對(duì)象情感傾向判斷問題,首先使用LSTM對(duì)輸入語句進(jìn)行編碼,然后對(duì)評(píng)價(jià)對(duì)象使用自注意力機(jī)制,最后使用多分類器進(jìn)行情感傾向性分類。
在神經(jīng)網(wǎng)絡(luò)模型中加入注意力機(jī)制的關(guān)鍵步驟就是設(shè)計(jì)合理的權(quán)重計(jì)算公式。注意力機(jī)制的原理可以解釋為計(jì)算源數(shù)據(jù)與目標(biāo)數(shù)據(jù)之間的關(guān)聯(lián)程度,關(guān)聯(lián)程度越強(qiáng)的源數(shù)據(jù)權(quán)重值越大,反之源數(shù)據(jù)的權(quán)重值越小。這里將源數(shù)據(jù)記作ms,將目標(biāo)數(shù)據(jù)記作mt,權(quán)重計(jì)算式表示為:
(7)
式中:分母是歸一化因子,所有源數(shù)據(jù)與目標(biāo)數(shù)據(jù)函數(shù)值的總和。將式(7)以softmax函數(shù)對(duì)源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間的關(guān)聯(lián)函數(shù)值歸一化,求得源數(shù)據(jù)在對(duì)應(yīng)目標(biāo)數(shù)據(jù)上的概率分布。函數(shù)f(mt,ms)的計(jì)算方法有多種,包括點(diǎn)乘、矩陣相乘、連接和感知器等。以下為源數(shù)據(jù)和目標(biāo)數(shù)據(jù)之間關(guān)聯(lián)函數(shù)的幾個(gè)示例:
(8)
自注意力機(jī)制(Self Attention Mechanism)是注意力機(jī)制的一種特殊情況,其源數(shù)據(jù)和目標(biāo)數(shù)據(jù)相同,計(jì)算同一個(gè)樣本數(shù)據(jù)中每個(gè)元素的重要程度。在評(píng)價(jià)對(duì)象抽取任務(wù)中,則是計(jì)算語句中每個(gè)詞語與其他所有詞語之間的依賴關(guān)系。假設(shè)有序列數(shù)據(jù)mt(mt1,mt2,…,mtn),那么自注意力機(jī)制計(jì)算式表示為:
(9)
通過softmax公式得到權(quán)重值,該權(quán)重值反映了數(shù)據(jù)元素的重要程度,把序列數(shù)據(jù)mt與對(duì)應(yīng)的權(quán)重相乘得到自注意力機(jī)制處理結(jié)果。
LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)適用于處理序列數(shù)據(jù),把對(duì)序列標(biāo)注重要的信息存儲(chǔ)在記憶單元中,但是在標(biāo)注過程中無法使用上下文依賴信息,會(huì)出現(xiàn)大量非法標(biāo)注問題。例如正確標(biāo)簽是“OBIIO”的情況下,會(huì)給出“OIIIO”的非法標(biāo)注結(jié)果,三個(gè)元素都是中間元素,明顯不符合標(biāo)注規(guī)則。條件隨機(jī)場模型計(jì)算概率最大的標(biāo)注序列,能夠根據(jù)特征函數(shù)給出合理的標(biāo)注結(jié)果,包含非法標(biāo)注的標(biāo)注序列的特征轉(zhuǎn)移函數(shù)tk(yi-1,yi,x,i)的函數(shù)值為0,從而降低了標(biāo)注序列的條件概率p(y|x),能夠在標(biāo)注結(jié)果中盡可能避免非法標(biāo)注的出現(xiàn)。但是條件隨機(jī)場需要大量特征,以及手動(dòng)設(shè)置特征模板,特征和特征模板對(duì)標(biāo)注結(jié)果有較大影響。為了避免非法標(biāo)注問題和減少手動(dòng)設(shè)置特征模板的工作,將循環(huán)神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場模型進(jìn)行融合,提出LSTM-CRF-Attention評(píng)價(jià)對(duì)象抽取模型,利用循環(huán)神經(jīng)網(wǎng)絡(luò)的特征表示能力和條件隨機(jī)場的序列標(biāo)注能力,有效提高模型效果。
LSTM-CRF-Attention的模型結(jié)構(gòu)如圖2所示。模型包括輸入層、循環(huán)網(wǎng)絡(luò)層、隱藏層、注意力層和標(biāo)注層。輸入層是詞向量,每個(gè)詞語映射到一個(gè)詞向量,詞向量初始化方法可以采用隨機(jī)方式或者詞嵌入訓(xùn)練方式;循環(huán)網(wǎng)絡(luò)層為LSTM循環(huán)神經(jīng)網(wǎng)絡(luò);隱藏層是LSTM網(wǎng)絡(luò)中每個(gè)處理單元的輸出結(jié)果;注意力層采用自注意力機(jī)制,自動(dòng)學(xué)習(xí)序列元素在評(píng)價(jià)對(duì)象抽取中的權(quán)重;標(biāo)注層采用條件隨機(jī)場序列標(biāo)注模型,輸出每個(gè)詞語位置對(duì)應(yīng)的標(biāo)簽。
圖2 LSTM-CRF-Attention模型結(jié)構(gòu)圖
循環(huán)神經(jīng)網(wǎng)絡(luò)的計(jì)算方法如下:
ht=ot·tanh(ct)
(10)
ot=σ(Wo·[ht-1;wt]+bo)
(11)
ct=it·gt+ft·ct-1
(12)
it=σ(Wi·[ht-1;wt]+bi)
(13)
ft=σ(Wf·[ht-1;wt]+bf)
(14)
gt=tanh(Wg·[ht-1;wt]+bg)
(15)
式中:it、ot、ft、ct分別是LSTM網(wǎng)絡(luò)的輸入門、輸出門、遺忘門和記憶存儲(chǔ)單元;ht是LSTM神經(jīng)網(wǎng)絡(luò)單元的輸出向量。
注意力層計(jì)算評(píng)論文本中每個(gè)元素的權(quán)值,通過增加重要元素的權(quán)重來提高評(píng)價(jià)對(duì)象信息的表示能力。這里使用自注意力機(jī)制計(jì)算注意力層,由隱藏層h計(jì)算權(quán)重a,然后得到注意力層輸出值m,計(jì)算方法如下:
(16)
mi=aihi
(17)
標(biāo)注層根據(jù)注意力層輸出的特征向量進(jìn)行序列標(biāo)注。首先根據(jù)注意力層計(jì)算標(biāo)簽分值矩陣P(pij),pij表示第i個(gè)詞語標(biāo)記為第j個(gè)標(biāo)簽的分值,分值矩陣計(jì)算公式如下:
pij=softmax(mi·wj+bj)
(18)
式中:mi為注意力層輸出向量;wj為權(quán)重值;bj為偏置向量。
然后計(jì)算標(biāo)注序列的分值,輸出分值最大的標(biāo)注序列。假設(shè)標(biāo)注序列為y(y1,y2, …,yn),那么該標(biāo)注序列的分值為score(y),計(jì)算方法如下:
(19)
式中:A為狀態(tài)轉(zhuǎn)移矩陣,其元素值A(chǔ)ij表示從第i個(gè)標(biāo)簽轉(zhuǎn)移到第j個(gè)標(biāo)簽的概率;pi,yi是第i個(gè)詞語標(biāo)記為標(biāo)簽yi的分值。此處的狀態(tài)轉(zhuǎn)移矩陣由訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到,由狀態(tài)O轉(zhuǎn)移到狀態(tài)I的概率越小越能夠避免出現(xiàn)非法標(biāo)注序列“OI”,所以可以手動(dòng)設(shè)置AO,I的值為0。
計(jì)算每個(gè)可能標(biāo)注序列的概率值p(y),計(jì)算方法如下:
(20)
式中:Y表示所有可能標(biāo)注序列的集合。
訓(xùn)練LSTM-Attention-CRF模型時(shí)使用最大化對(duì)數(shù)似然函數(shù),即模型的目標(biāo)函數(shù)為:
(21)
使用所提出模型預(yù)測標(biāo)注序列時(shí),選擇概率最大的標(biāo)注序列為:
(22)
本文中使用NLPCC2012和NLPCC2013兩個(gè)數(shù)據(jù)集。NLPCC2012數(shù)據(jù)集是計(jì)算機(jī)學(xué)會(huì)舉辦的第一屆自然語言處理和中文計(jì)算會(huì)議中的技術(shù)評(píng)測數(shù)據(jù)集,數(shù)據(jù)來自于騰訊微博,包含20個(gè)話題,共有2 023條微博數(shù)據(jù),使用XML格式文件存儲(chǔ)。NLPCC2013數(shù)據(jù)集是第二屆自然語言處理和中文計(jì)算會(huì)議評(píng)測數(shù)據(jù)集,同樣是騰訊微博數(shù)據(jù),存儲(chǔ)格式相同,只是數(shù)據(jù)內(nèi)容不同,包含10個(gè)話題,共有899條微博。
數(shù)據(jù)集的統(tǒng)計(jì)分析結(jié)果如表4所示。NLPCC2012數(shù)據(jù)集中包含3 416個(gè)句子,2 353個(gè)評(píng)價(jià)對(duì)象,句子平均字?jǐn)?shù)為24.39;NLPCC2013數(shù)據(jù)集中包含1 873個(gè)句子,1 677個(gè)評(píng)價(jià)對(duì)象,句子平均字?jǐn)?shù)為32.24。
表4 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)表
在評(píng)價(jià)對(duì)象抽取實(shí)驗(yàn)中使用準(zhǔn)確率(precision)、召回率(recall)、F值(F-measure)等作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率反映了抽取信息的準(zhǔn)確性,召回率反映了抽取信息的完整性,F(xiàn)值是衡量信息抽取模型的綜合性指標(biāo)。由于信息抽取任務(wù)是對(duì)字符串的處理,抽取信息結(jié)果在不完全覆蓋正確結(jié)果的情況下也具有一定價(jià)值。所以這里引用NLPCC評(píng)測大綱中的評(píng)價(jià)方法,將評(píng)價(jià)指標(biāo)計(jì)算方法分為嚴(yán)格評(píng)價(jià)和寬松評(píng)價(jià)兩種。
4.2.1 嚴(yán)格評(píng)價(jià)
嚴(yán)格評(píng)價(jià)方法是當(dāng)抽取出的字符串與正確的字符串完全相同時(shí),信息抽取結(jié)果才算正確。在嚴(yán)格評(píng)價(jià)方法下,各指標(biāo)的計(jì)算公式表示為:
(23)
(24)
(25)
式中:system_correct是系統(tǒng)抽取結(jié)果中正確的數(shù)量;system_proposed是系統(tǒng)抽取結(jié)果的總數(shù)量;gold_tabel是測試數(shù)據(jù)中標(biāo)注出的信息數(shù)量。
4.2.2 寬松評(píng)價(jià)
寬松評(píng)價(jià)按照抽取信息的覆蓋率計(jì)算各項(xiàng)指標(biāo)。抽取信息結(jié)果覆蓋率是指系統(tǒng)給出的結(jié)果與測試數(shù)據(jù)中的字符串重合程度,使用如下公式計(jì)算:
(26)
式中:s是標(biāo)準(zhǔn)數(shù)據(jù)中的信息字符串,s′是系統(tǒng)抽取結(jié)果中對(duì)應(yīng)的字符串。計(jì)算操作符|*|表示字符串長度,交集運(yùn)算表示兩個(gè)字符串重合的部分。
設(shè)定標(biāo)準(zhǔn)數(shù)據(jù)集合為R,系統(tǒng)輸出結(jié)果集合為R′,則測試覆蓋率可以定義為:
(27)
在寬松評(píng)價(jià)方法下,各項(xiàng)評(píng)價(jià)指標(biāo)的計(jì)算式表示為:
(28)
(29)
(30)
式中:|R|和|R′|分別表示標(biāo)準(zhǔn)數(shù)據(jù)和系統(tǒng)輸出結(jié)果集合中的評(píng)價(jià)對(duì)象數(shù)量。
4.3.1 詞向量訓(xùn)練對(duì)實(shí)驗(yàn)結(jié)果的影響
經(jīng)過預(yù)訓(xùn)練得到的詞向量,不僅能夠加快神經(jīng)網(wǎng)絡(luò)模型的收斂速度,而且能夠提高模型預(yù)測性能。這里使用CBOW、Skip-gram等詞向量訓(xùn)練模型,得到語義空間詞向量。然后在NLPCC2012和NLPCC2013數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以分析詞向量對(duì)神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練結(jié)果的影響,以及不同詞向量預(yù)訓(xùn)練模型的作用。實(shí)驗(yàn)中均使用詞語特征作為模型輸入數(shù)據(jù),首先對(duì)語料進(jìn)行分詞,然后根據(jù)分詞結(jié)果預(yù)訓(xùn)練詞向量,最后使用訓(xùn)練好的詞向量訓(xùn)練模型參數(shù)并進(jìn)行模型測試。
LSTM-CRF-Attention模型的詞向量預(yù)訓(xùn)練實(shí)驗(yàn)結(jié)果如表5所示。在NLPCC2012數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中,Skip-gram詞向量嚴(yán)格評(píng)價(jià)F值為55.05%,比隨機(jī)詞向量測試結(jié)果提高3.72%;CBOW詞向量嚴(yán)格評(píng)價(jià)F值為53.59%,比隨機(jī)詞向量測試結(jié)果提高2.26%,但是低于Skip-gram詞向量測試結(jié)果。在NLPCC2013數(shù)據(jù)的實(shí)驗(yàn)結(jié)果中,Skip-gram詞向量嚴(yán)格評(píng)價(jià)F值為57.05%,比隨機(jī)詞向量測試結(jié)果提高4.22%;CBOW詞向量嚴(yán)格評(píng)價(jià)F值為54.26%,比隨機(jī)詞向量測試結(jié)果提高1.24%,但是低于Skip-gram詞向量測試結(jié)果。從上述分析可以看出,對(duì)于LSTM-CRF-Attention模型,在兩個(gè)數(shù)據(jù)集上,Skip-gram和CBOW詞向量都能提高評(píng)價(jià)對(duì)象抽取效果,但是Skip-gram詞向量訓(xùn)練模型起到更大的作用,優(yōu)于CBOW詞向量模型。
表5 LSTM-CRF-Attention預(yù)訓(xùn)練詞向量實(shí)驗(yàn)結(jié)果表
4.3.2 模型對(duì)比實(shí)驗(yàn)
使用CRF模型為基準(zhǔn)模型,對(duì)比分析LSTM-CRF模型、LSTM-CRF-Attention模型的效果,LSTM-CRF模型是去掉注意力機(jī)制部分的神經(jīng)網(wǎng)絡(luò)標(biāo)注模型。LSTM-CRF和LSTM-CRF-Attention模型的結(jié)果是采用詞向量預(yù)訓(xùn)練后的實(shí)驗(yàn)結(jié)果。CRF實(shí)驗(yàn)結(jié)果為“詞語+詞性+依存關(guān)系”特征組合的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果評(píng)價(jià)指標(biāo)如表6和表7所示。
表6 評(píng)價(jià)對(duì)象抽取NLPCC2012數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果表
表7 評(píng)價(jià)對(duì)象抽取NLPCC2013數(shù)據(jù)集對(duì)比實(shí)驗(yàn)結(jié)果表
可以看出,LSTM-CRF-Attention神經(jīng)網(wǎng)絡(luò)模型在評(píng)價(jià)對(duì)象抽取任務(wù)中取得最好結(jié)果。在NLPCC2012數(shù)據(jù)集上,LSTM-CRF-Attention模型的嚴(yán)格評(píng)價(jià)F值達(dá)到55.05%,比CRF特征組合模型提高8.15%;寬松評(píng)價(jià)F值達(dá)到57.1%,比CRF特征組合模型提高8.11%。LSTM-CRF模型的評(píng)價(jià)指標(biāo)也比CRF特征組合模型有明顯提高,略低于LSTM-CRF-Attention模型。在NLPCC2013數(shù)據(jù)集上,LSTM-CRF-Attention模型的嚴(yán)格評(píng)價(jià)F值達(dá)到57.24%,比CRF特征組合模型提高11.03%;寬松評(píng)價(jià)指標(biāo)F值達(dá)到61.08%,比CRF特征組合模型提高10.9%。LSTM-CRF模型的評(píng)價(jià)指標(biāo)比CRF特征組合模型有明顯提高,略低于LSTM-CRF-Attention模型。
從對(duì)比實(shí)驗(yàn)數(shù)據(jù)來看,條件隨機(jī)場與神經(jīng)網(wǎng)絡(luò)模型相融合能夠大幅提高評(píng)價(jià)對(duì)象抽取模型的效果。LSTM-CRF模型的評(píng)價(jià)指標(biāo)均高于CRF特征組合模型,同時(shí)在神經(jīng)網(wǎng)絡(luò)模型中加入注意力機(jī)制后,LSTM-CRF-Attention模型效果得到進(jìn)一步提高。
本文基于注意力機(jī)制提出LSTM-CRF-Attention神經(jīng)網(wǎng)絡(luò)評(píng)價(jià)對(duì)象抽取模型,該模型在評(píng)價(jià)對(duì)象抽取效果上取得了較大提升。使用CBOW和Skip-gram詞向量嵌入模型對(duì)語料進(jìn)行預(yù)訓(xùn)練,有效提高了模型的準(zhǔn)確率。注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)模型中發(fā)揮出了重要作用,增加自注意力權(quán)重計(jì)算能夠讓模型更準(zhǔn)確地提取評(píng)價(jià)對(duì)象信息。在未來的研究中,可以將詞性、依賴關(guān)系等語義信息融入到神經(jīng)網(wǎng)絡(luò)模型中,能夠進(jìn)一步提升模型的信息抽取能力。實(shí)驗(yàn)數(shù)據(jù)為NLPCC測評(píng)數(shù)據(jù)集,數(shù)據(jù)規(guī)模仍然有限,需要在大規(guī)模數(shù)據(jù)集上進(jìn)一步驗(yàn)證模型的適用性,充分發(fā)揮神經(jīng)網(wǎng)絡(luò)模型在大數(shù)據(jù)處理中的優(yōu)勢。