国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合短語結(jié)構(gòu)的多通道老撾語名詞短語識別方法

2022-08-02 03:56湯禮欣周蘭江張建安
中文信息學(xué)報 2022年6期
關(guān)鍵詞:特征向量語料老撾

湯禮欣,周蘭江,張 力,張建安

(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)

0 引言

語塊分析是識別句子中一些結(jié)構(gòu)簡單的獨立成分的過程,其中一項代表性的語塊分析任務(wù)是名詞短語識別。老撾語的名詞短語是老撾語信息表達(dá)的基本單位。它的識別可簡化句子結(jié)構(gòu),是老撾語自然語言句法分析、機(jī)器翻譯、信息抽取、問答系統(tǒng)等工作的基礎(chǔ)性關(guān)鍵任務(wù),因此老撾語名詞短語的識別和分析具有重要的研究和應(yīng)用價值。

相較于其他語言的名詞短語識別研究,老撾語名詞短語識別面臨以下4個難點: ①老撾語名詞短語存在邊界模糊且界定描述模糊的問題; ②老撾語中含梵語、巴利語、古高棉語、泰語等,由于標(biāo)注語料有限,導(dǎo)致語料存在大量的未登錄名詞短語; ③老撾語句式過長。老撾語中,中心詞通常有多個修飾部分,如何有效利用長距離的句法依賴關(guān)系正確識別短語成為重要問題; ④含動詞的老撾語名詞短語結(jié)構(gòu)復(fù)雜,識別難度較大。

傳統(tǒng)的名詞短語識別的相關(guān)研究主要基于特征工程和統(tǒng)計模型。如李榮等人[1]以詞、詞性為特征分別利用最大熵模型(Maximum Entropy,ME)、隱馬爾可夫模型(Hidden Markov Model,HMM)、支持向量機(jī)模型(Support Vector Machine,SVM)對漢語名詞短語識別;馬建軍等人[2]利用條件隨機(jī)場模型(Conditional Random Fields, CRF)在以詞、詞性為特征的基礎(chǔ)上,加入語義信息,實現(xiàn)英語功能名詞短語識別。這些傳統(tǒng)名詞短語識別方法雖然可以取得較好效果,但需要豐富的專業(yè)先驗知識以及大量的人工成本,且難以針對所有問題制定統(tǒng)一的模板。隨著人工智能的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法因具有更強(qiáng)的泛化性在名詞短語識別[3]、命名實體識別(NER)[4]、術(shù)語識別[5]等序列標(biāo)記任務(wù)中取得了突破性的進(jìn)展,其中,Huang Z[6]等人提出的BiLSTM-CRF模型成為了主流方法。BiLSTM-CRF模型在名詞短語識別方面的應(yīng)用,如方芳等人[7]利用字符級嵌入產(chǎn)生字符向量,使用字符向量基于BiLSTM-CRF模型與規(guī)則方法相結(jié)合,對漢語含動詞的名詞短語進(jìn)行識別;張文敏等人[8]提出了一種基于詞向量以預(yù)訓(xùn)練BERT模型和BiLSTM-CRF模型作為強(qiáng)基線模型,對漢語復(fù)合名詞短語進(jìn)行識別的方法;Lai H等人[9]采用BiLSTM-CRF模型和約束規(guī)則,將詞性特征以拼接的形式集成到模型的輸入詞向量中,完成越南語名詞短語識別。雖然BiLSTM-CRF模型在名詞短語識別任務(wù)中能有效利用上下文信息自動挖掘特征,提升性能,但是對長距離上下文信息記憶能力不足,無法有效利用長距離的句法依賴關(guān)系。

近年來,注意力機(jī)制在圖像識別、自然語言處理等領(lǐng)域被廣泛應(yīng)用。Wei W等人[10]結(jié)合BiLSTM-CRF和自注意力機(jī)制(Self-Attention)提出了能感知位置的序列標(biāo)記模型,并在詞性(POS)標(biāo)記、命名實體識別和短語分塊任務(wù)中證明了模型的有效性。注意力機(jī)制在名詞短語識別方面的應(yīng)用,如王聞慧等人[11]將注意力機(jī)制引入BiLSTM-CRF模型中, 考慮詞、詞性特征關(guān)系進(jìn)行越南語名詞短語識別,提升了越南語名詞短語識別效果,證明了注意力機(jī)制能增強(qiáng)利用長距離重要信息的能力。

為解決老撾語名詞短語識別任務(wù)中存在的問題,本文明確了對老撾語名詞短語的界定,通過對老撾語名詞短語結(jié)構(gòu)的研究,提出了一種融合短語結(jié)構(gòu)的多通道老撾語名詞短語識別方法,首先對每個老撾詞的詞、字符、詞性進(jìn)行分布式表示;其次,將其對應(yīng)的詞向量、字符向量和詞性向量以不同的方式組合拼接成多種輸入通道,最后分別輸入帶有注意力機(jī)制(Attention)的多通道雙向長短時記憶網(wǎng)絡(luò)(BiLSTM),通過CRF層得到最優(yōu)的標(biāo)記序列完成老撾語名詞短語的識別。實驗結(jié)果表明,與其他模型相比本文方法在識別老撾語名詞短語的任務(wù)上取得了更優(yōu)的表現(xiàn),模型的F1值達(dá)到了85.25%。

本文的主要貢獻(xiàn)如下:

(1) 提出了一種通過對老撾詞的詞、字符、詞性進(jìn)行分布式表示并組合的獲取老撾語名詞短語結(jié)構(gòu)特征的特征模板。

(2) 使模型通過多元化信息輸入學(xué)習(xí)不同特征的聯(lián)系,提取更多隱藏信息,降低了模型性能對特征向量初始值的依賴性。

(3) 通過加入Attention機(jī)制,考慮各個老撾詞對目標(biāo)詞的重要程度,分配不同概率權(quán)重,解決了因老撾語句式過長而導(dǎo)致語義信息丟失的問題。

1 老撾語名詞短語結(jié)構(gòu)分析

本文基于服務(wù)上層任務(wù)原則和完整語義原則將老撾語名詞短語界定為除去介詞短語與關(guān)系小句作修飾語的老撾語最長名詞短語,原因如下: ①在老撾語中,一個中心語可以同時由多個介詞短語修飾,且介詞短語又可以包含其他短語。故介詞短語作修飾語使老撾語名詞短語結(jié)構(gòu)過于復(fù)雜,會極大地增加識別難度,而將識別關(guān)系小句作為修飾語的名詞短語,會降低老撾語名詞短語識別任務(wù)對句法分析等任務(wù)的支持作用。②基本名詞短語作為小粒度語塊,包含的信息有限,無法表達(dá)完整意義。故老撾語最長名詞短語的識別更符合老撾語語言信息處理的實際需要。

本文根據(jù)老撾語名詞短語(Lao Noun Phrases,LaoNP)的修飾語組成結(jié)構(gòu),對LaoNP作形式化結(jié)構(gòu)描述,如表1所示。

表1 老撾語名詞短語結(jié)構(gòu)描述表

2 融合短語結(jié)構(gòu)的多通道老撾語名詞短語識別模型

2.1 模型結(jié)構(gòu)

本文構(gòu)建的融合短語結(jié)構(gòu)的多通道老撾語名詞短語識別模型結(jié)構(gòu)如圖1所示。模型由詞嵌入層、多通道輸入層、多通道雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)層、合并層、注意力網(wǎng)絡(luò)(Attention)層和CRF層組成。詞嵌入層利用預(yù)訓(xùn)練的方式對每個老撾詞的詞、字符、詞性進(jìn)行分布式表示,得到其對應(yīng)的詞向量、字符向量和詞性向量;多通道輸入層由接收詞向量、字符向量、詞性向量不同組合的四個通道并列組成;多通道BiLSTM網(wǎng)絡(luò)分別對不同通道同時提取每個老撾詞的局部特征向量;采用合并層將不同通道獲取的局部特征向量合并成新的特征向量,并輸入Attention層;通過Attention層為新特征向量分配不同權(quán)重分?jǐn)?shù),最后利用CRF層將Attention層的輸出解碼,得到一個最優(yōu)的標(biāo)記序列,完成老撾語名詞短語的識別。

圖1 融合短語結(jié)構(gòu)的多通道老撾語名詞短語識別模型結(jié)構(gòu)圖

2.2 老撾詞分布式表示

通過神經(jīng)網(wǎng)絡(luò)提取特征信息需要先將文本向量化,短語是由詞和詞按照固定的方式組合構(gòu)成的,本文將老撾詞轉(zhuǎn)化成向量形式,通過使用全局向量(Glove)模型訓(xùn)練詞級別語料庫,Glove模型引入共現(xiàn)矩陣計算詞向量,生成帶有全局信息的詞向量矩陣E∈RM×|v|,其中,|v|為詞級別語料庫的詞條集合大小,M為每個老撾詞映射的向量維度,即把每一個老撾詞融合全局信息映射到M維向量。

在老撾語名詞短語“中心語+修飾語”的結(jié)構(gòu)中,修飾語部分的詞性組合有較為明顯的規(guī)律,如當(dāng)修飾語中有指別詞、數(shù)量詞、形容詞同時修飾核心名詞時,由老撾語“語義靠近動因”原則,短語為“核心名詞+形容詞+數(shù)量詞+指別詞”的組合結(jié)構(gòu),并且老撾語語料存在大量的未登錄名詞短語,故利用粗粒度的詞性信息: 不僅可以識別短語信息,還可以起到平滑數(shù)據(jù)的作用。為了有效利用老撾詞詞性對名詞短語內(nèi)部結(jié)構(gòu)的強(qiáng)預(yù)測能力,相較于以往研究采用隨機(jī)賦值的方式獲取詞性特征向量,本文采用預(yù)訓(xùn)練的詞性特征向量,老撾詞詞性向量獲取方式如下: 首先,將詞級別語料庫進(jìn)行詞性標(biāo)注,形成的相對應(yīng)詞性序列為詞性語料庫,然后使用Glove模型訓(xùn)練詞性語料庫,把每一個老撾詞的詞性映射到L維向量。其優(yōu)勢在于通過由上下文詞性來表示當(dāng)前詞性,使詞性向量能表示詞性之間的相似度。

2.3 多通道輸入層

在其他語言的名詞短語識別任務(wù)中,輸入層一般為單通道輸入,文獻(xiàn)[11]將越南語詞向量和詞性向量以拼接的形式組成新的向量作為模型單通道輸入,實驗結(jié)果顯示,結(jié)合不同特征以單通道形式輸入網(wǎng)絡(luò)的方法可以提高識別效果。借鑒文獻(xiàn)[11]的思想,本文為了更充分地利用短語結(jié)構(gòu)特征,將詞特征、字符特征、詞性特征進(jìn)行不同組合,形成4個通道作為網(wǎng)絡(luò)的輸入,使模型可以根據(jù)多樣化的輸入,在訓(xùn)練過程中獲取更多的隱藏信息。同時,不同通道將老撾語特征組合,讓網(wǎng)絡(luò)在一次學(xué)習(xí)過程中完成對多個特征的參數(shù)調(diào)整,降低網(wǎng)絡(luò)模型的時間代價。

2.4 多通道雙向長短時記憶網(wǎng)絡(luò)(BiLSTM)層

LSTM是RNN模型的變體,其通過引入記憶單元和門限機(jī)制,克服了傳統(tǒng)RNN模型因序列過長而產(chǎn)生的梯度消失和爆炸問題。但LSTM模型僅從前向獲取特征信息,雙向LSTM(BiLSTM)結(jié)構(gòu)在LSTM的基礎(chǔ)上,增加另一個LSTM提取后向狀態(tài),可以捕獲完整的上下文特征。為了能有效利用上下文特征識別老撾語名詞短語,本文使用多通道雙向長短時記憶網(wǎng)絡(luò),4個BiLSTM同步進(jìn)行四個輸入通道的特征提取。

圖2 第i個BiLSTM結(jié)構(gòu)圖

2.5 注意力網(wǎng)絡(luò)(Attention)層

為了解決因老撾語句式過長、無法有效利用長距離重要信息的問題,本文利用Attention機(jī)制為多通道BiLSTM層輸出的綜合詞特征向量分配不同權(quán)重分?jǐn)?shù),然后將綜合詞特征向量與權(quán)重向量加權(quán)求和即得融合關(guān)鍵信息的特征向量。注意力機(jī)制如圖3所示。

圖3 注意力機(jī)制

其計算如式(5)所示。

(5)

其中,U、W、M為權(quán)重矩陣,ci-1為前一時刻老撾詞特征向量。

2.6 CRF層

BiLSTM層和Attention機(jī)制雖然能預(yù)測老撾語文本序列與標(biāo)簽的關(guān)系,但不能預(yù)測標(biāo)簽之間的依賴關(guān)系,故可能產(chǎn)生不符合標(biāo)注規(guī)則的輸出?;诖耍疚囊隒RF模型,兼顧標(biāo)簽的依賴關(guān)系,以確保標(biāo)簽的有效性。

Attention層輸出的融合關(guān)鍵信息的特征向量矩陣C作為CRF層的輸入,Cij表示老撾語句子中第i個詞的j標(biāo)簽的概率。對于老撾句子s=(W1,W2,…Wn)產(chǎn)生正確標(biāo)簽序列y=(y1,y2,…,yn)概率表示如式(8)所示。

(8)

其中,A為轉(zhuǎn)移矩陣,表示由標(biāo)簽i轉(zhuǎn)移到j(luò)的概率。對K(X,y)使用softmax函數(shù)做歸一化,產(chǎn)生標(biāo)記序列y的條件概率如式(9)所示。

(9)

(10)

解碼過程通過最大似然訓(xùn)練得到最優(yōu)老撾語名詞短語標(biāo)簽序列如式(11)所示。

(11)

3 實驗

3.1 語料與模型設(shè)置

本文實驗使用語料分為兩部分: 一是老撾語名詞短語語料。由于目前沒有公開的老撾語名詞短語數(shù)據(jù)集,因此本文通過網(wǎng)絡(luò)抓取工具從老撾語維基百科爬取了篇章級老撾語語料(11 309個句子),使用實驗室開發(fā)的老撾語分詞和詞性標(biāo)注工具對語料進(jìn)行處理后,通過人工標(biāo)注的方法對老撾語名詞短語進(jìn)行標(biāo)注(31 612個名詞短語),最后由老撾語專家進(jìn)行校對。語料庫標(biāo)注使用BIO標(biāo)簽集,對老撾語名詞短語首部標(biāo)注為“B”,內(nèi)部標(biāo)注為“I”,外部標(biāo)注為“O”。二是額外的分詞和詞性標(biāo)注語料(5 041個句子),該語料用于訓(xùn)練老撾詞向量、字符向量、詞性向量。本文采用五折交叉實驗: 將老撾語名詞短語語料均分為5組,選擇其中1組作為測試集,其余4組作為訓(xùn)練集,重復(fù)進(jìn)行5次實驗,最終的結(jié)果取5次實驗結(jié)果的均值,語料信息如表2所示。

表2 名詞短語語料信息表

模型實現(xiàn)使用python語言及Tensorflow框架。模型實驗超參數(shù)設(shè)置如表3所示。

表3 超參數(shù)設(shè)置

續(xù)表

模型由精確率(Precision,P)、召回率(Recall,R)和F1值進(jìn)行評估,精確率表示正確識別的老撾語名詞短語占識別出來的老撾語名詞短語的百分比,反映了模型的識別能力;召回率表示正確識別的老撾語名詞短語占語料中的老撾語名詞短語總數(shù)的百分比,反映了模型的查全能力;F1值綜合表征了精確率和召回率,體現(xiàn)綜合性能。P、R、F1值如式(12)~式(14)所示。

其中,NC代表識別正確的老撾語名詞短語,N1代表識別出來的老撾語名詞短語,NY代表語料中的老撾語名詞短語總數(shù)。

3.2 實驗設(shè)計與分析

3.2.1 模型對比測試

為說明本文提出的模型的有效性,本文將模型與基于CRF、LSTM、BiLSTM、BiLSTM-CRF、BiLSTM-Attention、單通道BiLSTM-Attention-CRF的老撾語名詞短語識別模型進(jìn)行比較,針對基于CRF的老撾語名詞短語識別模型,設(shè)置詞相關(guān)性、詞性相關(guān)性特征。針對基于LSTM、BiLSTM的名詞短語識別模型使用Glove訓(xùn)練獲得老撾詞的詞向量、字符向量、詞性向量,并直接通過拼接得到綜合詞向量,輸入模型識別名詞短語。針對基于BiLSTM-CRF、BiLSTM-Attention的名詞短語識別模型使用Glove訓(xùn)練獲得老撾詞的詞向量、字符向量、詞性向量,通過拼接得到的綜合詞向量輸入BiLSTM進(jìn)行訓(xùn)練,再分別經(jīng)CRF層和Attention層計算,最終得到兩個模型的輸出結(jié)果。

基于同一老撾語名詞短語語料,比較以上6種老撾語名詞短語識別模型與本文提出模型的有效性,實驗結(jié)果如表4所示。

表4 老撾語名詞短語識別模型對比實驗結(jié)果

實驗結(jié)果表明,僅僅使用CRF模型、LSTM模型、BiLSTM模型在老撾語名詞短語識別任務(wù)中,F(xiàn)1值分別為78.74%、81.50%、82.07%。對比可知,三個模型在一定程度上識別出部分老撾語名詞短語,但是整體表現(xiàn)不佳,其模型效果表現(xiàn)為: BiLSTM模型F1值高于LSTM模型0.57%,LSTM模型F1值高于CRF模型2.76%。這說明在相同的老撾語標(biāo)記語料的情況下,相較于人工提取特征的CRF模型,LSTM模型、BiLSTM模型結(jié)合深度學(xué)習(xí)的方法,能取得更好的精確率和召回率,深度學(xué)習(xí)模型能在一定程度上改善因老撾語標(biāo)注語料有限,而導(dǎo)致存在大量的未登錄名詞短語的問題。使用BiLSTM-CRF模型和BiLSTM-Attention模型在老撾語名詞短語識別任務(wù)中,F(xiàn)1值分別達(dá)到了83.40%、84.39%,相較于僅使用BiLSTM模型F1值得到了不同程度的提高,其中BiLSTM-CRF模型F1值提高了1.33%,BiLSTM-Attention模型F1值提高了2.32%,說明在老撾語名詞短語識別任務(wù)中,加入CRF模型和Attention機(jī)制都能有效提高短語識別的正確率,CRF模型的引入能兼顧標(biāo)簽之間的約束,避免了出現(xiàn)不符合規(guī)定標(biāo)簽序列,而Attention機(jī)制分配權(quán)重分?jǐn)?shù),解決了因老撾語句式過長而無法有效利用長距離重要信息的問題。單通道BiLSTM-Attention-CRF模型,F(xiàn)1值達(dá)到了84.40%。針對老撾語名詞短語識別難點,模型綜合了BiLSTM模型、CRF模型以及Attention機(jī)制的優(yōu)勢,同時解決了老撾語語料有限、未登錄名詞短語較多、句式過長等問題,從而提升F1值。本文使用的多通道BiLSTM-Attention-CRF模型,F(xiàn)1取達(dá)到了85.25%,高于單通道BiLSTM-Attention-CRF模型F1值0.85%,說明在老撾語名詞短語識別任務(wù)中將不同特征組合成不同的輸入通道,能使特征信息在網(wǎng)絡(luò)模型中得到更充分的利用,從而取得更好的識別效果。

3.2.2 特征融合評估

為說明每個特征及多通道融合特征的影響,本文基于同一老撾語名詞短語語料,設(shè)計單通道BiLSTM-Attention-CRF模型,設(shè)置相同參數(shù),以不同特征及特征組合作為輸入與本文多通道BiLSTM-Attention-CRF模型進(jìn)行對比實驗,實驗結(jié)果如表5所示。

表5 特征融合評估實驗結(jié)果

3.2.3 典型實例分析

以上為對老撾語名詞短語識別模型的定量對比分析,為進(jìn)一步分析本文提出的老撾語名詞短語識別方法的優(yōu)點,本文在語料中抽取典型實例識別結(jié)果,并進(jìn)行定性分析。

表6 典型名詞短語實例分析

4 總結(jié)

本文研究了老撾語名詞短語的結(jié)構(gòu),針對老撾語名詞短語的結(jié)構(gòu)特征,構(gòu)建了融合短語結(jié)構(gòu)的多通道老撾語名詞短語模型。模型通過將詞、字符和詞性特征組合形成不同的輸入通道,使用多個BiLSTM網(wǎng)絡(luò)從多方面特征提取更多隱藏信息,同時改善了低資源語料存在大量未登錄名詞短語的問題。老撾語句式過長,模型引入Attention機(jī)制,增加重要特征的權(quán)重,減少了無用信息的干擾,最后利用CRF模型兼顧標(biāo)簽之間的約束,獲得全局最優(yōu)標(biāo)記序列。實驗結(jié)果表明,與其他模型相比本文提出的方法在識別老撾語名詞短語的任務(wù)上取得了更優(yōu)的表現(xiàn),模型的F1值達(dá)到了85.25%。

本文提出多通道融合老撾語名詞短語結(jié)構(gòu)的短語識別機(jī)制,取得了一定的效果。后續(xù)工作中,我們考慮對識別后的老撾語句子進(jìn)行句法分析等相關(guān)研究。

猜你喜歡
特征向量語料老撾
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
基于歸一化點向互信息的低資源平行語料過濾方法*
老撾肉牛輸華實現(xiàn)突破
朝發(fā)夕至 乘著火車去老撾
三個高階微分方程的解法研究
瀕危語言與漢語平行語料庫動態(tài)構(gòu)建技術(shù)研究
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
英語教學(xué)中真實語料的運用
矩陣方法求一類數(shù)列的通項
汾西县| 谢通门县| 民丰县| 庆元县| 柘荣县| 准格尔旗| 阳曲县| 綦江县| 牡丹江市| 宝坻区| 衡阳市| 英吉沙县| 上犹县| 贺兰县| 清流县| 郴州市| 通城县| 林周县| 荃湾区| 连城县| 兴城市| 临江市| 南宫市| 徐闻县| 嘉善县| 密云县| 南溪县| 扬中市| 凉山| 北辰区| 碌曲县| 大埔区| 龙海市| 托克逊县| 虞城县| 承德市| 宜阳县| 阳泉市| 墨江| 温泉县| 留坝县|