基于深度學(xué)習(xí)的英語(yǔ)自然語(yǔ)言處理系統(tǒng)

2021-03-10 06:34:50曹艷琴

系統(tǒng)仿真技術(shù) 2021年4期

曹艷琴

（西安培華學(xué)院人文與國(guó)際教育學(xué)院，陜西西安 710125）

自然語(yǔ)言處理（Natural Language Processing，NLP）是指利用人類交流所使用的自然語(yǔ)言與機(jī)器進(jìn)行交互通信的技術(shù)［1-4］。在NLP研究的早期，學(xué)者主要焦點(diǎn)集中在語(yǔ)言結(jié)構(gòu)分析、技術(shù)驅(qū)動(dòng)的機(jī)器翻譯和語(yǔ)言識(shí)別方面［5-6］。目前的研究重點(diǎn)是NLP如何更加自然地在現(xiàn)實(shí)世界中使用，相應(yīng)的研究領(lǐng)域包括智能對(duì)話系統(tǒng)和社交媒體數(shù)據(jù)等［7-8］。

隨著機(jī)器學(xué)習(xí)的發(fā)展，有學(xué)者提出基于詞典和規(guī)則的有監(jiān)督機(jī)器學(xué)習(xí)分詞算法［9-10］，該類方法的優(yōu)點(diǎn)是簡(jiǎn)單、易于實(shí)現(xiàn)，并且可以根據(jù)特定場(chǎng)景制定合適的詞典。然而，由于沒有統(tǒng)一的分詞標(biāo)準(zhǔn)，詞典的質(zhì)量無(wú)法明確界定，分詞結(jié)果存在較大差異。此外，有學(xué)者提出利用深度學(xué)習(xí)在NLP領(lǐng)域進(jìn)行序列標(biāo)記［11-12］。然而，深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練過(guò)程比較復(fù)雜，許多傳統(tǒng)文本標(biāo)記方法無(wú)法直接移植到深度學(xué)習(xí)網(wǎng)絡(luò)。最后，NLP中最重要的為文本特征提取，常用的特征提取方法包括TF-IDF算法、TextRank算法、LDA算法等［13-14］。然而，現(xiàn)有的模型并沒有考慮不同模式對(duì)當(dāng)前學(xué)習(xí)任務(wù)的重要性，只關(guān)注如何有效地同時(shí)使用多種模式進(jìn)行特征提取。

為解決上述問(wèn)題，本文提出了一種多模態(tài)融合特征提取模型，結(jié)合條件隨機(jī)場(chǎng)（Conditional Random Field，CRF），解決句子層次分析中的序列標(biāo)注問(wèn)題。并基于混合網(wǎng)絡(luò)英語(yǔ)分詞處理方法，提高英語(yǔ)分詞效率及準(zhǔn)確率。

1 英語(yǔ)分詞混合網(wǎng)絡(luò)

1.1 網(wǎng)絡(luò)架構(gòu)

基于字符的序列標(biāo)注任務(wù)同樣可以看作是一個(gè)英語(yǔ)分詞任務(wù)。在分詞處理過(guò)程中，深度學(xué)習(xí)對(duì)于四元組的描述，主要是借助A4nin，即注釋集的方式來(lái)實(shí)現(xiàn)。

式（1）中，B表示句子開頭；M代表句子中間；E為結(jié)束分詞；S是由單個(gè)詞組成的分詞。

令輸入句子設(shè)定為c(n)，長(zhǎng)度設(shè)定為n，窗口規(guī)格選定為w，起始字符設(shè)定為c(1)與c(n)。分詞過(guò)程可描述如下：

步驟1將zi定義為輸入層到隱藏層的線性轉(zhuǎn)換結(jié)果，其表達(dá)式為

式（2）中，w1是權(quán)重矩陣；b1是偏差系數(shù)。

步驟2通過(guò)元素級(jí)激活函數(shù)傳遞線性變換的結(jié)果σ，得到隱含層函數(shù)hi，具體計(jì)算如下：

步驟3利用給定的標(biāo)號(hào)集，用線性變換方式，開展線性變換操作，實(shí)現(xiàn)輸入字符標(biāo)記的可能性，即概率設(shè)定為yi，則

式（4）中，w2為權(quán)重矩陣，b2為偏差系數(shù)。

1.2 網(wǎng)絡(luò)分詞處理

為解決長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)（LSTM）在英語(yǔ)分詞處理中結(jié)構(gòu)復(fù)雜、處理數(shù)據(jù)時(shí)間長(zhǎng)等缺點(diǎn)，在保證處理精度接近的前提下，本文采用門控循環(huán)單元（Gate Recurrent Unit，GRU）［15］結(jié)合CRF16］模型提高模型訓(xùn)練效率及精度。圖3所示為網(wǎng)絡(luò)結(jié)構(gòu)。

令網(wǎng)絡(luò)中新引入的狀態(tài)轉(zhuǎn)移矩陣為A，雙層GRU神經(jīng)網(wǎng)絡(luò)的輸出矩陣為P。令A(yù)ij表示時(shí)間序列中從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的權(quán)重；如果Aij的值較大，則表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率較大。令Pij表示輸入觀測(cè)序列，即第i個(gè)單詞是第j個(gè)標(biāo)簽的概率。因此，標(biāo)記序列的預(yù)測(cè)輸出y=(y1，y2，…，yn)，對(duì)應(yīng)于觀察序列T=(t1，t2，…，tn)可表示為

圖1 GRU-CRF混合網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Structure of GRU-CRFhybrid network model

2 仿真與分析

2.1 數(shù)據(jù)集與仿真環(huán)境

實(shí)驗(yàn)中使用的數(shù)據(jù)來(lái)自SQuAD數(shù)據(jù)集，共包含107785個(gè)問(wèn)題和相配套的536篇文章。仿真時(shí)隨機(jī)選取20%的訓(xùn)練集作為開發(fā)集，其余訓(xùn)練集作為本實(shí)驗(yàn)的訓(xùn)練集。在對(duì)輸入數(shù)據(jù)集進(jìn)行訓(xùn)練之前，對(duì)所有數(shù)據(jù)進(jìn)行預(yù)處理。

仿真環(huán)境為Python Tensorflow+GPU編譯環(huán)境；顯卡為NVIDIA rtx2080ti；Win10系統(tǒng)，64 GB內(nèi)存；表1所示為實(shí)驗(yàn)部分網(wǎng)絡(luò)參數(shù)。

表1 系統(tǒng)訓(xùn)練參數(shù)Tab.1 System training parameters

2.2 特征提取性能測(cè)試

表2所示為模型特征降維能力精度測(cè)試結(jié)果。可以看出，本文提出的模型能夠從原始的高維特征中提取低維特征，有效地融合多種原始特征。

表2 精度測(cè)試結(jié)果Tab.2 Accuracy test results

2.3 網(wǎng)絡(luò)分詞性能測(cè)試

將本文提出的混合GRU-CRF網(wǎng)絡(luò)模型與CRF、LSTM、BI-LSTM、GRU網(wǎng)絡(luò)模型進(jìn)行比較，準(zhǔn)確率測(cè)試結(jié)果如圖4所示?？梢钥闯?，所提出的混合GRU-CRF網(wǎng)絡(luò)分詞方法準(zhǔn)確率高于其他模型的測(cè)試精度，表明本文的方法具有優(yōu)異的分詞性能。

圖2 不同策略模型性能對(duì)比結(jié)果Fig.2 Performance comparison results of different strategy models

3 結(jié)論

本文對(duì)英文自然語(yǔ)言處理中文本分割及特征提取進(jìn)行了研究，構(gòu)建了GRU-CRF混合網(wǎng)絡(luò)為內(nèi)核的分詞模型，從而提高英語(yǔ)分詞效率及準(zhǔn)確率。本文所提出的模型不僅在時(shí)間指標(biāo)上具備優(yōu)勢(shì)，而且還兼?zhèn)銵STM優(yōu)勢(shì)，可借助CRF層實(shí)現(xiàn)對(duì)句子前后標(biāo)簽的關(guān)注與分析。本研究為英語(yǔ)自然語(yǔ)言處理有一定借鑒的作用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡