基于ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ的非法出入境筆錄文本提取模型

2023-07-17 09:30郭婧婧李俊杰周衛(wèi)等

計(jì)算機(jī)應(yīng)用文摘 2023年13期

郭婧婧李俊杰周衛(wèi)等

摘要：為提高非法出入境筆錄信息提取方面的命名實(shí)體識(shí)別能力，提出了一種融合語(yǔ)言模型的非法出入境筆錄信息提取模型。該模型首先利用BERT模型對(duì)輸入序列中的單詞進(jìn)行編碼，得到每個(gè)單詞的向量表示，然后將這些向量輸入到BiLSTM網(wǎng)絡(luò)中，利用LSTM網(wǎng)絡(luò)時(shí)輸入序列進(jìn)行建模，學(xué)習(xí)輸入序列中的上下文信息和語(yǔ)法結(jié)構(gòu)等。最后，通過(guò)一個(gè)CRF層對(duì)BiLSTM網(wǎng)絡(luò)的輸出進(jìn)行標(biāo)注．從而得到最終的輸出序列。實(shí)驗(yàn)結(jié)果表明，該模型能較好地應(yīng)用于非法出入境筆錄文本提取的任務(wù)。在與廣西邊防檢查總站的合作項(xiàng)目里，最終將該模型應(yīng)用于實(shí)際生產(chǎn)工作中，為邊檢警方的筆錄提取工作提供便利。

關(guān)鍵詞：非法出入境筆錄文本；命名實(shí)體識(shí)別；BERT預(yù)訓(xùn)練語(yǔ)言模型；BiLSTM；CRF

中圖法分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A

１引言

廣西地處西南邊陲，與越南毗鄰，是中國(guó)對(duì)外開(kāi)放的“橋頭堡”，且擁有多個(gè)國(guó)家級(jí)和省級(jí)的對(duì)外開(kāi)放口岸。近年來(lái)，越南和廣西之間的交流日益頻繁，但大規(guī)模、高頻次的跨境流動(dòng)人口中夾雜大量非法勞工，相關(guān)部門在對(duì)非法入境人員進(jìn)行立案時(shí)，必須對(duì)被收容人的姓名、性別、國(guó)籍、民族、戶籍、學(xué)歷、身份證、手機(jī)等多項(xiàng)個(gè)人信息做詳細(xì)的記錄，而傳統(tǒng)的人工采集方式需要消耗大量人力物力，且效率低下。為解決上述問(wèn)題，本文通過(guò)廣西出入境邊防檢查總站提供的原始筆錄數(shù)據(jù)構(gòu)建非法出入境筆錄文本的命名實(shí)體識(shí)別語(yǔ)料庫(kù)，提出了基于預(yù)訓(xùn)練模型的非法出入境筆錄信息提取模型，并取得了較好的效果。

２相關(guān)工作

１９９６年，Ｒ．Ｇｒｉｓｈｍａｎ和Ｂ．Ｓｕｎｄｈｅｉｍ在ＭｅｓｓａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇＣｏｎｆｅｒｅｎｃｅ（ＭＵＣ?６）上提出了“命名實(shí)體”的概念，該概念被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域［１］。早期的命名實(shí)體識(shí)別主要依賴于規(guī)則和詞典等手動(dòng)構(gòu)建的模板，與被識(shí)別的文檔進(jìn)行匹配以抽取實(shí)體。之后，基于特征工程和機(jī)器學(xué)習(xí)的方法成為主流，常用的方法包括最大熵［２］、隱馬爾可夫模型［３］、支持向量機(jī)［４］和條件隨機(jī)場(chǎng)［５］等。近年來(lái)，命名實(shí)體識(shí)別中出現(xiàn)了越來(lái)越多的神經(jīng)網(wǎng)絡(luò)模型［６］，例如ＬＳＴＭ模型［７］，在ＬＳＴＭ的基礎(chǔ)上，研究人員引入條件隨機(jī)場(chǎng)來(lái)增強(qiáng)模型的約束條件，預(yù)訓(xùn)練模型也逐漸被廣泛應(yīng)用于命名實(shí)體識(shí)別領(lǐng)域，提高了中文實(shí)體識(shí)別的效果。

國(guó)內(nèi)外對(duì)于非法出入境筆錄信息的命名實(shí)體研究較少，且可用的數(shù)據(jù)集稀缺，該領(lǐng)域的信息抽取問(wèn)題亟待解決，主要包括：（１）基于機(jī)器學(xué)習(xí)的實(shí)體識(shí)別方法對(duì)人工特征依賴驗(yàn)證，難以捕獲長(zhǎng)距離上下文信息；（２）目前專門針對(duì)筆錄信息提取領(lǐng)域的命名實(shí)體識(shí)別研究還十分稀少，也未構(gòu)建相應(yīng)的語(yǔ)料庫(kù)；（３）筆錄信息中常包含特征相似的實(shí)體，如越南身份證號(hào)碼和越南手機(jī)號(hào)碼均為數(shù)字組成，且位數(shù)相同，對(duì)于存在相似特征的實(shí)體，會(huì)增加實(shí)體提取的難度。

３ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型

本文將非法出入境筆錄文本作為原始語(yǔ)料，分段清洗后并對(duì)其進(jìn)行標(biāo)注。這些標(biāo)注數(shù)據(jù)被輸入到ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型中進(jìn)行實(shí)體識(shí)別。該模型由３個(gè)部分組成。（１）ＢＥＲＴ預(yù)訓(xùn)練模型，用于提取文本的豐富特征，并表示為字向量。（２）ＢｉＬＳＴＭ模型，通過(guò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)提取雙向文本信息，將上一層輸出的字向量輸入到ＢｉＬＳＴＭ模型中得到雙向狀態(tài)序列，進(jìn)一步獲取數(shù)據(jù)隱藏層的高級(jí)特征。（３）ＣＲＦ模型，用于根據(jù)相鄰標(biāo)簽的概率關(guān)系獲得最優(yōu)標(biāo)注序列。結(jié)合ＣＲＦ中的狀態(tài)轉(zhuǎn)移矩陣對(duì)ＢｉＬＳＴＭ模型的輸出序列進(jìn)行約束處理，根據(jù)相鄰標(biāo)簽信息得到一個(gè)全局最優(yōu)標(biāo)簽序列。通過(guò)將三者結(jié)合起來(lái)，ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型可以獲得語(yǔ)義表示和序列信息的最佳結(jié)合。ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型架構(gòu)如圖１所示。

３．１ＢＥＲＴ

ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）是一種預(yù)訓(xùn)練語(yǔ)言模型，由Ｊ．Ｄｅｖｌｉｎ等在２０１８年提出。其基于Ｔｒａｎｓｆｏｒｍｅｒ架構(gòu)，主要由２個(gè)部分組成：編碼器和多頭注意力機(jī)制。ＢＥＲＴ使用大量的文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，學(xué)習(xí)了語(yǔ)言中的上下文關(guān)系。在實(shí)際應(yīng)用中，ＢＥＲＴ可以將文本數(shù)據(jù)轉(zhuǎn)換為語(yǔ)義表示，并將這些表示作為上層模型的輸入，以解決各種自然語(yǔ)言處理任務(wù)。

３．２ＢｉＬＳＴＭ

ＢｉＬＳＴＭ是雙向ＬＳＴＭ的縮寫(xiě)，意味著該模型同時(shí)從正向和反向２個(gè)方向讀取序列數(shù)據(jù)。雙向ＬＳＴＭ的模型結(jié)構(gòu)如下所示：一個(gè)正向ＬＳＴＭ層，讀取序列數(shù)據(jù)從左到右；一個(gè)反向ＬＳＴＭ層，讀取序列數(shù)據(jù)從右到左；兩個(gè)ＬＳＴＭ層的輸出連接在一起，作為最終的語(yǔ)義表示。

３．３ＣＲＦ

ＣＲＦ（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄｓ）是一種用于標(biāo)記序列數(shù)據(jù)的生成模型。ＣＲＦ層利用序列的上下文信息和語(yǔ)法結(jié)構(gòu)，對(duì)每個(gè)單詞的標(biāo)注結(jié)果進(jìn)行聯(lián)合建模，使得標(biāo)注結(jié)果不僅取決于當(dāng)前單詞的特征，還考慮了整個(gè)序列中標(biāo)注結(jié)果的一致性。

４數(shù)據(jù)集及參數(shù)指標(biāo)

４．１數(shù)據(jù)集

本文采用的是自建數(shù)據(jù)集，所用的語(yǔ)料為廣西邊防檢查總站提供的非法出入境筆錄文本數(shù)據(jù)，通過(guò)對(duì)筆錄文本數(shù)據(jù)進(jìn)行清洗分類，選取有效文本２８２２個(gè)，通過(guò)分析筆錄文本數(shù)據(jù)的特點(diǎn)，設(shè)置了９種實(shí)體類別，各類實(shí)體的統(tǒng)計(jì)信息如表１所列。

４．２參數(shù)指標(biāo)

本文采用命名實(shí)體識(shí)別的３個(gè)常用評(píng)價(jià)指標(biāo)，即準(zhǔn)確率（Ｐ）、召回率（Ｒ）和Ｆ１值。各項(xiàng)指標(biāo)的具體計(jì)算公式如式（１）～式（３）所示：

５實(shí)驗(yàn)與分析

５．１實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)采用的網(wǎng)絡(luò)架構(gòu)為Ｔｅｎｓｏｒｆｌｏ，１．１４．０，Ｐｙｔｈｏｎ版本為３．７。本文模型參數(shù)設(shè)置如表２所列。

５．２實(shí)驗(yàn)結(jié)果

本文構(gòu)建數(shù)據(jù)集的標(biāo)注采用的是ＢＩＯ的方式，并將其分為訓(xùn)練集、測(cè)試集和驗(yàn)證集，占比分別為７０％，１５％，１５％。模型識(shí)別結(jié)果如表３所列。

模型對(duì)于非法出入境筆錄信息中ｎａｍｅ，ｇｅｎｄｅｒ，ｂｉｒｔｈ，ｎａｔｉｏｎ，ｅｄｕｃａｔｉｏｎ的識(shí)別效果都達(dá)到了９５％以上，對(duì)ｃｏｕｎｔｒｙ，ＩＤｎｕｍｂｅｒ，ＰＮｕｍｂｅｒ，ｓｉｔｅ的識(shí)別效果都達(dá)到了８０％以上。由于非法出入境的筆錄文本中部分被查獲人員的ＩＤｎｕｍｂｅｒ和ＰＮｕｍｂｅｒ有缺失，導(dǎo)致數(shù)據(jù)量不足，因此實(shí)體識(shí)別存在一定難度。但在有限的數(shù)據(jù)樣本中，本文的模型結(jié)果仍能達(dá)到９５％左右的識(shí)別水平。

６結(jié)束語(yǔ)

本文針對(duì)非法出入境筆錄文本提取的專業(yè)領(lǐng)域分析，采用了ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型，并對(duì)其進(jìn)行命名實(shí)體識(shí)別，提取出筆錄文本中被查獲人的個(gè)人信息。實(shí)驗(yàn)結(jié)果表明，在自建的非法出入境筆錄文本數(shù)據(jù)集上，采用ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ模型表現(xiàn)良好，這為后續(xù)的筆錄信息分析提供了基礎(chǔ)。在未來(lái)的工作中，需要繼續(xù)完善數(shù)據(jù)集以提高模型的魯棒性，同時(shí)增加實(shí)體類別的劃分，以平衡每個(gè)實(shí)體類別的數(shù)量。

參考文獻(xiàn)：

［１］ＧＲＩＳＨＭＡＮＲ，ＳＵＮＤＨＥＩＭＢＭ．Ｍｅｓｓａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇｃｏｎｆｅｒｅｎｃｅ?６：Ａｂｒｉｅｆｈｉｓｔｏｒｙ［Ｃ］ ∥ＣＯＬＩＮＧ，１９９６Ｖｏｌｕｍｅ１：Ｔｈｅ１６ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，１９９６，１：４６６?４７１．

［２］ＢＥＲＧＥＲＡ，ＤＥＬＬＡＰＩＥＴＲＡＳＡ，ＤＥＬＬＡＰＩＥＴＲＡＶＪ．Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙａｐｐｒｏａｃｈｔｏｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ［Ｊ］．Ｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓｔｉｃｓ，１９９６，２２（１）：３９?７１．

［３］ＨＵＷ，ＴＩＡＮＧ，ＫＡＮＧＹ，ｅｔａｌ．ＤｕａｌｓｔｉｃｋｙｈｉｅｒａｒｃｈｉｃａｌＤｉｒｉｃｈｌｅｔｐｒｏｃｅｓｓｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌａｎｄｉｔｓａｐｐｌｉｃａｔｉｏｎｔｏｎａｔｕｒａｌｌａｎｇｕａｇｅｄｅｓｃｒｉｐｔｉｏｎｏｆｍｏｔｉｏｎｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｐａｔｔｅｒｎａｎａｌｙｓｉｓａｎｄｍａｃｈｉｎｅｉｎｔｅｌｌｉｇｅｎｃｅ，２０１７，４０（１０）：２３５５?２３７３．

［４］ＣＨＥＮＰＨ，ＬＩＮＣＪ，ＳＣＨ?ＬＫＯＰＦＢ．Ａｔｕｔｏｒｉａｌｏｎ ν ‐ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ［Ｊ］．ＡｐｐｌｉｅｄＳｔｏｃｈａｓｔｉｃＭｏｄｅｌｓｉｎＢｕｓｉｎｅｓｓａｎｄＩｎｄｕｓｔｒｙ，２００５，２１（２）：１１１?１３６．

［５］ＬＥＥＣ，ＨＷＡＮＧＹＧ，ＯＨＨＪ，ｅｔａｌ．Ｆｉｎｅ?ｇｒａｉｎｅｄｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓｆｏｒｑｕｅｓｔｉｏｎａｎｓｗｅｒｉｎｇ［Ｊ］．Ｌｅｃｔｕｒｅｎｏｔｅｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００６，４１８２：５８１?５８７．

［６］ＣＯＬＬＯＢＥＲＴＲ，ＷＥＳＴＯＮＪ，ＢＯＴＴＯＵＬ，ｅｔａｌ．Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ（ａｌｍｏｓｔ）ｆｒｏｍｓｃｒａｔｃｈ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１１，１２（ＡＲＴＩＣＬＥ）：２４９３?２５３７．

［７］ＨＡＭＭＥＲＴＯＮＪ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｌｏｎｇｓｈｏｒｔ?ｔｅｒｍｍｅｍｏｒｙ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｖｅｎｔｈｃｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌｌａｎｇｕａｇｅｌｅａｒｎｉｎｇａｔＨＬＴ?ＮＡＡＣＬ２００３，２００３：１７２?１７５．

作者簡(jiǎn)介：

郭婧婧（１９９６—），碩士，研究方向：自然語(yǔ)言處理。

李俊杰（１９８４—），本科，研究方向：應(yīng)用系統(tǒng)研發(fā)（通信作者）。

計(jì)算機(jī)應(yīng)用文摘2023年13期

計(jì)算機(jī)應(yīng)用文摘的其它文章: 新工科背景下低代碼平臺(tái)在“大學(xué)計(jì)算機(jī)基礎(chǔ)”課程中的應(yīng)用; 招投標(biāo)在園林設(shè)計(jì)類課程中的創(chuàng)新應(yīng)用; 基于VR技術(shù)的軟裝設(shè)計(jì)教學(xué)平臺(tái)研究; “計(jì)算機(jī)應(yīng)用”課程的混合式教學(xué)模式研究; 教師在線學(xué)習(xí)的學(xué)習(xí)者畫(huà)像研究; 智慧教育理念下教學(xué)云平臺(tái)促進(jìn)高校外語(yǔ)有效教學(xué)環(huán)境的構(gòu)建與實(shí)踐

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于 ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ 的非法出入境筆錄文本提取模型

基于ＢＥＲＴ?ＢｉＬＳＴＭ?ＣＲＦ的非法出入境筆錄文本提取模型