国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字詞特征融合的中文地址匹配算法

2023-08-26 03:08陳劍
電腦知識(shí)與技術(shù) 2023年19期
關(guān)鍵詞:字符語(yǔ)義向量

陳劍

關(guān)鍵詞:地址匹配;深度學(xué)習(xí);特征融合

0 引言

地址是描述某種具體空間位置的文本標(biāo)識(shí),具有重要的地理信息價(jià)值。中文地名的匹配和解析是進(jìn)行中文地址標(biāo)準(zhǔn)化和規(guī)范化的基礎(chǔ)[1]。但中文地址具有來(lái)源多樣性和描述差異化的特點(diǎn),在智慧城市建設(shè)和大數(shù)據(jù)背景條件下,如何提高地址匹配的準(zhǔn)確率和有效率是開展后續(xù)任務(wù)的關(guān)鍵因素。當(dāng)前對(duì)中文地址匹配的研究主要包含以下三塊內(nèi)容[2-4]:一種是基于規(guī)則的地址匹配方法,這種方法分為兩個(gè)階段,第一階段是通過(guò)比較兩個(gè)地址字符串的相似程度,進(jìn)而判斷是否為同一地址,此類方法不需要對(duì)地址進(jìn)行解析,沒(méi)有考慮到地址的語(yǔ)義信息,匹配準(zhǔn)確率較低;第二階段是基于地址要素的地址匹配方法,該方法是根據(jù)地址要素特征詞進(jìn)行中文地址的提取,進(jìn)而實(shí)現(xiàn)對(duì)地址要素的匹配,但基于地址要素匹配的方法對(duì)非標(biāo)準(zhǔn)地址或者復(fù)雜地址難以有效解析和提取,適應(yīng)性較差;另外一種是基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法,該方法是通過(guò)大規(guī)模語(yǔ)料庫(kù)獲取地名匹配的統(tǒng)計(jì)模型,其在考慮地名短語(yǔ)的詞法信息之外,結(jié)合了在句子上下文信息,可以在一定程度上解決語(yǔ)義歧義問(wèn)題;最后一種是基于深度學(xué)習(xí)的方法,通過(guò)挖掘數(shù)據(jù)中潛在的規(guī)律特征實(shí)現(xiàn)對(duì)地址匹配的目的[5-8]。

顯然基于規(guī)則和統(tǒng)計(jì)的方法有一定的局限性,匹配準(zhǔn)確度低,依賴標(biāo)準(zhǔn)地址庫(kù)的構(gòu)建。對(duì)錯(cuò)亂和缺失的地址無(wú)法有效處理,缺乏對(duì)地址語(yǔ)義的理解,不能有效地提取地址的語(yǔ)義信息?;谏窠?jīng)網(wǎng)絡(luò)的方法能有效解決語(yǔ)義信息的缺失,和對(duì)于地址要素之間的各類差異的效果欠佳問(wèn)題,但對(duì)于這類模型來(lái)說(shuō),如何有效融合全局與局部范圍的上下文信息是一個(gè)重要的問(wèn)題。本文通過(guò)分析中文地址結(jié)構(gòu)的特點(diǎn),提出一種基于字、詞特征融合的中文地址匹配方法,該方法不依賴于地址特征庫(kù),從地址語(yǔ)義理解的角度出發(fā),實(shí)現(xiàn)對(duì)中文地址的精準(zhǔn)匹配。

1 模型結(jié)構(gòu)

中文地址包含地址要素、詞性和句法三大類特征。中文地址的最小語(yǔ)義單元是地址要素,一個(gè)中文地址通常是由多個(gè)要素構(gòu)成,每個(gè)地址要素屬于地名實(shí)體中的一個(gè)獨(dú)立部分。地址要素由普通字符與特征字構(gòu)成,其中特征字更能體現(xiàn)地址要素間的本質(zhì)區(qū)別,并反映出地址的真實(shí)語(yǔ)義與位置信息。中文地址要素包含多個(gè)層級(jí),將中文地址要素劃分多個(gè)層級(jí)。如省、直轄市為第一層級(jí),省會(huì)、地級(jí)市為第二層級(jí),區(qū)、縣為第三層級(jí),街道、鄉(xiāng)鎮(zhèn)為第四層級(jí),以街道、鄉(xiāng)鎮(zhèn)為例,可能包含對(duì)應(yīng)地址要素特征集合為:鎮(zhèn)、鄉(xiāng)、辦事處、居委會(huì)、社區(qū)、街道。因此,特征字是區(qū)分地址要素、劃分地址層級(jí)的標(biāo)志。在本節(jié)中,筆者根據(jù)中文地址結(jié)構(gòu)的特點(diǎn),提出一種基于字、詞以及地址特征融合的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)模型。該架構(gòu)的第一個(gè)重要組件負(fù)責(zé)將字、詞標(biāo)記及其特征轉(zhuǎn)換為向量表示,然后將得到的句子進(jìn)行融合向量表示獲取地址語(yǔ)義信息,最后根據(jù)地址語(yǔ)義相似度實(shí)現(xiàn)地址的匹配。

1.1 主要模塊

本文提出一種基于字詞特征融合的中文地址匹配模型,根據(jù)中文地址的特點(diǎn),融合中文地址的字、詞屬性,建立字詞特征融合的中文地址語(yǔ)義匹配模型。具體來(lái)說(shuō),地址語(yǔ)義匹配模型分為三個(gè)階段:第一階段為字符嵌入表征,通過(guò)融入字符的局部和全局特征,將地址字符信息轉(zhuǎn)變?yōu)橄蛄勘磉_(dá)。第二階段為詞嵌入表征,通過(guò)獲取地址文本中詞的前向和后向的上下文依賴關(guān)系,挖掘基于詞的地址語(yǔ)義信息,并且基于地址特征字的關(guān)系屬性,聯(lián)合地址要素綜合得到地址語(yǔ)義表征。第三階段為地址的匹配,通過(guò)使用地址語(yǔ)義相似度算法,根據(jù)設(shè)定閾值判斷地址是否相似。

地址語(yǔ)義匹配模型接受地址輸入,并分別基于字、詞生成地址的語(yǔ)義向量表示,接著通過(guò)字詞特征融合表征地址語(yǔ)義,最后使用地址語(yǔ)義相似度算法實(shí)現(xiàn)地址匹配。模型整體構(gòu)造如圖1所示。MFAM模型整體分為編碼模塊、語(yǔ)義表征模塊、相似度計(jì)算模塊組成,下文對(duì)各階段的具體細(xì)節(jié)進(jìn)行說(shuō)明。

1.2 地址語(yǔ)義表征

本文采用結(jié)合字詞特征融合的地址語(yǔ)義表征。具體來(lái)說(shuō),首先從輸入句子中獲取基于字符嵌入向量表示,并通過(guò)卷積網(wǎng)絡(luò)實(shí)現(xiàn)最大時(shí)間離散化,生成的基于字符的標(biāo)記序列表示被傳遞Bi-LSTM的輸入層;其次,輸入序列通過(guò)分詞和預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行詞向量表征,并連接到詞嵌入層。

1) 基于字符表征

1) 基于字符表征本文將中文地址中的漢字字符特征作為一個(gè)特征輸入,分別從全局和局部的角度學(xué)習(xí)語(yǔ)義信息。具體來(lái)說(shuō),首先使用BiLSTM對(duì)輸入字符進(jìn)行雙向語(yǔ)義表征學(xué)習(xí),然后使用自注意力機(jī)制有效獲取任意兩個(gè)字符之間的關(guān)系,獲取字符全局信息。接著使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)字符進(jìn)行特征提取,基于最大池化的方法獲取主要信息,獲取字符的局部特征?;谧址痔卣鞅碚鹘Y(jié)構(gòu)如圖2所示。

對(duì)于在t 時(shí)刻的地址字符wt',首先采用預(yù)訓(xùn)練語(yǔ)言模型BERT將其轉(zhuǎn)換為字符嵌入形式wt,BERT模型采用了雙向Transformer語(yǔ)義模型,可以充分獲取字詞的上下文信息,接著將字符的嵌入表征輸入BiLSTM 網(wǎng)絡(luò),獲取字符表征輸出為ht = [ ht ; ht ],其中ht 和ht分別表示BiLSTM網(wǎng)絡(luò)的前向和后向的輸出。BiL? STM是一種改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,通過(guò)引入門結(jié)構(gòu)可以有選擇地保存上下文信息,對(duì)于長(zhǎng)距離信息進(jìn)行有效利用,可以有效克服梯度爆炸問(wèn)題。在BiL? STM網(wǎng)絡(luò)的輸出結(jié)果之上,采用自注意力機(jī)制捕獲任意兩個(gè)字符之間的關(guān)系,相關(guān)計(jì)算公式如下所示:

其中,ct 是上下文向量,wa,wb,wc 是權(quán)重矩陣,χ 是隨機(jī)初始化的參數(shù)向量。

基于字符局部特征表征結(jié)構(gòu)如圖3所示。

使用卷積神經(jīng)網(wǎng)絡(luò)提取字符的局部特征,并且疊加最大池化操作從學(xué)到的特征中保留最主要的特征。對(duì)于一個(gè)輸入字符,采用CNN進(jìn)行特征提取,相關(guān)公式如下所示:

2)基于詞表征

本文在使用字符級(jí)特征基礎(chǔ)之上,采用詞級(jí)別特征,引入基于字詞編碼的方法,充分利用詞的邊界和語(yǔ)義信息。將模型的字符和詞的信息編碼成聯(lián)合表示。具體地,該方法為每個(gè)字符分配B、M、E和S共4 個(gè)標(biāo)簽,其中B表示當(dāng)前字開頭的潛在詞集合,M表示中間包含當(dāng)前詞的集合,E表示當(dāng)前字結(jié)尾的潛在詞集合,S表示當(dāng)前字本身。

為每個(gè)詞定義一個(gè)集合,集合包含了該詞以及該詞對(duì)應(yīng)的B、M、E和S的集合,并使用基于詞頻計(jì)算的權(quán)重加權(quán)方式求和多個(gè)詞向量,最后拼接當(dāng)前字的向量表示及其對(duì)應(yīng)的B、M、E和S的集合的向量表示作為字詞信息的聯(lián)合表示,用作模型的最終輸入:

1.3 特征融合

對(duì)于已獲取的字符級(jí)特征,包含全局特征和局部特征,使用字詞特征融合的策略進(jìn)行表示。字詞特征融合是一種具有魯棒性和高效性的策略,能充分利用最顯著的特征達(dá)到更好的效果?;谧址?jí)的特征融合能將多個(gè)相關(guān)特征組合成原始輸入序列的全局信息表示。在特征融合階段,采用一種能自適應(yīng)的連接策略對(duì)全局和局部特征進(jìn)行融合,字詞特征融合表示如下:

其中,htA 和htC 是從1.2節(jié)中獲取的特征,u1 是用來(lái)調(diào)節(jié)這兩個(gè)特征重要性程度的參數(shù)。

最后,將融合的字符級(jí)表示ht 和增強(qiáng)的字詞編碼表示Emb(B,M,E,S) 進(jìn)行特征的拼接,得到最終輸入層的表示。

2 地址語(yǔ)義相似度計(jì)算

對(duì)待匹配地址和標(biāo)準(zhǔn)地址集中的每一個(gè)地址進(jìn)行相似度計(jì)算,獲取到與待匹配標(biāo)準(zhǔn)地址的相似度,設(shè)定相似度閾值,查找到符合閾值的相似地址。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

本文使用基于CUDA 10.0的深度學(xué)習(xí)框架Keras i27.3-.707構(gòu)00建 In網(wǎng)tel絡(luò)(R)模 C型ore,(T實(shí)M驗(yàn)) C在PU內(nèi),存NVDIDDIRA4 G3e2FGo,rc3e.6 GGTHXz 1080 Ti的Ubuntu 18.04 LTS系統(tǒng)上進(jìn)行。

3.2 數(shù)據(jù)集

為了評(píng)估本文提出模型的穩(wěn)定性,本文使用標(biāo)準(zhǔn)地址庫(kù)構(gòu)建了一個(gè)包含約30W條蕪湖市地址信息的數(shù)據(jù)集,將其中的25W條數(shù)據(jù)作為訓(xùn)練集,剩余5萬(wàn)條數(shù)據(jù)作為測(cè)試集數(shù)據(jù),其中訓(xùn)練集和測(cè)試集的正負(fù)樣本比例約為3:1。

3.3 實(shí)驗(yàn)設(shè)置

本文將漢字字符特征的維度設(shè)定為 20維度,用 word2vec模型對(duì)每個(gè)漢字進(jìn)行編碼向量化,將不足20 維的地址數(shù)據(jù)編碼用0補(bǔ)足為20維編碼,然后將地址數(shù)據(jù)中的每個(gè)單詞表征為對(duì)應(yīng)詞向量,并將其融合作為整個(gè)地址數(shù)據(jù)的向量表示。在超參的設(shè)置上,針對(duì)地址數(shù)據(jù)可能的長(zhǎng)度,在語(yǔ)義表征層中,設(shè)置每一個(gè)詞的輸出維度為768維,表征后輸出的地址數(shù)據(jù)語(yǔ)義表征維度均為100維,完成語(yǔ)義表征后,將獲得的兩個(gè)語(yǔ)義向量分別輸入下一層網(wǎng)絡(luò)結(jié)構(gòu)中。

3.4 實(shí)驗(yàn)結(jié)果與分析

在評(píng)價(jià)指標(biāo)上,為了對(duì)預(yù)測(cè)結(jié)果進(jìn)行有效的評(píng)價(jià),本文選取相應(yīng)的參考指標(biāo)去衡量最終結(jié)果,包括準(zhǔn)確率(accuracy) 、精確率(precious) 、召回率(recall) 與F1得分(F1-score) 。其中準(zhǔn)確率越高,證明模型對(duì)于地址相似度計(jì)算結(jié)果越精確;而F1得分越高,證明模型整體性能越好。

為了驗(yàn)證本文提出的MFAM模型的有效性,將本文提出的模型與經(jīng)典模型進(jìn)行對(duì)比實(shí)驗(yàn),本文設(shè)置以下幾組對(duì)比模型實(shí)驗(yàn):第一組使用BiLSTM模型;第二組使用BiLSTM模型,并添加注意力機(jī)制進(jìn)行實(shí)驗(yàn);第三組結(jié)合CNN網(wǎng)絡(luò)獲取局部上下文信息,使用BiLSTM-CNN模型進(jìn)行實(shí)驗(yàn);最后一組即為本文所提出的MFAM模型,在BiLSTM 中引入注意力機(jī)制,并結(jié)合CNN網(wǎng)絡(luò)進(jìn)行共同訓(xùn)練。

對(duì)比實(shí)驗(yàn)地址的結(jié)果表1所示,從表中可以得出本文提出的MFAM模型在準(zhǔn)確率、召回率以及F1值上均取得了最好的結(jié)果,表明本文方法在中文地址匹配方面的有效性。從表1中可以看出,第二組采用結(jié)合注意力機(jī)制的地址匹配方法,使得模型的整體效果都得到了提升,表明添加注意力機(jī)制,可以從全局的角度學(xué)得有效特征,有助于模型的訓(xùn)練。而從第三組實(shí)驗(yàn)結(jié)果中,發(fā)現(xiàn)使用CNN獲取局部有效特征也可對(duì)模型的性能進(jìn)行提升。同時(shí),對(duì)比第四組、第二組和第三組實(shí)驗(yàn)結(jié)果,可以看出本文提出的模型在F1得分上相比其他模型性能提升了5~7百分點(diǎn),這個(gè)結(jié)果證明了在僅考慮注意力機(jī)制或者CNN獲得的局部信息的情況下,模型無(wú)法有效地捕捉地址中的部分關(guān)鍵信息,導(dǎo)致模型的整體性能下降。同時(shí),F(xiàn)1得分證明,MFAM模型的精度提升并非受到數(shù)據(jù)集中正負(fù)樣例的比例影響,而是模型的整體學(xué)習(xí)能力相較于其他消融模型確實(shí)獲得了增強(qiáng)。

4 結(jié)論

本文在分析現(xiàn)有中文地址數(shù)據(jù)特征的基礎(chǔ)上,研究了中文地址要素并分析了可能存在的組合模式,針對(duì)傳統(tǒng)的中文地址匹配方法存在的不足,提出了一種基于字詞特征融合的中文地址語(yǔ)義匹配模型。在自主構(gòu)建的數(shù)據(jù)集上,本文提出的方法相對(duì)于傳統(tǒng)的方法提高了5~7 個(gè)百分點(diǎn),驗(yàn)證了MFAM 方法的有效性,為中文地址的匹配提供了新的方法和思路。

猜你喜歡
字符語(yǔ)義向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
語(yǔ)言與語(yǔ)義
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
消失的殖民村莊和神秘字符
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
認(rèn)知范疇模糊與語(yǔ)義模糊