国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于遷移學(xué)習(xí)的裝備領(lǐng)域詞向量訓(xùn)練方法研究

2022-09-16 10:00祖月芳凌海風(fēng)
火力與指揮控制 2022年8期
關(guān)鍵詞:中心詞語料向量

祖月芳,凌海風(fēng)

(1.陸軍工程大學(xué)野戰(zhàn)工程學(xué)院,南京 210004;2.解放軍96761 部隊,河南 三門峽 472100)

0 引言

分布式語義表示方法之所以受到青睞,是源于2013 年Tomas Mikolov 等推出了一款用于獲取word vector 的工具包Word2vec,它是在深度學(xué)習(xí)的基礎(chǔ)上獲取的一種詞向量的分布式表達(dá)。騰訊AI Lab 開源了包含800 多萬中文詞匯的公開詞向量,其在覆蓋率、新鮮度及準(zhǔn)確性上大幅提高,在自然語言處理領(lǐng)域帶來了顯著的效能提升。雖然騰訊詞向量廣受大眾追捧,但在裝備領(lǐng)域其對一些專業(yè)術(shù)語涵蓋不是很全面,這導(dǎo)致在運(yùn)用騰訊詞向量表示一些特定專業(yè)領(lǐng)域的文本時受限?;谶@樣的情況,本文結(jié)合騰訊詞向量的優(yōu)勢,基于遷移學(xué)習(xí)的思想以騰訊詞向量作為初始向量進(jìn)行了訓(xùn)練,獲得了裝備領(lǐng)域的詞向量。

1 基于Gensim 實現(xiàn)裝備領(lǐng)域詞向量的增量訓(xùn)練

1.1 詞向量訓(xùn)練的方法

隨著自然語言處理技術(shù)的發(fā)展,可以進(jìn)行詞向量訓(xùn)練的模型有很多種,比如目前使用較多的Word2vec 模型和Bert 模型。本文在進(jìn)行裝備領(lǐng)域詞向量訓(xùn)練時選擇了Word2vec 模型,舍棄了現(xiàn)在更火的Bert 模型;原因是在訓(xùn)練詞向量是Bert 模型的基本單位是字,而Word2vec 模型的基本單位是詞語,結(jié)合裝備領(lǐng)域相關(guān)專業(yè)術(shù)語的特點(diǎn),使用以詞為基本單位的Word2vec 模型更符合本文的需求。其中,gensim 包提供了Word2vec 的python 接口。

Word2vec 主要有CBOW 模型(Continuous Bagof-Words Model) 和Skip-gram 模 型(Continuous Skip-gram Model)兩個詞嵌入模型。兩個模型都包含3 層:輸入層、投影層和輸出層。如圖1 所示,CBOW 模型是在已知當(dāng)前詞ω的上下文ω,ω,ω,ω的前提下預(yù)測當(dāng)前詞ω,訓(xùn)練完成后,每個詞都會作為中心詞把周圍詞的詞向量進(jìn)行調(diào)整來獲得所有詞的詞向量。

圖1 CBOW 模型

Skip-gram 模型與之相反,它是在已知當(dāng)前詞ω的前提下,預(yù)測其上下文ω,ω,ω,ω,所有文本遍歷完畢后,也就得到了文本所有詞的詞向量,如圖2 所示。

圖2 Skip-gram 模型

可以看出,CBOW 模型預(yù)測行為的次數(shù)跟整個文本的詞數(shù)幾乎是相等的,復(fù)雜度大概是O(V);而Skip-gram 進(jìn)行預(yù)測的次數(shù)是要多余CBOW 的,因為每個詞作為中心詞時,都要使用周圍詞預(yù)測一次。這樣相當(dāng)于比CBOW 方法多進(jìn)行了K 詞(假設(shè)K 為窗口大小),因此,時間的復(fù)雜度為O(KV)。但是在Skip-gram 中每個詞都要受到周圍詞的影響,每個詞作為中心詞時都要進(jìn)行K 次預(yù)測、調(diào)整,因此,對于裝備領(lǐng)域文本數(shù)據(jù)量不大、相關(guān)專業(yè)詞匯出現(xiàn)次數(shù)較少的情況,本文選擇使用Skip-gram模型進(jìn)行詞向量的訓(xùn)練。

1.2 基于騰訊詞向量實現(xiàn)裝備領(lǐng)域的詞向量增量訓(xùn)練

詞向量模型的增量式訓(xùn)練方法,通過對新增文本中出現(xiàn)的新詞進(jìn)行初始化更新,和基于歷史詞表的采樣對詞向量模型進(jìn)行動態(tài)更新,完成向量模型對新增文本text 進(jìn)行增量式學(xué)習(xí)。這種方法能夠避免對歷史數(shù)據(jù)進(jìn)行重復(fù)性學(xué)習(xí),大幅減少計算復(fù)雜度,保持了較高的學(xué)習(xí)率。由于各個領(lǐng)域都有一些專業(yè)術(shù)語,要保證一次或幾次訓(xùn)練的詞向量能涵蓋所有的領(lǐng)域幾乎是不可能的。不同領(lǐng)域的語料庫中的數(shù)據(jù)是動態(tài)變化的,為了避免在海量數(shù)據(jù)情況下的重復(fù)學(xué)習(xí),對裝備領(lǐng)域的詞向量進(jìn)行增量訓(xùn)練是十分必要的。

本文訓(xùn)練詞向量的目的主要是應(yīng)用于裝備故障診斷領(lǐng)域。如圖3 所示,通過利用對外公開的《解放軍報》、軍事類百科全書、機(jī)械領(lǐng)域詞典以及裝備領(lǐng)域故障數(shù)據(jù)庫等海量的數(shù)據(jù)文件,以裝備和與軍事領(lǐng)域相關(guān)數(shù)據(jù)作為數(shù)據(jù)集,基于遷移學(xué)習(xí)的思想采用預(yù)訓(xùn)練好的16 G 騰訊詞向量作為初始向量,使用Word2vec 詞嵌入模型在詞向量數(shù)據(jù)集上進(jìn)行裝備領(lǐng)域詞向量的增量訓(xùn)練。

圖3 word2vec 模型的增量訓(xùn)練過程

2 實驗數(shù)據(jù)

2.1 數(shù)據(jù)集介紹

本文使用的數(shù)據(jù)集包括開源的數(shù)據(jù)集以及裝備和軍事領(lǐng)域相關(guān)的語料數(shù)據(jù)。其中,開源數(shù)據(jù)集是由騰訊AI 實驗室公開的包含800 多萬中文詞匯的一個大規(guī)模、高質(zhì)量的中文詞向量數(shù)據(jù)集;裝備及軍事領(lǐng)域相關(guān)的語料庫是由收集整理的66.6 M軍事類百科全書、393 M 中國大百科全書、在網(wǎng)頁爬取的從2016 年1 月至2021 年5 月1 日的435 M《解放軍報》的新聞數(shù)據(jù),以及在裝備管理信息系統(tǒng)、裝備履歷書、裝備維修手冊以及大項任務(wù)中出現(xiàn)的55 936 條故障數(shù)據(jù)組成的。

2.2 數(shù)據(jù)預(yù)處理

由于騰訊詞向量是在下載后不聯(lián)網(wǎng)的情況下使用,所以裝備領(lǐng)域詞向量的訓(xùn)練不存在涉密問題。在開始進(jìn)行詞向量訓(xùn)練之前,需要先對收集的數(shù)據(jù)進(jìn)行預(yù)處理工作。首先,收集語料數(shù)據(jù)。語料庫主要有兩部分來源,一是利用正則匹配的方法從《解放軍報》和軍事類百科全書等網(wǎng)頁爬取最新語料的內(nèi)容并除去兩端的<contect>標(biāo)簽;二是收集整理在裝備管理信息系統(tǒng)、裝備履歷書、裝備維修手冊以及大項任務(wù)中存在的故障數(shù)據(jù)。其次,對語料數(shù)據(jù)進(jìn)行清洗。主要分為兩步:一是要對一些多余的空行、符號以及無關(guān)緊要的字詞進(jìn)行處理;另外還要對文章中包含的如日期、長串?dāng)?shù)字以及一些英文名稱等進(jìn)行泛化處理。通過將語料庫中連續(xù)的數(shù)字和英文字母替換成<NUM>和<ENG>來減少文本的噪聲,提高訓(xùn)練速度。二是分詞。中文和英文的語言特點(diǎn)不同,英文句子中的單詞之間是通過空格來分開的,不同于英文的是,中文句子中沒有詞的界限,而word2vec 的工作本身是以詞語為基礎(chǔ)的,這就需要先對中文語料做分詞處理工作。本文采用了開源的jieba 中文分詞工具,它是基于Unigram 和隱馬爾可夫(HMM)的分詞模型,具有分詞準(zhǔn)確率高、模型簡單易用的特點(diǎn),還可以依據(jù)相關(guān)領(lǐng)域的特征,通過jieba 分詞載入用戶自定義字典,使得用戶自定義的詞典中含有的詞語不被分開,從而可以獲得裝備或軍事領(lǐng)域所需的分詞效果。

3 實驗及結(jié)果分析

3.1 參數(shù)設(shè)置

使用Word2Vec 中的Skip-gram 方法對裝備領(lǐng)域詞向量進(jìn)行訓(xùn)練,需要對詞向量維度(size),窗口大?。╳indow),min-count 等幾個可能影響訓(xùn)練速度和質(zhì)量的參數(shù)進(jìn)行設(shè)置。其中,詞向量維度]是Word2Vec 將單詞映射到的N 維空間的維數(shù),N就是說用N 個特征來表示這個詞向量。設(shè)定較大的值需要更多的訓(xùn)練數(shù)據(jù),但可以產(chǎn)生更準(zhǔn)確的模型。合理的值在10~1 000 之間,默認(rèn)值是100。min-count 表示最低詞頻訓(xùn)練閾值,這個一般根據(jù)語料庫的大小進(jìn)行設(shè)置,通常設(shè)置min-count=5。窗口大小是指詞向量訓(xùn)練時上下文掃描的窗口大小,一般為防止增加噪音信息不宜設(shè)置過長,窗口是5 就是考慮前5 個詞和后5 個詞。本節(jié)根據(jù)語料特點(diǎn)以及在詞向量訓(xùn)練中實驗運(yùn)行的內(nèi)存、運(yùn)算耗時等情況,將min-count 和window 的值均設(shè)定為5,詞向量的維度經(jīng)過實驗對比設(shè)定為200 更能滿足要求。

3.2 評價指標(biāo)

當(dāng)前詞向量的評價方式往往可以分為兩大類,包括定量評價和定性評價。定量評價是通過一些實際任務(wù)的指標(biāo)來評價;定性評價是通過一些可視化的方法進(jìn)行直觀上的評估。本節(jié)訓(xùn)練的裝備領(lǐng)域詞向量將結(jié)合定量分析和定性分析兩種方法進(jìn)行評價。

詞向量的定量評價常用到的兩種方法是類比評價和相似度評價。類比評價是一種較為經(jīng)典的詞向量評價方法,是假設(shè)已知一對詞語a 和b 的關(guān)系,同時給定另一個詞語c,通過類比的方法推理出另一個相關(guān)的詞語d,例如經(jīng)典的類比任務(wù)King-Queen=Man-Wan。這種方法的缺點(diǎn)是需要有比較成熟的相關(guān)數(shù)據(jù)集,裝備領(lǐng)域的類比數(shù)據(jù)還不夠完善,所以該方法并不適用于本文。相似度評價是基于已經(jīng)訓(xùn)練好的詞向量,通過計算給定兩兩單詞的相似度來作比較,來判斷它的效果怎樣。其中,判斷詞語相似度最常用的方法包括歐氏距離和余弦相似度。向量的夾角余弦值可以體現(xiàn)兩個向量在方向上的差異,余弦相似度就是把一個向量空間中兩個夾角的余弦值作為衡量兩個個體之間差異的大小。

本節(jié)主要采用余弦相似度評價和空間可視化相結(jié)合的方法,對裝備領(lǐng)域的詞向量進(jìn)行評估。

3.3 結(jié)果分析

依據(jù)現(xiàn)有的實驗條件和語料庫數(shù)據(jù)情況,主要從自主訓(xùn)練和基于騰訊詞向量訓(xùn)練詞向量兩個方面進(jìn)行了實驗。自主訓(xùn)練詞向量不同于基于遷移學(xué)習(xí)的訓(xùn)練,兩種訓(xùn)練方法的本質(zhì)區(qū)別在于是否受語料數(shù)據(jù)的規(guī)模的影響,有沒有穩(wěn)定的模型參數(shù)做支撐。詞向量訓(xùn)練效果的評價主要從3 個方面進(jìn)行分析:1)自主訓(xùn)練詞向量實驗效果分析;2)自主訓(xùn)練與基于騰訊詞向量訓(xùn)練結(jié)果對比分析;3)可視化分析。

3.3.1 自主訓(xùn)練詞向量實驗效果分析

在自主訓(xùn)練詞向量過程中,為了獲得較理想的詞匯語義表征效果,通過自主訓(xùn)練的方法分別得到了50 維、100 維、150 維、200 維和300 維詞向量的訓(xùn)練模型,并運(yùn)用余弦相似度計算輸出了與中心詞最相似的前10 個詞語,得到結(jié)果如表1 所示,這里僅展示以“電臺”為中心詞輸出的結(jié)果。

通過對表1 分析,橫向比較可知,采用50 維來表達(dá)裝備領(lǐng)域的詞語含義效果不明顯,即使像“3”“不能”以及“不”等這樣與“電臺”關(guān)聯(lián)度不明顯的詞語相似度竟然超過了“A 型”“保險絲”之類的詞語,且相似度在80%以上。產(chǎn)生這種現(xiàn)象的原因是50 維的詞向量模型的空間維度較低,很難在低維的向量空間中綜合表達(dá)并區(qū)分涵蓋語料豐富的信息內(nèi)容,因此,運(yùn)用50 維的詞向量模型不能滿足裝備領(lǐng)域詞語的表達(dá)需求??v向比較可得,從100 維到300 維的詞向量模型表示同一詞語的相似度在逐漸下降,造成這樣結(jié)果的原因是隨著向量空間的增大,每個詞語在每一維上的表達(dá)更加精確,相似度值的區(qū)分也更加明顯,而且當(dāng)向量維度增加到200維以上時,出現(xiàn)了“發(fā)射機(jī)”“接收機(jī)”等與“電臺”關(guān)聯(lián)度更高的詞語;但同時也發(fā)現(xiàn)運(yùn)用200 維的詞向量模型已經(jīng)達(dá)到了一定的對裝備領(lǐng)域詞語表達(dá)效果,用300 維的空間表示比較浪費(fèi)、存在信息冗余,也大大增加了后續(xù)計算的工作量。綜合分析比較,將向量維度設(shè)定為200 維對裝備領(lǐng)域詞語的語義信息有一定的表征效果,但自主訓(xùn)練的詞語關(guān)聯(lián)度還不夠凸顯。

表1 自主訓(xùn)練詞向量相似度對比分析

3.3.2 自主訓(xùn)練與基于騰訊詞向量訓(xùn)練結(jié)果對比分析

由于騰訊詞向量對裝備領(lǐng)域的一些類似“斷殼”之類的專有名詞涵蓋不全面,所以不直接使用騰訊詞向量對裝備故障文本進(jìn)行表示。針對騰訊詞向量模型參數(shù)穩(wěn)定、覆蓋詞語領(lǐng)域廣泛成熟的優(yōu)勢以及裝備領(lǐng)域語料不足夠大的特點(diǎn),將詞向量維度設(shè)置為200 維,基于gensim 包運(yùn)用騰訊詞向量模型對裝備領(lǐng)域的詞向量進(jìn)行了增量訓(xùn)練,得到了裝備領(lǐng)域的詞向量模型。這里以“電臺”為中心詞,隨機(jī)抽取與“電臺”一詞關(guān)聯(lián)度高的以及關(guān)聯(lián)度不高的部分詞語,運(yùn)用基于騰訊詞向量訓(xùn)練生成的詞向量模型和自主訓(xùn)練生成的200 維的詞向量模型,分析比較同一類詞語之間余弦相似度差異,其結(jié)果如下頁表2 所示。

表2 自主訓(xùn)練與基于騰訊詞向量訓(xùn)練的詞向量相似度對比

通過對比分析發(fā)現(xiàn),自主訓(xùn)練的詞向量模型受語料庫量的限制,在計算與“電臺”一詞相關(guān)和不相關(guān)的詞語時區(qū)分度不高,且出現(xiàn)了與“電臺”一詞關(guān)聯(lián)度不高的“底盤”“發(fā)動機(jī)”等詞的相似度遠(yuǎn)超過了與“電臺”關(guān)聯(lián)度較密切的“調(diào)頻電臺”“調(diào)頻”等詞語的現(xiàn)象。與之形成鮮明的對比的是,在計算與“電臺”關(guān)聯(lián)較高的一類詞如“調(diào)頻電臺”“天線”“接收機(jī)”“發(fā)射機(jī)”“調(diào)頻”時,運(yùn)用基于騰訊詞向量訓(xùn)練得到的詞向量模型其計算結(jié)果都在0.5 以上,且詞語之間彼此的區(qū)分度明顯;在計算與“電臺”關(guān)聯(lián)不太高的“發(fā)動機(jī)”“底盤”“電源”“電纜”“連接”等詞時,其相似度都在0.3 左右浮動,且詞語之間與電臺的關(guān)聯(lián)度也能較好地區(qū)分出來。所以,采用基于騰訊詞向量模型訓(xùn)練裝備領(lǐng)域詞向量更符合人們的主觀判斷。

3.3.3 可視化分析

運(yùn)用基于騰訊詞向量模型訓(xùn)練和自主訓(xùn)練兩種方法分別生成了528 969 和297 130 個200 維的詞向量,由于詞向量文件比較大,全部可視化就什么都看不見了,所以將兩種訓(xùn)練方法得到的詞向量模型隨機(jī)抽取部分進(jìn)行可視化展示,效果如圖4 所示。

圖4 兩種訓(xùn)練方法得到詞向量的二維投影

通過向量可視化結(jié)果可知,圖4(a)基于騰訊詞向量訓(xùn)練得到的裝備領(lǐng)域詞向量存在關(guān)聯(lián)關(guān)系的大部分詞語有明顯的聚類特征,語義相似或存在明顯關(guān)聯(lián)關(guān)系的詞會有相近的分布,只有少量詞語由于語料數(shù)據(jù)規(guī)模導(dǎo)致關(guān)聯(lián)關(guān)系不明顯;而圖4(b)自主訓(xùn)練的詞向向量呈現(xiàn)分布均勻,詞向量之間的語義關(guān)聯(lián)關(guān)系不明顯,沒有明顯的聚類特征。產(chǎn)生這樣的訓(xùn)練效果,一方面是由于語料庫的數(shù)據(jù)量不夠大,僅自主訓(xùn)練沒有達(dá)到較好的效果,另一方面是騰訊詞向量模型本身參數(shù)已經(jīng)較穩(wěn)定,訓(xùn)練的效果更有說服力。顯然,基于騰訊詞向量訓(xùn)練的裝備領(lǐng)域詞向量涵蓋詞語全面、同一類詞語之間存在一定的關(guān)聯(lián)關(guān)系,更符合裝備領(lǐng)域詞向量訓(xùn)練應(yīng)達(dá)到的效果。

在表3 中,對3 種詞向量模型采用余弦相似度分別計算并找出了與給定中心詞距離最相近的5個詞。從計算結(jié)果發(fā)現(xiàn),在數(shù)據(jù)集相同的情況下不同的訓(xùn)練方法產(chǎn)生了不同的訓(xùn)練結(jié)果。在騰訊詞向量模型中,中心詞和鄰近詞之間只是在詞性語義方面相近,中心詞與鄰近詞不存在“偏好”。運(yùn)用同一語料數(shù)據(jù),進(jìn)行自主訓(xùn)練和基于騰訊詞向量訓(xùn)練后發(fā)現(xiàn),自主訓(xùn)練的中心詞和鄰近詞存在一定關(guān)聯(lián)關(guān)系但詞性語義有所區(qū)別;而基于騰訊詞向量訓(xùn)練的中心詞不僅詞性語義相近且對裝備領(lǐng)域的詞語有一定的“偏好”。通過這一現(xiàn)象表明,運(yùn)用裝備領(lǐng)域的語料基于騰訊詞向量模型訓(xùn)練得到的裝備領(lǐng)域的詞向量,具備一定的特殊性和針對性。

表3 不同模型下部分詞與其鄰近的5 個詞

4 結(jié)論

基于騰訊詞向量訓(xùn)練得到的裝備領(lǐng)域詞向量,無論是在相似度匹配效果方面還是在詞向量可視化方面,表征效果都明顯要比自主訓(xùn)練的效果好,而且受裝備領(lǐng)域語料的限制,基于騰訊詞向量模型得到的領(lǐng)域詞向量表征效果更穩(wěn)定,更能體現(xiàn)出語義之間的關(guān)聯(lián)關(guān)系。實驗表明,基于騰訊詞向量訓(xùn)練的裝備領(lǐng)域詞向量,較自主訓(xùn)練提高了詞性語義的關(guān)聯(lián)性,較騰訊詞向量具備裝備領(lǐng)域的針對性,更適用于裝備故障案例的統(tǒng)一知識表達(dá)。

猜你喜歡
中心詞語料向量
向量的分解
可比語料庫構(gòu)建與可比度計算研究綜述
中古漢語分期研究所涉及的語料問題
如何使用第二外語學(xué)習(xí)者語料
英漢口語中名詞性省略對比研究
俄漢語定語對比
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
發(fā)揮學(xué)生主體作用 提升復(fù)習(xí)效率
英語教學(xué)中真實語料的運(yùn)用