国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA的軌道交通信號(hào)系統(tǒng)故障文本數(shù)據(jù)處理方法研究

2021-06-01 06:39徐安雄趙雪李坤王小敏
鐵道通信信號(hào) 2021年5期
關(guān)鍵詞:特征詞字典文檔

徐安雄 趙雪 李坤 王小敏

隨著我國軌道交通數(shù)字化平臺(tái)的發(fā)展,逐漸采用數(shù)字化技術(shù)建立故障信息數(shù)據(jù)庫,以存儲(chǔ)系統(tǒng)及設(shè)備的故障數(shù)據(jù)。軌道交通信號(hào)系統(tǒng)作為保障列車行車安全的重要系統(tǒng),要求維修和檢修人員對(duì)其故障現(xiàn)場、診斷結(jié)果和處理情況進(jìn)行詳細(xì)記錄,以反映設(shè)備在運(yùn)營過程中的使用情況,對(duì)系統(tǒng)的下一步維修和檢修計(jì)劃有重要的指導(dǎo)意義[1]。然而在整理故障數(shù)據(jù)時(shí),由于數(shù)據(jù)的分類標(biāo)準(zhǔn)不同,造成數(shù)據(jù)分類粗糙、雜亂;同時(shí),由于采用自然語言的記錄形式,使得語句中有大量與現(xiàn)象(原因)無關(guān)的記錄內(nèi)容,需要研究人員進(jìn)行故障特征提取。因此,急需一種自動(dòng)分類標(biāo)記方法,將文本信息高效地轉(zhuǎn)化為可利用的數(shù)值信息[2-3]。

針對(duì)上述情況,本文提出了一種基于LDA(隱含狄利克雷分布)的根因標(biāo)記方法,即一種文檔生成模型,采用詞向量改進(jìn)TextRank算法,為LDA模型抓取字典,并作為清洗語料的依據(jù)進(jìn)行LDA建模,利用分類結(jié)果組詞實(shí)現(xiàn)根因分析。該方法能夠滿足軌道交通信號(hào)系統(tǒng)故障分類需求,實(shí)現(xiàn)相關(guān)數(shù)據(jù)的故障分類,為不同研究人員對(duì)數(shù)據(jù)分類提供了統(tǒng)一的參考標(biāo)準(zhǔn),為下一步智能診斷建立基礎(chǔ)。

1 算法原理

軌道交通信號(hào)系統(tǒng)故障數(shù)據(jù)庫中,以Excel形式存儲(chǔ)了歷年的故障記錄數(shù)據(jù)。為了提高文本質(zhì)量,首先采用jieba分詞庫對(duì)故障文本進(jìn)行數(shù)據(jù)清洗,形成可用語料。為了提高分詞正確率,文本為jieba加載軌道交通信號(hào)系統(tǒng)詞語庫;根據(jù)詞性標(biāo)記結(jié)果自動(dòng)濾去介詞、助詞等詞性不重要的詞語[4]。通 過 文 本 清 洗 得 到 可 用 語 料,采 用Word2Vec及TextRank算法對(duì)故障記錄數(shù)據(jù)進(jìn)行處理并獲得字典,輸入LDA模型進(jìn)行學(xué)習(xí),通過召回率及精確度等評(píng)價(jià)指標(biāo),對(duì)關(guān)鍵文本信息進(jìn)行標(biāo)記及展示。分類-標(biāo)記短語方法流程見圖1。

圖1 分類-標(biāo)記短語方法流程

1.1 LDA模型

LDA采用詞袋模型,不考慮詞匯出現(xiàn)的先后順序,構(gòu)建“詞-主題-文檔”的三層貝葉斯概率模型[5],如圖2所示。

圖2 LDA模型

其中,α為約束文檔-主題關(guān)聯(lián)度,對(duì)任意一篇文檔d,其主題分布θd服從α的Dirichlet分布;以η反映主題-詞的分布情況,對(duì)于任意一個(gè)主題k,其詞概率分布βk服從η的Dirichlet分布;D為文檔數(shù),K表示主題數(shù)量,對(duì)任意一篇文檔d中的第n個(gè)詞,它所屬的主題編號(hào)服從zd,n分布;對(duì)于任意一個(gè)主題k,在文檔d中發(fā)現(xiàn)詞n的概率服從wd,n分布,α、θd、zα形成Dirichlet-Multi共軛[6]。根據(jù)貝葉斯推理思想,得到文檔-主題的后驗(yàn)分布和主題-詞的后驗(yàn)分布為

1.2 詞向量

詞向量可從語義層面對(duì)詞關(guān)系進(jìn)行學(xué)習(xí),兩詞間的關(guān)聯(lián)程度通過向量距離反映。本文使用Word2Vec工具學(xué)習(xí)詞向量,其模型主要有CBOW(Bag-of-Word)和SG(Skip-Gram)2種[7-8]。Word2vec有2套優(yōu)化算法,分別為Hierarchical Softmax和Negative Sampling,用于優(yōu)化Softmax函數(shù)計(jì)算的模型?;谲壍澜煌ㄐ盘?hào)系統(tǒng)故障文本特點(diǎn),本文選擇SG+Negative Sampling模型進(jìn)行詞向量學(xué)習(xí),訓(xùn)練文本詞向量,作為后續(xù)文本分類模型的輸入數(shù)據(jù)。

1.3 TextRank算法

TextRank特征詞提取算法由Rada Mihalcea等[9]根據(jù)谷歌網(wǎng)頁排名PageRank算法的思想提出,已有廣泛應(yīng)用。TextRank算法根據(jù)候選關(guān)鍵詞間的共現(xiàn)關(guān)系,將所有候選關(guān)鍵詞V構(gòu)成詞圖G=(V,E),E為詞圖的邊集。給定詞圖后,由公式(3)計(jì)算得到候選關(guān)鍵詞vi的TextRank值WS(Vi),根據(jù)設(shè)定的特征詞字?jǐn)?shù),即可得到相應(yīng)語料下的特征詞。

式中:c為阻尼系數(shù),通常取0.85;任意兩點(diǎn)vi、vj的邊權(quán)為Wij,無明確定義時(shí)通常以兩詞的共現(xiàn)關(guān)系衡量;k為任意一個(gè)主題。

為解決傳統(tǒng)TextRank算法準(zhǔn)確度低的問題,本文通過詞向量學(xué)習(xí),對(duì)TextRank算法進(jìn)行改進(jìn),將語義層面信息納入詞重要度計(jì)算。改進(jìn)算法對(duì)公式(3)中的邊權(quán)Wij計(jì)算加入詞向量余弦相似度ρij,ρij=cos(Rvi,Rvj)。其 中,Rvi,Rvj分 別 代 表兩個(gè)詞的向量矩陣[10-11]。由于共現(xiàn)關(guān)系通常不考慮詞語出現(xiàn)的先后順序,即cij=cji,因此得出

式中:cij為詞vi和vj的共現(xiàn)次數(shù);Co(Vj)為該詞窗的所有詞向量;V(k)∈Co(Vj)是遍歷每個(gè)詞向量;k為任意一個(gè)主題。

計(jì)算時(shí),考慮到記錄數(shù)據(jù)的形式和大小,調(diào)整t值驗(yàn)證算法性能,取0.3、0.5、0.7進(jìn)行分析,迭代計(jì)算時(shí)選取閾值為0.001。根據(jù)計(jì)算結(jié)果對(duì)詞語逆序排列,抓取字典。

1.4 主題學(xué)習(xí)

字典構(gòu)建完成后,通過該字典對(duì)可用語料進(jìn)行過濾,保留每條記錄的語干作為LDA模型的輸入。計(jì)算流程如下。

2)對(duì)每篇文檔的每個(gè)詞隨機(jī)賦予主題編號(hào)z。

3)利用Gibbs采樣公式更新每個(gè)詞的主題編號(hào)z,直至收斂。

計(jì)算如下:

式中:為文檔d在 主題k下除 去 詞i的詞個(gè) 數(shù);K為 主 題 數(shù);N為 詞 總 量;為 主 題k下 除 去 第i個(gè)詞時(shí)詞t的個(gè)數(shù);αk為主題k的文檔-主題參數(shù);ηt為詞t的主題-詞參數(shù)。

4)計(jì)算得到文檔-主題分布θd及主題-詞分布βk為

1.5 評(píng)價(jià)指標(biāo)

文本處理結(jié)果中,常用的評(píng)價(jià)指標(biāo)包括召回率R、精確度P和F值。P和R的取值都為0~1,結(jié)果越接近1,效果越好。F值則是綜合考慮了準(zhǔn)確率和召回率。計(jì)算如下:

式中:Arc為抽取的關(guān)鍵詞總數(shù);Com為人工標(biāo)記的關(guān)鍵詞總數(shù)。

文本處理中另一個(gè)重要指標(biāo)為困惑度(perplexity),表示對(duì)故障日志進(jìn)行主題模型訓(xùn)練時(shí),文檔屬于某個(gè)主題不確定的程度,perplexity的值越小越好。計(jì)算如下:

式中:b通常取2;M為文本數(shù);Nd為第d篇文本的大?。▎卧~數(shù));p(w)為測試集中單詞出現(xiàn)的可能性,計(jì)算如下:

式中,p(z|d)為每篇文本下對(duì)應(yīng)每個(gè)主題的概率;p(w|z)為字典中每個(gè)單詞在某個(gè)主題下出現(xiàn)的概率。

2 案例分析與測試驗(yàn)證

以某軌道交通信號(hào)系統(tǒng)2015—2017年的6 000條維修日志為研究對(duì)象,主要包括故障發(fā)生的日期、單位、車間、工區(qū)、故障地點(diǎn)、設(shè)備地點(diǎn)、設(shè)備類別、設(shè)備部位、故障設(shè)備名稱、發(fā)生時(shí)間、恢復(fù)時(shí)間、故障現(xiàn)象處理經(jīng)過及采取的措施、原因分析等信息。根據(jù)本文的研究目的,最終在原數(shù)據(jù)基礎(chǔ)上選擇了故障現(xiàn)象和原因分析這2個(gè)信息。部分維修日志數(shù)據(jù)示例見表1。

表1 部分維修日志數(shù)據(jù)

本文選取列車車載設(shè)備500條維修日志作為測試集,根據(jù)所得詞向量結(jié)果,通過TextRank及TextRank改進(jìn)算法,對(duì)測試集分別抽取5個(gè)、7個(gè)、10個(gè)特征詞情況下進(jìn)行試驗(yàn)。通過公式(3)和公式(4)分別提取測試集中關(guān)鍵詞,通過設(shè)置TextRank改 進(jìn) 算 法 中t值 參 數(shù)(t取0.3、0.5、0.7),計(jì)算得到評(píng)價(jià)指標(biāo)精確度P、召回率R和F值,測試結(jié)果見圖3。

圖3 測試集在分別抽取5、7、10個(gè)特征詞下的計(jì)算結(jié)果

由圖3可以看出:①改進(jìn)TextRank算法比傳統(tǒng)TextRank算法在精確度P、召回率R和F值方面有明顯提高,能有效提高測試集的關(guān)鍵詞提取能力;②TextRank改進(jìn)算法中t=0.5,提取10個(gè)關(guān)鍵詞時(shí)具有較高精確度;③TextRank改進(jìn)算法中t=0.3及t=0.7,提取5個(gè)及7個(gè)關(guān)鍵詞時(shí)具有較高召回率R;④TextRank改進(jìn)算法中t=0.3時(shí),F(xiàn)值的平均綜合指標(biāo)較高,在抽取特征詞數(shù)相同的情況下,對(duì)不同語料表現(xiàn)更為穩(wěn)定。

根據(jù)LDA的perplexity值確定主題數(shù)量,通過設(shè)置20、40、60、80、100不同迭代次數(shù),計(jì)算得到不同主題數(shù)下的perplexity值,見圖4??梢缘贸?,對(duì)測試集迭代100次,主題數(shù)K=55時(shí)perplexity值最小。

因此,本文在訓(xùn)練LDA模型時(shí),主題個(gè)數(shù)確定為55,之后再設(shè)置主題的其他參數(shù),主題分布的先驗(yàn)Dirichlet參數(shù)α設(shè)為0.1,詞分布的先驗(yàn)Dirichlet參數(shù)η設(shè)為0.01,迭代次數(shù)設(shè)為100,訓(xùn)練LDA模型,最終生成“文檔-主題”分布和“主題-詞”分布。通過訓(xùn)練LDA主題模型,對(duì)維修日志故障文本數(shù)據(jù)進(jìn)行主題提取,得到每個(gè)主題下的故障特征詞項(xiàng)。隨機(jī)選取最終得到的故障詞庫中800字特征詞作為展示,得到特征詞字典見圖5。經(jīng)過LDA主題模型訓(xùn)練,得到特征詞字典,如“ATP”“ATO”“站臺(tái)”“車載”等關(guān)鍵詞得到凸顯,是測試集中常見的故障發(fā)生部位。

圖5 測試集的特征詞字典展示

測試集55主題中選取每個(gè)主題前10個(gè)詞作為候選詞,對(duì)無字典和有字典分類進(jìn)行比較。無字典情況下,短語總數(shù)為136,可用率為27.2%;有字典情況下,短語總數(shù)為93,可用率為60.2%??梢钥闯?,有字典的LDA模型比無字典的LDA模型的短語數(shù)量更少,可用率更高,有字典的LDA更能夠適應(yīng)信號(hào)系統(tǒng)故障文本的需求,為同一主題下的語料提取客觀的精簡短語。

3 結(jié)論

本文針對(duì)軌道交通信號(hào)系統(tǒng)故障數(shù)據(jù)提出了一種分類-標(biāo)記短語方法。該方法利用Word2Vec訓(xùn)練獲得的詞向量改進(jìn)TextRank算法,為LDA模型抓取字典,并對(duì)分類結(jié)果進(jìn)行組詞。試驗(yàn)表明,改進(jìn)的TextRank算法較原算法在準(zhǔn)確度、召回率和F值上均有提升;加載字典的LDA能夠適應(yīng)不同信號(hào)系統(tǒng)的需求,為同一主題下的語料提取客觀的精簡短語,統(tǒng)一不同分析方式下的研究對(duì)象描述,為利用該類數(shù)據(jù)的研究者提供極大便利。但是該模型的缺點(diǎn)是未考慮LDA對(duì)文檔分類的準(zhǔn)確度,下一步將考慮LDA中同義詞對(duì)主題分類的影響,并在標(biāo)記短語確定的研究對(duì)象基礎(chǔ)上,對(duì)軌道交通信號(hào)系統(tǒng)進(jìn)行智能運(yùn)維和診斷。

猜你喜歡
特征詞字典文檔
基于Simhash改進(jìn)的文本去重算法
淺談Matlab與Word文檔的應(yīng)用接口
基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
有人一聲不吭向你扔了個(gè)文檔
輕松編輯PDF文檔
一種面向財(cái)務(wù)文本分類的TF-IDF改進(jìn)算法
字典的由來
大頭熊的字典
Word文檔 高效分合有高招
正版字典