国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源異構(gòu)數(shù)據(jù)融合的電力變壓器狀態(tài)評(píng)價(jià)方法

2019-10-10 07:05蔣逸雯彭明洋馬凱李黎
廣東電力 2019年9期
關(guān)鍵詞:結(jié)構(gòu)化分類器注意力

蔣逸雯,彭明洋,馬凱,李黎

(1.華中科技大學(xué) 電氣與電子工程學(xué)院,湖北 武漢 430074;2. 廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,廣東 廣州 510080)

隨著“數(shù)字南網(wǎng)”的提出與建設(shè),南方電網(wǎng)正在向數(shù)字化轉(zhuǎn)型,目標(biāo)為基于大數(shù)據(jù)、人工智能等先進(jìn)的數(shù)字化應(yīng)用技術(shù),對(duì)南網(wǎng)系統(tǒng)內(nèi)的海量數(shù)據(jù)進(jìn)行分析、學(xué)習(xí)、計(jì)算,通過應(yīng)用系統(tǒng)自動(dòng)決策與自動(dòng)執(zhí)行[1-2]。結(jié)構(gòu)化數(shù)據(jù)由明確定義、易于檢索的數(shù)據(jù)類型組成,非結(jié)構(gòu)化數(shù)據(jù)通常由定義模糊、不易檢索的文本、視頻等格式的信息組成[3]。其中,電力變壓器缺陷記錄文本包含豐富的故障信息,是對(duì)變壓器數(shù)字化運(yùn)檢數(shù)據(jù)的重要補(bǔ)充。然而,由于其數(shù)據(jù)類型為描述性文字,屬于非結(jié)構(gòu)化數(shù)據(jù),難以依靠常規(guī)的數(shù)據(jù)分析方法進(jìn)行處理,尚未得到有效的信息挖掘,因此變壓器的運(yùn)行狀態(tài)評(píng)價(jià)僅能依靠結(jié)構(gòu)化的數(shù)字化運(yùn)檢數(shù)據(jù)。運(yùn)檢、運(yùn)行維護(hù)記錄文本的數(shù)據(jù)信息提取(即文本挖掘)對(duì)進(jìn)一步改進(jìn)輸變電設(shè)備的智能運(yùn)檢工作具有重要的意義。

在先前的文本挖掘研究中,Rudin等通過文字描述的電纜故障記錄,利用信息檢索結(jié)合支持向量機(jī)的方法預(yù)測(cè)電纜本體和附件出現(xiàn)絕緣擊穿故障的風(fēng)險(xiǎn)[4];Zheng等搜集歷史上變電站發(fā)生故障的事件記錄,結(jié)合當(dāng)時(shí)的天氣信息,用樸素貝葉斯方法進(jìn)行變電站故障與惡劣天氣的關(guān)聯(lián)性預(yù)測(cè),以評(píng)估變電站設(shè)備絕緣配合設(shè)計(jì)的科學(xué)性[5]。但是目前大多數(shù)方法都是基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的淺層架構(gòu),在解決復(fù)雜問題時(shí),學(xué)習(xí)能力和泛化能力都會(huì)受到限制。隨著更深層次訓(xùn)練模型的完善,深度學(xué)習(xí)的概念被提出,且已經(jīng)被用于文本記錄的信息挖掘。Sutskever等提出具有多層長短時(shí)記憶(long short-term memory, LSTM)的機(jī)器翻譯框架[6];Liwicki等運(yùn)用LSTM網(wǎng)絡(luò)識(shí)別手寫數(shù)字[7];Socher等利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)進(jìn)行句法分析[8]。隨著逐層學(xué)習(xí)和參數(shù)微調(diào)技術(shù)的出現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)算法(convolutional neural network, CNN)獲得了快速發(fā)展,在句子建模[9]、語義分析[10]和搜索查詢[11]方面取得了較大的成果。針對(duì)不同文本記錄內(nèi)容的數(shù)據(jù)集,學(xué)者們還提出了一些改進(jìn)的模型架構(gòu),有更少的訓(xùn)練耗時(shí)和更優(yōu)的分類效果,譬如CNN-LSTM、RNN-LSTM[12]和動(dòng)態(tài)記憶網(wǎng)絡(luò)[13]。近兩年來,杜修明和劉梓權(quán)分別利用LSTM和CNN,對(duì)電網(wǎng)設(shè)備故障案例及缺陷記錄文本進(jìn)行信息挖掘,實(shí)現(xiàn)了缺陷因果特征的自動(dòng)提取及故障類別的自動(dòng)判別[14-17]。然而,這些文獻(xiàn)都是單獨(dú)對(duì)文本記錄信息進(jìn)行分類研究,尚未與數(shù)字類型的結(jié)構(gòu)化數(shù)據(jù)相結(jié)合,提出綜合設(shè)備評(píng)價(jià)方法。

有鑒于此,本文基于電力變壓器缺陷記錄文本的特點(diǎn),采取逐層學(xué)習(xí)和參數(shù)微調(diào)措施,建立深度學(xué)習(xí)模型,自動(dòng)辨識(shí)缺陷文本記錄信息所反映的設(shè)備缺陷情況。以交流220 kV主變壓器(以下簡(jiǎn)稱“主變”)油浸式變壓器作為研究對(duì)象,將源于缺陷記錄的非結(jié)構(gòu)化文本與源于在線監(jiān)測(cè)和常規(guī)例行試驗(yàn)的結(jié)構(gòu)化數(shù)據(jù)相結(jié)合,提出了基于多源異構(gòu)數(shù)據(jù)融合的變壓器運(yùn)行狀態(tài)評(píng)價(jià)的新思路,旨在實(shí)現(xiàn)不同信息結(jié)構(gòu)間的數(shù)據(jù)流轉(zhuǎn)及數(shù)據(jù)共享。

1 電力變壓器非結(jié)構(gòu)化缺陷記錄

1.1 缺陷記錄的內(nèi)容

在電力變壓器的日常運(yùn)行和維護(hù)過程中,缺陷信息由巡檢人員記錄,并被輸入至生產(chǎn)管理系統(tǒng)。輸入內(nèi)容包括設(shè)備類型、投運(yùn)年份、電壓等級(jí)、缺陷描述、缺陷位置、缺陷原因、備注等。缺陷記錄中包含一些相似的語義關(guān)系,模糊性較強(qiáng)的語義可能無法被準(zhǔn)確辨識(shí)及理解。因此,有必要深度分析缺陷記錄的語義。

為簡(jiǎn)單起見,本文不對(duì)變壓器的故障類型進(jìn)行判斷,而是根據(jù)電力部門運(yùn)行維護(hù)實(shí)際情況,對(duì)設(shè)備運(yùn)行維護(hù)檢修發(fā)現(xiàn)的缺陷類型進(jìn)行分類判斷,據(jù)此為運(yùn)行維護(hù)檢修策略提供必要依據(jù)。本文假定缺陷記錄的分類等級(jí)可按缺陷嚴(yán)重程度,分為一般、嚴(yán)重和危急3類[18],見表1。

表1 分類等級(jí)及對(duì)應(yīng)的現(xiàn)象描述Tab.1 Classification grades and phenomenal description

1.2 缺陷記錄的文本特征

不同于普通文本,電力變壓器的缺陷記錄文本有3個(gè)顯著的特征:①文本專業(yè)性強(qiáng),包含各種電氣術(shù)語。由于專業(yè)術(shù)語未囊括至文本分詞軟件的語料庫內(nèi),無法被正確識(shí)別,因此無法正確劃分語句。②記錄的文字中摻雜著數(shù)字與單位。例如,在短文本“減壓閥漏油,1 min 15~20滴”中,數(shù)字1、15、20起著重要作用。③文本的長度不同,且語法可能不符合規(guī)范。這是因?yàn)槿毕菸谋臼怯扇斯び涗洸⑸蠄?bào)或輸入的,不同巡檢人員的語言組織能力和邏輯思維方式有差異。因此,傳統(tǒng)信息提取中的關(guān)鍵技術(shù),如命名實(shí)體識(shí)別和句法分析,不能很好地應(yīng)用于缺陷文本中。

1.3 文本的預(yù)處理流程

對(duì)于已獲得的原始文本數(shù)據(jù),為了便于計(jì)算機(jī)識(shí)別并理解,首先需將其轉(zhuǎn)換為數(shù)字形式,這是文本預(yù)處理階段。它由3部分組成,即文本分詞、刪除停用詞和生成詞向量。

1.3.1 文本分詞

分詞是指將一段漢字語句切分成一個(gè)個(gè)單獨(dú)的詞。英文文本很容易根據(jù)自帶的空格劃分為一個(gè)個(gè)單詞。但是,中文段落間沒有空格,因此對(duì)其進(jìn)行正確的分詞是中文文本處理的必要步驟。

Python語言中的jieba分詞組件是基于概率語言建模的中文分詞工具,它使用動(dòng)態(tài)編程來查找概率最大的分詞路徑。重要的是,對(duì)于未包含在軟件語料庫中的單詞,jieba支持通過調(diào)用函數(shù)jieba.load_userdict來導(dǎo)入自定義詞典。 因此,為了提高分詞準(zhǔn)確率,本文總結(jié)電力變壓器的專業(yè)術(shù)語,并將它們導(dǎo)入至jieba語料庫中。

1.3.2 刪除停用詞

停用詞是指在信息檢索中,為節(jié)省存儲(chǔ)空間和提高檢索效率,在處理自然語言數(shù)據(jù)信息之前或之后,自動(dòng)過濾掉某些字或詞,這些字或詞被稱為停用詞。為了減少文本冗余,在文本分詞之后需要去除不能表示設(shè)備運(yùn)行狀態(tài)的詞語。因此,文本預(yù)處理的第2階段是建立一個(gè)停用詞詞典,并將其導(dǎo)入到“刪除停用詞”階段。

1.3.3 生成詞向量

該階段是為了將以自然語言表達(dá)的單詞轉(zhuǎn)換為計(jì)算機(jī)可以理解的詞向量。由Mikolov等人提出的工具Word2Vec,可以處理不同長度的序列,且將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化的詞向量形式[19]。詞向量的每個(gè)維度代表語義特征,一個(gè)句子可表示為N×M的矩陣。其中N為句子中的單詞數(shù),M為詞向量的維度數(shù)。將部分缺陷文本的三維詞向量進(jìn)行展示(如圖1所示),圖中數(shù)值源自Word2Vec的輸出。

圖1 特征空間中的詞向量表示Fig.1 Wordvector representation in the feature space

圖1中,X、Y和Z軸分別代表向量的3個(gè)維度。語義相近的詞向量的坐標(biāo)點(diǎn)較為相近,即在特征空間中相距較近,語義差異較大的詞向量在特征空間中相距較遠(yuǎn),故詞向量的余弦距離可表示語義相似度。在實(shí)際應(yīng)用中,可指定詞向量的維度,通常取值為100。

2 融合多源異構(gòu)數(shù)據(jù)的評(píng)價(jià)模型

2.1 文本挖掘模型

雙向LSTM (bi-LSTM,Bi-LSTM) 不僅可以提高RNN中網(wǎng)絡(luò)權(quán)重訓(xùn)練的效率,確保語義學(xué)習(xí)的穩(wěn)健性,還可以獲取文本序列中的上下文信息。在LSTM中引入注意力機(jī)制可更有效地獲取關(guān)鍵詞信息,故本文構(gòu)建了基于注意力機(jī)制的Bi-LSTM文本挖掘模型。

2.1.1 長短時(shí)記憶網(wǎng)絡(luò)(LSTM)

RNN是自然語言處理領(lǐng)域的主流架構(gòu),其可以處理任意長度的序列并捕獲長期性的依賴關(guān)系[20]。 LSTM是RNN的優(yōu)化架構(gòu),它解決了RNN訓(xùn)練時(shí)常見的梯度消失和梯度爆炸問題。但是單向LSTM 的缺點(diǎn)是無法獲得本單元之后的單元信息,為了獲取單元前后的所有信息,Bi-LSTM神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。圖2顯示了單向LSTM中的單元結(jié)構(gòu)。

圖2 LSTM的單元結(jié)構(gòu)Fig.2 Unit structure in LSTM

在時(shí)刻t,LSTM的輸入包括:時(shí)刻t的文本序列輸入xt,時(shí)刻t-1時(shí)的LSTM輸出ht-1,時(shí)刻t-1時(shí)的LSTM單元狀態(tài)ct-1。在時(shí)刻t,LSTM的輸出包括:時(shí)刻t的LSTM輸出ht和時(shí)刻t的單元狀態(tài)ct。 LSTM利用遺忘門、輸入門、輸出門保護(hù)和控制信息。計(jì)算原理如式(1)—(3)所示:

ft=σ(Wf·ht-1+Wf·xt+bf).

(1)

it=σ(Wi·ht-1+Wi·xt+bi) .

(2)

ot=σ(Wo·ht-1+Wo·xt+bo).

(3)

式(1)—(3)中:ft,it,ot分別是遺忘門、輸入門、輸出門時(shí)刻t的輸出;Wf,Wi,Wo分別是遺忘門、輸入門、輸出門的權(quán)重矩陣;bf,bi,bo分別是遺忘門、輸入門、輸出門的偏置矩陣。LSTM的最終輸出由輸出門和單元狀態(tài)決定,即:

(4)

(5)

ht=ot°tanh(ct).

(6)

2.1.2 注意力機(jī)制

LSTM是典型的編碼器-解碼器模型,無論輸入長度如何,輸入序列都被編碼為具有固定長度的矢量表示。在解碼過程中,每個(gè)時(shí)刻的輸出是相同的,且互相之間沒有區(qū)別。因此,引入了注意力機(jī)制。

注意力機(jī)制基于一個(gè)模擬人類大腦注意力的模型。它具有人腦的特征,在特定時(shí)刻注意力可集中于特定點(diǎn)而忽略其他部分。因此,可選擇性記憶重要單詞。圖3為常見的編碼器-解碼器框架。

圖3 常見的編碼器-解碼器框架Fig.3 Common encoder-decoder framework

圖3中,編碼器將輸入的詞向量x=(x1,x2,…,xT)轉(zhuǎn)換為語義編碼c,T是輸入序列的數(shù)量,故可得到式(7)—(8),即:

ht=f(xt,ht-1).

(7)

c=q(h1,h2,…,hT).

(8)

式(7)—(8)中f和q是非線性函數(shù)。然后,解碼器通過語言模型解碼產(chǎn)生新序列:

(9)

p(yt|y1,y2,…,yt-1,c)=r(yt-1,st,c).

(10)

式(9)—(10)中:y預(yù)測(cè)結(jié)果;yt是時(shí)刻t的預(yù)測(cè)結(jié)果;r是非線性函數(shù),其可能是多層的;st是模型時(shí)刻t的隱藏狀態(tài)。

式(9)—(10)說明,在預(yù)測(cè)每個(gè)時(shí)刻的輸出時(shí),所使用的上下文向量是相同的。然而,理想的預(yù)測(cè)結(jié)果應(yīng)與不同時(shí)刻的輸入向量有關(guān),如式(11)—(12)所示。因此,引入了注意力機(jī)制,如圖4所示。

p(yt|y1,y2,…,yt-1,c)=r(yt-1,st,ct).

(11)

st=f(st-1,yt-1,ct).

(12)

ct是注意力機(jī)制的關(guān)鍵部分,它可以將輸出與對(duì)應(yīng)輸入互相連接,即

(13)

(14)

et,j=a(st-1,hj).

(15)

實(shí)際上,注意力模型是嵌入Bi-LSTM中的前饋神經(jīng)網(wǎng)絡(luò),一起進(jìn)行訓(xùn)練過程并調(diào)節(jié)參數(shù)。此外,在幾層Bi-LSTM之后,連接的是softmax層,softmax層對(duì)輸入數(shù)據(jù)進(jìn)行歸一化分類,將表1的缺陷程度分為3類假定,輸出缺陷記錄文本隸屬于“一般”、“嚴(yán)重”、“危急”等級(jí)的概率分別為p1(L1)、p1(L2)、p1(L3)。

2.1.3 評(píng)估指標(biāo)

本文的問題是有3種分類等級(jí)的,分別為“一般缺陷”,“嚴(yán)重缺陷”和“危急缺陷”,屬于三分類問題(分類類別n=3),其常用的評(píng)估指標(biāo)為macro-P宏查準(zhǔn)率(用Amacro-P表示)、macro-R宏查全率(用Amacro-R表示)、macro-F1宏綜合指標(biāo)(用Amacro-F1表示)。表達(dá)式為:

圖4 基于注意力機(jī)制的雙向LSTM模型Fig.4 Bidirectional LSTM model based on attention mechanism

(16)

式中:查準(zhǔn)率P、查全率R為二分類的評(píng)估指標(biāo)。對(duì)于二分類問題,P、R的值是唯一的;對(duì)于三分類問題,對(duì)應(yīng)3種不同的正例,P、R的值有3種。P、R的定義見表2及式(17)。

表2 二分類的混淆矩陣Tab.2 Confusion matrix of binary classification

表2中:PT(真正例) 代表正例被正確判斷為正例的數(shù)目;NF(假反例) 表示正例被錯(cuò)誤判斷為反例的數(shù)目;PF(假正例) 代表反例被錯(cuò)誤判斷為正例的數(shù)目;NT(真反例) 表示反例被正確判斷為反例的數(shù)目。且:

(17)

2.2 結(jié)構(gòu)化數(shù)據(jù)的挖掘模型

電力變壓器的監(jiān)測(cè)參量及運(yùn)行參量繁多,若考慮所有狀態(tài)參量,缺陷診斷體系將極為復(fù)雜,且某些參量的記錄參數(shù)值并不齊全。因此,需要選取最具有代表性且數(shù)據(jù)記錄信息完整的參量作為指標(biāo)量。文獻(xiàn)[21]利用集對(duì)分析和關(guān)聯(lián)規(guī)則,分析了變壓器運(yùn)行中典型缺陷與各故障征兆參數(shù)之間的關(guān)聯(lián)性,并給出了缺陷診斷的24種指標(biāo)量(見表3),這些指標(biāo)量源自在線監(jiān)測(cè)和常規(guī)例行試驗(yàn)。

2.1節(jié)所提的基于注意力的Bi-LSTM模型,不僅可以處理非結(jié)構(gòu)化文本所產(chǎn)生的詞向量序列,而且可以處理結(jié)構(gòu)化信息所組成的數(shù)據(jù)長序列,故用于結(jié)構(gòu)化數(shù)據(jù)的信息挖掘中。在時(shí)刻t,定量數(shù)

據(jù)的記錄信息可記為ut,則一個(gè)ut向量?jī)?nèi)有24種指標(biāo)量所對(duì)應(yīng)的24個(gè)數(shù)值,即ut=(u1t,u2t,u3t,…,u24t)。本文可將不同時(shí)刻t的記錄信息ut作為模型的輸入集,那么,模型的softmax層可輸出結(jié)構(gòu)化數(shù)據(jù)隸屬于L1、L2、L3等級(jí)的概率p2(L1)、p2(L2)、p2(L3)。

2.3 多源異構(gòu)數(shù)據(jù)融合

對(duì)于文本序列,本文所提出的模型的softmax層可輸出缺陷記錄文本隸屬于L1、L2、L3等級(jí)的概率分別為p1(L1)、p1(L2)、p1(L3);對(duì)于定量數(shù)據(jù)序列,模型的softmax層可輸出一系列結(jié)構(gòu)化數(shù)據(jù)隸屬于L1、L2、L3等級(jí)的概率分別為p2(L1)、p2(L2)、p2(L3)。將兩者概率的加權(quán)求和,可得變壓器總體狀態(tài)隸屬于L1、L2、L3等級(jí)的概率分別為p(L1)、p(L2)、p(L3),即:

(18)

根據(jù)最大隸屬度原則,變壓器的運(yùn)行狀態(tài)為max(p(L1),p(L2),p(L3))所對(duì)應(yīng)的狀態(tài)。

圖5是多源異構(gòu)數(shù)據(jù)融合的流程圖。圖形左側(cè)為非結(jié)構(gòu)化文本挖掘框架,圖形右側(cè)為結(jié)構(gòu)化數(shù)據(jù)分析框架。通過融合文本型的非結(jié)構(gòu)化數(shù)據(jù)與數(shù)字型的結(jié)構(gòu)化數(shù)據(jù),可更全面地判斷變壓器的運(yùn)行狀態(tài)。

3 驗(yàn)證性數(shù)據(jù)分析

本文選取了2015—2017年某省電力公司23 409條缺陷文本構(gòu)成的數(shù)據(jù),文本均源于交流220 kV油浸式變壓器的運(yùn)行檢修記錄。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)類別,其中訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò)參數(shù);驗(yàn)證集用于調(diào)整超參數(shù),超參數(shù)為在網(wǎng)絡(luò)訓(xùn)練之前所設(shè)置的,并在網(wǎng)絡(luò)訓(xùn)練過程中保持固定的參數(shù),如學(xué)習(xí)率η、批處理大小bs、迭代次數(shù)等;測(cè)試集用于評(píng)估網(wǎng)絡(luò)的特征提取及文本挖掘的能力。圖6—7顯示了部分超參數(shù)與訓(xùn)練網(wǎng)絡(luò)性能的關(guān)聯(lián)性。

表3 變壓器的缺陷診斷指標(biāo)量Tab.3 Transformer defect diagnostic indicator

圖5 多源異構(gòu)數(shù)據(jù)融合的流程Fig.5 Flowchart of multi-source heterogeneous data fusion

圖6 學(xué)習(xí)率與macro-F1之間的關(guān)聯(lián)性Fig.6 Relevance between learning rate η and macro-F1

圖7 批處理大小與macro-F1之間的關(guān)聯(lián)性Fig.7 Relevance between batch size bs and macro-F1

圖 6展示了學(xué)習(xí)率η和Amacro-F1間的關(guān)聯(lián)性。當(dāng)η=10-2時(shí),Amacro-F1達(dá)到最大值,故η的最佳設(shè)置應(yīng)為10-2。同理,由圖7可得,批處理bs的最佳設(shè)置是256。此外,仿真設(shè)置詞向量的維度為100,特征圖個(gè)數(shù)為128,隨機(jī)失活率為0.5,正則化系數(shù)為0.005,且共有3層基于注意力機(jī)制的LSTM,單元數(shù)分別為64、128、32。

3.1 特征提取能力

為了直觀地表示特征提取能力,在模型的softmax層之前插入隱藏層,其單元數(shù)為2。因此,隱藏層可以輸出二維的特征向量,如圖8所示。同時(shí),將與特征降維任務(wù)中常用的主成分分析法(principal component analysis,PCA)進(jìn)行對(duì)比。利用PCA 對(duì)模型的初始輸入進(jìn)行特征提取,將前2個(gè)主成分投影至平面直角坐標(biāo)系中,如圖9 所示。

在圖8—9中,藍(lán)色原點(diǎn)表示“一般缺陷”,紅色標(biāo)記表示“嚴(yán)重缺陷”,綠色標(biāo)記表示“危急缺陷”。在圖8中,不同類別的樣本各自聚集成簇,2簇發(fā)生重疊的面積很小,即通過多個(gè)隱藏層映射的二維特征具有良好的區(qū)分特征。在圖9中,不同類別的樣本之間存在大面積重疊,即PCA產(chǎn)生的二維特征無法準(zhǔn)確區(qū)分不同的類別。這是由于PCA是基于線性變換的思想提取特征,易忽略不同類別之間的特征,故對(duì)底層數(shù)據(jù)的特征提取能力是有限的。對(duì)比可得,基于注意力機(jī)制的Bi-LSTM擁有比PCA更佳的特征提取能力。

圖8 本文所提出的模型產(chǎn)生的二維特征向量Fig.8 Two-dimensional feature vector produced by the proposed model

3.2 與其他典型網(wǎng)絡(luò)的性能對(duì)比

為了比較基于注意力機(jī)制的Bi-LSTM和其他分類模型的分類性能,選擇幾種典型的分類器用于對(duì)比實(shí)驗(yàn)。在基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類器中選擇3種網(wǎng)絡(luò),包括k-最近鄰(k-nearest neighbor,KNN)、支持向量機(jī)(support vector machine,SVM)和隨機(jī)森林(random tree,RT)。在基于深度學(xué)習(xí)的分類器中,選擇2種網(wǎng)絡(luò),包括LSTM和Bi-LSTM。

表4為不同分類器的分類性能評(píng)估結(jié)果。

根據(jù)表4的結(jié)果,可進(jìn)行以下分析:

a)將本文所提出模型與傳統(tǒng)分類器(即KNN,SVM和RT)進(jìn)行比較。本文所提出模型的分類性能遠(yuǎn)優(yōu)于傳統(tǒng)分類器。例如,綜合指標(biāo)Amacro-F1提升了7%~10%。這是由于傳統(tǒng)的分類器分為“特征提取+分類評(píng)估”2個(gè)階段,信息可能在傳輸過程中丟失,且受限于模型的淺層架構(gòu),無法深入學(xué)習(xí)并提取信息。相比之下,基于注意力機(jī)制的Bi-LSTM可以統(tǒng)一特征提取和分類評(píng)估這2個(gè)階段,并可以基于端到端的方式傳遞信息并深入學(xué)習(xí)語義。

b)將本文所提出模型與基于深度學(xué)習(xí)的分類器(即LSTM和Bi-LSTM)進(jìn)行比較,結(jié)果為本文所提出模型的分類性能略優(yōu)。例如,綜合指標(biāo)Amacro-F1提升了3%~4%。這是因?yàn)楸疚乃岢瞿P途哂懈玫募軜?gòu),它不僅可以識(shí)別局部的特征,也可獲取上下文信息;同時(shí)還可以更加關(guān)注于關(guān)鍵信息和忽略不重要的部分。

3.3 結(jié)合結(jié)構(gòu)化數(shù)據(jù)

由表4可得,本文所提出模型的缺陷分類性能十分優(yōu)異,但僅憑對(duì)非結(jié)構(gòu)化文本的分類研究將對(duì)電網(wǎng)的運(yùn)行維護(hù)幫助有限,故本節(jié)旨在結(jié)合非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上對(duì)電力變壓器的運(yùn)行狀態(tài)進(jìn)行全面評(píng)價(jià)。表5舉例分析了某臺(tái)變壓器在遇到不同故障情況下,非結(jié)構(gòu)化缺陷記錄文本與結(jié)構(gòu)化監(jiān)測(cè)數(shù)據(jù)的分析過程。

該變壓器于不同時(shí)間段,分別發(fā)生了不同程度的缺陷。例如在2015年8月7日,運(yùn)檢人員記錄了“主變220 kV側(cè)A相套管引線發(fā)熱90 ℃,零部件老化”的文字,根據(jù)本文所提的文本挖掘模型,計(jì)算出隸屬于L1—L3等級(jí)的概率分別為0.323 0、0.610 8、0.066 2。同時(shí),監(jiān)測(cè)得出結(jié)構(gòu)化數(shù)據(jù)的實(shí)測(cè)值并基于LSTM模型,計(jì)算得出結(jié)構(gòu)化監(jiān)測(cè)數(shù)據(jù)屬于L1—L3等級(jí)的概率分別為0.213 4、0.616 6、0.170 0。由式(18)可得變壓器總體狀態(tài)隸屬于L1—L3等級(jí)的概率分別為0.268 2、0.613 7、0.118 1,由最大隸屬度原則判斷,變壓器總體處于“嚴(yán)重缺陷”,需立即進(jìn)行檢修。

圖9 主成分分析法產(chǎn)生的二維特征向量Fig.9 Two-dimensional feature vector produced by the PCA

評(píng)估指標(biāo)分類器KNNSVMRTLSTMBi-LSTM基于注意力機(jī)制的Bi-LSTM準(zhǔn)確率A0.920.950.960.980.980.99Amacro-P0.920.950.920.960.990.99Amacro-R0.910.940.890.940.960.98Amacro-F10.880.920.910.940.950.98

表5 某變壓器的缺陷數(shù)據(jù)及其分析Tab.5 Defect data of a transformer and its analysis

以2015年1月21日至2017年6月28日60組帶有缺陷的變壓器的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)作為輸入,對(duì)其進(jìn)行狀態(tài)評(píng)價(jià)。圖10展示了基于不同評(píng)價(jià)方法的評(píng)價(jià)結(jié)果。其中,圖10(a)為基于結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)結(jié)果,圖10(b)為基于異構(gòu)數(shù)據(jù)的評(píng)價(jià)結(jié)果。

圖10中,圓圈圈出的點(diǎn)表明評(píng)價(jià)結(jié)果與實(shí)際結(jié)果不一致。因此,基于結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)準(zhǔn)確率為91.67%,基于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)準(zhǔn)確率為96.67%。故基于多源異構(gòu)數(shù)據(jù)的評(píng)價(jià)方法能更好地評(píng)價(jià)設(shè)備的運(yùn)行狀態(tài)。

4 結(jié)論

本文提出了利用融合的非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù),進(jìn)行變壓器狀態(tài)評(píng)價(jià)的新思路。其中,針對(duì)電力變壓器的非結(jié)構(gòu)化文本,提出了一種基于深度語義學(xué)習(xí)的信息挖掘方法。根據(jù)案例分析,可得到以下結(jié)論:

a)基于注意力機(jī)制的Bi-LSTM模型具有優(yōu)秀的語義特征提取能力。隸屬于不同類的特征向量匯聚為不同的簇,并且不同簇之間的重疊很小。

b)基于注意力機(jī)制的Bi-LSTM模型具有優(yōu)秀的語義學(xué)習(xí)能力。與傳統(tǒng)分類器(KNN、SVM和RF)相比,缺陷分類性能提高了7%~10%;與基于深度學(xué)習(xí)的分類器(LSTM和Bi-LSTM)相比,缺陷分類性能提高了3%~4%。

圖10 不同評(píng)價(jià)方法的運(yùn)行狀態(tài)評(píng)價(jià)結(jié)果Fig.10 Evaluation results of operating conditions of different methods

c)基于本文模型的非結(jié)構(gòu)化數(shù)據(jù)的缺陷分類準(zhǔn)確率高達(dá)98%~99%。進(jìn)一步與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合,進(jìn)行了基于多源異構(gòu)數(shù)據(jù)的變壓器運(yùn)行狀態(tài)綜合評(píng)估,其評(píng)價(jià)準(zhǔn)確度高達(dá)96.67%。

猜你喜歡
結(jié)構(gòu)化分類器注意力
讓注意力“飛”回來
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
基于實(shí)例的強(qiáng)分類器快速集成方法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
A Beautiful Way Of Looking At Things
闽侯县| 故城县| 娄底市| 雅江县| 彭州市| 临沂市| 勃利县| 忻州市| 武宣县| 余姚市| 绥江县| 镇安县| 石狮市| 边坝县| 阳高县| 东海县| 怀集县| 华池县| 澄城县| 高邑县| 卓资县| 定兴县| 通州区| 湖州市| 昌乐县| 樟树市| 长宁区| 四平市| 兴义市| 阳朔县| 鄂州市| 温州市| 弥勒县| 诸城市| 湾仔区| 商河县| 东丽区| 大石桥市| 广汉市| 普兰县| 平乐县|