多源異構(gòu)數(shù)據(jù)融合的電力變壓器狀態(tài)評(píng)價(jià)方法

2019-10-10 07:05蔣逸雯彭明洋馬凱李黎

廣東電力 2019年9期

蔣逸雯，彭明洋，馬凱，李黎

(1.華中科技大學(xué) 電氣與電子工程學(xué)院，湖北武漢 430074；2. 廣東電網(wǎng)有限責(zé)任公司電力科學(xué)研究院，廣東廣州 510080)

隨著“數(shù)字南網(wǎng)”的提出與建設(shè)，南方電網(wǎng)正在向數(shù)字化轉(zhuǎn)型，目標(biāo)為基于大數(shù)據(jù)、人工智能等先進(jìn)的數(shù)字化應(yīng)用技術(shù)，對(duì)南網(wǎng)系統(tǒng)內(nèi)的海量數(shù)據(jù)進(jìn)行分析、學(xué)習(xí)、計(jì)算，通過應(yīng)用系統(tǒng)自動(dòng)決策與自動(dòng)執(zhí)行[1-2]。結(jié)構(gòu)化數(shù)據(jù)由明確定義、易于檢索的數(shù)據(jù)類型組成，非結(jié)構(gòu)化數(shù)據(jù)通常由定義模糊、不易檢索的文本、視頻等格式的信息組成[3]。其中，電力變壓器缺陷記錄文本包含豐富的故障信息，是對(duì)變壓器數(shù)字化運(yùn)檢數(shù)據(jù)的重要補(bǔ)充。然而，由于其數(shù)據(jù)類型為描述性文字，屬于非結(jié)構(gòu)化數(shù)據(jù)，難以依靠常規(guī)的數(shù)據(jù)分析方法進(jìn)行處理，尚未得到有效的信息挖掘，因此變壓器的運(yùn)行狀態(tài)評(píng)價(jià)僅能依靠結(jié)構(gòu)化的數(shù)字化運(yùn)檢數(shù)據(jù)。運(yùn)檢、運(yùn)行維護(hù)記錄文本的數(shù)據(jù)信息提取(即文本挖掘)對(duì)進(jìn)一步改進(jìn)輸變電設(shè)備的智能運(yùn)檢工作具有重要的意義。

在先前的文本挖掘研究中，Rudin等通過文字描述的電纜故障記錄，利用信息檢索結(jié)合支持向量機(jī)的方法預(yù)測(cè)電纜本體和附件出現(xiàn)絕緣擊穿故障的風(fēng)險(xiǎn)[4]；Zheng等搜集歷史上變電站發(fā)生故障的事件記錄，結(jié)合當(dāng)時(shí)的天氣信息，用樸素貝葉斯方法進(jìn)行變電站故障與惡劣天氣的關(guān)聯(lián)性預(yù)測(cè)，以評(píng)估變電站設(shè)備絕緣配合設(shè)計(jì)的科學(xué)性[5]。但是目前大多數(shù)方法都是基于傳統(tǒng)機(jī)器學(xué)習(xí)模型的淺層架構(gòu)，在解決復(fù)雜問題時(shí)，學(xué)習(xí)能力和泛化能力都會(huì)受到限制。隨著更深層次訓(xùn)練模型的完善，深度學(xué)習(xí)的概念被提出，且已經(jīng)被用于文本記錄的信息挖掘。Sutskever等提出具有多層長短時(shí)記憶(long short-term memory, LSTM)的機(jī)器翻譯框架[6]；Liwicki等運(yùn)用LSTM網(wǎng)絡(luò)識(shí)別手寫數(shù)字[7]；Socher等利用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)進(jìn)行句法分析[8]。隨著逐層學(xué)習(xí)和參數(shù)微調(diào)技術(shù)的出現(xiàn)，卷積神經(jīng)網(wǎng)絡(luò)算法(convolutional neural network, CNN)獲得了快速發(fā)展，在句子建模[9]、語義分析[10]和搜索查詢[11]方面取得了較大的成果。針對(duì)不同文本記錄內(nèi)容的數(shù)據(jù)集，學(xué)者們還提出了一些改進(jìn)的模型架構(gòu)，有更少的訓(xùn)練耗時(shí)和更優(yōu)的分類效果，譬如CNN-LSTM、RNN-LSTM[12]和動(dòng)態(tài)記憶網(wǎng)絡(luò)[13]。近兩年來，杜修明和劉梓權(quán)分別利用LSTM和CNN，對(duì)電網(wǎng)設(shè)備故障案例及缺陷記錄文本進(jìn)行信息挖掘，實(shí)現(xiàn)了缺陷因果特征的自動(dòng)提取及故障類別的自動(dòng)判別[14-17]。然而，這些文獻(xiàn)都是單獨(dú)對(duì)文本記錄信息進(jìn)行分類研究，尚未與數(shù)字類型的結(jié)構(gòu)化數(shù)據(jù)相結(jié)合，提出綜合設(shè)備評(píng)價(jià)方法。

有鑒于此，本文基于電力變壓器缺陷記錄文本的特點(diǎn)，采取逐層學(xué)習(xí)和參數(shù)微調(diào)措施，建立深度學(xué)習(xí)模型，自動(dòng)辨識(shí)缺陷文本記錄信息所反映的設(shè)備缺陷情況。以交流220 kV主變壓器(以下簡(jiǎn)稱“主變”)油浸式變壓器作為研究對(duì)象，將源于缺陷記錄的非結(jié)構(gòu)化文本與源于在線監(jiān)測(cè)和常規(guī)例行試驗(yàn)的結(jié)構(gòu)化數(shù)據(jù)相結(jié)合，提出了基于多源異構(gòu)數(shù)據(jù)融合的變壓器運(yùn)行狀態(tài)評(píng)價(jià)的新思路，旨在實(shí)現(xiàn)不同信息結(jié)構(gòu)間的數(shù)據(jù)流轉(zhuǎn)及數(shù)據(jù)共享。

1 電力變壓器非結(jié)構(gòu)化缺陷記錄

1.1 缺陷記錄的內(nèi)容

在電力變壓器的日常運(yùn)行和維護(hù)過程中，缺陷信息由巡檢人員記錄，并被輸入至生產(chǎn)管理系統(tǒng)。輸入內(nèi)容包括設(shè)備類型、投運(yùn)年份、電壓等級(jí)、缺陷描述、缺陷位置、缺陷原因、備注等。缺陷記錄中包含一些相似的語義關(guān)系，模糊性較強(qiáng)的語義可能無法被準(zhǔn)確辨識(shí)及理解。因此，有必要深度分析缺陷記錄的語義。

為簡(jiǎn)單起見，本文不對(duì)變壓器的故障類型進(jìn)行判斷，而是根據(jù)電力部門運(yùn)行維護(hù)實(shí)際情況，對(duì)設(shè)備運(yùn)行維護(hù)檢修發(fā)現(xiàn)的缺陷類型進(jìn)行分類判斷，據(jù)此為運(yùn)行維護(hù)檢修策略提供必要依據(jù)。本文假定缺陷記錄的分類等級(jí)可按缺陷嚴(yán)重程度，分為一般、嚴(yán)重和危急3類[18]，見表1。

表1 分類等級(jí)及對(duì)應(yīng)的現(xiàn)象描述Tab.1 Classification grades and phenomenal description

1.2 缺陷記錄的文本特征

不同于普通文本，電力變壓器的缺陷記錄文本有3個(gè)顯著的特征：①文本專業(yè)性強(qiáng)，包含各種電氣術(shù)語。由于專業(yè)術(shù)語未囊括至文本分詞軟件的語料庫內(nèi)，無法被正確識(shí)別，因此無法正確劃分語句。②記錄的文字中摻雜著數(shù)字與單位。例如，在短文本“減壓閥漏油，1 min 15～20滴”中，數(shù)字1、15、20起著重要作用。③文本的長度不同，且語法可能不符合規(guī)范。這是因?yàn)槿毕菸谋臼怯扇斯び涗洸⑸蠄?bào)或輸入的，不同巡檢人員的語言組織能力和邏輯思維方式有差異。因此，傳統(tǒng)信息提取中的關(guān)鍵技術(shù)，如命名實(shí)體識(shí)別和句法分析，不能很好地應(yīng)用于缺陷文本中。

1.3 文本的預(yù)處理流程

對(duì)于已獲得的原始文本數(shù)據(jù)，為了便于計(jì)算機(jī)識(shí)別并理解，首先需將其轉(zhuǎn)換為數(shù)字形式，這是文本預(yù)處理階段。它由3部分組成，即文本分詞、刪除停用詞和生成詞向量。

1.3.1 文本分詞

分詞是指將一段漢字語句切分成一個(gè)個(gè)單獨(dú)的詞。英文文本很容易根據(jù)自帶的空格劃分為一個(gè)個(gè)單詞。但是，中文段落間沒有空格，因此對(duì)其進(jìn)行正確的分詞是中文文本處理的必要步驟。

Python語言中的jieba分詞組件是基于概率語言建模的中文分詞工具，它使用動(dòng)態(tài)編程來查找概率最大的分詞路徑。重要的是，對(duì)于未包含在軟件語料庫中的單詞，jieba支持通過調(diào)用函數(shù)jieba.load_userdict來導(dǎo)入自定義詞典。因此，為了提高分詞準(zhǔn)確率，本文總結(jié)電力變壓器的專業(yè)術(shù)語，并將它們導(dǎo)入至jieba語料庫中。

1.3.2 刪除停用詞

停用詞是指在信息檢索中，為節(jié)省存儲(chǔ)空間和提高檢索效率，在處理自然語言數(shù)據(jù)信息之前或之后，自動(dòng)過濾掉某些字或詞，這些字或詞被稱為停用詞。為了減少文本冗余，在文本分詞之后需要去除不能表示設(shè)備運(yùn)行狀態(tài)的詞語。因此，文本預(yù)處理的第2階段是建立一個(gè)停用詞詞典，并將其導(dǎo)入到“刪除停用詞”階段。

1.3.3 生成詞向量

該階段是為了將以自然語言表達(dá)的單詞轉(zhuǎn)換為計(jì)算機(jī)可以理解的詞向量。由Mikolov等人提出的工具Word2Vec，可以處理不同長度的序列，且將非結(jié)構(gòu)化文本轉(zhuǎn)換為結(jié)構(gòu)化的詞向量形式[19]。詞向量的每個(gè)維度代表語義特征，一個(gè)句子可表示為N×M的矩陣。其中N為句子中的單詞數(shù)，M為詞向量的維度數(shù)。將部分缺陷文本的三維詞向量進(jìn)行展示(如圖1所示)，圖中數(shù)值源自Word2Vec的輸出。

圖1 特征空間中的詞向量表示Fig.1 Wordvector representation in the feature space

圖1中，X、Y和Z軸分別代表向量的3個(gè)維度。語義相近的詞向量的坐標(biāo)點(diǎn)較為相近，即在特征空間中相距較近，語義差異較大的詞向量在特征空間中相距較遠(yuǎn)，故詞向量的余弦距離可表示語義相似度。在實(shí)際應(yīng)用中，可指定詞向量的維度，通常取值為100。

2 融合多源異構(gòu)數(shù)據(jù)的評(píng)價(jià)模型

2.1 文本挖掘模型

雙向LSTM (bi-LSTM，Bi-LSTM) 不僅可以提高RNN中網(wǎng)絡(luò)權(quán)重訓(xùn)練的效率，確保語義學(xué)習(xí)的穩(wěn)健性，還可以獲取文本序列中的上下文信息。在LSTM中引入注意力機(jī)制可更有效地獲取關(guān)鍵詞信息，故本文構(gòu)建了基于注意力機(jī)制的Bi-LSTM文本挖掘模型。

2.1.1 長短時(shí)記憶網(wǎng)絡(luò)(LSTM)

RNN是自然語言處理領(lǐng)域的主流架構(gòu)，其可以處理任意長度的序列并捕獲長期性的依賴關(guān)系[20]。 LSTM是RNN的優(yōu)化架構(gòu)，它解決了RNN訓(xùn)練時(shí)常見的梯度消失和梯度爆炸問題。但是單向LSTM 的缺點(diǎn)是無法獲得本單元之后的單元信息，為了獲取單元前后的所有信息，Bi-LSTM神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生。圖2顯示了單向LSTM中的單元結(jié)構(gòu)。

圖2 LSTM的單元結(jié)構(gòu)Fig.2 Unit structure in LSTM

在時(shí)刻t，LSTM的輸入包括：時(shí)刻t的文本序列輸入xt，時(shí)刻t-1時(shí)的LSTM輸出ht-1，時(shí)刻t-1時(shí)的LSTM單元狀態(tài)ct-1。在時(shí)刻t，LSTM的輸出包括：時(shí)刻t的LSTM輸出ht和時(shí)刻t的單元狀態(tài)ct。 LSTM利用遺忘門、輸入門、輸出門保護(hù)和控制信息。計(jì)算原理如式(1)—(3)所示：

ft=σ(Wf·ht-1+Wf·xt+bf).

(1)

it=σ(Wi·ht-1+Wi·xt+bi) .

(2)

ot=σ(Wo·ht-1+Wo·xt+bo).

(3)

式(1)—(3)中：ft，it，ot分別是遺忘門、輸入門、輸出門時(shí)刻t的輸出；Wf，Wi，Wo分別是遺忘門、輸入門、輸出門的權(quán)重矩陣；bf，bi，bo分別是遺忘門、輸入門、輸出門的偏置矩陣。LSTM的最終輸出由輸出門和單元狀態(tài)決定，即：

(4)

(5)

ht=ot°tanh(ct).

(6)

2.1.2 注意力機(jī)制

LSTM是典型的編碼器-解碼器模型，無論輸入長度如何，輸入序列都被編碼為具有固定長度的矢量表示。在解碼過程中，每個(gè)時(shí)刻的輸出是相同的，且互相之間沒有區(qū)別。因此，引入了注意力機(jī)制。

注意力機(jī)制基于一個(gè)模擬人類大腦注意力的模型。它具有人腦的特征，在特定時(shí)刻注意力可集中于特定點(diǎn)而忽略其他部分。因此，可選擇性記憶重要單詞。圖3為常見的編碼器-解碼器框架。

圖3 常見的編碼器-解碼器框架Fig.3 Common encoder-decoder framework

圖3中，編碼器將輸入的詞向量x=(x1，x2，…，xT)轉(zhuǎn)換為語義編碼c，T是輸入序列的數(shù)量，故可得到式(7)—(8)，即：

ht=f(xt,ht-1).

(7)

c=q(h1,h2,…,hT).

(8)

式(7)—(8)中f和q是非線性函數(shù)。然后，解碼器通過語言模型解碼產(chǎn)生新序列：

(9)

p(yt|y1,y2,…,yt-1,c)=r(yt-1,st,c).

(10)

式(9)—(10)中：y預(yù)測(cè)結(jié)果；yt是時(shí)刻t的預(yù)測(cè)結(jié)果；r是非線性函數(shù)，其可能是多層的；st是模型時(shí)刻t的隱藏狀態(tài)。

式(9)—(10)說明，在預(yù)測(cè)每個(gè)時(shí)刻的輸出時(shí)，所使用的上下文向量是相同的。然而，理想的預(yù)測(cè)結(jié)果應(yīng)與不同時(shí)刻的輸入向量有關(guān)，如式(11)—(12)所示。因此，引入了注意力機(jī)制，如圖4所示。

p(yt|y1,y2,…,yt-1,c)=r(yt-1,st,ct).

(11)

st=f(st-1,yt-1,ct).

(12)

ct是注意力機(jī)制的關(guān)鍵部分，它可以將輸出與對(duì)應(yīng)輸入互相連接，即

(13)

(14)

et,j=a(st-1,hj).

(15)

實(shí)際上，注意力模型是嵌入Bi-LSTM中的前饋神經(jīng)網(wǎng)絡(luò)，一起進(jìn)行訓(xùn)練過程并調(diào)節(jié)參數(shù)。此外，在幾層Bi-LSTM之后，連接的是softmax層，softmax層對(duì)輸入數(shù)據(jù)進(jìn)行歸一化分類，將表1的缺陷程度分為3類假定，輸出缺陷記錄文本隸屬于“一般”、“嚴(yán)重”、“危急”等級(jí)的概率分別為p1(L1)、p1(L2)、p1(L3)。

2.1.3 評(píng)估指標(biāo)

本文的問題是有3種分類等級(jí)的，分別為“一般缺陷”，“嚴(yán)重缺陷”和“危急缺陷”，屬于三分類問題(分類類別n=3)，其常用的評(píng)估指標(biāo)為macro-P宏查準(zhǔn)率(用Amacro-P表示)、macro-R宏查全率(用Amacro-R表示)、macro-F1宏綜合指標(biāo)(用Amacro-F1表示)。表達(dá)式為：

圖4 基于注意力機(jī)制的雙向LSTM模型Fig.4 Bidirectional LSTM model based on attention mechanism

(16)

式中：查準(zhǔn)率P、查全率R為二分類的評(píng)估指標(biāo)。對(duì)于二分類問題，P、R的值是唯一的；對(duì)于三分類問題，對(duì)應(yīng)3種不同的正例，P、R的值有3種。P、R的定義見表2及式(17)。

表2 二分類的混淆矩陣Tab.2 Confusion matrix of binary classification

表2中：PT(真正例) 代表正例被正確判斷為正例的數(shù)目；NF(假反例) 表示正例被錯(cuò)誤判斷為反例的數(shù)目；PF(假正例) 代表反例被錯(cuò)誤判斷為正例的數(shù)目；NT(真反例) 表示反例被正確判斷為反例的數(shù)目。且：

(17)

2.2 結(jié)構(gòu)化數(shù)據(jù)的挖掘模型

電力變壓器的監(jiān)測(cè)參量及運(yùn)行參量繁多，若考慮所有狀態(tài)參量，缺陷診斷體系將極為復(fù)雜，且某些參量的記錄參數(shù)值并不齊全。因此，需要選取最具有代表性且數(shù)據(jù)記錄信息完整的參量作為指標(biāo)量。文獻(xiàn)[21]利用集對(duì)分析和關(guān)聯(lián)規(guī)則，分析了變壓器運(yùn)行中典型缺陷與各故障征兆參數(shù)之間的關(guān)聯(lián)性，并給出了缺陷診斷的24種指標(biāo)量(見表3)，這些指標(biāo)量源自在線監(jiān)測(cè)和常規(guī)例行試驗(yàn)。

2.1節(jié)所提的基于注意力的Bi-LSTM模型，不僅可以處理非結(jié)構(gòu)化文本所產(chǎn)生的詞向量序列，而且可以處理結(jié)構(gòu)化信息所組成的數(shù)據(jù)長序列，故用于結(jié)構(gòu)化數(shù)據(jù)的信息挖掘中。在時(shí)刻t，定量數(shù)

據(jù)的記錄信息可記為ut，則一個(gè)ut向量?jī)?nèi)有24種指標(biāo)量所對(duì)應(yīng)的24個(gè)數(shù)值，即ut=(u1t,u2t,u3t,…,u24t)。本文可將不同時(shí)刻t的記錄信息ut作為模型的輸入集，那么，模型的softmax層可輸出結(jié)構(gòu)化數(shù)據(jù)隸屬于L1、L2、L3等級(jí)的概率p2(L1)、p2(L2)、p2(L3)。

2.3 多源異構(gòu)數(shù)據(jù)融合

對(duì)于文本序列，本文所提出的模型的softmax層可輸出缺陷記錄文本隸屬于L1、L2、L3等級(jí)的概率分別為p1(L1)、p1(L2)、p1(L3)；對(duì)于定量數(shù)據(jù)序列，模型的softmax層可輸出一系列結(jié)構(gòu)化數(shù)據(jù)隸屬于L1、L2、L3等級(jí)的概率分別為p2(L1)、p2(L2)、p2(L3)。將兩者概率的加權(quán)求和，可得變壓器總體狀態(tài)隸屬于L1、L2、L3等級(jí)的概率分別為p(L1)、p(L2)、p(L3)，即：

(18)

根據(jù)最大隸屬度原則，變壓器的運(yùn)行狀態(tài)為max(p(L1)，p(L2)，p(L3))所對(duì)應(yīng)的狀態(tài)。

圖5是多源異構(gòu)數(shù)據(jù)融合的流程圖。圖形左側(cè)為非結(jié)構(gòu)化文本挖掘框架，圖形右側(cè)為結(jié)構(gòu)化數(shù)據(jù)分析框架。通過融合文本型的非結(jié)構(gòu)化數(shù)據(jù)與數(shù)字型的結(jié)構(gòu)化數(shù)據(jù)，可更全面地判斷變壓器的運(yùn)行狀態(tài)。

3 驗(yàn)證性數(shù)據(jù)分析

本文選取了2015—2017年某省電力公司23 409條缺陷文本構(gòu)成的數(shù)據(jù)，文本均源于交流220 kV油浸式變壓器的運(yùn)行檢修記錄。將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)類別，其中訓(xùn)練集用于訓(xùn)練網(wǎng)絡(luò)參數(shù)；驗(yàn)證集用于調(diào)整超參數(shù)，超參數(shù)為在網(wǎng)絡(luò)訓(xùn)練之前所設(shè)置的，并在網(wǎng)絡(luò)訓(xùn)練過程中保持固定的參數(shù)，如學(xué)習(xí)率η、批處理大小bs、迭代次數(shù)等；測(cè)試集用于評(píng)估網(wǎng)絡(luò)的特征提取及文本挖掘的能力。圖6—7顯示了部分超參數(shù)與訓(xùn)練網(wǎng)絡(luò)性能的關(guān)聯(lián)性。

表3 變壓器的缺陷診斷指標(biāo)量Tab.3 Transformer defect diagnostic indicator

圖5 多源異構(gòu)數(shù)據(jù)融合的流程Fig.5 Flowchart of multi-source heterogeneous data fusion

圖6 學(xué)習(xí)率與macro-F1之間的關(guān)聯(lián)性Fig.6 Relevance between learning rate η and macro-F1

圖7 批處理大小與macro-F1之間的關(guān)聯(lián)性Fig.7 Relevance between batch size bs and macro-F1

圖 6展示了學(xué)習(xí)率η和Amacro-F1間的關(guān)聯(lián)性。當(dāng)η=10-2時(shí)，Amacro-F1達(dá)到最大值，故η的最佳設(shè)置應(yīng)為10-2。同理，由圖7可得，批處理bs的最佳設(shè)置是256。此外，仿真設(shè)置詞向量的維度為100，特征圖個(gè)數(shù)為128，隨機(jī)失活率為0.5，正則化系數(shù)為0.005，且共有3層基于注意力機(jī)制的LSTM，單元數(shù)分別為64、128、32。

3.1 特征提取能力

為了直觀地表示特征提取能力，在模型的softmax層之前插入隱藏層，其單元數(shù)為2。因此，隱藏層可以輸出二維的特征向量，如圖8所示。同時(shí)，將與特征降維任務(wù)中常用的主成分分析法(principal component analysis，PCA)進(jìn)行對(duì)比。利用PCA 對(duì)模型的初始輸入進(jìn)行特征提取，將前2個(gè)主成分投影至平面直角坐標(biāo)系中，如圖9 所示。

在圖8—9中，藍(lán)色原點(diǎn)表示“一般缺陷”，紅色標(biāo)記表示“嚴(yán)重缺陷”，綠色標(biāo)記表示“危急缺陷”。在圖8中，不同類別的樣本各自聚集成簇，2簇發(fā)生重疊的面積很小，即通過多個(gè)隱藏層映射的二維特征具有良好的區(qū)分特征。在圖9中，不同類別的樣本之間存在大面積重疊，即PCA產(chǎn)生的二維特征無法準(zhǔn)確區(qū)分不同的類別。這是由于PCA是基于線性變換的思想提取特征，易忽略不同類別之間的特征，故對(duì)底層數(shù)據(jù)的特征提取能力是有限的。對(duì)比可得，基于注意力機(jī)制的Bi-LSTM擁有比PCA更佳的特征提取能力。

圖8 本文所提出的模型產(chǎn)生的二維特征向量Fig.8 Two-dimensional feature vector produced by the proposed model

3.2 與其他典型網(wǎng)絡(luò)的性能對(duì)比

為了比較基于注意力機(jī)制的Bi-LSTM和其他分類模型的分類性能，選擇幾種典型的分類器用于對(duì)比實(shí)驗(yàn)。在基于傳統(tǒng)機(jī)器學(xué)習(xí)的分類器中選擇3種網(wǎng)絡(luò)，包括k-最近鄰(k-nearest neighbor，KNN)、支持向量機(jī)(support vector machine，SVM)和隨機(jī)森林(random tree，RT)。在基于深度學(xué)習(xí)的分類器中，選擇2種網(wǎng)絡(luò)，包括LSTM和Bi-LSTM。

表4為不同分類器的分類性能評(píng)估結(jié)果。

根據(jù)表4的結(jié)果，可進(jìn)行以下分析：

a)將本文所提出模型與傳統(tǒng)分類器(即KNN，SVM和RT)進(jìn)行比較。本文所提出模型的分類性能遠(yuǎn)優(yōu)于傳統(tǒng)分類器。例如，綜合指標(biāo)Amacro-F1提升了7%～10%。這是由于傳統(tǒng)的分類器分為“特征提取+分類評(píng)估”2個(gè)階段，信息可能在傳輸過程中丟失，且受限于模型的淺層架構(gòu)，無法深入學(xué)習(xí)并提取信息。相比之下，基于注意力機(jī)制的Bi-LSTM可以統(tǒng)一特征提取和分類評(píng)估這2個(gè)階段，并可以基于端到端的方式傳遞信息并深入學(xué)習(xí)語義。

b)將本文所提出模型與基于深度學(xué)習(xí)的分類器(即LSTM和Bi-LSTM)進(jìn)行比較，結(jié)果為本文所提出模型的分類性能略優(yōu)。例如，綜合指標(biāo)Amacro-F1提升了3%～4%。這是因?yàn)楸疚乃岢瞿Ｐ途哂懈玫募軜?gòu)，它不僅可以識(shí)別局部的特征，也可獲取上下文信息；同時(shí)還可以更加關(guān)注于關(guān)鍵信息和忽略不重要的部分。

3.3 結(jié)合結(jié)構(gòu)化數(shù)據(jù)

由表4可得，本文所提出模型的缺陷分類性能十分優(yōu)異，但僅憑對(duì)非結(jié)構(gòu)化文本的分類研究將對(duì)電網(wǎng)的運(yùn)行維護(hù)幫助有限，故本節(jié)旨在結(jié)合非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上對(duì)電力變壓器的運(yùn)行狀態(tài)進(jìn)行全面評(píng)價(jià)。表5舉例分析了某臺(tái)變壓器在遇到不同故障情況下，非結(jié)構(gòu)化缺陷記錄文本與結(jié)構(gòu)化監(jiān)測(cè)數(shù)據(jù)的分析過程。

該變壓器于不同時(shí)間段，分別發(fā)生了不同程度的缺陷。例如在2015年8月7日，運(yùn)檢人員記錄了“主變220 kV側(cè)A相套管引線發(fā)熱90 ℃，零部件老化”的文字，根據(jù)本文所提的文本挖掘模型，計(jì)算出隸屬于L1—L3等級(jí)的概率分別為0.323 0、0.610 8、0.066 2。同時(shí)，監(jiān)測(cè)得出結(jié)構(gòu)化數(shù)據(jù)的實(shí)測(cè)值并基于LSTM模型，計(jì)算得出結(jié)構(gòu)化監(jiān)測(cè)數(shù)據(jù)屬于L1—L3等級(jí)的概率分別為0.213 4、0.616 6、0.170 0。由式(18)可得變壓器總體狀態(tài)隸屬于L1—L3等級(jí)的概率分別為0.268 2、0.613 7、0.118 1，由最大隸屬度原則判斷，變壓器總體處于“嚴(yán)重缺陷”，需立即進(jìn)行檢修。

圖9 主成分分析法產(chǎn)生的二維特征向量Fig.9 Two-dimensional feature vector produced by the PCA

評(píng)估指標(biāo)分類器KNNSVMRTLSTMBi-LSTM基于注意力機(jī)制的Bi-LSTM準(zhǔn)確率A0.920.950.960.980.980.99Amacro-P0.920.950.920.960.990.99Amacro-R0.910.940.890.940.960.98Amacro-F10.880.920.910.940.950.98

表5 某變壓器的缺陷數(shù)據(jù)及其分析Tab.5 Defect data of a transformer and its analysis

以2015年1月21日至2017年6月28日60組帶有缺陷的變壓器的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)作為輸入，對(duì)其進(jìn)行狀態(tài)評(píng)價(jià)。圖10展示了基于不同評(píng)價(jià)方法的評(píng)價(jià)結(jié)果。其中，圖10(a)為基于結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)結(jié)果，圖10(b)為基于異構(gòu)數(shù)據(jù)的評(píng)價(jià)結(jié)果。

圖10中，圓圈圈出的點(diǎn)表明評(píng)價(jià)結(jié)果與實(shí)際結(jié)果不一致。因此，基于結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)準(zhǔn)確率為91.67%，基于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的評(píng)價(jià)準(zhǔn)確率為96.67%。故基于多源異構(gòu)數(shù)據(jù)的評(píng)價(jià)方法能更好地評(píng)價(jià)設(shè)備的運(yùn)行狀態(tài)。

4 結(jié)論

本文提出了利用融合的非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)，進(jìn)行變壓器狀態(tài)評(píng)價(jià)的新思路。其中，針對(duì)電力變壓器的非結(jié)構(gòu)化文本，提出了一種基于深度語義學(xué)習(xí)的信息挖掘方法。根據(jù)案例分析，可得到以下結(jié)論：

a)基于注意力機(jī)制的Bi-LSTM模型具有優(yōu)秀的語義特征提取能力。隸屬于不同類的特征向量匯聚為不同的簇，并且不同簇之間的重疊很小。

b)基于注意力機(jī)制的Bi-LSTM模型具有優(yōu)秀的語義學(xué)習(xí)能力。與傳統(tǒng)分類器(KNN、SVM和RF)相比，缺陷分類性能提高了7%～10%；與基于深度學(xué)習(xí)的分類器(LSTM和Bi-LSTM)相比，缺陷分類性能提高了3%～4%。

圖10 不同評(píng)價(jià)方法的運(yùn)行狀態(tài)評(píng)價(jià)結(jié)果Fig.10 Evaluation results of operating conditions of different methods

c)基于本文模型的非結(jié)構(gòu)化數(shù)據(jù)的缺陷分類準(zhǔn)確率高達(dá)98%～99%。進(jìn)一步與結(jié)構(gòu)化數(shù)據(jù)相結(jié)合，進(jìn)行了基于多源異構(gòu)數(shù)據(jù)的變壓器運(yùn)行狀態(tài)綜合評(píng)估，其評(píng)價(jià)準(zhǔn)確度高達(dá)96.67%。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡