楊維 張弦 程飛飛
摘要:目前,針對(duì)輸變電設(shè)備家族性缺陷的認(rèn)定主要通過專業(yè)人員通過對(duì)設(shè)備進(jìn)行試驗(yàn)、解體分析,周期較長。本文通過收集設(shè)備缺陷情況,采用大數(shù)據(jù)分析技術(shù),提取設(shè)備缺陷信息特征,并通過計(jì)算設(shè)備缺陷信息相似性,利用Kohonen神經(jīng)網(wǎng)絡(luò)聚類算法實(shí)現(xiàn)對(duì)設(shè)備缺陷信息類別打標(biāo)簽,基于同類廠家設(shè)備缺陷信息進(jìn)行分組統(tǒng)計(jì)分析、預(yù)警,實(shí)現(xiàn)輸變電設(shè)備疑似家族性缺陷的自動(dòng)辨識(shí)、預(yù)警。
關(guān)鍵詞:輸變電設(shè)備;文本分析;家族性缺陷
0引言
輸變電設(shè)備家族性缺陷來源主要包括:國家電網(wǎng)公司(以下稱“公司”)下達(dá)的有關(guān)設(shè)備的家族事故通報(bào)、公司下達(dá)的設(shè)備家族性缺陷、各省市公司提供的家族性缺陷等。針對(duì)家族性缺陷的認(rèn)定往往基于復(fù)雜的機(jī)理,目前電力變壓器家族性缺陷識(shí)別主要有專家識(shí)別、聚類識(shí)別等方法,周期較長,嚴(yán)重依賴人工投入,效率低下且缺陷識(shí)別遺漏,不利于家族性缺陷的認(rèn)定及處理。[2-3]
本文闡述的輸變電設(shè)備疑似家族性缺陷分析模型,通過收集設(shè)備缺陷信息,采用大數(shù)據(jù)分析算法技術(shù),對(duì)海量缺陷描述分詞處理,提取設(shè)備重要缺陷特征,同時(shí),基于凝聚Kohonen神經(jīng)網(wǎng)絡(luò)聚類算法,實(shí)現(xiàn)輸變電設(shè)備同類型缺陷標(biāo)識(shí),進(jìn)一步利用多維分析為設(shè)備家族缺陷辨識(shí)、認(rèn)定提供輔助依據(jù)。
1輸變電設(shè)備疑似家族性缺陷定義
不同電壓等級(jí)的變壓器由于對(duì)設(shè)備材料、工藝等要求不同, 通常電壓等級(jí)高的設(shè)備, 技術(shù)要求越高,故障率較低。實(shí)際工程中,一般通過設(shè)備生產(chǎn)廠家、設(shè)備型號(hào)、生產(chǎn)批次等因素與故障的關(guān)聯(lián)性,反映其家族性缺陷。運(yùn)行經(jīng)驗(yàn)表明,設(shè)備生產(chǎn)廠家、型號(hào)、批次等因素與家族性缺陷相關(guān)主要有以下特點(diǎn): ① 同廠家、同型號(hào)或同批次產(chǎn)品故障率高于正常設(shè)備; ② 同廠家、同型號(hào)或同批次產(chǎn)品故障分布較為平均,不集中于少數(shù)幾臺(tái)設(shè)備[1]。
2模型輸入
梳理輸變電設(shè)備疑似家族性缺陷分析模型所需數(shù)據(jù),包括設(shè)備臺(tái)賬設(shè)備缺陷、生產(chǎn)廠家、設(shè)備分類等信息,數(shù)據(jù)來源系統(tǒng)為PMS2.0系統(tǒng),數(shù)據(jù)需求表如表1所示。同時(shí),對(duì)主變壓器臺(tái)賬表、設(shè)備缺陷表、生產(chǎn)廠家表、設(shè)備分類表等涉及的設(shè)備名稱、類型、缺陷部位等字段進(jìn)行梳理,梳理各屬性間的關(guān)聯(lián)關(guān)系。
3模型設(shè)計(jì)
3.1數(shù)據(jù)準(zhǔn)備
針對(duì)模型輸入環(huán)節(jié)梳理的涉及到的各表之前的關(guān)聯(lián)關(guān)系,按照pms2.0系統(tǒng)數(shù)據(jù)庫業(yè)務(wù)表邏輯模型進(jìn)行關(guān)聯(lián)合并,形成缺陷分析模型數(shù)據(jù)分析寬表,作為輸變電設(shè)備疑似家族性缺陷分析模型的輸入。
3.2數(shù)據(jù)清洗
數(shù)據(jù)清洗是針對(duì)梳理形成的缺陷分析寬表中涉及到的含有噪聲的數(shù)據(jù),通過采用標(biāo)準(zhǔn)化、規(guī)范化、降維等數(shù)據(jù)清理的方式,提升數(shù)據(jù)分析質(zhì)量。
數(shù)值化:由于設(shè)備原始數(shù)據(jù)形式各自不同,需對(duì)其進(jìn)行標(biāo)準(zhǔn)化操作,經(jīng)典的處理方式:對(duì)字符串取值,按照ANSI碼值求和得到字符串的值,并映射到一個(gè)區(qū)間。
標(biāo)準(zhǔn)化:在數(shù)據(jù)分析的時(shí)候,計(jì)算相關(guān)性或者方差等相關(guān)的指標(biāo)時(shí),有必要對(duì)整體數(shù)據(jù)進(jìn)行歸一化處理,映射到一個(gè)指定的數(shù)值區(qū)間。較常用一個(gè)做法是:min-max標(biāo)準(zhǔn)化。
完整性:對(duì)缺失的數(shù)據(jù)主要有添補(bǔ)或刪除等方法,如果數(shù)據(jù)量較大,而數(shù)據(jù)缺失量較少,對(duì)于缺失數(shù)據(jù),刪除其所在行即可;但如果缺失值所占樣本數(shù)比例較高,則采用數(shù)據(jù)填充的方式來添補(bǔ)缺失數(shù)據(jù)。
3.3模型構(gòu)建
3.3.1 分析方法介紹
3.3.1.1 文本挖掘算法
文本挖掘是指對(duì)文本的表示及其特征項(xiàng)的選取,它把從文本中抽取出的特征詞進(jìn)行量化來表示文本信息。文本挖掘算法涉及分析和停用詞定義、詞頻因子TF、逆文檔頻率因子(IDF)、TF*IDF框架、特征詞提取以及文本相似度計(jì)算等技術(shù)。
每篇文檔的主體內(nèi)容可以由最能代表它內(nèi)容的特征詞表示,但是對(duì)于中文文檔來說,首先需要把句子分成一個(gè)個(gè)單詞。
TF計(jì)算因子代表了詞頻,即一個(gè)單詞在文檔中出現(xiàn)的次數(shù),一般來說, Tf值越大,越能代表文檔所反映的內(nèi)容,那么應(yīng)該給于這個(gè)單詞更大的權(quán)值。
IDF的計(jì)算公式為:IDFk=log(N/nk),其中N代表文檔集合(包含不相關(guān)和相關(guān)文檔的總和)中總共有多少個(gè)文檔,而nk代表特征單詞k在其中多少個(gè)文檔中出現(xiàn)過,即文檔頻率。由公式可知,文檔頻率nk越高,其IDF值越小,即越多的文檔包含某個(gè)單詞,那么其IDF權(quán)值越小。IDF反映了一個(gè)特征詞在整個(gè)文檔集合中的分布情況,特征詞出現(xiàn)在其中的文檔數(shù)目越多,IDF值越低。
TF*IDF框架是結(jié)合了詞頻因子和逆文檔頻率因子的計(jì)算框架,一般是將兩者相乘作為特征權(quán)值,特征權(quán)值越大,則越可能是好的關(guān)鍵詞,即:Weight(word) = TF * IDF??梢赃x取權(quán)重值最大的幾個(gè)單詞(比如10個(gè)或20個(gè))作為特征詞,用由這幾個(gè)特征詞的權(quán)重組成的向量來表示這篇文檔。
3.3.1.2 Kohonen神經(jīng)網(wǎng)絡(luò)聚類算法
Kohonen神經(jīng)網(wǎng)絡(luò)是自組織競爭型神經(jīng)網(wǎng)絡(luò)的一種,該網(wǎng)絡(luò)通過自組織特征映射調(diào)整網(wǎng)絡(luò)權(quán)值,使神經(jīng)網(wǎng)絡(luò)收斂于一種表示形態(tài),在這一形態(tài)中一個(gè)神經(jīng)元只對(duì)某種輸入模式特別匹配或特別敏感。
Kohonen神經(jīng)網(wǎng)絡(luò)算法工作機(jī)理為:網(wǎng)絡(luò)學(xué)習(xí)過程中,當(dāng)樣本輸入網(wǎng)絡(luò)時(shí),競爭層上的神經(jīng)元計(jì)算輸入樣本與競爭層神經(jīng)元權(quán)值之間的歐幾里德距離,距離最小的神經(jīng)元為獲勝神經(jīng)元。調(diào)整獲勝神經(jīng)元和相鄰神經(jīng)元權(quán)值,使獲得神經(jīng)元及周邊權(quán)值靠近該輸入樣本。通過反復(fù)訓(xùn)練,最終各神經(jīng)元的連接權(quán)值具有一定的分布,該分布把數(shù)據(jù)之間的相似性組織到代表各類的神經(jīng)元上,使同類神經(jīng)元具有相近的權(quán)系數(shù),不同類的神經(jīng)元權(quán)系數(shù)差別明顯。
3.3.2缺陷分析模型
輸變電設(shè)備疑似家族性缺陷分析模型主要包括文本挖掘、Kohonen神經(jīng)網(wǎng)絡(luò)聚類算法和多維統(tǒng)計(jì)分析三部分內(nèi)容,如圖1所示。
由于變壓器涉及的零部件較多,其出現(xiàn)家族性缺陷的概率較高,是重點(diǎn)監(jiān)測的對(duì)象本文以輸變電設(shè)備中的主變壓器設(shè)備為例,闡述輸變電設(shè)備疑似家族性缺陷分析模型的構(gòu)建過程。
1)文本挖掘
受各運(yùn)維單位、運(yùn)維班組人員地域、文化教育程度、用語習(xí)慣等限制,不同的班組人員在輸變電設(shè)備缺陷上報(bào)的過程中,針對(duì)同一缺陷現(xiàn)象,用于描述缺陷內(nèi)容的文字存在較大差異。為了能夠從“缺陷內(nèi)容”中更好提取設(shè)備缺陷特征詞,根據(jù)設(shè)備“缺陷內(nèi)容”信息,進(jìn)行運(yùn)檢專業(yè)詞匯和停用詞定義,形成自定義詞典,同時(shí),對(duì)“缺陷內(nèi)容”進(jìn)行同義詞定義、合并,完成對(duì)“缺陷內(nèi)容”信息的預(yù)處理。
①自定義詞典
按照自定期詞典形成規(guī)則,形成:“主變壓器”、“ 就地”、“納河南線”、“硅膠”、“把手”等合計(jì)3500余例自定義詞匯,構(gòu)成自定義詞詞典;同時(shí),定義與變壓器設(shè)備本體缺陷無關(guān)的相關(guān)詞匯,在文本分詞的過程中摒棄該部分詞匯,例如:“的”、“與”、“三星變電站”等詞匯,共構(gòu)建4300余個(gè)停用詞,構(gòu)成變壓器設(shè)備缺陷分析停用詞詞典。
②同義詞詞庫
針對(duì)不同運(yùn)維人員在變壓器設(shè)備缺陷上報(bào)過程中的針對(duì)同一設(shè)備缺陷的描述用詞不一致等問題,依據(jù)“缺陷內(nèi)容”信息進(jìn)行同義詞定義、合并,解決缺陷信息錄入過程中缺陷內(nèi)容描述不規(guī)范造成的數(shù)據(jù)質(zhì)量問題,例如:將 “不能復(fù)歸”、“復(fù)歸不了”等詞匯統(tǒng)一定義為“不能復(fù)歸”,共形成70余組同義詞庫
③文本分詞
基于已經(jīng)構(gòu)建的自定義詞典和同義詞詞典,進(jìn)行文本分詞,利用R分析工具加載jieba分詞包,并對(duì)分詞詞匯進(jìn)行詞性標(biāo)注(名詞/動(dòng)詞/副詞),并對(duì)自定義詞庫、同義詞詞庫、停用詞詞庫進(jìn)行不斷完善,以提升文本分詞的效果。在完成文本分詞后,對(duì)進(jìn)行詞頻統(tǒng)計(jì),形成變壓器設(shè)備缺陷信息詞云圖。
④文本特征詞提取
根據(jù)分詞結(jié)果形成“缺陷內(nèi)容”詞云圖/詞頻表,并根據(jù)詞頻表計(jì)算具體詞頻(TF[1])和逆文檔詞頻(IDF[2]),并利用衡量詞的重要性,提取特征詞,計(jì)算除停用詞外所有分詞的權(quán)重,提取權(quán)重最大的若干詞作為特征詞,由特征詞權(quán)重組成的組成的向量為特征詞向量矩陣。
基于變壓器文本特征詞提取公式,提取變壓器設(shè)備缺陷特征詞,并針對(duì)特征詞形成特征詞向量矩陣,并將詞頻向量矩陣轉(zhuǎn)化為數(shù)據(jù)框格式。
④文本相似度計(jì)算
基于文本挖掘生成的特征詞生成詞頻向量矩陣,計(jì)算各詞向量的余弦值,利用詞向量的余弦值進(jìn)行Kohonen神經(jīng)網(wǎng)絡(luò)聚類。
如公式(3)所列,A、B分別代表兩個(gè)缺陷特征詞的詞頻向量,值越接近1,表明夾角越接近0度,也就是兩個(gè)向量越相似。結(jié)合輸變電設(shè)備疑似家族性缺陷分析模型,通過對(duì)設(shè)備缺陷的缺陷內(nèi)容提取的設(shè)備缺陷特征詞進(jìn)行相似度計(jì)算,并對(duì)其按照相似性的大小進(jìn)行排序。
3)Kohonen神經(jīng)網(wǎng)絡(luò)算法聚類分析
在實(shí)現(xiàn)輸變電設(shè)備缺陷內(nèi)容相似度計(jì)算的基礎(chǔ)上,結(jié)合其向量矩陣,利用Kohonen神經(jīng)網(wǎng)絡(luò)算法進(jìn)行無監(jiān)督的聚類分析,在用R實(shí)現(xiàn)Kohonen神經(jīng)網(wǎng)絡(luò)聚類分析的代碼中,在算法參數(shù)中重點(diǎn)輸入聚類個(gè)數(shù)和算法迭代的次數(shù),對(duì)設(shè)備缺陷類別進(jìn)行打標(biāo)簽和分類,從Kohonen神經(jīng)網(wǎng)絡(luò)算法的評(píng)價(jià)系數(shù)中看輪廓系數(shù)為0.701,DUMN系數(shù)為0.5817,從聚類效果的評(píng)價(jià)參數(shù)來看,聚類效果良好。同時(shí),結(jié)合專家經(jīng)驗(yàn)法,算法的蕨類效果良好,能夠滿足輸變電設(shè)備疑似家族性缺陷的預(yù)警分析應(yīng)用。
3)統(tǒng)計(jì)分析
基于缺陷分析模型實(shí)現(xiàn)對(duì)每一條設(shè)備缺陷進(jìn)行標(biāo)識(shí),最后按照家族性缺陷的定義,通過對(duì)缺陷設(shè)備的生產(chǎn)廠家名稱、設(shè)備類型、設(shè)備種類、設(shè)備型號(hào)、具體部件、部件類型、缺陷部位等信息進(jìn)行分組統(tǒng)計(jì)(將同生產(chǎn)廠家、同設(shè)備類型、同設(shè)備種類、同設(shè)備型號(hào)、同部件類型、同缺陷部位數(shù)量>=5的設(shè)備缺陷,定義為輸變電設(shè)備疑似家族性缺陷),實(shí)現(xiàn)對(duì)輸變電設(shè)備疑似家族性缺陷的自動(dòng)辨識(shí)。
4應(yīng)用實(shí)例
結(jié)合某網(wǎng)省公司pms2.0設(shè)備缺陷信息,利用文中提到的基于文本挖掘技術(shù)的輸變電設(shè)備疑似家族性缺陷分析模型,通過對(duì)歷史缺陷數(shù)據(jù)的分析挖掘,找出具有家族性缺陷嫌疑的設(shè)備,如常州變壓器廠1987年出廠的多臺(tái)SFSZ7-31500/110變壓器均冷卻器系統(tǒng)缺陷,應(yīng)加強(qiáng)對(duì)該型號(hào)在役設(shè)備的巡視巡檢,并縮短檢修周期或進(jìn)行技術(shù)改造。同時(shí),將輸變電設(shè)備疑似家族性缺陷分析模型可以應(yīng)用于業(yè)務(wù)系統(tǒng),通過在Gis地圖上展示已發(fā)現(xiàn)疑似輸變電設(shè)備的其他單位的應(yīng)用,并通過對(duì)設(shè)備信息進(jìn)行鉆取,以便了解該設(shè)備缺陷信息。
5結(jié)語
本文結(jié)合輸變電設(shè)備家族性缺陷的定義,以pms2.0系統(tǒng)相關(guān)的設(shè)備缺陷等信息為輸入,實(shí)現(xiàn)了輸變電設(shè)備疑似家族性缺陷分析模型的自動(dòng)辨識(shí),本文中僅以主變壓器設(shè)備為例,詳細(xì)的闡述了輸變電設(shè)備疑似家族性缺陷分析模型的構(gòu)建原理和實(shí)現(xiàn)過程,同理,輸變電設(shè)備疑似家族性缺陷分析模型能夠適用于斷路器、隔離開關(guān)、互感器等輸變電設(shè)備的疑似家族性缺陷分析?;谖谋就诰虻妮斪冸娫O(shè)備疑似家族性的應(yīng)用,能夠?yàn)檩斪冸娫O(shè)備家族性缺陷的認(rèn)定提供了支撐,能夠?yàn)檫\(yùn)維檢修部門開展運(yùn)維檢修工作提供指導(dǎo),保障了電網(wǎng)的穩(wěn)定運(yùn)行。
參考文獻(xiàn)(References) :
[1] 朱海冰,張齊韜,郭雅娟,吳奕,郝思鵬.基于數(shù)據(jù)挖掘的電力變壓器家族性缺陷預(yù)警[J].實(shí)驗(yàn)室研究與探索.2016,35(6):37-41.
[2] 李新葉,李新芳.基于改進(jìn)層次聚類的同家族變壓器狀態(tài)變化規(guī)律分析[J].電力系統(tǒng)保護(hù)與控制,2011,39( 19) : 104-109.
[3] 饒威,王鳳云,丁堅(jiān)勇.基于改進(jìn)層次聚類法的電力設(shè)備家族缺陷評(píng)估[J].浙江電力,2013( 3) : 9-13.
[4] 朱振玉,張海寧,馬甲軍,等.基于粗糙集數(shù)據(jù)挖掘的瓦斯突出預(yù)測模型[J].實(shí)驗(yàn)室研究與探索,2009,28( 6) : 41-43.
[5] 黃映恒,童張法,廖森,等.工藝因素對(duì)固相反應(yīng)制備 LiMPO4的影響[J].實(shí)驗(yàn)室研究與探索,2010,29( 9) : 11-18.
注釋
[1] TF計(jì)算方法參見公式(1);
[2] IDF計(jì)算方法參見公式(2)。