侯晨偉 謝云芳 溫 鵬
(河北農(nóng)業(yè)大學(xué)機(jī)電工程學(xué)院,河北 保定071001)
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中提取隱含在其中,人們事先未知的但又是潛在有用的信息和知識(shí),并將其表示成最終能被人理解的模式的高級(jí)過程[1-2]。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用的,不僅是面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用,還要對(duì)這些數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,來指導(dǎo)實(shí)際問題的求解。同時(shí)還可以通過發(fā)現(xiàn)事件間的相互關(guān)聯(lián),對(duì)未來的活動(dòng)進(jìn)行預(yù)測。比如通過對(duì)空間負(fù)荷的預(yù)測,可以了解待研究地區(qū)未來的電力負(fù)荷增長走向,及其連帶一系列的社會(huì)問題如城市電網(wǎng)規(guī)劃、各類建筑用地及居民安置規(guī)劃等[3]。數(shù)據(jù)挖掘的數(shù)據(jù)包括數(shù)據(jù)倉庫、數(shù)據(jù)庫或其它數(shù)據(jù)源。所有的數(shù)據(jù)都需要再次進(jìn)行選擇。
(1)根據(jù)挖掘的數(shù)據(jù)庫類型分類:每一類數(shù)據(jù)庫系統(tǒng)可能需要自己的數(shù)據(jù)挖掘技術(shù)。
(2)根據(jù)挖掘的知識(shí)類型分類:即根據(jù)數(shù)據(jù)挖掘的功能分類,如特征化、區(qū)分、關(guān)聯(lián)和相關(guān)分析、分類、預(yù)測、聚類、離群點(diǎn)分析和演變分析。一個(gè)綜合的數(shù)據(jù)挖掘系統(tǒng)通常提供多種 和/或集成的數(shù)據(jù)挖掘功能。
(3)根據(jù)所用的技術(shù)類型分類:這些技術(shù)可以根據(jù)用戶交互程度,或所用的數(shù)據(jù)分析方法描述。
(4)根據(jù)應(yīng)用分類:不同的應(yīng)用通常需要集成對(duì)于該應(yīng)用特別有效的方法[1]。
1.2 數(shù)據(jù)挖掘的步驟
(1)數(shù)據(jù)收集。從數(shù)據(jù)庫中獲取基本分析所需的數(shù)據(jù)。指標(biāo)數(shù)量越多,歸納研究越易發(fā)現(xiàn)存在的潛在規(guī)律。但若過多,符合條件的樣本就會(huì)減少,從而影響預(yù)測效果。
(2)數(shù)據(jù)預(yù)處理。包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄等。可通過專用軟件的頻率分析來實(shí)現(xiàn)。如果同一個(gè)變量的缺失值很多,可以丟掉這個(gè)變量。
(3)數(shù)據(jù)轉(zhuǎn)換。主要目的是削減數(shù)據(jù)維數(shù)或降維,即從初始特征中找出真正有用的特征以減少數(shù)據(jù)挖掘時(shí)要考慮的特征或變量個(gè)數(shù)。主要有零維特征法和全維特征法。
(4)數(shù)據(jù)挖掘。先確定挖掘的任務(wù)或目的,如數(shù)據(jù)分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。再?zèng)Q定使用什么樣的挖掘算法。算法的選擇有兩個(gè)考慮因素:一是數(shù)據(jù)的特點(diǎn);二是要根據(jù)用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。最后實(shí)施數(shù)據(jù)挖掘操作,獲取有用的模式。
(5)結(jié)果的解釋和評(píng)估。目的是剔除冗余或無關(guān)的模式;根據(jù)需要轉(zhuǎn)換成可視模式;若不滿足用戶要求,則退回到發(fā)現(xiàn)過程的前面階段重來。
(1)實(shí)時(shí)性高。電力系統(tǒng)每時(shí)每刻都在產(chǎn)生大量的數(shù)據(jù),包括反映一次運(yùn)行狀態(tài)的各種數(shù)據(jù)。
(2)數(shù)據(jù)量大。除實(shí)時(shí)數(shù)據(jù)外,各種在線離線分析計(jì)算程序也會(huì)產(chǎn)生大量的數(shù)據(jù)。
(3)數(shù)據(jù)格式多樣。數(shù)據(jù)可能存儲(chǔ)于各種關(guān)系型數(shù)據(jù)庫、文本文件和二進(jìn)制文件中,這些數(shù)據(jù)源往往彼此獨(dú)立,難以實(shí)現(xiàn)數(shù)據(jù)共享,導(dǎo)致大量數(shù)據(jù)冗余和不一致。
(4)歷史數(shù)據(jù)極具價(jià)值。電力系統(tǒng)是個(gè)連續(xù)系統(tǒng),它在某時(shí)刻的運(yùn)行狀態(tài)將會(huì)影響隨后的狀態(tài)或者趨勢。對(duì)歷史數(shù)據(jù)的妥善保存和深入分析勢在必行。
智能電網(wǎng)的一個(gè)重要組成部分就是各種可再生能源。風(fēng)力發(fā)電、太陽能光伏發(fā)電、生物質(zhì)發(fā)電、潮汐能發(fā)電、地?zé)崮馨l(fā)電等等,且各類可再生能源的發(fā)電成本、電能質(zhì)量及在電網(wǎng)中占的比重都不同。為了深入研究可再生能源的使用情況,對(duì)2001~2010年連續(xù)十年內(nèi)某地區(qū)電力用戶消費(fèi)的可再生能源類型進(jìn)行統(tǒng)計(jì),對(duì)各種可再生能源類型進(jìn)行編碼:A=太陽能,B=風(fēng)能,C=其他清潔能源。將電力用戶從原始數(shù)據(jù)庫中抽取出來,并編上號(hào)(1-N)。按年份進(jìn)行升序排列,組成表1。
表1 特征信息庫
由相對(duì)年份來標(biāo)識(shí)交易,用戶號(hào)來標(biāo)識(shí)用戶屬性,則R[X][Y]唯一標(biāo)識(shí)了X號(hào)用戶在Y+2009年主要使用的可再生能源類型。這里提出的N階轉(zhuǎn)移矩陣的數(shù)學(xué)基礎(chǔ)是馬爾科夫鏈。算法的前提是:交易是歷史相關(guān)的,其考慮程度由N決定,N階矩陣意味著考慮前N年的交易歷史。對(duì)于具有相同的前N年歷史記錄的用戶群G1和具有相同前N-1年和今年的歷史記錄的用戶群G2,若G1的前N年歷史記錄與G2的前N-1年和今年的歷史記錄相匹配,則G1在今年對(duì)能源類型的選擇分布成為G2在明年對(duì)能源類型的選擇的概率分布。
定義S(n,STRING)函數(shù)為以第n年結(jié)尾的R[X]的子串與STRING相匹配的用戶數(shù)。如S(8,AAA)是指第6、7、8年的消費(fèi)的主要可再生能源類型為風(fēng)能的用戶總數(shù)。為了方便起見,假定采用3階的轉(zhuǎn)移算法,并假定當(dāng)前年份為N。生成數(shù)據(jù)項(xiàng)集I的3階全排列集合PI{AAA,BAA,CAA,AAB,BAB,CAB,AAC,BAC,…,CCC}。遍歷R數(shù)據(jù)庫,對(duì)PI的每一項(xiàng)STRING生成S(N,STRING)。也就是,考慮歷史記錄(考慮的深度取決于階數(shù)),對(duì)用戶的偏好性按其序列不同而分類。根據(jù)已生成的S(N,XYZ)計(jì)算得S(N-1,XY)。這也就是將上一年的用戶對(duì)消費(fèi)類型的選擇作為標(biāo)準(zhǔn)。將S(N,XYZ)/S(N-1,XY)上一年份的序列XY向今年Z的轉(zhuǎn)移率作為今年序列XY向明年Z轉(zhuǎn)移的概率,即Pxy→z=S(N,XYZ)/S(N-1,XY)。從而建立預(yù)測模型的轉(zhuǎn)移矩陣P。
P矩陣是9*3的矩陣,其行向量對(duì)應(yīng)于數(shù)據(jù)項(xiàng)集I,而列向量則對(duì)應(yīng)于發(fā)生向量C。發(fā)生向量C就是S(N,XYZ)的用戶分布。顯然,C是個(gè)9維的向量。因而,結(jié)果向量Z=C*P是3維的對(duì)應(yīng)于數(shù)據(jù)項(xiàng)集I的向量。這正是預(yù)測模型的預(yù)測結(jié)果。
擴(kuò)展至n階的轉(zhuǎn)移模型只需將PI擴(kuò)充成數(shù)據(jù)項(xiàng)集I的n階全排列集合。轉(zhuǎn)移矩陣P相應(yīng)地?cái)U(kuò)展成3^(n-1)*3的矩陣。其中的轉(zhuǎn)移概率為:)。同樣,C 也 擴(kuò)展成3^(n-1)的向量。
對(duì)于在智能電網(wǎng)龐雜的數(shù)據(jù)體系里開展信息分析處理工作而言,數(shù)據(jù)挖掘技術(shù)是一種行之有效的技術(shù)。它可以輔助決策者發(fā)現(xiàn)數(shù)據(jù)里面潛藏著的不易發(fā)現(xiàn)的知識(shí)和信息,也可以基于現(xiàn)有數(shù)據(jù)對(duì)未來進(jìn)行預(yù)測。它值得電力和信息領(lǐng)域的研究者們攜手進(jìn)行更深層次的研究。必須指出的是,構(gòu)建智能電網(wǎng)時(shí)有必要站在更高的高度考慮問題,從信息系統(tǒng)的全局來看待數(shù)據(jù)挖掘與其他構(gòu)件的相互關(guān)系。因?yàn)橹悄茈娋W(wǎng)不同的參與者對(duì)信息系統(tǒng)有不同的需求,各個(gè)構(gòu)件都有擅長的范圍。同時(shí)還應(yīng)當(dāng)看到,數(shù)據(jù)挖掘并不是萬能的。它是一個(gè)循環(huán)往復(fù)的過程,需要分析人員理解現(xiàn)有業(yè)務(wù)系統(tǒng),進(jìn)行細(xì)致的準(zhǔn)備,建立模型并分析結(jié)論和預(yù)期的差別。分析人員還需要靈活設(shè)計(jì)并進(jìn)行數(shù)據(jù)分析和挖掘的過程,以避免靈感的丟失。
[1]Jiawei Han,Micheline Kamber.Data Mining Concepts and Techniques[M].Morgan Kaufmann publishers,2000.
[2]W.H.Inmon,Claudia Imhoff,Ryan Sousa.Corporate Information Factory[M].Second Edition Wiley Computer Publishing,2002.
[3]Xiong Hao,Li Weiguo,Huang Yanghao,etc.Application of Comprehensive Data Mining Method Based on Fuzzy Rough Set in Spatial Load Forecasting[J].Power System Technology(in Chinese),2007,7(4):36-40,56.
[4]牛東曉,曹樹華,趙磊,等.電力負(fù)荷預(yù)測技術(shù)及其應(yīng)用[M].中國電力出版社,1998.