陳章良
[摘 要] 數(shù)據(jù)挖掘是一門新興的數(shù)據(jù)處理技術(shù),是當(dāng)前熱門的一個(gè)研究領(lǐng)域。本文簡(jiǎn)要介紹了數(shù)據(jù)挖掘的概念,論述了基于數(shù)據(jù)挖掘的預(yù)測(cè)決策模型建立、實(shí)施和效果評(píng)估,最后對(duì)基于數(shù)據(jù)挖掘的預(yù)測(cè)決策模型在電力營(yíng)銷系統(tǒng)中的應(yīng)用作了實(shí)證。
[關(guān)鍵詞] 數(shù)據(jù)挖掘;預(yù)測(cè)決策;電力營(yíng)銷系統(tǒng)
[中圖分類號(hào)]F270.7;F272.3[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)01-0057-03
1 引 言
隨著數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)等技術(shù)的迅速發(fā)展,人們積累的數(shù)據(jù)越來越多,需要有新的、更有效的方法對(duì)各種大量的數(shù)據(jù)進(jìn)行分析、提取以挖掘其潛能,數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求環(huán)境下產(chǎn)生并迅速發(fā)展起來的,它的出現(xiàn)為智能地把海量的數(shù)據(jù)轉(zhuǎn)化為有用的信息和知識(shí)提供了新的思路和手段。
隨著電力市場(chǎng)的改革和發(fā)展,供電企業(yè)越來越需要對(duì)用戶側(cè)需求、發(fā)電側(cè)需求以及第三方需求進(jìn)行科學(xué)預(yù)測(cè)決策,以便為供電企業(yè)運(yùn)營(yíng)提供科學(xué)依據(jù)。
2 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining,DM),就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)庫(kù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。
數(shù)據(jù)挖掘也可稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),它是從大量數(shù)據(jù)中提取出可信的、新穎的、潛在的、有效并能被人理解的模式的一種高級(jí)處理過程。數(shù)據(jù)挖掘是按照企業(yè)既定的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索,揭示隱藏其中的規(guī)律性,并進(jìn)一步將之模型化的先進(jìn)、有效的方法。
數(shù)據(jù)挖掘是從數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的整個(gè)過程,如圖1所示。整個(gè)數(shù)據(jù)挖掘過程是由若干挖掘步驟組成,其主要步驟有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和知識(shí)表示。
3 預(yù)測(cè)決策模型
預(yù)測(cè)決策系統(tǒng)根據(jù)歷史數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè),同時(shí)根據(jù)天氣因素/節(jié)假日因素等調(diào)整預(yù)測(cè)結(jié)果。任何一種方法只是數(shù)學(xué)上的一種理想的模型,很難用一種或幾種預(yù)測(cè)決策模型描述所有的變化規(guī)律。因此建立預(yù)測(cè)決策的方法庫(kù),以盡可能多地預(yù)測(cè)決策模型,滿足事物發(fā)展規(guī)律多樣性的需求,其中既包括被企業(yè)預(yù)測(cè)人員所經(jīng)常采用的常規(guī)方法,也包括一些比較新穎的預(yù)測(cè)決策方法,如人工神經(jīng)網(wǎng)絡(luò)法等。
提供對(duì)預(yù)測(cè)決策所用的歷史序列進(jìn)行不良數(shù)據(jù)的檢測(cè)與辨識(shí),有效地提高精度。預(yù)測(cè)人員可以結(jié)合具體情況靈活選用較為合適的預(yù)測(cè)決策方法,對(duì)多種方法的預(yù)測(cè)結(jié)果互為比較,再進(jìn)行合理的綜合分析,得出最終的預(yù)測(cè)結(jié)果。充分考慮影響預(yù)測(cè)結(jié)果的多種因素,如氣象因素、日分類(正常日、國(guó)慶、春節(jié)等)、星期類型(周一至周日)等。
預(yù)測(cè)決策系統(tǒng)為4庫(kù)結(jié)構(gòu):數(shù)據(jù)庫(kù)、算法庫(kù)、模型庫(kù)、綜合分析庫(kù)。數(shù)據(jù)庫(kù)中存儲(chǔ)有關(guān)的歷史業(yè)務(wù)指標(biāo),算法庫(kù)/模型庫(kù)保存了對(duì)預(yù)測(cè)決策模型的管理,綜合分析數(shù)據(jù)庫(kù)保存了進(jìn)行組合預(yù)測(cè)決策的相關(guān)信息。預(yù)測(cè)決策系統(tǒng)基本結(jié)構(gòu)如圖2所示。
4 基于數(shù)據(jù)挖掘的電力營(yíng)銷預(yù)測(cè)決策系統(tǒng)
電力營(yíng)銷管理信息系統(tǒng)涵蓋供電企業(yè)用電營(yíng)業(yè)管理的全過程業(yè)務(wù),包括電量電費(fèi)、業(yè)擴(kuò)報(bào)裝、計(jì)量管理、用電檢查和綜合管理等。整體系統(tǒng)框圖如圖3所示。
對(duì)于一個(gè)中型地市級(jí)的供電企業(yè),電力營(yíng)銷管理信息系統(tǒng)一年積累電量電費(fèi)、業(yè)擴(kuò)報(bào)裝、計(jì)量管理、用電檢查數(shù)據(jù)至少2GB,一般供電企業(yè)至少保存3年以上歷史數(shù)據(jù)。預(yù)測(cè)決策層為制訂營(yíng)銷管理目標(biāo)及營(yíng)銷預(yù)測(cè)決策提供科學(xué)的依據(jù),即從這些大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)庫(kù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)。
4. 1預(yù)測(cè)決策模型
預(yù)測(cè)決策的模型可以分為3類:初級(jí)模型、常規(guī)預(yù)測(cè)模型、專用模型,根據(jù)電力業(yè)務(wù)分析人員的實(shí)踐經(jīng)驗(yàn),針對(duì)電量、電費(fèi)等預(yù)測(cè)指標(biāo)在年度、季度、月度等不同的時(shí)間單位上總結(jié)出一些獨(dú)有的預(yù)測(cè)決策模型(詳見圖4)。
不同地區(qū)、不同時(shí)間、不同行業(yè)的負(fù)荷變化規(guī)律是不同的,很難用一種或幾種預(yù)測(cè)決策模型描述所有的變化規(guī)律。建立預(yù)測(cè)決策的模型庫(kù),使得用戶可以自定義預(yù)測(cè)決策模型中的參數(shù),可定義各種新增加的預(yù)測(cè)決策模型。這種開放為用戶提供了充分的空間,將人的經(jīng)驗(yàn)與計(jì)算機(jī)有機(jī)地結(jié)合起來,從而保證了預(yù)測(cè)決策的精度。
4. 2預(yù)測(cè)決策策略
每一種預(yù)測(cè)決策模型都代表了一種發(fā)展規(guī)律,預(yù)測(cè)決策模型越多,預(yù)測(cè)決策人員的選擇余地越大,預(yù)測(cè)決策結(jié)果越精確。系統(tǒng)提供的預(yù)測(cè)決策方法庫(kù)中既包括了被電力系統(tǒng)預(yù)測(cè)決策人員所經(jīng)常采用的常規(guī)方法,如一元及多元線性回歸、滑動(dòng)平均預(yù)測(cè)、指數(shù)平滑預(yù)測(cè),也包括了一些比較新穎的預(yù)測(cè)決策模型,如人工神經(jīng)網(wǎng)絡(luò)模型等,并且對(duì)一些預(yù)測(cè)決策模型進(jìn)行了改進(jìn),如改進(jìn)的Winters-dm模型。同時(shí)針對(duì)電力業(yè)務(wù)分析人員的實(shí)踐經(jīng)驗(yàn),總結(jié)出一些獨(dú)有的預(yù)測(cè)決策模型,如模式分解預(yù)測(cè)決策法。
預(yù)測(cè)決策人員可以結(jié)合具體情況靈活選用較為合適的預(yù)測(cè)決策方法,對(duì)多種方法的預(yù)測(cè)決策結(jié)果互為比較,再進(jìn)行合理的綜合分析,得出最終的預(yù)測(cè)決策結(jié)果。
(1)基于模型庫(kù)的預(yù)測(cè)決策模型管理。建立預(yù)測(cè)決策的方法庫(kù)和模型庫(kù),將人的經(jīng)驗(yàn)與計(jì)算機(jī)有機(jī)地結(jié)合起來,從而保證了預(yù)測(cè)決策的精度。
(2)組合模型預(yù)測(cè)決策技術(shù)。對(duì)于電量、負(fù)荷等序列量的預(yù)測(cè)決策,預(yù)測(cè)決策人員可選擇的模型是多種多樣的。數(shù)學(xué)模型是理想抽象,負(fù)荷發(fā)展的自然規(guī)律很難用單一數(shù)學(xué)模型加以描述,任何單一的預(yù)測(cè)決策模型的精度不可能很好。無論是從預(yù)測(cè)決策人員方便地選擇模型的角度,還是為了提高預(yù)測(cè)決策的精度,都需要研究如何將不同種模型進(jìn)行有機(jī)的組合,即綜合模型,才能形成對(duì)電量、負(fù)荷發(fā)展自然規(guī)律的更貼切或完備的描述,提高預(yù)測(cè)決策的精度。
(3)預(yù)測(cè)決策過程控制技術(shù)。在預(yù)測(cè)決策值未得到真實(shí)值證實(shí)之前,由預(yù)測(cè)決策系統(tǒng)得到的預(yù)測(cè)決策結(jié)果是否達(dá)到了預(yù)測(cè)決策精度的要求,是預(yù)測(cè)決策工作者迫切關(guān)心的問題。系統(tǒng)采用“虛擬預(yù)測(cè)決策策略”,即通過對(duì)近期已知數(shù)據(jù)的虛擬預(yù)測(cè)決策,考察該預(yù)測(cè)決策系統(tǒng)在數(shù)據(jù)條件變化下的預(yù)測(cè)決策結(jié)果穩(wěn)定性、擬合精度和虛擬預(yù)測(cè)決策精度等指標(biāo),得到預(yù)測(cè)決策模型的預(yù)測(cè)決策精度等級(jí),為預(yù)測(cè)決策人員提供自動(dòng)選擇預(yù)測(cè)決策模型的功能。
(4)歷史數(shù)據(jù)的預(yù)處理技術(shù)。為了獲得較好的預(yù)測(cè)決策效果,用于預(yù)測(cè)決策的歷史數(shù)據(jù)的合理性應(yīng)該得到充分保證。因此,需要對(duì)歷史數(shù)據(jù)進(jìn)行合理性分析,去偽存真。最基本的要求是:須排除由于人為因素帶來的錯(cuò)誤、由于統(tǒng)計(jì)口徑不同帶來的誤差,以及歷史上的突發(fā)事件或由于某些特殊原因?qū)y(tǒng)計(jì)數(shù)據(jù)帶來重大的影響。
(5)預(yù)測(cè)決策結(jié)果評(píng)價(jià)與自動(dòng)參數(shù)修正技術(shù)。預(yù)測(cè)決策結(jié)束后,隨著實(shí)際數(shù)據(jù)的產(chǎn)生,為了進(jìn)一步提高預(yù)測(cè)決策的精度,系統(tǒng)對(duì)多種預(yù)測(cè)決策方法所得結(jié)果進(jìn)行全面的誤差分析,對(duì)預(yù)測(cè)決策結(jié)果作出評(píng)價(jià),并對(duì)預(yù)測(cè)決策模型的參數(shù)進(jìn)行修正。所有誤差分析結(jié)果均保存于用戶指定的信息文件中,可供隨時(shí)查閱,并對(duì)以后的預(yù)測(cè)決策數(shù)據(jù)進(jìn)行校正。
(6)預(yù)測(cè)決策結(jié)果的人工干預(yù)。在業(yè)務(wù)實(shí)踐過程中, 預(yù)測(cè)決策人員積累了豐富的工作經(jīng)驗(yàn),同時(shí)由于電力工作的實(shí)際情況,有很多未來的變化并不依從歷史數(shù)據(jù)規(guī)律,而是政策性的或者是人為設(shè)置的。因此系統(tǒng)必須提供充分的人工調(diào)整預(yù)測(cè)決策數(shù)據(jù)的手段。
4. 3系統(tǒng)框架
系統(tǒng)整體結(jié)構(gòu)由3部分組成:數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)與管理、中間應(yīng)用服務(wù)器的調(diào)優(yōu)與設(shè)置、前端報(bào)表分析數(shù)據(jù)的展示與設(shè)計(jì),如圖5所示。
(1)數(shù)據(jù)倉(cāng)庫(kù)構(gòu)架與管理主要包括數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)結(jié)構(gòu)的構(gòu)建、目標(biāo)數(shù)據(jù)的生成過程(數(shù)據(jù)抽?。┘皵?shù)據(jù)倉(cāng)庫(kù)主題數(shù)據(jù)的管理與維護(hù)。
(2)中間應(yīng)用服務(wù)器由兩部分組成:Web服務(wù)器與報(bào)表分析應(yīng)用服務(wù)器。Web服務(wù)器采用WebLogic作為應(yīng)用服務(wù)器。報(bào)表分析應(yīng)用服務(wù)器采用先進(jìn)的商業(yè)智能軟件Microstrategy的Intelligence Server進(jìn)行元數(shù)據(jù)管理與描述,通過4級(jí)緩沖技術(shù),可及時(shí)快速實(shí)現(xiàn)對(duì)用戶數(shù)據(jù)分析內(nèi)容的提取。在主題構(gòu)架與屬性定制方面,通過Microstrategy的Architect構(gòu)架體系,可實(shí)現(xiàn)對(duì)主題靈活定義,對(duì)相關(guān)屬性任意增刪,對(duì)在用電營(yíng)銷過程中新加的各種分析方法與手段可以實(shí)現(xiàn)自助式設(shè)計(jì),滿足系統(tǒng)的不斷擴(kuò)充需求。
(3)前端數(shù)據(jù)分析內(nèi)容的展示以表格與圖形相結(jié)合的方式,通過對(duì)不同分析主題,相關(guān)不同屬性的多角度、多方位轉(zhuǎn)換,充分運(yùn)用鉆取、切片等分析手段,并配以不同的經(jīng)濟(jì)分析方法,可輔助決策者及時(shí)快捷地了解本區(qū)域電力運(yùn)營(yíng)的實(shí)際狀況。全面掌握電力運(yùn)營(yíng)過程中潛在的問題及增長(zhǎng)點(diǎn)。
4. 4數(shù)據(jù)抽取
數(shù)據(jù)抽取作為數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)生成的關(guān)鍵步驟,在數(shù)據(jù)抽取過程中,系統(tǒng)提供詳細(xì)的日志功能。日志內(nèi)容包括數(shù)據(jù)抽取過程中對(duì)源數(shù)據(jù)正確性校驗(yàn)、數(shù)據(jù)抽取相關(guān)分析主題抽取情況說明,并能將最終抽取日志內(nèi)容按不同單位轉(zhuǎn)發(fā)給各部門相關(guān)人員,對(duì)上報(bào)數(shù)據(jù)及時(shí)更正。
審核驗(yàn)證后的數(shù)據(jù)經(jīng)匯總、聚集后可自動(dòng)插入到相應(yīng)的數(shù)據(jù)表中,基礎(chǔ)數(shù)據(jù)生成后為只讀形式,前端分析人員只有分析數(shù)據(jù)的權(quán)限,任何人沒有更改基礎(chǔ)數(shù)據(jù)的權(quán)限。
5 總 結(jié)
數(shù)據(jù)挖掘技術(shù)是一種多學(xué)科相互綜合、相互滲透的技術(shù)。它以傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ),運(yùn)用多種手段分析數(shù)據(jù),對(duì)海量數(shù)據(jù)進(jìn)行知識(shí)發(fā)現(xiàn),并進(jìn)行恰當(dāng)?shù)目梢暬硎荆且环N高效的預(yù)測(cè)決策系統(tǒng)解決方案。數(shù)據(jù)挖掘技術(shù)為預(yù)測(cè)決策系統(tǒng)的研制和開發(fā)提供了一種有效的、可行的體系化解決方案?;跀?shù)據(jù)挖掘技術(shù)的預(yù)測(cè)決策系統(tǒng),利用挖掘技術(shù),通過構(gòu)建預(yù)測(cè)決策模型,對(duì)企業(yè)生產(chǎn)和計(jì)劃的完成情況及相關(guān)環(huán)境數(shù)據(jù)進(jìn)行多角度、多層次的分析,幫助企業(yè)決策者及時(shí)掌握企業(yè)的運(yùn)行情況和發(fā)展趨勢(shì),并為制訂生產(chǎn)計(jì)劃和長(zhǎng)遠(yuǎn)規(guī)劃提供理論和現(xiàn)實(shí)指導(dǎo),從而提高企業(yè)的管理水平和競(jìng)爭(zhēng)優(yōu)勢(shì)。
主要參考文獻(xiàn)
[1] 王銳,馬德濤,陳晨. 數(shù)據(jù)挖掘技術(shù)及其應(yīng)用現(xiàn)狀探析[J]. 電腦應(yīng)用技術(shù),2007(2).
[2] 李丹丹. 數(shù)據(jù)挖掘技術(shù)及其發(fā)展趨勢(shì)[J]. 電腦應(yīng)用技術(shù),2007(2).
[3] 李潔,滕振芳. 數(shù)據(jù)倉(cāng)庫(kù)及數(shù)據(jù)挖掘技術(shù)在超市中的應(yīng)用[J]. 保定職業(yè)技術(shù)學(xué)院學(xué)報(bào),2007(12).