王 森,劉 麗
(云南電網(wǎng)有限責(zé)任公司麗江供電局,云南 麗江 674100)
伴隨著信息技術(shù)的進(jìn)步和大數(shù)據(jù)時代的到來,電力企業(yè)在財務(wù)管理的過程中需要處理的數(shù)據(jù)范圍愈加廣泛,同時面臨著日益加劇的數(shù)據(jù)龐雜冗余、垃圾數(shù)據(jù)過多、數(shù)據(jù)重復(fù)錄入、信息交流缺乏一致性等難題。此外,在保持?jǐn)?shù)據(jù)完整性的同時對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,更是電力企業(yè)在進(jìn)行財務(wù)數(shù)據(jù)處理時面臨的重要挑戰(zhàn)。由于電力企業(yè)的相關(guān)財務(wù)數(shù)據(jù)龐大復(fù)雜,且財務(wù)處理中往往涉及百余個參數(shù),難以采用傳統(tǒng)方式對其加以度量,因此建立統(tǒng)一的、具有高度整合性的信息數(shù)據(jù)處理系統(tǒng)十分必要。
按照數(shù)據(jù)處理順序,可以將電力企業(yè)的財務(wù)大數(shù)據(jù)分析系統(tǒng)分為3 個層次,分別是數(shù)據(jù)存儲、數(shù)據(jù)預(yù)處理以及構(gòu)建動態(tài)財務(wù)共享數(shù)據(jù)分析中心。其中,數(shù)據(jù)存儲能夠保證數(shù)據(jù)完整保留,數(shù)據(jù)處理能夠確保數(shù)據(jù)時效性,而動態(tài)數(shù)據(jù)分析體系能夠充分挖掘數(shù)據(jù)價值[1]。三者合為一體,能夠讓大數(shù)據(jù)的價值體現(xiàn)得更為完整和貼切。針對來自國家電網(wǎng)大數(shù)據(jù)中心以及外部數(shù)據(jù)源的大數(shù)據(jù),文章分別從源數(shù)據(jù)層面、數(shù)據(jù)存儲層面、數(shù)據(jù)預(yù)處理層面以及數(shù)據(jù)分析層面分析財務(wù)數(shù)據(jù)分析系統(tǒng)的構(gòu)建工作。在財務(wù)數(shù)據(jù)分析系統(tǒng)的整體技術(shù)框架中,主要以NoSQL 以及Hadoop 為基礎(chǔ),對數(shù)據(jù)進(jìn)行大數(shù)據(jù)預(yù)處理以及分析,將傳統(tǒng)的財務(wù)數(shù)據(jù)轉(zhuǎn)化為全數(shù)據(jù)并進(jìn)行高性能的交互式分析,最終完成對財務(wù)大數(shù)據(jù)的分析[2]。具體技術(shù)框架如圖1 所示。
圖1 財務(wù)數(shù)據(jù)分析系統(tǒng)技術(shù)框架
面對海量財務(wù)信息數(shù)據(jù),NoSQL 存儲體系能夠完整實現(xiàn)對電力企業(yè)財務(wù)信息的存儲以及全方位柔性管理。在數(shù)據(jù)存儲層面主要的儲存方式有3 種,分別是NoSQL 數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫以及HDFS 分布式文件系統(tǒng)[3]。在存儲形式的分類上,NoSQL 以非關(guān)系型以及分布式數(shù)據(jù)存儲的方式實現(xiàn)海量數(shù)據(jù)的存儲,并以圖數(shù)據(jù)、Key-Value 以及面向文檔數(shù)據(jù)格式進(jìn)行存儲,從而在高速的讀寫性能以及優(yōu)越的查詢性能之上實現(xiàn)更高彈性的數(shù)據(jù)擴(kuò)展能力。
NoSQL 的數(shù)據(jù)存儲系統(tǒng)包括Master-Slave 以及P2P 環(huán)形結(jié)構(gòu)兩種。其中,Master-Slave 可控性好,且設(shè)計結(jié)構(gòu)簡單,往往以水平分區(qū)為基礎(chǔ)實現(xiàn)數(shù)據(jù)分布。分開Master 節(jié)點與Slave節(jié)點之間的功能,可以將節(jié)點的功能負(fù)載減輕,并由Master 節(jié)點對Slave 節(jié)點進(jìn)行維護(hù)和管理。其缺點是Master 中心的節(jié)點容易成為系統(tǒng)中的瓶頸。P2P 的環(huán)形結(jié)構(gòu)系統(tǒng)則不存在中心節(jié)點,因此各個節(jié)點平等,以Hash 數(shù)據(jù)分布為基礎(chǔ),具有協(xié)調(diào)性好、便于擴(kuò)展等優(yōu)點。P2P 環(huán)形結(jié)構(gòu)有著更好的負(fù)載均衡性,但設(shè)計系統(tǒng)更為復(fù)雜,且不利于范圍查詢,可控性不強(qiáng)。上述兩種體系結(jié)構(gòu)差別較大,各具一定的功能局限性。因此,在電力體系中,需要將P2P 的分布式結(jié)構(gòu)以及Master-Slave 的集中式結(jié)構(gòu)的優(yōu)點相結(jié)合構(gòu)成相應(yīng)的數(shù)據(jù)存儲體系。常見的組合方式有Master-Slave 與Chord 的結(jié)合或是與Content-Addressable Network 的結(jié)合,從而確保數(shù)據(jù)存儲能夠兼顧全局性和局部性[4-5]。
Hadoop 是一種開源的大規(guī)模分布式計算框架,優(yōu)點是可靠、高效并且可伸縮,因此被廣泛應(yīng)用在大數(shù)據(jù)處理領(lǐng)域。技術(shù)人員可以以Hadoop 以及現(xiàn)有的電網(wǎng)財務(wù)體系為基礎(chǔ),建立新的財務(wù)大數(shù)據(jù)預(yù)處理體系模型,結(jié)合Hadoop、HBase 以及Hive 在財務(wù)數(shù)據(jù)預(yù)處理平臺中對數(shù)據(jù)進(jìn)行清洗、集成和歸約。利用噪聲處理,對缺失數(shù)據(jù)加以填補(bǔ)以及簡化數(shù)據(jù)屬性維度的關(guān)系來完成財務(wù)數(shù)據(jù)的預(yù)處理。這種方式利用Hadoop 平臺的特點,對需要進(jìn)行預(yù)處理的任務(wù)添加監(jiān)控與控制節(jié)點,每個節(jié)點都對應(yīng)一個需要進(jìn)行預(yù)處理的任務(wù)或是任務(wù)列表,針對該項任務(wù),啟動對應(yīng)的處理程序以及相關(guān)規(guī)則。具體的處理程序如圖2 所示。
圖2 財務(wù)大數(shù)據(jù)預(yù)處理體系流程圖
基于Hadoop 對財務(wù)數(shù)據(jù)加以預(yù)處理后,從現(xiàn)有的財務(wù)分析體系的局限出發(fā),完善缺點,建立適合現(xiàn)行財務(wù)需要的財務(wù)分析系統(tǒng)并對財務(wù)數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)分析體系的關(guān)注重點在于實現(xiàn)對財務(wù)管理過程的監(jiān)督以及相關(guān)財務(wù)指標(biāo)的分析,諸如項目預(yù)算分析、成本分析以及風(fēng)險分析等內(nèi)容。為了更好地實現(xiàn)財務(wù)分析效果,首先可從管理層面對電力企業(yè)的財務(wù)現(xiàn)狀加以調(diào)研,分析其中存在的財務(wù)管理難點諸如利潤報表、管理金額等。其次,在技術(shù)層面,結(jié)合傳統(tǒng)數(shù)據(jù)庫以及新商業(yè)智能的優(yōu)點,對財務(wù)管理系統(tǒng)加以整合。針對電力企業(yè)的經(jīng)營特點和財務(wù)特點,以大數(shù)據(jù)思想為基礎(chǔ),對現(xiàn)有數(shù)據(jù)進(jìn)行有效的存儲和分析,同時利用聚類算法抽取數(shù)據(jù)特征,挖掘數(shù)據(jù)價值。具體的財務(wù)大數(shù)據(jù)分析流程如圖3 所示。
圖3 基于Hadoop 的財務(wù)大數(shù)據(jù)分析流程圖
構(gòu)建電力企業(yè)大數(shù)據(jù)分析系統(tǒng)后,需要對其功能需求加以分類,并選擇科學(xué)的評價指標(biāo)對需求等級進(jìn)行排序,從而便于系統(tǒng)后續(xù)的優(yōu)化。文章選用自組織映射(Self-Organizing Map,SOM)神經(jīng)網(wǎng)絡(luò)算法對系統(tǒng)中的數(shù)據(jù)樣本進(jìn)行劃分,具體流程如下。
利用集合Sj表示有j個輸出神經(jīng)元,并用較小的權(quán)重設(shè)置輸入神經(jīng)元到輸出神經(jīng)元的連接。當(dāng)t=0,j個神經(jīng)元的臨近神經(jīng)元表示為Sj(0);t時刻表示為Sj(t),隨著時間的推移,Sj(0)逐漸減小。
從集合中選擇輸入值,并對輸入值進(jìn)行歸一化處理,輸入向量用X來表示,并輸入:
對所輸入的向量以及各個神經(jīng)元間的權(quán)值歐式距離進(jìn)行計算。計算方式如下:
其中,Wij表示在輸入層的i神經(jīng)元以及映射層中j神經(jīng)元間的權(quán)重。將歐式距離最小的神經(jīng)元標(biāo)記為獲勝神經(jīng)元j*,并輸出臨近的神經(jīng)元的集合。
參照式(3),對輸出神經(jīng)元以及其附近的權(quán)值進(jìn)行修正。
其中,η為學(xué)習(xí)率,是常數(shù),且η∈[0,1],隨著時間推移,η逐漸趨于0。
輸出Ok為:
智能化背景下的電力企業(yè)財務(wù)管理需要以大數(shù)據(jù)為基礎(chǔ)建立大數(shù)據(jù)分析系統(tǒng),對不同數(shù)據(jù)的需求進(jìn)行動態(tài)評價并及時根據(jù)不同類型數(shù)據(jù)的需求重要程度及時調(diào)整權(quán)重,這是優(yōu)化數(shù)據(jù)分析系統(tǒng)、提升財務(wù)管理效率的關(guān)鍵。
伴隨著智能電網(wǎng)的深入建設(shè)與推動,電力企業(yè)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)中心的數(shù)據(jù)愈發(fā)龐雜,科學(xué)的分析能力、快速的計算速度等影響著電力企業(yè)的財務(wù)管理效率。加強(qiáng)建設(shè)電力企業(yè)的財務(wù)數(shù)據(jù)分析系統(tǒng),不僅能夠從龐雜的數(shù)據(jù)中篩查出有效、有用信息,還能幫助電力企業(yè)提升財務(wù)管理水平,有效規(guī)避財務(wù)風(fēng)險。