梁衛(wèi)寧 周鈺書 唐文彬 劉森 黎晚晴
摘要:在大數(shù)據(jù)時代的背景下,我國電力行業(yè)也步入了高速發(fā)展的時期。如何利用大數(shù)據(jù)技術(shù)提升營銷業(yè)務(wù)的信息化水平,也成為了電力審計(jì)業(yè)務(wù)的一個重要研究方向。智能電網(wǎng)的普及產(chǎn)生了海量的監(jiān)測數(shù)據(jù),這些數(shù)據(jù)為異常檢測、電網(wǎng)運(yùn)行狀態(tài)、用戶行為等大數(shù)據(jù)分析研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。本文針對電網(wǎng)營銷數(shù)據(jù)提出了運(yùn)用大數(shù)據(jù)技術(shù)于審計(jì)分析,在此基礎(chǔ)上對大數(shù)據(jù)數(shù)據(jù)在審計(jì)數(shù)據(jù)分析中的應(yīng)用進(jìn)行了研究,構(gòu)建了應(yīng)用大數(shù)據(jù)實(shí)現(xiàn)電網(wǎng)營銷審計(jì)的模型。
關(guān)鍵詞:大數(shù)據(jù);電網(wǎng)營銷審計(jì);數(shù)據(jù)挖掘
中圖分類號:F426.61 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2020)08-0206-07
0 引言
隨著信息技術(shù)和智能電網(wǎng)的發(fā)展,電力企業(yè)對于信息資源共享與數(shù)據(jù)價值發(fā)現(xiàn)等技術(shù)的需求不斷激增。智能變電站、智能電表、計(jì)量自動化系統(tǒng)等一大批服務(wù)應(yīng)用系統(tǒng)的廣泛建成,使得企業(yè)產(chǎn)生和積累了海量結(jié)構(gòu)多樣、來源復(fù)雜、規(guī)模巨大、系統(tǒng)獨(dú)立的數(shù)據(jù)資源,造成企業(yè)跨系統(tǒng)數(shù)據(jù)集成與共享難度加大,直接影響數(shù)據(jù)內(nèi)在知識價值發(fā)現(xiàn),降低電網(wǎng)運(yùn)營審計(jì)效率;另外,當(dāng)前電網(wǎng)企業(yè)雖然已經(jīng)建成面向不同應(yīng)用需求的業(yè)務(wù)數(shù)據(jù)中心和運(yùn)監(jiān)數(shù)據(jù)中心,但是基于傳統(tǒng)架構(gòu)的數(shù)據(jù)共享框架在數(shù)據(jù)可擴(kuò)展性、容錯機(jī)制和數(shù)據(jù)安全方面還略有不足,造成數(shù)據(jù)層面并未真正實(shí)現(xiàn)跨系統(tǒng)數(shù)據(jù)資源集中管控、綜合治理和高度共享[2]。
本文以建立大數(shù)據(jù)審計(jì)模型為思路,研究數(shù)據(jù)驅(qū)動下的新型營銷審計(jì)模式,為營銷審計(jì)提供科學(xué)決策和參考。
1 營銷大數(shù)據(jù)審計(jì)的意義及問題
大數(shù)據(jù)對各行各業(yè)影響十分巨大,審計(jì)行業(yè)由最初的抽樣審計(jì)分析逐步向大數(shù)據(jù)審計(jì)發(fā)展。通過海量數(shù)據(jù)協(xié)同流程的研究應(yīng)用,可以避免海量數(shù)據(jù)由于抽樣數(shù)據(jù)分析時單一數(shù)據(jù)因不準(zhǔn)確而對審計(jì)結(jié)果造成的影響;其次,可以從大量的信息數(shù)據(jù)中發(fā)掘事物的相關(guān)性,相關(guān)性分析更加有利于發(fā)現(xiàn)問題和解決問題,由此提取出的數(shù)據(jù)更具有分析價值,為不同方向的審計(jì)提供了有力的數(shù)據(jù)支持[1]。
海量數(shù)據(jù)協(xié)同流程如圖1所示。
雖然大數(shù)據(jù)為審計(jì)提供了新的模式,但就現(xiàn)階段的審計(jì)發(fā)展來看,還是存在諸多問題。
(1)電網(wǎng)營銷管理系統(tǒng)數(shù)據(jù)龐大。作為電網(wǎng)營銷領(lǐng)域數(shù)據(jù)存儲和使用頻率最多的應(yīng)用系統(tǒng),它存儲著所有營銷業(yè)務(wù)數(shù)據(jù)。隨著大數(shù)據(jù)的飛速發(fā)展,數(shù)據(jù)數(shù)量級也成了幾何式增長,同時也增加了信息系統(tǒng)的風(fēng)險(xiǎn)。面對如此多的信息,原有的審計(jì)系統(tǒng)已經(jīng)無法滿足當(dāng)下需求,急需建設(shè)更加完善的審計(jì)分析系統(tǒng),如何從海量數(shù)據(jù)中提取出價值高且準(zhǔn)確真實(shí)的數(shù)據(jù),建立審計(jì)數(shù)據(jù)倉庫和數(shù)據(jù)管理平臺是電網(wǎng)企業(yè)需要解決的首要問題。
(2)急需研發(fā)大數(shù)據(jù)分析審計(jì)軟件。目前營銷審計(jì)線索的多樣化,原有的審計(jì)方式已不適合,需要結(jié)合大數(shù)據(jù)分析理論以及機(jī)器學(xué)習(xí)方法,利用關(guān)聯(lián)分析、聚合分析、分類分析等數(shù)據(jù)挖掘算法建立針對不同業(yè)務(wù)方向上的可擴(kuò)展、可重復(fù)使用的營銷審計(jì)模型,以適應(yīng)龐大的審計(jì)數(shù)據(jù)分析任務(wù)。
(3)審計(jì)人員自身素質(zhì)亟待提升。在大數(shù)據(jù)背景下,電網(wǎng)營銷模式和規(guī)模的不斷發(fā)展,營銷知識也是日新月異,對營銷審計(jì)工作人員的專業(yè)知識和綜合素養(yǎng)都提出了更高的要求。大數(shù)據(jù)信息獲取,找到針對性強(qiáng)、最有效的數(shù)據(jù),以及數(shù)據(jù)分析建模、結(jié)果是否具有廣泛適用性,這些都對審計(jì)人員提出了新的挑戰(zhàn)。
2 數(shù)據(jù)構(gòu)成
近年來大數(shù)據(jù)廣泛的應(yīng)用于各行各業(yè),按照南方電網(wǎng)公司企業(yè)級信息系統(tǒng)建設(shè)思路,依托公司企業(yè)信息集成平臺,在公司總部和公司系統(tǒng),建設(shè)了財(cái)務(wù)(資金)管理、營銷管理、資產(chǎn)管理、協(xié)同辦公管理、人力資源管理、綜合管理六大業(yè)務(wù)應(yīng)用。其中營銷管理應(yīng)用正是結(jié)合信息技術(shù)對原有傳統(tǒng)營銷數(shù)據(jù)的集成和管理。營銷域業(yè)務(wù)數(shù)據(jù),即營銷管理系統(tǒng)自身處理的業(yè)務(wù)數(shù)據(jù),包括抄核收管理、業(yè)擴(kuò)管理、計(jì)量管理、客戶服務(wù)、線損管理、市場交易管理、用電檢查、營銷稽查管理等業(yè)務(wù)數(shù)據(jù)。另一類為跨系統(tǒng)協(xié)同數(shù)據(jù),即營銷管理系統(tǒng)與其他業(yè)務(wù)系統(tǒng)集成的數(shù)據(jù),包括營銷系統(tǒng)和財(cái)務(wù)系統(tǒng)、物資系統(tǒng)、計(jì)量自動化系統(tǒng)的集成數(shù)據(jù)。
3 關(guān)鍵技術(shù)
3.1 Kafka消息系統(tǒng)
Kafka使用Scala語言編寫,是一個高性能跨語言分布式發(fā)布/訂閱消息隊(duì)列系統(tǒng),具有以下特性:快速持久化,可以在I/O的系統(tǒng)開銷下進(jìn)行消息持久化;高吞吐,在一臺普通的服務(wù)器上既可以達(dá)到10W/s的吞吐速率;完全的分布式系統(tǒng),Broker、Producer、Consumer都原生自動支持分布式,自動實(shí)現(xiàn)負(fù)載均衡;支持Hadoop數(shù)據(jù)并行加載,對于像Hadoop的一樣的日志數(shù)據(jù)和離線分析系統(tǒng),但又要求實(shí)時處理的限制,這是一個可行的解決方案。
Kafka通過Hadoop的并行加載機(jī)制統(tǒng)一了在線和離線的消息處理。Apache Kafka相對于ActiveMQ是一個非常輕量級的消息系統(tǒng),除了性能非常好之外,還是一個工作良好的分布式系統(tǒng)。
典型的Kafka架構(gòu)圖如圖2所示。
3.2 ETL結(jié)構(gòu)化數(shù)據(jù)處理[3]
數(shù)據(jù)管理層的數(shù)據(jù)集市中存儲的是經(jīng)過底層業(yè)務(wù)數(shù)據(jù)源整合清洗后的結(jié)構(gòu)化數(shù)據(jù),底層基礎(chǔ)數(shù)據(jù)源包含大量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),存在著許多臟數(shù)據(jù)以及未整合處理的數(shù)據(jù),在進(jìn)行數(shù)據(jù)分析前需要我們先進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化處理——即ETL轉(zhuǎn)換處理,最終目的是為了提高數(shù)據(jù)分析的準(zhǔn)確率。
ETL應(yīng)用包含設(shè)計(jì)、實(shí)施、維護(hù)三個階段。設(shè)計(jì)階段是分析數(shù)據(jù)源和目標(biāo)數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu),制定恰當(dāng)合理的數(shù)據(jù)轉(zhuǎn)換邏輯;實(shí)施階段是進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換清洗以及數(shù)據(jù)裝載的過程;維護(hù)階段是對于需要定期維護(hù)的數(shù)據(jù)項(xiàng)目,ETL在重復(fù)執(zhí)行的同時也需要根據(jù)實(shí)際情況進(jìn)行維護(hù)和完善。
數(shù)據(jù)轉(zhuǎn)換的主要工作是將不一致的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,微粒數(shù)據(jù)進(jìn)行聚合處理或依據(jù)業(yè)務(wù)規(guī)則進(jìn)行計(jì)算處理。在數(shù)據(jù)抽取完成后就要制定數(shù)據(jù)轉(zhuǎn)換規(guī)則,依據(jù)不同的業(yè)務(wù)要求進(jìn)行轉(zhuǎn)換處理,將結(jié)果集存儲在數(shù)據(jù)倉庫、數(shù)據(jù)集中為數(shù)據(jù)分析使用。
3.3 非結(jié)構(gòu)化信息抽取
非結(jié)構(gòu)化信息抽取是指從一段文本中抽取需要的信息,將其形成結(jié)構(gòu)化的表示形式進(jìn)行存儲,以供查詢和后續(xù)分析使用。根據(jù)技術(shù)的不同,通常分成3類算法:基于詞典的信息抽取算法、基于規(guī)則的信息抽取算法和基于機(jī)器學(xué)習(xí)的信息抽取算法。
基于規(guī)則的信息抽取的結(jié)果準(zhǔn)確性比較高,抽取結(jié)果比較可控,但是劣勢也很明細(xì),就是使用比較受限,每次新的需求都需要重新制定規(guī)則。
基于機(jī)器學(xué)習(xí)的信息抽取算法主要有隱馬爾可夫模型HMM、最大熵隱馬爾科夫模型、條件隨機(jī)模型CRF等,這里我們主要采取條件隨機(jī)模型CRF。條件隨機(jī)場模型是拉弗蒂在2001年根據(jù)熵模型和隱馬爾可夫模型提出,用來標(biāo)記和分割有序數(shù)據(jù)的一個判別概率無向圖的學(xué)習(xí)模型[4]。
設(shè)G=(V,E)是一個無向圖,Y={Yv|v∈V}是以G中節(jié)點(diǎn)為索引v的隨機(jī)變量Yv構(gòu)成的集合。在給定X的條件下,每個隨機(jī)變量Yv服從馬爾可夫?qū)傩?,?/p>
3.4 數(shù)據(jù)挖掘?qū)徲?jì)算法
營銷大數(shù)據(jù)審計(jì)中應(yīng)用的數(shù)據(jù)挖掘算法繁多,常用的算法有關(guān)聯(lián)分析、K-sigma異常檢測、決策樹等。本文主要介紹關(guān)聯(lián)分析在營銷大數(shù)據(jù)審計(jì)研究中的算法邏輯[2]。
關(guān)聯(lián)分析技術(shù)應(yīng)用于各種領(lǐng)域,通過對數(shù)據(jù)的關(guān)聯(lián)性進(jìn)行分析和挖掘,為決策制定提供參考價值。
Apriori算法是一種用于挖掘頻繁項(xiàng)集的基本算法,也是關(guān)聯(lián)規(guī)則所常用的經(jīng)典挖掘算法之一,它使用一種稱作逐層搜索的迭代方法。
該算法需要對數(shù)據(jù)集執(zhí)行多個步驟。第一步,僅計(jì)算包含一個元素的所有項(xiàng)目集的出現(xiàn)頻率,并找出不小于最小支持度的項(xiàng)目集,即最大一維項(xiàng)目集。從第二步開始循環(huán)處理,直到不再生成最大項(xiàng)目集。循環(huán)過程是:在步驟k中,根據(jù)步驟k-1中生成的(k-1)維最大項(xiàng)集生成k維候選項(xiàng)集,然后搜索數(shù)據(jù)庫,得到該項(xiàng)的項(xiàng)集支持。候選項(xiàng)目集,并將其與最小支持度進(jìn)行比較,以找到k維最大項(xiàng)目集。
由于計(jì)算候選集的成本相對較大,而引進(jìn)了修剪技術(shù)提高生成所有頻繁項(xiàng)集的性能。修剪策略基于定理“所有頻繁項(xiàng)集的非空子集都是頻繁的”。如果某個候選項(xiàng)集有一個子集不屬于最小支持度項(xiàng)目集,則該項(xiàng)目集可以被去除,這樣可以顯著提高計(jì)算所有的候選集的效率。
事務(wù)數(shù)據(jù)庫:設(shè)I={i1,i2,……im}是一個全局項(xiàng)的集合,事物數(shù)據(jù)庫D={t1,t2,……tn}是一個事務(wù)的集合,每個事務(wù)ti(1≤i≤n)都對應(yīng)I上的一個子集,例如t1=(i1,i3,i7)。
關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則表示項(xiàng)之間的關(guān)系,是形如X→Y的蘊(yùn)含表達(dá)式,其中X和Y是不相交的項(xiàng)集,X稱為規(guī)則的前件,Y稱為規(guī)則的后件。
例如{cereal,milk}→{fruit}關(guān)聯(lián)規(guī)則表示購買谷類食品和牛奶的人也會購買水果。通常關(guān)聯(lián)規(guī)則的強(qiáng)度可以用支持度和置信度來度量。
支持度:支持度指生成規(guī)則的條件項(xiàng)和結(jié)果項(xiàng)同時發(fā)生的概率,表示該條規(guī)則的覆蓋率,即該條規(guī)則的重要性。
support(X→Y)=P(X∪Y)=
置信度:置信度表示Y數(shù)據(jù)出現(xiàn)后,X數(shù)據(jù)出現(xiàn)的可能性,也可以說是數(shù)據(jù)的條件概率。
confidence(XY)=P(X│Y)=
提升度:提升度體現(xiàn)X和Y之間的關(guān)聯(lián)關(guān)系,提升度大于1表示X和Y之間具有強(qiáng)關(guān)聯(lián)關(guān)系,提升度小于等于1表示X和Y之間無有效的強(qiáng)關(guān)聯(lián)關(guān)系。
強(qiáng)關(guān)聯(lián)規(guī)則:滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則的挖掘目標(biāo)是找出所有的頻繁項(xiàng)集和根據(jù)頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。對于Apriori算法,目標(biāo)是找到所有頻繁項(xiàng)集。因此,對于數(shù)據(jù)集中的頻繁數(shù)據(jù)集,我們需要自定義評估標(biāo)準(zhǔn)以查找頻繁項(xiàng)集,支持度就是重要的評估標(biāo)準(zhǔn)之一。
4 大數(shù)據(jù)背景下的審計(jì)流程
4.1 建立信息處理應(yīng)用平臺
建立審計(jì)平臺,主要分四個交互邏輯層,分別為:業(yè)務(wù)數(shù)據(jù)源、公司數(shù)據(jù)中心、數(shù)據(jù)管理層、應(yīng)用層。建設(shè)審計(jì)數(shù)據(jù)集市主要來源于公司數(shù)據(jù)中心的數(shù)據(jù)管理層,該數(shù)據(jù)由公司數(shù)據(jù)中心通過數(shù)據(jù)調(diào)度工具從各省級數(shù)據(jù)中心和業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫抽取各業(yè)務(wù)域的數(shù)據(jù),存儲在GP數(shù)據(jù)庫里;GP庫按各省數(shù)據(jù)集市的需求定時推送業(yè)務(wù)數(shù)據(jù),各省數(shù)據(jù)集市形成的成果數(shù)據(jù)推送到網(wǎng)級數(shù)據(jù)集市。應(yīng)用層通過數(shù)據(jù)管理層的數(shù)據(jù)集市調(diào)取不同業(yè)務(wù)數(shù)據(jù)建立審計(jì)模型進(jìn)行數(shù)據(jù)分析,大數(shù)據(jù)的管理和應(yīng)用可以在相關(guān)的審計(jì)項(xiàng)目中反復(fù)使用,并在實(shí)際應(yīng)用中不斷改進(jìn)。后臺支持的審計(jì)模式可以有效解決公司內(nèi)部審計(jì)人員不足的問題,提高審計(jì)效率,確保審計(jì)質(zhì)量。
4.2 基礎(chǔ)數(shù)據(jù)處理
大數(shù)據(jù)信息化背景下數(shù)據(jù)信息化是首要步驟,電力營銷數(shù)據(jù)包含了結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)即各個系統(tǒng)中存儲的數(shù)據(jù),這些數(shù)據(jù)往往直接保存在不同類型的數(shù)據(jù)庫中,而非結(jié)構(gòu)化數(shù)據(jù)則是在業(yè)務(wù)處理過程中的辦公文檔、文本、圖片、XML,HTML、各類報(bào)表、圖像和音頻/視頻信息等不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。這類數(shù)據(jù)就需要我們運(yùn)用非結(jié)構(gòu)化數(shù)據(jù)抽取技術(shù)來進(jìn)行對關(guān)鍵審計(jì)數(shù)據(jù)的抽取,轉(zhuǎn)化為易于進(jìn)行大數(shù)據(jù)分析的結(jié)構(gòu)化數(shù)據(jù)[2]。
以業(yè)務(wù)數(shù)據(jù)源為基礎(chǔ),利用ELT數(shù)據(jù)清洗轉(zhuǎn)換技術(shù),對元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化按照業(yè)務(wù)審計(jì)規(guī)則轉(zhuǎn)換處理建立審計(jì)數(shù)據(jù)庫,將公司內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行歸集,形成審計(jì)數(shù)據(jù)倉庫,推送至網(wǎng)級審計(jì)數(shù)據(jù)集市。
4.3 大數(shù)據(jù)分析應(yīng)用
在數(shù)據(jù)管理層,網(wǎng)級審計(jì)數(shù)據(jù)集結(jié)合省級審計(jì)數(shù)據(jù)集構(gòu)成了我們審計(jì)數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)集合,定期從下級各公司數(shù)據(jù)中心抽取數(shù)據(jù)更新。應(yīng)用層為審計(jì)平臺,提供了大數(shù)據(jù)審計(jì)分析功能,構(gòu)建各個審計(jì)模型模塊為審計(jì)人員調(diào)用。
(1)關(guān)聯(lián)分析。是一種常見的數(shù)據(jù)挖掘算法,它可以利用關(guān)聯(lián)規(guī)則來發(fā)掘數(shù)據(jù)之間隱藏的相關(guān)聯(lián)系。通過量化的數(shù)字化數(shù)據(jù)來反應(yīng)數(shù)據(jù)項(xiàng)A的出現(xiàn)對數(shù)據(jù)項(xiàng)B(或多個數(shù)據(jù)項(xiàng))的出現(xiàn)有多大的影響。在實(shí)際的電網(wǎng)營銷審計(jì)中,線損異常分析就可以用到關(guān)聯(lián)分析算法。以同期線損數(shù)據(jù)為基礎(chǔ),融合計(jì)量自動化數(shù)據(jù)、用電信息數(shù)據(jù)等,針對同期線損異常臺區(qū),對終端的有無功、功率因素、電壓、電流,客戶的開表蓋次數(shù)、火/零線電流等各數(shù)據(jù)項(xiàng)之間的隱含關(guān)系,可以分析查找線損原因,提高線損達(dá)標(biāo)率。
(2)均值和標(biāo)準(zhǔn)差是統(tǒng)計(jì)學(xué)應(yīng)用最廣泛的統(tǒng)計(jì)量,運(yùn)用K-sigma異常檢測統(tǒng)計(jì)分析技術(shù)進(jìn)行營銷數(shù)據(jù)的審計(jì)。如在用戶抄表審計(jì)過程中的抄表管理,針對抄表區(qū)在審計(jì)時間段內(nèi)的抄表次數(shù),抄表間隔時間等數(shù)據(jù)的統(tǒng)計(jì),計(jì)算出抄表均值及標(biāo)準(zhǔn)差。抄表均值反映了該抄表區(qū)域的整體抄表情況,而標(biāo)準(zhǔn)差則體現(xiàn)了抄表的差異度;那些超出抄表均值標(biāo)準(zhǔn)差較大的數(shù)據(jù)既是審計(jì)意義上的異常情況,也就是最有可能出現(xiàn)問題的地方。
(3)趨勢分析,在大數(shù)據(jù)分析中被廣泛的應(yīng)用在各個行業(yè),描述了分析數(shù)據(jù)在時間維度上的趨勢變化,可視化方面主要以柱形圖、折線圖來體現(xiàn)。在實(shí)際營銷審計(jì)中,可以應(yīng)用于用戶電量波動分析、基本電費(fèi)繳費(fèi)波動分析等,通過異常走勢數(shù)據(jù),進(jìn)一步排查鎖定問題點(diǎn)。
(4)決策樹算法。通過歷史數(shù)據(jù)自動推導(dǎo)出對事物發(fā)展規(guī)律基于給定數(shù)據(jù)的推廣性描述,構(gòu)造一個分類函數(shù)或分類模型(分類器),該模型能把滿足一定特征的數(shù)據(jù)歸為特定的類別??梢杂糜陬A(yù)測事物在未來的發(fā)展?fàn)顩r,判定其在未來某時刻將呈現(xiàn)的狀態(tài)。例如我們利用營銷數(shù)據(jù)對用戶的是否竊電進(jìn)行稽核審計(jì),通過審計(jì)數(shù)據(jù)倉庫,在海量營銷數(shù)據(jù)中使用決策樹模型方法建立用戶是否竊電的模型,根據(jù)模型實(shí)現(xiàn)竊電用戶的自動分類識別,發(fā)現(xiàn)異常用電客戶,挽回電費(fèi)損失。
(5)回歸分析。和分類預(yù)測類似,回歸分析也是從歷史數(shù)據(jù)中自動推導(dǎo)出對事物發(fā)展規(guī)律基于給定數(shù)據(jù)的推廣性描述;不同的是回歸分析的目標(biāo)是數(shù)值型指標(biāo),構(gòu)造的模型是一個回歸函數(shù);用于判定給定特征的數(shù)據(jù)的目標(biāo)應(yīng)該達(dá)到的數(shù)值,而非狀態(tài)。利用海量的電力營銷歷史數(shù)據(jù)即可構(gòu)建多種回歸預(yù)測模型。如某電價類別下用戶的用電量預(yù)測,對該審計(jì)用戶的歷史用電數(shù)據(jù)建立訓(xùn)練模型,可以得出用電量合乎規(guī)律的連續(xù)性預(yù)測數(shù)據(jù),通過折線圖來展示;模型建立后根據(jù)模型預(yù)測數(shù)據(jù)來檢測用戶整體用電量數(shù)據(jù),通過真實(shí)用電量曲線與預(yù)測用電量曲線的對比,有差異的區(qū)間數(shù)據(jù)可以用來判定檢查被審計(jì)用戶是否存在違反實(shí)際電價類別的售電價格違規(guī)行為。分析不同電價類別下用戶實(shí)際月發(fā)行電量超過一定的閾值的進(jìn)行異常預(yù)警。例如用戶名執(zhí)行的電壓代碼為居民生活1-10KV,而發(fā)行的電量很高,存在明顯的高價低用的特征,很有可能是商業(yè)用電而執(zhí)行居民照明電價。
4.4 建立審計(jì)模型案例庫
在經(jīng)過數(shù)據(jù)抽取、清洗轉(zhuǎn)換、分析后,我們根據(jù)審計(jì)業(yè)務(wù)規(guī)則建立了不同的審計(jì)模型,審計(jì)人員驗(yàn)證后最終形成審計(jì)案例,固化在審計(jì)平臺中,實(shí)現(xiàn)審計(jì)結(jié)果的可持續(xù)性,例如:線損審計(jì)模型、電價類別審計(jì)模型、竊電用戶模型等。這些模型可以實(shí)時地、持續(xù)地監(jiān)控業(yè)務(wù)數(shù)據(jù),發(fā)現(xiàn)業(yè)務(wù)環(huán)節(jié)中可能潛在的違規(guī)和風(fēng)險(xiǎn),防范類似問題的發(fā)生。
5 營銷大數(shù)據(jù)審計(jì)分析案例
涉及計(jì)量自動化數(shù)據(jù)的營銷審計(jì)分析是營銷大數(shù)據(jù)審計(jì)的典型代表,由于計(jì)量自動化數(shù)據(jù)非常龐大,如果對全省數(shù)據(jù)進(jìn)行研究應(yīng)用,整個模型的算力和性能都會大大降低,經(jīng)過分析論證后,本文計(jì)劃采用一個供電所的數(shù)據(jù)進(jìn)行模型研究及驗(yàn)證,后續(xù)應(yīng)用將充分發(fā)揮網(wǎng)公司數(shù)據(jù)中心的技術(shù)支撐,應(yīng)用大數(shù)據(jù)平臺的Kudu技術(shù)實(shí)現(xiàn)大數(shù)據(jù)算力支撐,解決算力及性能的約束,實(shí)現(xiàn)全省應(yīng)用的營銷大數(shù)據(jù)支撐。
5.1 案例一:計(jì)量自動化最大需量值異常
異常條件:大工業(yè)用戶,計(jì)量自動化系統(tǒng)月凍結(jié)最大需量與計(jì)量系統(tǒng)需量日凍結(jié)值最大值不一致。
所需數(shù)據(jù)表:營銷域:用電客戶、計(jì)量點(diǎn)、計(jì)量點(diǎn)運(yùn)行電能表關(guān)系、運(yùn)行電能表、抄表信息。計(jì)量自動化系統(tǒng):運(yùn)行電能表日凍結(jié)電能量、運(yùn)行電能表月最大需量。輸出結(jié)果見表10。
5.2 案例二:營銷與計(jì)量抄表示數(shù)不一致
異常條件:營銷系統(tǒng)電量的抄見示數(shù)和計(jì)量自動化的示數(shù)不一致。
所需數(shù)據(jù)表:營銷域:用電客戶、計(jì)量點(diǎn)、計(jì)量點(diǎn)運(yùn)行電能表關(guān)系、運(yùn)行電能表、抄表信息。計(jì)量自動化系統(tǒng):運(yùn)行電能表日凍結(jié)電能量、運(yùn)行電能表月最大需量。輸出結(jié)果見表11。
5.3 案例三:最大需量值異常
異常條件:按需量計(jì)收基本電費(fèi),營銷系統(tǒng)與計(jì)量自動化最大需量值不一致。所需數(shù)據(jù)表:營銷域:用電客戶、計(jì)量點(diǎn)、計(jì)量點(diǎn)運(yùn)行電能表關(guān)系、運(yùn)行電能表、抄表信息。計(jì)量自動化系統(tǒng):運(yùn)行電能表日凍結(jié)電能量、運(yùn)行電能表月最大需量。輸出結(jié)果見表12。
5.4 案例四:大工業(yè)暫停期間仍產(chǎn)生電量
異常條件:單變壓器用戶,業(yè)擴(kuò)流程中申請辦理暫停業(yè)務(wù),計(jì)量自動化系統(tǒng)在變壓器暫停期間有表碼示數(shù)。所需數(shù)據(jù)表:營銷域:用電客戶、計(jì)量點(diǎn)、計(jì)量點(diǎn)運(yùn)行電能表關(guān)系、運(yùn)行電能表、業(yè)擴(kuò)工作單基本信息、核算運(yùn)行變壓器信息。計(jì)量自動化系統(tǒng):運(yùn)行電能表日凍結(jié)電能量、運(yùn)行電能表月最大需量。輸出結(jié)果見表13。
6 結(jié)語
大數(shù)據(jù)背景下電網(wǎng)營銷審計(jì)模式的建立,可以大大提高審計(jì)效率,避免了常規(guī)審計(jì)的局限性,實(shí)現(xiàn)了海量數(shù)據(jù)協(xié)同分析的可持續(xù)審計(jì)。結(jié)合大數(shù)據(jù)技術(shù)不但打通了從上至下的數(shù)據(jù)鏈路,為營銷審計(jì)提供了一種創(chuàng)新且有效的審計(jì)手段,對審計(jì)工作產(chǎn)生了積極的改善效果,加強(qiáng)了營銷審計(jì)力度。也提高了審計(jì)數(shù)據(jù)質(zhì)量,提升了數(shù)據(jù)分析能力和審計(jì)洞察力,真正實(shí)現(xiàn)了“讓數(shù)據(jù)說話”,審計(jì)研判更加實(shí)際客觀。
參考文獻(xiàn)
[1] 胡新玲.基于“互聯(lián)網(wǎng)+”審計(jì)云的企業(yè)電力營銷數(shù)字化審計(jì)[J].企業(yè)改革與管理,2018(17):140-141.
[2] 劉悅.大數(shù)據(jù)背景下供電企業(yè)營銷審計(jì)研究[D].濟(jì)南:山東財(cái)經(jīng)大學(xué),2018.
[3] 張莉.淺議在ERP系統(tǒng)中工程物資管理的幾點(diǎn)問題[J].中國電力教育,2011(06):87-88.
[4] 唐釗.條件隨機(jī)場模型在中文人名識別中的研究與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2012(21):3-7.