孫常鵬 張耀 于海濤 高靜 國網(wǎng)天津市電力公司信息通信公司
引言:在數(shù)據(jù)資產(chǎn)價值越發(fā)突出的今天,數(shù)據(jù)質(zhì)量問題受到了格外地關(guān)注,尤其對于國家電網(wǎng)這個龐大的信息化企業(yè)來說,每天產(chǎn)生著大量的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)結(jié)果直接或間接的反應(yīng)了國家電網(wǎng)的運行狀況,因此分析數(shù)據(jù)質(zhì)量影響因素并提高數(shù)據(jù)質(zhì)量自然而然成為公司的重要任務(wù)。此前,國網(wǎng)信通部關(guān)于開展運營監(jiān)測(控)系統(tǒng)四期建設(shè)工作開展并執(zhí)行以來,各種數(shù)據(jù)質(zhì)量問題開始凸顯。數(shù)據(jù)質(zhì)量問題可能會造成嚴重后果,例如,阻礙項目的進度,滯后業(yè)務(wù)數(shù)據(jù)分析的時效,影響決策的方向等?;谶@些可能發(fā)生的后果,使得對運營監(jiān)測數(shù)據(jù)質(zhì)量的研究更加迫切。本文通過研究60多項業(yè)務(wù)主題數(shù)據(jù)質(zhì)量情況,總結(jié)了一套自己的研究流程、數(shù)據(jù)質(zhì)量指標衡量方法、數(shù)據(jù)質(zhì)量管理辦法;最終提出提升數(shù)據(jù)質(zhì)量的措施。
隨著信息技術(shù)和系統(tǒng)的不斷發(fā)展,電網(wǎng)企業(yè)已建立了很多計算機信息系統(tǒng),積累了大量的數(shù)據(jù)。為了使數(shù)據(jù)能夠有效地支持組織的日常運作和決策,要求數(shù)據(jù)可靠無誤,能夠準確地反映現(xiàn)實世界的狀況。數(shù)據(jù)是信息的載體,高質(zhì)量的數(shù)據(jù)是各種業(yè)務(wù)數(shù)據(jù)分析基本條件,如經(jīng)濟活動分析、數(shù)據(jù)挖掘等能夠得到有意義結(jié)果的。人們常常抱怨所謂的“數(shù)據(jù)豐富,信息貧乏”,其中一個原因是缺乏有效的數(shù)據(jù)分析技術(shù),而另一個重要原因則是數(shù)據(jù)質(zhì)量不高,如數(shù)據(jù)殘缺不全、數(shù)據(jù)不一致、數(shù)據(jù)重復(fù)等,導(dǎo)致數(shù)據(jù)不能有效地被利用。數(shù)據(jù)質(zhì)量管理如同產(chǎn)品質(zhì)量管理一樣貫穿于數(shù)據(jù)生命周期的各個階段。數(shù)據(jù)質(zhì)量的研究由來已久,涉及到統(tǒng)計學(xué)、人工智能、數(shù)據(jù)庫等各個領(lǐng)域。
數(shù)據(jù)是組織最具價值的資產(chǎn)之一。企業(yè)的數(shù)據(jù)質(zhì)量與業(yè)務(wù)績效之間存在著直接聯(lián)系,高質(zhì)量的數(shù)據(jù)可以使公司保持競爭力并在經(jīng)濟動蕩時期立于不敗之地。有了普遍深入的數(shù)據(jù)質(zhì)量,企業(yè)在任何時候都可以信任滿足所有需求的所有數(shù)據(jù)。
數(shù)據(jù)質(zhì)量可能在圈外的人理解起來比較抽象,但舉例說一個一支筆的產(chǎn)品質(zhì)量大家可能會理解起來比較容易,首先它有外觀、長短、壽命、顏色、功能特性、價格等衡量標準,筆的產(chǎn)品質(zhì)量高,會得到廣大消費者的青睞。然而,在電網(wǎng)企業(yè)中,筆者認為數(shù)據(jù)質(zhì)量就是衡量電力數(shù)據(jù)真實有序情況的一個標準和偏好。在電力數(shù)據(jù)中,總結(jié)出8個數(shù)據(jù)質(zhì)量指標,包括準確性、完整性、一致性、時效性、唯一性、精確性、合理性、規(guī)范性,將在下文中詳細說明。
根據(jù)國網(wǎng)開展各個主體數(shù)據(jù)歸集與常態(tài)維護的工作內(nèi)容,總結(jié)出如下數(shù)據(jù)質(zhì)量研究流程:
在國網(wǎng)電力天津公司對業(yè)務(wù)數(shù)據(jù)獲取階段的工作其實一路并不是朝夕即能完成的事,但這為研究數(shù)據(jù)質(zhì)量摸清了前端的業(yè)務(wù)類型、信息系統(tǒng)、數(shù)據(jù)質(zhì)量管理的參與者、供給者。數(shù)據(jù)獲取的流程如下:
3.1.1 確定監(jiān)測業(yè)務(wù)主題
國網(wǎng)總部下發(fā)的文件中,確定了四類監(jiān)測內(nèi)容,核心資源、計劃與預(yù)算、關(guān)鍵流程、專題監(jiān)測,包括60多項業(yè)務(wù)主題,例如,物資采購管理、生產(chǎn)技改項目管理、生產(chǎn)大修項目管理、日常輸電運檢管理、日常配電檢修管理、應(yīng)收款、存貨、供應(yīng)商、專題監(jiān)測-交費渠道、電網(wǎng)運營、電網(wǎng)基建項目等。
3.1.2 確定數(shù)據(jù)需求字段
根據(jù)主題的監(jiān)測內(nèi)容,確定支撐的字段,并對每個主題的數(shù)據(jù)制作數(shù)據(jù)需求表,附上填表說明。
3.1.3 按照需求字段獲取數(shù)據(jù)
根據(jù)數(shù)據(jù)需求表,運監(jiān)中心、信通公司、業(yè)務(wù)部室協(xié)作將數(shù)據(jù)字段歸集,其中某些主題的數(shù)據(jù)需求字段需要在不同的系統(tǒng)中獲取,紐帶性字段信息是關(guān)鍵。例如供應(yīng)商主題中物資類涉及兩個系統(tǒng)的數(shù)據(jù),其中合同編號就是紐帶性字段是連接兩個不同系統(tǒng)的關(guān)鍵字段,同一行數(shù)據(jù)需要紐帶性字段匹配對應(yīng)。
按照數(shù)據(jù)質(zhì)量的評估指標,統(tǒng)計數(shù)據(jù)質(zhì)量情況,并以該字段數(shù)據(jù)質(zhì)量有問題的條目數(shù)百分比形式作為統(tǒng)計結(jié)果。
根據(jù)數(shù)據(jù)情況總結(jié)出數(shù)據(jù)質(zhì)量指標有8個。下面詳細說明數(shù)據(jù)質(zhì)量指標,并根據(jù)實際電力數(shù)據(jù)內(nèi)容作出舉例。
1準確性:數(shù)據(jù)準確性是指數(shù)據(jù)準確反映其所建模的“真是世界”實體的程度。通常,度量數(shù)據(jù)值與已確定的正確信息參照源的一致性可以度量準確性,如:將數(shù)據(jù)值與來自數(shù)據(jù)庫或其他數(shù)據(jù)表的正確的數(shù)據(jù)集比較,根據(jù)動態(tài)計算的數(shù)據(jù)進行檢查,有時可能需要手工檢查數(shù)據(jù)值的準確性。例如,物料庫存金額字段有0.1元的現(xiàn)象,需要根據(jù)元數(shù)據(jù)以及實際情況核查該數(shù)據(jù)的準確性。
2完整性:完整性的要求之一是一個數(shù)據(jù)集的特定屬性都被賦予了數(shù)值。完整性的另一個要求,是一個數(shù)據(jù)集的全部行記錄都存在。例如,日常配電檢修業(yè)務(wù)中的線站名稱字段的列項統(tǒng)計有23%的空數(shù)據(jù)。
3一致性:一致性是指確保一個數(shù)據(jù)集的數(shù)值與另一個數(shù)據(jù)集的數(shù)值一致。一致性的概念相對寬泛,可以包括來自不同數(shù)據(jù)集的兩個數(shù)值不能有沖突,或者在預(yù)定義的一系列的約束條件內(nèi)定義一致性。例如,合同編號字段在經(jīng)發(fā)系統(tǒng)和ERP系統(tǒng)中都存在,但雙對應(yīng)的合同總金額要有一致性。
4時效性:數(shù)據(jù)時效性是指信息反映其所建模的當(dāng)前真實世界的程度。數(shù)據(jù)時效性度量了數(shù)據(jù)的“新鮮程度”以及在時間變化中的正確程度??梢愿鶕?jù)數(shù)據(jù)元素刷新的頻率度量數(shù)據(jù)的時效性,從而驗證數(shù)據(jù)是最新的。數(shù)據(jù)時效性規(guī)則定義了一個數(shù)值在失效或需要更新之前已經(jīng)歷的“壽命”。例如數(shù)據(jù)最新統(tǒng)計周期是201705期,但數(shù)據(jù)只更新到201704期,那么數(shù)據(jù)顯然是延遲了。
5唯一性:唯一性主要體現(xiàn)在一個數(shù)據(jù)集中,沒有實體多余一次出現(xiàn)。滿足實體唯一性,說明沒有實體出現(xiàn)多于一次,并且每個唯一實體有一個鍵值且該鍵值只指向該實體。許多組織都將 的可控的數(shù)據(jù)冗余作為更加可行的目標。例如,對于不同的合同只能有不同的合同編號,具有唯一性。
6精確性:精確性是指數(shù)據(jù)元素的詳細程度。數(shù)值型數(shù)據(jù)可以有若干精確數(shù)位。例如,對數(shù)據(jù)取整或截斷可能會產(chǎn)生精確度錯誤。
7合理性:使用數(shù)據(jù)合理性考察與一些特定的運營場景相關(guān)的數(shù)據(jù)一致性。例如,運檢數(shù)據(jù)中一條線路當(dāng)次巡視時間與上一次巡視時間不能超過90天。
8規(guī)范性:規(guī)范性用于度量哪些數(shù)據(jù)未按統(tǒng)一格式存儲。例如,物料庫存批號要求是文本格式,10個字節(jié)。
3.3.1 數(shù)據(jù)質(zhì)量管理方法
數(shù)據(jù)質(zhì)量管理的一種通用方法是戴明環(huán)質(zhì)量環(huán),如下圖所示:
戴明是對質(zhì)量管理的發(fā)展產(chǎn)生巨大影響的大師之一,他提出了被大家所知的“計劃-實施-監(jiān)控-行動”用于解決問題的模型,該模型對數(shù)據(jù)質(zhì)量管理同樣有效,當(dāng)已定義數(shù)據(jù)質(zhì)量水平協(xié)議,并將此模型應(yīng)用于數(shù)據(jù)質(zhì)量管理時,它包括:
●制定數(shù)據(jù)質(zhì)量現(xiàn)狀評估計劃和識別數(shù)據(jù)質(zhì)量度量關(guān)鍵指標。
●實施度量和提升數(shù)據(jù)質(zhì)量的流程。
●監(jiān)控和度量根據(jù)業(yè)務(wù)預(yù)期定義的數(shù)據(jù)質(zhì)量水平。
●執(zhí)行解決數(shù)據(jù)質(zhì)量問題的行動方案,以提升數(shù)據(jù)質(zhì)量從而更好地滿足業(yè)務(wù)預(yù)期。
3.3.2 數(shù)據(jù)質(zhì)量管理方法的實際應(yīng)用
筆者在此次大規(guī)模的監(jiān)測業(yè)務(wù)數(shù)據(jù)歸集的工作過程中,對數(shù)據(jù)質(zhì)量管理流程做了如下概括:
在計劃階段,數(shù)據(jù)質(zhì)量團隊評估已知的數(shù)據(jù)問題,包括確定問題的代價和影響以及評估處理問題的可選方案。
在實施階段,剖析數(shù)據(jù)并執(zhí)行檢查和監(jiān)控,識別出現(xiàn)的數(shù)據(jù)質(zhì)量問題。在此階段,數(shù)據(jù)質(zhì)量團隊可以修復(fù)引致數(shù)據(jù)錯誤的流程中存在的缺陷,或者作為一種應(yīng)急辦法對下游錯誤進行校正。如果不能在錯誤的源頭進行校正,那么就在數(shù)據(jù)流中盡早校正該錯誤。
在監(jiān)控階段,根據(jù)已定義的業(yè)務(wù)規(guī)則庫對數(shù)據(jù)質(zhì)量水平進行動態(tài)監(jiān)控。只要數(shù)據(jù)質(zhì)量滿足可接受度閾值,流程就是受控的,數(shù)據(jù)質(zhì)量水平就可滿足業(yè)務(wù)需求。然而,如果數(shù)據(jù)質(zhì)量下降到可接受度閾值之下,需要通知數(shù)據(jù)質(zhì)量管理員以便他們在下一階段采取行動。
在行動階段,主要是處理并解決出現(xiàn)的數(shù)據(jù)質(zhì)量問題。
3.3.3 數(shù)據(jù)質(zhì)量問題的經(jīng)驗總結(jié)
此次數(shù)據(jù)質(zhì)量管理工作,一方面結(jié)合計劃預(yù)算,建立了數(shù)據(jù)質(zhì)量規(guī)則庫、開展動態(tài)數(shù)據(jù)質(zhì)量監(jiān)測、異動數(shù)據(jù)根因分析、形成數(shù)據(jù)質(zhì)量監(jiān)測報告;二方面結(jié)合指標和明細數(shù)據(jù)、強化數(shù)據(jù)接入核查,完善了數(shù)據(jù)質(zhì)量通報及評價機制,為運監(jiān)業(yè)務(wù)數(shù)據(jù)質(zhì)量提供支撐。
尤其在對產(chǎn)生數(shù)據(jù)質(zhì)量問題的情況進行全面業(yè)務(wù)調(diào)研,在電力各個信息系統(tǒng)中總結(jié)數(shù)據(jù)質(zhì)量問題原因有6種;包括1、系統(tǒng)未設(shè)置原因;2、非必填字段原因;3、業(yè)務(wù)調(diào)整原因;4、實際異動原因;5、鍵入錯誤原因;6、流轉(zhuǎn)中發(fā)生變化的原因。
研究運營監(jiān)測數(shù)據(jù)質(zhì)量的最終目的是指導(dǎo)我司電力業(yè)務(wù)決策、提高企業(yè)的運營效率;故提升數(shù)據(jù)質(zhì)量為此打下了良好的基礎(chǔ)。提升數(shù)據(jù)質(zhì)量措施包括5種,
1、提升數(shù)據(jù)質(zhì)量意識,這不僅意味著需確保組織中配備合適的人員了解數(shù)據(jù)質(zhì)量問題的存在,而且對于獲得組織中利益相關(guān)者的必要支持至關(guān)重要,這將提升數(shù)據(jù)質(zhì)量項目成功的機會。
2、定義數(shù)據(jù)質(zhì)量指標,衡量數(shù)據(jù)質(zhì)量的指標一般包括準確性、完整性、一致性、時效性、唯一性、精確性、合理性、規(guī)范性。
3、建立數(shù)據(jù)質(zhì)量業(yè)務(wù)規(guī)則庫,根據(jù)業(yè)務(wù)類別、業(yè)務(wù)主題、業(yè)務(wù)部門、系統(tǒng)、數(shù)據(jù)庫表、業(yè)務(wù)字段、具體規(guī)則約束值或條件等信息建立數(shù)據(jù)規(guī)則庫。
4、持續(xù)測量和監(jiān)控數(shù)據(jù)質(zhì)量,對業(yè)務(wù)主題數(shù)據(jù)定期監(jiān)測。
5、建立數(shù)據(jù)質(zhì)量問題管理績效機制,針對發(fā)生數(shù)據(jù)質(zhì)量問題的數(shù)據(jù)產(chǎn)生部門建立績效管理機制,督促其完善系統(tǒng)設(shè)置、提高業(yè)務(wù)規(guī)范性、提高工作人員的數(shù)據(jù)質(zhì)量意識。
在整個數(shù)據(jù)生命周期中,原有的數(shù)據(jù)質(zhì)量問題解決了,往往還會發(fā)現(xiàn)有新的質(zhì)量問題,這主要表現(xiàn)為兩點:其一是質(zhì)量問題的某些“癥狀”會隨著另外一些“癥狀”的解決而顯現(xiàn);其二是隨著時間的推移和數(shù)據(jù)的演化,會有新的數(shù)據(jù)質(zhì)量問題產(chǎn)生。因此,不能指望任何一種方法能夠畢其功于一役。
面對新的數(shù)據(jù)質(zhì)量問題,需要我們徹底的掌握元數(shù)據(jù),并能夠再次做到全面的數(shù)據(jù)二次清洗,但面對國網(wǎng)電力企業(yè)來說,規(guī)模越大以上兩點越難以做到,如何實現(xiàn)大企業(yè)數(shù)據(jù)質(zhì)量的全面一次性改善的方法還有待被發(fā)現(xiàn)。
[1] DAMA International 著.DAMA數(shù)據(jù)管理知識體系指南.馬歡,劉晨等譯.北京.清華大學(xué)出版社.2016.
[2] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報.2002 13(1 1):2076-2081.
[3] 韓京寧,徐麗臻,董逸生.數(shù)據(jù)質(zhì)量研究綜述.計算機科學(xué).2008 35(2)