国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

福建煙草數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)控技術(shù)應(yīng)用

2017-11-16 08:38:33章惠民
中國(guó)煙草學(xué)報(bào) 2017年2期
關(guān)鍵詞:煙草數(shù)據(jù)中心監(jiān)控

章惠民

福建省煙草公司漳州市公司,信息中心,福建漳州 363000

經(jīng)濟(jì)與管理

福建煙草數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)控技術(shù)應(yīng)用

章惠民

福建省煙草公司漳州市公司,信息中心,福建漳州 363000

以推廣福建煙草數(shù)據(jù)中心應(yīng)用及提高系統(tǒng)數(shù)據(jù)質(zhì)量為目的,結(jié)合福建煙草商業(yè)公司數(shù)據(jù)中心平臺(tái)營(yíng)銷(xiāo)、專(zhuān)賣(mài)、物流、人力勞資、綜合計(jì)劃等多個(gè)部門(mén)的業(yè)務(wù)主題建設(shè)與分析應(yīng)用項(xiàng)目的具體需要,研究并提出了一種合適的數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)控方法。該方法首先在保證數(shù)據(jù)質(zhì)量的前提下成功將煙草公司源系統(tǒng)數(shù)據(jù)抽取到省公司數(shù)據(jù)倉(cāng)庫(kù)中,然后在數(shù)據(jù)集市層主要利用星型關(guān)系完成數(shù)據(jù)模型設(shè)計(jì)作業(yè),最后在BI應(yīng)用中分析與展現(xiàn)了數(shù)據(jù)。該方法對(duì)整個(gè)數(shù)據(jù)中心的高效應(yīng)用起到了至關(guān)重要的作用。

數(shù)據(jù)中心;ETL;數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)質(zhì)量

1 引言

數(shù)字煙草建設(shè)的總體技術(shù)按照?qǐng)?zhí)行統(tǒng)一標(biāo)準(zhǔn),按照統(tǒng)一平臺(tái)、統(tǒng)一數(shù)據(jù)庫(kù)、統(tǒng)一網(wǎng)絡(luò)的要求,逐步實(shí)現(xiàn)系統(tǒng)集成、資源整合、信息共享。數(shù)據(jù)中心是實(shí)現(xiàn)系統(tǒng)集成、資源整合、信息共享的必然途徑,是行業(yè)信息化建設(shè)更高層次的要求。

福建煙草數(shù)據(jù)中心經(jīng)過(guò)初期的建設(shè),已經(jīng)搭建了包括信息資源標(biāo)準(zhǔn)體系、數(shù)據(jù)加工存儲(chǔ)體系、數(shù)據(jù)交換服務(wù)體系、數(shù)據(jù)分析應(yīng)用體系及信息安全保障體系的數(shù)據(jù)中心基礎(chǔ)框架,完成了“打基礎(chǔ)、搭平臺(tái)、初步見(jiàn)效果”的建設(shè)目標(biāo)。

數(shù)據(jù)質(zhì)量主要包括準(zhǔn)確性、一致性、完整性、可理解性、規(guī)范性、及時(shí)性等方面[1]。ETL(Extract-Transform-Load 的縮寫(xiě))和數(shù)據(jù)建模技術(shù)是用活數(shù)據(jù)中心的關(guān)鍵,ETL決定數(shù)據(jù)質(zhì)量,而數(shù)據(jù)質(zhì)量直接影響B(tài)I的應(yīng)用。

2 數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)控

數(shù)據(jù)中心的數(shù)據(jù)質(zhì)量是個(gè)非常重要的問(wèn)題,各種存在質(zhì)量問(wèn)題的數(shù)據(jù),不僅會(huì)影響數(shù)據(jù)中心數(shù)據(jù)的正確性和真實(shí)性,也會(huì)影響其它與數(shù)據(jù)中心相關(guān)系統(tǒng),最終影響使用者和管理者的執(zhí)行與決策方向。

2.1 影響數(shù)據(jù)質(zhì)量的原因

福建煙草數(shù)據(jù)中心從業(yè)務(wù)系統(tǒng)抽取數(shù)據(jù),經(jīng)過(guò)ODS數(shù)據(jù)緩沖區(qū)進(jìn)行整合,到倉(cāng)庫(kù)層進(jìn)行分主題加工,再到集市層進(jìn)行數(shù)據(jù)集市建設(shè),最終到報(bào)表展現(xiàn),經(jīng)過(guò)了諸多處理環(huán)節(jié)。各環(huán)節(jié)過(guò)程可能產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題的原因如下:

(1)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)質(zhì)量問(wèn)題

業(yè)務(wù)系統(tǒng)是數(shù)據(jù)中心部分?jǐn)?shù)據(jù)的源頭,進(jìn)入數(shù)據(jù)中心的數(shù)據(jù),基本上是由業(yè)務(wù)系統(tǒng)的業(yè)務(wù)人員進(jìn)行數(shù)據(jù)錄入、管理或由于交易行為自動(dòng)產(chǎn)生的交易數(shù)據(jù),并在每個(gè)工作日的晚上抽取到數(shù)據(jù)中心。業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù)質(zhì)量問(wèn)題包括數(shù)據(jù)錄入不規(guī)范、數(shù)據(jù)非法篡改、數(shù)據(jù)時(shí)間延時(shí)、網(wǎng)絡(luò)鏈路不穩(wěn)定等問(wèn)題。

(2)數(shù)據(jù)加工過(guò)程中產(chǎn)生的數(shù)據(jù)質(zhì)量問(wèn)題

數(shù)據(jù)從業(yè)務(wù)系統(tǒng)端到報(bào)表集市端,會(huì)經(jīng)過(guò)多層的數(shù)據(jù)加工處理,由ETL作業(yè)進(jìn)行數(shù)據(jù)的清洗、轉(zhuǎn)換等加工處理。在這個(gè)過(guò)程中由于設(shè)計(jì)、開(kāi)發(fā)、調(diào)度等環(huán)節(jié)因素,可能導(dǎo)致數(shù)據(jù)質(zhì)量問(wèn)題的原因包括源頭與目標(biāo)數(shù)據(jù)出現(xiàn)不一致、不完整、跑批作業(yè)出錯(cuò)、以及作業(yè)的非正常執(zhí)行等問(wèn)題。

(3)指標(biāo)計(jì)算口徑導(dǎo)致的數(shù)據(jù)質(zhì)量問(wèn)題

業(yè)務(wù)報(bào)表的指標(biāo)數(shù)據(jù)是通過(guò)對(duì)集市層數(shù)據(jù)模型按照相關(guān)數(shù)據(jù)維度、粒度進(jìn)行指標(biāo)的加工產(chǎn)生的。在指標(biāo)計(jì)算加工過(guò)程中產(chǎn)生的質(zhì)量問(wèn)題主要包括存在不一致的指標(biāo)計(jì)算口徑、指標(biāo)計(jì)算公式出錯(cuò)、開(kāi)發(fā)人員開(kāi)發(fā)失誤等。

2.2 數(shù)據(jù)中心數(shù)據(jù)質(zhì)量管理措施

目前數(shù)據(jù)中心主要按照數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)檢核、作業(yè)運(yùn)行檢查及監(jiān)控、元數(shù)據(jù)輔助查找問(wèn)題及報(bào)表試運(yùn)行檢查等幾種方式來(lái)保證數(shù)據(jù)質(zhì)量安全,具體內(nèi)容如圖1所示。

圖1 數(shù)據(jù)質(zhì)量監(jiān)管Fig.1 Data quality supervision

2.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化

在ODS層中設(shè)定標(biāo)準(zhǔn)層和錯(cuò)誤層,其中業(yè)務(wù)數(shù)據(jù)在從源系統(tǒng)加載到數(shù)據(jù)中心后,會(huì)按照設(shè)定的代碼標(biāo)準(zhǔn)對(duì)數(shù)據(jù)進(jìn)行清洗。對(duì)不能符合標(biāo)準(zhǔn)的數(shù)據(jù),為確保不影響實(shí)際業(yè)務(wù),先允許其進(jìn)入標(biāo)準(zhǔn)層,但同時(shí)會(huì)記錄在錯(cuò)誤層中,通過(guò)定期對(duì)比和檢查錯(cuò)誤層數(shù)據(jù),可以找出源自業(yè)務(wù)系統(tǒng)的錯(cuò)誤數(shù)據(jù)。查找出原因后再進(jìn)行數(shù)據(jù)校正可以減少很多因源頭數(shù)據(jù)錯(cuò)誤導(dǎo)致的數(shù)據(jù)質(zhì)量問(wèn)題。

ODS分層抽取和匯聚規(guī)則如下:ODS平臺(tái)分為4個(gè)數(shù)據(jù)區(qū),分別是緩沖數(shù)據(jù)區(qū)、標(biāo)準(zhǔn)數(shù)據(jù)區(qū)、錯(cuò)誤數(shù)據(jù)區(qū)、共享數(shù)據(jù)區(qū)。緩沖數(shù)據(jù)區(qū):存放各地市的業(yè)務(wù)系統(tǒng)的接口數(shù)據(jù),數(shù)據(jù)庫(kù)表結(jié)構(gòu)貼近業(yè)務(wù)系統(tǒng)表結(jié)構(gòu),需要對(duì)各地市的數(shù)據(jù)進(jìn)行合并,數(shù)據(jù)保存30天。標(biāo)準(zhǔn)數(shù)據(jù)區(qū):數(shù)據(jù)標(biāo)準(zhǔn)化實(shí)現(xiàn)信息資源標(biāo)準(zhǔn)體系在ODS平臺(tái)的落地,標(biāo)準(zhǔn)數(shù)據(jù)區(qū)存放經(jīng)過(guò)數(shù)據(jù)過(guò)濾、清洗、轉(zhuǎn)換后的數(shù)據(jù),數(shù)據(jù)保存30天。錯(cuò)誤數(shù)據(jù)區(qū):用來(lái)存放數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程中錯(cuò)誤的數(shù)據(jù),數(shù)據(jù)保存30天。共享數(shù)據(jù)區(qū):ODS平臺(tái)未來(lái)將成為全省業(yè)務(wù)系統(tǒng)的數(shù)據(jù)共享中心,共享數(shù)據(jù)區(qū)存放對(duì)外接口數(shù)據(jù),數(shù)據(jù)保存30天。

標(biāo)準(zhǔn)層存儲(chǔ)的是正確的數(shù)據(jù),錯(cuò)誤層存儲(chǔ)的是不符合標(biāo)準(zhǔn)的數(shù)據(jù),目前采用的機(jī)制是對(duì)不符合標(biāo)準(zhǔn)的數(shù)據(jù),仍進(jìn)入標(biāo)準(zhǔn)層,待業(yè)務(wù)系統(tǒng)解決不符合標(biāo)準(zhǔn)的數(shù)據(jù)后,重新對(duì)指定時(shí)間段的數(shù)據(jù)進(jìn)行批量運(yùn)行操作。

錯(cuò)誤層數(shù)據(jù)存儲(chǔ)的是不符合主數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)信息,這些數(shù)據(jù)會(huì)定期反饋給業(yè)務(wù)系統(tǒng)方進(jìn)行數(shù)據(jù)檢查清洗。關(guān)鍵數(shù)據(jù)標(biāo)準(zhǔn)就是主數(shù)據(jù)標(biāo)準(zhǔn)。ETL調(diào)度監(jiān)控可以采用ETL工作流控制和控制表雙重控制方式,同時(shí)ETL開(kāi)發(fā)留出接口,可以在非正常情況下重新抽取??刂票砜梢苑譃閿?shù)據(jù)準(zhǔn)確性控制表和ETL控制表兩大類(lèi)。目前作業(yè)時(shí)間消耗可以到24以上數(shù)據(jù)中心ETL調(diào)度監(jiān)控可以看得到每天具體的作業(yè)時(shí)間消耗。

2.2.2 數(shù)據(jù)審核

在ETL過(guò)程中,使用三個(gè)層次的審核程序進(jìn)行質(zhì)量檢核,具體包括文件層次審核、記錄層次審核和業(yè)務(wù)層次審核。文件層次審核會(huì)比較每次抽取的源與目標(biāo)數(shù)據(jù)的記錄量來(lái)檢查ETL作業(yè)執(zhí)行情況。記錄層次審核對(duì)單條記錄進(jìn)行值域檢查、唯一性檢查、完整性檢查、歷史拉鏈檢查和代碼映射檢查。業(yè)務(wù)層次審核主要包括指標(biāo)對(duì)比和業(yè)務(wù)規(guī)則檢查。數(shù)據(jù)審核程序在作業(yè)執(zhí)行后跑批,并生成數(shù)據(jù)質(zhì)量報(bào)告,運(yùn)維工程師將每天檢查數(shù)據(jù)質(zhì)量報(bào)告以發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題。

業(yè)務(wù)層次審核主要是人工對(duì)比業(yè)務(wù)系統(tǒng)報(bào)表計(jì)算的指標(biāo)數(shù)據(jù)是否一致。指標(biāo)對(duì)比是開(kāi)發(fā)相應(yīng)的作業(yè),通過(guò)設(shè)定一個(gè)指標(biāo)的閥值或波動(dòng)率來(lái)判斷相應(yīng)指標(biāo)是否存在異常。如假設(shè)卷煙日銷(xiāo)量在5萬(wàn)條~10萬(wàn)條為合理區(qū)間,則低于5萬(wàn)或超過(guò)10萬(wàn)則會(huì)自動(dòng)報(bào)警。指標(biāo)對(duì)比需要通過(guò)人工設(shè)定閥值,外加開(kāi)發(fā)作業(yè),系統(tǒng)自動(dòng)判斷來(lái)實(shí)現(xiàn)的。

2.2.3 作業(yè)運(yùn)行監(jiān)控

ETL作業(yè)運(yùn)行,往往會(huì)因源系統(tǒng)服務(wù)器問(wèn)題、網(wǎng)絡(luò)問(wèn)題等原因造成作業(yè)無(wú)法正常跑批。另外,ETL作業(yè)跑批過(guò)程中,也可能由于執(zhí)行異常導(dǎo)致中斷。

目前數(shù)據(jù)中心ETL調(diào)度程序?qū)γ總€(gè)作業(yè)的跑批情況進(jìn)行日志監(jiān)控和短信預(yù)警。監(jiān)控程序會(huì)定時(shí)檢查日志,一旦發(fā)現(xiàn)異常就會(huì)發(fā)送預(yù)警短信。運(yùn)維工程師接收到預(yù)警信息后會(huì)重新啟動(dòng)報(bào)錯(cuò)的作業(yè)以完成進(jìn)行正常跑批。處理時(shí)間主要取決于源系統(tǒng)服務(wù)器或網(wǎng)絡(luò)恢復(fù)情況,一般情況會(huì)導(dǎo)致數(shù)據(jù)加工有所延遲。

由于作業(yè)間依賴關(guān)系較多,作業(yè)異常出錯(cuò)后續(xù)作業(yè)不能運(yùn)行,而后續(xù)的作業(yè)通過(guò)人工重跑,這就是斷點(diǎn)保護(hù)措施。異常處理和斷點(diǎn)保護(hù)目前都是短信提醒,手工按作業(yè)調(diào)度順序重跑。目前國(guó)內(nèi)大部分BI系統(tǒng)的調(diào)度都是采用人工方式進(jìn)行異常處理的,如建行、電信、廈門(mén)銀行、福建中煙[2]。

2.2.4 元數(shù)據(jù)輔助檢查

元數(shù)據(jù)管理系統(tǒng)提供的質(zhì)量問(wèn)題追溯和血統(tǒng)分析,構(gòu)建數(shù)據(jù)全生命周期管理模式,可以在發(fā)生數(shù)據(jù)質(zhì)量問(wèn)題后進(jìn)行分析,輔助開(kāi)發(fā)人員快速定位出錯(cuò)的相關(guān)ETL作業(yè)和數(shù)據(jù)表。

2.3 數(shù)據(jù)質(zhì)量監(jiān)控主要技術(shù)思路及創(chuàng)新點(diǎn)

2.3.1 數(shù)據(jù)質(zhì)量監(jiān)控主要技術(shù)思路

數(shù)據(jù)質(zhì)量監(jiān)控主要技術(shù)有:(1)設(shè)計(jì)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系及模型,參照數(shù)據(jù)準(zhǔn)確性、一致性、完整性、可理解性、規(guī)范性、及時(shí)性等關(guān)鍵約束,實(shí)現(xiàn)質(zhì)量指標(biāo)計(jì)算、統(tǒng)計(jì)分析和綜合評(píng)價(jià)的實(shí)時(shí)、自動(dòng)處理,滿足系統(tǒng)動(dòng)態(tài)、實(shí)時(shí)進(jìn)行數(shù)據(jù)質(zhì)量好壞量化診斷和評(píng)價(jià)的要求,主要包括數(shù)據(jù)質(zhì)量指標(biāo)定義模型、數(shù)據(jù)質(zhì)量評(píng)估算法或規(guī)則及數(shù)據(jù)質(zhì)量診斷與評(píng)價(jià)結(jié)果。(2)設(shè)計(jì)數(shù)據(jù)質(zhì)量校驗(yàn)規(guī)則,一是對(duì)基準(zhǔn)表和比對(duì)表進(jìn)行檢索,檢索某一待比對(duì)字段值在兩表對(duì)應(yīng)記錄中的字段值集合是否一致;二是對(duì)基準(zhǔn)表和比對(duì)表進(jìn)行檢索,檢索某一待比對(duì)字段值是否在兩張表中同時(shí)存在;三是對(duì)基準(zhǔn)表和比對(duì)表進(jìn)行檢索,檢索某一比對(duì)字段值在兩表對(duì)應(yīng)的記錄中是否一致。(3)應(yīng)用接口信息實(shí)時(shí)采集技術(shù),通過(guò)API代理調(diào)用、日志分析、數(shù)據(jù)庫(kù)記錄分析、旁路監(jiān)聽(tīng)等手段采集基礎(chǔ)信息,實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)接口監(jiān)控,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)鏈接和數(shù)據(jù)血統(tǒng)分析及影響分析。2.3.2 創(chuàng)新點(diǎn)

數(shù)據(jù)質(zhì)量監(jiān)控創(chuàng)新點(diǎn)有:(1)設(shè)計(jì)了一種ETL過(guò)程分層質(zhì)量檢核方法,使用三個(gè)層次的審核程序進(jìn)行質(zhì)量檢核。(2)提出了一個(gè)數(shù)據(jù)清洗框架,分離出邏輯規(guī)范層和物理實(shí)現(xiàn)層。邏輯層設(shè)計(jì)數(shù)據(jù)處理流程,確定清洗過(guò)程需要執(zhí)行的數(shù)據(jù)轉(zhuǎn)化步驟;物理層實(shí)現(xiàn)這些數(shù)據(jù)轉(zhuǎn)化操作,并對(duì)它們進(jìn)行優(yōu)化。(3)構(gòu)建了數(shù)據(jù)全生命周期管理模式,并制定出全量和增量數(shù)據(jù)校驗(yàn)時(shí)的數(shù)據(jù)存儲(chǔ)和索引方案。(4)使用相應(yīng)的管理手段來(lái)保障和提升數(shù)據(jù)監(jiān)控質(zhì)量,形成一個(gè)完整性的數(shù)據(jù)質(zhì)量管控體系和全面有效的數(shù)據(jù)質(zhì)量保障機(jī)制,實(shí)現(xiàn)技術(shù)與管理的相輔相成。

2.4 數(shù)據(jù)中心數(shù)據(jù)質(zhì)量提升方法

數(shù)據(jù)質(zhì)量管理貫穿整個(gè)福建煙草信息化建設(shè)過(guò)程,覆蓋福建煙草商業(yè)系統(tǒng)各信息系統(tǒng)的建設(shè)。基于當(dāng)前數(shù)據(jù)中心建設(shè)情況,結(jié)合未來(lái)數(shù)據(jù)中心深化應(yīng)用的需求,可以從以下幾個(gè)方面提升數(shù)據(jù)質(zhì)量。

2.4.1 規(guī)范和推廣主數(shù)據(jù)管理及應(yīng)用

人員、機(jī)構(gòu)、卷煙等主數(shù)據(jù)是數(shù)據(jù)中心報(bào)表維度模型的主要數(shù)據(jù)來(lái)源。當(dāng)前各業(yè)務(wù)系統(tǒng)在主數(shù)據(jù)對(duì)接集成方面還未進(jìn)一步推廣和應(yīng)用,各系統(tǒng)各自獨(dú)立維護(hù)相關(guān)基礎(chǔ)數(shù)據(jù),給數(shù)據(jù)中心數(shù)據(jù)集成整合方面帶來(lái)一定困難。因此,規(guī)范和推廣主數(shù)據(jù)管理,可以促進(jìn)全局企業(yè)數(shù)據(jù)視圖的建立,促進(jìn)基礎(chǔ)數(shù)據(jù)質(zhì)量問(wèn)題的解決。

2.4.2 加強(qiáng)源頭業(yè)務(wù)系統(tǒng)質(zhì)量管理

業(yè)務(wù)系統(tǒng)作為數(shù)據(jù)產(chǎn)生的源頭,需要加強(qiáng)在數(shù)據(jù)錄入規(guī)范、數(shù)據(jù)防后臺(tái)篡改等方面的管理,主要包括:(1)進(jìn)一步加強(qiáng)對(duì)數(shù)據(jù)錄入人員的培訓(xùn),通過(guò)技術(shù)手段防止非法無(wú)效數(shù)據(jù)錄入及產(chǎn)生;(2)進(jìn)一步加強(qiáng)對(duì)有訪問(wèn)數(shù)據(jù)庫(kù)后臺(tái)人員操作的審計(jì),堅(jiān)決禁止對(duì)后臺(tái)數(shù)據(jù)的非法篡改。

2.4.3 建設(shè)數(shù)據(jù)質(zhì)量管理系統(tǒng)

一般完善的數(shù)據(jù)中心,都有一套健全的數(shù)據(jù)質(zhì)量管理系統(tǒng),輔助管理人員、運(yùn)維人員、開(kāi)發(fā)人員更好地發(fā)現(xiàn)、管理和解決數(shù)據(jù)質(zhì)量問(wèn)題。數(shù)據(jù)質(zhì)量管理系統(tǒng)可在現(xiàn)有數(shù)據(jù)中心的質(zhì)量監(jiān)管工具基礎(chǔ)上,基于元數(shù)據(jù)管理系統(tǒng),輔以源系統(tǒng)變更監(jiān)控、關(guān)鍵指標(biāo)稽核、質(zhì)量問(wèn)題提報(bào)及處理、質(zhì)量分析報(bào)告等管理功能。

2.4.4 建立健全數(shù)據(jù)質(zhì)量管控機(jī)制

依據(jù)數(shù)據(jù)生命周期管理模式各階段特性,建立數(shù)據(jù)質(zhì)量控制機(jī)制,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,不斷改善數(shù)據(jù)的使用質(zhì)量,從而提升數(shù)據(jù)的可用性,實(shí)現(xiàn)數(shù)據(jù)更大的商業(yè)價(jià)值,具體包括:(1)制定數(shù)據(jù)質(zhì)量的發(fā)現(xiàn)、評(píng)估及報(bào)告機(jī)制;(2)增加問(wèn)題數(shù)據(jù)核查方式,主要采用全部檢查和抽樣檢查;(3)在數(shù)據(jù)產(chǎn)生、存儲(chǔ)、管理、使用等數(shù)據(jù)生命周期每一環(huán)節(jié)上定位數(shù)據(jù)質(zhì)量問(wèn)題產(chǎn)生的根源,促進(jìn)建立或?qū)嵤┯嘘P(guān)的工作流程來(lái)解決數(shù)據(jù)質(zhì)量問(wèn)題,保證數(shù)據(jù)質(zhì)量的持續(xù)改善。

3 結(jié)論

本文分析了影響數(shù)據(jù)中心數(shù)據(jù)質(zhì)量的原因,針對(duì)這些原因給出了相應(yīng)的解決措施,并闡述了數(shù)據(jù)質(zhì)量監(jiān)控的主要技術(shù)思路及創(chuàng)新點(diǎn)。此外,本文還提出了提升數(shù)據(jù)質(zhì)量的方法。

數(shù)據(jù)質(zhì)量監(jiān)控技術(shù)的應(yīng)用,降低了項(xiàng)目開(kāi)發(fā)與系統(tǒng)集成因數(shù)據(jù)源異構(gòu),數(shù)據(jù)結(jié)構(gòu)不一致等原因帶來(lái)的難度,是福建省煙草公司數(shù)據(jù)中心項(xiàng)目成功的關(guān)鍵。隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)質(zhì)量必將受到越來(lái)越多的關(guān)注。

[1]郭志懋,周傲英. 數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2081.GUO Zhimao, ZhOU Aoying, Review of data quality and data cleaning research [J]. Journal of software, 2002, 13(11):2076-2081.

[2] 密紅,何利力,楊秀梅. 煙草數(shù)據(jù)中心ETL 技術(shù)應(yīng)用[J].計(jì)算機(jī)應(yīng)用系統(tǒng), 2011, 20(5):184-187.MI Hong, HE Lili, YANG Xiumei. ETL technology applied in date center of tobacco company[J].Computer Systems &Applications, 2011, 20(5):184-187.

:ZHANG Huimin . The application of data quality monitoring technology in Fujian tobacco data center[J]. Acta Tabacaria Sinica,2017, 23(2)

*Corresponding author.Email:huimin005@163.com

The application of data quality monitoring technology in Fujian tobacco data center

ZHANG Huimin*
1 Information Centre, Fujian Provincial Tobacco Company, Zhangzhou Branch, Zhangzhou 363000, China

In order to promote and improve the quality of system data application in Fujian tobacco data center, a suitable data quality control method was proposed which combined specific needs of main business construction and various projects, such as marketing,monopoly administration, logistics, human capital, integrated planning. Data from source system of tobacco companies were extracted to data warehouse of the provincial company to ensure data quality. Data model was designed mainly by star model in data mart layer. The collected data were then analyzed and displayed in BI application. It is concluded that the method can play an important role in enhancing the whole DC project efficiency.

data center; ETL; data warehouse; data quality

章惠民. 福建煙草數(shù)據(jù)中心數(shù)據(jù)質(zhì)量監(jiān)控技術(shù)應(yīng)用[J]. 中國(guó)煙草學(xué)報(bào),2017, 23(2)

章惠民,碩士研究生,高級(jí)工程師,主要研究方向?yàn)橐曈X(jué)圖像與模式識(shí)別、信息安全、物聯(lián)網(wǎng)、云計(jì)算、數(shù)據(jù)中心,Tel:0596-2931330,Email:huimin005@163.com

2016-06-22;< class="emphasis_bold">網(wǎng)絡(luò)出版日期:

日期:2017-02-13

猜你喜歡
煙草數(shù)據(jù)中心監(jiān)控
煙草具有輻射性?
酒泉云計(jì)算大數(shù)據(jù)中心
The Great Barrier Reef shows coral comeback
你被監(jiān)控了嗎?
Zabbix在ATS系統(tǒng)集中監(jiān)控中的應(yīng)用
民航綠色云數(shù)據(jù)中心PUE控制
看監(jiān)控?cái)z像機(jī)的4K之道
煙草依賴的診斷標(biāo)準(zhǔn)
煙草中茄酮的富集和應(yīng)用
基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
静宁县| 东港市| 洪江市| 错那县| 文山县| 甘肃省| 陕西省| 彭泽县| 霍州市| 河津市| 两当县| 开远市| 高清| 曲麻莱县| 沂源县| 三河市| 安阳市| 曲周县| 嵊泗县| 洞口县| 息烽县| 延长县| 甘谷县| 巍山| 邯郸县| 岑巩县| 岳阳县| 台安县| 荣成市| 五指山市| 方城县| 鄂托克旗| 手游| 鄄城县| 枣强县| 固镇县| 和田市| 通州区| 乃东县| 固安县| 贵南县|