国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

煤炭企業(yè)數(shù)據(jù)中心ETL智能化調(diào)度研究*

2012-12-02 06:02:32王振宇陳紅星劉道園
中國煤炭 2012年1期
關(guān)鍵詞:觸發(fā)器數(shù)據(jù)倉庫數(shù)據(jù)源

王振宇 陳紅星 劉道園

(煤炭科學(xué)研究總院,北京市朝陽區(qū),100013)

煤炭企業(yè)數(shù)據(jù)中心ETL智能化調(diào)度研究*

王振宇 陳紅星 劉道園

(煤炭科學(xué)研究總院,北京市朝陽區(qū),100013)

ETL(Extraction Transformation Loading)作為煤炭企業(yè)數(shù)據(jù)中心建設(shè)過程中的重要環(huán)節(jié),通常需要人為調(diào)度來實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、清洗以及裝載,數(shù)據(jù)挖掘的實(shí)時性和便利性存在著很大局限。本文對ETL調(diào)度過程進(jìn)行研究,提出了智能化調(diào)度策略,實(shí)現(xiàn)了數(shù)據(jù)調(diào)度無需人工干預(yù)即可按照預(yù)定規(guī)則執(zhí)行。經(jīng)過煤炭企業(yè)數(shù)字化礦山建設(shè)項(xiàng)目的應(yīng)用實(shí)例檢驗(yàn)后,證明了此方案的可行性。

數(shù)據(jù)中心 數(shù)據(jù)挖掘 ETL 智能調(diào)度

隨著國家對數(shù)字化礦山建設(shè)的有效推進(jìn)和煤炭企業(yè)的快速發(fā)展,國內(nèi)很多煤炭企業(yè)都建立了自己的數(shù)據(jù)中心以適應(yīng)各種生產(chǎn)數(shù)據(jù)、經(jīng)營數(shù)據(jù)、管理數(shù)據(jù)的爆炸性增長以及為管理層分析決策提供支持。其中數(shù)據(jù)倉庫是數(shù)據(jù)中心建設(shè)過程的核心內(nèi)容,而ETL過程又是數(shù)據(jù)倉庫過程中的關(guān)鍵一環(huán)。由于井下生產(chǎn)環(huán)境的復(fù)雜性,安全相關(guān)的監(jiān)控?cái)?shù)據(jù)隨時產(chǎn)生,而當(dāng)前的ETL工具大都需要人為觸發(fā)調(diào)度才能夠?qū)崿F(xiàn)數(shù)據(jù)抽取、轉(zhuǎn)換、裝載到數(shù)據(jù)倉庫。在這種情況下,數(shù)據(jù)達(dá)到數(shù)據(jù)倉庫的時間存在滯后性,具有很大的誤判率,為數(shù)據(jù)分析決策埋下安全隱患。因此,一種數(shù)據(jù)挖掘過程的智能化調(diào)度方案急需問世。

1 ETL在數(shù)據(jù)倉庫中的重要性

由于煤炭企業(yè)各地區(qū)各部門信息化發(fā)展程度的差異以及各部門的操作系統(tǒng)平臺、數(shù)據(jù)模式、數(shù)據(jù)庫類型等等的不同,導(dǎo)致了資源分散、各部門各自為政、互不通訊、互不兼容,形成了諸多信息孤島,致使整個煤炭企業(yè)管理部門的數(shù)據(jù)應(yīng)用水平不高,綜合分析能力較弱,難以為決策者提供綜合、高效、準(zhǔn)確的信息。企業(yè)生產(chǎn)經(jīng)營活動所產(chǎn)生的信息量逐漸增大,真正具有直接利用價值的數(shù)據(jù)卻很少,需要對大量的數(shù)據(jù)信息進(jìn)行更深層次地過濾與分折,以發(fā)現(xiàn)和挖掘內(nèi)在關(guān)聯(lián)、有利于提高企業(yè)競爭力、為領(lǐng)導(dǎo)決策提供依據(jù)和用戶所需要的信息。這就是企業(yè)競爭對數(shù)據(jù)中心建設(shè)的需要,而數(shù)據(jù)中心建立的首要問題就是ETL過程:按照預(yù)先定義的規(guī)則,將分布在多處的數(shù)據(jù)源數(shù)據(jù)經(jīng)過清洗、過濾匯聚到規(guī)模龐大的數(shù)據(jù)倉庫中。

2 ETL體系架構(gòu)及功能描述

2.1 體系架構(gòu)

數(shù)據(jù)中心把數(shù)據(jù)源和目標(biāo)數(shù)據(jù)庫分開,系統(tǒng)從最左邊的數(shù)據(jù)源開始抽取數(shù)據(jù),經(jīng)過清洗、轉(zhuǎn)換后傳輸裝載到右邊的目標(biāo)數(shù)據(jù)庫。數(shù)據(jù)中心整體框架示意圖如圖1所示。

圖1 數(shù)據(jù)中心整體框架示意圖

2.2 數(shù)據(jù)抽取

在同一業(yè)務(wù)系統(tǒng)中可能會遇到多種數(shù)據(jù)源的情況,因此要對各種工具提供的數(shù)據(jù)源接口類型深入了解。比如,針對同一種數(shù)據(jù)庫使用原廠商自己的專用接口還是通用接口(JDBC/ODBC),數(shù)據(jù)抽取的效率將會有較大差別,這直接影響到在有限的時間內(nèi)能不能完成預(yù)訂的數(shù)據(jù)交換任務(wù)??紤]到數(shù)據(jù)交換的擴(kuò)展性和通用性,應(yīng)該盡可能地支持常用數(shù)據(jù)源對象。目前,煤炭系統(tǒng)數(shù)據(jù)中心常用的數(shù)據(jù)源對象(數(shù)據(jù)源類型)包括數(shù)據(jù)庫、數(shù)據(jù)文件和消息隊(duì)列3種。

(1)數(shù)據(jù)庫。主要支持的數(shù)據(jù)庫包括Oracle、SQL Server、DB2、MySQL等主流數(shù)據(jù)庫。

(2)數(shù)據(jù)文件。支持的文件類型包括有分隔符的TXT、Excel、CSV、XML等格式的文件。

(3)消息隊(duì)列。由客戶端API傳來的數(shù)據(jù)或者是消息隊(duì)列傳來的數(shù)據(jù),以數(shù)據(jù)流的形式存儲,經(jīng)過處理后的數(shù)據(jù)也可以以數(shù)據(jù)流的形式輸出或放到消息隊(duì)列中,由消息中間件作可靠的傳輸處理。

2.3 數(shù)據(jù)轉(zhuǎn)換、清洗及裝載

在煤炭企業(yè)內(nèi)部所用的業(yè)務(wù)系統(tǒng)中,由于對業(yè)務(wù)系統(tǒng)的研發(fā)一般都有一個較長的時間周期,這就造成一種數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中可能會存在多種不同的數(shù)據(jù)類型和存儲格式,造成了各個不同數(shù)據(jù)源之間的關(guān)鍵字不一致、度量單位不統(tǒng)一、字符編碼不一致、字段命名不一致、數(shù)據(jù)記錄的合并與拆分不一致、增量數(shù)據(jù)維護(hù)以及數(shù)據(jù)清洗規(guī)則不統(tǒng)一等問題,甚至還有許多數(shù)據(jù)倉庫中所要求的數(shù)據(jù)在業(yè)務(wù)系統(tǒng)中并不直接存在,而是需要根據(jù)某些算法公式或者某些計(jì)算公式對各部分?jǐn)?shù)據(jù)進(jìn)行運(yùn)算才能得到。因此,這就要求ETL必須對所抽取到的數(shù)據(jù)能夠進(jìn)行靈活的計(jì)算、合并、拆分、過濾、排序、映射、笛卡爾積等轉(zhuǎn)換操作。經(jīng)轉(zhuǎn)換后的數(shù)據(jù),可以直接裝載到目標(biāo)數(shù)據(jù)倉庫,也可以通過消息中間件以消息的方式傳輸?shù)竭h(yuǎn)程目標(biāo)。

3 ETL智能化調(diào)度策略

當(dāng)數(shù)據(jù)源中的數(shù)據(jù)發(fā)生變化時,ETL智能化調(diào)度能夠?qū)⑿略龅臄?shù)據(jù)自動傳到數(shù)據(jù)倉庫內(nèi),無需人工觸發(fā)即可執(zhí)行ETL過程,這樣在減少勞動力和降低企業(yè)成本的同時,提高了企業(yè)生產(chǎn)運(yùn)營效率。

在煤炭生產(chǎn)現(xiàn)場突然監(jiān)測到威脅井下作業(yè)人員安全的數(shù)據(jù)后,為了在盡可能短的時間內(nèi)讓這些數(shù)據(jù)到達(dá)數(shù)據(jù)中心進(jìn)而為分析決策提供支持,就需要讓ETL過程能夠自動觸發(fā)調(diào)度。具體策略為利用數(shù)據(jù)庫的觸發(fā)器機(jī)制完成自動觸發(fā),通過觸發(fā)器建立存儲過程,再通過存儲過程調(diào)用ETL過程。一旦數(shù)據(jù)源中的數(shù)據(jù)有增量,數(shù)據(jù)庫會自動觸發(fā)調(diào)度ETL實(shí)現(xiàn)增量抽取,從而實(shí)現(xiàn)數(shù)據(jù)實(shí)時到達(dá)數(shù)據(jù)倉庫內(nèi)。然而,TXT、Excel、CSV以及XML等類型的數(shù)據(jù)源文件由于自身技術(shù)的限制,采用上述增量觸發(fā)的方式難度較大,但是可以采用定時執(zhí)行機(jī)制,即讓ETL經(jīng)過一定的時間間隔自動執(zhí)行,為了不影響執(zhí)行效率,最短可以設(shè)定到1s。

3.1 基于數(shù)據(jù)庫觸發(fā)器智能化調(diào)度

觸發(fā)器實(shí)際上是一種特殊的存儲過程,當(dāng)某一個數(shù)據(jù)庫表的數(shù)據(jù)發(fā)生變化時,它隱藏式地被觸發(fā)執(zhí)行,它比數(shù)據(jù)庫本身標(biāo)準(zhǔn)的功能有更精細(xì)和更復(fù)雜的數(shù)據(jù)控制能力。下面以O(shè)racle數(shù)據(jù)庫為例講解其觸發(fā)調(diào)度實(shí)現(xiàn)過程:首先準(zhǔn)備好ETL調(diào)度程序ETLRun.Class,在$ORACLE_HOME/bin目錄下有個LOADJAVA命令,使用此命令可將ETLRun.Class程序加載到Oracle數(shù)據(jù)庫中。進(jìn)入到Oracle數(shù)據(jù)庫,在SQLPLUS命令行輸入create or replace procedure Modify(name varchar)as languagejava name'ETLRun.modifyjava.lang.String'執(zhí)行命令后系統(tǒng)會提示創(chuàng)建存儲過程成功。最后,在Oracle數(shù)據(jù)庫管理工具TOAD里直接針對某個表增加觸發(fā)器trigger,關(guān)鍵代碼如下:

begin

if:old.name='time'then

Modify(:new.value);

end if;

end;至此,在Oracle的觸發(fā)器trigger里,一旦有數(shù)據(jù)插入就可以自動調(diào)用ETL過程。

3.2 多數(shù)據(jù)源基于定時機(jī)制的智能化調(diào)度

這里的定時指的是根據(jù)預(yù)定的時間間隔大小循環(huán)執(zhí)行或者單次執(zhí)行,煤炭行業(yè)常用方式是循環(huán)執(zhí)行?;贘ava的循環(huán)執(zhí)行相對簡單,只要采用schedule方法的另一個重載函數(shù)public void schedule(TimerTask task,long delay,long period)即可實(shí)現(xiàn),其中第1個參數(shù)task指要執(zhí)行的任務(wù)名稱,第2個參數(shù)delay指延遲時間,第3個參數(shù)就是時間間隔,它是個long型的毫秒數(shù),如果希望一個ETL任務(wù)執(zhí)行1次/min,第3個參數(shù)值就要賦值為60×1000。

以上兩種智能化調(diào)度方式可以根據(jù)實(shí)際項(xiàng)目需要來進(jìn)行選擇,頻繁地觸發(fā)調(diào)度會使線程堆積,影響執(zhí)行效率,如果客戶對數(shù)據(jù)的實(shí)時性要求不高,或者數(shù)據(jù)源數(shù)據(jù)增量少且不頻繁,建議選擇數(shù)據(jù)庫觸發(fā)器方式;而如果用戶數(shù)據(jù)的增量較為頻繁且數(shù)據(jù)量又大,建議采用定時機(jī)制。

4 應(yīng)用

圖2 定時觸發(fā)調(diào)度配置窗口

本文所研究的ETL智能化調(diào)度策略已經(jīng)在峰峰集團(tuán)梧桐莊礦數(shù)字化礦山建設(shè)中得以應(yīng)用,由于梧桐莊礦現(xiàn)有數(shù)據(jù)源使用的是SQL Server數(shù)據(jù)庫,源數(shù)據(jù)為生產(chǎn)數(shù)據(jù),數(shù)據(jù)量大,實(shí)時性要求不高,因此選擇基于定時機(jī)制進(jìn)行智能化觸發(fā)調(diào)度,并以可視化配置的方式為用戶服務(wù)。首先按照預(yù)定規(guī)則對ETL過程進(jìn)行配置,然后根據(jù)實(shí)際需要設(shè)定執(zhí)行時間,如圖2所示,用戶一旦啟動Job定時功能,ETL過程將按照預(yù)設(shè)時間循環(huán)執(zhí)行,滿足配置的智能化需求。

5 結(jié)語

目前,數(shù)據(jù)中心ETL的應(yīng)用已經(jīng)相當(dāng)廣泛,并向著集成化、智能化方向發(fā)展,越少的人工干預(yù)就越體現(xiàn)出其在同類產(chǎn)品中的優(yōu)越性。本文針對不同的數(shù)據(jù)源提出的兩種ETL調(diào)度方法解決了以往ETL過程調(diào)度的實(shí)時性問題。然而,本文提出的方法由于數(shù)據(jù)源的千變?nèi)f化存在著局限性,探索一套通用的自動ETL調(diào)度機(jī)制,使其更加實(shí)時、自動、高效和智能仍是下一步研究的重點(diǎn)。

[1] 楊學(xué)瑜,顧合英.數(shù)據(jù)挖掘在選煤中的應(yīng)用探討[J].中國煤炭,2004(4)

[2] 楊毅,孫超.基于數(shù)據(jù)倉庫的煤炭運(yùn)銷決策支持系統(tǒng)研究[J].中國煤炭,2009(2)

[3] 葛斌,孟祥瑞,柏杏麗.煤炭企業(yè)ERP理論及應(yīng)用技術(shù)研究[J].中國煤炭,2004(7)

[4] 王建偉.煤炭企業(yè)如何實(shí)施ERP系統(tǒng)[J].中國煤炭,2002(5)

[5] 劉福國.基于數(shù)據(jù)挖掘的鋼球磨煤機(jī)運(yùn)行特性建模和優(yōu)化[J].中國煤炭,2010(5)

[6] John Poole等.公共倉庫元模型數(shù)據(jù)倉庫集成標(biāo)準(zhǔn)導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2004

[7] 何雪利.數(shù)字化校園建設(shè)中ETL技術(shù)實(shí)現(xiàn)數(shù)據(jù)集成[J].計(jì)算機(jī)工程應(yīng)用技術(shù),2010(6)

Research on ETL intelligent scheduling in data center of coal enterprises

Wang Zhenyu,Chen Hongxing,Liu Daoyuan
(China Coal Research Institute,Chaoyang,Beijing 100013,China)

ETL(Extraction Transformation Loading),being an important link in the construction of Data Center,usually needs manual scheduling to achieve the data extraction,transformation,cleaning and loading.Thus it can be seen that there is a major limitation on the realtime performance and the convenience.Therefore,the scheduling process of ETL was studied,and the intelligent scheduling strategy was proposed,without manual intervention.That is to say,the ETL process can automatically perform according to predetermined rules.A datamation construction project of a coal enterprise proved the feasibility of this scheme.

data center,data mining,ETL,intelligent scheduling

TD76

A

國家科技支撐計(jì)劃課題——《煤礦安全高可靠性監(jiān)控系統(tǒng)關(guān)鍵技術(shù)研究——監(jiān)控系統(tǒng)數(shù)據(jù)可靠性和挖掘技術(shù)研究及示范》(2009BAK54B05)

王振宇(1977-),男,北京人,高級工程師,主要從事煤炭企業(yè)信息化、數(shù)字化礦山、煤炭企業(yè)數(shù)據(jù)中心、信息化集成控制、管理信息系統(tǒng)方面的科研及應(yīng)用工作。

(責(zé)任編輯 路 強(qiáng))

猜你喜歡
觸發(fā)器數(shù)據(jù)倉庫數(shù)據(jù)源
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
主從JK觸發(fā)器邏輯功能分析
電子世界(2017年22期)2017-12-02 03:03:45
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
使用觸發(fā)器,強(qiáng)化安全性
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實(shí)踐
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
分布式異構(gòu)數(shù)據(jù)源標(biāo)準(zhǔn)化查詢設(shè)計(jì)與實(shí)現(xiàn)
永新县| 石泉县| 白山市| 北辰区| 同心县| 咸宁市| 和硕县| 汉源县| 稷山县| 天全县| 海门市| 绵竹市| 海伦市| 乌鲁木齐市| 襄城县| 靖远县| 黄山市| 佛坪县| 乌拉特后旗| 青浦区| 太和县| 苏尼特左旗| 集安市| 阳泉市| 托里县| 银川市| 淅川县| 通州区| 九龙坡区| 九江县| 翁牛特旗| 咸阳市| 芮城县| 兴山县| 定安县| 阜新| 青河县| 贵德县| 千阳县| 仁怀市| 靖西县|