国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)倉庫技術(shù)及應(yīng)用

2011-04-07 14:42:10趙運紅
關(guān)鍵詞:快照聯(lián)機數(shù)據(jù)倉庫

趙運紅

數(shù)據(jù)挖掘技術(shù)的核心模塊已經(jīng)歷了幾年的發(fā)展,包括機器學(xué)習(xí)、人工智能、數(shù)理統(tǒng)計。現(xiàn)在,廣泛的數(shù)據(jù)集成結(jié)合具有高性能的關(guān)系數(shù)據(jù)庫引擎,加上這些成熟的技術(shù),使數(shù)據(jù)挖掘技術(shù)進入實用階段變得可能。如何建立數(shù)據(jù)倉庫,并將其應(yīng)用到實踐是一個值得探討的問題。

一 數(shù)據(jù)倉庫概念

數(shù)據(jù)倉庫的概念最早是由美國著名學(xué)者W.H.Inmon提出的。在作為標(biāo)準(zhǔn)參考書《Building the Data Warehouse》中,他給數(shù)據(jù)倉庫下的定義是:“Subject-oriented,integrated,time - variant,nonvolatile collection of data to support management decision - making process”。[1]主題可以理解為數(shù)據(jù)倉庫研究的對象,比如客戶、經(jīng)銷商、商品和銷售部門等,數(shù)據(jù)模型和對數(shù)據(jù)的分析是所要關(guān)注的對象。集成是為了確保命名約定、編碼結(jié)構(gòu)和屬性度量的一致性。主要的技術(shù)有數(shù)據(jù)清理和數(shù)據(jù)集成等。要建立數(shù)據(jù)倉庫,必須對數(shù)據(jù)進行加工和集成,這是在數(shù)據(jù)進入數(shù)據(jù)倉庫之前的關(guān)鍵步驟,包括將初始數(shù)據(jù)中互相抵觸的部分統(tǒng)一起來,將初始數(shù)據(jù)在結(jié)構(gòu)上加以改變,以符合數(shù)據(jù)倉庫中對象面向主題的要求。區(qū)別于維護數(shù)據(jù)庫產(chǎn)生的日志數(shù)據(jù),數(shù)據(jù)倉庫中數(shù)據(jù)的特征是反映歷史,對于進入數(shù)據(jù)倉庫中的數(shù)據(jù)很少甚至根本不得修改,這是數(shù)據(jù)倉庫穩(wěn)定性的體現(xiàn)。數(shù)據(jù)倉庫是不同時間的數(shù)據(jù)集合,要滿足進行決策分析的需要,數(shù)據(jù)倉庫中的數(shù)據(jù)就要有保存時限,此外,還要標(biāo)明該數(shù)據(jù)的歷史時期。

二 數(shù)據(jù)倉庫創(chuàng)建

數(shù)據(jù)處理密集型的主要傳統(tǒng)行業(yè)如保險、金融、電信等首先應(yīng)用數(shù)據(jù)倉庫。在一九九六至一九九七年國外許多大型的數(shù)據(jù)倉庫開始建立。這樣一來,哪些行業(yè)最需要建立數(shù)據(jù)倉庫?哪些行業(yè)最有可能建立數(shù)據(jù)倉庫?據(jù)研究統(tǒng)計,如果這個行業(yè)滿足了下面2個基本條件:數(shù)據(jù)倉庫存在的客觀條件和提供建立數(shù)據(jù)倉庫外在的動力。即該行業(yè)聯(lián)機事務(wù)處理系統(tǒng)較為成熟;該行業(yè)面臨市場競爭的壓力較大。

1.不同數(shù)據(jù)類型的組織方式。

(1)一般的積累文件:以一天為單位,加工和優(yōu)化從數(shù)據(jù)庫中汲取的數(shù)據(jù),不斷堆積,分類存儲最終形成的一類文件。

(2)快照文件:這一類文件與一般的積累文件非常相似,唯一的區(qū)別就是本類文件是相差一段周期的DB的快照,比如每相隔1周或者數(shù)月作一次。

(3)輪轉(zhuǎn)綜合文件:數(shù)據(jù)存儲單位按時間分為天、星期、月和年等四個級別。首先,每天的數(shù)據(jù)都一一記錄在日數(shù)據(jù)集中;以星期為單位7天以后,將數(shù)據(jù)進行分析歸類編輯記錄在稱為周數(shù)據(jù)的周數(shù)據(jù)集中;第2個7天,每一天的日數(shù)據(jù)集又可以遞歸再次調(diào)用,以便用來存儲接下來的數(shù)據(jù)。這樣一來,如果周數(shù)據(jù)集的數(shù)據(jù)量堆積到4.4個(亦即一個月)后,又一次編輯分析歸類記錄到稱為月數(shù)據(jù)的數(shù)據(jù)集中……。從以上形成過程看,輪轉(zhuǎn)綜合文件的組織結(jié)構(gòu)是非常清晰的,數(shù)據(jù)量上面增加的并不太大。當(dāng)然,在數(shù)據(jù)細節(jié)方面損失較大,時間越長,虧損越大。

(4)連續(xù)文件:兩個或多個連續(xù)的簡化直接文件可以生成一個新的文件,叫做連續(xù)文件。事實上,連續(xù)文件仍然還可以和新的簡化直接文件進行歸并再次生成新的連續(xù)文件。

2.數(shù)據(jù)的更新和追加。

數(shù)據(jù)倉庫中的數(shù)據(jù)如果不進行更新或者沒有新的數(shù)據(jù)追加,對數(shù)據(jù)挖掘來說是沒有意義的。追加數(shù)據(jù)涉及到很多技術(shù),一是數(shù)據(jù)源的問題,二是新舊數(shù)據(jù)區(qū)分的問題。數(shù)據(jù)源與聯(lián)機事務(wù)處理的數(shù)據(jù)庫有很大關(guān)系。區(qū)分?jǐn)?shù)據(jù)的冗余技術(shù)主要有四種:

(1)添加更新時間標(biāo)志的方法:新加入的數(shù)據(jù)根據(jù)時間可分為兩類:含有時標(biāo)的和沒有的,對于前者在更新到數(shù)據(jù)庫中的時候,分析存儲組織數(shù)據(jù)時,同時將數(shù)據(jù)的更新時標(biāo)進行更新。但是,對于沒有時標(biāo)的就不好辦了,所以這種方法并不是總湊效。

(2)Δ(Delta)文件的方法:在數(shù)據(jù)挖掘的應(yīng)用中會產(chǎn)生一種文件,它的作用是將應(yīng)用更改的全部數(shù)據(jù)記錄下來這個文件就是Δ(Delta)文件。使用Δ文件不用掃描整個數(shù)據(jù)庫中的所有數(shù)據(jù),所以在時間開銷上要小很多,因而它的效率尤其高,不過,由于生成Δ文件的方法并不是非常普遍,所以相同的問題依然會出現(xiàn)。類似地,還有一種理論上可行的更改應(yīng)用代碼的技術(shù),它的策略是在新數(shù)據(jù)生成的過程同時將應(yīng)用代碼自動記錄下來。然而相關(guān)的數(shù)量非常龐大,而且修改代碼又相當(dāng)繁復(fù),因此說這是一種理論可行現(xiàn)實不可操作的方法。

(3)快照文件比較的方法:這種方法的關(guān)鍵步驟是快照比較區(qū)分?jǐn)?shù)據(jù)。具體來講,在數(shù)據(jù)抽取過程中進行快照操作,生成前后兩次快照,而后比較它們的差異和相同點,最后對數(shù)據(jù)進行確認(rèn)。由于在資源和性能上的影響這種方法實際意義沒有多大。

(4)日志文件:這大概是最可取的技術(shù)了,原因在于它是數(shù)據(jù)庫的內(nèi)在機制,對聯(lián)機事務(wù)處理系統(tǒng)的性能是不會有影響的。而且,它還兼具Δ文件的良好性質(zhì),提取數(shù)據(jù)同樣不用掃描整個數(shù)據(jù)庫而只需讀取局部日志文件即可。不過,原來日志文件包含的數(shù)據(jù)對于數(shù)據(jù)倉庫而言也許有較多冗余,因為它的格式是依據(jù)數(shù)據(jù)庫系統(tǒng)的要求來設(shè)定的。例如,如果一個記錄經(jīng)過重復(fù)多次的更新,日志文件會詳細地記錄每次的更新內(nèi)容,但事實上這些又都是重復(fù)冗余的;對于數(shù)據(jù)庫來說,這樣的操作是沒有必要的,也是對資源和性能的一種浪費。不過相比而言,日志文件還是最為可行的一種選擇策略。

3.數(shù)據(jù)的提取。

數(shù)據(jù)進入倉庫之前的工作是數(shù)據(jù)的抽取。數(shù)據(jù)倉庫的數(shù)據(jù)抽取主要的技術(shù)有復(fù)制(replication)、互連(interconnection)、轉(zhuǎn)換(conversion)、增量(incremental)、監(jiān)控(monitoring)和調(diào)度(scheduling)等六個方面。數(shù)據(jù)倉庫中的數(shù)據(jù)來源主要有OLTP、數(shù)據(jù)倉庫以外的數(shù)據(jù)源和脫機數(shù)據(jù)介質(zhì)存儲的數(shù)據(jù)等,從以上數(shù)據(jù)源中應(yīng)用數(shù)據(jù)抽取技術(shù)使數(shù)據(jù)倉庫形成一個相對獨立的數(shù)據(jù)環(huán)境。由于聯(lián)機事務(wù)處理系統(tǒng)不需要與數(shù)據(jù)倉庫的數(shù)據(jù)保持實時同步,所以數(shù)據(jù)抽取或定時進行或適時進行都是可取的,時間要求并不嚴(yán)格。但多個抽取操作的時間有效性則至關(guān)重要,例如抽取操作之間的順序、抽取操作執(zhí)行的時間長短和抽取操作成功與失敗等等對數(shù)據(jù)倉庫中的信息都會產(chǎn)生很大的影響。

數(shù)據(jù)抽取的技術(shù)日臻完善,基本都能夠滿足市場需求。對數(shù)據(jù)的抽取用戶唯一需要做的事情是確立數(shù)據(jù)源和數(shù)據(jù)目標(biāo)之間的對應(yīng)關(guān)系,剩下的抽取工作像代碼的生成系統(tǒng)會自動完成,極為方便。可是這些技術(shù)在整體集成度的融合上還是有缺陷的。各抽取技術(shù)之間的關(guān)系是松散的,有些技術(shù)之間還要通過有關(guān)程序進行協(xié)調(diào)。據(jù)調(diào)查統(tǒng)計,一些提供數(shù)據(jù)抽取工具和業(yè)務(wù)的供應(yīng)商僅支持有限的數(shù)據(jù)類型,這部分與實際應(yīng)用密切相關(guān)的工作有時候還不得不進行數(shù)據(jù)轉(zhuǎn)換,甚至要加入嵌入式用戶編程。正是這樣的原因,數(shù)據(jù)抽取工具在實際實施過程中應(yīng)用的并不廣泛。而數(shù)據(jù)抽取過程能否因為具體工具的使用而投入有效的管理、調(diào)度和維護等則反而顯得更為重要。

4.數(shù)據(jù)的管理和存儲。

數(shù)據(jù)倉庫和其他的傳統(tǒng)數(shù)據(jù)庫在組織方式與管理方式這兩個特性上有很大區(qū)別。在一定程度上決定了它對外部數(shù)據(jù)表現(xiàn)形式。即建立數(shù)據(jù)倉庫核心決定采用什么產(chǎn)品和技術(shù),就得分析相應(yīng)的數(shù)據(jù)倉庫要具有什么樣的技術(shù)手段。這充分證明了數(shù)據(jù)倉庫中數(shù)據(jù)的管理和存儲才是真正的關(guān)鍵部分是實質(zhì)所在。

首先應(yīng)用數(shù)據(jù)分割技術(shù)實現(xiàn)數(shù)據(jù)倉庫對大量數(shù)據(jù)的存儲和管理。比起傳統(tǒng)數(shù)據(jù)庫對事務(wù)處理,數(shù)據(jù)倉庫中的數(shù)據(jù)量要大很多倍,而且具有很強的時間積累效應(yīng)。對于數(shù)據(jù)處理能力的考慮,關(guān)系數(shù)據(jù)庫系統(tǒng)采用的技術(shù),以及應(yīng)用相關(guān)技術(shù)開發(fā)的產(chǎn)品一直處于領(lǐng)跑的位置。在數(shù)據(jù)管理和數(shù)據(jù)存儲技術(shù)上其它數(shù)據(jù)管理系統(tǒng)是望塵莫及的。目前數(shù)據(jù)分割技術(shù)已經(jīng)在很多關(guān)系數(shù)據(jù)庫系統(tǒng)中應(yīng)用,這種應(yīng)用的思想是分散數(shù)據(jù)庫表,分別用不同的物理設(shè)備進行存儲強化系統(tǒng)對數(shù)據(jù)量的管理能力。

其次數(shù)據(jù)倉庫的并行處理能力提高了管理存儲數(shù)據(jù)的效率。比較數(shù)據(jù)的處理方式很容易發(fā)現(xiàn),容量短小訪問密集,這是傳統(tǒng)數(shù)據(jù)庫用戶訪問數(shù)據(jù)的特征;數(shù)據(jù)倉庫對數(shù)據(jù)的處理是多任務(wù)多處理機的,為滿足大數(shù)據(jù)量的要求,必須均衡分割用戶的請求操作,使它們力求合理這是關(guān)鍵所在。這就是高效的并發(fā)操作。數(shù)據(jù)量龐大訪問頻次低,這種數(shù)據(jù)倉庫用戶的操作使得單個單次查詢變得紛繁。這樣以來工作方式就有了很大的不同。所以,在數(shù)據(jù)倉庫中并行處理技術(shù)比以往顯得更為重要。

現(xiàn)在對數(shù)據(jù)倉庫的TPC-D基準(zhǔn)測試中,增加了一個稱為“系統(tǒng)功力”(QPPD)的單用戶環(huán)境的測試。通過觀察QPPD的值的影響來判斷系統(tǒng)的并行處理能力的強弱。目前,在并行處理方面像基于數(shù)據(jù)分割的并行、對查詢語句的分解并行關(guān)系數(shù)據(jù)庫系統(tǒng)都能做到,而對于支持多環(huán)境多處理機能力上也沒有什么影響。

最后要分析數(shù)據(jù)倉庫針對決策支持查詢的優(yōu)化問題。數(shù)據(jù)庫系統(tǒng)的索引機制(indexing mechanism)、數(shù)據(jù)排序(data sorting)、連接策略(connection policy)、查詢優(yōu)化器(the query optimizer)和采樣(sampling)等諸多技術(shù)部分是決策支持優(yōu)化研究的重要內(nèi)容。普通關(guān)系數(shù)據(jù)庫對于sex、age和areas等具有大量重復(fù)值的field差不多沒有效果,這是因為采用B-tree類的索引的結(jié)果。采用二進制位表示字段狀態(tài),變查詢過程為篩選過程,引入位圖索引機制,使單個計算機的基本操作具有可篩選多條記錄的功能,這就是擴充的關(guān)系數(shù)據(jù)庫。數(shù)據(jù)倉庫中的數(shù)據(jù)量在數(shù)據(jù)表的分布是極不對稱的,這容易導(dǎo)致普通查詢優(yōu)化器計算出的最佳查詢路徑往往不是最優(yōu)的。所以,根據(jù)索引的使用特性,改進關(guān)系數(shù)據(jù)庫的面向決策支持查詢優(yōu)化,增加多重索引掃描的能力非常必要。

三 數(shù)據(jù)倉庫的應(yīng)用原則

1.堅持原則。

對原始數(shù)據(jù),必須堅持的原則是不局限在業(yè)務(wù)系統(tǒng)的現(xiàn)狀。數(shù)據(jù)倉庫本身獨立于業(yè)務(wù)系統(tǒng)之外,要以管理層分析決策的需求為實施的主線和出發(fā)點,在設(shè)計中預(yù)留空間給不確定數(shù)據(jù)是可行的。采用各種途徑加載數(shù)據(jù),為收集數(shù)據(jù)設(shè)計專門的輸入接口,比如客戶個人資料的獲取;在分析中標(biāo)注單個數(shù)據(jù)的有效時間同時放寬數(shù)據(jù)的時效性;規(guī)范業(yè)務(wù)系統(tǒng)標(biāo)識低質(zhì)量的數(shù)據(jù)。這些都是處理數(shù)據(jù)的完整性和質(zhì)量問題可以采取的有效方式。

2.抽取方式。

數(shù)據(jù)的抽取要堅持快捷、簡便、易維護的原則。不要浪費時間在討論單一抽取工具的選型上,因為為了適應(yīng)原始數(shù)據(jù)的多樣性,數(shù)據(jù)倉庫系統(tǒng)常常同時存在很多種數(shù)據(jù)抽取方式。

3.數(shù)據(jù)展現(xiàn)。

數(shù)據(jù)倉庫的使用,使企業(yè)管理人員以豐富而動態(tài)的聯(lián)機分析和查詢了解企業(yè)和市場的動態(tài),逐漸脫離了對固定報表等的依賴。這是數(shù)據(jù)倉庫在聯(lián)機事務(wù)處理方面的優(yōu)勢,而在固定格式的報表重現(xiàn)上,數(shù)據(jù)倉庫的分析工具有時還真不如專門定制的程序。

4.實施范圍。

數(shù)據(jù)倉庫的價值在于使用,解決好與選擇具體產(chǎn)品相關(guān)的重要問題,如明確系統(tǒng)的使用范疇和客戶的應(yīng)用模式等,制訂明確的計劃和時間表,分階段加入新的產(chǎn)品和技術(shù),規(guī)避無休止的選型和測試等。這都是在定義實施計劃之前要統(tǒng)籌好的。

[1]W.H.Inmon.Building the Data Warehouse[M].New York:John Wiley&Sons,1996.

[2]吳澤雄.數(shù)據(jù)倉庫淺談[D].海南:海南省通信學(xué)會學(xué)術(shù)年會論文集,2005.

[3]徐銳.數(shù)據(jù)倉庫在商業(yè)銀行財務(wù)分析體系中的應(yīng)用[D].財政部財政科學(xué)研究所,2010.

[4]王珊.數(shù)據(jù)倉庫技術(shù)與聯(lián)機分析處理[M].北京:科學(xué)出版社,1998.

猜你喜歡
快照聯(lián)機數(shù)據(jù)倉庫
多聯(lián)機安裝施工技術(shù)探討
EMC存儲快照功能分析
天津科技(2022年5期)2022-05-31 02:18:08
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
創(chuàng)建磁盤組備份快照
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
高溫多聯(lián)機空調(diào)系統(tǒng)的控制方式研究
CALIS聯(lián)機合作編目中的授權(quán)影印書規(guī)范著錄
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐
數(shù)據(jù)恢復(fù)的快照策略
霍州市| 山东省| 洛川县| 甘孜| 巨野县| 固阳县| 蕉岭县| 饶阳县| 庆元县| 新蔡县| 白银市| 锡林浩特市| 大竹县| 灵武市| 玉树县| 博客| 从江县| 丰顺县| 潢川县| 天台县| 容城县| 曲靖市| 崇义县| 新晃| 县级市| 孟津县| 行唐县| 武鸣县| 通河县| 江北区| 密山市| 廉江市| 彭阳县| 镇赉县| 广德县| 曲阜市| 湘乡市| 水富县| 牟定县| 濮阳市| 蚌埠市|