国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)倉庫建設(shè)中的應(yīng)用

2017-05-31 23:50:45夏慶玲
中國科技博覽 2017年12期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫數(shù)據(jù)挖掘

夏慶玲

[摘 要]數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是數(shù)據(jù)庫技術(shù)兩個(gè)研究方向,數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供高質(zhì)量的數(shù)據(jù),同時(shí)數(shù)據(jù)挖掘技術(shù)支持?jǐn)?shù)據(jù)倉庫的建設(shè)。文章重點(diǎn)論述了如何將數(shù)據(jù)挖掘技術(shù)應(yīng)用于數(shù)據(jù)倉庫的建設(shè)中,從而提高數(shù)據(jù)倉庫建設(shè)的質(zhì)量和效率。

[關(guān)鍵詞]數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;關(guān)聯(lián)規(guī)則;聚類;模式

中圖分類號:TM241 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-914X(2017)12-0284-01

1 引言

隨著信息技術(shù)的廣泛應(yīng)用,企業(yè)時(shí)刻都在產(chǎn)生和利用大量的數(shù)據(jù),在享受數(shù)據(jù)帶來信息的同時(shí),也面臨著如何處理這些日益龐大的數(shù)據(jù)的問題。為了更好地適應(yīng)新技術(shù)和提高企業(yè)的競爭力,各大企業(yè)都在對自己的信息管理系統(tǒng)進(jìn)行改造,以適應(yīng)新的要求。數(shù)據(jù)倉庫和數(shù)據(jù)挖掘作為數(shù)據(jù)庫技術(shù)新的研究方向,在解決企業(yè)面臨的問題方面發(fā)揮了較好的作用。數(shù)據(jù)倉庫是面向主題的、綜合的、不同時(shí)間的、穩(wěn)定的數(shù)據(jù)的集合,用于支持經(jīng)營管理中的決策制定過程;數(shù)據(jù)挖掘是從數(shù)據(jù)集中識別出有效的、新穎的、潛在的、有用的以及最終可理解的模式的高級處理過程。如何將這兩種技術(shù)較好地結(jié)合起來,為企業(yè)提供信息支持成為人們關(guān)注的問題。通常數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合方式有三種:將數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)倉庫的OLAP技術(shù)集成為數(shù)據(jù)倉庫的前端工具;數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供高效的數(shù)據(jù)庫技術(shù)和高質(zhì)量的數(shù)據(jù);數(shù)據(jù)挖掘技術(shù)支持?jǐn)?shù)據(jù)倉庫的建設(shè)。前兩種方式已有較廣泛的研究,但第三種方式還很少有人涉足。

本文將對第三種方式進(jìn)行深入的探討,提出在數(shù)據(jù)倉庫建設(shè)中,可以使用的數(shù)據(jù)挖掘技術(shù)并予以展望。以下按照數(shù)據(jù)倉庫建設(shè)的各個(gè)階段,介紹如何使用數(shù)據(jù)挖掘技術(shù)支持?jǐn)?shù)據(jù)倉庫的建設(shè)。

2 數(shù)據(jù)挖掘技術(shù)在數(shù)據(jù)倉庫建設(shè)中的應(yīng)用

2.1 數(shù)據(jù)分析

在數(shù)據(jù)倉庫的建設(shè)中,當(dāng)確定了其所需的信息和包含信息的數(shù)據(jù)源后,就要從結(jié)構(gòu)、語義、數(shù)據(jù)質(zhì)量等各個(gè)方面的數(shù)據(jù)源進(jìn)行分析。建設(shè)數(shù)據(jù)倉庫用到的數(shù)據(jù)源常常是各種各樣的,而且由于各種原因,數(shù)據(jù)源的文檔資料不是很完整,它們的字段信息、語義結(jié)構(gòu)等并沒有記錄在案,這使得數(shù)據(jù)倉庫的建設(shè)尤為困難。數(shù)據(jù)倉庫的建設(shè)者通過數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)隱含在數(shù)據(jù)庫中的數(shù)據(jù)之間的相關(guān)數(shù)據(jù)結(jié)構(gòu)和字段的語義信息。

(1)字段的語義

通常,字段的確切語義是不可能從字段的名字和字段的數(shù)據(jù)類型推斷出來的,但其相關(guān)信息可以通過數(shù)據(jù)挖掘,依據(jù)數(shù)據(jù)之間的函數(shù)相關(guān)性得到。

關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間的關(guān)聯(lián)或相關(guān)聯(lián)系的。在表2中有如下的關(guān)聯(lián)規(guī)則(CGXH=34)→(CN=1):90%修理的CGXH=34(電視機(jī)為34英寸)的電視,也具有屬性CN=1。同時(shí)由背景知識:34英寸的電視機(jī)絕大多數(shù)都在城市銷售,農(nóng)村銷售的很少,因此我們判斷CN字段用于表示城市還是農(nóng)村。

數(shù)據(jù)挖掘的決策樹和規(guī)則歸納,以及統(tǒng)計(jì)分析的多元和貝葉斯網(wǎng)絡(luò)都可以對字段所表示的語義進(jìn)行較好的解釋,總之使用數(shù)據(jù)挖掘技術(shù)得到字段間的相關(guān)性模型并結(jié)合背景知識,就可以較好地推斷出字段的語義。

(2)編碼規(guī)則

許多字段值都是以編碼的形式存在,產(chǎn)品的很多信息都隱含在這個(gè)編碼中。找到該字段的編碼方案,對理解其語義往往是至關(guān)重要的。

通過字段間的相關(guān)性,可以推斷出字段值的編碼信息。例如在(1)中:通過關(guān)聯(lián)規(guī)則,有如下知識:90%修理的CGXH=34(電視機(jī)為34英寸)的電視,其CN屬性值為1,從而可以判斷1代表了城市。如果字段的編碼方案是隨時(shí)間變化的,則數(shù)據(jù)挖掘技術(shù)能夠標(biāo)示編碼方案是何時(shí)變化的以及受影響的編碼位。假設(shè)在CPID的編碼中表示顯像管的位置已知,而且表示某種型號的顯像管的編碼從某一時(shí)間起不再使用,那么數(shù)據(jù)挖掘技術(shù)能標(biāo)志該種顯像管不再使用的時(shí)間。假設(shè)該型號的顯像管的編碼為“07”,一種可能是顯像管編碼順序?yàn)?7,03,07,07,02,02,07,03,03,03,01,它們與“07”的相對頻率為1.00,0.40,0.60,0.73,0.64,0.50,0.56,0.46,0.40,0.38。利用數(shù)據(jù)挖掘技術(shù),就可以找到從什么時(shí)間起“07”的相對頻率是單調(diào)下降的,這里,時(shí)間是從第七個(gè)編碼開始的。另外,神經(jīng)網(wǎng)絡(luò)也具有標(biāo)志編碼方案是何時(shí)變化的以及受影響的編碼位的能力。

(3)完整性約束

完整性約束是指字段的值域以及不同字段之間的約束關(guān)系。它對于理解數(shù)據(jù)源和檢查不正確的數(shù)據(jù)均特別有效。

數(shù)據(jù)挖掘技術(shù)和統(tǒng)計(jì)方法都可以依據(jù)數(shù)據(jù)庫中的數(shù)據(jù)推導(dǎo)出完整性約束。例如:通過可視化的方法和依賴模型找到字段值的分布特性。在上面的例子中,數(shù)據(jù)挖掘技術(shù)能發(fā)現(xiàn)屬性(顯像管型號)、GL(功率)和ZL(重量)之間的關(guān)系;還能發(fā)現(xiàn)字段的取值范圍(包括了字段大部分的取值);例子中有99%ZL屬于[20,45]規(guī)則,該范圍可以被認(rèn)為是字段ZL的值域,在此范圍之外的取值被認(rèn)為是錯(cuò)誤的。

2.2 數(shù)據(jù)源結(jié)構(gòu)上的集成

對數(shù)據(jù)源內(nèi)容和結(jié)構(gòu)的集成,主要是為了解決數(shù)據(jù)源之間語義的沖突,最終將多個(gè)數(shù)據(jù)源集成到一個(gè)全局?jǐn)?shù)據(jù)源,集成不同的數(shù)據(jù)源時(shí)會遇到如下幾種沖突:

(1)描述沖突。如果同一個(gè)實(shí)體在不同的系統(tǒng)中以不同的方案進(jìn)行描述,那么就會產(chǎn)生命名、閾值和量綱等方面的描述沖突。

(2)結(jié)構(gòu)沖突。如果同一個(gè)實(shí)體在不同的系統(tǒng)中使用不同的結(jié)構(gòu)表示,不同的系統(tǒng)之間會產(chǎn)生結(jié)構(gòu)沖突。

(3)數(shù)據(jù)沖突。數(shù)據(jù)沖突是由錯(cuò)誤的數(shù)據(jù)引起的。引起沖突的原因有:不正確的輸入和輸出、不同的量綱、不同的精確度和不同的表示方法等。

數(shù)據(jù)挖掘在一定程度上可以解決這些沖突。如果字段間相關(guān)性模型是已知的,則數(shù)據(jù)挖掘技術(shù)能直接計(jì)算出函數(shù);如果不知道字段間的函數(shù)相關(guān)性模型,則必須先找到該模型,然后再計(jì)算函數(shù)的系數(shù)。表1和表2中的JG字段,一個(gè)以人民幣表示,另一個(gè)以美元表示,兩者是線性關(guān)系,可以計(jì)算出兩者轉(zhuǎn)換的比例因子。數(shù)據(jù)挖掘技術(shù)不僅可以發(fā)現(xiàn)準(zhǔn)確數(shù)據(jù)間的關(guān)系,而且可以發(fā)現(xiàn)準(zhǔn)確數(shù)據(jù)和抽象數(shù)據(jù)間的關(guān)系。例如通過關(guān)聯(lián)規(guī)則(JG=1180)→(JG-Group=cheap),在準(zhǔn)確數(shù)據(jù)和抽象數(shù)據(jù)之間建立對應(yīng)關(guān)系。

2.3 多維數(shù)據(jù)建模

在數(shù)據(jù)倉庫的視圖模型中,使用多維模型是使用OLAP進(jìn)行數(shù)據(jù)分析的前提條件,數(shù)據(jù)挖掘技術(shù)用于多維數(shù)據(jù)建模的以下幾個(gè)方面:

(1)確認(rèn)正交維數(shù)

在進(jìn)行問題分析中并不是數(shù)據(jù)源的所有屬性都具有相同的重要性,有些屬性對目前所分析的問題沒有很大的影響,有些屬性也不是完全獨(dú)立的,它可以通過其他屬性推導(dǎo)出來,因而在建立數(shù)據(jù)立方時(shí)需要進(jìn)行屬性的篩選,選擇對應(yīng)用最必需的屬性作為維,建立數(shù)據(jù)立方。數(shù)據(jù)挖掘可以幫助實(shí)現(xiàn)依據(jù)屬性在所應(yīng)用領(lǐng)域中的重要性和用戶要分析的問題,對屬性進(jìn)行分級。另外通過數(shù)據(jù)挖掘技術(shù)中的相關(guān)性分析方法,發(fā)現(xiàn)非正交的屬性,進(jìn)而在構(gòu)建數(shù)據(jù)立方中利用這些信息。

(2)標(biāo)志結(jié)果立方中的稀疏和稠密區(qū)域

由于在數(shù)據(jù)稀疏的區(qū)域進(jìn)行OLAP分析是很難分析到有價(jià)值的信息,因而在多維數(shù)據(jù)建模中,應(yīng)該避開數(shù)據(jù)稀疏區(qū)域。使用數(shù)據(jù)挖掘技術(shù)中的聚類分析來確定數(shù)據(jù)密集區(qū)域的中心,從而可以有效地進(jìn)行多維數(shù)據(jù)建模。

(3)處理取值為連續(xù)型的屬性

多維模型要求維的數(shù)據(jù)類型是離散型的,因而必須將連續(xù)型的屬性值映射為離散型的。數(shù)據(jù)挖掘技術(shù)中用來發(fā)現(xiàn)在數(shù)值屬性中有意義的間隔的算法,能將連續(xù)型數(shù)值映射為離散型。例如:依據(jù)電視機(jī)的價(jià)格將電視機(jī)分為:普及型、豪華型和尊貴型。

3 結(jié)論

數(shù)據(jù)挖掘技術(shù)可以用于數(shù)據(jù)倉庫的建設(shè),而且通過其引入可以使數(shù)據(jù)倉庫的建設(shè)更加高效。在工程實(shí)踐中,利用數(shù)據(jù)挖掘技術(shù)可以較好地對企業(yè)舊的信息系統(tǒng)進(jìn)行分析,獲取系統(tǒng)說明文檔中沒有記載而又是數(shù)據(jù)倉庫建設(shè)必需的信息,為數(shù)據(jù)倉庫的建設(shè)提供較好的支持。但同時(shí)我們也必須認(rèn)識到,對數(shù)據(jù)挖掘技術(shù)支持?jǐn)?shù)據(jù)倉庫建設(shè)的研究還不是很廣泛,相應(yīng)的數(shù)據(jù)挖掘算法還不夠豐富,各方面的研究還有待于更進(jìn)一步的深入。

猜你喜歡
關(guān)聯(lián)規(guī)則數(shù)據(jù)倉庫數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價(jià)體系中的應(yīng)用
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
中國市場(2016年36期)2016-10-19 04:10:44
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測方法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
尚义县| 保定市| 石城县| 灵川县| 扶余县| 图木舒克市| 永宁县| 赣榆县| 个旧市| 喀喇| 克东县| 资阳市| 永登县| 静海县| 盘锦市| 桐柏县| 稻城县| 图木舒克市| 甘南县| 嘉祥县| 亳州市| 新乡市| 青阳县| 土默特左旗| 崇左市| 乌拉特前旗| 肃北| 六盘水市| 山阳县| 靖江市| 云林县| 怀宁县| 陆良县| 寿阳县| 崇阳县| 平塘县| 四子王旗| 吉安县| 河源市| 襄樊市| 龙岩市|