国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)概述

2015-05-06 01:28張?jiān)品?/span>
山東工業(yè)技術(shù) 2015年3期
關(guān)鍵詞:數(shù)據(jù)源關(guān)聯(lián)數(shù)據(jù)挖掘

張?jiān)品?宋 艷

(1.北華航天工業(yè)學(xué)院,河北 廊坊 065000;2.北奔重型汽車集團(tuán)有限公司,內(nèi)蒙古 包頭 014032)

1 數(shù)據(jù)挖掘技術(shù)

1.1 數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)

數(shù)據(jù)庫的挖掘在廣義上是數(shù)據(jù)挖掘過程中從存儲(chǔ)在數(shù)據(jù)庫中的大量數(shù)據(jù)中挖掘出有用的信息。從這個(gè)角度看,數(shù)據(jù)庫挖掘系統(tǒng)包括以下幾個(gè)部分。

(1)數(shù)據(jù)庫:數(shù)據(jù)庫可以恢復(fù)信息,它可以整理數(shù)據(jù)庫中的數(shù)據(jù);

(2)數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘需求,提取相關(guān)數(shù)據(jù)的數(shù)據(jù)倉庫服務(wù)器;

(3)知識(shí)庫:它是一種領(lǐng)域知識(shí)用來評估結(jié)果的有趣程度模式或指導(dǎo)研究。這種知識(shí)庫的概念是有層次的,包括了解用戶的認(rèn)可;

(4)數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘的重要組成部分,它是由一組功能模塊的組合,用來進(jìn)行描述,分類,轉(zhuǎn)換和偏差分析等;

(5)數(shù)據(jù)評價(jià)模塊:它通常是由有趣度去衡量,并且能夠與數(shù)據(jù)挖掘模塊進(jìn)行交互,使得搜索專注于有趣程度的模型;

(6)圖形用戶界面:用戶和數(shù)據(jù)挖掘系統(tǒng)在這個(gè)模塊之間的通信,這使得系統(tǒng)與用戶進(jìn)行交互,并且為數(shù)據(jù)搜索,提供信息,幫助搜索聚焦,和探索性數(shù)據(jù)挖掘。

1.2 數(shù)據(jù)挖掘系統(tǒng)的功能

1.2.1 清洗泛化

數(shù)據(jù)挖掘系統(tǒng)可以把現(xiàn)有的數(shù)據(jù)提高到一個(gè)更高的水平。利用GDBR廣義積分算法,通過空間和時(shí)間上的復(fù)雜性的相關(guān)性,然后采用N-gram方法可以有效地搜索和準(zhǔn)確的重復(fù)記錄系統(tǒng)中的相似信息,然后進(jìn)行排序和測試。智能化操作,如規(guī)范的插入,刪除,交換和置換可以處理常見的拼寫錯(cuò)誤,數(shù)據(jù)清洗。但也有一些偏差,采用精度檢測正常消除基本算法,本系統(tǒng)提高了基本消除算法,利用統(tǒng)計(jì)原理,結(jié)合合理的直接和逆重復(fù)矩陣,能夠提高拼寫錯(cuò)誤的檢測和正確的修改。

1.2.2 數(shù)據(jù)挖掘的功能

根據(jù)相關(guān)的關(guān)聯(lián)規(guī)則和序列規(guī)則,系統(tǒng)的分類以及數(shù)據(jù)聚集的數(shù)據(jù)挖掘方法,實(shí)現(xiàn)了數(shù)據(jù)挖掘系統(tǒng)的預(yù)期的應(yīng)用目標(biāo)。通過搜索與集成的頻繁項(xiàng)目集之間的數(shù)據(jù)實(shí)現(xiàn)Apriori算法。頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則的基本思想是:通過記錄I的頻繁項(xiàng),并記錄下I所有非空子集內(nèi)容。如果值的支持(I)/支持(a)大于最小置信度,規(guī)則= >(1-a)將直接輸出。如果I中的非空子集不符合條件,相關(guān)規(guī)則將不輸出。換句話說,關(guān)聯(lián)規(guī)則不是由a形成的,但時(shí)間序列規(guī)則往往與系統(tǒng)中的項(xiàng)目集的時(shí)間相關(guān)聯(lián)。該系統(tǒng)中的時(shí)間序列規(guī)則是由AprionAII決定的。在廣泛的意義上說,關(guān)聯(lián)規(guī)則包含強(qiáng)烈規(guī)則,例外規(guī)則和隨機(jī)規(guī)則。規(guī)則的少量數(shù)據(jù)服從的例外規(guī)則的代表。雖然數(shù)量少,其有趣性高。它是未知的信息在這個(gè)階段的和不可預(yù)知的信息規(guī)則。該系統(tǒng)中的最小可信度的關(guān)聯(lián)規(guī)則設(shè)置了例外。因此,系統(tǒng)可以形成分類關(guān)聯(lián)規(guī)則(CAR)和分類關(guān)聯(lián)規(guī)則(ECAR)和虛假的規(guī)則(SCAR)。

這些定義數(shù)據(jù)和分類數(shù)據(jù),代表可以形成的數(shù)據(jù)類別,并根據(jù)分類標(biāo)準(zhǔn)中屬于未知類別的數(shù)據(jù)來形成分類。在這個(gè)系統(tǒng)中,應(yīng)用區(qū)間分類器可以提高正確率和分類精度水平、降低過深樹擴(kuò)展的決策樹分類器。

聚類算法結(jié)合高密度集群采用CURE算法進(jìn)行標(biāo)記的許多不同的簇代表點(diǎn)。所以能夠形成一定的集群分布式架構(gòu)。然后有效地識(shí)別特殊的形態(tài),使數(shù)據(jù)處理更高效和提高處理能力。利用數(shù)據(jù)挖掘之前,系統(tǒng)會(huì)自動(dòng)劃分空間分布,使信息對象形成了許多數(shù)據(jù)單元。然后,根據(jù)本單位的特點(diǎn),計(jì)算機(jī)集群分布。另一個(gè)獨(dú)特的聚類算法是基于密度的聚類算法。通過改進(jìn)Dbscan算法,數(shù)據(jù)部門可以實(shí)現(xiàn)由小部門集群,實(shí)現(xiàn)和算法的加速速度通過選擇代表擴(kuò)大種子點(diǎn)的相鄰對象,和整個(gè)數(shù)據(jù)庫集群實(shí)現(xiàn)樣本數(shù)據(jù)的聚類。它使系統(tǒng)的聚類算法更有效。

2 基于大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法

2.1 整體框架結(jié)構(gòu)的設(shè)置

該系統(tǒng)集成了各種模塊密切相關(guān),形成數(shù)據(jù)結(jié)構(gòu)層次,包括多個(gè)獨(dú)特的輸出操作功能,具有多數(shù)據(jù)源、多參數(shù)的特點(diǎn)。因此,每個(gè)挖掘操作模塊之間的可以是相互獨(dú)立的,這可以產(chǎn)生更多的功能和更穩(wěn)定的系統(tǒng)。作為一個(gè)集成系統(tǒng),有一個(gè)協(xié)調(diào)統(tǒng)一的模塊進(jìn)行模塊之間的關(guān)聯(lián),從而提高并實(shí)現(xiàn)數(shù)據(jù)的傳遞、標(biāo)準(zhǔn)化系統(tǒng)的操作和數(shù)據(jù)源的挖掘結(jié)果。

在數(shù)據(jù)挖掘系統(tǒng)的基礎(chǔ)上考慮一個(gè)龐大的數(shù)據(jù)庫,本系統(tǒng)的數(shù)據(jù)挖掘的范圍必須要擴(kuò)大,因此實(shí)現(xiàn)挖掘?qū)ο蟛粦?yīng)該僅存在于數(shù)據(jù)庫中,也應(yīng)該在文件中。因此,根據(jù)文件系統(tǒng)提供的信息處理方法。呈現(xiàn)更容易挖掘結(jié)果,實(shí)現(xiàn)遠(yuǎn)程決策支持分析,該系統(tǒng)還具有自動(dòng)恢復(fù)的功能挖掘結(jié)果,擴(kuò)大應(yīng)用范圍。因?yàn)樗遣僮麟娔X的人,該系統(tǒng)配備了良好的操作界面,這能夠很方便用戶的操作和幫助決策者做決策分析并做出準(zhǔn)確的決定。

2.2 模塊設(shè)置

根據(jù)本系統(tǒng)的上述結(jié)構(gòu),以下模塊設(shè)置是實(shí)現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的相關(guān)功能。

(1)挖掘模塊可以實(shí)現(xiàn)挖掘工作功能,采集不同數(shù)據(jù)庫中的數(shù)據(jù)。每個(gè)挖掘模塊是獨(dú)立的。數(shù)據(jù)庫管理模塊可以控制單個(gè)模塊。存儲(chǔ)模塊的數(shù)據(jù)源,通過挖掘讀入相應(yīng)的數(shù)據(jù)挖掘基礎(chǔ),為其他模塊提供的基礎(chǔ)數(shù)據(jù)。

(2)在預(yù)處理模塊的主要功能是過濾,定義和格式的數(shù)據(jù)源,進(jìn)一步提高整個(gè)系統(tǒng)的可操作性和實(shí)用性。主要的子模塊進(jìn)行數(shù)據(jù)映射操作,映射的列映射和類型映射。數(shù)據(jù)映射到地圖源表成為身份類型,并形成相應(yīng)的對照表。不同的數(shù)據(jù)映射并形成一個(gè)統(tǒng)一的模塊。列映射到數(shù)據(jù)源中提取有用的柱,有利于減少數(shù)據(jù)量,加快了計(jì)算速度。類型映射是將不同的數(shù)據(jù)源的類型強(qiáng)制性轉(zhuǎn)換成統(tǒng)一數(shù)據(jù)庫中的數(shù)據(jù)類型,有利于挖掘。

(3)存儲(chǔ)模塊操作整個(gè)數(shù)據(jù)庫中的數(shù)據(jù)。然而,首先必須導(dǎo)入外部文件,然后存儲(chǔ)和控制。采用ODBC技術(shù)底層界面。利用內(nèi)存索引和緩沖功能,加快系統(tǒng)的計(jì)算能力。

整個(gè)系統(tǒng)的核心模塊是挖掘管理模塊。各種信息用戶實(shí)現(xiàn)從數(shù)據(jù)庫的挖掘應(yīng)存放在挖掘基地。挖掘基地直接設(shè)置在系統(tǒng)數(shù)據(jù)庫中,便于傳輸和管理。挖掘庫管理包括所有類型的數(shù)據(jù)挖掘過程,數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)挖掘操作在整個(gè)挖掘過程中依賴一個(gè)其他數(shù)據(jù)挖掘和生成的一個(gè)新挖掘的運(yùn)行結(jié)果。此外,新的結(jié)果可能是另一個(gè)挖掘過程中的數(shù)據(jù)源。

3 結(jié)論

本文探討了基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建。首先,介紹了數(shù)據(jù)挖掘技術(shù),包括數(shù)據(jù)挖掘的內(nèi)容和實(shí)質(zhì),數(shù)據(jù)庫挖掘過程和挖掘系統(tǒng)的組成,以及數(shù)據(jù)挖掘系統(tǒng)的功能。然后,論述了構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的方法,包括總體框架結(jié)構(gòu)設(shè)置,模塊設(shè)置界面設(shè)置。越來越多的相關(guān)數(shù)據(jù)集成系統(tǒng)進(jìn)行發(fā)布和得到認(rèn)可,企業(yè)應(yīng)當(dāng)根據(jù)自己的特點(diǎn)和需求構(gòu)建數(shù)據(jù)挖掘系統(tǒng),來為他們自己提供更好的服務(wù)和完善的應(yīng)用及經(jīng)濟(jì)效益。

[1]王元卓等,網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(06).

[2]李國杰,程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域--大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(06):647-657.

[3]程學(xué)旗等.網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算技術(shù)與應(yīng)用綜述[J].科研信息化技術(shù)與應(yīng)用,2013(06).

猜你喜歡
數(shù)據(jù)源關(guān)聯(lián)數(shù)據(jù)挖掘
改進(jìn)支持向量機(jī)在特征數(shù)據(jù)挖掘中的智能應(yīng)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
一種面向傳感云的數(shù)據(jù)源質(zhì)量評估框架
圖表中的交互 數(shù)據(jù)鉆取還能這么用
奇趣搭配
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
智趣
基于Excel的照片查詢系統(tǒng)開發(fā)與應(yīng)用
许昌市| 惠水县| 河曲县| 新巴尔虎右旗| 克东县| 科技| 清镇市| 太仓市| 宜宾县| 吴旗县| 新民市| 鄂州市| 门源| 九台市| 鱼台县| 江门市| 平塘县| 广东省| 湖南省| 桐梓县| 加查县| 岚皋县| 庄浪县| 师宗县| 旺苍县| 黑水县| 旌德县| 东乡| 滕州市| 台南市| 潢川县| 鞍山市| 广西| 遂昌县| 武功县| 济阳县| 香格里拉县| 淮安市| 静海县| 沧源| 哈密市|