国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘技術(shù)的知識發(fā)現(xiàn)系統(tǒng)

2017-11-07 09:01:23李怡
科技創(chuàng)新導(dǎo)報 2017年21期
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù)分析

李怡

摘 要:互聯(lián)網(wǎng)的發(fā)展為資源共享提供了有效的途徑,資源量越來越龐大,類別也越來越多,并且呈現(xiàn)出了分散與異構(gòu)的特點。實現(xiàn)數(shù)據(jù)資源的有效利用,需要通過一定的技術(shù)與方法。而隨著技術(shù)的更新與發(fā)展,傳統(tǒng)的方法已經(jīng)無法適用新的環(huán)境檢索的需要。需要將新的技術(shù)應(yīng)用于其中,并且與知識發(fā)現(xiàn)系統(tǒng)相融合。本文就基于數(shù)據(jù)挖掘技術(shù)的知識發(fā)現(xiàn)系統(tǒng)作簡要闡述。

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù) 知識發(fā)現(xiàn)系統(tǒng) 分析

中圖分類號:G250.74 文獻標識碼:A 文章編號:1674-098X(2017)07(c)-0142-02

隨著資源量增加,如何從海量數(shù)據(jù)中尋找到需要并且有用的信息成為了新的問題,而將統(tǒng)計學(xué)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模糊數(shù)學(xué)、模式識別等技術(shù)結(jié)合到一起,以此來解決問題。實現(xiàn)對所需要的知識搜索或者是基于某種需要進行深度挖掘。數(shù)據(jù)挖掘技術(shù)已經(jīng)經(jīng)歷了一定的發(fā)展時期,并且積累了一定經(jīng)驗,市場應(yīng)用的前景十分廣闊。

1 數(shù)據(jù)挖掘及其對象

數(shù)據(jù)挖掘又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來實現(xiàn)上述目標。

其經(jīng)歷了四個階段,電子郵件階段,信息發(fā)布階段,電子商務(wù)階段,全程電子商務(wù)階段。

依據(jù)原則來講,數(shù)據(jù)挖掘工作可以在任一類型的數(shù)據(jù)存儲上進行。如事務(wù)數(shù)據(jù)庫,數(shù)據(jù)倉庫,關(guān)系數(shù)據(jù)庫,高級數(shù)據(jù)庫。面向?qū)ο蟆ο箨P(guān)系、空間與時間關(guān)系的數(shù)據(jù)庫等。數(shù)據(jù)挖掘的技術(shù)可能會因為數(shù)據(jù)存儲的類別不同而存有差異。數(shù)據(jù)知識發(fā)現(xiàn)需要經(jīng)歷一個過程,如數(shù)據(jù)的清理,集成,選擇,交換,挖掘,模式評價,知識表示等。數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)過程中的一個步驟,或者可以將其理解為一個環(huán)節(jié)。在大多數(shù)的場合,人們采用的都是數(shù)據(jù)挖掘的廣義觀點,從存儲信息的地方將需要的信息進行挖掘一個過程。數(shù)據(jù)存儲的地方可以是數(shù)據(jù)庫,也可以是數(shù)據(jù)倉庫,或者是其他的信息庫。

2 數(shù)據(jù)挖掘的幾種模式

首先是概念描述,概念描述作為區(qū)分性描述與特征化數(shù)據(jù)挖掘的最簡單的類型,通常會經(jīng)過以下方法獲得。一是數(shù)據(jù)特征化,對目標類數(shù)據(jù)進行一般性的匯總。二是對數(shù)據(jù)進行區(qū)分,將不同比較類與目標進行比較。

關(guān)聯(lián)規(guī)則。通過該方法進行數(shù)據(jù)挖掘工作和,可以獲得大量的數(shù)據(jù)中項集間存在有用或者是相關(guān)聯(lián)系。

分類與預(yù)測。作為數(shù)據(jù)分析的兩種方法,可以對未來的數(shù)據(jù)趨勢進行預(yù)測,或者是用于重要類數(shù)據(jù)模型進行提取。聚類則是將抽象或者是物理對象進行分組成為由類似對象組成的多個類的過程。聚類算法包括了層方法,劃分方法,基于網(wǎng)格的方法,基于密度的方法,基于模型的方法等。時間序列模型則是依據(jù)時間變化趨勢對未來進行預(yù)測。

3 數(shù)據(jù)挖掘的方法與步驟

3.1 數(shù)據(jù)挖掘的方法

數(shù)據(jù)挖掘技術(shù)的核心包括了多學(xué)科知識與技術(shù),但是并產(chǎn)是將其簡單的組合到一起,應(yīng)用的技術(shù)是一個整體,具有不可分割性,具體包括了機器學(xué)習(xí),人工智能,數(shù)學(xué)統(tǒng)計等。在相關(guān)技術(shù)的支持下,得出滿足用戶要求的結(jié)果。

人工神經(jīng)網(wǎng)絡(luò)的方法主要是應(yīng)用于群集,特征挖掘,分類,模式識別,預(yù)測。人工神經(jīng)網(wǎng)絡(luò)是基于生物神經(jīng)網(wǎng)絡(luò)仿真的,其本質(zhì)是矩陣或者是分散型的結(jié)構(gòu)。統(tǒng)計分析的方法應(yīng)用于數(shù)據(jù)挖掘工作中,能夠為其提供多種回歸與判斷方法,技術(shù)上有方差分析,回歸分析,貝葉斯推理等。在知道了新信息后,對數(shù)據(jù)集的概率進行修正,所使用的工具就是貝葉斯推理,以此來解決處理過程中數(shù)據(jù)分類問題?;貧w分析的作用在于輸出與輸入變量之間的最佳的模型?;蛘呤菍ψ兞康淖兓厔葸M行描述,對其他的變量值關(guān)系進行線性回歸。也可以用其為某些事件發(fā)生的概述建立模型,對變量集的對數(shù)回歸進行預(yù)測。方差分析一般則是用于分析估計回歸直線性能與自變量對回歸的最終影響。

決策樹是一種常用的方法,既可以用來對數(shù)據(jù)進行分析,同時也可以對數(shù)據(jù)進行預(yù)測。該方法以樹形結(jié)構(gòu)對決策集合進行表示,而規(guī)則的產(chǎn)生則是通過對數(shù)據(jù)集進行分類。而除了上述方法還有其他方法,比如粗燥集法,關(guān)聯(lián)規(guī)則,遺傳算法,聚類分析,聯(lián)機分析處理,可視化方法。挖掘工具的使用需要結(jié)合到具體的問題,不同方法有其不同的特點與適應(yīng)方面,在應(yīng)用的時候,需要結(jié)合到具體的情況。

3.2 數(shù)據(jù)挖掘的過程

數(shù)據(jù)挖掘過程可以將其分為三個階段,數(shù)據(jù)準備,挖掘,結(jié)果的表達、解釋。在數(shù)據(jù)準備階段,對數(shù)據(jù)進行合并處理,處理的數(shù)據(jù)來源于不同文件或者是不同數(shù)據(jù)庫,數(shù)據(jù)集成解決的主要問題是語義模糊,數(shù)據(jù)中存在的遺漏,臟數(shù)據(jù)清洗等。數(shù)據(jù)選擇則是確定需要進行分析的數(shù)據(jù)集,以此來提升挖掘工作質(zhì)量,而對其進行預(yù)處理,則是為了解決挖掘工具存有的某些局限性。

在數(shù)據(jù)挖掘階段,又可以將其進行細分。產(chǎn)生假設(shè),挖掘系統(tǒng)為用戶提供假設(shè)或者是用戶對數(shù)據(jù)庫可能會存有的知識進行假設(shè)。將前一種方式稱之為發(fā)現(xiàn)型,而后一種方式則稱之為驗證型。選擇并確定合適的工具,數(shù)據(jù)挖掘操作,對發(fā)現(xiàn)的知識進行證實。

數(shù)據(jù)結(jié)果表述與解釋階段,通過對提取信息進行分析,利用決策支持工具將其提交于決策者,并將結(jié)果以某種方式表達出來。如果對數(shù)據(jù)挖掘結(jié)果不滿意,則需要重復(fù)挖掘過程。

4 知識發(fā)現(xiàn)系統(tǒng)與實現(xiàn)

4.1 知識發(fā)現(xiàn)

數(shù)據(jù)挖掘與基于數(shù)據(jù)庫的知識發(fā)現(xiàn)在一定程度上存在混淆,兩個術(shù)語在使用的過程中通常會被替換。前者是將低層數(shù)轉(zhuǎn)換為高層知識的過程??梢詫ζ溥M行簡單的定義,知識發(fā)現(xiàn)就是對數(shù)據(jù)中有效的,潛在有用的模式的特定過程。知識發(fā)現(xiàn)是從數(shù)據(jù)中對知識進行挖掘的技術(shù),通常將整理,降維、識別、歸納、收集等過程集于一體。知識發(fā)現(xiàn)中最主要的就是數(shù)據(jù)挖掘。知識發(fā)現(xiàn)的過程包括原始數(shù)據(jù)收集,數(shù)據(jù)清理、集成,數(shù)據(jù)倉庫,數(shù)據(jù)選擇、變換、預(yù)處理、挖掘,模型建立,知識表示,模式評估等。

4.2 知識發(fā)現(xiàn)系統(tǒng)的體系

理論層面,知識發(fā)現(xiàn)過程的機制有雙基融合,信息擴散,雙庫協(xié)同,構(gòu)造了不同的模型。針對客觀存在的,并且具備某些特征的知識源,如不確定性、海量性、不完備性、復(fù)雜形態(tài)等,挖掘其中用戶感興趣的、潛在的知識。

知識發(fā)現(xiàn)體系的框架可以將其分為知資源層,包括了本地的數(shù)據(jù)庫,互聯(lián)網(wǎng),通過其他方法組成的底層支持結(jié)構(gòu)。知識發(fā)現(xiàn)層,該層的主要目的在于依據(jù)用戶的要求,將知識需求通過挖掘技術(shù)、倉庫技術(shù),得到所需要的知識,并且將其進行存儲并返回用戶。

在發(fā)現(xiàn)體系的實現(xiàn)方面,應(yīng)用到的相關(guān)扶梯技術(shù)包括了預(yù)測與分類,概念描述,時序模式,關(guān)聯(lián)挖掘,聚類分析,序列模式,數(shù)據(jù)倉庫技術(shù),分布式計算方法,四組件技術(shù)等。系統(tǒng)實現(xiàn)的組成包括了用戶登錄,知識發(fā)現(xiàn),資源預(yù)處理,可視化界面,預(yù)測決策等。

5 結(jié)語

數(shù)據(jù)倉庫與挖掘技術(shù)的發(fā)展,知識發(fā)現(xiàn)作為一個新的學(xué)科而受到廣泛關(guān)注。知識發(fā)現(xiàn)過程中,數(shù)據(jù)挖掘是一個重要的步驟。該環(huán)節(jié)涉及到的內(nèi)容有信息檢索,高性能檢索,數(shù)據(jù)可視化,數(shù)據(jù)庫技術(shù),統(tǒng)計學(xué),圖像與信號處理等。數(shù)據(jù)挖掘在某些方面已經(jīng)得到了應(yīng)用,并且產(chǎn)生了巨大價值,技術(shù)在應(yīng)用過程中不斷完善。但是同時也要認識到數(shù)據(jù)挖掘技術(shù)仍然存在的某些方面的問題。比如大規(guī)模數(shù)據(jù)處理的效率問題,挖掘結(jié)果的無效性等。而知識發(fā)現(xiàn)技術(shù)同樣也面臨著多方面挑戰(zhàn),需要在今后的使用過程中不斷的完善,促進其發(fā)展,發(fā)揮更大的價值。

參考文獻

[1] 邱曉輝.知識發(fā)現(xiàn)與數(shù)據(jù)挖掘分析[J].情報探索,2011(1):69.

[2] 羅平,陽廣元,甯佐斌.數(shù)據(jù)挖掘方法和知識發(fā)現(xiàn)研究[J].圖書情報工作,2011(S1):85-86.endprint

猜你喜歡
數(shù)據(jù)挖掘技術(shù)分析
隱蔽失效適航要求符合性驗證分析
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
數(shù)據(jù)挖掘在計算機網(wǎng)絡(luò)病毒防御中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)及其在醫(yī)學(xué)信息領(lǐng)域的應(yīng)用
科技傳播(2016年19期)2016-12-27 15:08:03
基于Web的數(shù)據(jù)挖掘技術(shù)與相關(guān)研究
電力系統(tǒng)及其自動化發(fā)展趨勢分析
數(shù)據(jù)挖掘技術(shù)在生物信息學(xué)中的應(yīng)用
數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用
基于南京地鐵AFC系統(tǒng)的數(shù)據(jù)挖掘
中西醫(yī)結(jié)合治療抑郁癥100例分析
博爱县| 青岛市| 德保县| 大竹县| 南漳县| 平度市| 如东县| 盐池县| 仲巴县| 临沭县| 彭阳县| 黑龙江省| 东明县| 永昌县| 永寿县| 延长县| 阿克苏市| 河南省| 红安县| 通山县| 黄冈市| 鹿邑县| 宜章县| 慈溪市| 徐水县| 马边| 康定县| 威信县| 云南省| 韩城市| 桃江县| 承德市| 中江县| 五常市| 黄平县| 会昌县| 景东| 霞浦县| 来凤县| 甘洛县| 榕江县|