国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對(duì)數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域內(nèi)應(yīng)用的探討

2009-01-14 08:11:26
關(guān)鍵詞:數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息

王 旭

摘要:數(shù)據(jù)挖掘,是指從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中,通過(guò)設(shè)置一定的學(xué)習(xí)算法,提取隱含在其中的,人們事先不知道但又是潛在有用的信息的過(guò)程。數(shù)據(jù)挖掘的歷史雖然較短,但從20世紀(jì)90年代以來(lái),它的發(fā)展速度很快。在各行各業(yè),各個(gè)領(lǐng)域發(fā)揮了巨大的作用。

關(guān)鍵詞 :數(shù)據(jù)挖掘技術(shù);應(yīng)用

1 數(shù)據(jù)挖掘技術(shù)簡(jiǎn)介

近年來(lái),隨著科學(xué)技術(shù)飛速的發(fā)展,各行各業(yè)都迅速發(fā)展。與此同時(shí),在各個(gè)領(lǐng)域產(chǎn)生了大量的數(shù)據(jù),如人類對(duì)太空的探索,銀行每天的巨額交易數(shù)據(jù)。隨著信息技術(shù)在各個(gè)領(lǐng)域的普遍使用,人們?cè)谏鐣?huì)信息化的進(jìn)程中已經(jīng)建立了數(shù)以百萬(wàn)計(jì)的數(shù)據(jù)庫(kù)系統(tǒng)。但是面對(duì)不斷增加的海量數(shù)據(jù),人們不再滿足于數(shù)據(jù)庫(kù)的功能。其實(shí),這類數(shù)據(jù)有如礦藏資源一樣,通過(guò)挖掘,還可產(chǎn)生知識(shí)和財(cái)富。于是,人們結(jié)合統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等技術(shù),提出數(shù)據(jù)挖掘來(lái)解決這一難題。

概念

數(shù)據(jù)挖掘(Data Mining,簡(jiǎn)稱DM),就是從大量數(shù)據(jù)中及時(shí)有效地提取隱含其中的、未知的、有用的、不一般的信息和知識(shí)。數(shù)據(jù)挖掘的廣義觀點(diǎn):數(shù)據(jù)挖掘就是從存放在數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)或其他信息庫(kù)中的大量的數(shù)據(jù)中"挖掘"更多知識(shí)的過(guò)程。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)。

數(shù)據(jù)挖掘的一般過(guò)程

(1)數(shù)據(jù)清理,(2)數(shù)據(jù)集成,(3)數(shù)據(jù)選擇,(4)數(shù)據(jù)變換,(5)數(shù)據(jù)挖掘,(6)模式評(píng)估,(7)知識(shí)表示。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。

分類

按數(shù)據(jù)源分類,有關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘、面向?qū)ο髷?shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、各種專用數(shù)據(jù)庫(kù)(空間、多媒體等)的數(shù)據(jù)挖掘等。按所發(fā)現(xiàn)的知識(shí)類別分類,有關(guān)聯(lián)規(guī)則、時(shí)序規(guī)則、轉(zhuǎn)移規(guī)則、分類分析、聚類分析、趨勢(shì)和偏差分析等。

2 數(shù)據(jù)挖掘技術(shù)在各領(lǐng)域的應(yīng)用

2.1 在軍事科研上的應(yīng)用

數(shù)據(jù)挖掘技術(shù)最早應(yīng)用在天文學(xué)上。由機(jī)器學(xué)習(xí)、類型辨識(shí)及統(tǒng)計(jì)等技術(shù),在短短四小時(shí)內(nèi)所發(fā)現(xiàn)的行星勝過(guò)20多位天文學(xué)家4年的研究成果。數(shù)據(jù)挖掘技術(shù)不斷地為科學(xué)研究尋找突破口。為氣象的研究,生物技術(shù)的研究等提供了有力的工具。

在現(xiàn)在戰(zhàn)爭(zhēng)中,信息化戰(zhàn)場(chǎng)是戰(zhàn)爭(zhēng)的重要組成部分。數(shù)據(jù)挖掘之所以被廣泛運(yùn)用于信息化戰(zhàn)場(chǎng),就在于其具有預(yù)測(cè)和描述兩大功能。預(yù)測(cè)是根據(jù)已有的數(shù)據(jù)模樣和專家知識(shí)建立識(shí)別模式,預(yù)測(cè)其趨勢(shì)和結(jié)果。信息化戰(zhàn)場(chǎng)由一系列瞬時(shí)事件組成,數(shù)據(jù)挖掘能發(fā)現(xiàn)已有的數(shù)據(jù)庫(kù)與新近發(fā)生的戰(zhàn)場(chǎng)事件間的聯(lián)系,預(yù)測(cè)將要發(fā)生的事件,這對(duì)奪取戰(zhàn)場(chǎng)決策優(yōu)勢(shì)和行動(dòng)優(yōu)勢(shì)至關(guān)重要。描述是信息推演信息,揭示已有信息更深層的內(nèi)在表達(dá),指從現(xiàn)實(shí)數(shù)據(jù)庫(kù)中發(fā)現(xiàn)和抽取未知的、有價(jià)值的和可理解的模式。信息,既反映表象,又反映本質(zhì)。只有把信息放在相關(guān)聯(lián)的環(huán)境中,通過(guò)挖掘發(fā)現(xiàn)反映事物本質(zhì)的真相。

伊拉克戰(zhàn)爭(zhēng)開(kāi)始前,美軍就利用其高技術(shù)信息情報(bào)手段,對(duì)伊拉克進(jìn)行了長(zhǎng)期、全面和深入的監(jiān)視與情報(bào)收集工作,掌握了大量政治、經(jīng)濟(jì)和軍事情報(bào)。以此為基礎(chǔ),通過(guò)數(shù)據(jù)挖掘,美軍對(duì)各種作戰(zhàn)方案進(jìn)行了充分論證和演練。戰(zhàn)前,美中央總部還利用數(shù)據(jù)挖掘等技術(shù)制定了“聯(lián)合一體化目標(biāo)清單”,其中包括多達(dá)25240個(gè)攻擊目標(biāo),僅針對(duì)伊領(lǐng)導(dǎo)集團(tuán)及其控制能力的目標(biāo)就有4559個(gè)。在戰(zhàn)爭(zhēng)中,美利用龐大的情報(bào)偵察網(wǎng)繼續(xù)大規(guī)模收集情報(bào),并與以前數(shù)據(jù)庫(kù)融合,挖掘出許多新的信息,預(yù)測(cè)敵方可能的行動(dòng),為其讓世人驚異的高速突擊作戰(zhàn)提供了有力保證。

2.2在教育、醫(yī)療服務(wù)上的應(yīng)用

目前,我國(guó)大中型醫(yī)院都建立了醫(yī)院信息系統(tǒng)(HIS),它可以對(duì)大量醫(yī)療數(shù)據(jù)進(jìn)行交流共享和查詢。隨著大型醫(yī)院信息管理系統(tǒng)的發(fā)展,有關(guān)病人和疾病的數(shù)據(jù)日益增多,利用數(shù)據(jù)挖掘技術(shù)在龐大的數(shù)據(jù)中發(fā)現(xiàn)有用的信息,更充分地利用這些信息,就可以為廣大患者提供更有效的服務(wù),并能發(fā)現(xiàn)醫(yī)院運(yùn)作的基本規(guī)律,預(yù)測(cè)醫(yī)院發(fā)展的趨勢(shì),為管理者決策提供有價(jià)值的信息,為發(fā)展新的醫(yī)療方法提供理論支持。由于醫(yī)學(xué)信息自身的特殊性和復(fù)雜性,與常規(guī)數(shù)據(jù)挖掘相比,在挖掘?qū)ο蟮膹V泛性、挖掘算法的高效性和魯棒性、提供知識(shí)或決策的準(zhǔn)確性方面有著更高的要求,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)上的應(yīng)用將會(huì)出現(xiàn)更多亟待解決的問(wèn)題。隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,數(shù)據(jù)挖掘在醫(yī)學(xué)領(lǐng)域中將有更重要的實(shí)用價(jià)值和更為廣闊的發(fā)展前景。

隨著信息化的深入,教育信息化帶來(lái)了信息量的迅速增長(zhǎng)和對(duì)信息提取的更高要示,我們很難再按照傳統(tǒng)方法在如此大量的數(shù)據(jù)中尋找決策的依據(jù),數(shù)據(jù)挖掘技術(shù)的發(fā)展給我們帶來(lái)了很好的工具去發(fā)掘數(shù)據(jù)中隱藏的規(guī)律或模式,為教育教學(xué)決策提供科學(xué)依據(jù)。數(shù)據(jù)挖掘技術(shù)可以應(yīng)用于教育信息化的各個(gè)方面如教學(xué)評(píng)價(jià)、合理設(shè)置課程、指導(dǎo)學(xué)生選課、進(jìn)行學(xué)習(xí)者特征分析、實(shí)現(xiàn)網(wǎng)絡(luò)教育個(gè)性化與智能化。

2.3在商業(yè)金融上的應(yīng)用

數(shù)據(jù)挖掘所要處理的問(wèn)題,就是在龐大的數(shù)據(jù)庫(kù)中找出有價(jià)值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為企業(yè)進(jìn)行決策的依據(jù)。其應(yīng)用非常廣泛,只要該產(chǎn)業(yè)有分析價(jià)值與需求的數(shù)據(jù)庫(kù),皆可利用Mining工具進(jìn)行有目的的發(fā)掘分析。商家從顧客購(gòu)買(mǎi)商品中發(fā)現(xiàn)一定的關(guān)系,提供打折購(gòu)物券等,提高銷售額;保險(xiǎn)公司通過(guò)數(shù)據(jù)挖掘建立預(yù)測(cè)模型,辨別出可能的欺詐行為,避免風(fēng)險(xiǎn),減少損失,提高利潤(rùn);電子商務(wù)的作用越來(lái)越大,可以用數(shù)據(jù)挖掘?qū)W(wǎng)站進(jìn)行分析,識(shí)別用戶的行為模式,保留客戶,提供個(gè)性化服務(wù),優(yōu)化網(wǎng)站設(shè)計(jì)。

例如:銀行部門(mén)根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,就可以根據(jù)這些來(lái)區(qū)分新申請(qǐng)貸款的客戶,以采取相應(yīng)的貸款方案。用聚類的方法將申請(qǐng)人分為高度風(fēng)險(xiǎn)申請(qǐng)者,中度風(fēng)險(xiǎn)申請(qǐng)者,低度風(fēng)險(xiǎn)申請(qǐng)者。利用關(guān)聯(lián)規(guī)則和序列模式發(fā)現(xiàn)今天銀行調(diào)整利率,明天股市的變化情況。利用預(yù)測(cè)的方法對(duì)未來(lái)經(jīng)濟(jì)發(fā)展做出判斷,指導(dǎo)利率的調(diào)整。在銀行的100萬(wàn)筆交易中有500例的欺詐行為,銀行為了穩(wěn)健經(jīng)營(yíng),就要發(fā)現(xiàn)這500例的內(nèi)在因素,減小以后經(jīng)營(yíng)的風(fēng)險(xiǎn)。就可以運(yùn)用利用偏差的檢測(cè)。

2.4其他

近年來(lái),隨著信息技術(shù)的發(fā)展,我國(guó)政府網(wǎng)站建設(shè)得到了迅猛的發(fā)展。政府網(wǎng)站的作用除了作為政府實(shí)現(xiàn)政務(wù)信息公開(kāi),服務(wù)企業(yè)和社會(huì)公眾參與的平臺(tái)以外,還有一個(gè)重要的作用就是為政府決策提供有效地支持。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)用戶的建議或投訴文本進(jìn)行自動(dòng)分詞,采用聚類分析方法,實(shí)現(xiàn)對(duì)建議或投訴問(wèn)題的自動(dòng)分類,再通過(guò)數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)數(shù)據(jù)的二次聚類,進(jìn)行關(guān)聯(lián)性分析,最終形成分析報(bào)告,發(fā)出預(yù)警預(yù)測(cè)信息。達(dá)到為政府決策提供有效支持的目的。

此外,數(shù)據(jù)挖掘技術(shù)在諸如公共氣象服務(wù)中,在通信行業(yè)中也得到了有效的利用。

數(shù)據(jù)挖掘技術(shù)在企業(yè)中的應(yīng)用目前主要集中在市場(chǎng)推廣方面。應(yīng)用于工業(yè)制造生產(chǎn)流程還處于理論研究和初步實(shí)踐階段。

3總結(jié)

目前,無(wú)論廠商、集成商還是學(xué)術(shù)界,基本上都認(rèn)同一個(gè)觀點(diǎn),即:數(shù)據(jù)挖掘在技術(shù)上已經(jīng)趨于成熟,現(xiàn)在更重要的就是如何拓展行業(yè)應(yīng)用。數(shù)據(jù)挖掘技術(shù)已經(jīng)到了一個(gè)普及化的階段。

從行業(yè)應(yīng)用來(lái)看,目前大多數(shù)的用戶都來(lái)自電信、銀行、保險(xiǎn)、稅務(wù)等領(lǐng)域。應(yīng)用主題則主要包含:消費(fèi)者行為分析、信用評(píng)分與風(fēng)險(xiǎn)管理、欺詐行為偵測(cè)、購(gòu)物籃分析等方面。綜合國(guó)內(nèi)外的發(fā)展趨勢(shì),可以看到的是,大型連鎖商店和高科技制造產(chǎn)業(yè)也將成為應(yīng)用數(shù)據(jù)挖掘技術(shù)的重要領(lǐng)域。數(shù)據(jù)挖掘技術(shù)必將得到更為廣泛,更為深入的應(yīng)用。

參考文獻(xiàn)

[1]范明,范宏建 數(shù)據(jù)挖掘?qū)д揫M] 北京:人民郵電出版社。

[2]Feldman R,Dagan I Knowledge discovery in textual databases(KDT)[c].Montreal,Canada,prog of 1st INt'l Conf on Knowledge Discovery and Data Mining,1995.

[3]姜代紅 數(shù)據(jù)挖掘用其在HIS系統(tǒng)中的應(yīng)用[J].電腦與信息技術(shù),2004

[4]田卉 用數(shù)據(jù)挖掘技術(shù)構(gòu)建政府智能化網(wǎng)絡(luò)投訴平臺(tái)[J]政務(wù)辦公.2009

猜你喜歡
數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)信息
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
展會(huì)信息
基于GPGPU的離散數(shù)據(jù)挖掘研究
衡南县| 湖口县| 滁州市| 泰和县| 社旗县| 门源| 南丰县| 东兴市| 阿拉尔市| 明溪县| 鄄城县| 开江县| 玛纳斯县| 常熟市| 靖西县| 中山市| 桂平市| 河池市| 隆回县| 应城市| 遂川县| 准格尔旗| 平定县| 米脂县| 黄陵县| 汉源县| 永泰县| 张掖市| 巫山县| 涟水县| 永德县| 固镇县| 高清| 赤峰市| 雷山县| 镇宁| 桦南县| 安陆市| 慈溪市| 平乡县| 乃东县|