国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析數(shù)據(jù)統(tǒng)計(jì)中數(shù)據(jù)挖掘的方法及應(yīng)用意義

2017-06-22 21:23魏世昌
關(guān)鍵詞:統(tǒng)計(jì)大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘

魏世昌

【摘要】數(shù)據(jù),是21世紀(jì)的關(guān)鍵詞,隨著時(shí)間的推移,它的重要性將越來(lái)越明顯.全球知名的管理咨詢公司麥卡錫就最先標(biāo)榜“大數(shù)據(jù)時(shí)代”的到來(lái):“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素.”那么,如何在紛繁的海量的數(shù)據(jù)中挖掘出有價(jià)值的信息來(lái)滿足各行各業(yè)的需求?就需要了解數(shù)據(jù)統(tǒng)計(jì)中數(shù)據(jù)挖掘的方法以及具體意義,本文將對(duì)此做具體分析.

【關(guān)鍵詞】大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘;統(tǒng)計(jì);方法

一、數(shù)據(jù)挖掘的基本概述

數(shù)據(jù)挖掘就是運(yùn)用一定的數(shù)理方法,從數(shù)據(jù)庫(kù)中挖掘有價(jià)值的知識(shí),它是當(dāng)前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題.換言之,數(shù)據(jù)挖掘是一個(gè)動(dòng)態(tài)概念,數(shù)據(jù)庫(kù)中存在海量的數(shù)據(jù)信息,這些信息往往是雜亂的,需要人們運(yùn)用一定的方法,從中挖掘出事先未知的并有潛在意義的、隱含的信息.

二、數(shù)據(jù)挖掘的基本方法

一般來(lái)說(shuō),數(shù)據(jù)挖掘算法可以分為兩種,一種是有監(jiān)督法,一種是無(wú)監(jiān)督算法.有監(jiān)督算法主要有邏輯回歸(Logistic Regression)、決策樹(shù)(Decision Tree)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等,無(wú)監(jiān)督法主要包括聚類、最鄰近分析法(Nearest Neighbor Analysis,NNA)、支持向量機(jī)(Support Vector Machine)等,這些算法各有自己的側(cè)重,它們分別從各自不同的角度對(duì)數(shù)據(jù)信息進(jìn)行深入挖掘.下面將對(duì)這些方法做具體的分析.

1.邏輯回歸(Logistic Regression),這種分析方法主要是反映數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征,生成一個(gè)將數(shù)據(jù)項(xiàng)映射到一個(gè)實(shí)值預(yù)測(cè)變量的函數(shù),通過(guò)分析變量或?qū)傩灾g的依賴關(guān)系,多用來(lái)分析數(shù)據(jù)序列的趨勢(shì)特征、數(shù)據(jù)序列的預(yù)測(cè)以及數(shù)據(jù)間的關(guān)聯(lián)程度等.邏輯回歸是目前較常用的機(jī)器學(xué)習(xí)方法,主要用于測(cè)算某一事物的可能性.

邏輯回歸由三個(gè)部分組成:回歸、線性回歸、Logsitic方程.邏輯回歸屬線性回歸,而線性回歸又屬回歸.邏輯回歸沒(méi)有求后驗(yàn)概率,所以它不像樸素貝葉斯那樣需要滿足條件獨(dú)立假設(shè),但每個(gè)特征的貢獻(xiàn)是獨(dú)立計(jì)算的.

2.決策樹(shù)(Decision Tree),每個(gè)決策或事件(即自然狀態(tài))都可能會(huì)引出兩個(gè)或兩個(gè)以上的事件,又會(huì)導(dǎo)致相異的結(jié)果,若把這種決策分支用圖形表現(xiàn)出來(lái),就很像一棵樹(shù)的枝干,故而稱這種方法為“決策樹(shù)”.一般而言,決策樹(shù)自上而下畫(huà)出,它有四個(gè)構(gòu)成要素,即方塊結(jié)點(diǎn)、方案枝、圓形結(jié)點(diǎn)、概率枝.每個(gè)結(jié)點(diǎn)一般會(huì)引出許多細(xì)支,每條細(xì)支表示一個(gè)方案,這一細(xì)支就是方案枝.每個(gè)圓形結(jié)點(diǎn)又會(huì)引出許多個(gè)細(xì)支,用來(lái)表示不同的事件,這一細(xì)支就是概率枝.在概率枝上,會(huì)標(biāo)明其出現(xiàn)概率,在概率枝的最末稍,標(biāo)明其在該自然狀態(tài)下所達(dá)到的收益值或損失值.

3.人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN),這種方法源于生物學(xué)中的神經(jīng)網(wǎng)絡(luò)原理,人工神經(jīng)網(wǎng)絡(luò)是一種運(yùn)算模型,由許多節(jié)點(diǎn)連接而成,每個(gè)節(jié)點(diǎn)都代表著某種特定的輸出函數(shù),叫作激活函數(shù).每?jī)蓚€(gè)節(jié)點(diǎn)間的連接都代表一個(gè)對(duì)于通過(guò)該連接信號(hào)的加權(quán)值,叫作為權(quán)重,通過(guò)這樣一種方式,成功模擬了人類的記憶.網(wǎng)絡(luò)的輸出取決于網(wǎng)絡(luò)的結(jié)構(gòu)、網(wǎng)絡(luò)的連接方式、權(quán)重和激活函數(shù),而網(wǎng)絡(luò)自身通常都是對(duì)自然界某種算法或者函數(shù)的逼近,也可能是對(duì)一種邏輯策略的表達(dá).人工神經(jīng)網(wǎng)絡(luò)把對(duì)生物神經(jīng)網(wǎng)絡(luò)的認(rèn)識(shí)與數(shù)學(xué)統(tǒng)計(jì)模型相結(jié)合,借助數(shù)學(xué)統(tǒng)計(jì)工具來(lái)實(shí)現(xiàn).通過(guò)數(shù)學(xué)統(tǒng)計(jì)學(xué)的方法,使神經(jīng)網(wǎng)絡(luò)能夠具備類似于人的決定能力和簡(jiǎn)單的判斷能力,這種方法是對(duì)傳統(tǒng)邏輯學(xué)演算的進(jìn)一步延伸.

4.聚類.聚類分析也稱群分析或點(diǎn)群分析,為了讓在同一類別中的數(shù)據(jù)的關(guān)聯(lián)度最大,在相異類別中的數(shù)據(jù)的關(guān)聯(lián)度最小,從而把數(shù)據(jù)按照其關(guān)聯(lián)度和相異程度分成若干個(gè)類別.首先,應(yīng)該深入分析數(shù)據(jù)的類別,然后按照一定的指標(biāo),用數(shù)學(xué)方法將其置于一個(gè)多維空間中,定量地定位數(shù)據(jù)間的關(guān)系,并根據(jù)其關(guān)系的親疏程度,對(duì)數(shù)據(jù)進(jìn)行聚類.系統(tǒng)聚類方法有如下步驟:① 對(duì)數(shù)據(jù)進(jìn)行變換處理;② 構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本;③ 計(jì)算n個(gè)樣本兩兩間的距離;④ 合并距離最近的兩類為一新類;⑤ 計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)等于1,轉(zhuǎn)到⑥,否則回④;⑥ 畫(huà)聚類圖;⑦ 決定類的個(gè)數(shù),從而得出分類結(jié)果.

5.最鄰近分析法(Nearest Neighbor Analysis,NNA),就是將區(qū)域中點(diǎn)的分布與基于相同區(qū)域中點(diǎn)的理論意義的隨機(jī)分布相比較.理論上,假定所有的點(diǎn)完全隨機(jī)分布,則其平均距離為其密度倒數(shù)值的一半.用這個(gè)結(jié)果與借助圖像觀測(cè)到的實(shí)際的點(diǎn)分布格局相比較,可以得到一個(gè)比值,這個(gè)比值通常叫作最近鄰指數(shù)(Nearest Neighbor Index),或叫R尺度.

6.支持向量機(jī)(Support Vector Machine),這一方法建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC Bound理論(機(jī)器學(xué)習(xí)最重要的理論基礎(chǔ))以及結(jié)構(gòu)風(fēng)險(xiǎn)最小原理的基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以期獲得最好的推廣能力.在具體的應(yīng)用方面,在解決小樣本、非線性及高維模式識(shí)別中,與其他方法相比,它具有明顯的優(yōu)勢(shì),并且它還能推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中.

三、數(shù)據(jù)挖掘的應(yīng)用及意義

數(shù)據(jù)挖掘是一種決策支持過(guò)程,它的應(yīng)用范圍非常廣泛,在商業(yè)、農(nóng)業(yè)、醫(yī)療業(yè)、電信、教育等領(lǐng)域中,數(shù)據(jù)挖掘都在發(fā)揮自己的價(jià)值.隨著互聯(lián)網(wǎng)時(shí)代的到來(lái),數(shù)據(jù)以前所未有的速度在增長(zhǎng),有調(diào)查顯示,如今《紐約時(shí)報(bào)》一期所刊載的信息量,比生活在中世紀(jì)的人們一生所獲得信息量都多.既然數(shù)據(jù)這么海量,就需要使用科學(xué)的方法來(lái)挖掘數(shù)據(jù)中蘊(yùn)含的價(jià)值,而數(shù)據(jù)挖掘作為數(shù)學(xué)中的重要一環(huán),正發(fā)揮著巨大的作用.

四、結(jié)語(yǔ)

總之,數(shù)據(jù)挖掘有著十分廣泛的外延,作為目前一個(gè)炙手可熱的研究課題,它對(duì)社會(huì)各個(gè)方面都有著十分深層次的影響.為了讓這一課題能更好地服務(wù)于社會(huì),需要對(duì)數(shù)據(jù)挖掘的基本方法有著十分明晰的認(rèn)識(shí),這也是本文旨在說(shuō)明的問(wèn)題.

【參考文獻(xiàn)】

[1]汪明.數(shù)據(jù)挖掘綜述[J].河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào),2012(1):45-48.

[2]蔡運(yùn)龍,陳彥光,等.地理學(xué):科學(xué)地位與社會(huì)功能[M].北京:科學(xué)出版社,2012.

[3]馬紅娟,趙秀蘭,孫亞萍,鄭喜英.基于數(shù)據(jù)挖掘技術(shù)的概率統(tǒng)計(jì)教學(xué)研究[J].經(jīng)濟(jì)研究導(dǎo)刊,2015(6):220-222.

猜你喜歡
統(tǒng)計(jì)大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
2008—2015我國(guó)健美操科研論文的統(tǒng)計(jì)與分析
山東省交通運(yùn)輸投資計(jì)劃管理信息系統(tǒng)的設(shè)計(jì)
大數(shù)據(jù)時(shí)代下圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展
大數(shù)據(jù)時(shí)代高校學(xué)生知識(shí)管理
市場(chǎng)經(jīng)濟(jì)背景下的會(huì)計(jì)統(tǒng)計(jì)發(fā)展探究
從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
嵊泗县| 铅山县| 桑日县| 台东市| 雅江县| 呼玛县| 石棉县| 阳泉市| 榕江县| 额济纳旗| 麟游县| 鹤岗市| 宁津县| 双牌县| 昭觉县| 华阴市| 弥渡县| 波密县| 武邑县| 荃湾区| 长阳| 临潭县| 连南| 北海市| 米易县| 九江县| 农安县| 馆陶县| 得荣县| 武陟县| 青田县| 芦山县| 峨山| 莱阳市| 子长县| 武清区| 淳安县| 泰安市| 利川市| 宾阳县| 上饶县|