国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)信息的數(shù)據(jù)挖掘初探

2014-11-24 08:38:21妙曉敏
新一代 2014年9期
關(guān)鍵詞:涵義數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)

妙曉敏

摘 要:數(shù)據(jù)挖掘作為一個(gè)新型的跨領(lǐng)域的綜合性學(xué)科,一經(jīng)出現(xiàn)便顯示出其強(qiáng)大的生命力。統(tǒng)計(jì)學(xué)、數(shù)據(jù)倉(cāng)庫(kù)和機(jī)器學(xué)習(xí)技術(shù)共同構(gòu)成數(shù)據(jù)挖掘的三大核心技術(shù),統(tǒng)計(jì)方法也是最基本的數(shù)據(jù)挖掘方法之一,它滲透于數(shù)據(jù)挖掘領(lǐng)域的各個(gè)階段。本文是從統(tǒng)計(jì)學(xué)的角度對(duì)數(shù)據(jù)挖掘進(jìn)行應(yīng)用性研究,使統(tǒng)計(jì)學(xué)方法適應(yīng)數(shù)據(jù)量的變化,繼續(xù)發(fā)揮其處理數(shù)據(jù)、分析數(shù)據(jù)的重要作用,并且對(duì)統(tǒng)計(jì)學(xué)理論在數(shù)據(jù)挖掘方向的發(fā)展做了一些探索。

關(guān)鍵詞:數(shù)據(jù)挖掘;統(tǒng)計(jì)學(xué);涵義

統(tǒng)計(jì)學(xué)如何為數(shù)據(jù)挖掘服務(wù),這是在“數(shù)據(jù)挖掘”飛速發(fā)展的今天,統(tǒng)計(jì)工作者必須回答的一個(gè)問題,我國(guó)廈門大學(xué)的朱建平教授提出:“統(tǒng)計(jì)學(xué)應(yīng)該隨時(shí)關(guān)注數(shù)據(jù)分析,哪里有數(shù)據(jù),哪里就應(yīng)該有統(tǒng)計(jì)分析?!苯y(tǒng)計(jì)學(xué)是搜集、展示、分析和解釋數(shù)據(jù)的學(xué)科,它擁有非常深厚的理論基礎(chǔ),并在社會(huì)生活的各個(gè)領(lǐng)域發(fā)揮著巨大的作用。近代統(tǒng)計(jì)學(xué)方法與信息處理的關(guān)系日益密切,作為信息處理的一個(gè)基本工具,統(tǒng)計(jì)學(xué)方法將發(fā)揮越來(lái)越重要的作用。

數(shù)據(jù)挖掘是近十幾年里發(fā)展起來(lái)的一門嶄新的學(xué)科,由于它與統(tǒng)計(jì)學(xué)都關(guān)心從數(shù)據(jù)中發(fā)現(xiàn)某種結(jié)構(gòu),因而從數(shù)據(jù)挖掘誕生之日起,就與統(tǒng)計(jì)學(xué)有了千絲萬(wàn)縷的聯(lián)系。

一、統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的涵義

統(tǒng)計(jì)學(xué)是應(yīng)用數(shù)學(xué)的一個(gè)分支,主要通過(guò)利用概率論建立數(shù)學(xué)模型,收集所觀察的系統(tǒng)數(shù)據(jù),進(jìn)行量化的分析、總結(jié),進(jìn)行推斷和預(yù)測(cè),為相關(guān)決策提供依據(jù)和參考;它分為描述統(tǒng)計(jì)和推斷統(tǒng)計(jì)。描述統(tǒng)計(jì)包括對(duì)客觀現(xiàn)象的度量、調(diào)查方案的設(shè)計(jì),對(duì)所收集的數(shù)據(jù)資料進(jìn)行加工整理、綜合概括,通過(guò)圖示、列表等方式進(jìn)行分析和描述。推斷統(tǒng)計(jì)是在搜集、整理監(jiān)測(cè)樣本數(shù)據(jù)的基礎(chǔ)上,對(duì)有關(guān)總體做出推斷,其特點(diǎn)是根據(jù)隨機(jī)性的觀測(cè)樣本數(shù)據(jù)以及問題的條件和假定,對(duì)未知事務(wù)做出以概率形式表述的推斷。

數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又具有潛在價(jià)值的信息和知識(shí)(模型或規(guī)則)的過(guò)程。這個(gè)定義包括以下含義:數(shù)據(jù)源必然是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的知識(shí)可接受、可理解、可運(yùn)用,并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問題。它能高度自動(dòng)化的分析原有數(shù)據(jù),做出目的性推理,從中挖掘出潛在的模式,從而幫助決策者調(diào)整策略,做出正確的決策。它融數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)、數(shù)理統(tǒng)計(jì)技術(shù)和可視化技術(shù)為一體,是一個(gè)多學(xué)科相互交叉又融合所形成的一個(gè)新興的具有廣泛應(yīng)用前景的研究領(lǐng)域。

二、統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的聯(lián)系

(一)數(shù)據(jù)挖掘雖不同于統(tǒng)計(jì)分析,但許多挖掘技術(shù)又來(lái)源于統(tǒng)計(jì)分析,數(shù)據(jù)挖掘中有許多工作可以由統(tǒng)計(jì)方法來(lái)完成。比如預(yù)言算法(回歸)、抽樣、基于經(jīng)驗(yàn)的設(shè)計(jì)等。

(二)數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù),相反,數(shù)據(jù)挖掘是統(tǒng)計(jì)分析方法的擴(kuò)展和延伸。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,其預(yù)測(cè)的準(zhǔn)確程度還是令人滿意的,但對(duì)于使用者的知識(shí)要求比較高。而隨著計(jì)算機(jī)能力的不斷發(fā)展,數(shù)據(jù)挖掘可以利用相對(duì)簡(jiǎn)單和固定程序完成同樣的功能。

(三)數(shù)據(jù)挖掘技術(shù)的出現(xiàn)為統(tǒng)計(jì)學(xué)提供了一個(gè)嶄新的應(yīng)用領(lǐng)域,也對(duì)統(tǒng)計(jì)學(xué)的理論研究提出了挑戰(zhàn)。數(shù)據(jù)挖掘技術(shù)有相當(dāng)大的比重是由高等統(tǒng)計(jì)學(xué)中的多變量分析所支撐。

(四)統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的結(jié)合日益緊密。數(shù)學(xué)是傳統(tǒng)意義上統(tǒng)計(jì)學(xué)方法的首要工具,而計(jì)算機(jī)和網(wǎng)絡(luò)為代表的信息技術(shù),正逐漸成為統(tǒng)計(jì)學(xué)應(yīng)用的首要工具。隨著數(shù)據(jù)源的不斷膨脹和數(shù)據(jù)結(jié)構(gòu)的日益復(fù)雜,單純依靠數(shù)據(jù)挖掘技術(shù),已漸露力不從心之態(tài),而統(tǒng)計(jì)學(xué)的同步發(fā)展,正不斷充實(shí)、完善著數(shù)據(jù)挖掘技術(shù)。因此,隨著信息化水平的提高,統(tǒng)計(jì)學(xué)與數(shù)據(jù)挖掘的應(yīng)用平臺(tái)漸趨統(tǒng)一。

三、預(yù)測(cè)性挖掘中常用的統(tǒng)計(jì)學(xué)方法

數(shù)據(jù)挖掘中應(yīng)用的統(tǒng)計(jì)學(xué)預(yù)測(cè)性方法主要有判別分析和回歸分析。其中,判別分析用于對(duì)離散型目標(biāo)變量的預(yù)測(cè),而回歸分析則主要用于對(duì)連續(xù)性目標(biāo)變量的預(yù)測(cè)。

(一)判別分析是在已知研究對(duì)象分成若干類型(或組別)并已取得各種類型的一批已知樣品的觀測(cè)數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,然后對(duì)未知類型的樣品進(jìn)行判別分類。判別分析是統(tǒng)計(jì)學(xué)的基本分析方法之一。

(二)回歸分析法是在掌握大量觀察數(shù)據(jù)的基礎(chǔ)上,利用數(shù)理統(tǒng)計(jì)方法建立因變量與自變量之間的回歸關(guān)系函數(shù)表達(dá)式(稱回歸方程式)。

將數(shù)據(jù)挖掘技術(shù)運(yùn)用到統(tǒng)計(jì)學(xué)中,可以解決現(xiàn)有的分析手段對(duì)復(fù)雜數(shù)據(jù)的分析困難,以及由此帶來(lái)的管理滯后問題。大大提高了統(tǒng)計(jì)系統(tǒng)的“分析”功能。從現(xiàn)有的數(shù)據(jù)中挖掘出更多有價(jià)值的信息,對(duì)決策者提供了一定的幫助。隨著統(tǒng)計(jì)學(xué)與現(xiàn)代信息技術(shù)的融合,數(shù)據(jù)挖掘技術(shù)與統(tǒng)計(jì)學(xué)的集成已成為必然的趨勢(shì),也必定會(huì)為統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘未來(lái)的發(fā)展開辟一片新的天地。endprint

猜你喜歡
涵義數(shù)據(jù)挖掘統(tǒng)計(jì)學(xué)
關(guān)于投稿的統(tǒng)計(jì)學(xué)要求
統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
我的仙人掌
統(tǒng)計(jì)學(xué)符號(hào)使用的說(shuō)明
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
本刊對(duì)來(lái)稿中統(tǒng)計(jì)學(xué)處理的有關(guān)要求
探究《說(shuō)文》省形的真實(shí)涵義
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
我對(duì)國(guó)防教育的涵義的理解
人間(2015年21期)2015-03-11 15:24:32
高平市| 岫岩| 绩溪县| 新乡县| 兖州市| 雷波县| 武威市| 中宁县| 清流县| 定兴县| 酒泉市| 永嘉县| 轮台县| 连城县| 浪卡子县| 朝阳县| 崇义县| 呈贡县| 荃湾区| 右玉县| 绩溪县| 拉孜县| 车致| 太仆寺旗| 鸡西市| 广灵县| 临猗县| 玉树县| 南宁市| 九龙坡区| 正阳县| 霸州市| 左贡县| 绥滨县| 邻水| 丰宁| 沈阳市| 石门县| 和平县| 子洲县| 格尔木市|