王軍 趙穎珺
摘 要: 隨著大數(shù)據(jù)時代來臨,數(shù)據(jù)挖掘技術(shù)成為全球研究的熱點,在數(shù)據(jù)挖掘過程中,經(jīng)常會用到統(tǒng)計學(xué)方面的知識、理論和統(tǒng)計思想。與此同時,對數(shù)據(jù)挖掘技術(shù)的研究也促進(jìn)著統(tǒng)計學(xué)的研究和發(fā)展。因此,培養(yǎng)具有統(tǒng)計思維的程序設(shè)計人才正是培養(yǎng)應(yīng)用型人才的客觀要求。本文分析了數(shù)據(jù)挖掘與統(tǒng)計思想之間的關(guān)聯(lián),并提出在培養(yǎng)程序設(shè)計人才過程中滲透統(tǒng)計思維的三個具體方法,從而加強(qiáng)程序設(shè)計人才統(tǒng)計思維的培養(yǎng),提高人才培養(yǎng)的質(zhì)量。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 統(tǒng)計思維; 應(yīng)用型人才; 分析方法
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2018)09-96-03
Abstract: With the coming of big data era, data mining has become a hot research topic in the global. During the data mining, the knowledge, theory and thought of statistics are often used. At the same time, the research of data mining also stimulates the research and development of statistics. Therefore, it is the objective requirement of cultivating application-oriented talents to train the programming talents with statistical thinking. In this paper, the relationship between the data mining and the statistical thinking is analyzed, and three specific methods to infiltrate the statistics thinking in the training of programming talents are put forward, so as to strengthen the training of the statistical thinking of program design talents and improve the quality of personnel training.
Key words: data mining; statistical thinking; application-oriented talent; analysis method
0 引言
隨著智能終端、云計算、移動互聯(lián)網(wǎng)日新月異的發(fā)展,數(shù)據(jù)正以驚人的速度產(chǎn)生,尤其是大企業(yè)如電信運(yùn)營商、電子商務(wù)、互聯(lián)網(wǎng)公司、金融、股市等生產(chǎn)并掌握著PB或ZB級數(shù)據(jù),大數(shù)據(jù)正在改變著人們的思維、擁有無限價值的潛能。如今,衡量企業(yè)的核心資產(chǎn)能力和價值能力都是以其管理大數(shù)據(jù)的能力為依據(jù)[1]。如何從大規(guī)模數(shù)據(jù)中挖掘出有價值的數(shù)據(jù),現(xiàn)在成為全球研究的熱點。
1 相關(guān)技術(shù)介紹
1.1 統(tǒng)計思維
文獻(xiàn)[2]胡敏認(rèn)為,統(tǒng)計思維是學(xué)生獲得統(tǒng)計基礎(chǔ)和基本技能,形成數(shù)據(jù)分析觀念和隨機(jī)思想的思維模式和解決問題的方法,具體包括,具有收集和整理數(shù)據(jù)的意識,學(xué)會分析和解釋數(shù)據(jù)的方法,并根據(jù)數(shù)據(jù)處理結(jié)果做出合理的推斷和決策;體會數(shù)據(jù)的隨機(jī)性和不確定性,統(tǒng)計思維的具體表現(xiàn)是數(shù)據(jù)的收集、整理、描述、分析和解釋等方面的能力。
1.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是指,從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫、互聯(lián)網(wǎng)或其他信息庫中大量的、含有噪聲的、未知的和對決策有潛在價值的數(shù)據(jù)發(fā)現(xiàn)有價值知識的過程[3],或者是指,從大量的數(shù)據(jù)中通過算法搜索隱藏于其中有價值信息的過程,通過統(tǒng)計、在線分析處理、情報檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多方法來發(fā)現(xiàn)知識。研究的目的主要是發(fā)現(xiàn)知識、使數(shù)據(jù)可視化、糾正數(shù)據(jù)、預(yù)測趨勢走向,獲取可用的新穎的數(shù)據(jù)展現(xiàn)方式,幫助數(shù)據(jù)所有者理解并開發(fā)其使用價值。
數(shù)據(jù)挖掘的過程就是對觀測到的數(shù)據(jù)集進(jìn)行分析,比如回歸分析、預(yù)測分析、可視化分析,發(fā)現(xiàn)未知的關(guān)系和總結(jié)。在這個過程中,我們會利用不同的分析方法和分析工具,在海量數(shù)據(jù)處理過程中進(jìn)行數(shù)學(xué)建模和關(guān)系發(fā)現(xiàn),這些模型和關(guān)系可以輔助決策和預(yù)測。
1.3 數(shù)據(jù)挖掘與統(tǒng)計思維的關(guān)系
文獻(xiàn)[4]中詳細(xì)介紹了數(shù)據(jù)挖掘的各個階段的數(shù)據(jù)挖掘算法所用到的統(tǒng)計學(xué)理論和統(tǒng)計分析方法;文獻(xiàn)[5,7]中介紹了在線流數(shù)據(jù)聚類挖掘算法和并行化加權(quán)近鄰傳播聚類挖掘算法;文獻(xiàn)[6]提出了一種基于部分約束信息的大規(guī)模數(shù)據(jù)集EM概率聚類算法等大量運(yùn)用了概率和數(shù)理統(tǒng)計方法。十大經(jīng)典算法中的K-means算法,介紹了先選擇k個對象,每一個對象初始地代表一簇平均值中心對剩余的對象根據(jù)與其各個簇中心的距離,將它賦給最近的簇,然后重新計算每個簇的平均值。這個過程不斷的迭代,直到準(zhǔn)則函數(shù)收斂。準(zhǔn)則函數(shù)定義為:
其中,E是準(zhǔn)則函數(shù),表示數(shù)據(jù)集中所有數(shù)據(jù)點的平均誤差總和,x是空間中的點,表示所給定的數(shù)據(jù)點,是簇Ci的平均值,準(zhǔn)則函數(shù)E使得生成的結(jié)果簇盡可能地獨立和緊湊。
十大經(jīng)典算法中的EM算法,介紹把數(shù)據(jù)的每一個聚類看作是一個高斯分布,這個多維的高斯分布的概率密度函數(shù)為:
其中,μh為高斯分布中心,Σh,h=1,2,…,k為協(xié)方差,若X為d維列向量,則為d維的列中心向量,Σh為d×d的協(xié)方差,密度函數(shù)為每一個多維高斯分布設(shè)置一個權(quán)重系數(shù)wh,于是對無標(biāo)簽數(shù)據(jù)聚類的過程轉(zhuǎn)變?yōu)楣烙嬤m合的參數(shù),使得原始待聚類數(shù)據(jù)的擬然最大,都是用統(tǒng)計學(xué)知識和統(tǒng)計分析方法進(jìn)行數(shù)據(jù)挖掘。還有更多的數(shù)據(jù)挖掘算法表明,統(tǒng)計學(xué)方法作為數(shù)據(jù)挖掘的工具在數(shù)據(jù)挖掘中發(fā)揮著不可忽視的作用。數(shù)據(jù)挖掘過程中無時無刻不是在對數(shù)據(jù)進(jìn)行收集、歸類、分析、整理且反復(fù)進(jìn)行。統(tǒng)計思維始終貫穿在數(shù)據(jù)挖掘的全過程中,數(shù)據(jù)挖掘過程就是對統(tǒng)計思維的培訓(xùn)和強(qiáng)化訓(xùn)練、獲取思維能力的過程,也是統(tǒng)計思維得到應(yīng)用和創(chuàng)新過程,同時統(tǒng)計思維也指導(dǎo)或引導(dǎo)數(shù)據(jù)挖掘時思維指向,集中思考采用什么樣的統(tǒng)計方法或統(tǒng)計分析方法才能達(dá)到數(shù)據(jù)挖掘的目的。數(shù)據(jù)挖掘的過程與統(tǒng)計思維的訓(xùn)練是相輔相承的,同時還要在統(tǒng)計學(xué)或數(shù)理統(tǒng)計的學(xué)習(xí)過程中強(qiáng)化統(tǒng)計思維的訓(xùn)練,使之不斷地在應(yīng)用中為數(shù)據(jù)挖掘提供新的指導(dǎo)思想
2 程序設(shè)計人才培養(yǎng)方式的轉(zhuǎn)變
程序設(shè)計是給出解決特定問題程序的過程。程序設(shè)計是以某種程序設(shè)計語言為工具、以算法為基礎(chǔ)對數(shù)據(jù)進(jìn)行處理的過程;程序設(shè)計的過程包括分析、設(shè)計、編碼、測試和排錯等幾個環(huán)節(jié)。
人才培養(yǎng)是對人才進(jìn)行教育、培訓(xùn)的過程。目標(biāo)是培養(yǎng)具有良好人文、科學(xué)素質(zhì)和社會責(zé)任感,學(xué)科基礎(chǔ)扎實,具有自我學(xué)習(xí)能力、創(chuàng)新精神和創(chuàng)新能力的人才。具體包含以下幾個方面:得到基礎(chǔ)研究和應(yīng)用研究的訓(xùn)練,具有扎實的基礎(chǔ)理論知識和實驗技能,動手能力強(qiáng)、綜合素質(zhì)好;掌握科學(xué)的思維方法,具備較強(qiáng)的獲取知識能力,具有探索精神、創(chuàng)新能力和優(yōu)秀的科學(xué)品質(zhì)。結(jié)合時代背景與自己多年教學(xué)經(jīng)驗,本文提出了3個培養(yǎng)具有統(tǒng)計思維的程序設(shè)計人才具體思路與方法。
2.1 從純形式的程序設(shè)計向概率思維的轉(zhuǎn)變
日常的程序設(shè)計教學(xué)過程中,程序設(shè)計的學(xué)習(xí)或教學(xué)主要是學(xué)習(xí)基本的語法規(guī)則,程序設(shè)計的基本方法和語言的表達(dá)能力。實驗或?qū)嵱?xùn)中所給出的問題主要是一些常規(guī)性的計算、實際問題的計算機(jī)表示、算法的空間復(fù)雜度和時間復(fù)雜分析、數(shù)據(jù)在計算機(jī)中組織方式和數(shù)據(jù)輸入、輸出形式等能力進(jìn)行訓(xùn)練。在大數(shù)據(jù)時代,傳統(tǒng)的教學(xué)模式不太適應(yīng)社會或行業(yè)或企業(yè)對程序設(shè)計人員的客觀需求,程序設(shè)計人員的培養(yǎng)必須加強(qiáng)統(tǒng)計學(xué)或數(shù)理統(tǒng)計或統(tǒng)計方法的學(xué)習(xí)。統(tǒng)計學(xué)是數(shù)據(jù)分析、處理的一門學(xué)科。隨機(jī)事件、概率分析、統(tǒng)計分析等基礎(chǔ)理論來源于統(tǒng)計學(xué)或數(shù)理統(tǒng)計。因此在實驗或?qū)嵱?xùn)中加強(qiáng)隨機(jī)事件、概率統(tǒng)計方面的問題設(shè)計,設(shè)計貼近實際、貼近生活的案例。比如:某高速路的流量分析、某交通要道交通阻塞時間段分析、交通事故調(diào)查、城市綠化樹苗的成活率等。所以,設(shè)計人員必須深入實踐、隨機(jī)抽樣、大量實踐,反復(fù)驗證,最后通過統(tǒng)計分析有可能提供有價值的方案。堅持在程序設(shè)計中以概率事件的問題來驅(qū)動和引導(dǎo)程序設(shè)計的實訓(xùn)、訓(xùn)練,訓(xùn)練概率思維的思維能力和統(tǒng)計思維的思維能力,調(diào)整程序設(shè)計人才的思維方式和訓(xùn)練方法,為數(shù)據(jù)挖掘培養(yǎng)合格的人才,即大數(shù)據(jù)時代所需要的人才。
2.2 從常規(guī)的確定性研究向隨機(jī)性研究的轉(zhuǎn)變
當(dāng)前程序設(shè)計人員的培養(yǎng)或程序設(shè)計教學(xué)主要是研究某一特定的軟件架構(gòu)和實現(xiàn)方法。主要真對數(shù)據(jù)庫中有結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行應(yīng)用研究。大數(shù)據(jù)時代產(chǎn)生的數(shù)據(jù)呈現(xiàn)無結(jié)構(gòu)化或半結(jié)構(gòu)化,且無結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)量與日聚增,這些無結(jié)構(gòu)或半結(jié)構(gòu)化的數(shù)據(jù)中隱藏著極具價值的知識,這就要求程序設(shè)計人員的培養(yǎng)或程序設(shè)計教學(xué)盡快轉(zhuǎn)變?yōu)閷υ朴嬎?、云存儲、分布存儲、人工智能、機(jī)器學(xué)習(xí)等方面知識進(jìn)行學(xué)習(xí)、訓(xùn)練、研究,從超大量的隨機(jī)事件中發(fā)現(xiàn)更多隱藏價值的知識。使這知識能為企業(yè)、交通、國防、科技、農(nóng)業(yè)等各行各業(yè)服務(wù),培養(yǎng)更多數(shù)據(jù)挖掘人才。
2.3 從演繹歸納向統(tǒng)計思維模式的轉(zhuǎn)變
數(shù)據(jù)挖掘過程中,利用統(tǒng)計分析方法對數(shù)據(jù)挖掘算法進(jìn)行演繹歸納。從事的主要工作還是進(jìn)行方法論研究,是在尋找普遍性規(guī)律。當(dāng)然有很多算法應(yīng)用在實際中,如機(jī)器學(xué)習(xí)算法、神經(jīng)網(wǎng)絡(luò)算法、模式識別算法等。但是數(shù)據(jù)中存在非常多的數(shù)據(jù)是無規(guī)律可循的,這就要求數(shù)據(jù)分析人員、數(shù)據(jù)分析師、程序設(shè)計人員及程序研究人員,對產(chǎn)生的數(shù)據(jù)進(jìn)行各種各樣大規(guī)模實際或?qū)崟r的統(tǒng)計,當(dāng)全局?jǐn)?shù)據(jù)中的某一類數(shù)據(jù)統(tǒng)計量達(dá)到一定程度后有可能從統(tǒng)計的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律或發(fā)現(xiàn)隱藏的知識,這種思維是純形式的統(tǒng)計思維,這種統(tǒng)計思維避開了數(shù)據(jù)挖掘完全依賴統(tǒng)計分析方法的絕對性,即:當(dāng)找不到統(tǒng)計分析方法時,機(jī)械地對全局大數(shù)據(jù)中的各類數(shù)據(jù)進(jìn)行不停的統(tǒng)計和分析,最終也有可能發(fā)現(xiàn)更多有價值的規(guī)律和隱藏的知識。比如,對全國流通量比較大的一百條高速公路的某路段的轎車的車型、車牌進(jìn)行幾乎無漏的100天統(tǒng)計,統(tǒng)計結(jié)果可能提高用戶對某種轎車的認(rèn)可程度,特定車輛在某路段出現(xiàn)的頻度、屬地車輛出現(xiàn)的頻度等分析結(jié)果,有可能對轎車生產(chǎn)廠家或交通管理或?qū)囕v的追逃提供有價值的線索。
也就是說,傳統(tǒng)的統(tǒng)計方法也有可能對數(shù)據(jù)挖掘帶來意想不到的結(jié)果。從演繹歸納到純形式的統(tǒng)計思維的訓(xùn)練,當(dāng)量變達(dá)到一定程度時對數(shù)據(jù)挖掘的研究可能提供很有價值的線索。
3 結(jié)束語
客觀世界是充滿概率的,而不是確定的,客觀世界的事物之間是存在某種關(guān)聯(lián)關(guān)系而不是存在某種因果關(guān)系的。大數(shù)據(jù)時代的數(shù)據(jù)挖掘的價值是尋找數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系能夠幫助決策者正確決策,制定科學(xué)的辦法,創(chuàng)造更的價值,推動事物之間能夠協(xié)調(diào)發(fā)展。教學(xué)的目的是為社會輸送符合社會需要的人才,大數(shù)據(jù)時代程序設(shè)計人才的培養(yǎng),不僅要懂得計算機(jī)相關(guān)的知識,掌握程序設(shè)計的基本理論、方法,有設(shè)計能力,更主要的是懂得尋找多學(xué)科交叉的知識背景,能夠利用統(tǒng)計,分析方法去發(fā)現(xiàn)交叉學(xué)科的關(guān)聯(lián)關(guān)系,交叉學(xué)科間的關(guān)聯(lián)關(guān)系存在著更多的科學(xué)價值和應(yīng)用前景。
數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系本質(zhì)上就是事物之間的關(guān)聯(lián)關(guān)系,這種關(guān)聯(lián)關(guān)系是驅(qū)動社會發(fā)展的原動力。大數(shù)據(jù)時代對程序設(shè)計人才的培養(yǎng)堅持從單純的程序設(shè)計向概率思維轉(zhuǎn)變、從研究問題的確定性向隨機(jī)性轉(zhuǎn)變、從演繹歸納向統(tǒng)計思維轉(zhuǎn)變。在創(chuàng)新驅(qū)動發(fā)展的大背景下,培養(yǎng)具有統(tǒng)計思維的程序設(shè)計人才,是計算機(jī)教育、軟件教育工作者必須承擔(dān)的歷史重任和歷史使命。
參考文獻(xiàn)(References):
[1] 陳一昕.大數(shù)據(jù)的思維革命及算法挑戰(zhàn)[J].信息通信技術(shù),2013.6.
[2] 胡敏.五年級學(xué)生統(tǒng)計思維水平的調(diào)查研究[D].蘇州大學(xué)碩士學(xué)位論文,2016.
[3] 范明.孟小峰等.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2006.
[4] 崔廣風(fēng).數(shù)據(jù)挖掘中的統(tǒng)計方法[D].西南石油大學(xué)碩士學(xué)位論文,2014.
[5] 李維.面向大數(shù)據(jù)的聚類數(shù)據(jù)挖掘算法[D].南京郵電大學(xué)碩士學(xué)位論文,2014
[6] 王玉雷.面向大數(shù)據(jù)的聚類挖掘算法研究[D].南京郵電大學(xué)碩士學(xué)位論文,2015.
[7] 孫吉貴.劉杰.趙連宇.聚類算法研究[J].軟件學(xué)報,2009.20(5):1337-1348
[8] 李金昌.統(tǒng)計思維研究[M].中國統(tǒng)計出版社,2009.
[9] 李金昌.應(yīng)用抽樣技術(shù)[M].科學(xué)出版社,2010.
[10] 張建鋒.陳鋼譯.程序員數(shù)學(xué)之概率統(tǒng)計[M].人民出版社,2013.