周茂袁
摘要:大數(shù)據(jù)涵蓋多學(xué)科領(lǐng)域的、海量的、各種復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。各學(xué)科之間數(shù)據(jù)互相融合和貫通,學(xué)科之間的邊界已經(jīng)重疊和模糊。大數(shù)據(jù)涉及各種數(shù)據(jù)類型,包括文本和語言、視頻和圖像、時(shí)空數(shù)據(jù)、網(wǎng)絡(luò)和圖形等。對(duì)于傳統(tǒng)的統(tǒng)計(jì)學(xué)專業(yè)來說,大數(shù)據(jù)時(shí)代帶來的不僅是機(jī)遇還有挑戰(zhàn)。本文初步探索了以下幾個(gè)方面:《數(shù)據(jù)挖掘》中引入大數(shù)據(jù)分析方法;《非參數(shù)統(tǒng)計(jì)》中引入多元非參數(shù)方法、半?yún)?shù)回歸;《回歸分析》中引入隨機(jī)森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(其中以LASSO回歸為典型代表);《多元統(tǒng)計(jì)》中引入高維統(tǒng)計(jì)方法;以上引入的大數(shù)據(jù)分析方法均用R語言來實(shí)現(xiàn)。
關(guān)鍵詞:大數(shù)據(jù);統(tǒng)計(jì)學(xué);數(shù)據(jù)挖掘;非參數(shù)統(tǒng)計(jì);回歸分析;多元統(tǒng)計(jì)
中圖分類號(hào):G642.0 ? ? 文獻(xiàn)標(biāo)志碼:A ? ? 文章編號(hào):1674-9324(2015)35-0105-02
從狹義上來講,大數(shù)據(jù)的構(gòu)成包括兩方面,一方面是大樣本,在統(tǒng)計(jì)學(xué)上要達(dá)到需要的精度就必須采取抽樣的辦法降低樣本數(shù)量;另一方面是高維度變量,對(duì)于這一問題則需要采取壓縮、分解以及降維等方法。
一、大數(shù)據(jù)及其意義
大部分傳統(tǒng)的統(tǒng)計(jì)方法只適合分析單個(gè)計(jì)算機(jī)存儲(chǔ)的數(shù)據(jù)。而目前大數(shù)據(jù)的環(huán)境包括以下要素。
1.流數(shù)據(jù):數(shù)據(jù)快速地不斷涌來,現(xiàn)有存儲(chǔ)設(shè)備和計(jì)算能力難以應(yīng)付這種數(shù)據(jù)流(比如歐洲高能粒子對(duì)撞機(jī)所產(chǎn)生的數(shù)據(jù),每秒鐘可以達(dá)到500TB)。
2.磁盤存儲(chǔ)限制:數(shù)據(jù)已不能完全存儲(chǔ)在內(nèi)存中,需要硬盤存儲(chǔ)。
3.分布存儲(chǔ)狀態(tài):數(shù)據(jù)分布存儲(chǔ)在多個(gè)計(jì)算機(jī)中。
4.多線條狀態(tài):數(shù)據(jù)存儲(chǔ)在一個(gè)計(jì)算機(jī)中,多個(gè)處理器共享內(nèi)存。
大數(shù)據(jù)的發(fā)展就是對(duì)數(shù)據(jù)產(chǎn)生的機(jī)制進(jìn)行探索,將所產(chǎn)生的數(shù)據(jù)轉(zhuǎn)變?yōu)槿藗兯枰闹R(shí),進(jìn)而對(duì)相關(guān)政策的制定產(chǎn)生影響。這個(gè)過程是一個(gè)漫長的過程。一個(gè)小孩子隨著年齡的增長可能會(huì)掌握更多的單詞,但是根據(jù)一個(gè)孩子的年齡確定他掌握的單詞多少則并不科學(xué)。
進(jìn)一步來說,大數(shù)據(jù)有記錄保存自然與社會(huì)現(xiàn)狀的功能。現(xiàn)在大家收集著海量數(shù)據(jù),盡管他們還不清楚如何分析大量的數(shù)據(jù),但是他們相信需要保存現(xiàn)今社會(huì)經(jīng)濟(jì)高速發(fā)展的過程,期待著今后能夠分析和解釋這段歷史。還有些人將百歲老人的血液和其他各種生物的標(biāo)本等存放在冰箱里,他們認(rèn)為當(dāng)今的技術(shù)還不足以測試和分析這些資源,期待今后更先進(jìn)的測試技術(shù)能夠做到。大數(shù)據(jù)就如同自然和社會(huì)的血液那樣記錄著社會(huì)的現(xiàn)狀和發(fā)展過程。
17世紀(jì)望遠(yuǎn)鏡以及顯微鏡的發(fā)明使人類看到了以前從來沒有看到過的宇宙空間和微生物,擴(kuò)大了人類對(duì)自然的基本認(rèn)識(shí)。大數(shù)據(jù)就像“望眼鏡”和“顯微鏡”那樣,使得人們能夠通過數(shù)據(jù)來觀察和分析自然、經(jīng)濟(jì)、社會(huì)的現(xiàn)象。借助于互聯(lián)網(wǎng)數(shù)據(jù),可以及時(shí)了解疾病的疫情、科學(xué)的動(dòng)態(tài)、社會(huì)的動(dòng)態(tài)。谷歌借助頻繁檢索的詞條能及時(shí)判斷流感從哪傳播,哪些人可能已經(jīng)感染了流感。大數(shù)據(jù)將形成自然和人文社會(huì)的歷史長河,不但能用于探索當(dāng)代的科學(xué)問題,將來也可以用于研究人們食用轉(zhuǎn)基因食品對(duì)子孫后代的影響等追蹤研究問題,為未來留下當(dāng)前的歷史資料。
二、大數(shù)據(jù)帶來的變革
時(shí)代的進(jìn)步有賴于大數(shù)據(jù)的發(fā)展,大數(shù)據(jù)的發(fā)展給時(shí)代變革增加了更多的不確定性。就當(dāng)前研究來看,數(shù)據(jù)的搜集很大程度上依靠所研究問題的出現(xiàn)來推動(dòng)其向前發(fā)展。不過在不久的將來,隨著大數(shù)據(jù)時(shí)代的到來,人們對(duì)于問題的研究將會(huì)由“數(shù)據(jù)”來驅(qū)動(dòng)。例如,如果我們想去某地旅行或出差,會(huì)首先查詢目的地的交通情況、天氣情況以及住宿情況等信息,但是將來我們可以根據(jù)所查詢的數(shù)據(jù)信息來決定所要去的目的地。在古希臘時(shí)代,當(dāng)時(shí)的哲學(xué)家無所不知,號(hào)稱百科全書,到了文藝復(fù)興時(shí)代,隨著學(xué)科的不斷細(xì)化,不同學(xué)科出現(xiàn)了各自的專家。隨著大數(shù)據(jù)時(shí)代的到來,大百科全書式的人物將有可能再次出現(xiàn),而不同領(lǐng)域的專家的權(quán)威性將被逐步消弱,隨著大數(shù)據(jù)的不斷發(fā)展,很有可能會(huì)逐漸將學(xué)科專家消亡掉。例如,隨著計(jì)算機(jī)專家和統(tǒng)計(jì)學(xué)家對(duì)數(shù)據(jù)的搜集越來越多并且處理能力不斷增強(qiáng),他們將逐步成為生命科學(xué)方面的專家。再比如,如果我們掌握了足夠數(shù)量的相關(guān)專業(yè)書籍和日文譯本,就算我們對(duì)日文一無所知,我們也可以采取有效的方法將所需要的中文翻譯成為日文,因?yàn)槲覀冇泻芏喾浅?煽康姆g軟件,如谷歌翻譯軟件等。大數(shù)據(jù)已經(jīng)在各個(gè)領(lǐng)域和學(xué)科得到了應(yīng)用,例如醫(yī)療領(lǐng)域,大數(shù)據(jù)可以指導(dǎo)人們健康飲食,適時(shí)進(jìn)行身體檢查,并且確定檢查項(xiàng)目,幫助醫(yī)生對(duì)患者進(jìn)行疾病診斷等。
三、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)專業(yè)教學(xué)現(xiàn)狀
隨著科技的不斷發(fā)展和進(jìn)步,人們獲取信息和數(shù)據(jù)的途徑也發(fā)生了很大的變化,電子商務(wù)的發(fā)展和各種多媒體信息技術(shù)的飛速發(fā)展和應(yīng)用,給傳統(tǒng)的統(tǒng)計(jì)學(xué)應(yīng)用和教學(xué)帶來了機(jī)遇的同時(shí)也帶來了非常大的挑戰(zhàn)。一方面,由于各種信息和數(shù)據(jù)的不斷涌入,人們?cè)诒粍?dòng)搜集著各種數(shù)據(jù)。統(tǒng)計(jì)學(xué)的教學(xué)也需要不斷探索新的模式。另一方面,人們?cè)诒粍?dòng)接受數(shù)據(jù)的同時(shí)也在主動(dòng)搜集數(shù)據(jù)信息,不同學(xué)科有不同的數(shù)據(jù)需要。例如經(jīng)濟(jì)學(xué)領(lǐng)域的專家每天都在搜集各自的調(diào)查數(shù)據(jù)和觀察數(shù)據(jù),而自然科學(xué)領(lǐng)域的專家學(xué)者則不僅搜集宏觀天文數(shù)據(jù),還在搜集微觀基因數(shù)據(jù)。不同的人們搜集數(shù)據(jù)的方法也各不相同,有的在實(shí)驗(yàn)室通過試驗(yàn)進(jìn)行數(shù)據(jù)搜集,有的人則通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)搜集和研究。
對(duì)于當(dāng)前大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來的挑戰(zhàn),美國科學(xué)院“大數(shù)據(jù)分析委員會(huì)”給出了分析,他們認(rèn)為這些挑戰(zhàn)在于對(duì)不同格式和結(jié)構(gòu)的數(shù)據(jù)的處理方面、對(duì)于數(shù)據(jù)來源的追蹤方面、對(duì)于共享數(shù)據(jù)的安全性問題和完整性問題方面、對(duì)于樣本異質(zhì)性和偏倚性處理方面、在對(duì)問題進(jìn)行處理時(shí)的決策和分析方面以及對(duì)分布式和并行式在開發(fā)時(shí)的算法方面的問題等。國內(nèi)相關(guān)部門也對(duì)這一問題進(jìn)行了研討,最早一次是2012年5月在香山召開的“大數(shù)據(jù)科學(xué)與工程”會(huì)議,第二次是在2013年5月召開的對(duì)于大數(shù)據(jù)原理以及發(fā)展前景的探討會(huì),并同時(shí)制定了相關(guān)的科研計(jì)劃。但關(guān)于大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的探索還非常稀缺。
四、統(tǒng)計(jì)學(xué)專業(yè)課程改革
針對(duì)以上所述大數(shù)據(jù)時(shí)代的特點(diǎn)和變革意義以及目前統(tǒng)計(jì)學(xué)專業(yè)教學(xué)的現(xiàn)狀,本文進(jìn)行了相應(yīng)的初步探索。
(一)改革的總體思路
將現(xiàn)有的統(tǒng)計(jì)學(xué)頂級(jí)雜志或著名文獻(xiàn)中的成熟的大數(shù)據(jù)分析方法逐步凝練,形成教學(xué)內(nèi)容;將使用R軟件中的函數(shù)包實(shí)現(xiàn)這些大數(shù)據(jù)分析方法。
(二)改革的具體內(nèi)容
1.在《數(shù)據(jù)挖掘原理與方法》課程中引入大數(shù)據(jù)分析方法及其R語言的代碼實(shí)現(xiàn)。
2.在《非參數(shù)統(tǒng)計(jì)》課程中引入多元非參數(shù)統(tǒng)計(jì)方法(諸如多元符號(hào)、多元秩、多元符號(hào)秩等)、非參數(shù)回歸模型、半?yún)?shù)回歸模型及其R語言的代碼實(shí)現(xiàn)。
3.在《回歸分析》課程中引入回歸樹、boosting回歸、bagging回歸、隨機(jī)森林回歸等用來處理大數(shù)據(jù)的回歸方法、高維回歸變量選擇方法(比如LASSO回歸、動(dòng)態(tài)LASSO回歸等)及其R語言的代碼實(shí)現(xiàn)。
4.在《多元統(tǒng)計(jì)分析》課程中引入高維統(tǒng)計(jì)分析方法及其R語言的代碼實(shí)現(xiàn)。
5.在工科《概率論與數(shù)理統(tǒng)計(jì)》課程中引入R語言的代碼實(shí)現(xiàn)。
(三)改革的主要?jiǎng)?chuàng)新點(diǎn)
在傳統(tǒng)的統(tǒng)計(jì)學(xué)專業(yè)課程教學(xué)中引入最新的大數(shù)據(jù)分析方法及其R語言實(shí)現(xiàn)。
其中R語言是區(qū)別SAS、SPSS等傻瓜軟件的結(jié)構(gòu)化程序設(shè)計(jì)語言,可以靈活實(shí)現(xiàn)傻瓜軟件所不能實(shí)現(xiàn)的各種高級(jí)數(shù)據(jù)分析功能。其非常適應(yīng)于大數(shù)據(jù)統(tǒng)計(jì)分析方法的教學(xué)。所以大部分國內(nèi)外著名大學(xué)已經(jīng)不再使用諸如SAS、SPSS等傻瓜統(tǒng)計(jì)軟件進(jìn)行統(tǒng)計(jì)分析方法的教學(xué)。R語言已經(jīng)逐步成為統(tǒng)計(jì)學(xué)系的標(biāo)準(zhǔn)的教學(xué)軟件。
參考文獻(xiàn):
[1]Committee on the Analysis of Massive Data et al. (2013)Frontiers in Massive Data Analysis[J].National Academies Press,Washington. http:/ /www. nap. edu /catalog. php?record_id =18374.
[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[3]NIH Big Data to Knowledge (2013).http://bd2k.nih.gov/index.html#sthash.Yu5HxjcM.dpbs.
[4]納特·西爾弗.信號(hào)與噪聲[M].胡曉姣,張新,朱辰辰,譯.北京:中信出版社,2013.
[5]Yin J,Zhou Y,Wang C,He P,Zheng C,Geng Z. Partial orientation and local structural learning of causal networks for prediction. Challenges in Causality Volume 1:Causation and prediction challenge. Ed. by I. Guyon,C. Aliferis,G. Cooper,A. Elisseeff,J. Pellet,P. Spirtes and A. Statnikov,2009:93-105.
[6]趙暉,邢攀科,秦樂樂,張會(huì)肖.基于“云計(jì)算”的人力資源檔案信息決策支持系統(tǒng)的研究[J].河北工業(yè)科技,2013,(02).
[7]郭海燕,魏遵鋒,石中英.研究生課程與教學(xué)現(xiàn)狀調(diào)查分析——以北京師范大學(xué)為例[J].中國大學(xué)教學(xué),2012,(10).