張璧麟
(英國拉夫堡大學 LE11 3TU)
近年來,由于物聯網、云技術等前沿技術的出現,網絡信息技術得到了一定的發(fā)展。當今時代,很多都是根據大量的數據來進行發(fā)展,專業(yè)對信息處理工作提出了非常高的要求。從以往的統(tǒng)計分析工作來講,它已經無法適應新時代的需要,需要通過新的技術手段,才能夠更好地滿足當今時代的需求。在大數據的背景之下,很多單位已經進行信息技術的應用,大批量地進行統(tǒng)計分析工作。
麥肯錫表示,現在是人工智能的時代,通過大數據技術能夠更好地對海量數據進行收集,并且能夠利用智能技術進行分析和管理。這樣能夠在很大程度上提高信息的規(guī)模,還能夠進行多種數據的分析。通過大數據技術能夠改變人們的生活方式,也能夠為人們帶來非常大的便利,促進社會的快速發(fā)展。統(tǒng)計學同樣也深受信息時代的影響。由于大數據分析的出現,統(tǒng)計學逐漸成為研究信息處理過程與大數據分析關系的重要學科,需要進行一些改革以適應時代的發(fā)展和進步。
大數據指的是能夠通過大量的樣本進行一定的數據集合,利用統(tǒng)計學能夠通過采樣的形式來進行數據分析,從而能夠有效保證數據的精準度。在進行數據分析時,可以進行變量的選擇,并且壓縮和分解,從而能夠更好地進行相關問題的研究。大數據所涵蓋的領域非常廣,包括自然科學、社會學、經濟學等諸多方面,從而能夠形成知識的海洋。大數據的類型也非常多,可以是文本的形式進行存儲,也可以通過該圖片、視頻的形式來進行儲存,從而實現大數據的集合。一般大數據的環(huán)境主要包括數據流環(huán)境、磁盤存儲環(huán)境、分布存儲環(huán)境以及多線條環(huán)境,利用大數據能夠更好地進行數據知識的轉化。通過大數據分析,統(tǒng)計專業(yè)人士能及時掌握所需資訊。通過此種信息的收集和處理方式會進行時間成本的節(jié)約,也會節(jié)約很多人力、物力,實現社會生產效率的提升。
統(tǒng)計學科具有漫長的發(fā)展歷程。雖然統(tǒng)計學形成于人類社會進行大量生產勞動活動的時代,但后來發(fā)展很緩慢,應用到了各種實際中。對于統(tǒng)計的起源時間,西方通常認為是希臘阿里斯托德時代。我國在秦朝以后,統(tǒng)計學出現了進一步的發(fā)展,但是還沒有形成一定的規(guī)模。此后,人口統(tǒng)計又經過了三次主要發(fā)展階段。
在新中國正式成立之后,主要引進了蘇聯的發(fā)展模式。然而,統(tǒng)計的發(fā)展依賴于經濟體系。在計劃經濟下,統(tǒng)計的發(fā)展受到了阻礙。因此,這一時代中國統(tǒng)計的發(fā)展跟不上西方統(tǒng)計的發(fā)展。
在改革開放之后各種新鮮事物大量進入我國,我國的內部工作環(huán)境與蘇聯所具有的制度之間存在著一定的不同,但是受到我國當時的發(fā)展特點所影響,計劃經濟讓統(tǒng)計學變得缺乏活力。與此同時,歐美統(tǒng)計方法已經在我國市場上引起了非常大的轟動,引起了國際學界對我國統(tǒng)計學科建設的廣泛討論。
我國的改革開放政策讓統(tǒng)計學得到了非常大的發(fā)展,特別是社會經濟統(tǒng)計和數理統(tǒng)計。慢慢地,統(tǒng)計學的思想已經開始涌現,統(tǒng)計文獻和資料也開始逐漸變多,這樣能夠更好地促進我國統(tǒng)計學發(fā)展,從而能夠更好地進行統(tǒng)計專業(yè)資料的整合。通過大數據統(tǒng)計思想的出現,讓我國的統(tǒng)計行業(yè)能夠更好地發(fā)展,并為后期的發(fā)展提供了非常強大的理論基礎。統(tǒng)計學已經遇到了良好的發(fā)展機會,統(tǒng)計學的發(fā)展與歷史背景具有非常大的關聯,在新世紀的背景之下,統(tǒng)計學在專業(yè)課程的建設中發(fā)生了非常大的改變,能夠進行信息化的轉變,跟上時代的發(fā)展步伐。
過去在電腦應用分析流程中,分析處理工作通常由電腦進行,數據工作與計算機的硬盤存儲量具有非常大的關聯。當下,為了能夠更好地進行大數據處理,傳統(tǒng)的統(tǒng)計學模式和存儲工作已經完全被顛覆,而分析存放方式變得更為簡單,信息量存儲也大大提高。因此分析工作不再局限于電腦,而且還能夠運用如云存儲技術、大數據處理信息技術等更為前沿的現代信息技術,使海量數據在大數據處理中心完成分析工作。在進行數據存儲的過程中,還能夠進行多臺計算機的連接,實現不同計算機來共同進行大數據的存儲。而使用同一臺電腦,能夠對多個存儲器中的數據進行分類處理,因此多個存儲器都能夠為一個計算機系統(tǒng)提供功能。
1.數據的預處理
大數據科技早已悄悄顛覆人類的日常生活,深刻影響了人類生活與工作的方方面面。在科學研究領域,利用大數據處理技術能夠更便捷地獲取各種有關資源、數據和書籍,并提供給有關技術人員借鑒和應用。在今天,由于大數據處理技術的廣泛應用,使人類可以利用更廣泛的數據類型,更方便地獲取數據,更快捷地查找數據,大數據初級技術也逐漸得到發(fā)展,能夠更好地進行預處理技術的發(fā)展,通過此種技術的使用,能夠提升大數據分析技術的應用價值。大數據技術的使用,一般需要經過大數據清洗、數據不完整填充、數據修正三個階段。至于統(tǒng)計學,在這三個階段,統(tǒng)計學中的隨機抽樣調查方法,主要用于數據的修正。利用統(tǒng)計技術能夠更好地提升大數據時代信息處理的時效性,還能夠進行數據庫的實時更新,這樣能夠更好地進行數據庫的連接,為數據預處理提供支持。
2.大數據環(huán)境抽樣
在進行數據的統(tǒng)計過程中,需要所有的樣本都能夠進行數據的存儲。不過,在大數據分析技術的實際運用中,在進行抽樣的過程中,需要將所有的數據都進行一定的統(tǒng)計工作。而在大數據技術的使用過程中,能夠更好地進行隨機抽樣,這樣更加具有代表性。該技術的進行主要借助大統(tǒng)計的有關理論知識,從而能夠更好地提升大數據處理的科學性,還能夠在此過程中對其進行嚴格控制。此外,在大數據收集處理過程中,人們往往遇到時間周期較長的問題,但是通過這種方法無法進行統(tǒng)一處理。而利用大數據技術能夠更好地進行數據的收集,節(jié)約時間成本,成倍提高效率,從而確保在短時間內統(tǒng)一簡單地處理數據。
3.大數據的分析與整合
在過去的統(tǒng)計應用流程中,由于信息技術發(fā)展比較滯后,無法完成復雜的操作步驟,因此出現了不少錯誤。與此同時,大數據技術也出現了非??焖俚陌l(fā)展。因為計算機網絡的快速發(fā)展,計算工作質量有了很大的提高,通過信息技術處理能夠更好地讓其工作變得更加多樣化。人們能夠更好地利用壓縮技術、變換技術、傳輸技術,來提升一定的信息處理效率,也使得信息處理結論更為準確。同樣,在大數據處理時代,我們能夠通過數據動態(tài)的方法來進行一定的模型構建,這樣能夠有助于數據庫系統(tǒng)進行一定的改變。大型數據庫系統(tǒng)也可分成幾組,通過使用這些技術能更方便地查詢與它們有關的數據和技術。而且,網絡時代也讓統(tǒng)計工作出現巨大改變。數據搜索工作不僅僅可以通過關鍵字來進行一定的數據獲取,更加能夠進行海量數據的收集。
傳統(tǒng)的統(tǒng)計工作主要是進行相關的資料進行收集,并且有工作人員進行一定的分析,最后得出結論。但是,在以往的統(tǒng)計應用中,統(tǒng)計資料來源往往局限,無法鑒別其真實性。因此大統(tǒng)計時代的來臨,給統(tǒng)計分析工作帶來了許多方便。因此,能夠更好地對數據內容進行豐富,還能夠讓數據源變得更加多樣化,人們能夠在所搜集到的數據中產生出許多新的數據。在過去,數據往往僅限于單個領域,在大數據技術應用的背景下,很多行業(yè)都可以通過大數據分析而實現相應的目標,從而能夠實現更多數據的收集和處理,進而獲取經濟利益。
根據國際數據統(tǒng)計標準中能夠發(fā)現,通過合適、并且準確的方法能夠進行高質量的統(tǒng)計。而適應性是統(tǒng)計工作中的重點內容,需要統(tǒng)計信息符合要求,才能夠更好地滿足客戶的需求。通過大數據技術能夠更好地進行統(tǒng)計功能提升,從而可以用更少的時間去進行相關統(tǒng)計工作,有效提供統(tǒng)計工作效率,讓企業(yè)客戶能夠在第一時間對統(tǒng)計信息進行全方位了解。大數據技術通過網絡能夠更好地實現快速傳遞,能夠應用大數據技術去進行估值,并且能夠縮小估值與真值之間所具有的誤差,能夠讓誤差控制在一定的范圍內,這樣才能夠實現統(tǒng)計數據的真實性。同時,還能夠通過大數據技術進行統(tǒng)計結果的核算工作,從而可以更好地保證工作質量,有效實現數據的平衡。傳統(tǒng)的統(tǒng)計學處理工作在大數據的分析和處理中具有一定的劣勢及滯后性,比如在進行CPI報表的制作時,中間的數據會存在著一定的滯后性,不能夠根據實際的情況作出必要的調整。而通過大數據技術就能夠根據當前的“價格指數”來進行市場數據監(jiān)測工作,從而能夠更好地對每天的價格進行數據獲取,也可以根據市場的情況來進行一定的調節(jié)。通過此種方式,能夠在很大程度上彌補傳統(tǒng)統(tǒng)計學的缺點,有效避免出現通貨膨脹的發(fā)生。
通過大數據技術能夠讓現代的統(tǒng)計工作成本降低,這樣能夠不再需要通過人力來進行數據調查和收集工作。傳統(tǒng)的統(tǒng)計工作會動用大量的人力、物力去進行統(tǒng)計工作,從而造成非常大的成本浪費。而在大數據時代下,可以利用互聯網來進行相關的信息統(tǒng)計,能夠自動進行大數據的收集,在一定程度上實現了數據收集成本的降低。利用大數據來進行相應的信息收集也會比較客觀和準確,有利于促進現代統(tǒng)計學的發(fā)展。通過大數據技術能夠有效轉變傳統(tǒng)的統(tǒng)計學思想,不僅僅是對個別樣本的重視,而且需要對整體的數據進行處理和分析,這樣的統(tǒng)計工作具有更高的工作質量。
樣本數據是統(tǒng)計工作中的重要工作內容,能夠更好地進行數據對象的連接。而大數據技術能夠更好地進行關聯,總的來說,樣本集的定義很大地改變了和樣本數量有關的研究主題范疇。在大數據時代,數據來源已經不再簡單,而且還能夠從多種視角加以檢驗,這讓統(tǒng)計資料更有說服力、更接近實際情況,但同時也對數據學術研究提出了更高的要求。當樣本總量成指數上升時,會出現一定的數據分散的情況。在傳統(tǒng)的統(tǒng)計學知識中,數據是具有一定的結構化特點的。統(tǒng)計學并不能夠對其進行高效的管理工作,利用大數據技術很難進行非常有用的數據。通過以上的問題能夠反映非結構化數據,在日常的工作中無法進行系統(tǒng)理論指導。而大數據技術卻具有自身的優(yōu)點,這也要求大數據技術本身必須加快變革速度,以滿足大數據分析時代的新需求。如果大數據技術無法適應新時代的發(fā)展趨勢,將很難滿足大數據分析技術的需求,無法實現相關工作的需求。
在大數據的背景下,信息技術能夠更好地進行信息和計算機硬件的依靠。在計算機操作流程中,大量數據與知識的運用都需要統(tǒng)計分析軟件的載體發(fā)揮作用。通過統(tǒng)計分析軟件能夠提高統(tǒng)計分析與信息處理的能力,同時減少了統(tǒng)計分析工作困難,也大大降低了應用數據操作的技術門檻,使大數據的運用更為深入。當下,已經實現了各種統(tǒng)計分析軟件的應用,但是這種應用軟件還具有較大的技術缺陷。在大數據時代,由于信息在各種媒介中高速傳輸,各領域的應用軟件也正逐步適應著這個新的技術變革。計算機科學的飛速進展,也要求有關計算領域的各類相關應用軟件的深入研究,但是很多公司非常缺乏相關的資源支撐,還有一些比較大的公司對此技術缺乏興趣。
在進行大數據統(tǒng)計學理論研究的過程中,其主要研究目標是能夠在統(tǒng)計學方面進行有效工具的研究。傳統(tǒng)的統(tǒng)計學研究工作主要是進行概率分布的研究,而隨著相關研究工作技術的逐漸成熟,其研究工作也逐漸朝著指數族、頻率計算等一些比較復雜應用的方面進行研究和發(fā)展。通過對該方面的研究,能夠具有非常廣泛的應用,可以更好地進行典型理論的研究,有效體現概率論的重要性。還需要對龐大的數據進行分析,有效使用Bootstrap的方法來進行統(tǒng)計應用。
大數據吝嗇建模主要是對大數據的開發(fā)方法進行一定的研究,這樣能夠更好地去除榮譽信息。在大數據技術快速發(fā)展的今天,更多的線上快速計算技術也應運而生。大數據存在的形式十分豐富,因為受到大數據龐大體量的影響,通過大數據分析需要進行進一步的優(yōu)化,比如優(yōu)化器的制作、高效率的算法研究等,從而能夠更好地進行實際應用。
現在的大數據能夠通過千萬兆臺來進行模擬工作,從而能夠更好地進行大數據信息的收集和存儲。當大數據能夠更好地分布在系統(tǒng)的內存節(jié)點之上,那么在進行少量數據的存儲也會付出非常大的成本。因此,為了能夠更加科學地進行數據的收集,需要進行一定的改革,從而能夠更好地進行千萬億兆級別的系統(tǒng)研究,這樣才能夠更好地進行大數據建模,有效利用空間降維技術來進行編碼的嵌入工作。并且能夠利用分布式的模式來進行分類,從而能夠更好地進行新算法的研究,有效進行數據統(tǒng)計工作。
張量在數學上主要是進行矩陣式多維推廣,是一種非數值的元素,在相關的應用中會存在比較大的耦合張量。為了能夠更好地進行耦合張量的分析,可以通過一些新的算法來進行處理,這樣才能夠更好地進行大數據的分析。對此進行研究的主要方向需要進行可擴展的工具包,這樣才能夠更好地進行統(tǒng)計研究工作。主要的研究內容是張量因子理論分析,進行多向研究降維處理,并且能夠進行相關數據的處理,從而能夠在很大程度上實現對耦合張量的評估。
在大數據的背景下,不斷摸索與革新,才能在時代發(fā)展的過程中不被遺忘。大數據技術是一種新興的技術,在統(tǒng)計學的研究中具有非常重要的作用,在很多國內外的文獻中都具有一定的理論支持。在大數據時代,其為統(tǒng)計學的發(fā)展帶來了一定的機遇和挑戰(zhàn),在未來的發(fā)展中,更加需要對大數據理論進行深入研究,還需要根據存在的情況來進行一定的硬件升級和軟件的研發(fā),從而能夠在很大程度上來進行統(tǒng)計工作的創(chuàng)新和改進,進而實現統(tǒng)計工作的質量提升。大數據時代對統(tǒng)計學所需要的數據具有非常高的要求,為了更好地進行大數據的應用,需要正確認識大數據技術,同時要進一步進行研究工作,實現大數據時代下統(tǒng)計學的研究框架構建,促進統(tǒng)計工作質量的提升。