摘 要:大數(shù)據(jù)技術(shù)是互聯(lián)網(wǎng)信息技術(shù)發(fā)展下重要的科技產(chǎn)物,大數(shù)據(jù)通過對不同領(lǐng)域的巨量數(shù)據(jù)進(jìn)行統(tǒng)計,從而完成數(shù)據(jù)整合,形成數(shù)據(jù)分析。本文主要以大數(shù)據(jù)挖掘和處理當(dāng)中所應(yīng)用到的數(shù)學(xué)知識為出發(fā)點,對大數(shù)據(jù)技術(shù)當(dāng)中常常運用的數(shù)學(xué)原理和數(shù)學(xué)知識進(jìn)行整理,從而了解數(shù)學(xué)知識在現(xiàn)實生活當(dāng)中的應(yīng)用價值和主要運用方向。
關(guān)鍵詞:數(shù)學(xué);大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)處理
與一般的數(shù)據(jù)處理方式不同,大數(shù)據(jù)技術(shù)所進(jìn)行的數(shù)據(jù)分析和數(shù)據(jù)挖掘當(dāng)中的對象數(shù)據(jù),通常是普通軟件在一定的時間之內(nèi)無法完成統(tǒng)計和整理的數(shù)據(jù)內(nèi)容,大數(shù)據(jù)技術(shù)需要另辟蹊徑,通過先進(jìn)的處理模式,完成對于數(shù)據(jù)的分析,從而實現(xiàn)數(shù)據(jù)整合。因此在目前階段,大數(shù)據(jù)技術(shù)具有5V特征,其中巨量、高速、多元、真實以及低價值密度等,是使其領(lǐng)先于其他數(shù)據(jù)技術(shù)的重點要素。
一、 大數(shù)據(jù)挖掘過程中的數(shù)學(xué)原理
在進(jìn)行巨量數(shù)據(jù)的挖掘時,技術(shù)手段需要對龐大凌亂的數(shù)據(jù)信息進(jìn)行整理和搜索,從而形成清楚、明確的數(shù)據(jù)信息類別,其中數(shù)學(xué)知識當(dāng)中的聚類分析法,是大數(shù)據(jù)挖掘過程當(dāng)中主要采取的挖掘策略。目前大數(shù)據(jù)技術(shù)主要采用灰色關(guān)聯(lián)、目標(biāo)函數(shù)模糊以及區(qū)間值算法來實現(xiàn)聚類分析的數(shù)據(jù)挖掘。
(一) 灰色關(guān)聯(lián)法的應(yīng)用
灰色關(guān)聯(lián)主要用來對巨量數(shù)據(jù)當(dāng)中各項因素之間所呈現(xiàn)出相同或相異的發(fā)展趨勢、發(fā)展程度進(jìn)行分析比較。在數(shù)學(xué)知識當(dāng)中,灰色關(guān)聯(lián)法可以對各項因素之間的關(guān)聯(lián)程度進(jìn)行歸納,從而了解因素的性質(zhì)和發(fā)展特征。而在大數(shù)據(jù)挖掘當(dāng)中,借助因素分析和總結(jié),能夠幫助大數(shù)據(jù)技術(shù)實現(xiàn)對于對象數(shù)據(jù)的動態(tài)觀察,從而實現(xiàn)對數(shù)據(jù)發(fā)展歷程的研究。數(shù)學(xué)知識在進(jìn)行灰色關(guān)聯(lián)表達(dá)時,通常借助影響因子集和因子間關(guān)聯(lián)映射集來共同構(gòu)成關(guān)聯(lián)分析系統(tǒng),表達(dá)式為S=(X,R),而在大數(shù)據(jù)技術(shù)當(dāng)中,技術(shù)研究人員則通過對數(shù)學(xué)原理的開發(fā),形成了基于集合的灰色管理法。灰色管理法是將數(shù)學(xué)表達(dá)當(dāng)中的因子關(guān)系通過幾何曲線的方式進(jìn)行繪制,并根據(jù)繪制出的集合形狀,開展對于對象數(shù)據(jù)的整合處理。在處理過程中,所完成繪制的幾何曲線與幾何形狀的整體趨勢越接近,表明數(shù)據(jù)信息之間的因子關(guān)聯(lián)度就越高,二者之間表現(xiàn)為正相關(guān)關(guān)系。技術(shù)研究人員通過這一策略,能夠有效地將數(shù)據(jù)當(dāng)中殘存的數(shù)據(jù)片段或者數(shù)據(jù)量較小的數(shù)據(jù)單元挖掘出來,從而獲取其重要的價值信息。
(二) 目標(biāo)函數(shù)模糊法的應(yīng)用
在實際生活當(dāng)中,運用模糊聚類方法這一數(shù)學(xué)知識進(jìn)行應(yīng)用和數(shù)據(jù)處理,主要集中在圖片信息、計算機信息等處理領(lǐng)域,而隨著技術(shù)的發(fā)展與進(jìn)步,模糊聚類方法在一些復(fù)雜的數(shù)據(jù)挖掘當(dāng)中,也得到了廣泛的運用。其中借助目標(biāo)函數(shù)來開展模糊聚類的信息處理方式,已經(jīng)成為現(xiàn)階段大數(shù)據(jù)挖掘技術(shù)當(dāng)中的重點技術(shù)。眾所周知,大數(shù)據(jù)挖掘所面對的巨量數(shù)據(jù)往往信息內(nèi)容雜亂、信息處理難度高。而基于目標(biāo)函數(shù)的模糊聚類技術(shù)則主要能夠處理高緯度的信息內(nèi)容,同時其所具有的伸縮性和高效率特征,也解決了以往困擾數(shù)據(jù)技術(shù)應(yīng)用和創(chuàng)新領(lǐng)域多年的問題。在具體的應(yīng)用環(huán)節(jié)當(dāng)中,技術(shù)研究人員需要首先結(jié)合對象樣本的數(shù)據(jù)內(nèi)容設(shè)定目標(biāo)函數(shù),并借助目標(biāo)函數(shù)的標(biāo)準(zhǔn)化來設(shè)定具體的科學(xué)指標(biāo),從而使數(shù)據(jù)內(nèi)容可以整合到一個模糊的矩陣當(dāng)中。模糊矩陣的處理方式主要為直接聚類以及模糊等價兩種方式,兩種方式所面對的是數(shù)據(jù)集整合目的和關(guān)鍵指標(biāo)聚類的要求,因此技術(shù)研究人員可以依照編網(wǎng)法、最大樹法,實現(xiàn)對于矩陣信息的提煉,完成聚類。
(三) 區(qū)間值算法的運用
區(qū)間值算法是聚類算法當(dāng)中的一個重要的組成部分,在數(shù)學(xué)知識當(dāng)中,區(qū)間值算法能夠?qū)崿F(xiàn)對于不完整的信息的整理和分析,從而實現(xiàn)信息提取完成聚類。大數(shù)據(jù)技術(shù)在進(jìn)行數(shù)據(jù)挖掘時,同樣會運用到區(qū)間值算法技術(shù),通過對復(fù)雜的數(shù)據(jù)進(jìn)行挖掘,并從中完成數(shù)據(jù)的轉(zhuǎn)化,使數(shù)據(jù)能夠具有比較性。在數(shù)據(jù)挖掘?qū)嵺`當(dāng)中,區(qū)間值算法要求技術(shù)研究人員能夠通過對數(shù)據(jù)范圍進(jìn)行固定取值的方式,實現(xiàn)對于數(shù)據(jù)的科學(xué)分析,其中數(shù)與區(qū)間聚類法,是將數(shù)理統(tǒng)計原理融入到區(qū)間值的而運算當(dāng)中,幫助技術(shù)研究人員精準(zhǔn)判斷樣本數(shù)據(jù)對象的挖掘區(qū)間,并確定數(shù)據(jù)之間的信息相互關(guān)系,從而完成區(qū)間值的確定,實現(xiàn)數(shù)據(jù)挖掘。
二、 大數(shù)據(jù)處理技術(shù)中的數(shù)學(xué)原理
在大數(shù)據(jù)挖掘的過程中,大數(shù)據(jù)技術(shù)還需要及時對所完成挖掘的數(shù)據(jù)信息內(nèi)容進(jìn)行處理。對于數(shù)據(jù)挖掘工作來說,數(shù)據(jù)處理技術(shù)應(yīng)當(dāng)具備極高的時效性,處理技術(shù)應(yīng)當(dāng)在一定的時間內(nèi)完成處理任務(wù),保證處理效果。通常情況下,受到原始數(shù)據(jù)的噪聲干擾、數(shù)據(jù)指標(biāo)集過于龐大,都可能造成數(shù)據(jù)處理的失敗。因此在現(xiàn)代數(shù)據(jù)處理技術(shù)當(dāng)中,技術(shù)研究人員通過數(shù)學(xué)知識的運用,來實現(xiàn)數(shù)據(jù)處理的準(zhǔn)確性。通常情況下,為了保證數(shù)據(jù)處理不受到因素干擾,處理技術(shù)當(dāng)中通常會采用數(shù)學(xué)知識中的統(tǒng)計學(xué)算法,將相關(guān)性分析作為基礎(chǔ),對數(shù)據(jù)進(jìn)行分組,完成處理。相關(guān)性分析法還要求能夠結(jié)合數(shù)據(jù)當(dāng)中的數(shù)量變化規(guī)律,進(jìn)行數(shù)學(xué)建模,并結(jié)合已知信息來推導(dǎo)出未知信息,從而實現(xiàn)對于已挖掘到的數(shù)據(jù)樣本的校驗和判斷分析。
三、 結(jié)論
綜上所述,在實際的大數(shù)據(jù)挖掘技術(shù)運用當(dāng)中,有著大量的數(shù)學(xué)知識和數(shù)學(xué)原理得到了運用。大數(shù)據(jù)技術(shù)作為對于巨量數(shù)據(jù)進(jìn)行整理和分析的技術(shù),其勢必要面臨數(shù)據(jù)的趨勢、數(shù)據(jù)的發(fā)展和信息的變化,而數(shù)學(xué)模型和數(shù)學(xué)統(tǒng)計在這些方面均具有極大的優(yōu)勢,可供大數(shù)據(jù)挖掘分析進(jìn)行吸取和借鑒。
參考文獻(xiàn):
[1]李佐軍.大數(shù)據(jù)時代下關(guān)聯(lián)規(guī)則興趣度挖掘在就業(yè)分析中的應(yīng)用[J].軟件工程,2018,21(11):25-27.
[2]關(guān)雪峰,曾宇媚.時空大數(shù)據(jù)背景下并行數(shù)據(jù)處理分析挖掘的進(jìn)展及趨勢[J].地理科學(xué)進(jìn)展,2018,37(10):1314-1327.
作者簡介:
袁志康,重慶市,重慶南開中學(xué)。