周明君 劉洪
摘 要 作為時(shí)代發(fā)展與科技進(jìn)步的重要產(chǎn)物,大數(shù)據(jù)的誕生使數(shù)據(jù)處理的精度與廣度全面提升,由此引發(fā)的數(shù)據(jù)處理方式的變革將影響眾多相關(guān)行業(yè)。文章以面對(duì)大數(shù)據(jù)機(jī)遇為思考背景,通過(guò)討論大數(shù)據(jù)的儲(chǔ)存、分析與管理等方面,簡(jiǎn)述大數(shù)據(jù)的有效利用及分析方法,為相關(guān)行業(yè)應(yīng)對(duì)大數(shù)據(jù)的機(jī)遇與潛在挑戰(zhàn)提出可行性建議,以求推動(dòng)行業(yè)發(fā)展。
關(guān)鍵詞 大數(shù)據(jù);數(shù)據(jù)分析;分析;方法
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)233-0139-02
1 對(duì)大數(shù)據(jù)的認(rèn)識(shí)
1.1 大數(shù)據(jù)的宗旨
大數(shù)據(jù)所涉及數(shù)據(jù)并未只有廣度,即經(jīng)過(guò)分析的數(shù)據(jù)才具有實(shí)用價(jià)值,因此大數(shù)據(jù)所指為經(jīng)過(guò)分析的數(shù)據(jù),由此大數(shù)據(jù)的分析成為了處理大數(shù)據(jù)的關(guān)鍵部分。大數(shù)據(jù)具有大數(shù)據(jù)量、多數(shù)據(jù)類型、快速處理速度、低密度的四重特點(diǎn)。高維低密度的數(shù)據(jù)具有法則性,因此大數(shù)據(jù)的分析應(yīng)優(yōu)化數(shù)據(jù)維度并細(xì)化低密度數(shù)據(jù),使數(shù)據(jù)有意義的存在,大數(shù)據(jù)的分析應(yīng)具有直接、準(zhǔn)確、快速、大規(guī)模的特點(diǎn)。
1.2 大數(shù)據(jù)的目標(biāo)
大數(shù)據(jù)的分析是為背后的各行各業(yè)的需求與發(fā)展進(jìn)行服務(wù),因此大數(shù)據(jù)的目標(biāo)為實(shí)現(xiàn)基于數(shù)據(jù)的決策與資源配置。目前大數(shù)據(jù)分析技術(shù)可將數(shù)據(jù)源進(jìn)行O2O(Online To Offline線上到線下)融合處理,并可以將基本的數(shù)值數(shù)據(jù)轉(zhuǎn)變?yōu)椴煌愋偷亩嗝襟w數(shù)據(jù)。
1.3 大數(shù)據(jù)的角度
大數(shù)據(jù)的處理角度應(yīng)以客戶的需求為出發(fā)點(diǎn),即提供符合客戶需求的個(gè)性化服務(wù),并在企業(yè)的整個(gè)營(yíng)銷過(guò)程中起到預(yù)測(cè)發(fā)展趨勢(shì)、配置資源比例的中間索引作用,將龐大的宏數(shù)據(jù)資源與產(chǎn)品定位進(jìn)行鏈接。大數(shù)據(jù)的重要意義體現(xiàn)在預(yù)測(cè)經(jīng)濟(jì)發(fā)展的趨勢(shì),目前通過(guò)大數(shù)據(jù)所得的經(jīng)濟(jì)發(fā)展趨勢(shì)為互聯(lián)網(wǎng)金融,而目前的整體經(jīng)濟(jì)還處于金融互聯(lián)網(wǎng)階段,所衍生的產(chǎn)物例如網(wǎng)上銀行仍與傳統(tǒng)金融模式?jīng)]有本質(zhì)上區(qū)別,因此向互聯(lián)網(wǎng)金融發(fā)展的關(guān)鍵在于改革金融模式,提高理財(cái)效率、改變P2P(peer to peer lending 或peer-to-peer個(gè)人對(duì)個(gè)人)金融結(jié)構(gòu)。
1.4 大數(shù)據(jù)的關(guān)鍵點(diǎn)
大數(shù)據(jù)的關(guān)鍵點(diǎn)在于大數(shù)據(jù)的質(zhì)量。保證大數(shù)據(jù)的質(zhì)量才能保證產(chǎn)品及后續(xù)發(fā)展的質(zhì)量,因此如何盡可能地提高數(shù)據(jù)的質(zhì)量成為了大數(shù)據(jù)的關(guān)鍵點(diǎn)。大數(shù)據(jù)的在處理中存在許多干擾項(xiàng),提高數(shù)據(jù)精度就顯得尤為重要。
2 大數(shù)據(jù)的有效利用
2.1 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分類與清理工作
大數(shù)據(jù)的分析中數(shù)據(jù)的分類與清理是提高數(shù)據(jù)精度的有效方法,也是大數(shù)據(jù)處理過(guò)程中工作量最大、最為耗時(shí)的環(huán)節(jié),數(shù)據(jù)處理的后續(xù)工作能否順利開(kāi)展都決定于數(shù)據(jù)分類與清理的程度。數(shù)據(jù)的分類與清理不僅需要高效,更需要準(zhǔn)確性,因此制定數(shù)據(jù)分類與清理標(biāo)準(zhǔn),并采用統(tǒng)一的數(shù)據(jù)管理系統(tǒng),以此來(lái)提高數(shù)據(jù)的整體質(zhì)量,從根源上節(jié)省人力物力資源與成本。
2.2 大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的特點(diǎn)
2.2.1 大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的過(guò)程
1)分析建模。分析建模即從客戶需求為出發(fā)點(diǎn),將產(chǎn)品所涉及的實(shí)際問(wèn)題方面轉(zhuǎn)化為不同的物理數(shù)學(xué)模型,并通過(guò)理論分析與模擬制定可行的解決方案。分析建模是大數(shù)據(jù)分析過(guò)程中骨架的構(gòu)建,這就意味著分析建模過(guò)程只能由人為操作,且建模的質(zhì)量直接影響整個(gè)數(shù)據(jù)分析的質(zhì)量。
2)方案執(zhí)行。方案執(zhí)行即對(duì)分析建模過(guò)程中得到的理論最優(yōu)方案進(jìn)行執(zhí)行。方案的執(zhí)行需要與方案本身緊密結(jié)合,并在實(shí)踐中對(duì)方案的合理程度進(jìn)行反饋,在合理方案與全面執(zhí)行的共同作用下得出的大數(shù)據(jù)分析結(jié)果才具有最準(zhǔn)確、最具參考價(jià)值的特點(diǎn)。
3)分享反饋。分享反饋是對(duì)數(shù)據(jù)質(zhì)量的第一次檢驗(yàn),即應(yīng)用數(shù)據(jù)對(duì)決策進(jìn)行制定,這同時(shí)也是數(shù)據(jù)分析工作得到實(shí)際檢驗(yàn)的過(guò)程,因此分享反饋環(huán)節(jié)不可或缺。
2.2.2 數(shù)據(jù)分析特點(diǎn)
數(shù)據(jù)分析具有多維、直觀、針對(duì)性三方面特點(diǎn)。多維即針對(duì)傳統(tǒng)數(shù)據(jù)處理工程中的一維,即數(shù)據(jù)分析結(jié)果僅以紙質(zhì)報(bào)告出現(xiàn),大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析結(jié)果不僅應(yīng)以多媒體方式全面展現(xiàn),更應(yīng)將整體的分析過(guò)程進(jìn)行分析,而非只注重結(jié)果;直觀即將數(shù)據(jù)分析結(jié)果的篇幅精簡(jiǎn)、結(jié)論鮮明、論據(jù)確鑿,使決策人對(duì)數(shù)據(jù)分析結(jié)果全面掌握;針對(duì)性即同上文提到的個(gè)性化服務(wù)一樣,對(duì)客戶的戰(zhàn)略與產(chǎn)品定位進(jìn)行針對(duì)性分析。采用數(shù)據(jù)分析結(jié)果時(shí)不能忽略其潛在誤差性,因此數(shù)據(jù)分析結(jié)果只能作為參考選項(xiàng),而不能被分析結(jié)果桎梏而產(chǎn)生錯(cuò)誤判斷。
2.3 大數(shù)據(jù)時(shí)代數(shù)據(jù)分析師的培訓(xùn)
數(shù)據(jù)分析師作為大數(shù)據(jù)時(shí)代的新興行業(yè),目前國(guó)內(nèi)行業(yè)整體水平處于不成熟的初級(jí)階段,行業(yè)發(fā)展不僅需要行業(yè)領(lǐng)軍者在技術(shù)上進(jìn)行發(fā)展,更需要大量擁有技術(shù)的專業(yè)性人才的大量涌入,因此數(shù)據(jù)分析師的培訓(xùn)在長(zhǎng)遠(yuǎn)上來(lái)看具有很高的實(shí)際價(jià)值。大數(shù)據(jù)分析師的發(fā)展方向應(yīng)滿足以下兩點(diǎn):一是需要數(shù)據(jù)分析房與客戶進(jìn)行緊密接觸并不斷反饋;二是建立專業(yè)性的大數(shù)據(jù)分析團(tuán)隊(duì),擁有對(duì)核心技術(shù)的絕對(duì)掌控權(quán),在數(shù)據(jù)管理與數(shù)據(jù)處理系統(tǒng)的建立上具有權(quán)威性。大數(shù)據(jù)處理的核心主要圍繞數(shù)據(jù)分析、產(chǎn)品設(shè)計(jì)、風(fēng)險(xiǎn)管理三方面,隨著行業(yè)的發(fā)展,數(shù)據(jù)分析的工作也逐漸由外包轉(zhuǎn)變?yōu)槠髽I(yè)自行完成,因此數(shù)據(jù)分析師的培養(yǎng)與引進(jìn)不僅要注重?cái)?shù)量、更要注重質(zhì)量,培養(yǎng)具有扎實(shí)理論知識(shí)與靈活應(yīng)用能力的核心技術(shù)人才。
3 大數(shù)據(jù)分析方法
3.1 神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)法即模擬人類大腦思維方式,在非線性動(dòng)力學(xué)系統(tǒng)中將單個(gè)神經(jīng)元內(nèi)的簡(jiǎn)單功能快速整合,在大量神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)中處理復(fù)雜問(wèn)題。從20世紀(jì)40年代發(fā)展至今,神經(jīng)網(wǎng)絡(luò)法已被廣泛運(yùn)用于理論建模與算法研究領(lǐng)域,國(guó)內(nèi)外的頂尖互聯(lián)網(wǎng)也在實(shí)踐中證明了大數(shù)據(jù)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的重要意義。神經(jīng)網(wǎng)絡(luò)法是以神經(jīng)元為基本單位的、大量神經(jīng)元多為連接形成的神經(jīng)網(wǎng)絡(luò)系統(tǒng),具有很強(qiáng)的適應(yīng)性、泛化能力、高度并行性等特點(diǎn),最簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)模型為前饋神經(jīng)網(wǎng)路,所謂前饋即信息的傳輸方向具有單向性,通過(guò)信息的接收端將信息導(dǎo)入系統(tǒng),再通過(guò)多級(jí)傳輸層(隱層)將信號(hào)進(jìn)行分析傳輸,再有輸出端傳輸。理論上神經(jīng)元的數(shù)量與信號(hào)處理方式(激活函數(shù))的數(shù)量越多,信號(hào)處理精度越高、涉及范圍越廣。因此神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘階段,SSPS股份公司、思維機(jī)器公司、Oracle公司、SAS公司和Mapinfo公司等都開(kāi)發(fā)了以神經(jīng)網(wǎng)絡(luò)為核心技術(shù)的數(shù)據(jù)挖掘軟件。
3.2 可視化分析技術(shù)
可視化分析技術(shù)主要應(yīng)用于海量數(shù)據(jù)間的關(guān)聯(lián)分析,需要可視化理論、認(rèn)知理論與人機(jī)交互理論的理論支撐??梢暬治黾夹g(shù)主要分為兩個(gè)部分:從數(shù)據(jù),中提取信息與將信息進(jìn)行可視化過(guò)程,而可視化技術(shù)的優(yōu)勢(shì)與核心技術(shù)就在于可視數(shù)據(jù)化部分,即人機(jī)交互過(guò)程;人機(jī)交互同樣分為兩部分,計(jì)算機(jī)可視部分與用戶界面部分??梢暬夹g(shù)的核心在于利用人體感知系統(tǒng)的復(fù)雜性與強(qiáng)適應(yīng)性將數(shù)據(jù)內(nèi)存在的大量信息高效率的直接傳達(dá)給用戶,而人類的認(rèn)知能力同樣擁有限制,例如空間識(shí)別上最高僅能識(shí)別三維空間,因此多維數(shù)據(jù)的可視化技術(shù)是目前技術(shù)上的難點(diǎn),散點(diǎn)圖與平行坐標(biāo)目前普遍應(yīng)用在多維可視化方面。可視化技術(shù)從宏觀解釋即把數(shù)據(jù)中的抽象有效信息進(jìn)行簡(jiǎn)化與降維處理,使數(shù)據(jù)達(dá)到可視化的目的,數(shù)據(jù)在不同維度間的交互是可視化技術(shù)的理論基礎(chǔ),可視化分析技術(shù)的發(fā)展方向在于實(shí)時(shí)性數(shù)據(jù)的分析。例如利用Tabluea軟件在分析全國(guó)農(nóng)產(chǎn)品銷售數(shù)據(jù)時(shí),可視化分析技術(shù)支持內(nèi)置中國(guó)省份、地市、區(qū)縣地圖可視化,點(diǎn)、線、面的數(shù)據(jù)可視化以及物流、航線、熱力、散點(diǎn)、染色可視化,使此類數(shù)據(jù)最直觀的展現(xiàn)其使用價(jià)值。
3.3 Mapreduce運(yùn)算平臺(tái)
在大數(shù)據(jù)處理方面具有較成熟經(jīng)驗(yàn)的Google公司在針對(duì)網(wǎng)頁(yè)大數(shù)據(jù)的分析與處理時(shí)所采用的Mapreduce運(yùn)算模型為大數(shù)據(jù)的分析帶來(lái)了更高效的方法與技術(shù)。該技術(shù)主要用于處理大型分布式數(shù)據(jù)庫(kù),主要原理為指定一個(gè)Map函數(shù),用來(lái)把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce函數(shù),用來(lái)保證所有映射的鍵值對(duì)中的每一個(gè)共享相同的鍵組。如Google公司在統(tǒng)計(jì)2010年度詞匯時(shí),統(tǒng)計(jì)詞頻時(shí)建立Map函數(shù)接受文件名,并儲(chǔ)存文件的內(nèi)容為值,當(dāng)該函數(shù)逐個(gè)遍歷單詞,每遇到一個(gè)單詞Departyment,函數(shù)則產(chǎn)生一個(gè)中間鍵值對(duì)
4 結(jié)論
隨著大數(shù)據(jù)時(shí)代的不斷發(fā)展,大數(shù)據(jù)的應(yīng)用將愈趨精度與廣度的提高,并有助于各行業(yè)的發(fā)展與技術(shù)上的突破。因此,認(rèn)識(shí)大數(shù)據(jù)、掌握大數(shù)據(jù)、應(yīng)用大數(shù)據(jù),將大數(shù)據(jù)更深入的融入到時(shí)代發(fā)展前沿,是我們應(yīng)用大數(shù)據(jù)的目的與意義。大數(shù)據(jù)的深入應(yīng)用應(yīng)該是整個(gè)社會(huì)共同努力的結(jié)果,其結(jié)果同樣也會(huì)反饋給各行各業(yè),因此大數(shù)據(jù)的分析應(yīng)成為現(xiàn)階段全社會(huì)發(fā)展的方向。
參考文獻(xiàn)
[1]盧建昌,樊圍國(guó).大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J].廣東電力,2014(9):147-148.
[2]衡星辰,周力.分布式技術(shù)在電力大數(shù)據(jù)高性能處理中的應(yīng)用[J].電力信息與通信技術(shù),2013(9):165-167.