靳琦琪
大數(shù)據(jù)應(yīng)用與分析
靳琦琪
(對外經(jīng)濟貿(mào)易大學(xué),北京 100086)
大數(shù)據(jù)是當今信息化時代的一個重要研究領(lǐng)域,隨著社會科學(xué)技術(shù)的不斷發(fā)展,大數(shù)據(jù)已成為信息科技前沿的一個研究熱點,同時大數(shù)據(jù)在實際應(yīng)用中也表現(xiàn)出巨大的價值。首先介紹了大數(shù)據(jù)的基本概念與特征表現(xiàn),然后研究了大數(shù)據(jù)在應(yīng)用過程中的數(shù)據(jù)處理流程及關(guān)鍵技術(shù),并進一步分析了大數(shù)據(jù)的應(yīng)用現(xiàn)狀與未來發(fā)展趨勢。
大數(shù)據(jù);大數(shù)據(jù)處理;大數(shù)據(jù)應(yīng)用;大數(shù)據(jù)應(yīng)用現(xiàn)狀
隨著社會信息化的快速發(fā)展和生活網(wǎng)絡(luò)化的廣泛普及,大數(shù)據(jù)的科學(xué)技術(shù)研究也在不斷取得進步,而且在社會生活中各個領(lǐng)域的實際應(yīng)用中發(fā)揮出很大的價值與作用。但是,由于當今信息時代帶來的多樣化海量數(shù)據(jù)具有更為復(fù)雜的數(shù)據(jù)分析需求,并且需要更為高效的數(shù)據(jù)處理方式,使得大數(shù)據(jù)的研究與應(yīng)用成為科技前沿的重要領(lǐng)域之一。
大數(shù)據(jù)是當今科學(xué)技術(shù)發(fā)展下的信息產(chǎn)物,指在一定時間內(nèi)通過全新高效的數(shù)據(jù)處理模式并具有更有效優(yōu)化能力的規(guī)模大和多樣化的數(shù)據(jù)信息資產(chǎn)[1]。因此,大數(shù)據(jù)的概念不是單獨表現(xiàn)出數(shù)據(jù)的規(guī)模大小,而更多的意義是指對于種類繁多的數(shù)據(jù)信息體系進行高效處理的方式。大數(shù)據(jù)的戰(zhàn)略意義是對數(shù)據(jù)開發(fā)挖掘并實現(xiàn)數(shù)據(jù)資產(chǎn)的潛在價值,而在整個過程中最關(guān)鍵的部分在于如何提高對數(shù)據(jù)的加工處理能力,從而實現(xiàn)數(shù)據(jù)信息的價值[2]。
在大數(shù)據(jù)的應(yīng)用領(lǐng)域,大數(shù)據(jù)具有很多特點,但基本特征主要有五個[3]:①數(shù)據(jù)規(guī)模大。由于數(shù)據(jù)體系具有較大規(guī)模,使得大數(shù)據(jù)在處理過程中需要采集和分析的數(shù)據(jù)量很大。②數(shù)據(jù)種類多。大數(shù)據(jù)的來源非常復(fù)雜,導(dǎo)致數(shù)據(jù)的類別具有多樣化,數(shù)據(jù)形式主要包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等。③處理速度快。數(shù)據(jù)信息的增長較快,促使在數(shù)據(jù)處理過程中所需的實時分析方式要求更高,否則海量數(shù)據(jù)的價值難以有效得到開發(fā)與應(yīng)用。④數(shù)據(jù)價值高。在社會各個生活領(lǐng)域存在的數(shù)據(jù)資產(chǎn)都隱含著巨大的潛在信息,而通過大數(shù)據(jù)的應(yīng)用,可以提取出有用的數(shù)據(jù)信息并可以解釋當前數(shù)據(jù)以及預(yù)測未來數(shù)據(jù),從而創(chuàng)造出較高的價值。⑤數(shù)據(jù)真實性。繁多的數(shù)據(jù)雖然代表著不同的信息,但在大數(shù)據(jù)的實際分析處理過程中,確保數(shù)據(jù)的質(zhì)量,才能使信息的真實性得以保證,這也是大數(shù)據(jù)處理在獲取數(shù)據(jù)價值過程中的前提。
隨著科技的不斷發(fā)展,大數(shù)據(jù)的特點也在陸續(xù)出現(xiàn)新的概念,使得大數(shù)據(jù)的特點與傳統(tǒng)數(shù)據(jù)有了很大區(qū)別,不僅在數(shù)據(jù)量方面具有廣泛性,而且還有對于海量數(shù)據(jù)信息的專業(yè)分析和高效處理方式,包括數(shù)據(jù)的時間快速性和形式復(fù)雜度,以及最終能夠獲取的有價值數(shù)據(jù)信息的能力。
針對目前各個領(lǐng)域中種類復(fù)雜繁多且規(guī)模巨大的海量數(shù)據(jù),計算機的處理方式也是多種多樣的,但在大數(shù)據(jù)的實際應(yīng)用中,無論數(shù)據(jù)處理形式如何發(fā)生變化,大數(shù)據(jù)的處理流程主要包括以下幾個部分。
數(shù)據(jù)獲取是大數(shù)據(jù)處理流程的開始階段,是利用一種數(shù)據(jù)采集裝置,從系統(tǒng)外端接口獲取特定數(shù)據(jù)經(jīng)過轉(zhuǎn)化輸入到系統(tǒng)內(nèi)端的存儲空間[4]。在數(shù)據(jù)源已有的前提下,數(shù)據(jù)采集的關(guān)鍵步驟是如何根據(jù)用戶或軟件的需求獲取更有效更準確的數(shù)據(jù)信息。目前,在各個領(lǐng)域得以應(yīng)用的數(shù)據(jù)采集技術(shù)有較多種類。在數(shù)據(jù)采集過程中,操作技術(shù)雖然相對簡單,但如何處理海量數(shù)據(jù)的并發(fā)需求以及提高數(shù)據(jù)庫的儲存能力,是大數(shù)據(jù)領(lǐng)域在數(shù)據(jù)獲取方面的主要研究方向[5]。隨著社會科技的飛速發(fā)展,數(shù)據(jù)獲取的方式在很多方面也發(fā)生了本質(zhì)上的變化,主要表現(xiàn)在智能數(shù)據(jù)采集系統(tǒng)的不斷研發(fā)應(yīng)用,促使大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)獲取進入一個全新科技時代[6]。
數(shù)據(jù)處理是大數(shù)據(jù)處理流程中的過渡階段,是后續(xù)數(shù)據(jù)分析階段的準備,數(shù)據(jù)處理包括對各種原始數(shù)據(jù)的分析、整理、計算、編輯等的加工和處理,通過關(guān)聯(lián)分析和歸類分析等特殊方法,對各種類型的初始數(shù)據(jù)進行統(tǒng)一過濾和梳理。數(shù)據(jù)處理的過程主要包括數(shù)據(jù)清洗和數(shù)據(jù)集成等部分,通過整個處理流程可以使各種數(shù)據(jù)類型和結(jié)構(gòu)得以簡化與統(tǒng)一,從而保障了后續(xù)數(shù)據(jù)分析過程的效果。數(shù)據(jù)處理階段是社會生活中系統(tǒng)工程和自動控制的基礎(chǔ)部分,在很多領(lǐng)域都可以體現(xiàn)其重要作用[7]。數(shù)據(jù)處理方式的不斷創(chuàng)新及其實際應(yīng)用,在很大程度上促進了大數(shù)據(jù)領(lǐng)域的發(fā)展。
數(shù)據(jù)分析是大數(shù)據(jù)處理流程的核心階段,通過數(shù)據(jù)分析最大程度挖掘數(shù)據(jù)的潛在價值,以發(fā)揮大數(shù)據(jù)在社會生活實際應(yīng)用中的效果[8]。數(shù)據(jù)分析過程的目的是發(fā)現(xiàn)并提取數(shù)據(jù)體系包含的內(nèi)在規(guī)律并形成結(jié)論信息,從而對數(shù)據(jù)進行詳細研究和總結(jié)。在數(shù)據(jù)分析的過程中,其數(shù)據(jù)分析結(jié)果信息可以幫助人們在生活場景中作出判斷,從而采取適當?shù)男袨楸憩F(xiàn),這也是大數(shù)據(jù)分析的價值所在[9]。
數(shù)據(jù)解釋是大數(shù)據(jù)處理流程的最后階段,其實質(zhì)為對大數(shù)據(jù)處理和分析的最終成果進行可視化展示。在大數(shù)據(jù)的應(yīng)用領(lǐng)域中,經(jīng)過處理分析的數(shù)據(jù)結(jié)果不再局限于通過可讀或可見的形式傳輸呈現(xiàn)給用戶,而更多的是需要融合人機交互、人工智能、計算機圖形學(xué)和圖像處理的相關(guān)最新技術(shù)成果,將數(shù)據(jù)分析的結(jié)果通過更為豐富多樣和更直觀便利的形式展現(xiàn)并傳達給用戶。然而,大數(shù)據(jù)處理流程中,如何提高數(shù)據(jù)交互應(yīng)用過程的實時性和準確性是數(shù)據(jù)解釋的核心問題,從而保證大數(shù)據(jù)處理流程的完整度與價值感。
當前,大數(shù)據(jù)在社會各個領(lǐng)域都得以廣泛應(yīng)用,但主要集中表現(xiàn)在電商、交通、醫(yī)療等領(lǐng)域,在這些應(yīng)用領(lǐng)域中,大數(shù)據(jù)創(chuàng)造出巨大的價值,為社會的快速發(fā)展帶來了很強的科技支撐,同時也為人們在日常生活中帶來了很多便利。
在電商領(lǐng)域,大數(shù)據(jù)的廣泛應(yīng)用使各個電商平臺的運營體系與交易模式發(fā)生了很大變化。現(xiàn)在的電商平臺如淘寶、京東等,都主要以客戶的數(shù)據(jù)為運營導(dǎo)向,通過數(shù)據(jù)處理與分析得出顧客的需求意向,預(yù)測平臺的產(chǎn)品在近期與未來的銷售情況,為商戶在日常經(jīng)營中運營決策提供輔助參考與有效建議,從而達到最大化獲取產(chǎn)品銷售利潤的目的,不僅給商戶帶來了效益,同時也促進了電商平臺的持續(xù)發(fā)展。例如,在淘寶平臺進行購物時,在系統(tǒng)頁面會出現(xiàn)個性化的產(chǎn)品 推薦,這是電商平臺的廣告投放系統(tǒng)通過大數(shù)據(jù)分析作出的判斷,根據(jù)用戶日常生活中搜索和購買產(chǎn)品時表現(xiàn)出的系列數(shù)據(jù),利用大數(shù)據(jù)技術(shù)分析得出用戶的產(chǎn)品偏好和行為意向等信息,從而讓系統(tǒng)對不同客戶做出符合其個人的產(chǎn)品廣告推薦[10]。
在交通領(lǐng)域,大數(shù)據(jù)也得以被廣泛應(yīng)用,為城市的交通與建設(shè)帶來了很大效益,目前出現(xiàn)的“智慧城市”系統(tǒng),正是利用大數(shù)據(jù)分析技術(shù)輔助政府與個人管理城市的交通與建設(shè)等信息,有效提高了城市管理的智能化水平[11]。例如,在城市交通系統(tǒng)中,高德地圖和百度地圖等系統(tǒng)軟件通過在平臺顯示各個路段的擁堵狀況,實時為人們分析得出省時快捷的出行路線與方案信息。
在醫(yī)療領(lǐng)域,大數(shù)據(jù)可以對醫(yī)療數(shù)據(jù)信息進行有效的數(shù)據(jù)存儲和查詢等,同時通過數(shù)據(jù)處理與分析得出醫(yī)療數(shù)據(jù)的潛在信息價值。例如,在生活中得以應(yīng)用的健康狀況監(jiān)測系統(tǒng),其原理是通過系統(tǒng)對醫(yī)療信息進行數(shù)據(jù)處理與分析,得出個人健康狀況的信息,同時也可以給出相關(guān)醫(yī)生的建議以幫助恢復(fù)身體健康,大數(shù)據(jù)在醫(yī)療方面的應(yīng)用為人們?nèi)粘I畹慕】倒芾韼砹撕艽蟊憷?/p>
大數(shù)據(jù)廣泛應(yīng)用于多個領(lǐng)域,雖然產(chǎn)生了很大作用并帶來了巨大效益,但在實際應(yīng)用過程中還存在著很多問題與挑戰(zhàn),主要體現(xiàn)在以下幾個方面[12]:①數(shù)據(jù)獲取。大數(shù)據(jù)的數(shù)據(jù)來源比較復(fù)雜,使得數(shù)據(jù)在結(jié)構(gòu)與形式上不能統(tǒng)一,從而導(dǎo)致在大數(shù)據(jù)的數(shù)據(jù)獲取階段存在一個很大的挑戰(zhàn),就是如何在融合不同形式數(shù)據(jù)的情況下可以自動定義數(shù)據(jù)的結(jié)構(gòu)形式,并且能保證其實時和有效[13]。②數(shù)據(jù)存儲。大數(shù)據(jù)的特點決定了數(shù)據(jù)存儲方式的特殊性,不僅要滿足數(shù)據(jù)的海量規(guī)模,而且還能匹配數(shù)據(jù)的多樣類型。在大數(shù)據(jù)的存儲技術(shù)上,國內(nèi)外也研發(fā)出比較有效的系統(tǒng),但仍然會存在一些問題,同時為了促進大數(shù)據(jù)更大程度發(fā)揮出應(yīng)有價值,數(shù)據(jù)存儲方面需要不斷優(yōu)化[14]。③數(shù)據(jù)分析。大數(shù)據(jù)的規(guī)模大和種類多是數(shù)據(jù)分析過程中需要特別考慮的一個因素,使得大數(shù)據(jù)在不同的應(yīng)用場景中需要采用不同的數(shù)據(jù)分析方法[15]。在大數(shù)據(jù)的整個發(fā)展過程中,雖然存在著不同的挑戰(zhàn),但與此同時也促進了大數(shù)據(jù)技術(shù)的不斷創(chuàng)新,使大數(shù)據(jù)領(lǐng)域在未來有了更大的發(fā)展空間。
根據(jù)大數(shù)據(jù)應(yīng)用與分析的綜述,發(fā)現(xiàn)大數(shù)據(jù)在社會各個領(lǐng)域的應(yīng)用中表現(xiàn)出巨大的潛力,然而大數(shù)據(jù)在數(shù)據(jù)獲取、存儲和分析等方面依然面臨著諸多挑戰(zhàn)。同時,這些挑戰(zhàn)也在促進大數(shù)據(jù)技術(shù)不斷進步。因此,對于大數(shù)據(jù)的未來應(yīng)用,大數(shù)據(jù)會更加多樣化、高層次和寬領(lǐng)域,同時大數(shù)據(jù)領(lǐng)域 會與其他領(lǐng)域進行融合交互,例如人工智能等[16]。總之,大數(shù)據(jù)在未來的應(yīng)用領(lǐng)域會更加廣泛,為社會發(fā)展帶來更大的價值。
[1]袁冰.大數(shù)據(jù)行業(yè)應(yīng)用現(xiàn)狀與發(fā)展趨勢[J].中國新通信,2014(24):75-76.
[2]梁巧琴.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].信息通信,2015(1):133-134.
[3]俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學(xué)[J].中國軟科學(xué),2013(7):177-183.
[4]程學(xué)旗.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報, 2014(9):1889-1908.
[5] DOBRE C,XHAFA F.Intelligent services for big data science[J].Future Generation Computer Systems,2014,37(2):267-281.
[6] WONG H T,YIN Q,GUO Y Q,et al.Big data as a new approach in emergency medicine research[J]. Journal of Acute Disease,2015,4(3):178-179.
[7] BEGENAU J,F(xiàn)ARBOODI M,VELDKAMP L.Big data in finance and the growth of large firms[J]. Journal of Monetary Economics,2018(5):13.
[8]黃永勤.國外大數(shù)據(jù)研究熱點及發(fā)展趨勢探析[J].情報雜志,2016(6):99-104.
[9] OMOLARA A E,JANTAN A,ABIODUN O I,et al.State-of-The-Art in big data application techniques to financial crime: a survey[J].International Journal of Computer Science and Network Security,2018,18(7):6-16.
[10]FEINLEIB D.The big data Landscape[M].City: Apress,2014.
[11]王珊,王會舉. 架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學(xué)報,2011(10):1741-1752.
[12]JAIN P,GYANCHANDANI M,KHARE N. Big data privacy: a technological perspective and review[J]. Journal of Big Data,2016,3(1):25.
[13]任磊,杜一. 大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014(9):1909-1936.
[14]SIVARAJAH U,KAMAL M M,IRANI Z,et al.Critical analysis of big data challenges and analytical methods[J].Journal of Business Research,2016(70):263-286.
[15]ABAWAJY J H,KELAREV A,CHOWDHURY M.Large iterative multitier ensemble classifiers for security of big data[J].Emerging Topics in Computing IEEE Transactions on,2014,2(3):352-363.
[16]BELLAZZI R,DIOMIDOUS M,SARKAR I N,et al.Data analysis and data mining: current issues in biomedical informatics[J].Methods of Information in Medicine,2011,50(6):536-544.
TP311.13
A
10.15913/j.cnki.kjycx.2020.22.066
2095-6835(2020)22-0151-02
靳琦琪(1993—),女,對外經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院在職人員高級課程研修班學(xué)員,主要研究方向為大數(shù)據(jù)應(yīng)用與分析。
〔編輯:嚴麗琴〕