徐達
(西南科技大學制造科學與工程學院,四川 綿陽 621000)
當前我國大數(shù)據(jù)與數(shù)據(jù)分析發(fā)展的研究
徐達
(西南科技大學制造科學與工程學院,四川綿陽621000)
大數(shù)據(jù)是國內(nèi)外最熱門的研究方向之一。在大數(shù)據(jù)時代,人們身處的世界正在悄然改變。目前,我國大數(shù)據(jù)與數(shù)據(jù)分析已經(jīng)走出了初步理論探索階段,形成了初具規(guī)模的產(chǎn)業(yè)鏈。首先舉例分析近年來我國大數(shù)據(jù)分析在商業(yè)、輿情分析和醫(yī)療領域的發(fā)展以及已取得的成就,在此基礎上,總結了我國在大數(shù)據(jù)與數(shù)據(jù)分析行業(yè),在產(chǎn)業(yè)鏈、軟硬件條件、專業(yè)人才、數(shù)據(jù)資源和相關法律法規(guī)等方面所面臨的挑戰(zhàn)和機遇。
大數(shù)據(jù) 大數(shù)據(jù)分析 發(fā)展現(xiàn)狀
人類一直熱衷于對世界的探索,分析事物已知的形態(tài),發(fā)現(xiàn)其內(nèi)在規(guī)律,然后利用這一規(guī)律預測事物的未來發(fā)展。當今互聯(lián)網(wǎng),信息爆炸,人們越來越難以獲取有效的關聯(lián)信息。大數(shù)據(jù)與數(shù)據(jù)分析幫助人類從海量和復雜的數(shù)據(jù)中提取互相關聯(lián)的信息。
2011年著名調(diào)查公司麥肯錫在《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)率的下一個前線》的研究報告中提出“大數(shù)據(jù)時代已經(jīng)到來”;2013年被業(yè)界人士稱為大數(shù)據(jù)元年。盡管人們對“大數(shù)據(jù)”的認識千差萬別[1],但是其基礎技術架構已經(jīng)形成,其發(fā)展成果已廣泛應用于各個行業(yè)。
2.1大數(shù)據(jù)成為企業(yè)的新資本
“大數(shù)據(jù)為新財富,價值堪比石油”[2],數(shù)據(jù)日漸成為企業(yè)一項重要的資產(chǎn),大數(shù)據(jù)戰(zhàn)略已經(jīng)進入到企業(yè)戰(zhàn)略層面。據(jù)IBM在2012年對全球95個國家,26個不同行業(yè)領域的1144名企業(yè)高管和專業(yè)人士的一項調(diào)查顯示,超過四分之一正在進行大數(shù)據(jù)試驗或已經(jīng)實施具體措施,全數(shù)意識到他們應更多地利用大數(shù)據(jù)[3]。
大數(shù)據(jù)時代的企業(yè)主要分為兩類:①數(shù)據(jù)服務的提供者:以英特爾、IBM和orcal為代表的數(shù)據(jù)分析服務提供商。他們有良好的軟硬件開發(fā)基礎,為企業(yè)提供解決方案;②大數(shù)據(jù)服務的使用者:大數(shù)據(jù)分析具有實時和全面的特點,分析結果往往極具價值,為企業(yè)決策、拓展市場和創(chuàng)新提供參考,其中最具代表性的是阿里金融,專為小微企業(yè)和初創(chuàng)業(yè)者提供小額信貸融資服務。自2010年6月成立,截至2014年2月,已經(jīng)有70余萬家小微企業(yè)通過阿里金融獲得融資。阿里金融使用大數(shù)據(jù)思維確認客戶信息的真實性:對阿里集團積累的客戶信用數(shù)據(jù)和行為數(shù)據(jù),以及稅務、海關和電力等第三方數(shù)據(jù)進行分析。在此過程中,阿里金融建立了大量模型,通過云計算來篩查所得數(shù)據(jù)的有效性,給出客戶信用評價結果,并以此結果為依據(jù),向其提供貸款。在貸款過程中,阿里會持續(xù)監(jiān)控客戶數(shù)據(jù),明確貸款流向和產(chǎn)生的效益。如發(fā)現(xiàn)異常,就會啟動扣款機制。當客戶出現(xiàn)壞賬時,只要其信用評價是正面的,阿里還會提供補充幫助。
這一在信貸評估方法的創(chuàng)新,改變了銀行業(yè)的游戲規(guī)則,為其自身和客戶創(chuàng)造了巨大利益。相較于傳統(tǒng)銀行的抵押擔保模式,阿里金融利大數(shù)據(jù)分析技術,將貸款風險分散到貸款前、中、后三階段,有效地控制風險,極大地提升了服務效率。金融業(yè)包括銀行業(yè)一項重視數(shù)據(jù)分析,但是傳統(tǒng)銀行業(yè)以自身的運營數(shù)據(jù)為依托,這些數(shù)據(jù)往往不夠全面,跟不上時代變化,無法為決策提供更具說服力的支撐。
2.2大數(shù)據(jù)分析技術提升輿情分析能力
輿情分析是根據(jù)特定問題的需要,對針對這個問題的輿情進行深層次的思維加工和分析研究,得到相關結論的過程。公共部門通過輿情分析掌握社會輿論走向,企業(yè)可以通過輿情分析獲取負面信息預警和競爭者情報等。
如今,網(wǎng)絡成為輿情分析的主戰(zhàn)場,傳統(tǒng)媒體正在被互聯(lián)網(wǎng)所取代。據(jù)中國社會輿情與危機管理報告(2012),2011年微博首報輿情案例比例占比達到五分之一以上,連年遞增。截止2014年6月,我國網(wǎng)民規(guī)模已達6.32億,其中手機網(wǎng)民5.27億[4]。微博、微信和QQ等網(wǎng)絡社交平臺是網(wǎng)絡輿情重要檢測對象,所有的輿情分析平臺都有對微博、QQ群的檢測分析。
目前應用于網(wǎng)絡輿情分析主要有電子問卷調(diào)查、非結構文本數(shù)據(jù)分析、語義識別和基于網(wǎng)絡日志的隱性輿情分析等基于大數(shù)據(jù)的技術[5]。電子問卷調(diào)查是基于互聯(lián)網(wǎng)的抽樣調(diào)查,所得結果簡單明了,適用于公眾對已知熱點事件的態(tài)度調(diào)查。非結構文本數(shù)據(jù)分析針對網(wǎng)絡輿情數(shù)據(jù)中圖片和音視頻數(shù)據(jù)。語義識別是指計算機對自然語言的理解和生成,計算機需要語義識別系統(tǒng)才能對自然語言做出響應?,F(xiàn)階段對自然語言處理尚無成熟系統(tǒng),但是特定用途的語義識別系統(tǒng)已經(jīng)出現(xiàn),部分輿情分析軟件已經(jīng)具備面向中文和少數(shù)外文的語義識別功能。非結構文本數(shù)據(jù)分析和語義識別技術可以實時監(jiān)測,發(fā)現(xiàn)熱點,分析一段時間內(nèi)輿論走向。隱性輿情分析技術提高分析結果的精確度和正確度。網(wǎng)民在瀏覽網(wǎng)站時會在服務器留上不僅會留下點擊量數(shù)據(jù),還會留下IP、鼠標停駐時間、鼠標點擊的集中區(qū)域和瀏覽時間點等數(shù)據(jù)。他們來自于實時且海量的數(shù)據(jù)源,能夠真實地反映了信息到達率和吸引力大小、受眾興趣點和受眾人群特征等信息。
2.3醫(yī)療
我國醫(yī)療健康領域已經(jīng)意識到了大數(shù)據(jù)分析帶來的巨大機遇??傮w來說,其發(fā)展水平尚停留在擴大數(shù)據(jù)采集渠道和體系構架建立階段,我國三大互聯(lián)網(wǎng)公司BAT均在2014試水互聯(lián)網(wǎng)醫(yī)療領域。百度與北京市政府聯(lián)合推出的北京健康云,主打個性化的健康服務。將個人健康數(shù)據(jù)與百度的大數(shù)據(jù)資源結合,為用戶量身定制健康服務。阿里健康與中信21世紀合作,開拓藥品電商市場,欲借此建立中國最大最精準的藥品數(shù)據(jù)庫。微信智慧醫(yī)療利用其在即時通信市場的優(yōu)勢,主打醫(yī)療資源整合,其解決方案貫穿整個患者就醫(yī)過程。截至2015年1月,全國已有近100家醫(yī)院通過微信公眾號實現(xiàn)移動化的就診服務和快捷支付,累計超過1 200家醫(yī)院支持通過微信掛號。
數(shù)據(jù)分析在健康醫(yī)療領域的利用,對于提高醫(yī)療水平有著重要的意義。我國醫(yī)療領域長期資源分配不均,醫(yī)患關系緊張。大數(shù)據(jù)的應用將會對現(xiàn)有醫(yī)療資源進行有效整合,盤活醫(yī)院沉淀大量電子病歷,在提高就診效率、減少患者負擔和避免過度醫(yī)療方面有其重要意義。從長期來看,以大數(shù)據(jù)分析為基礎的醫(yī)療研究將為國民健康做出巨大貢獻。
3.1大數(shù)據(jù)產(chǎn)業(yè)鏈初步形成
大數(shù)據(jù)產(chǎn)業(yè)鏈可分為4個層級:數(shù)據(jù)產(chǎn)生與數(shù)據(jù)聚集、數(shù)據(jù)組織與管理層、數(shù)據(jù)分析層和數(shù)據(jù)應用層[6]。經(jīng)過數(shù)年發(fā)展,我國大數(shù)據(jù)產(chǎn)業(yè)鏈基本形成。2012年,中關村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟成立,在實現(xiàn)產(chǎn)學研合作、標準制定和技術創(chuàng)新,產(chǎn)業(yè)的跨越式發(fā)展,推動培植世界領先的大數(shù)據(jù)技術、產(chǎn)品、產(chǎn)業(yè)和市場等方面有重要推動作用。全國首家大數(shù)據(jù)交易所,也將于2015 年5月在貴陽成立,這標志著產(chǎn)業(yè)鏈基本形成。
大數(shù)據(jù)產(chǎn)業(yè)鏈的形成可以提升數(shù)據(jù)價值,優(yōu)化資源分配,可以有效化解有數(shù)據(jù)的公司無法處理,需要數(shù)據(jù)的公司又沒有足夠的數(shù)據(jù)來源,具備分析數(shù)據(jù)能力的公司無處一展身手的怪圈。產(chǎn)業(yè)鏈發(fā)展初期由三大互聯(lián)網(wǎng)公司主導;隨著行業(yè)規(guī)模擴大的成熟,不斷有初創(chuàng)公司和轉型公司加入,產(chǎn)業(yè)鏈內(nèi)的分工會越來越細化。
3.2軟硬件基礎技術助推大數(shù)據(jù)產(chǎn)業(yè)發(fā)展
大數(shù)據(jù)得益于國內(nèi)基礎網(wǎng)絡全面發(fā)展,以及計算機技術全面發(fā)展,使得大數(shù)據(jù)運算成為可能。諸如Hadoop和mapcover等能夠對大量非結構化數(shù)據(jù)進行高速處理的軟件技術均采用開源模式。技術壁壘少,國內(nèi)相關研究起步較快,商業(yè)應用上取得了很大成果;但起步時間較晚,在基礎研究領域還是處于落后地位。
大數(shù)據(jù)重要來源——感知數(shù)據(jù),大部分來自于物聯(lián)網(wǎng)中各種傳感器等自動化設備。在物聯(lián)網(wǎng)中,物與物和物與人,通過物聯(lián)網(wǎng)相互連互通,這使得更加數(shù)據(jù)資源面廣泛。大數(shù)據(jù)分析需要進行大量運算,只有少數(shù)公司具備這樣的實力。隨著云計算技術的興起,使沒有計算環(huán)境的企業(yè),也可以通過云計算技術獲得強大的運算能力。如此既避免了硬件資源閑置,也使更多公司可以進行大數(shù)據(jù)的分析。
3.3專業(yè)從業(yè)人員缺乏
人才缺乏是全球大數(shù)據(jù)與數(shù)據(jù)分析行業(yè)面臨的共同挑戰(zhàn)之一。自2013年開始,英美等過開始培養(yǎng)大數(shù)據(jù)人才,國內(nèi)高校也相繼開始大數(shù)據(jù)人才培養(yǎng)。2014年,復旦大學開設數(shù)據(jù)科學工程碩士和博士學位;人民大學、北京大學等高校開設大數(shù)據(jù)分析碩士學位;2015年,清華大學開設大數(shù)據(jù)碩士學位。大數(shù)據(jù)人才的培養(yǎng)受制于培養(yǎng)周期限制,而人才短板制約著技術進步與應用,所以人才儲備缺乏制約著我國大數(shù)據(jù)產(chǎn)業(yè)初期的發(fā)展[7]。
3.4政府數(shù)據(jù)源仍然缺乏共享
豐富的數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎。政府部門掌握大量優(yōu)質(zhì)數(shù)據(jù)資源,理應在數(shù)據(jù)資源開放中作出表率。美國政府早在2009年《透明和開放政府備忘錄》中就明確提出“聯(lián)邦信息就是全民的信息”,要求各級政府應用現(xiàn)代技術開放政府信息,而我國數(shù)字化的數(shù)據(jù)資源總量遠遠低于美歐,而且沒有相關法律法規(guī)的實施細則明確政府數(shù)據(jù)開放責任,導致政府數(shù)據(jù)整體開放程度較低。
這一現(xiàn)狀正在改變,在全國性的產(chǎn)業(yè)結構轉型浪潮中,數(shù)據(jù)資源的的價值被放大,各級政府逐步將數(shù)據(jù)開放納入發(fā)展規(guī)劃。上海市走在全國政府數(shù)據(jù)對外開放的前列,根據(jù)《2014年度上海市政府數(shù)據(jù)資源向社會開放工作計劃》,上海已開放190項數(shù)據(jù)內(nèi)容,涉及交通、教育、金融和環(huán)境等11個領域。
3.5相關法律法規(guī)缺失
我國相關法律法規(guī)缺失表現(xiàn)在兩方面,一方面欠缺推動數(shù)據(jù)公開的動力,另一方面公眾對隱私保護的擔憂。2個方面相互牽制,任何一方失調(diào)都會連帶影響另一方。現(xiàn)有的文獻對大數(shù)據(jù)時代政策法規(guī)層面做過一些研究,也提出過解決方案,但是基本停留在隱私保護和數(shù)據(jù)主權等理論方面,并沒有就大數(shù)據(jù)時代數(shù)據(jù)分析技術發(fā)展相結合。
以網(wǎng)絡爬蟲技術為例,這是一種可以自動抓取網(wǎng)頁信息的技術。網(wǎng)站通過“網(wǎng)絡爬蟲排除標準”這一協(xié)議,聲明站點中哪些數(shù)據(jù)可以被自動抓取,哪些數(shù)據(jù)受到保護不希望被抓取。自動收集受保護的文件則是侵權行為,這種協(xié)議是機器與機器的約定,而人設定機器是否突破這一約定。這一情況在數(shù)據(jù)分析技術中廣泛存在,這就要求在獲取篩選數(shù)據(jù)階段要受到監(jiān)管和限制,如此方能有效保護各方利益。
為了獲得大數(shù)據(jù)服務帶來的好處,我們不可避免地分享個人數(shù)據(jù),例如前文提到的“在服務器日志上留下的瀏覽數(shù)據(jù)”。對于大眾來說,很難追蹤到自己的某一瀏覽數(shù)據(jù)儲存在哪里,被分享給誰,用于何種用途,他們對這類數(shù)據(jù)喪失了控制權,這樣的數(shù)據(jù)交易方式是否合法我國尚無明確界定。因此對處于大數(shù)據(jù)產(chǎn)業(yè)鏈下游各方,比如數(shù)據(jù)分析者和數(shù)據(jù)利用者的規(guī)范也有待加強。
本文介紹大數(shù)據(jù)與數(shù)據(jù)分析近幾年在商業(yè)、輿情分析和醫(yī)療健康方面的發(fā)展現(xiàn)狀,并以此為基礎,分析了我國大數(shù)據(jù)行業(yè)目前面臨的機遇與挑戰(zhàn)??梢钥闯?,我國大數(shù)據(jù)的發(fā)展之快超越了之前每一次計算機技術革新,全行業(yè)面臨的機遇和挑戰(zhàn)也從發(fā)展初期單純的技術架構層面變得更加廣泛而多變。
[1]鐘瑛,張恒山.大數(shù)據(jù)的緣起、沖擊及其應對[J].現(xiàn)代傳播(中國傳媒大學學報),2013,35(7):104-109.
[2]鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].求是,2013(4):47-49.
[3]張平.大數(shù)據(jù)如何在企業(yè)落地生根—訪IBM大中華區(qū)全球企業(yè)咨詢部謝國忠[J].企業(yè)管理,2013(7):106-110.
[4]中國互聯(lián)網(wǎng)絡信息中心.第34次中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告[J].互聯(lián)網(wǎng)天地,2014(7):71-89.
[5]唐濤.基于大數(shù)據(jù)的網(wǎng)絡輿情分析方法研究[J].現(xiàn)代情報,2014,34(3),3-11.
[6]迪莉婭.我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展研究[J].科技進步與對策,2014 (4):56-60.
[7]吳薛.產(chǎn)業(yè)生態(tài)圈視角下大數(shù)據(jù)產(chǎn)業(yè)集群培育的研究-以蘇州為例[J].常州大學學報:社會科學版,2015,16(1):57-62.
Research on Latest Development of Big Data and Big Data Analysis in China
XU Da
(College of Manufacturing Science and Engineering,Southwest University of Science and Technology,Mianyang Sichuan 621000,China)
Big data is one of the most popular research directions at home and abroad.At present,in China,big data and big data analysis have moved out of the preliminary theoretical exploration stage,and formed a close industrial chain.The paper introduces what big data analytics achieved in business,public opinion analysis and medical field.Based on it,the paper summarizes challenges and opportunities of big data industry development in terms of the industrial chain,software and hardware conditions,professional workers,data resources,laws and regulations.
big data;big data analysis;development
TP274
A
1008-1739(2015)17-68-3
定稿日期:2015-08-12