王永峰,程新洲,高 潔
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司網(wǎng)絡(luò)技術(shù)研究院 北京 100048)
隨著各行業(yè)信息化速度的加快,不同類型的數(shù)據(jù)皆呈現(xiàn)出爆發(fā)性增長(zhǎng)的趨勢(shì)。對(duì)于這些數(shù)據(jù),企業(yè)往往用來(lái)進(jìn)行運(yùn)營(yíng)、策劃、銷售等方面的應(yīng)用,得到不同層面的技術(shù)指標(biāo),產(chǎn)生系列的報(bào)表并反饋到生產(chǎn)和運(yùn)營(yíng)中。但是,當(dāng)這些數(shù)據(jù)的量增長(zhǎng)到一定程度后,量變引起質(zhì)變,原有的信息化系統(tǒng)和工具漸漸無(wú)法承載如此龐大的數(shù)據(jù)存儲(chǔ)和運(yùn)算,分析效率逐步降低,以至于無(wú)法勝任數(shù)據(jù)分析的需求。在這種處境下,決策者們往往向大數(shù)據(jù)系統(tǒng)架構(gòu)靠攏,對(duì)原有的信息系統(tǒng)進(jìn)行改造,去擁抱真正意義上的大數(shù)據(jù)資產(chǎn)。在大數(shù)據(jù)系統(tǒng)的引入過(guò)程中,紛繁復(fù)雜的系統(tǒng)實(shí)現(xiàn)方法是較為迷惑人的,不同層面、不同技術(shù)的選擇也會(huì)因?yàn)樾枨蠛湍康牡牟煌绊懙綄?shí)際的決策。因此,深入地了解大數(shù)據(jù)系統(tǒng)凸顯出了它的意義。
大數(shù)據(jù)本身是一個(gè)較為概括的稱謂,并沒(méi)有對(duì)數(shù)據(jù)的量級(jí)做明確的界限。在實(shí)際應(yīng)用中,通常把采用大數(shù)據(jù)架構(gòu)進(jìn)行存儲(chǔ)、分析和應(yīng)用的場(chǎng)景統(tǒng)稱為大數(shù)據(jù)。
大數(shù)據(jù)在實(shí)際的企業(yè)應(yīng)用中,包含多個(gè)環(huán)節(jié)的處理,最終形成監(jiān)控運(yùn)行狀態(tài)、支撐方案決策的大數(shù)據(jù)應(yīng)用。在大數(shù)據(jù)分析的全鏈條中,比較關(guān)鍵的兩個(gè)環(huán)節(jié)是大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算。如圖1所示,描述了大數(shù)據(jù)轉(zhuǎn)化的周期,包括數(shù)據(jù)的采集、解析、入庫(kù)、存儲(chǔ)、分析和應(yīng)用的各個(gè)環(huán)節(jié)。
大數(shù)據(jù)采集即數(shù)據(jù)的初步收集過(guò)程。一個(gè)公司的數(shù)據(jù)價(jià)值是否明晰,主要從兩個(gè)方面判斷,其一是數(shù)據(jù)源的獲取是否穩(wěn)定,其二是其數(shù)據(jù)價(jià)值的變現(xiàn)過(guò)程是否可持續(xù)。因此,大數(shù)據(jù)采集是至關(guān)重要的,數(shù)據(jù)采集決定了整個(gè)系統(tǒng)的輸入、數(shù)據(jù)采集的深度和廣度,決定了整個(gè)大數(shù)據(jù)分析鏈條的價(jià)值導(dǎo)向。大數(shù)據(jù)采集包含很多類別,如自身用戶數(shù)據(jù)、系統(tǒng)運(yùn)營(yíng)數(shù)據(jù)產(chǎn)生的自有數(shù)據(jù),或者從其他用戶龐大用戶群體的公司處獲取的第三方數(shù)據(jù),抑或一些靜態(tài)的數(shù)據(jù)信息,如用戶身份信息、鄉(xiāng)鎮(zhèn)街道信息等。
圖1 基于自組織的分布式網(wǎng)絡(luò)管理模型
大數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)分析的標(biāo)志性特征,服務(wù)于大數(shù)據(jù)的存儲(chǔ)方式以及相應(yīng)的工具也蜂擁而至。如何低風(fēng)險(xiǎn)、低成本地建立一套大數(shù)據(jù)存儲(chǔ)體系是企業(yè)構(gòu)建大數(shù)據(jù)架構(gòu)考慮的首要問(wèn)題。從HDFS(Hadoop distributed file system,Hadoop分布式文件系統(tǒng)),到接踵而至的HBase、Hive、Impala等,縱向細(xì)分的差異性的系統(tǒng)和工具給人們更多的選擇空間,企業(yè)可根據(jù)自身大數(shù)據(jù)的應(yīng)用場(chǎng)景,從成本、時(shí)效性、數(shù)據(jù)規(guī)模等多個(gè)方面選擇,進(jìn)而因地制宜地搭建適合本企業(yè)數(shù)據(jù)類型、分析方式的大數(shù)據(jù)存儲(chǔ)架構(gòu)。
數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算是相輔相成的,存儲(chǔ)是為了計(jì)算,計(jì)算中還需要存儲(chǔ),因此大數(shù)據(jù)計(jì)算不是獨(dú)立設(shè)計(jì)的。在大數(shù)據(jù)計(jì)算中,需要考慮多個(gè)方面的因素。數(shù)理統(tǒng)計(jì)是大數(shù)據(jù)分析中較為常用的分析方法,例如頻次統(tǒng)計(jì)、分布統(tǒng)計(jì)等,是支撐企業(yè)運(yùn)營(yíng)分析的一項(xiàng)重要的途徑。在運(yùn)營(yíng)分析中,數(shù)據(jù)運(yùn)營(yíng)是重要的組成部分,通過(guò)日?qǐng)?bào)表、周報(bào)表、月報(bào)表等,企業(yè)可以提煉出數(shù)據(jù)中的價(jià)值,明確地看出企業(yè)運(yùn)作中的不同趨勢(shì),進(jìn)行用戶對(duì)比、內(nèi)容策劃、成本控制、風(fēng)險(xiǎn)預(yù)警等。除了數(shù)理統(tǒng)計(jì)以外,更高一層面的、復(fù)合型的分析也是大數(shù)據(jù)勝任的內(nèi)容,包括數(shù)據(jù)的聚類分析、關(guān)聯(lián)分析、回歸分析、擬合分析等,通過(guò)神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、迭代等步驟得到更智能、更具有應(yīng)用價(jià)值的計(jì)算結(jié)果。
諸多的計(jì)算步驟,只有一個(gè)目的,就是為大數(shù)據(jù)應(yīng)用服務(wù)。大數(shù)據(jù)應(yīng)用就像企業(yè)運(yùn)作中的顧問(wèn),用數(shù)據(jù)說(shuō)話,給決策者一個(gè)參考的依據(jù)。大數(shù)據(jù)應(yīng)用可以分為前臺(tái)和后臺(tái),前臺(tái)通過(guò)用戶友好的界面,分層次成體系的向用戶展示不同維度的大數(shù)據(jù)分析結(jié)果,提供定制化分析模板,輔助以不同的應(yīng)用工具,將后臺(tái)的運(yùn)算的數(shù)據(jù)通過(guò)圖表、應(yīng)用、地理化呈現(xiàn)等方式展示大數(shù)據(jù)計(jì)算的結(jié)果。
縱觀整個(gè)大數(shù)據(jù)鏈條可以發(fā)現(xiàn),與大數(shù)據(jù)核心技術(shù)密切相關(guān)的環(huán)節(jié)主要在大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算兩個(gè)環(huán)節(jié)。企業(yè)在“互聯(lián)網(wǎng)+”戰(zhàn)略計(jì)劃中,勢(shì)必要加大在大數(shù)據(jù)分析方面的投入,改造原有的大數(shù)據(jù)倉(cāng)庫(kù),或者建造新的大數(shù)據(jù)倉(cāng)庫(kù),部署分布式系統(tǒng)架構(gòu),搭建大數(shù)據(jù)平臺(tái)。而這些投入不是盲目跟風(fēng)的,需要針對(duì)使用的場(chǎng)景以及預(yù)算的成本來(lái)綜合抉擇,最終形成企業(yè)的大數(shù)據(jù)方案。
大數(shù)據(jù)典型架構(gòu)按層級(jí)劃分,可分為物理層、存儲(chǔ)層、計(jì)算層、業(yè)務(wù)層和應(yīng)用層,如圖2所示。層與層之間并沒(méi)有天然的隔閡和明顯的劃分標(biāo)準(zhǔn),只是將邏輯的功能范圍作為劃分的依據(jù)。多層的架構(gòu)承擔(dān)著不同的功能,每層都對(duì)上層提供可靠的服務(wù),因此形成了一個(gè)有機(jī)的功能體。
企業(yè)在構(gòu)建大數(shù)據(jù)架構(gòu)時(shí),是需要謹(jǐn)慎考慮的,尤其是底層的構(gòu)建很大程度影響了上層的業(yè)務(wù)、應(yīng)用性能。這里著重從差異化的策略來(lái)闡述幾種典型技術(shù)對(duì)大數(shù)據(jù)架構(gòu)的影響。
圖2 大數(shù)據(jù)架構(gòu)層級(jí)
3.1.1 數(shù)據(jù)備份與存儲(chǔ)方案選擇
存儲(chǔ)是首要考慮的問(wèn)題,作為企業(yè)級(jí)應(yīng)用,存儲(chǔ)更需要慎重抉擇。歷史經(jīng)驗(yàn)證明,數(shù)據(jù)資產(chǎn)的安全對(duì)一個(gè)企業(yè)是至關(guān)重要的,尤其是在如今,數(shù)據(jù)存儲(chǔ)危機(jī)給企業(yè)帶來(lái)的影響是致命的,數(shù)據(jù)可靠性對(duì)企業(yè)的重要性不言而喻。
硬盤(pán)作為存儲(chǔ)的重要介質(zhì),其類型也是多種多樣的。在做選擇的時(shí)候,可依據(jù)不同應(yīng)用場(chǎng)景進(jìn)行選擇。
(1)SATA硬盤(pán)
對(duì)于自身容錯(cuò)備份機(jī)制較好的大存儲(chǔ)系統(tǒng),SATA硬盤(pán)是一個(gè)很好的選擇。SATA即串口硬盤(pán),現(xiàn)已基本取代了傳統(tǒng)的PATA硬盤(pán)。Intel、APT、Dell、IBM、希捷和邁拓幾大廠商組成的“Serial ATA委員會(huì)”正式確立了規(guī)范,SATA硬盤(pán)采用串行連接方式,串行ATA總線使用嵌入式時(shí)鐘信號(hào),具備了更強(qiáng)的糾錯(cuò)能力,與以往相比其最大的區(qū)別在于能對(duì)傳輸指令進(jìn)行檢查,如果發(fā)現(xiàn)錯(cuò)誤會(huì)自動(dòng)矯正,這在很大程度上提高了數(shù)據(jù)傳輸?shù)目煽啃浴4薪涌谶€具有結(jié)構(gòu)簡(jiǎn)單、支持熱插拔的優(yōu)點(diǎn)。
(2)列陣磁盤(pán)
通常,不是所有大數(shù)據(jù)應(yīng)用場(chǎng)合都適合建立自身容錯(cuò)備份機(jī)制較好的大存儲(chǔ)系統(tǒng),在不具備這樣的容錯(cuò)機(jī)制的時(shí)候,列陣磁盤(pán)是一個(gè)很好的解決方案。磁盤(pán)陣列是由很多價(jià)格較便宜的磁盤(pán),組合成一個(gè)容量巨大的磁盤(pán)組,利用個(gè)別磁盤(pán)提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤(pán)系統(tǒng)效能。利用這項(xiàng)技術(shù),將數(shù)據(jù)切割成許多區(qū)段,分別存放在各個(gè)硬盤(pán)上。數(shù)組中任意一個(gè)硬盤(pán)出現(xiàn)故障時(shí),仍可讀出數(shù)據(jù),在數(shù)據(jù)重構(gòu)時(shí),將數(shù)據(jù)經(jīng)計(jì)算后重新置入新硬盤(pán)中。
(3)SAS硬盤(pán)
SAS硬盤(pán)即串行連接SCSI(small computer system interface,小型計(jì)算機(jī)系統(tǒng)接口),是新一代的SCSI技術(shù),和現(xiàn)在流行的serial ATA(SATA)硬盤(pán)相同,都是采用串行技術(shù)以獲得更高的傳輸速度,并通過(guò)縮短連結(jié)線來(lái)改善內(nèi)部空間等。SAS硬盤(pán)是并行SCSI之后開(kāi)發(fā)出的全新接口,此接口的設(shè)計(jì)是為了改善存儲(chǔ)系統(tǒng)的效能、可用性和擴(kuò)充性,并提供與SATA硬盤(pán)的兼容性。
因此,在大數(shù)據(jù)架構(gòu)搭建的底層,根據(jù)自身場(chǎng)景的需求,做出相應(yīng)的判斷,進(jìn)而建立或升級(jí)存儲(chǔ)結(jié)構(gòu)是十分必要的。
3.1.2 計(jì)算性能的需求與硬件的匹配
雖然計(jì)算機(jī)硬件的發(fā)展速度十分迅猛,但是仍然不能小覷日益增長(zhǎng)的計(jì)算需求。每當(dāng)硬件水平上一個(gè)新的臺(tái)階,計(jì)算的需求會(huì)迅速地填補(bǔ)上來(lái),因?yàn)樗惴ǖ倪M(jìn)步是永無(wú)止境的。
隨著語(yǔ)音識(shí)別、圖像識(shí)別等模式識(shí)別的發(fā)展以及迭代算法需求的增加,大數(shù)據(jù)平臺(tái)的計(jì)算數(shù)據(jù)量是異常龐大的。因此,當(dāng)計(jì)算性能成為瓶頸的時(shí)候,相應(yīng)的提升工作就成為必要考慮的內(nèi)容。
(1)處理器加速
隨著非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)性增長(zhǎng),計(jì)算量異常巨大,需要依靠GPU加速或者重核卡的加速才能在可容忍的時(shí)間內(nèi)完成計(jì)算,不少企業(yè)的大數(shù)據(jù)集群都采用了GPU加速或重核卡。
(2)SSD
某些應(yīng)用場(chǎng)景下,如快速的迭代算法會(huì)有頻繁的讀取與存儲(chǔ)操作,這使得傳統(tǒng)的I/O暴露出速度慢的弊病,嚴(yán)重影響了運(yùn)算的速率。SSD(solid state drives,固態(tài)硬盤(pán))有傳統(tǒng)機(jī)械硬盤(pán)不具備的快速讀寫(xiě)、質(zhì)量輕、能耗低以及體積小等特點(diǎn)。隨著目前SSD價(jià)格的不斷下滑,SSD逐漸成為一種十分有吸引力的選擇。
(3)虛擬機(jī)
服務(wù)器的資源常常由于得不到有效的復(fù)用,導(dǎo)致資源無(wú)法發(fā)揮最大的性能或者資源部分閑置。虛擬機(jī)的引入解決了這個(gè)問(wèn)題,它能夠精細(xì)化地劃分和管理服務(wù)器的資源,實(shí)現(xiàn)合理地配置、充分地復(fù)用,從而整體提升計(jì)算的性能。虛擬機(jī)技術(shù)正逐步成為一種趨勢(shì),目前很多企業(yè)級(jí)的大數(shù)據(jù)平臺(tái)都選擇搭建在虛擬機(jī)集群上。
以上只做了一些常用的技術(shù)的描述,實(shí)際需根據(jù)企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)的真實(shí)情況,選擇合適的技術(shù)方案來(lái)提升系統(tǒng)性能。
在選定了存儲(chǔ)的硬件介質(zhì)之后,接下來(lái)就是從軟件層面上定義存儲(chǔ)的方式。按照時(shí)效性劃分,云存儲(chǔ)可分為離線存儲(chǔ)和在線存儲(chǔ)兩種類型,如圖3所示。選擇何種存儲(chǔ)類型,對(duì)于企業(yè)整體大數(shù)據(jù)架構(gòu)而言十分重要。選擇存儲(chǔ)類型一方面要滿足應(yīng)用時(shí)效性的需求,另一方面要和存儲(chǔ)介質(zhì)以及算法匹配。
圖3 云存儲(chǔ)的兩種方式
離線存儲(chǔ)一般適用于超大規(guī)模的數(shù)據(jù)量,從時(shí)間上來(lái)說(shuō)一般是長(zhǎng)時(shí)間的存儲(chǔ),往往應(yīng)用于對(duì)時(shí)效性要求不高的場(chǎng)景。例如對(duì)于企業(yè)應(yīng)用中一些海量的過(guò)程類數(shù)據(jù),不需要頻繁訪問(wèn)的,即可采用離線存儲(chǔ)方式。這種方式最典型的案例就是HDFS,它的部署成本和技術(shù)門(mén)檻相對(duì)較低,因此得以普及。
在線存儲(chǔ)顧名思義需要頻繁的互動(dòng),及時(shí)性要求較高,同時(shí)又具備大數(shù)據(jù)的海量存儲(chǔ)特征。最常用的Memcached是一個(gè)高性能的分布式內(nèi)存對(duì)象緩存系統(tǒng),常用于動(dòng)態(tài)Web應(yīng)用以減輕數(shù)據(jù)庫(kù)負(fù)載。它通過(guò)在內(nèi)存中緩存數(shù)據(jù)和對(duì)象來(lái)減少讀取數(shù)據(jù)庫(kù)的次數(shù),從而提高動(dòng)態(tài)數(shù)據(jù)庫(kù)驅(qū)動(dòng)網(wǎng)站的速度。其本質(zhì)上是一套分布式的快取系統(tǒng),但是不提供持久化。與之類似的Redis是一個(gè)開(kāi)源的使用ANSI C語(yǔ)言編寫(xiě)、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型key-value數(shù)據(jù)庫(kù),能夠提供持久化的能力。
計(jì)算層也有離線和在線之分,其實(shí)與存儲(chǔ)層區(qū)分是類似的,只是表現(xiàn)的技術(shù)不同而已,如圖4所示。在分布式系統(tǒng)架構(gòu)中,不同的任務(wù)之間是需要進(jìn)行數(shù)據(jù)傳遞的,一部分是采用存儲(chǔ)來(lái)傳遞,即存儲(chǔ)和讀取方式實(shí)現(xiàn),另一部分采用數(shù)據(jù)管道系統(tǒng)來(lái)完成。
圖4 計(jì)算層的不同計(jì)算方式
對(duì)于數(shù)據(jù)量龐大、運(yùn)算耗時(shí)長(zhǎng)的任務(wù),通常會(huì)采用離線計(jì)算的方式進(jìn)行,特別是對(duì)于那些需要深度發(fā)掘、多次迭代的算法而言。離線計(jì)算以MapReduce為代表,MapReduce的設(shè)計(jì),采用了很簡(jiǎn)化的計(jì)算模型,只有map和reduce兩個(gè)計(jì)算過(guò)程,中間用shuffle串聯(lián)。用這個(gè)模型,可以處理大數(shù)據(jù)領(lǐng)域很大一部分問(wèn)題。第二代的Tez和Spark,除了內(nèi)存緩存之類的新特性以外,讓MapReduce模型更通用,讓map和reduce之間的界限更模糊,數(shù)據(jù)交換更靈活,更少的磁盤(pán)讀寫(xiě),以便更方便地描述復(fù)雜算法,取得更高的吞吐量。
某些應(yīng)用場(chǎng)景下需要較短的時(shí)延,需要實(shí)時(shí)性較高,比如智慧城市中的路況監(jiān)控,這是離線計(jì)算無(wú)法勝任的。因此,流計(jì)算應(yīng)運(yùn)而生了,Storm是最流行的流計(jì)算平臺(tái)。流計(jì)算的思路是,如果要達(dá)到更實(shí)時(shí)的更新,則在數(shù)據(jù)流讀取的時(shí)候就直接進(jìn)行處理。流計(jì)算雖然快速,但它不靈活、統(tǒng)計(jì)的內(nèi)容必須預(yù)先知道,因此雖然功能強(qiáng)大,但是無(wú)法替代數(shù)據(jù)倉(cāng)庫(kù)和批處理系統(tǒng)。
在企業(yè)構(gòu)建大數(shù)據(jù)架構(gòu)的過(guò)程中,多種計(jì)算方式都是要復(fù)合使用的,通過(guò)揚(yáng)長(zhǎng)避短達(dá)到發(fā)揮大數(shù)據(jù)平臺(tái)最高性能的目的。
構(gòu)建大數(shù)據(jù)平臺(tái)的之前,必須要做的工作是清楚大數(shù)據(jù)平臺(tái)應(yīng)用的目的、對(duì)象以及算法。否則軟硬件設(shè)備購(gòu)置部署完成后,終究是骨架,而沒(méi)有血肉。
業(yè)務(wù)層承載著大數(shù)據(jù)的核心思路,包括核心的算法、基礎(chǔ)的分析模塊等。一般來(lái)說(shuō),這些業(yè)務(wù)應(yīng)該包括日志處理、離線分析、深度挖掘、分類聚類和預(yù)測(cè)建模等離線業(yè)務(wù),也有實(shí)時(shí)挖掘、實(shí)時(shí)監(jiān)控等實(shí)時(shí)處理業(yè)務(wù)。大數(shù)據(jù)的核心就是預(yù)測(cè),它通常被視為人工智能的一部分,或者更確切地說(shuō),被視為一種機(jī)器學(xué)習(xí)。大數(shù)據(jù)大大解放了人們的分析能力,一是可以分析更多的數(shù)據(jù),甚至相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)抽樣;二是研究數(shù)據(jù)如此之多,以至于人們不再熱衷于追求精確度;三是不必拘泥于對(duì)因果關(guān)系的探究,而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價(jià)值。因此,當(dāng)人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好,開(kāi)始挖掘相關(guān)關(guān)系的好處時(shí),一個(gè)用數(shù)據(jù)預(yù)測(cè)的時(shí)代才會(huì)到來(lái)。
業(yè)務(wù)層可以實(shí)現(xiàn)豐富的數(shù)學(xué)方法、挖掘算法,常用的介紹如下。
(1)聚類算法
企業(yè)級(jí)應(yīng)用中的大數(shù)據(jù)分析經(jīng)常用到聚類算法,比如針對(duì)某些特征對(duì)用戶群體進(jìn)行劃分,如按照用戶標(biāo)簽對(duì)預(yù)測(cè)其偏好類別,淘寶商鋪將用戶在一段時(shí)間內(nèi)的購(gòu)買(mǎi)情況劃分成不同的類。聚類方法有許多種,例如基于球鄰域的空間劃分、仿生模式識(shí)別、視覺(jué)分類方法等。
(2)回歸分析
預(yù)測(cè)對(duì)于企業(yè)的意義比較深遠(yuǎn),回歸分析是進(jìn)行大數(shù)據(jù)預(yù)測(cè)的有效方法。回歸分析用函數(shù)表達(dá)式的形式,反映了值與值、屬性與屬性之間的相互關(guān)系。當(dāng)人們最大似然地獲得了其中的關(guān)系,就可以用其中一部分?jǐn)?shù)據(jù)來(lái)預(yù)測(cè)另一部分?jǐn)?shù)據(jù)。在市場(chǎng)營(yíng)銷的很多方面都可以運(yùn)用到回歸分析,例如可以通過(guò)回歸分析對(duì)當(dāng)月的銷售規(guī)律進(jìn)行挖掘,從而預(yù)測(cè)出下個(gè)月的趨勢(shì),進(jìn)而做相應(yīng)的策略上的變更或保障。
(3)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種人工智能技術(shù),其優(yōu)勢(shì)在于處理非線性以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的問(wèn)題。隨著數(shù)據(jù)的增長(zhǎng)與發(fā)展,企業(yè)中非結(jié)構(gòu)化數(shù)據(jù)呈爆發(fā)增長(zhǎng)趨勢(shì),而神經(jīng)網(wǎng)絡(luò)在分析這類數(shù)據(jù)上有著天然的優(yōu)勢(shì)。神經(jīng)網(wǎng)絡(luò)具有分布存儲(chǔ)和高度容錯(cuò)等特性,與大數(shù)據(jù)架構(gòu)不謀而合,因此部署神經(jīng)網(wǎng)絡(luò)算法來(lái)解決數(shù)據(jù)挖掘的問(wèn)題成為企業(yè)很好的選擇。典型的神經(jīng)網(wǎng)絡(luò)為三大類:第一類是前饋式神經(jīng)網(wǎng)絡(luò)模型,其特征是分類預(yù)測(cè)和模式識(shí)別;第二類是反饋式神經(jīng)網(wǎng)絡(luò)模型,擅長(zhǎng)聯(lián)想記憶和優(yōu)化算法;第三類是自組織映射方法,在聚類方面有較好的應(yīng)用。
業(yè)務(wù)層的方法是十分豐富的,企業(yè)在構(gòu)建自己的大數(shù)據(jù)平臺(tái)時(shí),不應(yīng)局限于個(gè)別幾類方法,而是需要充分挖掘和匯聚不同方法的潛能,使得統(tǒng)計(jì)和預(yù)測(cè)的結(jié)論以更大的概率接近實(shí)施情況,從而真正體現(xiàn)企業(yè)的數(shù)據(jù)價(jià)值。
數(shù)據(jù)是資源已經(jīng)成為共識(shí),如何獲取數(shù)據(jù)、挖掘數(shù)據(jù)、盤(pán)活數(shù)組資源,成為每個(gè)企業(yè)都需要深度思考的問(wèn)題。
在反饋經(jīng)濟(jì)中,數(shù)據(jù)是一面鏡子,企業(yè)通過(guò)數(shù)據(jù)了解客戶,了解自身,洞悉整個(gè)行業(yè)乃至整個(gè)產(chǎn)業(yè)生態(tài)環(huán)境,對(duì)未來(lái)發(fā)展有更充分的把握。 工欲善其事,必先利其器。做好企業(yè)的運(yùn)營(yíng),大數(shù)據(jù)平臺(tái)是利器。隨著大數(shù)據(jù)各領(lǐng)域技術(shù)的日臻成熟,選擇適合自身發(fā)展的技術(shù)是要解決的當(dāng)務(wù)之急。存儲(chǔ)、計(jì)算、業(yè)務(wù)的策略是使用者需要考慮的重中之重,是大數(shù)據(jù)系統(tǒng)得以協(xié)調(diào)運(yùn)作的基礎(chǔ)。好馬配好鞍,滿足需求的硬件配置,也是不容忽視的剛性條件。相信只要把這些關(guān)鍵環(huán)節(jié)的工作做到位,大數(shù)據(jù)給企業(yè)帶來(lái)的可預(yù)見(jiàn)的增益就近在咫尺了。
1 張寧,賈自艷,史忠植.數(shù)據(jù)倉(cāng)庫(kù)中的ETL技術(shù)的研究.計(jì)算機(jī)工程與應(yīng)用,2002,38(24):200~211 Zhang N,Jia Z Y,Shi Z Z.Research on technology of ETL in data warehouse.Computer Engineering and Applications,2002,38(24 ):200~211
2 董翔英.SQL Server基礎(chǔ)教程.北京:科學(xué)出版社,2005 Dong X Y.Beginning SQL Server for Developers.Beijing:Science Press,2005
3 陶冶,范玉順,羅海濱.分布式工作流系統(tǒng)的可靠性研究.計(jì)算機(jī)科學(xué),2001,28(5):6~10 Tao Y,Fan Y S,Luo H B.Research on the reliability of distributed workflow system.Computer Science,2001,28(5):6~10
4 Baru C,Bhandarkar M,Nambiar R,et al.Big data benchmarking.Proceedings of the 2012 Workshop on Management of Big Data System of ACM,San Jose,CAL,USA,2012:39~40
5 Rogers Y,Sharp H,Preece J.Interaction Design:Beyond Human-Computer Interaction.West Sussex:Wiley,2011
6 羅軍舟,金嘉暉,宋愛(ài)波等.云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù).通信學(xué)報(bào),2011,32(7)Luo J Z,Jin J H,Song A B,et al.Cloud computing:architecture and key technologies.Journal on Communications,2011,32(7)
7 王勁.大數(shù)據(jù)時(shí)代的管理變革.中國(guó)商貿(mào),2013(2):189~190 Wang J.Management revolution in big data era.China Business & Trade,2013(2):189~190
8 崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開(kāi)發(fā).計(jì)算機(jī)研究與發(fā)展,2012(49)Cui J,Li T S,Lan H X.Design and development of the mass data storage platform based on Hadoop.Journal of Computer Research and Development,2012(49)
9 張輝,趙郁亮,徐江等.基于Oracle數(shù)據(jù)庫(kù)海量數(shù)據(jù)的查詢優(yōu)化研究.計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(2)Zhang H,Zhao Y L,Xu J,et al.Query optimization research on mass of data based on Oracle database.Journal of Computer Research and Development,2012,22(2)
10 李成華,張新訪,金海.MapReduce:新型的分布式并行計(jì)算變成模型.計(jì)算機(jī)工程與科學(xué),2011,33(3)Li C H,Zhang X F,Jin H.MapReduce:a new programming model for distributed parallel computing.Computer Engineering and Science,2011,33(3)