大數(shù)據(jù)架構(gòu)在企業(yè)中的應(yīng)用

2015-02-28 02:11王永峰程新洲

電信科學(xué) 2015年9期

王永峰，程新洲，高潔

（中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司網(wǎng)絡(luò)技術(shù)研究院北京 100048）

1 引言

隨著各行業(yè)信息化速度的加快，不同類型的數(shù)據(jù)皆呈現(xiàn)出爆發(fā)性增長(zhǎng)的趨勢(shì)。對(duì)于這些數(shù)據(jù)，企業(yè)往往用來(lái)進(jìn)行運(yùn)營(yíng)、策劃、銷售等方面的應(yīng)用，得到不同層面的技術(shù)指標(biāo)，產(chǎn)生系列的報(bào)表并反饋到生產(chǎn)和運(yùn)營(yíng)中。但是，當(dāng)這些數(shù)據(jù)的量增長(zhǎng)到一定程度后，量變引起質(zhì)變，原有的信息化系統(tǒng)和工具漸漸無(wú)法承載如此龐大的數(shù)據(jù)存儲(chǔ)和運(yùn)算，分析效率逐步降低，以至于無(wú)法勝任數(shù)據(jù)分析的需求。在這種處境下，決策者們往往向大數(shù)據(jù)系統(tǒng)架構(gòu)靠攏，對(duì)原有的信息系統(tǒng)進(jìn)行改造，去擁抱真正意義上的大數(shù)據(jù)資產(chǎn)。在大數(shù)據(jù)系統(tǒng)的引入過(guò)程中，紛繁復(fù)雜的系統(tǒng)實(shí)現(xiàn)方法是較為迷惑人的，不同層面、不同技術(shù)的選擇也會(huì)因?yàn)樾枨蠛湍康牡牟煌绊懙綄?shí)際的決策。因此，深入地了解大數(shù)據(jù)系統(tǒng)凸顯出了它的意義。

2 企業(yè)大數(shù)據(jù)應(yīng)用的關(guān)鍵環(huán)節(jié)

大數(shù)據(jù)本身是一個(gè)較為概括的稱謂，并沒(méi)有對(duì)數(shù)據(jù)的量級(jí)做明確的界限。在實(shí)際應(yīng)用中，通常把采用大數(shù)據(jù)架構(gòu)進(jìn)行存儲(chǔ)、分析和應(yīng)用的場(chǎng)景統(tǒng)稱為大數(shù)據(jù)。

大數(shù)據(jù)在實(shí)際的企業(yè)應(yīng)用中，包含多個(gè)環(huán)節(jié)的處理，最終形成監(jiān)控運(yùn)行狀態(tài)、支撐方案決策的大數(shù)據(jù)應(yīng)用。在大數(shù)據(jù)分析的全鏈條中，比較關(guān)鍵的兩個(gè)環(huán)節(jié)是大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算。如圖1所示，描述了大數(shù)據(jù)轉(zhuǎn)化的周期，包括數(shù)據(jù)的采集、解析、入庫(kù)、存儲(chǔ)、分析和應(yīng)用的各個(gè)環(huán)節(jié)。

大數(shù)據(jù)采集即數(shù)據(jù)的初步收集過(guò)程。一個(gè)公司的數(shù)據(jù)價(jià)值是否明晰，主要從兩個(gè)方面判斷，其一是數(shù)據(jù)源的獲取是否穩(wěn)定，其二是其數(shù)據(jù)價(jià)值的變現(xiàn)過(guò)程是否可持續(xù)。因此，大數(shù)據(jù)采集是至關(guān)重要的，數(shù)據(jù)采集決定了整個(gè)系統(tǒng)的輸入、數(shù)據(jù)采集的深度和廣度，決定了整個(gè)大數(shù)據(jù)分析鏈條的價(jià)值導(dǎo)向。大數(shù)據(jù)采集包含很多類別，如自身用戶數(shù)據(jù)、系統(tǒng)運(yùn)營(yíng)數(shù)據(jù)產(chǎn)生的自有數(shù)據(jù)，或者從其他用戶龐大用戶群體的公司處獲取的第三方數(shù)據(jù)，抑或一些靜態(tài)的數(shù)據(jù)信息，如用戶身份信息、鄉(xiāng)鎮(zhèn)街道信息等。

圖1 基于自組織的分布式網(wǎng)絡(luò)管理模型

大數(shù)據(jù)存儲(chǔ)是大數(shù)據(jù)有別于傳統(tǒng)數(shù)據(jù)分析的標(biāo)志性特征，服務(wù)于大數(shù)據(jù)的存儲(chǔ)方式以及相應(yīng)的工具也蜂擁而至。如何低風(fēng)險(xiǎn)、低成本地建立一套大數(shù)據(jù)存儲(chǔ)體系是企業(yè)構(gòu)建大數(shù)據(jù)架構(gòu)考慮的首要問(wèn)題。從HDFS（Hadoop distributed file system，Hadoop分布式文件系統(tǒng)），到接踵而至的HBase、Hive、Impala等，縱向細(xì)分的差異性的系統(tǒng)和工具給人們更多的選擇空間，企業(yè)可根據(jù)自身大數(shù)據(jù)的應(yīng)用場(chǎng)景，從成本、時(shí)效性、數(shù)據(jù)規(guī)模等多個(gè)方面選擇，進(jìn)而因地制宜地搭建適合本企業(yè)數(shù)據(jù)類型、分析方式的大數(shù)據(jù)存儲(chǔ)架構(gòu)。

數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)計(jì)算是相輔相成的，存儲(chǔ)是為了計(jì)算，計(jì)算中還需要存儲(chǔ)，因此大數(shù)據(jù)計(jì)算不是獨(dú)立設(shè)計(jì)的。在大數(shù)據(jù)計(jì)算中，需要考慮多個(gè)方面的因素。數(shù)理統(tǒng)計(jì)是大數(shù)據(jù)分析中較為常用的分析方法，例如頻次統(tǒng)計(jì)、分布統(tǒng)計(jì)等，是支撐企業(yè)運(yùn)營(yíng)分析的一項(xiàng)重要的途徑。在運(yùn)營(yíng)分析中，數(shù)據(jù)運(yùn)營(yíng)是重要的組成部分，通過(guò)日?qǐng)?bào)表、周報(bào)表、月報(bào)表等，企業(yè)可以提煉出數(shù)據(jù)中的價(jià)值，明確地看出企業(yè)運(yùn)作中的不同趨勢(shì)，進(jìn)行用戶對(duì)比、內(nèi)容策劃、成本控制、風(fēng)險(xiǎn)預(yù)警等。除了數(shù)理統(tǒng)計(jì)以外，更高一層面的、復(fù)合型的分析也是大數(shù)據(jù)勝任的內(nèi)容，包括數(shù)據(jù)的聚類分析、關(guān)聯(lián)分析、回歸分析、擬合分析等，通過(guò)神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)、迭代等步驟得到更智能、更具有應(yīng)用價(jià)值的計(jì)算結(jié)果。

諸多的計(jì)算步驟，只有一個(gè)目的，就是為大數(shù)據(jù)應(yīng)用服務(wù)。大數(shù)據(jù)應(yīng)用就像企業(yè)運(yùn)作中的顧問(wèn)，用數(shù)據(jù)說(shuō)話，給決策者一個(gè)參考的依據(jù)。大數(shù)據(jù)應(yīng)用可以分為前臺(tái)和后臺(tái)，前臺(tái)通過(guò)用戶友好的界面，分層次成體系的向用戶展示不同維度的大數(shù)據(jù)分析結(jié)果，提供定制化分析模板，輔助以不同的應(yīng)用工具，將后臺(tái)的運(yùn)算的數(shù)據(jù)通過(guò)圖表、應(yīng)用、地理化呈現(xiàn)等方式展示大數(shù)據(jù)計(jì)算的結(jié)果。

縱觀整個(gè)大數(shù)據(jù)鏈條可以發(fā)現(xiàn)，與大數(shù)據(jù)核心技術(shù)密切相關(guān)的環(huán)節(jié)主要在大數(shù)據(jù)存儲(chǔ)和大數(shù)據(jù)計(jì)算兩個(gè)環(huán)節(jié)。企業(yè)在“互聯(lián)網(wǎng)+”戰(zhàn)略計(jì)劃中，勢(shì)必要加大在大數(shù)據(jù)分析方面的投入，改造原有的大數(shù)據(jù)倉(cāng)庫(kù)，或者建造新的大數(shù)據(jù)倉(cāng)庫(kù)，部署分布式系統(tǒng)架構(gòu)，搭建大數(shù)據(jù)平臺(tái)。而這些投入不是盲目跟風(fēng)的，需要針對(duì)使用的場(chǎng)景以及預(yù)算的成本來(lái)綜合抉擇，最終形成企業(yè)的大數(shù)據(jù)方案。

3 典型的架構(gòu)與差異化策略

大數(shù)據(jù)典型架構(gòu)按層級(jí)劃分，可分為物理層、存儲(chǔ)層、計(jì)算層、業(yè)務(wù)層和應(yīng)用層，如圖2所示。層與層之間并沒(méi)有天然的隔閡和明顯的劃分標(biāo)準(zhǔn)，只是將邏輯的功能范圍作為劃分的依據(jù)。多層的架構(gòu)承擔(dān)著不同的功能，每層都對(duì)上層提供可靠的服務(wù)，因此形成了一個(gè)有機(jī)的功能體。

企業(yè)在構(gòu)建大數(shù)據(jù)架構(gòu)時(shí)，是需要謹(jǐn)慎考慮的，尤其是底層的構(gòu)建很大程度影響了上層的業(yè)務(wù)、應(yīng)用性能。這里著重從差異化的策略來(lái)闡述幾種典型技術(shù)對(duì)大數(shù)據(jù)架構(gòu)的影響。

圖2 大數(shù)據(jù)架構(gòu)層級(jí)

3.1 硬件策略

3.1.1 數(shù)據(jù)備份與存儲(chǔ)方案選擇

存儲(chǔ)是首要考慮的問(wèn)題，作為企業(yè)級(jí)應(yīng)用，存儲(chǔ)更需要慎重抉擇。歷史經(jīng)驗(yàn)證明，數(shù)據(jù)資產(chǎn)的安全對(duì)一個(gè)企業(yè)是至關(guān)重要的，尤其是在如今，數(shù)據(jù)存儲(chǔ)危機(jī)給企業(yè)帶來(lái)的影響是致命的，數(shù)據(jù)可靠性對(duì)企業(yè)的重要性不言而喻。

硬盤(pán)作為存儲(chǔ)的重要介質(zhì)，其類型也是多種多樣的。在做選擇的時(shí)候，可依據(jù)不同應(yīng)用場(chǎng)景進(jìn)行選擇。

（1）SATA硬盤(pán)

對(duì)于自身容錯(cuò)備份機(jī)制較好的大存儲(chǔ)系統(tǒng)，SATA硬盤(pán)是一個(gè)很好的選擇。SATA即串口硬盤(pán)，現(xiàn)已基本取代了傳統(tǒng)的PATA硬盤(pán)。Intel、APT、Dell、IBM、希捷和邁拓幾大廠商組成的“Serial ATA委員會(huì)”正式確立了規(guī)范，SATA硬盤(pán)采用串行連接方式，串行ATA總線使用嵌入式時(shí)鐘信號(hào)，具備了更強(qiáng)的糾錯(cuò)能力，與以往相比其最大的區(qū)別在于能對(duì)傳輸指令進(jìn)行檢查，如果發(fā)現(xiàn)錯(cuò)誤會(huì)自動(dòng)矯正，這在很大程度上提高了數(shù)據(jù)傳輸?shù)目煽啃浴４薪涌谶€具有結(jié)構(gòu)簡(jiǎn)單、支持熱插拔的優(yōu)點(diǎn)。

（2）列陣磁盤(pán)

通常，不是所有大數(shù)據(jù)應(yīng)用場(chǎng)合都適合建立自身容錯(cuò)備份機(jī)制較好的大存儲(chǔ)系統(tǒng)，在不具備這樣的容錯(cuò)機(jī)制的時(shí)候，列陣磁盤(pán)是一個(gè)很好的解決方案。磁盤(pán)陣列是由很多價(jià)格較便宜的磁盤(pán)，組合成一個(gè)容量巨大的磁盤(pán)組，利用個(gè)別磁盤(pán)提供數(shù)據(jù)所產(chǎn)生加成效果提升整個(gè)磁盤(pán)系統(tǒng)效能。利用這項(xiàng)技術(shù)，將數(shù)據(jù)切割成許多區(qū)段，分別存放在各個(gè)硬盤(pán)上。數(shù)組中任意一個(gè)硬盤(pán)出現(xiàn)故障時(shí)，仍可讀出數(shù)據(jù)，在數(shù)據(jù)重構(gòu)時(shí)，將數(shù)據(jù)經(jīng)計(jì)算后重新置入新硬盤(pán)中。

（3）SAS硬盤(pán)

SAS硬盤(pán)即串行連接SCSI（small computer system interface，小型計(jì)算機(jī)系統(tǒng)接口），是新一代的SCSI技術(shù)，和現(xiàn)在流行的serial ATA(SATA)硬盤(pán)相同，都是采用串行技術(shù)以獲得更高的傳輸速度，并通過(guò)縮短連結(jié)線來(lái)改善內(nèi)部空間等。SAS硬盤(pán)是并行SCSI之后開(kāi)發(fā)出的全新接口，此接口的設(shè)計(jì)是為了改善存儲(chǔ)系統(tǒng)的效能、可用性和擴(kuò)充性，并提供與SATA硬盤(pán)的兼容性。

因此，在大數(shù)據(jù)架構(gòu)搭建的底層，根據(jù)自身場(chǎng)景的需求，做出相應(yīng)的判斷，進(jìn)而建立或升級(jí)存儲(chǔ)結(jié)構(gòu)是十分必要的。

3.1.2 計(jì)算性能的需求與硬件的匹配

雖然計(jì)算機(jī)硬件的發(fā)展速度十分迅猛，但是仍然不能小覷日益增長(zhǎng)的計(jì)算需求。每當(dāng)硬件水平上一個(gè)新的臺(tái)階，計(jì)算的需求會(huì)迅速地填補(bǔ)上來(lái)，因?yàn)樗惴ǖ倪M(jìn)步是永無(wú)止境的。

隨著語(yǔ)音識(shí)別、圖像識(shí)別等模式識(shí)別的發(fā)展以及迭代算法需求的增加，大數(shù)據(jù)平臺(tái)的計(jì)算數(shù)據(jù)量是異常龐大的。因此，當(dāng)計(jì)算性能成為瓶頸的時(shí)候，相應(yīng)的提升工作就成為必要考慮的內(nèi)容。

（1）處理器加速

隨著非結(jié)構(gòu)化數(shù)據(jù)的爆發(fā)性增長(zhǎng)，計(jì)算量異常巨大，需要依靠GPU加速或者重核卡的加速才能在可容忍的時(shí)間內(nèi)完成計(jì)算，不少企業(yè)的大數(shù)據(jù)集群都采用了GPU加速或重核卡。

（2）SSD

某些應(yīng)用場(chǎng)景下，如快速的迭代算法會(huì)有頻繁的讀取與存儲(chǔ)操作，這使得傳統(tǒng)的I/O暴露出速度慢的弊病，嚴(yán)重影響了運(yùn)算的速率。SSD（solid state drives，固態(tài)硬盤(pán)）有傳統(tǒng)機(jī)械硬盤(pán)不具備的快速讀寫(xiě)、質(zhì)量輕、能耗低以及體積小等特點(diǎn)。隨著目前SSD價(jià)格的不斷下滑，SSD逐漸成為一種十分有吸引力的選擇。

（3）虛擬機(jī)

服務(wù)器的資源常常由于得不到有效的復(fù)用，導(dǎo)致資源無(wú)法發(fā)揮最大的性能或者資源部分閑置。虛擬機(jī)的引入解決了這個(gè)問(wèn)題，它能夠精細(xì)化地劃分和管理服務(wù)器的資源，實(shí)現(xiàn)合理地配置、充分地復(fù)用，從而整體提升計(jì)算的性能。虛擬機(jī)技術(shù)正逐步成為一種趨勢(shì)，目前很多企業(yè)級(jí)的大數(shù)據(jù)平臺(tái)都選擇搭建在虛擬機(jī)集群上。

以上只做了一些常用的技術(shù)的描述，實(shí)際需根據(jù)企業(yè)構(gòu)建大數(shù)據(jù)平臺(tái)的真實(shí)情況，選擇合適的技術(shù)方案來(lái)提升系統(tǒng)性能。

3.2 云存儲(chǔ)策略

在選定了存儲(chǔ)的硬件介質(zhì)之后，接下來(lái)就是從軟件層面上定義存儲(chǔ)的方式。按照時(shí)效性劃分，云存儲(chǔ)可分為離線存儲(chǔ)和在線存儲(chǔ)兩種類型，如圖3所示。選擇何種存儲(chǔ)類型，對(duì)于企業(yè)整體大數(shù)據(jù)架構(gòu)而言十分重要。選擇存儲(chǔ)類型一方面要滿足應(yīng)用時(shí)效性的需求，另一方面要和存儲(chǔ)介質(zhì)以及算法匹配。

圖3 云存儲(chǔ)的兩種方式

離線存儲(chǔ)一般適用于超大規(guī)模的數(shù)據(jù)量，從時(shí)間上來(lái)說(shuō)一般是長(zhǎng)時(shí)間的存儲(chǔ)，往往應(yīng)用于對(duì)時(shí)效性要求不高的場(chǎng)景。例如對(duì)于企業(yè)應(yīng)用中一些海量的過(guò)程類數(shù)據(jù)，不需要頻繁訪問(wèn)的，即可采用離線存儲(chǔ)方式。這種方式最典型的案例就是HDFS，它的部署成本和技術(shù)門(mén)檻相對(duì)較低，因此得以普及。

在線存儲(chǔ)顧名思義需要頻繁的互動(dòng)，及時(shí)性要求較高，同時(shí)又具備大數(shù)據(jù)的海量存儲(chǔ)特征。最常用的Memcached是一個(gè)高性能的分布式內(nèi)存對(duì)象緩存系統(tǒng)，常用于動(dòng)態(tài)Web應(yīng)用以減輕數(shù)據(jù)庫(kù)負(fù)載。它通過(guò)在內(nèi)存中緩存數(shù)據(jù)和對(duì)象來(lái)減少讀取數(shù)據(jù)庫(kù)的次數(shù)，從而提高動(dòng)態(tài)數(shù)據(jù)庫(kù)驅(qū)動(dòng)網(wǎng)站的速度。其本質(zhì)上是一套分布式的快取系統(tǒng)，但是不提供持久化。與之類似的Redis是一個(gè)開(kāi)源的使用ANSI C語(yǔ)言編寫(xiě)、支持網(wǎng)絡(luò)、可基于內(nèi)存亦可持久化的日志型key-value數(shù)據(jù)庫(kù)，能夠提供持久化的能力。

3.3 計(jì)算層策略

計(jì)算層也有離線和在線之分，其實(shí)與存儲(chǔ)層區(qū)分是類似的，只是表現(xiàn)的技術(shù)不同而已，如圖4所示。在分布式系統(tǒng)架構(gòu)中，不同的任務(wù)之間是需要進(jìn)行數(shù)據(jù)傳遞的，一部分是采用存儲(chǔ)來(lái)傳遞，即存儲(chǔ)和讀取方式實(shí)現(xiàn)，另一部分采用數(shù)據(jù)管道系統(tǒng)來(lái)完成。

圖4 計(jì)算層的不同計(jì)算方式

對(duì)于數(shù)據(jù)量龐大、運(yùn)算耗時(shí)長(zhǎng)的任務(wù)，通常會(huì)采用離線計(jì)算的方式進(jìn)行，特別是對(duì)于那些需要深度發(fā)掘、多次迭代的算法而言。離線計(jì)算以MapReduce為代表，MapReduce的設(shè)計(jì)，采用了很簡(jiǎn)化的計(jì)算模型，只有map和reduce兩個(gè)計(jì)算過(guò)程，中間用shuffle串聯(lián)。用這個(gè)模型，可以處理大數(shù)據(jù)領(lǐng)域很大一部分問(wèn)題。第二代的Tez和Spark，除了內(nèi)存緩存之類的新特性以外，讓MapReduce模型更通用，讓map和reduce之間的界限更模糊，數(shù)據(jù)交換更靈活，更少的磁盤(pán)讀寫(xiě)，以便更方便地描述復(fù)雜算法，取得更高的吞吐量。

某些應(yīng)用場(chǎng)景下需要較短的時(shí)延，需要實(shí)時(shí)性較高，比如智慧城市中的路況監(jiān)控，這是離線計(jì)算無(wú)法勝任的。因此，流計(jì)算應(yīng)運(yùn)而生了，Storm是最流行的流計(jì)算平臺(tái)。流計(jì)算的思路是，如果要達(dá)到更實(shí)時(shí)的更新，則在數(shù)據(jù)流讀取的時(shí)候就直接進(jìn)行處理。流計(jì)算雖然快速，但它不靈活、統(tǒng)計(jì)的內(nèi)容必須預(yù)先知道，因此雖然功能強(qiáng)大，但是無(wú)法替代數(shù)據(jù)倉(cāng)庫(kù)和批處理系統(tǒng)。

在企業(yè)構(gòu)建大數(shù)據(jù)架構(gòu)的過(guò)程中，多種計(jì)算方式都是要復(fù)合使用的，通過(guò)揚(yáng)長(zhǎng)避短達(dá)到發(fā)揮大數(shù)據(jù)平臺(tái)最高性能的目的。

3.4 業(yè)務(wù)層策略

構(gòu)建大數(shù)據(jù)平臺(tái)的之前，必須要做的工作是清楚大數(shù)據(jù)平臺(tái)應(yīng)用的目的、對(duì)象以及算法。否則軟硬件設(shè)備購(gòu)置部署完成后，終究是骨架，而沒(méi)有血肉。

業(yè)務(wù)層承載著大數(shù)據(jù)的核心思路，包括核心的算法、基礎(chǔ)的分析模塊等。一般來(lái)說(shuō)，這些業(yè)務(wù)應(yīng)該包括日志處理、離線分析、深度挖掘、分類聚類和預(yù)測(cè)建模等離線業(yè)務(wù)，也有實(shí)時(shí)挖掘、實(shí)時(shí)監(jiān)控等實(shí)時(shí)處理業(yè)務(wù)。大數(shù)據(jù)的核心就是預(yù)測(cè)，它通常被視為人工智能的一部分，或者更確切地說(shuō)，被視為一種機(jī)器學(xué)習(xí)。大數(shù)據(jù)大大解放了人們的分析能力，一是可以分析更多的數(shù)據(jù)，甚至相關(guān)的所有數(shù)據(jù)，而不再依賴于隨機(jī)抽樣；二是研究數(shù)據(jù)如此之多，以至于人們不再熱衷于追求精確度；三是不必拘泥于對(duì)因果關(guān)系的探究，而可以在相關(guān)關(guān)系中發(fā)現(xiàn)大數(shù)據(jù)的潛在價(jià)值。因此，當(dāng)人們可以放棄尋找因果關(guān)系的傳統(tǒng)偏好，開(kāi)始挖掘相關(guān)關(guān)系的好處時(shí)，一個(gè)用數(shù)據(jù)預(yù)測(cè)的時(shí)代才會(huì)到來(lái)。

業(yè)務(wù)層可以實(shí)現(xiàn)豐富的數(shù)學(xué)方法、挖掘算法，常用的介紹如下。

（1）聚類算法

企業(yè)級(jí)應(yīng)用中的大數(shù)據(jù)分析經(jīng)常用到聚類算法，比如針對(duì)某些特征對(duì)用戶群體進(jìn)行劃分，如按照用戶標(biāo)簽對(duì)預(yù)測(cè)其偏好類別，淘寶商鋪將用戶在一段時(shí)間內(nèi)的購(gòu)買(mǎi)情況劃分成不同的類。聚類方法有許多種，例如基于球鄰域的空間劃分、仿生模式識(shí)別、視覺(jué)分類方法等。

（2）回歸分析

預(yù)測(cè)對(duì)于企業(yè)的意義比較深遠(yuǎn)，回歸分析是進(jìn)行大數(shù)據(jù)預(yù)測(cè)的有效方法。回歸分析用函數(shù)表達(dá)式的形式，反映了值與值、屬性與屬性之間的相互關(guān)系。當(dāng)人們最大似然地獲得了其中的關(guān)系，就可以用其中一部分?jǐn)?shù)據(jù)來(lái)預(yù)測(cè)另一部分?jǐn)?shù)據(jù)。在市場(chǎng)營(yíng)銷的很多方面都可以運(yùn)用到回歸分析，例如可以通過(guò)回歸分析對(duì)當(dāng)月的銷售規(guī)律進(jìn)行挖掘，從而預(yù)測(cè)出下個(gè)月的趨勢(shì)，進(jìn)而做相應(yīng)的策略上的變更或保障。

（3）神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)是一種人工智能技術(shù)，其優(yōu)勢(shì)在于處理非線性以及那些以模糊、不完整、不嚴(yán)密的知識(shí)或數(shù)據(jù)為特征的問(wèn)題。隨著數(shù)據(jù)的增長(zhǎng)與發(fā)展，企業(yè)中非結(jié)構(gòu)化數(shù)據(jù)呈爆發(fā)增長(zhǎng)趨勢(shì)，而神經(jīng)網(wǎng)絡(luò)在分析這類數(shù)據(jù)上有著天然的優(yōu)勢(shì)。神經(jīng)網(wǎng)絡(luò)具有分布存儲(chǔ)和高度容錯(cuò)等特性，與大數(shù)據(jù)架構(gòu)不謀而合，因此部署神經(jīng)網(wǎng)絡(luò)算法來(lái)解決數(shù)據(jù)挖掘的問(wèn)題成為企業(yè)很好的選擇。典型的神經(jīng)網(wǎng)絡(luò)為三大類：第一類是前饋式神經(jīng)網(wǎng)絡(luò)模型，其特征是分類預(yù)測(cè)和模式識(shí)別；第二類是反饋式神經(jīng)網(wǎng)絡(luò)模型，擅長(zhǎng)聯(lián)想記憶和優(yōu)化算法；第三類是自組織映射方法，在聚類方面有較好的應(yīng)用。

業(yè)務(wù)層的方法是十分豐富的，企業(yè)在構(gòu)建自己的大數(shù)據(jù)平臺(tái)時(shí)，不應(yīng)局限于個(gè)別幾類方法，而是需要充分挖掘和匯聚不同方法的潛能，使得統(tǒng)計(jì)和預(yù)測(cè)的結(jié)論以更大的概率接近實(shí)施情況，從而真正體現(xiàn)企業(yè)的數(shù)據(jù)價(jià)值。

4 結(jié)束語(yǔ)

數(shù)據(jù)是資源已經(jīng)成為共識(shí)，如何獲取數(shù)據(jù)、挖掘數(shù)據(jù)、盤(pán)活數(shù)組資源，成為每個(gè)企業(yè)都需要深度思考的問(wèn)題。

在反饋經(jīng)濟(jì)中，數(shù)據(jù)是一面鏡子，企業(yè)通過(guò)數(shù)據(jù)了解客戶，了解自身，洞悉整個(gè)行業(yè)乃至整個(gè)產(chǎn)業(yè)生態(tài)環(huán)境，對(duì)未來(lái)發(fā)展有更充分的把握。工欲善其事，必先利其器。做好企業(yè)的運(yùn)營(yíng)，大數(shù)據(jù)平臺(tái)是利器。隨著大數(shù)據(jù)各領(lǐng)域技術(shù)的日臻成熟，選擇適合自身發(fā)展的技術(shù)是要解決的當(dāng)務(wù)之急。存儲(chǔ)、計(jì)算、業(yè)務(wù)的策略是使用者需要考慮的重中之重，是大數(shù)據(jù)系統(tǒng)得以協(xié)調(diào)運(yùn)作的基礎(chǔ)。好馬配好鞍，滿足需求的硬件配置，也是不容忽視的剛性條件。相信只要把這些關(guān)鍵環(huán)節(jié)的工作做到位，大數(shù)據(jù)給企業(yè)帶來(lái)的可預(yù)見(jiàn)的增益就近在咫尺了。

1 張寧，賈自艷，史忠植.數(shù)據(jù)倉(cāng)庫(kù)中的ETL技術(shù)的研究.計(jì)算機(jī)工程與應(yīng)用，2002,38(24):200～211 Zhang N,Jia Z Y,Shi Z Z.Research on technology of ETL in data warehouse.Computer Engineering and Applications,2002,38(24 ):200～211

2 董翔英.SQL Server基礎(chǔ)教程.北京:科學(xué)出版社,2005 Dong X Y.Beginning SQL Server for Developers.Beijing:Science Press,2005

3 陶冶，范玉順，羅海濱.分布式工作流系統(tǒng)的可靠性研究.計(jì)算機(jī)科學(xué)，2001,28(5):6～10 Tao Y,Fan Y S,Luo H B.Research on the reliability of distributed workflow system.Computer Science,2001,28(5):6～10

4 Baru C,Bhandarkar M,Nambiar R,et al.Big data benchmarking.Proceedings of the 2012 Workshop on Management of Big Data System of ACM,San Jose,CAL,USA,2012:39～40

5 Rogers Y,Sharp H,Preece J.Interaction Design:Beyond Human-Computer Interaction.West Sussex:Wiley,2011

6 羅軍舟，金嘉暉，宋愛(ài)波等.云計(jì)算：體系架構(gòu)與關(guān)鍵技術(shù).通信學(xué)報(bào)，2011,32(7)Luo J Z,Jin J H,Song A B,et al.Cloud computing:architecture and key technologies.Journal on Communications,2011,32(7)

7 王勁.大數(shù)據(jù)時(shí)代的管理變革.中國(guó)商貿(mào),2013(2)：189～190 Wang J.Management revolution in big data era.China Business & Trade,2013(2)：189～190

8 崔杰，李陶深，蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開(kāi)發(fā).計(jì)算機(jī)研究與發(fā)展,2012(49)Cui J,Li T S,Lan H X.Design and development of the mass data storage platform based on Hadoop.Journal of Computer Research and Development,2012(49)

9 張輝，趙郁亮，徐江等.基于Oracle數(shù)據(jù)庫(kù)海量數(shù)據(jù)的查詢優(yōu)化研究.計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(2)Zhang H,Zhao Y L,Xu J,et al.Query optimization research on mass of data based on Oracle database.Journal of Computer Research and Development,2012,22(2)

10 李成華，張新訪，金海.MapReduce：新型的分布式并行計(jì)算變成模型.計(jì)算機(jī)工程與科學(xué),2011,33(3)Li C H,Zhang X F,Jin H.MapReduce:a new programming model for distributed parallel computing.Computer Engineering and Science,2011,33(3)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡