国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

市場(chǎng)研究相關(guān)的大數(shù)據(jù)技術(shù)與資源介紹

2015-04-04 17:33馬亮
數(shù)字通信世界 2015年4期
關(guān)鍵詞:分布式計(jì)算機(jī)器可視化

馬亮

(慧辰資訊,北京 100016)

市場(chǎng)研究相關(guān)的大數(shù)據(jù)技術(shù)與資源介紹

馬亮

(慧辰資訊,北京100016)

在筆者前兩篇討論產(chǎn)品方法論和業(yè)務(wù)模式變化的文章中,可以發(fā)現(xiàn),IT技術(shù)成為大數(shù)據(jù)業(yè)務(wù)生態(tài)下的重要競(jìng)爭(zhēng)力。本文中筆者將結(jié)合自身工作,針對(duì)市場(chǎng)研究所需的大數(shù)據(jù)IT技術(shù)及可用資源進(jìn)行簡(jiǎn)要介紹。內(nèi)容主要面向非技術(shù)性的研究人員,不涉及技術(shù)細(xì)節(jié)。

大數(shù)據(jù);IT技術(shù);可用資源

1 研究業(yè)務(wù)的技術(shù)特性要求

大數(shù)據(jù)相關(guān)技術(shù)和資源眾多,先從市場(chǎng)研究的業(yè)務(wù)特點(diǎn)來(lái)分析其對(duì)技術(shù)性的一些要求:一是數(shù)據(jù)規(guī)模而言,因?yàn)榭蛻糁饕珎鹘y(tǒng)企業(yè)客戶(非互聯(lián)網(wǎng)類),受其業(yè)務(wù)限制,可分析的大數(shù)據(jù)規(guī)模不會(huì)超過(guò)百億/TB級(jí),不像互聯(lián)網(wǎng)企業(yè)達(dá)到千億/PB級(jí)。二是數(shù)據(jù)格式還是以結(jié)構(gòu)化數(shù)據(jù)為主,部分非結(jié)構(gòu)化文本(如互聯(lián)網(wǎng)/社交方面為主)。三是處理模式上,因?yàn)榉治鲞^(guò)程是多次迭代和不斷深入,不需要實(shí)時(shí)出結(jié)論,所以離線非實(shí)時(shí)、批量化/Ad Hoc結(jié)合的OLAP分析是主要模式。這個(gè)和很多互聯(lián)網(wǎng)企業(yè)的實(shí)時(shí)大數(shù)據(jù)業(yè)務(wù)要求不同。四是分析的屬性維度多樣,經(jīng)常變化,關(guān)注整體特性。所以對(duì)數(shù)據(jù)管理中的多字段檢索和匯總統(tǒng)計(jì)的能力要求較高。基于以上的技術(shù)要求,我們來(lái)討論研究業(yè)務(wù)適合的技術(shù)理論與資源。

2 主要技術(shù)理論

在整個(gè)大數(shù)據(jù)相關(guān)技術(shù)體系中,研究公司大數(shù)據(jù)業(yè)務(wù)涉及的技術(shù)領(lǐng)域主要如下:

2.1分布式計(jì)算

在大數(shù)據(jù)領(lǐng)域,大部分?jǐn)?shù)據(jù)存儲(chǔ)和高速計(jì)算都離不開(kāi)分布式計(jì)算(Distributed computing)。日常生活中,我們一臺(tái)電腦可完成所有計(jì)算和數(shù)據(jù)存儲(chǔ),當(dāng)覺(jué)得不夠用時(shí),通常是更換更快的CPU和更大硬盤(pán)來(lái)解決。但當(dāng)計(jì)算速度和存儲(chǔ)要求越來(lái)越高時(shí)(如大數(shù)據(jù)環(huán)境下對(duì)TB甚至PB級(jí)數(shù)據(jù)管理計(jì)算),這種通過(guò)提升單臺(tái)服務(wù)器性能的集中模式會(huì)導(dǎo)致服務(wù)器(如使用在運(yùn)營(yíng)商話單計(jì)費(fèi)、銀行交易系統(tǒng)的小型機(jī))成本極為昂貴,且最終可能仍然無(wú)法滿足要求。另外一種思路,則是將大的計(jì)算需求分?jǐn)偟蕉嗯_(tái)計(jì)算機(jī)一起來(lái)完成(如同一個(gè)大卡車的載貨被分到很多臺(tái)小卡車來(lái)運(yùn)輸一樣)。相應(yīng)的分布式計(jì)算(包括存儲(chǔ))就是通過(guò)多臺(tái)(成千上萬(wàn)甚至百萬(wàn))廉價(jià)、低性能服務(wù)器來(lái)實(shí)現(xiàn)超高的計(jì)算存儲(chǔ)能力。在分布式計(jì)算系統(tǒng)中,任何計(jì)算和存儲(chǔ)請(qǐng)求,被自動(dòng)分為多個(gè)小的任務(wù),分?jǐn)偟礁鞣?wù)器上并行完成。同時(shí),數(shù)據(jù)分布在多個(gè)服務(wù)器節(jié)點(diǎn)并有備份,這樣即使部分服務(wù)器損壞并不影響系統(tǒng)運(yùn)行。

相比集中模式,分布式計(jì)算成本和門(mén)檻更低,易擴(kuò)展并具高可靠性。成為近10年來(lái)IT體系架構(gòu)最重要的技術(shù),支撐起了整個(gè)互聯(lián)網(wǎng)的數(shù)據(jù)和業(yè)務(wù),也是云計(jì)算和大數(shù)據(jù)的支撐技術(shù)之一。

2.2機(jī)器學(xué)習(xí)

如果說(shuō)分布式計(jì)算是IT體系架構(gòu)的明星,那機(jī)器學(xué)習(xí)(Machine Learning)就是智能數(shù)據(jù)分析的利器了。作為人工智能的核心研究領(lǐng)域之一,機(jī)器學(xué)習(xí)是為了讓計(jì)算機(jī)通過(guò)經(jīng)驗(yàn)(先驗(yàn)知識(shí)數(shù)據(jù))來(lái)模仿人類的學(xué)習(xí)能力,從而獲得計(jì)算機(jī)系統(tǒng)能力的提升。20世紀(jì)末,隨著統(tǒng)計(jì)學(xué)習(xí)理論出現(xiàn)和發(fā)展,機(jī)器學(xué)習(xí)從IT技術(shù)逐步擴(kuò)展為一種交叉學(xué)科,在很多非IT領(lǐng)域也得到廣泛應(yīng)用。雖然相關(guān)算法在理論上需要較多的知識(shí)背景,但不要覺(jué)得它是多么高大上,比如研究行業(yè)常用到的決策樹(shù)、分類(有監(jiān)督學(xué)習(xí))和聚類(無(wú)監(jiān)督學(xué)習(xí)),實(shí)際都是機(jī)器學(xué)習(xí)的算法子集(其他常用的還有Bayes網(wǎng)絡(luò)、支持向量機(jī)和神經(jīng)元網(wǎng)絡(luò)等)。基于訓(xùn)練-建模-分類-優(yōu)化的迭代生成模式,使得機(jī)器學(xué)習(xí)在實(shí)際的分析性能和模型適用性方面,具有較大的優(yōu)勢(shì)。近兩年來(lái),基于多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning)理論在一些領(lǐng)域(自然語(yǔ)言、音視頻識(shí)別)具有突出的表現(xiàn),有望進(jìn)一步推動(dòng)機(jī)器學(xué)習(xí)的深入分析能力。

大數(shù)據(jù)領(lǐng)域,機(jī)器學(xué)習(xí)由于其在數(shù)據(jù)分析方面的先天優(yōu)勢(shì)能力,當(dāng)仁不讓的成為相關(guān)數(shù)據(jù)分析的核心技術(shù)。該方面的技術(shù)水平成為當(dāng)前衡量大數(shù)據(jù)分析能力的重要標(biāo)志。

2.3自然語(yǔ)言處理

大數(shù)據(jù)的多種數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)日趨龐雜和重要,其代表就是自然語(yǔ)言形式的語(yǔ)義內(nèi)容(搜索、新聞、社交媒體、電商評(píng)論等),而對(duì)其內(nèi)容的分析(如文本挖掘)離不開(kāi)自然語(yǔ)言處理技術(shù)。相關(guān)學(xué)術(shù)學(xué)科叫計(jì)算語(yǔ)言學(xué),作為計(jì)算機(jī)與語(yǔ)言的交叉學(xué)科,它以統(tǒng)計(jì)性、量化的方式來(lái)研究語(yǔ)言的規(guī)律。自然語(yǔ)言處理(Natural Language Process)涉及分詞、詞法、句法、語(yǔ)法、語(yǔ)義分析等多個(gè)層面,相當(dāng)復(fù)雜。而當(dāng)前商業(yè)性應(yīng)用,中文的主要集中在分詞、詞頻統(tǒng)計(jì)、關(guān)鍵特征抽取等淺層分析、情感傾向與主題模型(如LDA/PLSA等)和機(jī)器翻譯等方面。傳統(tǒng)研究業(yè)務(wù)中,也可用于開(kāi)放題/討論文本的自動(dòng)分析編碼。實(shí)際上,NLP的應(yīng)用領(lǐng)域應(yīng)該可以更大。舉一個(gè)有趣的例子,曹雪芹的《紅樓夢(mèng)》最后40章常被認(rèn)為是高鶚續(xù)作,但相關(guān)觀點(diǎn)的紅學(xué)家/語(yǔ)言學(xué)家并不能有效證明。借助計(jì)算語(yǔ)言學(xué),可對(duì)前80章和后40章的內(nèi)容進(jìn)行分析(包括用詞習(xí)慣、句法、文法等),可得到兩部分文章在行文風(fēng)格的多種量化指標(biāo),通過(guò)其差異就能判斷是否為不同的作者。計(jì)算語(yǔ)言學(xué)的理論基礎(chǔ)感覺(jué)近年來(lái)進(jìn)展不大,但深度學(xué)習(xí)近年來(lái)的表現(xiàn),有望幫助其在應(yīng)用性能方面有所提升。

2.4數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(Data Mining)在非大數(shù)據(jù)時(shí)代(海量數(shù)據(jù))就已經(jīng)廣泛使用(如CRM的用戶分析、產(chǎn)品關(guān)聯(lián)分析)。嚴(yán)格的說(shuō),其并不算是一種技術(shù),而是一種分析模式:綜合利用機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)和自然語(yǔ)言處理等多種技術(shù)方法,從數(shù)據(jù)中獲得相關(guān)的結(jié)果。在大數(shù)據(jù)時(shí)代,雖然數(shù)據(jù)的挖掘往往意味著數(shù)據(jù)金礦,但筆者認(rèn)為,挖掘技術(shù)必須與業(yè)務(wù)分析思路緊密結(jié)合,才會(huì)發(fā)揮出較大的價(jià)值。

2.5其他關(guān)鍵技術(shù)

在大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)社交媒體數(shù)據(jù)(尤其是用戶間的關(guān)系數(shù)據(jù))體現(xiàn)出了前所未有的價(jià)值。對(duì)上億用戶錯(cuò)綜復(fù)雜的關(guān)系網(wǎng)絡(luò)的快速分析,正是圖計(jì)算理論擅長(zhǎng)之處。圖計(jì)算作為新興的技術(shù)理論,主要聚焦節(jié)點(diǎn)之間關(guān)系的深度研究,其不僅在社交用戶分析上價(jià)值很大,在惡意欺詐檢測(cè)、生命科學(xué)等領(lǐng)域都有著巨大應(yīng)用前景。

而隨著音視頻數(shù)據(jù)的日益普及和傳播,針對(duì)此類大數(shù)據(jù)的處理(比如語(yǔ)音識(shí)別/圖像、視頻識(shí)別分析)技術(shù),也在大數(shù)據(jù)業(yè)務(wù)中逐步開(kāi)始使用。這些其實(shí)都是模式識(shí)別(Pattern Recognition)技術(shù)的應(yīng)用,核心問(wèn)題是特征(維度較高)的抽取和相似/匹配性比較。

3 主要技術(shù)資源與工具

在前面了解的技術(shù)理論之上,我們進(jìn)一步介紹大數(shù)據(jù)業(yè)務(wù)中可使用的技術(shù)資源和工具。相關(guān)說(shuō)明按業(yè)務(wù)流程順序展開(kāi),以主流、免費(fèi)的開(kāi)源資源為主。

3.1分布式計(jì)算框架

分布式計(jì)算框架用于完成分布式計(jì)算所需的底層任務(wù)管理和調(diào)度等核心工作,是大數(shù)據(jù)計(jì)算體系結(jié)構(gòu)的基石。當(dāng)前主流的開(kāi)源框架包括:

⊙Hadoop和Map/Reduce,借鑒Google的分布式系統(tǒng)發(fā)展而來(lái)。2009年筆者使用其早期版本時(shí)問(wèn)題頗多,但幾年后其已經(jīng)成為事實(shí)的行業(yè)標(biāo)準(zhǔn),并衍生出龐大的上層生態(tài)圈。其Map/Reduce計(jì)算范式解決分布式調(diào)度和結(jié)果歸并的問(wèn)題,大大降低了分布式程序開(kāi)發(fā)的難度。Hadoop擅長(zhǎng)的離線批量式處理適合研究公司的基礎(chǔ)數(shù)據(jù)計(jì)算(如匯總和統(tǒng)計(jì)),缺點(diǎn)是響應(yīng)遲滯、速度慢、維護(hù)和編程也相對(duì)麻煩。

⊙Spark新的分布式開(kāi)源框架,在迭代計(jì)算(如機(jī)器學(xué)習(xí))場(chǎng)景下,比Hadoop快幾十倍,同時(shí)提供了MLLib機(jī)器學(xué)習(xí)、Spark Sql查詢和GraphX圖計(jì)算眾多大數(shù)據(jù)工具包,也更易于維護(hù)和編程。眾多優(yōu)點(diǎn)使得其近一年發(fā)展極快,受到了廣泛的支持,預(yù)計(jì)將代替Hadoop成為新的數(shù)據(jù)計(jì)算標(biāo)準(zhǔn)。Spark 比Hadoop更加適合研究公司,在HCR(慧辰資訊)大數(shù)據(jù)平臺(tái)中,其作為大數(shù)據(jù)分析計(jì)算的核心,完成機(jī)器學(xué)習(xí)的相關(guān)處理。

⊙Strom,Hadoop,Spark都適合非實(shí)時(shí)處理,對(duì)于需要實(shí)時(shí)響應(yīng)的業(yè)務(wù)(比如DSP/RTB廣告實(shí)時(shí)競(jìng)價(jià),電商平臺(tái)實(shí)時(shí)購(gòu)物推薦)場(chǎng)景,則是Storm流式計(jì)算框架的天下,高速和高容錯(cuò)使得它已經(jīng)在此類業(yè)務(wù)環(huán)境中成為基本配置,如果研究公司存在類似實(shí)時(shí)處理特性的業(yè)務(wù)也可以考慮使用。

3.2數(shù)據(jù)管理

數(shù)據(jù)管理主要包括存儲(chǔ)和快速檢索。大數(shù)據(jù)環(huán)境中,研究業(yè)務(wù)相關(guān)的數(shù)據(jù)更多以數(shù)據(jù)庫(kù)而不是文件方式存儲(chǔ),所以這里主要介紹幾類數(shù)據(jù)庫(kù)的選擇:

⊙關(guān)系數(shù)據(jù)庫(kù)(Mysql/Oracle)。傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)雖然對(duì)大數(shù)據(jù)的支持能力有些不足,但就研究公司而言,億級(jí)以下的結(jié)構(gòu)化數(shù)據(jù)分析仍然是未來(lái)分析的重要場(chǎng)景,此時(shí)使用關(guān)系數(shù)據(jù)庫(kù)(無(wú)論免費(fèi)的Mysql,還是商業(yè)的Oracle)完全沒(méi)有問(wèn)題。其便于管理,工具成熟,適合研究中各種多維度的統(tǒng)計(jì)分析。同時(shí),也適合在大數(shù)據(jù)業(yè)務(wù)中作為數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)大數(shù)據(jù)的中間分析結(jié)果,便于后續(xù)更上層分析。

⊙鍵值數(shù)據(jù)庫(kù)(HBase/Cassandra)。真正意義上的大數(shù)據(jù)數(shù)據(jù)庫(kù),基于分布式計(jì)算體系和鍵值模式可輕松支持百億規(guī)模以上的記錄管理。但其最適合針對(duì)特定單一條件(如某用戶的相關(guān)信息)的快速查詢,不支持多級(jí)索引,所以研究中常用的多維分析(多字段條件)會(huì)很麻煩(方便性遠(yuǎn)不如關(guān)系數(shù)據(jù)庫(kù)),對(duì)單用戶的檢索分析則很快。在HCR(慧辰資訊)平臺(tái)中,HBase主要作為基礎(chǔ)大數(shù)據(jù)的存儲(chǔ)和單用戶行為標(biāo)簽的離線批量計(jì)算。

⊙文檔數(shù)據(jù)庫(kù)(MongoDB)。另一基于文檔的

大數(shù)據(jù)數(shù)據(jù)庫(kù),使用上最大特點(diǎn)是可隨意增刪記錄的字段,尤其適合某些研究分析中隨時(shí)自定義分析屬性維度。如果有涉及地理空間的分析,其也比較方便。就實(shí)際應(yīng)用而言,建議在小于10億級(jí)別的動(dòng)態(tài)數(shù)據(jù)比較合適(否則對(duì)內(nèi)存和硬盤(pán)空間需求太大)。

3.3處理與計(jì)算

市場(chǎng)研究行業(yè)大數(shù)據(jù)業(yè)務(wù)中,分析相關(guān)的數(shù)據(jù)計(jì)算技術(shù)是最重要的技術(shù)內(nèi)容,主要集中在以下幾個(gè)領(lǐng)域:

⊙并行機(jī)器學(xué)習(xí)(Mahout /Spark MLLib)。機(jī)器學(xué)習(xí)本已是數(shù)據(jù)計(jì)算利器,而基于分布式的并行機(jī)器學(xué)習(xí)框架則將其能力又大大增強(qiáng)。Mahout中實(shí)現(xiàn)了大量的機(jī)器學(xué)習(xí)算法(包括推薦算法)的并行版本(甚至有并行SVD這種高大上),是當(dāng)前大數(shù)據(jù)機(jī)器學(xué)習(xí)的主要工具包。MLib基于Spark框架,在性能上有優(yōu)勢(shì),也開(kāi)始受到廣泛的關(guān)注。

⊙自然語(yǔ)言處理。在中文自然語(yǔ)言處理領(lǐng)域,當(dāng)前可用的免費(fèi)開(kāi)放資源并不多(分詞資源較多),一些開(kāi)放資源主要來(lái)自學(xué)術(shù)院校,但在效果上面向工業(yè)應(yīng)用尚有不足。當(dāng)前常見(jiàn)方式是借助專業(yè)技術(shù)企業(yè)/院校合作獲得深入分析能力。

⊙圖計(jì)算(GraphLab/Spark GraphX)。如果有圖計(jì)算相關(guān)的需求可考慮采用這些開(kāi)源資源。前者是當(dāng)前最主流的圖計(jì)算框架,實(shí)現(xiàn)了圖數(shù)據(jù)的存儲(chǔ)和基礎(chǔ)計(jì)算邏輯;后者GraphX是Spark體系下的圖計(jì)算新貴。

⊙R語(yǔ)言。R語(yǔ)言作為統(tǒng)計(jì)性功能強(qiáng)大的計(jì)算語(yǔ)言,在傳統(tǒng)研究行業(yè)具有較大應(yīng)用前景,同時(shí)其在可視化和開(kāi)源支持方面也有一定優(yōu)勢(shì),如今R對(duì)Hadoop的支持也比較完善。對(duì)于熟悉R語(yǔ)言的研究公司,可從R語(yǔ)言更快切入大數(shù)據(jù)的計(jì)算領(lǐng)域。

3.4研究分析

在分析階段,考慮研究分析人員將成為重要的角色,此時(shí)資源聚焦在研究分析人員可以使用的各種工具上。以下是相關(guān)的一些內(nèi)容:

⊙Hive/Impala/Spark Sql。分布式的大數(shù)據(jù)(數(shù)據(jù)倉(cāng)庫(kù))的分析工具,支持以傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)Sql語(yǔ)句進(jìn)行大數(shù)據(jù)內(nèi)容的檢索,大大降低了研究分析人員的大數(shù)據(jù)分析門(mén)檻,是適合數(shù)據(jù)分析/研究人員的最佳工具。Hive最早由Facebook開(kāi)源,應(yīng)用最廣,但性能最差。Impala在性能與穩(wěn)定性的平衡較好,但限制較多。Spark Sql作為最新的工具,性能最強(qiáng),但穩(wěn)定性尚待完善。

⊙TableAU。企業(yè)級(jí)大數(shù)據(jù)分析工具,多應(yīng)用于世界500強(qiáng)企業(yè)內(nèi)部業(yè)務(wù)分析,不過(guò)其是商業(yè)付費(fèi)軟件。其優(yōu)點(diǎn)是大數(shù)據(jù)下的可視化和方便性,研究人員使用比較容易。就實(shí)際應(yīng)用體會(huì)上,感覺(jué)更適合企業(yè)級(jí)內(nèi)部數(shù)據(jù)、億級(jí)以下的結(jié)構(gòu)化大數(shù)據(jù)的場(chǎng)景。分析維度主要是統(tǒng)計(jì)性維度,可分析深度相對(duì)不足。

⊙SPSS Modeler。IBM的商用數(shù)據(jù)挖掘工具,對(duì)大數(shù)據(jù)支持能力不如TableAU(與其計(jì)算復(fù)雜度相關(guān)),其特點(diǎn)是提供專業(yè)的數(shù)據(jù)挖掘算法,研究中適合做深度/非統(tǒng)計(jì)性研究。

⊙Gephi。可視化分析 如果要做一些傳播關(guān)系的圖形化分析,那不妨考慮Gephi,其支持多種可視化分析圖生成,不過(guò)在較大數(shù)據(jù)量(比如2萬(wàn)節(jié)點(diǎn)以上)時(shí)性能下降較快,所以最好對(duì)數(shù)據(jù)預(yù)先做相關(guān)平滑和剪枝。

⊙可視化開(kāi)發(fā)框架。數(shù)據(jù)可視化是大數(shù)據(jù)的一個(gè)特色,但這里放到研究分析來(lái)說(shuō)明,是因?yàn)榭梢暬夹g(shù)的價(jià)值是幫助更有效的分析,不是花哨的展示。當(dāng)前國(guó)內(nèi)百度EChart(2.0以上版本)的易用性和功能相對(duì)不錯(cuò)(就是感覺(jué)樣式配色不夠?qū)I(yè));國(guó)外基于D3框架的應(yīng)用更能體現(xiàn)可視化的價(jià)值(效果強(qiáng)大,但開(kāi)發(fā)比較麻煩);桌面辦公軟件中,微軟GeoFlow支持Excel的Bing地圖可視化;其他還有很多各有特色的可視化框架,不再一一介紹了。

HCR(慧辰資訊)認(rèn)為,經(jīng)過(guò)以上內(nèi)容,想必研究同行們對(duì)大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)有了基本的認(rèn)識(shí)。如果要想在大數(shù)據(jù)業(yè)務(wù)服務(wù)中發(fā)揮自身價(jià)值,研究人員除了轉(zhuǎn)變方法論思路外,還要注意提升自身的技術(shù)能力。

傳統(tǒng)研究業(yè)務(wù)中,研究人員太依賴DP和其他IT人員進(jìn)行數(shù)據(jù)計(jì)算處理,自身沒(méi)有任何技術(shù)能力。大數(shù)據(jù)業(yè)態(tài)下,技術(shù)性分析與傳統(tǒng)研究將緊密結(jié)合,技術(shù)手段的使用程度深入影響數(shù)據(jù)洞察的深度。研究人員如果熟悉相關(guān)技術(shù)手段(至少分析工具的使用),將會(huì)極大擴(kuò)展自身的分析能力。既熟悉大數(shù)據(jù)處理技術(shù),又懂得研究業(yè)務(wù)思路的復(fù)合人才—數(shù)據(jù)科學(xué)家,將是未來(lái)數(shù)據(jù)分析業(yè)務(wù)的王者。

Introduction to Big Data Technologies and Resources Related to Market Research

Ma Liang
(HCR Co.,Ltd,Beijing,100016)

It is obvious to find that IT technology is the crucial competition of the Big data in the early two articles that I put forward the ideas on the method and business mode about the Big Data. Based on my own working experience,I will make an introduction about the IT technology and available resources of Big Data in this article. It aims at laymen and omits the details.

Big Data; IT technology; Available Resources

10.3969/J.ISSN.1672-7274.2015.04.014

TP3

B

1672-7274(2015)04-0054-04

猜你喜歡
分布式計(jì)算機(jī)器可視化
基于CiteSpace的足三里穴研究可視化分析
機(jī)器狗
機(jī)器狗
思維可視化
基于CGAL和OpenGL的海底地形三維可視化
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
未來(lái)機(jī)器城
基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)
云計(jì)算中MapReduce分布式并行處理框架的研究與搭建
面向異構(gòu)分布式計(jì)算環(huán)境的并行任務(wù)調(diào)度優(yōu)化方法