国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

挖掘大數(shù)據(jù)的發(fā)展?jié)摿?/h1>
2015-12-04 09:24:10胡春明陶海亮羅洪濱袁揚(yáng)揚(yáng)
互聯(lián)網(wǎng)天地 2015年4期
關(guān)鍵詞:結(jié)構(gòu)化百度預(yù)測(cè)

胡春明,陶海亮,羅洪濱,袁揚(yáng)揚(yáng)

(1.北京航空航天大學(xué)計(jì)算機(jī)研究院 北京100191;

2.百度在線網(wǎng)絡(luò)技術(shù)有限公司 北京100085;

3.億瑪科技有限公司 北京100024;

4.艾司隆軟件技術(shù)咨詢(上海)有限公司 上海200052)

大數(shù)據(jù)的理論及特征

胡春明:大數(shù)據(jù)在今天已經(jīng)不是一個(gè)新鮮的詞匯。不管以前是不是叫大數(shù)據(jù),人們都是在用數(shù)據(jù)看世界。數(shù)據(jù)分析方法往往采用了統(tǒng)計(jì)學(xué)上的采樣法。只要采樣方法在一些情況下足夠好,樣本數(shù)據(jù)就能足夠反應(yīng)真實(shí)世界的特點(diǎn)。從得到的樣本數(shù)據(jù)里面獲得知識(shí),采用的辦法是基于統(tǒng)計(jì)的分布,或是假設(shè)檢驗(yàn)等方法得到一些支持,通過支持獲得預(yù)測(cè)。

大數(shù)據(jù)依賴的基礎(chǔ)是大量被記錄下來的數(shù)據(jù)。如買東西的記錄、訂房間的數(shù)據(jù)、攝像頭等傳感設(shè)備采集到的信息,甚至人本身就是一種傳感設(shè)備。人們把看到的信息放在微博、微信上,讓這些信息被刻畫和傳播,如果這些數(shù)據(jù)不是采樣,而是全樣記錄,數(shù)據(jù)足夠大,就得到了多源的大數(shù)據(jù)集。真實(shí)世界的“總體”我們無從制造,但在大數(shù)據(jù)時(shí)代,我們認(rèn)為多源的大數(shù)據(jù)集合就代表了這個(gè)總體,這是大數(shù)據(jù)的“大”和原來的“小”之間是最根本的方面。處理問題還是要回到現(xiàn)實(shí)可操作的層面,所以同樣對(duì)多元的大數(shù)據(jù)做預(yù)處理和重新采樣,得到特定問題相關(guān)的采樣。通過以前數(shù)據(jù)挖掘的技術(shù)和學(xué)習(xí)方法,可以在相關(guān)采樣數(shù)據(jù)集里發(fā)揮作用,得到基于模型的預(yù)測(cè)。

這個(gè)過程中可能面臨一系列問題。

第一個(gè)問題,如何找到多源大數(shù)據(jù)集來代表總體。在大數(shù)據(jù)中,我們覺得多源大數(shù)據(jù)集就代表了真實(shí)的世界,但是在實(shí)際采樣的過程中,日志和數(shù)據(jù)可能有偏差。例如,許多人經(jīng)常用對(duì)網(wǎng)民的調(diào)查來代表社會(huì)大眾的態(tài)度,但是網(wǎng)民不一定能代表大眾群體,還有一群人不上網(wǎng)。從這個(gè)角度來看,數(shù)據(jù)是不是真正接近全樣本、數(shù)據(jù)本身會(huì)不會(huì)在采樣中產(chǎn)生結(jié)構(gòu)性的偏差,都是一個(gè)不容忽視的問題。

第二個(gè)問題,大數(shù)據(jù)大到我們處理不了,計(jì)算過程中就需要“把大數(shù)據(jù)變小”,這需要針對(duì)具體問題,在算法設(shè)計(jì)上更仔細(xì)地考慮。降維可能面臨丟失重要維度的風(fēng)險(xiǎn),如何降維是我們要考慮的問題。

第三個(gè)問題,如何從數(shù)據(jù)中尋找知識(shí)和進(jìn)行預(yù)測(cè)。預(yù)測(cè)的方法比之前的數(shù)據(jù)挖掘更進(jìn)一步,盡管對(duì)問題做了重采樣,得到了一個(gè)相對(duì)小的數(shù)據(jù),但是這個(gè)小數(shù)據(jù)相對(duì)于以前做分析的數(shù)據(jù)還是很大,因此,需要在新的統(tǒng)計(jì)理論、數(shù)學(xué)工具、計(jì)算理論、設(shè)計(jì)方法和大數(shù)據(jù)分布式計(jì)算機(jī)基礎(chǔ)設(shè)施方面做一些工作,這就是今天為什么大數(shù)據(jù)得到學(xué)術(shù)界和產(chǎn)業(yè)界共同關(guān)注的原因。

目前普遍認(rèn)為,大數(shù)據(jù)具有4“V”的特點(diǎn),即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價(jià)值)。通過進(jìn)一步研究,我們認(rèn)為,從對(duì)大數(shù)據(jù)進(jìn)行計(jì)算的角度來看,大數(shù)據(jù)計(jì)算還存在三個(gè)特征,我們稱為大數(shù)據(jù)計(jì)算的3“I”特征。

第一個(gè)“I”是Inexact(非精確),包括兩個(gè)層面:第一個(gè)層面是今天做的很多計(jì)算本身并不需要那么精確,往往需要知道一個(gè)大的方向和態(tài)勢(shì);另一個(gè)層面是我們面臨的環(huán)境沒有辦法做得那么精確,數(shù)據(jù)在不斷變化,新的數(shù)據(jù)不斷產(chǎn)生,沒有辦法得到穩(wěn)定的視圖。在滿足應(yīng)用需求的前提下,放松結(jié)果的精度,可能換取更快的處理速度、更小的計(jì)算開銷。但在計(jì)算里堅(jiān)持非精確的思路并不意味著隨便去做,仍然需要對(duì)質(zhì)量做最基本的保證。

第二個(gè)“I”是Incremental(增量性)。這個(gè)特征和大數(shù)據(jù)里的動(dòng)態(tài)持續(xù)變化緊密相關(guān)。因?yàn)閿?shù)據(jù)是持續(xù)變化的,可能新來的數(shù)據(jù)占到歷史上所有數(shù)據(jù)積累的比例很小。如果能夠把計(jì)算變得增量化,只針對(duì)新到來的、比較小的數(shù)據(jù)做計(jì)算,然后以可接受的計(jì)算代價(jià),把計(jì)算的結(jié)果融合到已有的計(jì)算結(jié)果里,這在一定程度上能實(shí)現(xiàn)“將大數(shù)據(jù)變小”,增強(qiáng)我們進(jìn)行大數(shù)據(jù)計(jì)算的能力。但增量不僅要求計(jì)算框架有特殊的支持,可能對(duì)算法本身也有一些要求,有一些問題是適合增量處理的,而有一些算法并不一定適合。從這個(gè)角度看,可能要運(yùn)用一些新的思想和方法來設(shè)計(jì)支持增量的算法,同時(shí),在大規(guī)模的分布式計(jì)算系統(tǒng)中支持增量計(jì)算的處理。

第三個(gè)“I”是Inductive(歸納性)。大數(shù)據(jù)是多源融合的數(shù)據(jù),這些數(shù)據(jù)代表了現(xiàn)實(shí)世界,代表了統(tǒng)計(jì)學(xué)上所謂的“總體”。從這個(gè)角度看,如果能夠把來自不同源的數(shù)據(jù)相互參照,不但可以彌補(bǔ)在所關(guān)心的維度上數(shù)據(jù)稀疏的問題,同時(shí)還可以通過多源數(shù)據(jù)的參照,在一定程度上控制因?yàn)榉蔷_計(jì)算帶來的誤差,幫助控制解的質(zhì)量。

這就是從大數(shù)據(jù)計(jì)算角度總結(jié)的一些內(nèi)容。非精確性、增量性和多源數(shù)據(jù)之間的歸納性成為大數(shù)據(jù)設(shè)計(jì)系統(tǒng)和算法設(shè)計(jì)的重要參考。大數(shù)據(jù)本身是一個(gè)交叉學(xué)科,是應(yīng)用驅(qū)動(dòng)的垂直整合,也是理論算法、分布式系統(tǒng)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方法等諸多方面的整合。從數(shù)據(jù)開放和標(biāo)準(zhǔn)化角度看,數(shù)據(jù)開放是構(gòu)成大數(shù)據(jù)整個(gè)產(chǎn)業(yè)生態(tài)鏈的重要起點(diǎn),開放數(shù)據(jù)有一些好的平臺(tái)。開放數(shù)據(jù)、數(shù)據(jù)格式、數(shù)據(jù)語義的標(biāo)準(zhǔn)化將有助于我們建造一個(gè)更加豐富的大數(shù)據(jù)應(yīng)用生態(tài)環(huán)境。

大數(shù)據(jù)的新應(yīng)用

陶海亮:百度是中國重要的互聯(lián)網(wǎng)公司,其本身是一個(gè)大數(shù)據(jù)公司,因?yàn)樽鏊阉饕鏄I(yè)務(wù),因此必須要掌握大數(shù)據(jù)技術(shù)。通過與很多行業(yè)、企業(yè)和政府的接觸,我們發(fā)現(xiàn)大數(shù)據(jù)對(duì)一些行業(yè)的應(yīng)用提出了很多挑戰(zhàn),主要有三個(gè)方面:一是最底層數(shù)據(jù)存儲(chǔ)和計(jì)算的規(guī)模面臨挑戰(zhàn);二是在大部分的傳統(tǒng)企業(yè)中,在數(shù)據(jù)的管理和挖掘技術(shù)方面比較缺乏;三是在大部分的傳統(tǒng)企業(yè)中,機(jī)器學(xué)習(xí)和人工智能技術(shù)并不被IT 人員所掌握。

百度在4月發(fā)布了百度大數(shù)據(jù)引擎戰(zhàn)略。這個(gè)戰(zhàn)略是把百度多年積累的、在大數(shù)據(jù)應(yīng)用方面的技術(shù)能力開放出來,讓各行各業(yè)都可以使用。大數(shù)據(jù)引擎包括了三個(gè)部分,最底層是開放云,可以理解為云計(jì)算,但是百度的云規(guī)模更大一些,因?yàn)橛幸恍┆?dú)有的技術(shù),包括低能耗的數(shù)據(jù)中心、分布式架構(gòu)和智能化運(yùn)維。開放云上層有數(shù)據(jù)工廠。數(shù)據(jù)工廠是新一代數(shù)據(jù)庫管理技術(shù)和挖掘方法。數(shù)據(jù)工廠上層有一個(gè)最核心的百度技術(shù),叫作“百度大腦”。百度大腦已經(jīng)達(dá)到了非常先進(jìn)的程度,把深度學(xué)習(xí)的技術(shù)、超大規(guī)模學(xué)習(xí)能力和平臺(tái)都開放了出來。

百度管理的數(shù)據(jù)超過了EB 級(jí)別。每天新增的數(shù)據(jù)是PB 級(jí)別,整體服務(wù)器超過了幾十萬臺(tái),單集群達(dá)到上萬臺(tái)。數(shù)據(jù)工廠提供了超大規(guī)模的數(shù)據(jù)查詢能力,單次查詢可以快速掃描上百個(gè)TB數(shù)據(jù)。數(shù)據(jù)庫在不同的應(yīng)用場(chǎng)景下對(duì)性能的要求不一樣。在大查詢、低并發(fā)的情況下強(qiáng)調(diào)數(shù)據(jù)的掃描速度,在高并發(fā)、小查詢的情況下強(qiáng)調(diào)并行服務(wù)能力,可以達(dá)到十萬的QPS 指標(biāo)。

百度利用大數(shù)據(jù)的技術(shù)和能力開發(fā)了新的應(yīng)用產(chǎn)品。在搜索和廣告的業(yè)務(wù)外,還做了新的嘗試。主要有以下幾個(gè)產(chǎn)品。

(1)旅游預(yù)測(cè)

旅游預(yù)測(cè)有兩個(gè)部分:一是包括景點(diǎn)的預(yù)測(cè),這是與旅游局和各地的旅游管理機(jī)構(gòu)合作,基于他們的數(shù)據(jù)和百度的數(shù)據(jù),可以對(duì)未來一周每一個(gè)旅游景點(diǎn)的人流情況進(jìn)行預(yù)測(cè);二是還可以基于旅游數(shù)據(jù)對(duì)城市旅游的出發(fā)地和目的地進(jìn)行預(yù)測(cè),這個(gè)預(yù)測(cè)結(jié)果對(duì)于旅行社和管理部門都很有價(jià)值。

(2)疾病預(yù)測(cè)

通過中國疾病控制中心提供的數(shù)據(jù),將這些數(shù)據(jù)與百度的數(shù)據(jù)相結(jié)合,可以對(duì)全國330個(gè)地級(jí)市、2 800個(gè)縣區(qū)的多種疾病發(fā)病態(tài)勢(shì)進(jìn)行預(yù)測(cè)。甚至在北、上、廣可以做到商圈級(jí)別,如在王府井某一種級(jí)別發(fā)病的態(tài)勢(shì)可以給出預(yù)測(cè)。

(3)指標(biāo)預(yù)測(cè)

百度每年有50 萬的活躍企業(yè)客戶,遍布了27個(gè)行業(yè)和所有省份。百度每個(gè)季度、每個(gè)月都會(huì)發(fā)布一些相關(guān)的新的統(tǒng)計(jì)數(shù)據(jù)。百度與中科院進(jìn)行合作,通過中科院和百度數(shù)據(jù)的統(tǒng)計(jì)分析,可以預(yù)測(cè)中國的經(jīng)濟(jì)走勢(shì),與統(tǒng)計(jì)局相關(guān)數(shù)據(jù)的指數(shù)相比較,得出宏觀數(shù)據(jù)的指標(biāo)誤差很低,且時(shí)間比統(tǒng)計(jì)局提前了3個(gè)月。這對(duì)于很多做經(jīng)濟(jì)研究的學(xué)者來說會(huì)非常有幫助。另外,目前中國統(tǒng)計(jì)中小工業(yè)企業(yè)的數(shù)據(jù)指標(biāo)較少。百度基于數(shù)據(jù)推出了中小企業(yè)的指標(biāo),填補(bǔ)了國內(nèi)中小企業(yè)景氣分析的空白,并做到了可以區(qū)分行業(yè)和不同的地域。

(4)百度司南

百度司南是基于大數(shù)據(jù)的商業(yè)決策平臺(tái),能夠?qū)κ袌?chǎng)格局進(jìn)行定量研究,對(duì)消費(fèi)者動(dòng)態(tài)進(jìn)行洞察,還可以直觀地給出媒體投放的策略,為廣告主/代理商的廣告投放決策提供了非常有價(jià)值的量化數(shù)據(jù)。

精準(zhǔn)的大數(shù)據(jù)營銷平臺(tái)

羅洪濱:互聯(lián)網(wǎng)廣告的投放過程中需要不斷地搜集產(chǎn)生的數(shù)據(jù),同時(shí),也要積累數(shù)據(jù)的分析。做產(chǎn)品的過程中,經(jīng)常要做市場(chǎng)調(diào)研,要了解趨勢(shì)、競(jìng)爭(zhēng)對(duì)手以及規(guī)模。市場(chǎng)調(diào)研是為了明確營銷者的位置以及未來走向。

大數(shù)據(jù)營銷也存在一些問題。在做營銷推廣的過程中,有很多產(chǎn)品可以選擇,包括經(jīng)常用的SEM、網(wǎng)盟、P2P 社區(qū)廣告和視頻廣告等。如何選擇這些投放產(chǎn)品,哪些用戶是適合發(fā)展的用戶,這是存在的一個(gè)問題。隨著目前互聯(lián)網(wǎng)終端的增多,如何在多個(gè)終端上有效地展現(xiàn)投放的廣告,同時(shí)能夠在不同的地方對(duì)這些用戶進(jìn)行統(tǒng)一識(shí)別,能夠把零散的行為匯集起來,這也是存在的一個(gè)問題。

對(duì)于以上的問題,在應(yīng)用中可以使用大數(shù)據(jù)營銷平臺(tái)。大數(shù)據(jù)通過全面、大量的實(shí)時(shí)數(shù)據(jù)支撐,使得做市場(chǎng)分析時(shí)有更及時(shí)、更準(zhǔn)確的數(shù)據(jù)依據(jù);通過各種渠道的分析,每一次的廣告展現(xiàn)得到最終效果時(shí),有全路徑的分析;每個(gè)渠道能夠進(jìn)行各種指標(biāo)的回顧分析。

首先,大數(shù)據(jù)營銷平臺(tái)采集用戶的數(shù)據(jù)信息,對(duì)用戶的所有行為特征基本都能夠做到實(shí)時(shí)跟蹤。另外,隨著移動(dòng)產(chǎn)品的增加,目前能夠真正實(shí)現(xiàn)跨平臺(tái)、跨終端對(duì)用戶和數(shù)據(jù)進(jìn)行采集。不但可以在搜索社區(qū)展示類廣告進(jìn)行投放,同時(shí)也能夠?qū)崿F(xiàn)從移動(dòng)終端到PC 之間的直接投放。

大數(shù)據(jù)營銷平臺(tái)可以幫助營銷者做決策,通過數(shù)據(jù)支持進(jìn)行用戶行為分析。廣告主可以通過數(shù)據(jù)分析結(jié)果得知其網(wǎng)站的用戶經(jīng)常做什么,對(duì)什么感興趣,哪一種產(chǎn)品最熱銷,能夠了解這些網(wǎng)站用戶的行為特點(diǎn)以及興趣特點(diǎn)。

大數(shù)據(jù)營銷平臺(tái)每天能夠監(jiān)控到數(shù)十億媒體廣告的曝光,從中可以掌握每個(gè)媒體目前的流量和人群覆蓋、價(jià)格趨勢(shì)變化以及每一個(gè)定價(jià)的參與者和廣告投放。通過和搜索引擎公司的合作,能夠知道用戶最近在搜索什么、關(guān)注什么,從而掌握用戶的即時(shí)興趣。同時(shí),也能得知用戶在站內(nèi)的搜索內(nèi)容,因此能夠給用戶推送其最感興趣的內(nèi)容。

目前,大數(shù)據(jù)的精準(zhǔn)廣告投放一般分為三類,包括搜索廣告、社交廣告、精準(zhǔn)展示廣告。精準(zhǔn)展示廣告主要是在行業(yè)內(nèi),數(shù)據(jù)使用性比較強(qiáng),轉(zhuǎn)化率相對(duì)比較高,規(guī)模非常大。搜索廣告主要是根據(jù)用戶的搜索意見進(jìn)行定位,規(guī)模也比較大,轉(zhuǎn)化率和點(diǎn)擊率相對(duì)來說比較好,用戶的注冊(cè)信息比較明確。社交廣告更加豐富一些,能夠?qū)δ壳暗淖兓厔?shì)做更好的分析。隨著精準(zhǔn)技術(shù)得到大家的認(rèn)可,互聯(lián)網(wǎng)領(lǐng)域會(huì)有更多人使用精準(zhǔn)廣告技術(shù),會(huì)有更多的資源。這個(gè)發(fā)展是一個(gè)藍(lán)海,目前表面上只有110 億的投放,未來還會(huì)呈現(xiàn)至少翻倍的增長速度。另外,點(diǎn)擊率比傳統(tǒng)廣告高很多,效果轉(zhuǎn)化率也非常高。因?yàn)樽隽巳藶榈木珳?zhǔn),每天產(chǎn)生的效果數(shù)已經(jīng)超過了一般的社交和傳統(tǒng)廣告的展現(xiàn)效果。

目前,億瑪大數(shù)據(jù)營銷平臺(tái)覆蓋的人群超過6 億,有效的行為數(shù)據(jù)超過2 億,日增購物定單超過百萬,每天能夠監(jiān)控到的搜索行為超過50 萬。這些數(shù)據(jù)可以支持客戶的數(shù)據(jù)分析,并且能支持精準(zhǔn)人群的定位,同時(shí)能夠支持客戶和用戶對(duì)各種渠道的分析。另外,數(shù)據(jù)可以實(shí)現(xiàn)跨平臺(tái)、跨終端的投放??缙脚_(tái)能夠?qū)崿F(xiàn)目前所有的開放流量投放數(shù)據(jù),包括媒體流量、搜索平臺(tái)、社交平臺(tái)等。跨終端能夠做手機(jī)和相應(yīng)的平板電腦、PC 等各種設(shè)備的投放。目前,優(yōu)化的手段很簡(jiǎn)單,通過廣告的投放進(jìn)行優(yōu)化?;诓煌娜巳海谕斗胚^程中實(shí)時(shí)進(jìn)行數(shù)據(jù)分析,根據(jù)不同指標(biāo)的異常進(jìn)行調(diào)整,找到調(diào)整的最關(guān)鍵的內(nèi)容,從而實(shí)現(xiàn)廣告投放的優(yōu)化。

大數(shù)據(jù)的文本分析

袁揚(yáng)揚(yáng):營銷代理商給企業(yè)制定最相關(guān)的營銷推廣計(jì)劃,并且取得營銷目標(biāo)對(duì)象群體的回應(yīng)。營銷計(jì)劃的分析內(nèi)容一般包括以下幾個(gè)方面:首先是識(shí)別,即幫助客戶對(duì)消費(fèi)者進(jìn)行全面的了解,從而挖掘潛在的商業(yè)機(jī)會(huì);其次,對(duì)消費(fèi)群體進(jìn)行細(xì)分,將消費(fèi)者分成不同的群體,以便實(shí)施最有效、最相關(guān)的營銷溝通;再次是預(yù)測(cè),建立各種類型的預(yù)測(cè)模型,目的是為了預(yù)測(cè)最能夠呈現(xiàn)出企業(yè)所需要的消費(fèi)行為的人群;最后是測(cè)量,運(yùn)用高端的測(cè)量設(shè)計(jì)與分析,幫助企業(yè)評(píng)估基于數(shù)據(jù)分析基礎(chǔ)上的營銷策略與手段的績(jī)效。

大數(shù)據(jù)時(shí)代的確可以給商家?guī)頍o限商機(jī),然而現(xiàn)實(shí)是企業(yè)擁有大量的消費(fèi)者數(shù)據(jù),其中有用的信息卻很少。

在過去,因?yàn)樾畔⑶赖娜狈ΓM(fèi)者對(duì)企業(yè)或品牌信息的了解也相當(dāng)有限。因此,傳統(tǒng)的營銷方式可以奏效。今天,消費(fèi)者手里擁有大量信息,他們可以從各個(gè)渠道獲得企業(yè)或品牌的信息,也擁有了前所未有的自主權(quán)。因此,企業(yè)今天就不能再用傳統(tǒng)營銷方式與消費(fèi)者進(jìn)行溝通,消費(fèi)者更希望的是一對(duì)一的個(gè)性化溝通方式。企業(yè)已經(jīng)越來越意識(shí)到精準(zhǔn)數(shù)據(jù)分析的重要性,并正在嘗試用數(shù)據(jù)分析改變與消費(fèi)者互動(dòng)的方式,將這種互動(dòng)方式慢慢轉(zhuǎn)化成更加接近于一對(duì)一的方式。

消費(fèi)者數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是可以量化的數(shù)據(jù),包括問卷調(diào)查中的封閉式回答、交易記錄、網(wǎng)上評(píng)分等數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括電話、郵件、在線聊天以及問卷調(diào)查開放式的回答。這些信息可以由企業(yè)內(nèi)部直接從消費(fèi)者手里獲取。另外,還有博客和社交媒體等網(wǎng)民信息,這些信息是外部公開的。今天消費(fèi)者在與品牌的每一個(gè)接觸點(diǎn)都留下了足跡,企業(yè)也試圖從各個(gè)媒體渠道獲取消費(fèi)者信息。但是,獲取信息僅是第一步,如果要實(shí)現(xiàn)對(duì)消費(fèi)者全面的認(rèn)知,必須要有效整合這些多媒體數(shù)據(jù),深度挖掘,并且進(jìn)行精準(zhǔn)的分析和提煉,這樣企業(yè)才能夠全面地認(rèn)識(shí)消費(fèi)者,全面地了解消費(fèi)者的行為與愛好,從而進(jìn)行一對(duì)一的定制服務(wù)。

據(jù)IDT 一份報(bào)告的分析,80%以上的商業(yè)信息以文本形式存在,20%的信息是結(jié)構(gòu)化的數(shù)據(jù)。結(jié)構(gòu)化的數(shù)據(jù)在未來幾年將以22%的年復(fù)合增長速度增長,而非結(jié)構(gòu)化數(shù)據(jù)則以62%的速度增長。一般的企業(yè)對(duì)結(jié)構(gòu)化的數(shù)據(jù)可以進(jìn)行分析,而對(duì)于80%的非結(jié)構(gòu)化數(shù)據(jù),因?yàn)榉治鲭y度很大,并且需要花費(fèi)大量人工成本,如果沒有合適的工具,企業(yè)的做法就是擱置一邊,或者采用關(guān)鍵詞搜索的方法進(jìn)行分析,但搜索分析會(huì)有很大的局限性。

因此,我們建議客戶使用文本分析方法(Text Analytics)將數(shù)據(jù)結(jié)構(gòu)化。文本分析是用一系列語言學(xué)和統(tǒng)計(jì)學(xué)的方法將文本結(jié)構(gòu)化。首先提取觀點(diǎn)和模式,識(shí)別句子的意義和關(guān)系;其次辨析情緒是正面還是負(fù)面;然后將文本轉(zhuǎn)化為可量化的結(jié)構(gòu)化數(shù)據(jù);最后把非結(jié)構(gòu)化的數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù)整合起來,形成對(duì)消費(fèi)者的全面認(rèn)識(shí)。

文本分析的方法有兩個(gè)組成部分。第一個(gè)部分是利用自然語言處理來解析語意和語境,把一句話分成幾個(gè)組成部分,對(duì)每一個(gè)組成部分貼上標(biāo)簽;然后分析這幾個(gè)部分之間的關(guān)系;最后做語言學(xué)關(guān)系的分析。第二個(gè)部分是情緒分析,每一個(gè)詞被賦予了正到負(fù)的情緒分值,分別代表了正面、中立、負(fù)面態(tài)度;對(duì)于修正詞還要調(diào)整情緒分值,因?yàn)槊恳粋€(gè)行業(yè)有其特殊性,所以對(duì)每個(gè)客戶需要調(diào)整默認(rèn)值并且設(shè)立例外的原則;最后給每一個(gè)句子賦予一個(gè)分值。

總之,文本分析就是運(yùn)用尖端的文本分析工具來量化非結(jié)構(gòu)性數(shù)據(jù),并與結(jié)構(gòu)性數(shù)據(jù)相結(jié)合,進(jìn)行深度分析與建立預(yù)測(cè)模型,以實(shí)現(xiàn)對(duì)消費(fèi)者的全方位認(rèn)知。

猜你喜歡
結(jié)構(gòu)化百度預(yù)測(cè)
無可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
Robust adaptive UKF based on SVR for inertial based integrated navigation
百度年度熱搜榜
不必預(yù)測(cè)未來,只需把握現(xiàn)在
百度遭投行下調(diào)評(píng)級(jí)
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索

白沙| 宁津县| 岗巴县| 理塘县| 嘉兴市| 宜兰县| 红安县| 虎林市| 宜州市| 凉城县| 汉源县| 易门县| 宁武县| 济宁市| 甘洛县| 博客| 滦南县| 邮箱| 法库县| 肥乡县| 崇信县| 时尚| 临洮县| 武胜县| 永修县| 昔阳县| 商洛市| 廉江市| 宁河县| 泸水县| 洪湖市| 天津市| 九江县| 仁化县| 南涧| 平邑县| 丹凤县| 靖远县| 通道| 房产| 桑日县|