国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析及應(yīng)用研究

2015-09-16 07:04姚瑤中州大學(xué)信息工程學(xué)院鄭州450044
中州大學(xué)學(xué)報(bào) 2015年1期
關(guān)鍵詞:網(wǎng)絡(luò)分析結(jié)構(gòu)化文本

姚瑤(中州大學(xué)信息工程學(xué)院,鄭州450044)

大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析及應(yīng)用研究

姚瑤
(中州大學(xué)信息工程學(xué)院,鄭州450044)

大數(shù)據(jù)蘊(yùn)含著巨大的商業(yè)價(jià)值和社會(huì)價(jià)值。針對(duì)大數(shù)據(jù)的分析與應(yīng)用面臨的新挑戰(zhàn),文章重點(diǎn)闡述了文本分析、Web分析、網(wǎng)絡(luò)分析及移動(dòng)數(shù)據(jù)分析等數(shù)據(jù)分析技術(shù),并從商務(wù)智能挖掘、公共安全預(yù)警等領(lǐng)域介紹了大數(shù)據(jù)分析與挖掘的熱點(diǎn)應(yīng)用。

大數(shù)據(jù);文本分析;Web分析;網(wǎng)絡(luò)分析

隨著社會(huì)信息化和網(wǎng)絡(luò)化的快速發(fā)展,數(shù)據(jù)量急速增長(zhǎng)。據(jù)統(tǒng)計(jì),全球每秒發(fā)出的E-mail有290萬(wàn)封,每分鐘上傳到Y(jié)ouTube上的視頻長(zhǎng)20小時(shí),每天Twitter上發(fā)布的微博有5000萬(wàn)條。早在2008年,Google一天的數(shù)據(jù)處理量就有20PB,目前已經(jīng)達(dá)到每天處理24PB的數(shù)據(jù)量。同時(shí),科學(xué)計(jì)算、醫(yī)療衛(wèi)生、金融、零售業(yè)等各行業(yè)也有大數(shù)據(jù)在不斷產(chǎn)生,預(yù)計(jì)到2015年全球信息總量會(huì)達(dá)到8ZB[1],數(shù)據(jù)計(jì)量單位如表1所示。互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社會(huì)化網(wǎng)絡(luò)的應(yīng)用對(duì)數(shù)據(jù)的增長(zhǎng)起主要作用,當(dāng)前已進(jìn)入了大數(shù)據(jù)(Big Data)時(shí)代。

1 大數(shù)據(jù)的新特征

相對(duì)于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)不僅僅表現(xiàn)在巨大的數(shù)據(jù)量,還具有如下幾方面的新特征。

第一,數(shù)據(jù)來(lái)源更加廣泛。傳統(tǒng)的數(shù)據(jù)來(lái)源于科學(xué)研究產(chǎn)生的數(shù)據(jù)、企業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等。隨著移動(dòng)網(wǎng)絡(luò)、物聯(lián)網(wǎng)及社會(huì)網(wǎng)絡(luò)的發(fā)展,移動(dòng)設(shè)備數(shù)據(jù)、傳感器數(shù)據(jù)、RFID(射頻識(shí)別)數(shù)據(jù)及網(wǎng)絡(luò)自媒體數(shù)據(jù)增長(zhǎng)迅速,且生成形式更加靈活、多樣。云計(jì)算、物聯(lián)網(wǎng)、社交化媒體、地理信息系統(tǒng)(GIS)為大數(shù)據(jù)提供了豐富的數(shù)據(jù)來(lái)源。因此大數(shù)據(jù)中包括的每個(gè)網(wǎng)絡(luò)用戶的身份、地點(diǎn)、時(shí)間、喜好、厭惡、社會(huì)關(guān)系等大量的信息。

第二,大數(shù)據(jù)的數(shù)據(jù)類型更加復(fù)雜。包括圖片、音頻、視頻等結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等類型,其中采用傳統(tǒng)數(shù)據(jù)處理手段難以處理的非結(jié)構(gòu)化數(shù)據(jù)已接近數(shù)據(jù)總量的75%[2]。

第三,數(shù)據(jù)處理平臺(tái)并行性更高。因大數(shù)據(jù)的移動(dòng)和傳輸會(huì)消耗較大的計(jì)算資源,基于SQL的關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)已滿足不了大數(shù)據(jù)的深度分析。以Google公司的MapReduce、Apache的Hadoop為代表性的非關(guān)系數(shù)據(jù)管理、存儲(chǔ)和分析技術(shù)具有良好的擴(kuò)張性、容錯(cuò)性和大規(guī)模并行處理的特點(diǎn),成為大數(shù)據(jù)分析的主流架構(gòu)和平臺(tái)。

表1 數(shù)據(jù)計(jì)量單位表

數(shù)據(jù)處理和分析技術(shù)主要有數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)計(jì)量學(xué)、商業(yè)智能技術(shù)、數(shù)據(jù)統(tǒng)計(jì)及數(shù)據(jù)可視化等。當(dāng)前,數(shù)據(jù)分析的面向內(nèi)容有:基于DBMS(數(shù)據(jù)庫(kù)管理系統(tǒng))的結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容,基于Web的非結(jié)構(gòu)化內(nèi)容,基于移動(dòng)網(wǎng)絡(luò)和傳感器網(wǎng)絡(luò)的數(shù)據(jù)內(nèi)容。大數(shù)據(jù)分析的研究領(lǐng)域主要有文本分析、Web分析、網(wǎng)絡(luò)分析及移動(dòng)數(shù)據(jù)分析等。

2 數(shù)據(jù)分析

2.1文本分析

文本分析技術(shù)主要包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理等。文本分析技術(shù)起源于信息檢索和計(jì)算語(yǔ)言學(xué)。當(dāng)前,存在于Web頁(yè)面、E-mail和社會(huì)媒體中的相應(yīng)文檔,它們的內(nèi)容通常都是非結(jié)構(gòu)化的。信息檢索、文獻(xiàn)表示法和查詢處理是提升向量空間模型的基礎(chǔ)。布爾檢索模型和概率檢索模型成為現(xiàn)代數(shù)字圖書館、搜索引擎、和企業(yè)搜索管理系統(tǒng)的支撐技術(shù)。在計(jì)算語(yǔ)言學(xué)中,自然語(yǔ)言處理(Natural Language Processing,NLP)統(tǒng)計(jì)技術(shù)用來(lái)進(jìn)行詞語(yǔ)識(shí)別、詞義消歧、詞性標(biāo)注、概率上下文文法等方面。另外,文檔和查詢表示、用戶模型和相關(guān)反饋技術(shù)在改進(jìn)查詢性能方面都很重要。

20世紀(jì)90年代,在成熟的商業(yè)系統(tǒng)就引入了搜索引擎技術(shù),包括快速、分布式的爬蟲系統(tǒng);高效的倒排索引;基于內(nèi)鏈接的網(wǎng)頁(yè)排序;搜索日志分析。它們廣泛應(yīng)用在基于文本的企業(yè)搜索和文檔管理系統(tǒng)中。

由于大數(shù)據(jù)和自然語(yǔ)言統(tǒng)計(jì)處理工作的發(fā)展,文本分析技術(shù)又繼續(xù)應(yīng)用于幾個(gè)新的領(lǐng)域。例如,信息抽取、主題建模、問(wèn)答系統(tǒng)和意見挖掘。信息抽取主要研究如何自動(dòng)地從文檔中抽取特定分類的結(jié)構(gòu)化的信息。信息抽取的一個(gè)應(yīng)用為實(shí)體識(shí)別,即從文本中識(shí)別原子數(shù)據(jù)項(xiàng),并分成指定的類別(名字、地點(diǎn)、時(shí)間等);主題建模是設(shè)計(jì)一些算法,用來(lái)在大量非結(jié)構(gòu)化的文檔中發(fā)現(xiàn)特定的主題。像LDA這種新主題建模算法和其他概率統(tǒng)計(jì)模型都在實(shí)際中有所應(yīng)用。問(wèn)答系統(tǒng)依據(jù)與NLP、信息檢索和人機(jī)交互技術(shù)。最初的問(wèn)答系統(tǒng)僅限于實(shí)際的問(wèn)題和回答(例如,何人、何事、何時(shí)、何地等)。問(wèn)答系統(tǒng)需要用到問(wèn)題分析、大案抽取、來(lái)源檢索、問(wèn)題表示等技術(shù)。問(wèn)答系統(tǒng)常用于教育、健康和攻防領(lǐng)域中。IBM公司的Watso和Apple公司的Siri問(wèn)答系統(tǒng)做的很成功。

意見挖掘指利用計(jì)算技術(shù)從文本內(nèi)容中來(lái)抽取、分類、理解和評(píng)定相關(guān)的意見表達(dá),文本內(nèi)容來(lái)自在線新聞、社會(huì)媒體評(píng)論、其他媒體產(chǎn)生的內(nèi)容等多個(gè)方面。情緒分析是意見挖掘技術(shù)的一個(gè)具體應(yīng)用,常用于在線文本內(nèi)容的識(shí)別情緒、情感、主觀意愿及其他情緒狀態(tài)。Web2.0和社會(huì)媒體內(nèi)容已經(jīng)產(chǎn)生了大量且能引起刺激公眾情緒的機(jī)會(huì),包括社會(huì)事件、政治運(yùn)動(dòng)、企業(yè)戰(zhàn)略、市場(chǎng)競(jìng)爭(zhēng)的認(rèn)知。文本分析技術(shù)體系如表2所示。

表2 文本分析技術(shù)體系

除了上述研究方向外,文本分析還在如下幾個(gè)方向具有重要的研究機(jī)遇和挑戰(zhàn):Web在線文檔作者歸屬分析、Web文檔的多語(yǔ)種檢索分析、大規(guī)模文本可視化工作。而多媒體信息檢索和移動(dòng)信息檢索是除了核心的多媒體和移動(dòng)技術(shù)外,也需要文本分析技術(shù)支持的另外兩個(gè)領(lǐng)域。同大數(shù)據(jù)分析一樣,文本分析也要用到MapReduce、Hadoop和云計(jì)算等服務(wù),這些會(huì)促進(jìn)文本分析研究方向的進(jìn)一步發(fā)展。

2.2Web分析

在過(guò)去的10年,Web分析技術(shù)一直是個(gè)活躍的研究領(lǐng)域。Web分析面臨著特有的分析挑戰(zhàn)和機(jī)遇?;贖TTP/HTML的超鏈接Web站點(diǎn)、相關(guān)聯(lián)的Web搜索引擎、Web內(nèi)容定位系統(tǒng),它們都促進(jìn)了基于Internet特有的技術(shù):Web站點(diǎn)爬蟲、Web頁(yè)面更新、Web站點(diǎn)排序、搜索日志分析。針對(duì)用戶的訪問(wèn)記錄進(jìn)行Web日志分析通常用在內(nèi)容推薦系統(tǒng),然而,隨著Web服務(wù)和Web2.0系統(tǒng)的發(fā)展,Web分析技術(shù)會(huì)有更多的應(yīng)用。

基于XML格式和Internet協(xié)議(HTTP、SMTP),Web服務(wù)可以重用和集成第三方或者代理系統(tǒng)的功能。新的Web服務(wù)功能和相應(yīng)的API(應(yīng)用程序接口)部件能使開發(fā)者很容易地從不同的Web應(yīng)用系統(tǒng)集成豐富的內(nèi)容。例如,在調(diào)用遠(yuǎn)程服務(wù)時(shí)的狀態(tài)轉(zhuǎn)移表示、新聞推送的RSS、輕量級(jí)數(shù)據(jù)交換的JavaScript對(duì)象表示等。同樣,Google Web服務(wù)的應(yīng)用程序接口支持搜索、地圖API、Google翻譯、Google應(yīng)用程序引擎等。

Web信息的多樣性決定了Web挖掘的多樣性。Web挖掘研究可以分為三類,如圖1所示。

圖1 Web挖掘的分類

Web內(nèi)容挖掘:從Web內(nèi)容中發(fā)現(xiàn)有用的信息,Web內(nèi)容主要包括文本、圖形、圖像、音頻、視頻等。

Web結(jié)構(gòu)挖掘:研究Web鏈接結(jié)構(gòu)的建模分析,主要用于搜索引起結(jié)果排序、Web網(wǎng)站結(jié)構(gòu)優(yōu)化及其他Web應(yīng)用。

Web使用挖掘:Web使用挖掘旨在通過(guò)對(duì)網(wǎng)絡(luò)日志進(jìn)行有效的數(shù)據(jù)挖掘,發(fā)掘隱藏在日志數(shù)據(jù)背后的Web用戶訪問(wèn)模式[3]。利用數(shù)據(jù)挖掘技術(shù)分析Web搜索日志,來(lái)找出用戶興趣方式。

目前,在Web分析技術(shù)中一個(gè)主要的領(lǐng)域?yàn)樵朴?jì)算服務(wù)平臺(tái)的發(fā)展,該平臺(tái)包括通過(guò)Internet部署的應(yīng)用系統(tǒng)、系統(tǒng)軟件、硬件設(shè)備等?;诿嫦蚪Y(jié)構(gòu)的服務(wù)、服務(wù)器虛擬化和效用計(jì)算方式的實(shí)現(xiàn),云計(jì)算可以看作一種軟件服務(wù)、一種基礎(chǔ)設(shè)施服務(wù)或者一種服務(wù)平臺(tái)。

當(dāng)前的Web分析技術(shù)涵蓋了社會(huì)網(wǎng)絡(luò)搜索與挖掘、聲譽(yù)機(jī)制系統(tǒng)、社會(huì)媒體分析、Web可視化等研究領(lǐng)域。另外,基于Web的拍賣、Internet貨幣、Web隱私與安全等方面也和Web分析技術(shù)相關(guān)聯(lián)。

2.3網(wǎng)絡(luò)分析

現(xiàn)代社會(huì)典型的特征是“網(wǎng)絡(luò)”和“信息”。“網(wǎng)絡(luò)”是現(xiàn)代社會(huì)發(fā)展形成的社會(huì)結(jié)構(gòu)的一種實(shí)例。例如人們的社會(huì)關(guān)系、不同階層的人群、商業(yè)活動(dòng)、交通、通信、計(jì)算機(jī)網(wǎng)絡(luò)、犯罪組織、虛擬網(wǎng)絡(luò)社會(huì)等,都體現(xiàn)了一種“網(wǎng)絡(luò)”關(guān)系。網(wǎng)絡(luò)社會(huì)分析的主要內(nèi)容有:網(wǎng)絡(luò)社會(huì)構(gòu)成、網(wǎng)上社會(huì)行為與互動(dòng)、網(wǎng)上人與人之間的關(guān)系、網(wǎng)上群體、網(wǎng)上組織、網(wǎng)絡(luò)社區(qū)、Web2.0、博客、微博、網(wǎng)絡(luò)公共領(lǐng)域、互聯(lián)網(wǎng)上的社會(huì)網(wǎng)絡(luò)分析、網(wǎng)絡(luò)社會(huì)秩序、網(wǎng)絡(luò)犯罪及其它網(wǎng)絡(luò)社會(huì)問(wèn)題等。網(wǎng)絡(luò)分析技術(shù)還處于初始的研究階段,主要包括文獻(xiàn)引用統(tǒng)計(jì)分析、在線社區(qū)計(jì)算模型、社會(huì)網(wǎng)絡(luò)分析等。不同的社會(huì)網(wǎng)絡(luò)理論、網(wǎng)絡(luò)性能指標(biāo)、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、網(wǎng)絡(luò)模型用來(lái)衡量網(wǎng)絡(luò)屬性及其相互聯(lián)系。

最近的網(wǎng)絡(luò)分析研究集中在鏈接挖掘和社區(qū)發(fā)現(xiàn)上。通過(guò)鏈接挖掘,可以發(fā)現(xiàn)或預(yù)測(cè)一個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)間的鏈接關(guān)系。在網(wǎng)絡(luò)中,節(jié)點(diǎn)可以代表消費(fèi)者、終端用戶、產(chǎn)品和(或者)服務(wù);節(jié)點(diǎn)間的鏈接可以表示社會(huì)聯(lián)系、合作關(guān)系、E-mail收發(fā)或者產(chǎn)品的采用等。甚至僅利用拓?fù)湫畔⒕涂梢赃M(jìn)行聯(lián)結(jié)挖掘。近鄰關(guān)系(Common Neighbors)、群落系數(shù)、Adamic Adar Measure、卡茨傳遞方式等理論常用來(lái)預(yù)測(cè)丟失或未來(lái)的鏈接。準(zhǔn)確的鏈接挖掘還可以進(jìn)一步推測(cè)節(jié)點(diǎn)及其鏈接屬性的關(guān)聯(lián)性。社區(qū)發(fā)現(xiàn)也是一個(gè)研究熱點(diǎn)。若用圖形表示網(wǎng)絡(luò),可以利用圖分割算法來(lái)找出最優(yōu)割截圖,以便在用戶團(tuán)體中得到密集子圖。

社會(huì)網(wǎng)絡(luò)分析理論適合于社會(huì)網(wǎng)絡(luò)和計(jì)算機(jī)網(wǎng)絡(luò)形成各種網(wǎng)絡(luò)關(guān)系的分析方法。網(wǎng)絡(luò)關(guān)系可以用圖2的方式表示。

圖2 常見的網(wǎng)絡(luò)關(guān)系圖

常見的社交軟件,網(wǎng)絡(luò)關(guān)系圖具有一定的規(guī)律性。例如QQ好友的網(wǎng)絡(luò)關(guān)系、微博的網(wǎng)絡(luò)關(guān)系圖如圖3所示。

圖3 微博關(guān)注的網(wǎng)絡(luò)關(guān)系圖

多種技術(shù)被應(yīng)用在研究動(dòng)態(tài)的社會(huì)網(wǎng)絡(luò)中。例如,采用智能主題仿真模型來(lái)研究疾病傳播網(wǎng)絡(luò)、罪犯或恐怖分子網(wǎng)絡(luò)。在線虛擬社區(qū)、罪犯或恐怖分子網(wǎng)絡(luò)、社會(huì)政治網(wǎng)絡(luò)、信任與聲譽(yù)網(wǎng)絡(luò)等將是網(wǎng)絡(luò)分析應(yīng)用的新場(chǎng)所。

除了文本分析、Web分析、網(wǎng)絡(luò)分析領(lǐng)域外,當(dāng)前發(fā)展迅速的還有移動(dòng)數(shù)據(jù)分析技術(shù)。移動(dòng)計(jì)算在IT行業(yè)中增長(zhǎng)迅速。隨著智能手機(jī)的廣泛普及,Android(安卓)系統(tǒng)從2010年就占據(jù)移動(dòng)平臺(tái)上的首位。這個(gè)基于Java和XML的開源平臺(tái)易于掌握,成為IT行業(yè)流行的應(yīng)用環(huán)境。移動(dòng)數(shù)據(jù)分析的研究領(lǐng)域包括:用于位置確定和活動(dòng)識(shí)別的移動(dòng)感知應(yīng)用、移動(dòng)社會(huì)網(wǎng)絡(luò)和群包、移動(dòng)可視化、移動(dòng)應(yīng)用的個(gè)人和行為建模。

3 數(shù)據(jù)分析的應(yīng)用

當(dāng)前數(shù)據(jù)分析的熱點(diǎn)應(yīng)用主要有智能商務(wù)(例如,電子商務(wù)和市場(chǎng)預(yù)測(cè))、電子政務(wù)及管理、科學(xué)技術(shù)應(yīng)用、智能健康和福利、公共安全等領(lǐng)域。

3.1商務(wù)智能挖掘

商務(wù)智能(Business Intelligence,BI)挖掘是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,以獲取更大的利益的技術(shù)。上世紀(jì)美國(guó)零售業(yè)巨頭沃爾瑪對(duì)自己的商品銷售數(shù)據(jù)庫(kù)發(fā)現(xiàn)了“啤酒和尿不濕”的關(guān)聯(lián)是數(shù)據(jù)挖掘中最經(jīng)典的案例。

大數(shù)據(jù)時(shí)代下的商務(wù)智能稱為BI2.0,不僅僅只是對(duì)企業(yè)內(nèi)部數(shù)據(jù)進(jìn)行收集、處理和分析,還需要對(duì)互聯(lián)網(wǎng)上網(wǎng)絡(luò)瀏覽、微博、微信等非結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理,這樣才能建立一個(gè)具有全面、完整的數(shù)據(jù)價(jià)值發(fā)展平臺(tái)。不管是商務(wù)智能的應(yīng)用還是大數(shù)據(jù)的處理,都是為企業(yè)的決策分析服務(wù)的,只有將兩者有機(jī)的結(jié)合起來(lái),才能挖掘出真實(shí)有效的信息和知識(shí)[4]。國(guó)內(nèi)知名的電子商務(wù)企業(yè)京東商城從2012年推出的“數(shù)聚匯”功能,通過(guò)深度分析8000多萬(wàn)用戶,頁(yè)面匯集了來(lái)自全國(guó)各地的網(wǎng)絡(luò)購(gòu)物信息和數(shù)據(jù),分析本年度用戶的購(gòu)物行為,挖掘數(shù)據(jù)背后的信息。比如,根據(jù)網(wǎng)購(gòu)電視機(jī)的尺寸來(lái)推斷同一客戶擁有的客廳面積大小、根據(jù)不同地區(qū)客戶網(wǎng)購(gòu)加濕器的數(shù)量來(lái)推斷該地區(qū)的干濕程度、根據(jù)不同地區(qū)網(wǎng)購(gòu)電飯煲的容量推斷相應(yīng)家庭成員的數(shù)量及結(jié)構(gòu)組成等。

傳統(tǒng)的數(shù)據(jù)挖掘是指在結(jié)構(gòu)化的數(shù)據(jù)中發(fā)現(xiàn)潛在的關(guān)系和規(guī)律,但隨著商業(yè)競(jìng)爭(zhēng)的白熱化,非結(jié)構(gòu)化的數(shù)據(jù)如各種文本、圖像、音頻、視頻等達(dá)到空前規(guī)模,如何把散布在網(wǎng)絡(luò)上的資源整合起來(lái),從中挖掘出有價(jià)值的信息,是當(dāng)前數(shù)據(jù)挖掘面臨的最大挑戰(zhàn)之一,迫切需要更加高端的數(shù)據(jù)挖掘的方法和技術(shù)[5]。為了充分運(yùn)用大數(shù)據(jù)資源,國(guó)外的互聯(lián)網(wǎng)企業(yè)Google、eBay、Facebook、Twitter及國(guó)內(nèi)的百度、騰訊、阿里巴巴等都投入巨大的力量來(lái)進(jìn)行用戶行為分析、企業(yè)決策推薦、社交媒體分析等應(yīng)用。

3.2公共安全預(yù)警

數(shù)據(jù)分析技術(shù)在公共安全預(yù)警的主要應(yīng)用領(lǐng)域有:智能預(yù)警、邊界和運(yùn)輸安全、國(guó)內(nèi)反恐、重要基礎(chǔ)設(shè)施(包括網(wǎng)絡(luò))保護(hù)、突發(fā)事件應(yīng)對(duì)。公共安全問(wèn)題監(jiān)測(cè)與信息預(yù)警是現(xiàn)代社會(huì)公共管理的重要內(nèi)容[6]。利用大數(shù)據(jù)可以有效地預(yù)測(cè)相關(guān)領(lǐng)域的未來(lái)趨勢(shì)。早在2009年,Google根據(jù)人們網(wǎng)絡(luò)搜索的關(guān)鍵詞數(shù)據(jù)成功預(yù)報(bào)了流行病的出現(xiàn),比疾病控制中心早一周左右。2010年惠普實(shí)驗(yàn)室利用Twitter的數(shù)據(jù)精確預(yù)測(cè)了好萊塢電影的票房收入。

大數(shù)據(jù)能夠揭示人類行為的社會(huì)規(guī)律。從“9·11”事件以來(lái),公共安全研究得到各國(guó)的重點(diǎn)關(guān)注,尤其是全球安全越來(lái)越依賴于數(shù)字化的技術(shù)和方法。計(jì)算科學(xué)、信息系統(tǒng)、社會(huì)科學(xué)等領(lǐng)域的專家學(xué)者都在和愈加頻繁的暴力、恐怖、網(wǎng)絡(luò)犯罪及其他危害網(wǎng)絡(luò)安全的行為作斗爭(zhēng)??梢岳镁W(wǎng)絡(luò)輿情分析進(jìn)行公共安全預(yù)警、基于威脅情報(bào)分析的安全防范預(yù)警、多源數(shù)據(jù)的融合與輿情分析、大數(shù)據(jù)熱點(diǎn)情報(bào)跟蹤等。

4 結(jié)束語(yǔ)

在信息化社會(huì)中數(shù)據(jù)就是財(cái)富。針對(duì)于不同數(shù)據(jù)的文本分析、Web分析、網(wǎng)絡(luò)分析及移動(dòng)數(shù)據(jù)分析技術(shù)在大數(shù)據(jù)時(shí)代必將得到更廣泛的應(yīng)用。但在新媒體環(huán)境下,時(shí)刻記錄我們的位置數(shù)據(jù)、通話數(shù)據(jù)、網(wǎng)絡(luò)行為數(shù)據(jù)等可以輕易獲得,留下了數(shù)據(jù)安全的隱患。在進(jìn)行大數(shù)據(jù)分析的同時(shí),如何保護(hù)大數(shù)據(jù)的安全值得重點(diǎn)關(guān)注。

[1]馮登國(guó),張敏.大數(shù)據(jù)安全與隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014(1):246-258.

[2]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國(guó)防科技,2013(2):10-17.

[3]郭巖,白碩.網(wǎng)絡(luò)日志規(guī)模分析和用戶興趣挖掘[J].軟件學(xué)報(bào),2005(9):1483-1496.

[4]范明武,瞿斌.大數(shù)據(jù)下商務(wù)智能課程體系產(chǎn)學(xué)結(jié)合教學(xué)研究[J].才智,2014(24):172-172.

[5]李艷玲.大數(shù)據(jù)環(huán)境下的技術(shù)變革與管理創(chuàng)新[J].控制工程,2014(21):142-145.

[6]歐三任.社會(huì)公共安全預(yù)警信息發(fā)布研究[J].重慶郵電大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2013(9):107-112.

(責(zé)任編輯趙冰)

Research on Data Analysis and Application in Big Data Environment

YAO Yao
(School of Information Engineering,Zhongzhou University,Zhengzhou 450044,China)

The big data contains enormous commercial and social value.Based on the new challenges brought by the analysis and application of big data,this paper aims at expounding different analysis technology:the analysis of text,web,network and mobile data.Meanwhile,the analysis of big data and mining are also introduced in different fields such as the intelligent mining of business data and the early warning public security.

big data;text analysis;Web analysis;network analysis

10.13783/j.cnki.cn41-1275/g4.2015.01.028

TP311

A

1008-3715(2015)01-0120-04

2014-10-23

2015年度河南省高等學(xué)校重點(diǎn)科研項(xiàng)目(15A120014)

姚瑤(1982—),女,湖南保靖人,碩士,中州大學(xué)信息工程學(xué)院講師,研究方向?yàn)榫W(wǎng)絡(luò)信息技術(shù)。

猜你喜歡
網(wǎng)絡(luò)分析結(jié)構(gòu)化文本
文本聯(lián)讀學(xué)概括 細(xì)致觀察促寫作
基于交通運(yùn)輸業(yè)的股票因果網(wǎng)絡(luò)分析
基于ISM模型的EPC項(xiàng)目風(fēng)險(xiǎn)網(wǎng)絡(luò)分析
低軌衛(wèi)星互聯(lián)網(wǎng)融合5G信息網(wǎng)絡(luò)分析與應(yīng)用
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
認(rèn)知重評(píng)和表達(dá)抑制情緒調(diào)節(jié)策略的腦網(wǎng)絡(luò)分析:來(lái)自EEG和ERP的證據(jù)*
作為“文本鏈”的元電影
惠来县| 尖扎县| 沙坪坝区| 都兰县| 错那县| 汝城县| 西乌珠穆沁旗| 沾化县| 唐山市| 济源市| 迭部县| 南召县| 上思县| 鄂伦春自治旗| 天全县| 新晃| 化隆| 彝良县| 武隆县| 宜宾市| 光山县| 濉溪县| 上犹县| 莫力| 安陆市| 富锦市| 海兴县| 墨竹工卡县| 吉木萨尔县| 塘沽区| 陇南市| 怀远县| 喜德县| 赣州市| 三原县| 翁牛特旗| 肇庆市| 开远市| 仁怀市| 潮安县| 凤山县|