摘 要:在大數(shù)據(jù)背景下,數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍,因此,如何在大數(shù)據(jù)時代構(gòu)建熱詞發(fā)現(xiàn)與可視化機(jī)制尤為緊迫和重要。本文通過研究Hadoop大數(shù)據(jù)平臺下的MapReduce計算框架和TF-IDF算法,給出了TF-IDF算法在Hadoop分布式并行化計算平臺下的具體實現(xiàn),并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法,然后利用可視化工具對結(jié)果進(jìn)行分析處理。結(jié)果表明,TF-IDF并行化算法可以較好地發(fā)現(xiàn)大規(guī)模數(shù)據(jù)量中的熱點詞匯;與傳統(tǒng)單機(jī)下的算法相比,該算法處理效率更高。
關(guān)鍵詞:Hadoop;TF-IDF并行化;熱詞發(fā)現(xiàn);可視化
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
Abstract:The speed of data expansion is far beyond the ability of artificial analysis in the era of big data.Therefore,it is particularly urgent and important how to build hot word discovery and visualization mechanism.By studying the MapReduce computing framework and TF-IDF algorithm under the Hadoop platform,this paper gives the concrete implementation of the TF-IDF algorithm under the Hadoop distributed parallel computing platform,and uses this parallel algorithm as the core algorithm of the hot word discovery technology based on the big data architecture,and then uses the visualization tool to display and analyze the results.The results show that the TF-IDF parallelization algorithm can find the hot words in large amount of data much better.Compared with traditional single-machine algorithms,this algorithm is more efficient.
Keywords:Hadoop;TF-IDF parallelization;hot word discovery;visualization
1 引言(Introduction)
大數(shù)據(jù)時代,數(shù)據(jù)膨脹的速度已經(jīng)遠(yuǎn)遠(yuǎn)超出了人工分析的能力范圍。要從這些龐雜的數(shù)據(jù)中獲取有效信息更是難上加難。如何能夠簡單、快速并且有效地得知人們感興趣的內(nèi)容是一個重要的問題。熱詞發(fā)現(xiàn)作為近年來的一個研究熱點,不失為一個切實可行的解決方案。因為熱詞[1]往往能夠反映一個國家、一個地區(qū)在一個時期人們普遍關(guān)注的問題和事物,具有時代特征,所以及時準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點信息并進(jìn)行整理分析對于了解民意動向、分析輿情走勢十分重要。其結(jié)果不僅為政府和有關(guān)機(jī)構(gòu)及時了解并處理重大社會熱點問題提供很大的參考價值,也為廣大人民群眾能夠在信息爆炸時代里了解社會熱點提供了快速而有效的方法[2]。
本文通過研究Hadoop大數(shù)據(jù)平臺下的MapReduce計算框架和TF-IDF算法,給出了TF-IDF算法在Hadoop分布式并行化計算平臺下的具體實現(xiàn),并以此并行化算法作為大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)技術(shù)的核心算法,然后利用可視化工具R語言[3]對結(jié)果進(jìn)行分析處理。
2 大數(shù)據(jù)與Hadoop平臺(BigData and Hadoop)
IDC公司從四個特征定義大數(shù)據(jù),即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)模態(tài)(Variety)和巨大的數(shù)據(jù)價值(Value)。根據(jù)大數(shù)據(jù)的生命周期,大數(shù)據(jù)的技術(shù)體系可以分為大數(shù)據(jù)采集與預(yù)處理[2]、大數(shù)據(jù)存儲與管理、大數(shù)據(jù)計算模式與系統(tǒng)、大數(shù)據(jù)分析與挖掘、大數(shù)據(jù)可視化計算和大數(shù)據(jù)隱私安全等方面。我們通常選用Hadoop系統(tǒng)來存儲、管理、分析這些數(shù)據(jù),以獲取更多有價值的信息[4]。
Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺,以Hadoop分布式文件系統(tǒng)HDFS和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯性、高伸縮性允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng);由于Hadoop擁有可計量、成本低、高效、可信等特點,基于Hadoop的應(yīng)用已經(jīng)開始遍布互聯(lián)網(wǎng)領(lǐng)域。MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下運(yùn)行應(yīng)用程序[5]。
3 大數(shù)據(jù)架構(gòu)下熱詞發(fā)現(xiàn)理論基礎(chǔ)(Theoretical
foundation of hot word discovery based on
bigdata architecture)
3.1 MapReduce計算框架
分布式文件系統(tǒng)(HDFS)和MapReduce編程模型是Hadoop的主要組成部分。MapReduce模型[6]的計算流程如圖2所示。分布式文件系統(tǒng)主要負(fù)責(zé)各節(jié)點上的數(shù)據(jù)的存儲,并實現(xiàn)高吞吐的數(shù)據(jù)讀寫。MapReduce計算模型的核心部分是Map和Reduce兩個函數(shù)[7]。Map的輸入是in_key和in_value,指明了Map需要處理的原始數(shù)據(jù)。Map的輸出結(jié)果是一組
3.2 TF-IDF熱詞發(fā)現(xiàn)算法
TF-IDF(Term Frequency-Inverse Document Frequency)[8]是一種服務(wù)數(shù)據(jù)挖掘的常用的加權(quán)技術(shù)。該算法可以評價一個單詞對于語料庫中的某一文件的重要程度。該算法的計算公式為:
(1)
其中,TF(詞頻,Term Frequency)指的是某一個給定的詞語在該文件中出現(xiàn)的頻率。同一個詞語在長文件里可能會比短文件有更高的詞數(shù),而不管該詞語重要與否。對于在某一特定文件里的詞語ti來說,它的重要性可表示為:
(2)
其中,ni,j是該詞ti在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。
IDF(逆向文件頻率,Inverse Document Frequency)是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)得到:
(3)
其中,|D|:語料庫中的文件總數(shù),:包含詞語ti的文件數(shù)目(即的文件數(shù)目)如果該詞語不在語料庫中,就會導(dǎo)致被除數(shù)為零,因此一般情況下使用。
可以看到,TF-IDF與一個詞在文檔中出現(xiàn)的次數(shù)成正比,同時與該詞在整個語料庫中出現(xiàn)的次數(shù)成反比。因此,要想得到TD-IDF值,需要分別求出TF、IDF兩個值。無論是計算TF還是IDF的值,由于文檔總數(shù)是一個常量,所以在得到TF后,只需要統(tǒng)計所有語料中包含該單詞的文檔的個數(shù),即可進(jìn)行TF-IDF值的計算。從TF-IDF的計算公式中不難看出,它非常適合利用分布式并行化平臺進(jìn)行計算求解。
3.3 R語言
R語言是一個擁有強(qiáng)大的統(tǒng)計計算和制圖能力的可視化工具。作為一個統(tǒng)計分析軟件,R集統(tǒng)計分析和圖形顯示于一體,與其他統(tǒng)計分析軟件相比,R還具有開源且免費(fèi)使用、與各種OS兼容性好、豐富的插件支持、互動性好等特點[9,10]。
4 大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化系統(tǒng)的構(gòu)建
(Construction of hot word discovery and visualization
system based on bigdata architecture)
根據(jù)MapReduce、TF-IDF算法等基本理論,本文設(shè)計了大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)系統(tǒng),在Hadoop平臺上實現(xiàn)了TF-IDF并行化算法。該系統(tǒng)主要包括數(shù)據(jù)采集(獲取實驗語料)、數(shù)據(jù)預(yù)處理、Hadoop平臺搭建、TF-IDF算法并行化實現(xiàn)及結(jié)果可視化五部分。系統(tǒng)總體框架如圖2所示。
4.1 數(shù)據(jù)采集與預(yù)處理
(1)實驗數(shù)據(jù)
本文的實驗數(shù)據(jù)是從人民日報官網(wǎng)http://paper.people.com.cn上,利用網(wǎng)絡(luò)爬蟲獲取2011年至2016年這六年間每一天的人民日報電子版,得到格式為PDF,總大小為34.3GB,共計2191個文件。本設(shè)計以上述文件作為實驗的原始數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理
首先對爬取到的人民日報進(jìn)行格式轉(zhuǎn)換,格式化文件名(文件名中不得含有中文及中文字符),修改文檔的編碼方式,并去除所有的特殊符號,為接下來的中文分詞做準(zhǔn)備。然后利用斯坦福大學(xué)NLP研究室提供的Stanford CoreNLP工具包對語料進(jìn)行中文分詞。最終將數(shù)據(jù)集按年度分開(years),每年分為12個文檔(每月一個文檔,month)。
4.2 TF-IDF算法的并行化實現(xiàn)
利用Hadoop集群環(huán)境及MapReduce計算框架,對TF-IDF算法進(jìn)行并行化實現(xiàn),其核心思想是將任務(wù)進(jìn)行分割,并分配到集群主機(jī)運(yùn)行。通過分割數(shù)據(jù),可以將統(tǒng)計文檔中單詞詞頻的任務(wù)并行化處理,從而減少處理時間,提高處理效率。
具體流程如下:
(1)計算各文檔中單詞的詞頻TF
在讀入目標(biāo)文檔所在的HDFS路徑后,將原始數(shù)據(jù)進(jìn)行分片并傳給Map函數(shù),在Map中利用正則表達(dá)式刪除空行和空字符串,然后傳給Reduce函數(shù)統(tǒng)計單詞詞頻,并將結(jié)果輸出到臨時文件中保存,作為下一個MapReduce的輸入。該函數(shù)設(shè)計如下:
Map():
Input:
Output:
Reduce():
Input:
Output:
(2)計算單詞的逆文檔頻率IDF
讀取上一步輸出的臨時文件tfidf-tf作為本次Map函數(shù)的輸入。在Map中拆分單詞,按頻次為1,以便Reduce分文件名進(jìn)行合并。在Reduce中統(tǒng)計所有語料中包含wordname一詞的文檔總數(shù)termdocnum和文檔總數(shù)alldoc,然后按照公式計算idf值,并將結(jié)果以鍵值對
Map():
Input:
Output:
Reduce():
Input:
Output:
(3)計算單詞的TF-IDF
利用兩個Map函數(shù)分別讀取前兩步輸出的臨時文件tfidf-tf和tfidf-idf作為輸入。在Reduce中按照公式計算tfidf值,并將結(jié)果以鍵值對
Map():
Input:
Output:
Reduce():
Input:
Output:
計算TF-IDF的整個流程如圖3所示。
4.3 利用R語言進(jìn)行結(jié)果可視化
以數(shù)據(jù)集years作為實驗語料,在集群模式下運(yùn)行程序,得到結(jié)果后利用R語言分別對2011—2016年的年度熱詞進(jìn)行可視化展示,2016年度熱詞可視化結(jié)果如圖4所示。
可以看出,2016年度的熱點詞匯有“兩學(xué)一做”“三嚴(yán)三實”“供給側(cè)結(jié)構(gòu)性改革”“大數(shù)據(jù)”“黨風(fēng)廉政建設(shè)”“創(chuàng)新”“改革”“全面二孩”“戰(zhàn)略支援部隊”“深化國防軍隊改革”“工匠精神”“強(qiáng)軍目標(biāo)”“軍事斗爭準(zhǔn)備”“人工智能”“營改增”等。而互聯(lián)網(wǎng)中給出的2016年年度熱詞為:“供給側(cè)改革”“全面二孩”“工匠精神”“人工智能”“營改增”“不忘初心”“里約奧運(yùn)會”“電信詐騙”“房價”“網(wǎng)約車”。考慮到本實驗的語料來源僅為《人民日報》,其中并不完全包含互聯(lián)網(wǎng)中的內(nèi)容,而互聯(lián)網(wǎng)上公布的結(jié)果則是綜合多方面內(nèi)容得到的,因此二者的結(jié)果存在一定的出入。但從整體上來看,由該問題導(dǎo)致的誤差在可接受范圍內(nèi),實驗結(jié)果較為可靠,該實驗?zāi)軌蜉^好地完成大數(shù)據(jù)規(guī)模下的熱詞發(fā)現(xiàn)任務(wù)。
5 結(jié)論(Conclusion)
大數(shù)據(jù)架構(gòu)下的熱詞發(fā)現(xiàn)與可視化技術(shù)研究,可以幫助相關(guān)人員及時準(zhǔn)確地發(fā)現(xiàn)當(dāng)前熱點信息,這些信息為政府和有關(guān)機(jī)構(gòu)及時了解并處理重大社會熱點問題提供很大的參考價值;另一方面,通過對熱詞發(fā)現(xiàn)結(jié)果的可視化,直觀形象地展示出熱詞,可以為廣大人民群眾能夠在信息爆炸時代里了解社會熱點提供了快速而有效的方法;同時,一些優(yōu)秀的網(wǎng)絡(luò)熱詞可以作為漢語言文庫的一種有益補(bǔ)充和豐富,為語言學(xué)家研究漢語言提供一定的幫助。
參考文獻(xiàn)(References)
[1] 耿升華.新詞識別和熱詞排名方法研究[D].重慶大學(xué),2013.
[2] 劉晨,焦合軍.基于HADOOP集群的數(shù)據(jù)采集和清洗[J].軟件工程,2016,19(11):20-24.
[3] 湯銀才.R語言與統(tǒng)計分析[M].高等教育出版社,2008.
[4] 崔文斌,牟少敏,王云誠,等.Hadoop大數(shù)據(jù)平臺的搭建與測試[J].山東農(nóng)業(yè)大學(xué)學(xué)報自然科學(xué)版,2013,44(4):550-555.
[5] 孟永偉,黃建強(qiáng),曹騰飛,等.Hadoop集群部署實驗的設(shè)計與實現(xiàn)[J].實驗技術(shù)與管理,2015,32(1):145-149.
[6] 郝樹魁.Hadoop HDFS和MapReduce架構(gòu)淺析[J].郵電設(shè)計技術(shù),2012(7):37-42.
[7] Luis Torgo,李洪成,陳道輪,等.數(shù)據(jù)挖掘與R語言[J].計算機(jī)教育,2013(12):102-102.
[8] 張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報科學(xué),2012(10):110-112;123.
[9] 吳丹露,魏彤,許家清.R語言環(huán)境下的文本可視化及主題分析——以社會服務(wù)平臺數(shù)據(jù)為例[J].寧波工程學(xué)院學(xué)報,2015,27(1):19-25.
[10] 葉文春.淺談R語言在統(tǒng)計學(xué)中的應(yīng)用[J].中共貴州省委黨校學(xué)報,2008(4):123-125.
[11] 使用Stanford CoreNLP工具包處理中文[EB/OL].http://blog.csdn.net/u014749291/article/details/51152007,2016-04-14.
[12] 使用Stanford NLP進(jìn)行中文分詞[EB/OL].http://blog.sectong.com/blog/corenlp_segment.html,2016-03-26.
[13] 趙偉燕.基于Hadoop平臺的TFIDF算法并行化研究[D].內(nèi)蒙古科技大學(xué),2013.
作者簡介:
胡瑞娟(1983-),女,碩士,講師.研究領(lǐng)域:大數(shù)據(jù)智能處理.