劉陽
摘要: 當(dāng)今世界已經(jīng)進(jìn)入了一個信息化時代,大數(shù)據(jù)在很多行業(yè)中都扮演著十分重要的角色,影響著人們的生產(chǎn)生活方式。本文圍繞數(shù)據(jù)采集在大數(shù)據(jù)中的應(yīng)用展開研究,重點(diǎn)分析了大數(shù)據(jù)的概念、數(shù)據(jù)采集的方式方法與如何用Python來進(jìn)行數(shù)據(jù)采集。
關(guān)鍵詞: 大數(shù)據(jù);互聯(lián)網(wǎng);信息;數(shù)據(jù)采集
中圖分類號: TP212.9;TN929.5?? ?文獻(xiàn)標(biāo)識碼: A?? ?文章編號: 1672-9129(2018)09-0006-01
Abstract: ?the world has entered an information age. Big data plays a very important role in many industries, influencing people's production and lifestyle. This paper conducts research on the application of data collection in big data, and mainly analyzes the concept of big data, methods and methods of data collection and how to use Python to conduct data collection.
Key words: ??big data;Internet;Information;The data collection
1 大數(shù)據(jù)概述
大數(shù)據(jù)的含義是不能夠在一定的時間范圍里面使用常規(guī)軟件工具來進(jìn)行捕捉、管理與處理的數(shù)據(jù)集合,是需要使用新的處理模式才能夠具有更加強(qiáng)烈的決策能力、洞察能力以及流程優(yōu)化能力的海量、增長率較高、內(nèi)容多樣化的信息資產(chǎn)[1]。大數(shù)據(jù)技術(shù)的推廣和使用,最為重要的意義不在于掌握和管理龐大的數(shù)據(jù)庫,而是對這些含有一定意義的數(shù)據(jù)作出更加專業(yè)化、科學(xué)性的處理和利用。換句話來說,如果把大數(shù)據(jù)看成是一種產(chǎn)業(yè)的話,那么這一產(chǎn)業(yè)能夠取得經(jīng)濟(jì)利益的關(guān)鍵之處,就在于提高對數(shù)據(jù)的“加工能力”,通過對數(shù)據(jù)進(jìn)行加工來做到對數(shù)據(jù)價(jià)值的提升。適用于大數(shù)據(jù)的技術(shù),包括數(shù)據(jù)采集、大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計(jì)算平臺、互聯(lián)網(wǎng)和可擴(kuò)展的存儲系統(tǒng)。下面我們就大數(shù)據(jù)采集方式方法做簡單介紹。
2 數(shù)據(jù)采集的方式方法
2.1系統(tǒng)日志采集方法。絕大部分的互聯(lián)網(wǎng)企業(yè)都擁有自己專屬的海量數(shù)據(jù)采集工具,一般是用于對系統(tǒng)日志進(jìn)行采集,例如Hadoop的Chukwa、Fecebook專用的Scribe以及Cloudera的Flume等等,這些工具都是采取分布式類型的架構(gòu),可以滿足很大的使用需求,絕大多數(shù)都可以滿足每秒時間內(nèi)數(shù)百M(fèi)B的日志數(shù)據(jù)采集以及傳輸需求。
2.2網(wǎng)絡(luò)數(shù)據(jù)采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集方法的意思是說通過利用網(wǎng)絡(luò)爬蟲或者是網(wǎng)站公開API等各種方式從網(wǎng)站上面得到相關(guān)的數(shù)據(jù)信息。使用這種方法能夠非常簡單地將一些非結(jié)構(gòu)化的數(shù)據(jù)從網(wǎng)頁之中抽取出來,并且將這些數(shù)據(jù)信息統(tǒng)一地存儲在本地的數(shù)據(jù)文件之中,并且能夠以結(jié)構(gòu)化的形式進(jìn)行存儲。這種數(shù)據(jù)采集方法能夠采集圖片數(shù)據(jù)信息、音頻數(shù)據(jù)信息以及視頻數(shù)據(jù)信息,而且也能夠采集附件,附件能夠和正文之間自動地關(guān)聯(lián)在一起。除了互聯(lián)網(wǎng)中包含的一些信息內(nèi)容之外,對于那些網(wǎng)絡(luò)流量進(jìn)行采集的時候一般會選擇使用DPI或者是DFI等一些寬帶管理技術(shù)來進(jìn)行處理。
2.3其他數(shù)據(jù)采集方法。對于那些對企業(yè)生產(chǎn)經(jīng)營數(shù)據(jù)或者是有關(guān)學(xué)科的研究數(shù)據(jù)等保密程度要求比較高的數(shù)據(jù)信息來說,可以采用與企業(yè)或者是科學(xué)研究機(jī)構(gòu)進(jìn)行合作的方式,通過使用特定系統(tǒng)接口等一些有關(guān)的方式來對數(shù)據(jù)進(jìn)行收集。
2.4大數(shù)據(jù)采集平臺。Apache Flume。Flume是Apache旗下開發(fā)出來的一款具有多重優(yōu)勢的數(shù)據(jù)采集系統(tǒng),其具有的優(yōu)勢主要有可靠度高、擴(kuò)展性強(qiáng)、管理簡便易行、支持客戶擴(kuò)展等等。Flume是通過Jruby來進(jìn)行構(gòu)建的,因此其運(yùn)行環(huán)境依靠Java來實(shí)現(xiàn)。
Splunk Forwarder。Splunk屬于一個分布式類型的機(jī)器數(shù)據(jù)平臺,主要扮演著三個重要的角色:Search Head承擔(dān)的主要任務(wù)是對數(shù)據(jù)進(jìn)行搜索和處理,同時需要提供搜索過程中的信息抽取情況;Indexer主要負(fù)責(zé)對相關(guān)數(shù)據(jù)進(jìn)行存儲和索引;Forwarder主要負(fù)責(zé)對數(shù)據(jù)進(jìn)行收集、清洗和變形處理,并且發(fā)送給Indexer.
Python屬于一種開源語言,這種語言能夠提供十分豐富的API和工具,能夠通過使用C語言和C++等對這一模塊進(jìn)行編寫和擴(kuò)寫,也能夠通過第三方庫來進(jìn)行,具備非常高的靈活性和適應(yīng)性,所以說越來越多的人開始選擇通過使用Python來對互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行采集和整理。
3 如何用Python進(jìn)行數(shù)據(jù)采集
Python數(shù)據(jù)采集之Scrapy框架,Scrapy是一個快速的屏幕抓取和web抓取框架,用于抓取web站點(diǎn)并從頁面中提取結(jié)構(gòu)化的數(shù)據(jù)。Scrapy用途廣泛,可以用于數(shù)據(jù)挖掘、輿情監(jiān)測和自動化測試。
3.1 Scrapy整體框架。
Scrapy由引擎(Scrapy Engine)、調(diào)度器(Scheduler)、下載器(Downloader)、爬蟲(Spiders)、項(xiàng)目管道(Item Pipeline)、下載器中間件(Downloader Middlewares)、爬蟲中間件(Spider Middlewares)、調(diào)度中間件(Scheduler Middewares)等部件組成。
3.2 Scrapy運(yùn)行流程。
(1)引擎打開域名,指定Spider來處理這個域名,獲取第一個要爬取的URL;
(2)引擎從Spider中獲取第要爬取的URL,并在調(diào)度器以Request請求調(diào)度;
(3)引擎向調(diào)度器請求下一個要爬取的URL;
(4)調(diào)度返回要爬取的URL給引擎,引擎通過下載中間件將URL發(fā)送到下載器;
(5)下載器生成一個該網(wǎng)頁Response響應(yīng),將其通過下載中間件發(fā)送給引擎;
(6)引擎從下載器接收Response響應(yīng),并通過Spider中間發(fā)送給Spider;
(7)Spider處理Response響應(yīng),并返回爬取到Item和新的Request請求;
(8)引擎將爬取到的Item給Item Pipeline,將Request請求發(fā)給調(diào)度器;
(9)重復(fù)(2)操作,度器中沒有新Request請求,引擎斷開與該域名的鏈接。
3.3 采集實(shí)例。獲取某電影網(wǎng)站的排名數(shù)據(jù)采用Python實(shí)現(xiàn)方式如下:
import requests
import re
Url = 'http://dianying.2345.com/top/meiguo.html'
response = requests.get(Url)
html = response.text
#print(html)
#
pattern = re.compile(r'TOP(.*?).*?.*?
主演:.*?.*?
(.*?)
.*?re_result = re.findall(pattern,html)
list = re_result
i =list[:]
for i in list:
print (i)
#print(re_result)'''
pattern = re.compile(r'TOP(.*?)')
re_result = re.findall(pattern,html)
print(re_result)'''
程序運(yùn)行結(jié)果如下:
4 結(jié)論
當(dāng)前,社會已經(jīng)進(jìn)入了一個信息化時代,掌握了豐富多彩的信息,也就等于掌握了制勝的關(guān)鍵。市場競爭越來越激烈,科學(xué)技術(shù)的運(yùn)用能夠?yàn)槠髽I(yè)的發(fā)展增添動力。通過本文的研究也能夠看出,大數(shù)據(jù)的使用能夠?yàn)槠髽I(yè)運(yùn)營和決策帶來諸多的便利。從長遠(yuǎn)來看,大數(shù)據(jù)必然將迎來一個又一個發(fā)展高峰,也將為社會的發(fā)展帶來更多的機(jī)遇和挑戰(zhàn)。
參考文獻(xiàn):
[1]顧軍林.大數(shù)據(jù)在農(nóng)業(yè)無人機(jī)上的應(yīng)用研究[J].農(nóng)機(jī)化研究,2018(04):213-217.
[2]黃金國,劉濤,周先春,嚴(yán)錫君.基于可變粒度機(jī)會調(diào)度的網(wǎng)絡(luò)大數(shù)據(jù)知識擴(kuò)充算法[J/OL].計(jì)算機(jī)應(yīng)用研究,2019(03):1-3
[3]王承軍. 高并發(fā)大數(shù)據(jù)在線學(xué)習(xí)系統(tǒng)中的關(guān)鍵技術(shù)研究[D].中國地質(zhì)大學(xué),2015.