何邦財
摘 ? 要:大數(shù)據(jù)技術(shù)作為一種新的信息融合應(yīng)用技術(shù),被廣泛應(yīng)用在各個領(lǐng)域中,大數(shù)據(jù)技術(shù)給企業(yè)信息采集工作帶來了各種機遇和新的挑戰(zhàn)。企業(yè)要積極轉(zhuǎn)變工作理念,結(jié)合自身發(fā)展情況和需求有效引進、利用不同信息采集技術(shù),從不同渠道獲取自身需求的信息資料,促進企業(yè)建設(shè)穩(wěn)定持續(xù)的發(fā)展。文章進一步對大數(shù)據(jù)技術(shù)下企業(yè)信息采集技術(shù)展開分析與探討。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);企業(yè);信息采集技術(shù)
大數(shù)據(jù)時代,企業(yè)要想在競爭激烈的市場上始終占據(jù)一席之地,就必須高度重視對自己及相關(guān)的信息采集技術(shù)的創(chuàng)新研究應(yīng)用工作。大數(shù)據(jù)最為顯著的特點是大量、多樣、高速、真實性以及低價值密度,企業(yè)要想從海量數(shù)據(jù)中采集到具有高價值的數(shù)據(jù)信息,就需要搭建起一個專業(yè)完善的數(shù)據(jù)信息采集系統(tǒng),利用不同技術(shù)展開對數(shù)據(jù)的科學提取、轉(zhuǎn)換及加載,為企業(yè)管理工作提供科學參考依據(jù),幫助企業(yè)建設(shè)與管理創(chuàng)造出更多價值。
1 ? ?大數(shù)據(jù)技術(shù)下企業(yè)信息采集工作的優(yōu)勢分析
1.1 ?信息采集系統(tǒng)性
企業(yè)在傳統(tǒng)信息采集工作中,通常采用的是手工操作方式,處理效率低、成本高且準確度不高,缺乏一定的科學系統(tǒng)性。而基于大數(shù)據(jù)技術(shù)輔助應(yīng)用,企業(yè)能夠快速準確采集到自身需求的信息數(shù)據(jù),有效建立起完善的企業(yè)內(nèi)部數(shù)據(jù),完成從傳統(tǒng)信息手工采集到自動化采集的過程轉(zhuǎn)變,全面準確掌握市場用戶的實際發(fā)展情況。同時,最大限度地降低了人工因素對數(shù)據(jù)采集工作準確性帶來的影響[1],有效提升了信息采集工作業(yè)務(wù)的處理質(zhì)量和效率,幫助企業(yè)創(chuàng)造更多經(jīng)濟效益,促使企業(yè)數(shù)據(jù)信息采集變得更加規(guī)范系統(tǒng)性。
1.2 ?信息采集范圍廣泛性
在計算機互聯(lián)網(wǎng)大力發(fā)展的時代背景下,大數(shù)據(jù)技術(shù)能夠幫助企業(yè)在短時間內(nèi)收集到大量自身需求的信息數(shù)據(jù),節(jié)約人工成本。海量的中小企業(yè)分布在各個地區(qū),在計算機互聯(lián)網(wǎng)、云計算技術(shù)以及大數(shù)據(jù)技術(shù)的應(yīng)用下能夠讓中小企業(yè)的數(shù)據(jù)統(tǒng)一集中起來,將實際采集的準確數(shù)據(jù)錄入儲存到計算機系統(tǒng)中,實現(xiàn)對數(shù)據(jù)的實時動態(tài)跟蹤查詢,得出企業(yè)在信息采集工作中應(yīng)用大數(shù)據(jù)技術(shù)能夠保證信息采集范圍的廣泛性,避免數(shù)據(jù)的單一性影響到企業(yè)建設(shè)更好的發(fā)展。
1.3 ?信息采集真實完整性
企業(yè)在傳統(tǒng)信息采集工作中,實際采用的各項數(shù)據(jù)信息處理水平較為落后,難以為企業(yè)提供真實完整的高價值數(shù)據(jù)信息。工作人員往往只會通過基礎(chǔ)抽樣方式展開對各項數(shù)據(jù)的加工處理和存儲,使用樣本大致估計總體特性?,F(xiàn)代企業(yè)通過將大數(shù)據(jù)技術(shù)融入信息采集工作,能夠促使企業(yè)具備高效處理海量數(shù)據(jù)的能力[2]。企業(yè)也能夠從不同渠道中采集到更多信息進行對比處理,減少了由信息獲得偶然性所帶來的影響,充分保障了企業(yè)采集信息數(shù)據(jù)的真實完整性。除此之外,企業(yè)還能夠通過加強對收集信息數(shù)據(jù)的深入加工處理,科學有效地挖掘出更多隱藏在數(shù)據(jù)背后的有價值數(shù)據(jù)信息,為企業(yè)做出最佳管理決策提供科學參考依據(jù)。
2 ? ?大數(shù)據(jù)技術(shù)下企業(yè)信息采集技術(shù)的實踐應(yīng)用
2.1 ?系統(tǒng)日志采集系統(tǒng)
在市場經(jīng)濟發(fā)展過程中,大多數(shù)企業(yè)的經(jīng)濟業(yè)務(wù)平臺每天都會生成各式各樣的日志數(shù)據(jù),針對不同的日志信息,企業(yè)通過深入分析挖掘能夠獲取采集到一定價值的數(shù)據(jù)信息。企業(yè)高層領(lǐng)導要高度重視對內(nèi)部系統(tǒng)日志信息的有效收集和采集工作,安排專業(yè)人員對日志數(shù)據(jù)進行科學地分析處理工作,幫助企業(yè)做出最佳的經(jīng)營管理決策。基于大數(shù)據(jù)技術(shù)的系統(tǒng)日志采集系統(tǒng)是較為先進的,能夠輔助企業(yè)高效收集日志數(shù)據(jù),并提供在線和離線的數(shù)據(jù)實時分析。企業(yè)進行信息數(shù)據(jù)采集時,時常會運用到的開源日志收集系統(tǒng)主要包括Flume,Scribe等。Flume作為一種分布式、安全可靠的服務(wù),能夠幫助企業(yè)科學高效準確地采集到大量日志數(shù)據(jù),具備極好的容錯能力,有著基于流式數(shù)據(jù)流的簡單靈活架構(gòu)。Scribe作為Facebook開源的日志采集系統(tǒng),實質(zhì)是一個分布式共享隊列,能夠幫助企業(yè)實現(xiàn)從不同數(shù)據(jù)源上快速準確地收集到需求日志數(shù)據(jù),同時,將數(shù)據(jù)傳遞到共享隊列中[3]。Scribe能夠支持長期存在的消息隊列,為企業(yè)日志收集系統(tǒng)提供良好的容錯能力,其消息隊列同樣具備較好的容錯能力,能夠?qū)⒏黜椚罩緮?shù)據(jù)有效寫入到本地磁盤中。
2.2 ?網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)
企業(yè)可以通過大數(shù)據(jù)技術(shù),利用網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)完成對各項需求信息的采集工作。如利用網(wǎng)絡(luò)公關(guān)API、網(wǎng)絡(luò)爬蟲等去從各個網(wǎng)站有效收集有價值的數(shù)據(jù)信息,提取大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),將這些數(shù)據(jù)成功轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),并安全存儲到本地文件數(shù)據(jù)庫中。企業(yè)在利用網(wǎng)絡(luò)爬蟲采集信息數(shù)據(jù)時,時常運用到的網(wǎng)頁爬蟲系統(tǒng)主要包括Crawler4j,Apache Nutch以及Scrapy等框架。其中,Crawler4j和Scrapy作為一種爬蟲框架,能夠為企業(yè)開發(fā)技術(shù)人員提供便利的爬蟲API接口,開發(fā)技術(shù)人員則要高度重視怎樣有效實現(xiàn)爬蟲API的接口。Crawler4j和Scrapy框架的應(yīng)用能夠提升開發(fā)技術(shù)人員開發(fā)效率,在短時間內(nèi)實現(xiàn)對爬蟲系統(tǒng)的開發(fā)目標,為企業(yè)在各個網(wǎng)絡(luò)平臺上采集到更多有效數(shù)據(jù)。而Apache Nutch作為一種高度可擴展和可伸縮性的分布式爬蟲框架,其中,Apache是基于分布式完成對網(wǎng)頁數(shù)據(jù)的抓取,由Hadoop支持,在提交MapReduce任務(wù)后去有效抓取網(wǎng)頁數(shù)據(jù),并將抓取到的各項網(wǎng)頁數(shù)據(jù)安全保存到分布式系統(tǒng)基礎(chǔ)架構(gòu)的文件系統(tǒng)(Hadoop Distributed File System,HDFS)中。Nutch可以輔助企業(yè)展開分布式多任務(wù)的爬取數(shù)據(jù),多個設(shè)備同時進行爬取任務(wù),Nutch能夠發(fā)揮出多個設(shè)備的計算資源和存儲能力,全面提升系統(tǒng)爬取數(shù)據(jù)的能力。
2.3 ?數(shù)據(jù)庫采集系統(tǒng)
部分企業(yè)仍然使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫Oracle和MySQL等去完成對各項數(shù)據(jù)的存儲工作,有些也應(yīng)用NoSQL數(shù)據(jù)庫。企業(yè)在日常經(jīng)營管理過程中生成的各項業(yè)務(wù)數(shù)據(jù),會以數(shù)據(jù)庫一行記錄形式被直接寫入到對應(yīng)的數(shù)據(jù)庫中。企業(yè)可通過將數(shù)據(jù)庫采集系統(tǒng)與業(yè)務(wù)后臺服務(wù)器有效結(jié)合在一起,后臺產(chǎn)生的業(yè)務(wù)數(shù)據(jù)被自動寫入數(shù)據(jù)庫中,基于處理分子系統(tǒng)完成對數(shù)據(jù)庫采集系統(tǒng)的分析工作。
在大數(shù)據(jù)技術(shù)發(fā)展應(yīng)用基礎(chǔ)下,企業(yè)廣泛采用的信息采集分析技術(shù)是Hive—美國Facebook公司設(shè)計開發(fā)的一款能夠支持PB級別的可伸縮性數(shù)據(jù)倉庫,建立在Hadoop上的開源數(shù)據(jù)倉庫解決方案。企業(yè)利用Hive信息采集分析技術(shù),有效使用類似SQL的聲明性語言表示的查詢,不同語言能夠被編譯為采用Hadoop執(zhí)行的MapReduce作業(yè)[4]。同時,基于HiveQL技術(shù)使用輔助下,能夠促使用戶將自定義的map-reduce腳本插入到查詢中。當HiveQL語句在被提交執(zhí)行過程中:(1)Driver會把查詢快速準確傳遞給編譯器compiler,經(jīng)過一系列的解析作業(yè)、類型檢查以及語義分析,編譯器運用安全存儲在Metastore中的元數(shù)據(jù)對應(yīng)生成一個邏輯任務(wù)。(2)基于簡單的基于規(guī)則的優(yōu)化器展開優(yōu)化作業(yè)。(3)生成一組MapReduce任務(wù)以及HDFS Task的DAG優(yōu)化后的Task,系統(tǒng)執(zhí)行引擎會利用Hadoop的實際依賴性順序執(zhí)行不同的Task。Hive信息采集分析技術(shù)的應(yīng)用能夠提供各種簡單的HiveQL語句,對企業(yè)數(shù)據(jù)庫中的數(shù)據(jù)展開簡要分析計算,為企業(yè)管理決策提供科學依據(jù)。
3 ? ?結(jié)語
在大數(shù)據(jù)技術(shù)應(yīng)用發(fā)展下,現(xiàn)代企業(yè)要充分發(fā)揮出大數(shù)據(jù)信息采集信息技術(shù)的作用,結(jié)合自身實際發(fā)展情況和需求,有針對性地采用網(wǎng)絡(luò)爬蟲、Hive以及系統(tǒng)日志采集等信息采集技術(shù),科學有效搭建起科學完善的信息自動采集系統(tǒng),為企業(yè)信息采集工作提供有力技術(shù)支持。
[參考文獻]
[1]黃繼鴻,趙新華,王強.信息采集技術(shù)研究與應(yīng)用[J].航空科學技術(shù),2014(6):74-75.
[2]趙紅艷.基于大數(shù)據(jù)技術(shù)的小微企業(yè)信息采集技術(shù)研究[J].科技展望,2015(30):14-17.
[3]戚揚.Web數(shù)據(jù)挖掘信息采集技術(shù)研究及在網(wǎng)絡(luò)新聞自動抓取中的應(yīng)用[J].技術(shù)研究,2015(3):54-56.
[4]HONGYAN Z.Study on the information security of the age of big data[J].International Conference on Computer Science and Software Engineering,2014(5):60-61.