高國連++祖成浩
[摘 要] 文章研究的網(wǎng)絡(luò)素材定向采集技術(shù)課題包括定制管理、控制服務(wù)器、采集器、分析器和上載器五大部分,實(shí)現(xiàn)對網(wǎng)站的實(shí)時(shí)監(jiān)控和自動(dòng)采集,根據(jù)網(wǎng)站更新頻率的變化和系統(tǒng)自身的負(fù)載,自動(dòng)調(diào)整采集間隔,對監(jiān)控站點(diǎn)進(jìn)行增量采集,過濾垃圾信息,及時(shí)高效地采集新出現(xiàn)的網(wǎng)頁信息,為業(yè)務(wù)應(yīng)用系統(tǒng)提供基礎(chǔ)數(shù)據(jù)。
[關(guān)鍵詞] 大數(shù)據(jù);出版;定向采集
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 15. 074
[中圖分類號] TP311 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1673 - 0194(2017)15- 0162- 03
1 背 景
隨著信息時(shí)代的到來,互聯(lián)網(wǎng)技術(shù)和移動(dòng)通信技術(shù)的提高和應(yīng)用普及,人們閱讀習(xí)慣和環(huán)境的明顯變化,數(shù)字出版開始蓬勃發(fā)展。數(shù)字出版目前已經(jīng)成為出版業(yè)極其重要的形態(tài),并將繼續(xù)保持高速發(fā)展。數(shù)字出版技術(shù)的發(fā)展,不斷推動(dòng)著數(shù)字出版產(chǎn)業(yè)的高速前進(jìn)。電子書、AR/VR、網(wǎng)絡(luò)期刊、網(wǎng)絡(luò)音樂、數(shù)字教育、移動(dòng)出版等數(shù)字出版產(chǎn)業(yè)形態(tài)逐步形成。
數(shù)字出版的快速發(fā)展,為出版數(shù)據(jù)定向采集提供了內(nèi)容基礎(chǔ)。在這一背景下,為促進(jìn)傳統(tǒng)出版與新媒體的深度融合發(fā)展,出版行業(yè)大數(shù)據(jù)的定向采集將越來越重要。
2 大數(shù)據(jù)定向采集的技術(shù)關(guān)鍵點(diǎn)
由于網(wǎng)絡(luò)的信息的異構(gòu)性,在進(jìn)行互聯(lián)網(wǎng)信息的采集時(shí),如何采全、采準(zhǔn),并進(jìn)行規(guī)范的整理,具有相當(dāng)?shù)碾y度?,F(xiàn)有的Web搜索引擎主要采用傳統(tǒng)的互聯(lián)網(wǎng)信息采集技術(shù)。傳統(tǒng)的互聯(lián)網(wǎng)信息采集系統(tǒng)追求大的覆蓋面,往往包含用戶不關(guān)心的大量冗余信息,而且存在著效率不高、獲得信息分散、數(shù)據(jù)非結(jié)構(gòu)化等問題。因此,在搜索領(lǐng)域出現(xiàn)了可定制的定向互聯(lián)網(wǎng)信息采集技術(shù)。除了傳統(tǒng)的網(wǎng)絡(luò)爬蟲的基本功能外,定向采集技術(shù)根據(jù)既定的抓取目標(biāo),有選擇的訪問互聯(lián)網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,并能夠?qū)︽溄右约绊撁鎯?nèi)容進(jìn)行識別,對網(wǎng)頁數(shù)據(jù)進(jìn)行分析與抽取。
互聯(lián)網(wǎng)按網(wǎng)頁存在方式可分為“表層網(wǎng)”(Surface Web)和“深層網(wǎng)”(Deep Web)。表層網(wǎng)指傳統(tǒng)互聯(lián)網(wǎng)采集系統(tǒng)可以訪問到的頁面,以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的Web頁面。面向表層網(wǎng)的傳統(tǒng)采集技術(shù)已經(jīng)日臻成熟。深層網(wǎng)是指那些不能通過超鏈接訪問而通過動(dòng)態(tài)網(wǎng)頁技術(shù)訪問的資源集合。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,深層網(wǎng)中的網(wǎng)絡(luò)信息已經(jīng)占據(jù)整個(gè)網(wǎng)絡(luò)信息容量的80%,越來越多的論壇回帖、新聞跟貼等互動(dòng)式的互聯(lián)網(wǎng)輿情信息采用動(dòng)態(tài)網(wǎng)頁發(fā)布技術(shù),面向深層網(wǎng)的網(wǎng)絡(luò)信息采集系統(tǒng)已經(jīng)成為搜索技術(shù)發(fā)展的主要趨勢之一。目前,已經(jīng)有了基于領(lǐng)域知識、基于腳本、基于網(wǎng)頁結(jié)構(gòu)分析等動(dòng)態(tài)網(wǎng)頁抓取技術(shù),但深層網(wǎng)的采集還面臨著許多困難和挑戰(zhàn)。
3 大數(shù)據(jù)定向采集技術(shù)研究內(nèi)容
大數(shù)據(jù)定向采集技術(shù)既能夠自動(dòng)從互聯(lián)網(wǎng)上采集多種類型的網(wǎng)頁數(shù)據(jù),也能夠根據(jù)具體某個(gè)主題的特定需要,采集指定范圍內(nèi)的或單條的互聯(lián)網(wǎng)信息,然后對采集到的內(nèi)容進(jìn)行自動(dòng)消重、提取關(guān)鍵詞和摘要信息、自動(dòng)分析等一系列的處理。
在采集過程中,定向采集技術(shù)支持豐富的采集規(guī)則并可靈活的設(shè)定采集范圍。在采集任務(wù)調(diào)度方面即可設(shè)置為定時(shí)定點(diǎn)采集、周期性自動(dòng)下載、多時(shí)刻下載,也可以根據(jù)網(wǎng)站自身的內(nèi)容發(fā)布規(guī)律進(jìn)行自適應(yīng)的采集。在內(nèi)容抽取方面,既可以針對具體的網(wǎng)站內(nèi)容根據(jù)預(yù)先定制的數(shù)據(jù)分析模板進(jìn)行精確的內(nèi)容抽取,也可以根據(jù)特有算法和策略自動(dòng)抽取網(wǎng)頁內(nèi)容。
大數(shù)據(jù)定向采集技術(shù)最終抽取分析后輸出的數(shù)據(jù)可支持多編碼多格式的輸出,不僅僅為已有的其他業(yè)務(wù)系統(tǒng)提供基礎(chǔ)數(shù)據(jù),也可以在將來為更多的新業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)。
4 大數(shù)據(jù)定向采集技術(shù)架構(gòu)
網(wǎng)絡(luò)素材定向采集技術(shù)課題包括定制管理、控制服務(wù)器、采集器、分析器和上載器五大部分。
4.1 網(wǎng)站流程定義及分析模板定制與管理
定制管理部分主要負(fù)責(zé)對網(wǎng)站的抓取流程進(jìn)行定制,以及根據(jù)待抓取的網(wǎng)站結(jié)構(gòu)特征定制相應(yīng)的數(shù)據(jù)分析模板。
網(wǎng)站定制:負(fù)責(zé)進(jìn)行網(wǎng)站抓取流程定制,需要定制的內(nèi)容主要包括采集范圍定定義、抓取深度、刷新方式、數(shù)據(jù)保存方式等。
模板定制:負(fù)責(zé)進(jìn)行數(shù)據(jù)分析模板的定制,需要定制的內(nèi)容主要包括鏈接提取規(guī)則、采集區(qū)域定義、標(biāo)題提取規(guī)則、正文提取規(guī)則、時(shí)間提取規(guī)則、作者提取規(guī)則、來源提取規(guī)則等。整個(gè)數(shù)據(jù)分析模板以XML格式的文件保存。
批量驗(yàn)證:負(fù)責(zé)針對已定制的采集任務(wù)和模板進(jìn)行有效性驗(yàn)證,批量驗(yàn)證的方式可大大提高驗(yàn)證的效率,采用多線程的方式進(jìn)行數(shù)據(jù)抓取和分析的驗(yàn)證。
自動(dòng)分發(fā):負(fù)責(zé)自動(dòng)獲取各個(gè)采集服務(wù)器上運(yùn)行的任務(wù)和模板信息,自動(dòng)將更新后或修改后的任務(wù)和模板詳細(xì)內(nèi)容更新到各個(gè)采集服務(wù)終端,節(jié)省維護(hù)成本。
4.2 采集控制服務(wù)器
控制服務(wù)器主要負(fù)責(zé)與定制管理工具的通訊以及與其他課題之間的請求接收與發(fā)送,另外還負(fù)責(zé)所有采集任務(wù)和分析模板的維護(hù),以及根據(jù)實(shí)際采集任務(wù)的需要?jiǎng)討B(tài)加載相應(yīng)的鏈接庫信息。
通訊管理:負(fù)責(zé)監(jiān)聽各個(gè)課題發(fā)送的請求信息,并將處理后的結(jié)果返回給各個(gè)課題。負(fù)責(zé)監(jiān)聽定制管理工具發(fā)送的請求信息,進(jìn)行任務(wù)和模板的添加、修改、刪除等處理,并將下載狀態(tài)信息返回給定制管理工具。
任務(wù)管理:負(fù)責(zé)維護(hù)所有的采集任務(wù)。
模板管理:負(fù)責(zé)維護(hù)所有的數(shù)據(jù)分析模板。
插件管理:根據(jù)采集實(shí)際所需,動(dòng)態(tài)加載相應(yīng)類型的動(dòng)態(tài)鏈接庫文件,實(shí)現(xiàn)靈活的可擴(kuò)展支持。
配置管理:負(fù)責(zé)加載所有相關(guān)的配置文件信息,并將該信息提供給采集器和分析器使用。
4.3 多形態(tài)信息采集器
多形態(tài)信息采集器主要負(fù)責(zé)原始網(wǎng)頁數(shù)據(jù)的采集、圖片、附件等的采集工作。整個(gè)采集器針對網(wǎng)頁采集的整個(gè)流程需要,具體劃分為以下模塊。endprint
自動(dòng)刷新:根據(jù)網(wǎng)站內(nèi)容的發(fā)布規(guī)律,自動(dòng)調(diào)整采集任務(wù)的刷新間隔時(shí)間,達(dá)到更快的下載速度。
定點(diǎn)采集:根據(jù)各課題的業(yè)務(wù)應(yīng)用需要,定時(shí)刷新采集任務(wù)。
多層抓?。喊凑杖蝿?wù)指定的采集深度,抓取一定層數(shù)的網(wǎng)頁數(shù)據(jù)。
自動(dòng)消重:自動(dòng)根據(jù)鏈接信息對采集的網(wǎng)頁信息進(jìn)行消重,避免下載重復(fù)數(shù)據(jù)。
域名管理:負(fù)責(zé)進(jìn)行域名解析,并維護(hù)已解析的域名信息,提高網(wǎng)絡(luò)請求的效率。
列表頁解析:負(fù)責(zé)對采集到的列表頁網(wǎng)頁數(shù)據(jù)進(jìn)行解析,提取內(nèi)容頁網(wǎng)頁的標(biāo)題和鏈接信息等。
4.4 內(nèi)容分析器
內(nèi)容分析器主要負(fù)責(zé)對采集器采集到的網(wǎng)頁數(shù)據(jù)進(jìn)行內(nèi)容抽取。具體包括以下模塊。
基于模板的抽?。菏褂枚ㄖ频臄?shù)據(jù)分析模板對網(wǎng)頁內(nèi)容進(jìn)行關(guān)鍵項(xiàng)抽取。具體的抽取按照網(wǎng)站類型進(jìn)一步劃分為各個(gè)子模塊,每個(gè)子模塊以動(dòng)態(tài)鏈接庫的方式存在,可靈活擴(kuò)展。
自動(dòng)抽?。翰捎米詣?dòng)抽取算法對網(wǎng)頁內(nèi)容進(jìn)行抽取。
翻頁鏈接處理:根據(jù)采集任務(wù)的需要,將提出出來的翻頁鏈接信息通過控制服務(wù)器發(fā)送給采集器,讓采集器繼續(xù)采集這些網(wǎng)頁信息。
多頁合并:將一篇新聞的多個(gè)網(wǎng)頁信息經(jīng)過內(nèi)容抽取后,合并為一份完整的正文,輸出到指定目錄。
數(shù)據(jù)輸出:將所有抽取完畢后的數(shù)據(jù)以約定的數(shù)據(jù)格式存儲(chǔ)到本地磁盤或指定目錄。
4.5 上載器
上載器主要負(fù)責(zé)對分析器分析輸出的結(jié)果文件進(jìn)行入庫的處理。通過調(diào)用文本挖掘技術(shù)提供的接口,進(jìn)行關(guān)鍵詞和摘要的提取,并進(jìn)行自動(dòng)分類和垃圾信息過濾,最終將這些內(nèi)容存儲(chǔ)到資源庫管理系統(tǒng)中,同時(shí)將圖片、附件等上傳至指定的文件服務(wù)器。
5 總 結(jié)
大數(shù)據(jù)定向采集技術(shù)實(shí)現(xiàn)了對網(wǎng)站的實(shí)時(shí)監(jiān)控和自動(dòng)采集,根據(jù)網(wǎng)站更新頻率的變化和系統(tǒng)自身的負(fù)載,自動(dòng)調(diào)整采集間隔,對監(jiān)控站點(diǎn)進(jìn)行增量采集,過濾垃圾信息,及時(shí)高效的采集新出現(xiàn)的網(wǎng)頁信息。大數(shù)據(jù)定向采集技術(shù)面向出版、外宣、政府等行業(yè)進(jìn)行數(shù)據(jù)采集,為業(yè)務(wù)應(yīng)用系統(tǒng)提供基礎(chǔ)數(shù)據(jù)。
主要參考文獻(xiàn)
[1]付華崢,陳翀,向勇,等.分布式大數(shù)據(jù)采集關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[J].廣東通信技術(shù),2015,35(10):7-10.
[2]王亮.互聯(lián)網(wǎng)大數(shù)據(jù)采集與處理技術(shù)要點(diǎn)[J].大科技,2016(33).
[3]司雨昌.網(wǎng)絡(luò)大數(shù)據(jù)的采集與處理方式研究[J].移動(dòng)信息,2016 (12):121-122.endprint