国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)爬蟲數(shù)據(jù)采集技術(shù)在旅游行業(yè)中的應(yīng)用與實現(xiàn)

2021-09-08 02:02張鵬
中國新通信 2021年14期
關(guān)鍵詞:爬蟲網(wǎng)頁頁面

張鵬

引言:

目前,我國開啟了全面建設(shè)社會主義現(xiàn)代化國家的新征程。面對國內(nèi)外環(huán)境復(fù)雜多變形勢,我國提出加快構(gòu)建以國內(nèi)大循環(huán)為主體,國際國內(nèi)雙循環(huán)相互促進的新發(fā)展戰(zhàn)略。旅游業(yè)作為國家經(jīng)濟社會發(fā)展的重要組成部分既有新機遇,也面臨新挑戰(zhàn)。

科學(xué)技術(shù)飛速發(fā)展,為旅游業(yè)提供了新動能,也提出了創(chuàng)新發(fā)展的新要求。大數(shù)據(jù)、互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等新一輪信息技術(shù)不斷突破,深刻地改變著旅游業(yè)的發(fā)展格局,用數(shù)據(jù)管理、服務(wù)、決策,對于培育繁榮國內(nèi)旅游市場,充分釋放內(nèi)需潛力,促進國內(nèi)大循環(huán),具有十分重要的支撐作用。

一、用數(shù)據(jù)支撐管理已成為政府部門迫切需要

旅游行業(yè)是多種行業(yè)服務(wù)的綜合集成,有很強的復(fù)雜性和綜合性,涉及旅游、交通、天氣、酒店、餐飲等多個服務(wù)行業(yè),需要多個行業(yè)通力合作提供一盤棋服務(wù)。國內(nèi)著名景點景區(qū)的供給數(shù)量相對于眾多游客差距,面對大量游客的需求,再加上重要節(jié)假日時間較集中,經(jīng)常會出現(xiàn),由于出行計劃路線沖突導(dǎo)致游客擁擠,旅游體驗質(zhì)量不高等問題。目前,旅游行業(yè)有關(guān)管理部門,為加強管理,提升服務(wù)質(zhì)量,要求各地嚴格落實“限量、預(yù)約、錯峰”措施,控制好接待游客數(shù)量,引導(dǎo)游客間隔進入景區(qū)、錯峰進行游覽,將流量管控關(guān)口前置,及時發(fā)布旅游提示,為游客出行提供參考。面對以上需要,旅游行業(yè)有關(guān)管理部門可借助大數(shù)據(jù)分析,強化行業(yè)管理,開展業(yè)務(wù)和服務(wù)模式創(chuàng)新。

基于這樣的需求,經(jīng)過前期可行性分析和統(tǒng)一規(guī)劃,本文將采用網(wǎng)絡(luò)爬蟲等數(shù)據(jù)采集技術(shù),對互聯(lián)網(wǎng)旅游信息進行掃描汲取,實現(xiàn)對網(wǎng)絡(luò)旅游信息的采集。旅游行業(yè)有關(guān)管理部門可再結(jié)合多年來建設(shè)相關(guān)信息系統(tǒng)形成的數(shù)據(jù)積累,實現(xiàn)旅游相關(guān)信息多維度采集和匯總,為實現(xiàn)數(shù)據(jù)的多維度挖掘和關(guān)聯(lián)分析,輔助相關(guān)政策出臺、旅游提示發(fā)布等提供科學(xué)數(shù)據(jù)支撐。

二、互聯(lián)網(wǎng)旅游信息采集需求

目前,我國網(wǎng)民規(guī)模為9.04億。游客通過網(wǎng)絡(luò)方式查詢制定出行計劃、定制購買旅游產(chǎn)品、分享出行體驗、投訴問題意愿強烈。借助網(wǎng)絡(luò)爬蟲等技術(shù),對互聯(lián)網(wǎng)多維度旅游信息進行采集,具有部署方便、運行高效、采集穩(wěn)定等優(yōu)勢。

旅游采集數(shù)據(jù)類型多樣,涵蓋旅游產(chǎn)品資源、營銷推廣、輿情觀點、游客行為等多個方面。旅游資源信息,指旅游要素的基礎(chǔ)數(shù)據(jù)項,主要包括旅游目的地、星級酒店、A級景區(qū)、旅行社及導(dǎo)游等要素的基礎(chǔ)信息。旅游營銷信息,指旅游產(chǎn)品或旅游服務(wù)的生產(chǎn)商所提供的旅游服務(wù)、產(chǎn)品和項目。旅游輿情監(jiān)測信息,對互聯(lián)網(wǎng)上旅游者及旅游相關(guān)的言論和觀點進行監(jiān)測和預(yù)測的行為。游客網(wǎng)絡(luò)行為信息,通過互聯(lián)網(wǎng)上的信息分析,研究游客的網(wǎng)絡(luò)行為,從而進行網(wǎng)絡(luò)用戶分析,用戶消費潛力、消費行為和消費動機分析等。

旅游采集數(shù)據(jù)來源渠道廣泛,既包括景區(qū)、旅行社、酒店等網(wǎng)站的結(jié)構(gòu)化旅游要素,也包括博客、新聞、貼吧、微博等非結(jié)構(gòu)化旅游衍生數(shù)據(jù)。旅游資源信息,主要來源于省、市級旅游行政管理部門政務(wù)網(wǎng)站和資訊網(wǎng)站。旅游營銷信息,主要來自星級酒店、A級景區(qū)、旅行社等旅游企業(yè)網(wǎng)站信息和導(dǎo)游信息。旅游輿情信息,主要來自門戶網(wǎng)站微博、國內(nèi)知名論壇、重要輿情網(wǎng)站,社交網(wǎng)絡(luò)和社區(qū)。游客網(wǎng)絡(luò)行為信息,主要來自對攜程網(wǎng)、美團點評、去哪兒網(wǎng)等評價類數(shù)據(jù)。

旅游采集方式及更新頻率需全面考慮數(shù)據(jù)類型和數(shù)據(jù)渠道各自特征,可按照動態(tài)和靜態(tài)對相關(guān)采集信息進行分類設(shè)置。動態(tài)信息是指交通、天氣、價格、促銷、展會等隨時或較短時間內(nèi)會發(fā)生變化的旅游信息,還包括熱點新聞、重大活動、旅游市場動態(tài)等信息。靜態(tài)信息是指法律法規(guī)、企業(yè)名稱地址、簡介設(shè)施等隨時間變化不頻繁的信息。動態(tài)信息需要即時更新,靜態(tài)信息可以根據(jù)實際情況設(shè)定更新周期。更新周期不同可根據(jù)信息的屬性,一般可分為實時更新、變即更新、定期更新等幾類。

三、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)設(shè)計

旅游行業(yè)數(shù)據(jù)涉及行業(yè)具有綜合性和復(fù)雜性等特點,既要加強與氣象、交通、公安等政府部門橫向合作,又要加強與運營商、在線電商、搜索引擎等行業(yè)和自媒體的縱向融合??傮w設(shè)計思路主要有三方面考慮,一是多樣性數(shù)據(jù)采集方式。旅游數(shù)據(jù)種類眾多、分布廣泛,數(shù)據(jù)采集需要綜合接口開發(fā)、網(wǎng)上抓取等多種方式。二是先進數(shù)據(jù)整合架構(gòu)。旅游數(shù)據(jù)來源廣泛、異構(gòu)種類多,數(shù)據(jù)整合管理難度高,采用比較成熟第三方軟件是一種較好的方案。三是通過應(yīng)用提高科學(xué)管理。整合各方旅游數(shù)據(jù)形成旅游信息資源數(shù)據(jù)庫,可通過大數(shù)據(jù)分析挖掘里面蘊藏的大量價值信息。數(shù)據(jù)采集系統(tǒng)主要實現(xiàn)互聯(lián)網(wǎng)數(shù)據(jù)采集渠道、采集策略和采集內(nèi)容管理等三個部分。主要是通過網(wǎng)絡(luò)爬蟲等技術(shù),對網(wǎng)絡(luò)信息采集、處理,其主要技術(shù)包括以下幾部分:

3.1主題初始化

主題初始化模塊首先要配置好旅游相關(guān)的景區(qū)、酒店、旅行社等主題詞庫,然后將把一些與主題相關(guān)度緊密度高的URL存在相關(guān)數(shù)據(jù)庫中,為爬蟲采集工作做好準備。

3.2網(wǎng)絡(luò)機器人

1.網(wǎng)頁下載:爬蟲向目標網(wǎng)頁的WEB應(yīng)用服務(wù)器請求頁面,根據(jù)REP協(xié)議要求下載相關(guān)頁面并存入庫中,并建立索引。

2.解析HTML:按照預(yù)先設(shè)定好的規(guī)則,提取網(wǎng)頁中有用信息,以文本格式保存用于后期分析,并將新提取出來的URL存入URL隊列,這樣就進入了一個循環(huán)。

3.3信息過濾

在爬蟲工作前,需要預(yù)先分析網(wǎng)頁或者URL,提取與主題相關(guān)度高的網(wǎng)頁或URL鏈接。具體說來,信息過濾模塊包含如下功能:

1.頁面與主題的相關(guān)度判定:第一設(shè)定一個主題相關(guān)度閾值A(chǔ),當(dāng)采集頁面的主題相關(guān)度小于A,則判定過濾該網(wǎng)頁,否則添加并下載該頁面,并對其建立索引。主題相關(guān)度閾值A(chǔ)的初值可以設(shè)置小一點,采用機器學(xué)習(xí)的方法不斷迭代更新該閾值,至其收斂。

2. URL與主題的相關(guān)度判定:為了快速提高所需信息獲取的準確率和效率,需要先判斷采集的URL與預(yù)設(shè)主題是否相關(guān),稱作鏈接過濾。本采集系統(tǒng)采用TDT(Topic Detection and Tracking)、Pagerank算法對URL與主題相關(guān)度進行判定。

3.4分詞索引

1.中文分詞。中文分詞簡單言之就是講整段話進行加標點處理,使其具備實際詞條意義。英文分詞比中文分詞更加簡單,使其26個字母實現(xiàn)其實際的含義,也就是變成一個個的單詞。

目前,幾大流行的中文分詞主要有PaoDing、Imdict、Mmseg4j、IK等工具,IK分詞器以其自帶詞庫量大且速度快占用內(nèi)存小等優(yōu)勢被本系統(tǒng)而采用。旅游行業(yè)綜合性、復(fù)雜性強涉及信息領(lǐng)域種類多樣,需要IK分詞各類專業(yè)詞庫的支持。

2.本文在數(shù)據(jù)檢索服務(wù)方面,采用是Solr分布式全文檢索服務(wù)器。其本身具有的API接口類型與Web-service的類似。用戶通過http協(xié)議進入所需Web頁面查找,同時提交XML文件給搜索引擎服務(wù)器,Web頁面顯示出來的結(jié)果是XML格式的結(jié)果。

由于采集系統(tǒng)需采集網(wǎng)頁規(guī)模比較大、搜索的頁面非常多,采用分布式數(shù)據(jù)采集技術(shù),會明顯提高系統(tǒng)的性能,可以實現(xiàn)更快的采集速度和更高的采集性能。在執(zhí)行Web信息采集任務(wù)時,利用多并發(fā)信息采集節(jié)點協(xié)同工作,且每一個節(jié)點的計算資源也可獨立運算。

采集系統(tǒng)提供了比較高效的網(wǎng)絡(luò)信息的采集工具,主要包括元搜索、定向深度搜索、網(wǎng)絡(luò)智能機器人深網(wǎng)搜索三種互補的策略。

四、互聯(lián)網(wǎng)旅游信息采集系統(tǒng)實現(xiàn)及應(yīng)用

為方便日常管理及使用,旅游信息采集系統(tǒng)需要實現(xiàn)對采集信息的實時、快速、靈活的瀏覽和顯示,以方便對各類信息的審核。

可對各類的旅游信息按照地域、時效、來源、類型、內(nèi)容進行多維度篩選檢索查看,對需要的各類型的信息進行相應(yīng)的審核處理。

以采集北京“故宮”景區(qū)信息為例,展示從爬蟲配置、采集信息管理到最后數(shù)據(jù)庫查詢等功能實現(xiàn)。

4.1配置爬蟲程序

網(wǎng)絡(luò)爬蟲工具內(nèi)置一個網(wǎng)頁瀏覽器,用戶不但可以靈活定義網(wǎng)頁中要采集的任意內(nèi)容,而且可以完全模擬瀏覽操作網(wǎng)頁的所有步驟(如輸入注冊信息、循環(huán)、翻頁等),并自動形成一個網(wǎng)絡(luò)智能爬蟲,實現(xiàn)網(wǎng)頁信息的自動采集。

4.2生成智能爬蟲

配置爬蟲腳本文件并設(shè)定了爬蟲的名稱和調(diào)度時間等信息。執(zhí)行腳本,爬蟲就正常工作了,并將采集到的網(wǎng)頁同步到待審頁面進行一定的人工審核。

4.3采集系統(tǒng)采集策略定向配置

輸入“故宮”可以查到爬蟲從各個來源采集到的信息,需要人工進行一定的合并、添、刪除等數(shù)據(jù)處理工作。

4.4數(shù)據(jù)庫查詢驗證

在數(shù)據(jù)庫中查詢“故宮”采集信息的覆蓋范圍情況,執(zhí)行select * from travel where name like '%故宮%' and cite=858語句,用戶可對采集渠道進行驗證。

五、下一步工作展望

政府管理部門通過打破“系統(tǒng)煙囪”“數(shù)據(jù)孤島”,形成覆蓋政府各級部門的多級聯(lián)動、共建共享的業(yè)務(wù)協(xié)同格局,并應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)對政府?dāng)?shù)據(jù)和社會信息的匯聚、存儲和關(guān)聯(lián)分析,可以有效激活數(shù)據(jù)資源價值,從中發(fā)現(xiàn)新問題、創(chuàng)新新動能、提升新能量,為政府政策制定科學(xué)化、行業(yè)監(jiān)管精準化和社會服務(wù)高效化提供重要支撐。隨著信息技術(shù)不斷發(fā)展,大量游客行為被記錄,越來越多的數(shù)據(jù)可以被加以利用。在數(shù)據(jù)源頭,本文雖然利用一種成熟方便數(shù)據(jù)采集技術(shù)實現(xiàn)了多種數(shù)據(jù)采集。

但是由于旅游數(shù)據(jù)信息來源比較普遍,采集量巨大,爬蟲智能有限,即便增加各種采集策略,難免會出現(xiàn)漏采,缺采等情況發(fā)生,采集過程中很難保證各類旅游數(shù)據(jù)源的數(shù)據(jù)采集量和采集質(zhì)量。所以旅游數(shù)據(jù)采集在渠道覆蓋、持續(xù)采集、人工參與量大等方面還存難點,今后工作重點在以下兩方面:

1.優(yōu)化采集策略,開發(fā)更加智能的采集程序是旅游大數(shù)據(jù)分析中的一個必要突破點。

2.旅游數(shù)據(jù)的維度多,可分析主題廣泛,分析模型根據(jù)以往的經(jīng)驗建立會存在局限性,不能體現(xiàn)“讓數(shù)據(jù)說話”的過程,如何有效的建立更符合實際情況的分析模型也是下一步工作中必須要考慮的問題。

參? 考? 文? 獻

[1]鄭鑫臻,吳韶波,基于網(wǎng)絡(luò)爬蟲技術(shù)的時令旅游信息獲取[J].物聯(lián)網(wǎng)技術(shù),2018年05期

[2]劉煥欣,基于匿名網(wǎng)絡(luò)的網(wǎng)絡(luò)爬蟲設(shè)計與實現(xiàn)分析[J].計算機產(chǎn)品與流通,2017年12期

猜你喜歡
爬蟲網(wǎng)頁頁面
答案
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
讓W(xué)ord同時擁有橫向頁和縱向頁
Python反爬蟲設(shè)計
基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
誰搶走了低價機票
搜索引擎怎樣對網(wǎng)頁排序
驅(qū)動器頁面文件大小的總數(shù)為何總是07
網(wǎng)頁智能搜索數(shù)據(jù)挖掘的主要任務(wù)