一種基于爬蟲和html 特征提取的移動端跨應(yīng)用資訊整合展示方案

2019-12-04 14:34林帆南京熊貓漢達科技有限公司秦曉華泰證券股份有限公司

數(shù)碼世界 2019年11期

林帆南京熊貓漢達科技有限公司秦曉華泰證券股份有限公司

一、借助爬蟲技術(shù)以及html 特征提取技術(shù)進行移動端跨應(yīng)用資訊整合研究的背景

進入新世紀后，互聯(lián)網(wǎng)開始迅速普及和快速發(fā)展，與傳統(tǒng)的信息傳播方式及娛樂形式相比，互聯(lián)網(wǎng)無疑為人們提供了一個更加便利快捷的平臺。近年來，借助網(wǎng)絡(luò)技術(shù)來進行重要資訊的搜索，已經(jīng)成為了人們?nèi)粘Ｉ钪斜貍涞募寄?，如何在進行搜索時進一步提升其智能化水平，最大程度的方便用戶的生活，是網(wǎng)絡(luò)設(shè)計人員十分關(guān)注的重點。用戶在瀏覽不同地址內(nèi)的網(wǎng)絡(luò)內(nèi)容時接收到海量信息，如何進行系統(tǒng)級信息整合，是一個亟待研究和解決的技術(shù)問題。想要通過智能化的手段對相關(guān)的數(shù)據(jù)信息進行搜索，僅僅通過人力是難以完成的，因此，借助網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來對移動端跨應(yīng)用資訊進行整合和展示，使得資訊更加便于管理和瀏覽，便具有其特殊的價值。

二、基于爬蟲以及html 特征提取進行移動端跨應(yīng)用資訊整合展示平臺的具體設(shè)計

網(wǎng)絡(luò)爬蟲技術(shù)，也稱網(wǎng)頁信息采集器，是在進行互聯(lián)網(wǎng)登錄時對網(wǎng)頁的計算機程序和自動化腳本進行下載的技術(shù)，它作為搜索引擎的重要組成部分，能夠從一個獨立的URL 開始對網(wǎng)頁信息數(shù)據(jù)進行存儲，然后通過關(guān)鍵詞進行信息的篩選，最終選出最恰當(dāng)?shù)臄?shù)據(jù)。通過網(wǎng)絡(luò)爬蟲技術(shù)和html 特征提取技術(shù)的聯(lián)合應(yīng)用，能夠?qū)崿F(xiàn)對用戶所需數(shù)據(jù)的智能化提出、整合以及在移動端的展示。

首先，需要建立一個智能化數(shù)據(jù)提取及呈列系統(tǒng)，該系統(tǒng)主要由URL 發(fā)現(xiàn)、html 解析和提取、互聯(lián)網(wǎng)數(shù)據(jù)存儲以及數(shù)據(jù)統(tǒng)計四個部分組成。

目前展示網(wǎng)頁主要有兩種方式，1. 使用Android WebView 加載HTML5，2.使用HTTP 獲取到文章的內(nèi)容，在前端通過TextView的方式來展示。因此想獲取到文章的信息，就要針對這兩種方式分別考慮：

針對WebView 加載HTML5 的方式，在Android 系統(tǒng)層面，可以直接通過Android Webview API 讀取到當(dāng)前應(yīng)用WebView 中加載的URL。這樣就可以很方便的獲取到網(wǎng)頁的URL；針對使用TextView 展示的文章，設(shè)計者可以通過Android FrameWork 讀取到TextView 中展示的信息，并通過規(guī)則匹配，獲取到文章的標題和部分文章內(nèi)容，然后使用爬蟲的方式來通過標題、部分內(nèi)容獲取到網(wǎng)頁的URL。

html 網(wǎng)頁解析模塊，則是指對網(wǎng)頁信息進行解析，當(dāng)解析出來的網(wǎng)頁不屬于html 網(wǎng)頁的范疇后，之后的步驟將會被省略，從而實現(xiàn)數(shù)據(jù)的高效解析。在完成網(wǎng)頁的解析之后，需要針對用戶的需求進行數(shù)據(jù)提取，而數(shù)據(jù)的提取設(shè)置需要人工智能技術(shù)的應(yīng)用，避免傳統(tǒng)的命令式搜索導(dǎo)致搜索結(jié)果實用性不強等情況的出現(xiàn)。通過HttpClient 請求網(wǎng)頁URL，利用JSoup 來解析頁面源碼，就可以獲取到頁面HTML 源碼，接著對下載到的HTML 源碼進行提取正文并轉(zhuǎn)碼，從而實現(xiàn)對網(wǎng)頁的收藏功能，并支持離線搜索。

互聯(lián)網(wǎng)數(shù)據(jù)存儲和統(tǒng)計模塊，是指將網(wǎng)頁的信息資料進行存儲并用于統(tǒng)計的部分，這部分在應(yīng)用的過程中通過將一些常用的漢語詞進行組合，形成對應(yīng)的構(gòu)成詞，在進行智能化搜索時，借助構(gòu)成詞來進行信息的高效檢索，并建立能夠適用于移動端的跨APP 信息整合展示平臺。

三、爬蟲技術(shù)及html 特征提取技術(shù)在移動端跨應(yīng)用資訊整合展示中的優(yōu)勢

借助網(wǎng)絡(luò)爬蟲技術(shù)以及html 特征提取技術(shù)，能夠首先建立一個獨立的搜索引擎，即建立一個有效的信息處理引擎，這個引擎能夠?qū)⑤斎氲年P(guān)鍵詞作為搜索指征，從而對整個網(wǎng)絡(luò)頁面進行搜索，一般來說，搜索引擎是包括三個部分的，即上下層的搜索引擎以及與移動端進行信息連接和傳遞的結(jié)構(gòu)?，F(xiàn)階段，下層引擎最常見的是文本處理和轉(zhuǎn)碼引擎，而上層則采用了智能化搜索引擎如dart framework 等。通過這種引擎的應(yīng)用，有效改善了傳統(tǒng)非智能化搜索引擎“命令搜索法”造成搜索整理內(nèi)容較為生硬的情況，并且避免了搜索頁面快速跳躍，部分網(wǎng)頁內(nèi)容無法覆蓋的問題。

其次，通過在上層搜索引擎中引入dart framework，能夠為基于html 特征提取的資訊整合技術(shù)提供更多的選擇手段，使得搜索形式更加豐富多樣。具體來說，通過應(yīng)用dart framework，使得原有的單一命令式搜索轉(zhuǎn)變?yōu)楫?dāng)前的AOT 搜索模式以及JIT 搜索模式兩種模式。在非移動終端進行使用時，需要應(yīng)用AOT 模式來對輸入的關(guān)鍵詞以及特征信息進行提取和計算，將其快速的轉(zhuǎn)換為計算機代碼，從而在短時間內(nèi)獲取到極大量的相關(guān)數(shù)據(jù)信息，這對于展示平臺的建設(shè)是大有裨益的。正是因為AOT 搜索模式的上述特性，它常常被用作計算機的搜索上，可顯著提升搜索效率，方便工作人員建立工作庫。而JIT 搜索模式，則能夠?qū)⒁恍┲攸c、搜索率更高的信息首先呈遞給移動端的用戶，讓他們通過瀏覽最重要的信息獲取到相應(yīng)的結(jié)果，并且在這個結(jié)果上進行引申，查詢到更多相關(guān)的結(jié)果。

另外，在進行移動端跨應(yīng)用資訊的搜索和整合時，需要建立相應(yīng)的搜索頁面和數(shù)據(jù)呈現(xiàn)頁面，而這一頁面是通過參照widget tree 來實現(xiàn)的，盡管這種樹狀圖看起來較為繁瑣，不容易獲取到關(guān)鍵信息，但是當(dāng)捋順它的原理之后，能夠快速，簡便的獲取到網(wǎng)頁上符合特征提取技術(shù)輸入關(guān)鍵詞的信息，因此，通過這種技術(shù)的應(yīng)用能夠有效簡化流程，并提升搜索效率。

四、結(jié)語

綜合全文，本文對網(wǎng)絡(luò)爬蟲對html 網(wǎng)頁進行解析的全部過程以及html 特征提取技術(shù)在眾多信息中的提取及技術(shù)實現(xiàn)做了介紹，通過以上技術(shù)的應(yīng)用，能夠從諸多繁雜的信息里進行深入的數(shù)據(jù)挖掘，從而實現(xiàn)移動端跨應(yīng)用資訊的提取和整合。通過這種辦法，能夠在大量的互聯(lián)網(wǎng)信息中，根據(jù)所需要數(shù)據(jù)信息的特征對各種網(wǎng)頁數(shù)據(jù)進行提取，并且將這些提取到的數(shù)據(jù)通過移動端智能設(shè)備進行展示。用戶在對這些信息進行瀏覽時，很容易借助特征提取的方法將自己希望得到的信息加以瀏覽，從而為用戶提供足夠的便利性。

但是通過本次研究我們可以發(fā)現(xiàn)，現(xiàn)階段我國在互聯(lián)網(wǎng)進行網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來進行移動端跨應(yīng)用資訊的整合時，在特征提取準確性、信息提取量、資訊整合排版以及搜索便利性等方面與西方發(fā)達國家仍然存在著較大的差距，針對這種情況，有必要進行進一步的研究和探索，努力加速建立更加完善、可靠的移動端跨應(yīng)用資訊整合展示水平。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于爬蟲和html 特征提取的移動端跨應(yīng)用資訊整合展示方案

一、借助爬蟲技術(shù)以及html 特征提取技術(shù)進行移動端跨應(yīng)用資訊整合研究的背景

二、基于爬蟲以及html 特征提取進行移動端跨應(yīng)用資訊整合展示平臺的具體設(shè)計

三、爬蟲技術(shù)及html 特征提取技術(shù)在移動端跨應(yīng)用資訊整合展示中的優(yōu)勢

四、結(jié)語

一、借助爬蟲技術(shù)以及html 特征提取技術(shù)進行移動端跨應(yīng)用資訊整合研究的背景

二、基于爬蟲以及html 特征提取進行移動端跨應(yīng)用資訊整合展示平臺的具體設(shè)計

三、爬蟲技術(shù)及html 特征提取技術(shù)在移動端跨應(yīng)用資訊整合展示中的優(yōu)勢

四、結(jié)語