国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于爬蟲和html 特征提取的移動端跨應(yīng)用資訊整合展示方案

2019-12-04 14:34林帆南京熊貓漢達科技有限公司秦曉華泰證券股份有限公司
數(shù)碼世界 2019年11期
關(guān)鍵詞:爬蟲搜索引擎特征提取

林帆 南京熊貓漢達科技有限公司 秦曉 華泰證券股份有限公司

一、借助爬蟲技術(shù)以及html 特征提取技術(shù)進行移動端跨應(yīng)用資訊整合研究的背景

進入新世紀后,互聯(lián)網(wǎng)開始迅速普及和快速發(fā)展,與傳統(tǒng)的信息傳播方式及娛樂形式相比,互聯(lián)網(wǎng)無疑為人們提供了一個更加便利快捷的平臺。近年來,借助網(wǎng)絡(luò)技術(shù)來進行重要資訊的搜索,已經(jīng)成為了人們?nèi)粘I钪斜貍涞募寄?,如何在進行搜索時進一步提升其智能化水平,最大程度的方便用戶的生活,是網(wǎng)絡(luò)設(shè)計人員十分關(guān)注的重點。用戶在瀏覽不同地址內(nèi)的網(wǎng)絡(luò)內(nèi)容時接收到海量信息,如何進行系統(tǒng)級信息整合,是一個亟待研究和解決的技術(shù)問題。想要通過智能化的手段對相關(guān)的數(shù)據(jù)信息進行搜索,僅僅通過人力是難以完成的,因此,借助網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來對移動端跨應(yīng)用資訊進行整合和展示,使得資訊更加便于管理和瀏覽,便具有其特殊的價值。

二、基于爬蟲以及html 特征提取進行移動端跨應(yīng)用資訊整合展示平臺的具體設(shè)計

網(wǎng)絡(luò)爬蟲技術(shù),也稱網(wǎng)頁信息采集器,是在進行互聯(lián)網(wǎng)登錄時對網(wǎng)頁的計算機程序和自動化腳本進行下載的技術(shù),它作為搜索引擎的重要組成部分,能夠從一個獨立的URL 開始對網(wǎng)頁信息數(shù)據(jù)進行存儲,然后通過關(guān)鍵詞進行信息的篩選,最終選出最恰當(dāng)?shù)臄?shù)據(jù)。通過網(wǎng)絡(luò)爬蟲技術(shù)和html 特征提取技術(shù)的聯(lián)合應(yīng)用,能夠?qū)崿F(xiàn)對用戶所需數(shù)據(jù)的智能化提出、整合以及在移動端的展示。

首先,需要建立一個智能化數(shù)據(jù)提取及呈列系統(tǒng),該系統(tǒng)主要由URL 發(fā)現(xiàn)、html 解析和提取、互聯(lián)網(wǎng)數(shù)據(jù)存儲以及數(shù)據(jù)統(tǒng)計四個部分組成。

目前展示網(wǎng)頁主要有兩種方式,1. 使用Android WebView 加載HTML5,2.使用HTTP 獲取到文章的內(nèi)容,在前端通過TextView的方式來展示。因此想獲取到文章的信息,就要針對這兩種方式分別考慮:

針對WebView 加載HTML5 的方式,在Android 系統(tǒng)層面,可以直接通過Android Webview API 讀取到當(dāng)前應(yīng)用WebView 中加載的URL。這樣就可以很方便的獲取到網(wǎng)頁的URL; 針對使用TextView 展示的文章,設(shè)計者可以通過Android FrameWork 讀取到TextView 中展示的信息,并通過規(guī)則匹配,獲取到文章的標題和部分文章內(nèi)容,然后使用爬蟲的方式來通過標題、部分內(nèi)容獲取到網(wǎng)頁的URL。

html 網(wǎng)頁解析模塊,則是指對網(wǎng)頁信息進行解析,當(dāng)解析出來的網(wǎng)頁不屬于html 網(wǎng)頁的范疇后,之后的步驟將會被省略,從而實現(xiàn)數(shù)據(jù)的高效解析。在完成網(wǎng)頁的解析之后,需要針對用戶的需求進行數(shù)據(jù)提取,而數(shù)據(jù)的提取設(shè)置需要人工智能技術(shù)的應(yīng)用,避免傳統(tǒng)的命令式搜索導(dǎo)致搜索結(jié)果實用性不強等情況的出現(xiàn)。通過HttpClient 請求網(wǎng)頁URL,利用JSoup 來解析頁面源碼,就可以獲取到頁面HTML 源碼,接著對下載到的HTML 源碼進行提取正文并轉(zhuǎn)碼,從而實現(xiàn)對網(wǎng)頁的收藏功能,并支持離線搜索。

互聯(lián)網(wǎng)數(shù)據(jù)存儲和統(tǒng)計模塊,是指將網(wǎng)頁的信息資料進行存儲并用于統(tǒng)計的部分,這部分在應(yīng)用的過程中通過將一些常用的漢語詞進行組合,形成對應(yīng)的構(gòu)成詞,在進行智能化搜索時,借助構(gòu)成詞來進行信息的高效檢索,并建立能夠適用于移動端的跨APP 信息整合展示平臺。

三、爬蟲技術(shù)及html 特征提取技術(shù)在移動端跨應(yīng)用資訊整合展示中的優(yōu)勢

借助網(wǎng)絡(luò)爬蟲技術(shù)以及html 特征提取技術(shù),能夠首先建立一個獨立的搜索引擎,即建立一個有效的信息處理引擎,這個引擎能夠?qū)⑤斎氲年P(guān)鍵詞作為搜索指征,從而對整個網(wǎng)絡(luò)頁面進行搜索,一般來說,搜索引擎是包括三個部分的,即上下層的搜索引擎以及與移動端進行信息連接和傳遞的結(jié)構(gòu)?,F(xiàn)階段,下層引擎最常見的是文本處理和轉(zhuǎn)碼引擎,而上層則采用了智能化搜索引擎如dart framework 等。通過這種引擎的應(yīng)用,有效改善了傳統(tǒng)非智能化搜索引擎“命令搜索法”造成搜索整理內(nèi)容較為生硬的情況,并且避免了搜索頁面快速跳躍,部分網(wǎng)頁內(nèi)容無法覆蓋的問題。

其次,通過在上層搜索引擎中引入dart framework,能夠為基于html 特征提取的資訊整合技術(shù)提供更多的選擇手段,使得搜索形式更加豐富多樣。具體來說,通過應(yīng)用dart framework,使得原有的單一命令式搜索轉(zhuǎn)變?yōu)楫?dāng)前的AOT 搜索模式以及JIT 搜索模式兩種模式。在非移動終端進行使用時,需要應(yīng)用AOT 模式來對輸入的關(guān)鍵詞以及特征信息進行提取和計算,將其快速的轉(zhuǎn)換為計算機代碼,從而在短時間內(nèi)獲取到極大量的相關(guān)數(shù)據(jù)信息,這對于展示平臺的建設(shè)是大有裨益的。正是因為AOT 搜索模式的上述特性,它常常被用作計算機的搜索上,可顯著提升搜索效率,方便工作人員建立工作庫。而JIT 搜索模式,則能夠?qū)⒁恍┲攸c、搜索率更高的信息首先呈遞給移動端的用戶,讓他們通過瀏覽最重要的信息獲取到相應(yīng)的結(jié)果,并且在這個結(jié)果上進行引申,查詢到更多相關(guān)的結(jié)果。

另外,在進行移動端跨應(yīng)用資訊的搜索和整合時,需要建立相應(yīng)的搜索頁面和數(shù)據(jù)呈現(xiàn)頁面,而這一頁面是通過參照widget tree 來實現(xiàn)的,盡管這種樹狀圖看起來較為繁瑣,不容易獲取到關(guān)鍵信息,但是當(dāng)捋順它的原理之后,能夠快速,簡便的獲取到網(wǎng)頁上符合特征提取技術(shù)輸入關(guān)鍵詞的信息,因此,通過這種技術(shù)的應(yīng)用能夠有效簡化流程,并提升搜索效率。

四、結(jié)語

綜合全文,本文對網(wǎng)絡(luò)爬蟲對html 網(wǎng)頁進行解析的全部過程以及html 特征提取技術(shù)在眾多信息中的提取及技術(shù)實現(xiàn)做了介紹,通過以上技術(shù)的應(yīng)用,能夠從諸多繁雜的信息里進行深入的數(shù)據(jù)挖掘,從而實現(xiàn)移動端跨應(yīng)用資訊的提取和整合。通過這種辦法,能夠在大量的互聯(lián)網(wǎng)信息中,根據(jù)所需要數(shù)據(jù)信息的特征對各種網(wǎng)頁數(shù)據(jù)進行提取,并且將這些提取到的數(shù)據(jù)通過移動端智能設(shè)備進行展示。用戶在對這些信息進行瀏覽時,很容易借助特征提取的方法將自己希望得到的信息加以瀏覽,從而為用戶提供足夠的便利性。

但是通過本次研究我們可以發(fā)現(xiàn),現(xiàn)階段我國在互聯(lián)網(wǎng)進行網(wǎng)絡(luò)爬蟲技術(shù)以及html特征提取技術(shù)來進行移動端跨應(yīng)用資訊的整合時,在特征提取準確性、信息提取量、資訊整合排版以及搜索便利性等方面與西方發(fā)達國家仍然存在著較大的差距,針對這種情況,有必要進行進一步的研究和探索,努力加速建立更加完善、可靠的移動端跨應(yīng)用資訊整合展示水平。

猜你喜歡
爬蟲搜索引擎特征提取
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
Chrome 99 Canary恢復(fù)可移除預(yù)置搜索引擎選項
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
世界表情符號日
基于Django 的分布式爬蟲框架設(shè)計與實現(xiàn)*
空間目標的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機器人設(shè)計方案
微動目標雷達特征提取、成像與識別研究進展
誰搶走了低價機票