国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)新媒體視聽監(jiān)測數(shù)據(jù)庫構(gòu)架模式及巡檢監(jiān)測的探析

2022-04-22 10:56:48
西部廣播電視 2022年3期
關(guān)鍵詞:網(wǎng)頁數(shù)據(jù)庫監(jiān)測

李 敏

(作者單位:四川廣播電視監(jiān)測中心)

1 互聯(lián)網(wǎng)視聽網(wǎng)站監(jiān)測系統(tǒng)采集識別技術(shù)存在的問題

隨著廣播電視融媒體的迅速發(fā)展,對網(wǎng)絡(luò)視聽持證機構(gòu)和視聽類網(wǎng)站的監(jiān)測也越來越受到相關(guān)部門尤其是宣傳管理部門的重視,視聽類網(wǎng)站承擔(dān)了越來越多重要時段的宣傳任務(wù)[1]。但現(xiàn)有監(jiān)測系統(tǒng)的網(wǎng)站采集技術(shù),仍是基于通用網(wǎng)絡(luò)信息采集技術(shù)(Web crawler),通過解析網(wǎng)頁源代碼或網(wǎng)頁關(guān)鍵詞來判斷網(wǎng)站是否為視聽類網(wǎng)站,并采集相關(guān)數(shù)據(jù)保存到本地集群存儲中。在經(jīng)過大量監(jiān)測任務(wù)的實踐后,筆者發(fā)現(xiàn)相對老化的采集識別技術(shù)明顯存在著很多問題,導(dǎo)致視聽網(wǎng)站的識別率較低,采集的可用數(shù)據(jù)率較差,主要問題如下:

1.1 視聽類網(wǎng)站識別率較低

由于現(xiàn)在網(wǎng)站技術(shù)的多元化,特別是非持證網(wǎng)站,網(wǎng)頁上存在大量欺騙性代碼,不僅能欺騙搜索引擎,使搜索引擎產(chǎn)生誤判,也會欺騙Web crawler,導(dǎo)致網(wǎng)站的誤識別,ICP備案號的獲取錯誤或無法獲取。對監(jiān)測工作的影響主要體現(xiàn)在如果不定時對數(shù)據(jù)庫進行清理,那么數(shù)據(jù)庫的容量將會被無效數(shù)據(jù)無限占用,數(shù)據(jù)庫一直處于高利用率的運行狀態(tài)。系統(tǒng)占用的計算資源被無限增加,不僅加大了對系統(tǒng)運維的難度,也使得系統(tǒng)的監(jiān)測效率低下。

1.2 消耗資源巨大

因采集的可用數(shù)據(jù)率較差,在數(shù)據(jù)采集和分析過程中,消耗了大量的計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)庫資源,導(dǎo)致系統(tǒng)在運行時反應(yīng)較慢、監(jiān)測任務(wù)效率低下等,在日常的監(jiān)測工作中,這給監(jiān)測業(yè)務(wù)部門和運行維護部門帶來了較大的工作壓力。

基于以上問題,筆者迫切地需要探索出一套優(yōu)化的監(jiān)測系統(tǒng)網(wǎng)站數(shù)據(jù)庫構(gòu)建模式,并尋求如何更加有效、準(zhǔn)確地獲取視聽網(wǎng)站信息,以及如何設(shè)計和完善一套行之有效的自動巡檢監(jiān)測機制。Web crawler的工作原理圖如圖1所示。

圖1 Web crawler工作原理圖

2 總體思路

本技術(shù)方案旨在實現(xiàn)準(zhǔn)確、有效地獲取視聽網(wǎng)站信息,優(yōu)化本地視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建模式和完善視聽網(wǎng)站巡檢機制。根據(jù)新的視聽網(wǎng)站數(shù)據(jù)庫構(gòu)建模式,對巡檢監(jiān)測機制進行重新設(shè)計和完善,并依據(jù)日常監(jiān)測任務(wù),嘗試創(chuàng)建重點視聽網(wǎng)站巡檢列表,對數(shù)據(jù)庫中的重點網(wǎng)站信息進行定期的智能巡檢,實現(xiàn)對網(wǎng)站類型的判定監(jiān)測,網(wǎng)站視聽頁面的標(biāo)題、視聽節(jié)目內(nèi)容、文字簡介信息采集監(jiān)測,網(wǎng)站失效性判定監(jiān)測和網(wǎng)絡(luò)視聽節(jié)目內(nèi)容監(jiān)測等。

根據(jù)日常監(jiān)測任務(wù)和監(jiān)測數(shù)據(jù),整理出一份重點監(jiān)測對象和數(shù)據(jù)清單,以此創(chuàng)建一套固有模式的巡檢信息庫,對重點網(wǎng)站和重要數(shù)據(jù)進行定向、定期的巡檢監(jiān)測。當(dāng)每輪巡檢結(jié)束后,對巡檢信息庫和系統(tǒng)數(shù)據(jù)庫進行同步數(shù)據(jù)更新。利用有限的資源,完成采集日常絕大部分監(jiān)測任務(wù)的數(shù)據(jù),重點監(jiān)測任務(wù)和臨時監(jiān)測任務(wù)則通過其他系統(tǒng)模塊進行臨時性的調(diào)整應(yīng)對,在日常工作時,不再過多占用系統(tǒng)資源[2]。在理論上,通過以上方式,可有效地減少系統(tǒng)占用的計算、存儲、網(wǎng)絡(luò)和數(shù)據(jù)庫資源,并在當(dāng)前系統(tǒng)的暫無大規(guī)模升級更新的計劃下,臨時解決監(jiān)測數(shù)據(jù)采集數(shù)據(jù)不完整、網(wǎng)站識別率低、采集效率低、漏監(jiān)等問題。

3 方案設(shè)計

本方案主要采用的技術(shù)有端口掃描(Port scanning)技術(shù)、網(wǎng)絡(luò)信息采集技術(shù)、視聽數(shù)據(jù)判定技術(shù)、數(shù)據(jù)庫技術(shù)等。

3.1 重點監(jiān)測網(wǎng)站

根據(jù)統(tǒng)計日常監(jiān)測任務(wù)的類型和監(jiān)測對象,重點監(jiān)測網(wǎng)站主要分為兩類:一類是持有互聯(lián)網(wǎng)視聽節(jié)目服務(wù)許可證(AVSP)的網(wǎng)站(官方媒體網(wǎng)站),一類是國內(nèi)互聯(lián)網(wǎng)頭部企業(yè)在四川省分支機構(gòu)的網(wǎng)站(社會媒體網(wǎng)站)。官方媒體網(wǎng)站一般為電視臺、出版社、廣播電視網(wǎng)絡(luò)公司或政府機構(gòu)的官網(wǎng),該類型網(wǎng)站的主要職能是權(quán)威發(fā)布有關(guān)黨政機構(gòu)的官方信息、熱門話題、熱點新聞的視頻節(jié)目等。社會媒體網(wǎng)站一般為互聯(lián)網(wǎng)企業(yè)開辦的視聽類服務(wù)網(wǎng)站,該類型網(wǎng)站的主要職能是轉(zhuǎn)載或發(fā)布熱點新聞、娛樂類的視頻節(jié)目。

通過整理和歸納,將網(wǎng)站信息同時寫入Web crawler程序和數(shù)據(jù)庫。將原有Web crawler程序的70%修改為定向Web crawler和深層Web crawler,定制化地采集指定網(wǎng)站、指定網(wǎng)頁和多層級網(wǎng)頁的數(shù)據(jù);空余30%的通用Web crawler用于采集通用網(wǎng)頁的數(shù)據(jù)。利用1個月的時間,對反復(fù)采集的網(wǎng)頁數(shù)據(jù)進行無效性篩查、核驗,比對采集信息的一致性,并進行必要的修正,逐步完成網(wǎng)站數(shù)據(jù)庫的構(gòu)建和完善巡檢監(jiān)測清單(見圖2)。

圖2 重點監(jiān)測網(wǎng)站發(fā)現(xiàn)流程圖

3.2 視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建

根據(jù)日常監(jiān)測任務(wù),對現(xiàn)有系統(tǒng)中的事件、人物、單位等關(guān)鍵詞庫進行重新歸納和整理,利用自動化渲染、特征提取等現(xiàn)有技術(shù),將各類關(guān)鍵詞與事件、人物等進行關(guān)聯(lián)性連接。其中自動化渲染技術(shù)是采用服務(wù)器渲染完成對視聽網(wǎng)站的訪問動作,通過標(biāo)簽化數(shù)據(jù),達(dá)到快速訪問海量本地數(shù)據(jù)庫數(shù)據(jù)的目的;特征提取技術(shù)是將網(wǎng)站中包含視頻鏈接特征、視頻播放器特征、視頻圖像特征、視頻文本特征中的一種或多種特征加以標(biāo)記,以實現(xiàn)視聽網(wǎng)站的判別和分類,最終形成本地視聽網(wǎng)站數(shù)據(jù)庫(見圖3)。

圖3 視聽網(wǎng)站數(shù)據(jù)庫構(gòu)建圖

3.3 智能巡檢監(jiān)測

智能巡檢監(jiān)測主要由判斷網(wǎng)站是否失效、網(wǎng)頁是否更新、視聽節(jié)目鏈接是否自動下載、視聽節(jié)目鏈接中的文本內(nèi)容是否自動保存等系統(tǒng)行為組成。

利用視聽網(wǎng)站數(shù)據(jù)庫,定期對數(shù)據(jù)庫中的網(wǎng)站進行數(shù)據(jù)采集,若返回值為空值(null),則可判斷網(wǎng)站已失效或已過期;對網(wǎng)站進行采集時,發(fā)現(xiàn)網(wǎng)頁特性值發(fā)生變化時,即可認(rèn)為是網(wǎng)站對網(wǎng)頁進行了更新,并將更新的鏈接自動寫入數(shù)據(jù)庫,記錄更新網(wǎng)頁數(shù)量;對涉嫌違反《互聯(lián)網(wǎng)視聽節(jié)目服務(wù)管理規(guī)定》相關(guān)要求的視聽節(jié)目,提取并下載該網(wǎng)頁的文本描述和視頻文件,通過特征提取技術(shù),寫入數(shù)據(jù)庫。通過時間積累的數(shù)據(jù)和定期對Web crawler系統(tǒng)的更新維護,系統(tǒng)在反復(fù)循環(huán)此流程后,即可形成對視聽網(wǎng)站的精確智能巡檢監(jiān)測。

4 運行測試

因新媒體監(jiān)測業(yè)務(wù)不能中斷,目前對系統(tǒng)只能進行補丁式的修改和技術(shù)探索分析。Web crawler是較為通用的一種網(wǎng)絡(luò)技術(shù),利用空閑的服務(wù)器資源,即可搭建完成,并對原有Web crawler服務(wù)器的替換,在替換過程中,對業(yè)務(wù)不會產(chǎn)生影響[3]。

利用云平臺系統(tǒng)臨時劃分出兩臺虛擬機,針對四川省某新聞網(wǎng)站開展定向Web crawler和深層Web crawler系統(tǒng)的測試。通過對近一周的采集數(shù)據(jù)進行跟蹤和對比,筆者發(fā)現(xiàn)對特定網(wǎng)站的名稱、域名、鏈接、ICP備案號、AVSP證書號、文本等關(guān)鍵信息采集數(shù)據(jù)的準(zhǔn)確性和采集率明顯提高。測試前,通用Web crawler在3月22日至24日對持證網(wǎng)站的有效信息采集率為89.7%、91.5%和91.3%(見表1)。測試時,定向Web crawler、深層Web crawler在4月8日至10日對指定網(wǎng)站的有效信息采集率達(dá)到了97.2%、95.8%和96.3%(見表2),對網(wǎng)站有效信息的采集率上平均提升了5.6%。通用Web crawler采用通用模板,一般網(wǎng)頁最多只能采集3層的網(wǎng)頁鏈接,而定向Web crawler、深層Web crawler采用定制化的網(wǎng)站模板后,能采集最高達(dá)7層的網(wǎng)頁鏈接(見表3)。

表1 通用Web crawler有效信息采集情況表

表2 定向Web crawler、深層Web crawler有效信息采集情況表

表3 定向Web crawler、深層Web crawler采用定制化網(wǎng)站模板后有效信息采集情況表

若以測試數(shù)據(jù)為基礎(chǔ),優(yōu)化視聽網(wǎng)站數(shù)據(jù)庫的構(gòu)建和智能巡檢監(jiān)測技術(shù),系統(tǒng)不僅會更加智能化,更能提高網(wǎng)絡(luò)視聽節(jié)目的監(jiān)測監(jiān)管效率。

5 結(jié)語

近年來,隨著互聯(lián)網(wǎng)各種視聽類業(yè)態(tài)的爆發(fā)式增長,視聽節(jié)目也呈現(xiàn)出多元化的業(yè)務(wù)形態(tài),主管部門對網(wǎng)絡(luò)視聽行業(yè)傳播內(nèi)容的監(jiān)管要求也越來越明確,各系統(tǒng)的建設(shè)廠家對技術(shù)的敏感度很高,但對業(yè)務(wù)的敏感度相對會滯后。隨著各項網(wǎng)絡(luò)新媒體類的規(guī)章制度的發(fā)展和完善,監(jiān)測部門在不斷探索監(jiān)測業(yè)務(wù)的同時,更需了解和掌握互聯(lián)網(wǎng)前沿技術(shù),在業(yè)務(wù)和技術(shù)上深入思考,將互聯(lián)網(wǎng)技術(shù)逐步轉(zhuǎn)變?yōu)閷嵱眯员O(jiān)測技術(shù)和監(jiān)測手段,提升監(jiān)測人員的監(jiān)測能力,提高業(yè)務(wù)的智能化水平,為主管部門做好數(shù)據(jù)服務(wù)工作提供保障。

猜你喜歡
網(wǎng)頁數(shù)據(jù)庫監(jiān)測
特色“三四五六”返貧監(jiān)測幫扶做實做細(xì)
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年12月
網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年11月
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
安溪县| 探索| 吉林市| 云南省| 蓝山县| 天长市| 遵义市| 阿鲁科尔沁旗| 贵南县| 南汇区| 云龙县| 信丰县| 玉林市| 晋城| 桐乡市| 阳信县| 民县| 达拉特旗| 长沙县| 禹州市| 宜昌市| 阳信县| 徐汇区| 白沙| 平江县| 海盐县| 清原| 万州区| 开鲁县| 浮山县| 宁武县| 宽甸| 汨罗市| 呼和浩特市| 惠水县| 图片| 达拉特旗| 平远县| 潜山县| 肥东县| 琼中|