單懷榮
摘 要:隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,互聯(lián)網(wǎng)視聽節(jié)目呈現(xiàn)遍地開花的態(tài)勢?;ヂ?lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)技術(shù)也越來越重要。通過介紹互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)及其相關(guān)技術(shù),以期能夠?yàn)橥侍峁﹨⒖肌?/p>
關(guān)鍵詞:互聯(lián)網(wǎng)視聽節(jié)目;網(wǎng)頁;監(jiān)測系統(tǒng);技術(shù)
中圖分類號:TP393.02 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-6835(2014)04-0129-02
1 系統(tǒng)架構(gòu)及其主要功能
1.1 未審批網(wǎng)站搜索
1.1.1 未審批站點(diǎn)(非法站點(diǎn))的發(fā)現(xiàn)
未審批站點(diǎn)搜索引擎(專用搜索引擎)可以通過互聯(lián)網(wǎng)進(jìn)行全方位、快速的掃描,以發(fā)現(xiàn)網(wǎng)絡(luò)傳播視、音頻節(jié)目的站點(diǎn)。對發(fā)現(xiàn)的視、音頻站點(diǎn),系統(tǒng)要通過統(tǒng)一的接口將信息上傳至信息處理層,處理層對這些信息進(jìn)行分析和組織后,將站點(diǎn)信息存入中央數(shù)據(jù)庫中。未審批站點(diǎn)搜索可以將搜索范圍限定在指定領(lǐng)域內(nèi)(某省份、某地區(qū)、某個(gè)IP地址段)。以杭州市為例,搜索范圍主要集中在杭州市內(nèi),并且能夠略過已通過廣電部門審批可以合法通過互聯(lián)網(wǎng)傳播視、音頻節(jié)目的站點(diǎn),最大程度地降低了資源浪費(fèi)和用戶處理工作量。網(wǎng)站信息包含站點(diǎn)域名、IP地址、物理地址、是否為直播站點(diǎn)等相關(guān)信息。
1.1.2 未審批站點(diǎn)節(jié)目信息分析
搜索引擎能夠快速地在網(wǎng)絡(luò)上搜索信息,智能分析系統(tǒng)可以有效地分析出網(wǎng)站中播放的各種節(jié)目的信息,例如,哪些站點(diǎn)提供了直播的節(jié)目,站點(diǎn)播放節(jié)目的名稱等;也可以對站點(diǎn)進(jìn)行分類,分析出色情、反動(dòng)等信息的存在。
1.1.3 未審批站點(diǎn)搜索結(jié)果信息審核
提供對信息結(jié)果的查看和查詢功能,查詢功能靈活、高效,可根據(jù)多種條件進(jìn)行查詢。對搜索到的各種結(jié)果和數(shù)據(jù)提供修改功能,除了域名IP等固定信息外,都可以通過修改功能進(jìn)行信息校準(zhǔn),并補(bǔ)充現(xiàn)有信息。
1.2 審批網(wǎng)站搜索
智能分析系統(tǒng)可以分析出網(wǎng)站中播放節(jié)目的各種信息;可以對站點(diǎn)靈活分類,識別節(jié)目內(nèi)容是否存在違規(guī)情況;可以對節(jié)目進(jìn)行類似的可配置分類。通過搜索引擎,可以準(zhǔn)確地發(fā)現(xiàn)網(wǎng)站上播放的視、音頻節(jié)目。
1.3 重點(diǎn)網(wǎng)站搜索
系統(tǒng)可以對產(chǎn)生影響較大、訪問量較高、節(jié)目數(shù)量多的視聽網(wǎng)站進(jìn)行重點(diǎn)監(jiān)控。監(jiān)控結(jié)果可查看重點(diǎn)網(wǎng)站監(jiān)控的數(shù)據(jù),結(jié)果中會(huì)顯示網(wǎng)站名稱、網(wǎng)站域名、所在省份、所在城市、節(jié)目數(shù)等信息。節(jié)目信息包括節(jié)目標(biāo)題、節(jié)目統(tǒng)一資源定位符(URL)、節(jié)目類別、節(jié)目網(wǎng)頁快照和節(jié)目下載情況等信息。重點(diǎn)網(wǎng)站的信息,可靈活地根據(jù)不同條件進(jìn)行查詢,靈活制訂分類策略,對站點(diǎn)進(jìn)行分類。
1.4 其他功能介紹
1.4.1 網(wǎng)頁快照
提供基于網(wǎng)頁數(shù)據(jù)快照的數(shù)據(jù)取證功能。系統(tǒng)將搜索時(shí)發(fā)現(xiàn)的視、音頻節(jié)目的網(wǎng)頁內(nèi)容中的有效信息存儲到本地(去掉大量的圖片信息),用戶可以將這些網(wǎng)絡(luò)快照作為歷史留存和處罰的證據(jù)。
1.4.2 IP地址定位
系統(tǒng)通過國內(nèi)IP地址信息庫提供準(zhǔn)確的非法網(wǎng)站物理地址的定位信息,也可以基于非法站點(diǎn)的域名、IP地址發(fā)現(xiàn)網(wǎng)站服務(wù)器所在的省份、城市,部分可以精確到提供服務(wù)器的公司名稱。
1.4.3 非法站點(diǎn)警告及反饋
系統(tǒng)提供一個(gè)簡單的電子郵件自動(dòng)發(fā)送平臺,用戶可以根據(jù)需求對情節(jié)非常嚴(yán)重的站點(diǎn)進(jìn)行電子郵件警告。同時(shí),系統(tǒng)會(huì)提供技術(shù)手段記錄警告內(nèi)容,并且通過日程安排模塊提供警告追蹤和提醒,綜合、全面地進(jìn)行站點(diǎn)警告、反饋和處理等管理操作,簡化管理流程。用戶可以通過該模塊記錄對網(wǎng)站的警告、網(wǎng)站的反饋和與其溝通的過程,有效了解網(wǎng)絡(luò)的歷史遺存問題,掌握第一手管理資料。
互聯(lián)網(wǎng)視聽節(jié)目系統(tǒng)架構(gòu)如圖1所示。
2 相關(guān)技術(shù)淺析
2.1 搜索引擎技術(shù)基本原理
2.1.1 網(wǎng)絡(luò)爬蟲
網(wǎng)絡(luò)爬蟲是基于HTTP協(xié)議的網(wǎng)絡(luò)應(yīng)用程序。通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站上的某一個(gè)頁面(通常是首頁)開始讀取網(wǎng)頁內(nèi)容,并抽取網(wǎng)頁中的其他鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,一直循環(huán),直到把這個(gè)網(wǎng)站所有網(wǎng)頁抓取完為止。
增量式網(wǎng)絡(luò)爬蟲是對已下載網(wǎng)頁采取增量式更新或只爬行新產(chǎn)生的、已經(jīng)發(fā)生變化的網(wǎng)頁,有效減少了下載量,減少了時(shí)間和空間的耗費(fèi),提高了視聽節(jié)目監(jiān)測系統(tǒng)的效率。
2.1.2 索引器
索引器的主要功能是分析收集的信息,按照一定的結(jié)構(gòu)將信息組織成有序文件進(jìn)行存儲,并建立相應(yīng)的URL、網(wǎng)頁內(nèi)容和網(wǎng)頁內(nèi)容偏移等索引。它主要用到的技術(shù)有分詞、索引詞選取、停用詞過濾、索引歸并、索引壓縮、索引更新和倒排文件緩存。
2.1.3 查詢器
查詢器的主要功能是通過用戶接口界面,在本地?cái)?shù)據(jù)庫中查找與用戶要查詢的內(nèi)容相匹配的信息,并進(jìn)行文檔與查詢相關(guān)度的計(jì)算,將排序結(jié)果以一定的形式返給用戶。
2.2 網(wǎng)頁分析技術(shù)
2.2.1 視頻網(wǎng)頁搜索和判斷
在互聯(lián)網(wǎng)視聽節(jié)目監(jiān)測系統(tǒng)中,搜索引擎的作用就是在網(wǎng)絡(luò)上搜尋視、音頻網(wǎng)頁,因?yàn)榫W(wǎng)絡(luò)上的數(shù)據(jù)是不斷更新的,種類也是不斷變化的。搜索引擎首先負(fù)責(zé)的就是將網(wǎng)絡(luò)上各種格式(avi,mp3,ram等)的視、音頻節(jié)目的具體信息搜索下來,其中包括網(wǎng)頁地址、瀏覽量、用戶評論和作者信息等。
一般情況下,互聯(lián)網(wǎng)部分視頻網(wǎng)站的視頻網(wǎng)頁的URL都有較明顯的規(guī)律可循,通過這些規(guī)律,可以簡單、快速地判斷網(wǎng)頁中是否包含視頻。例如,土豆網(wǎng)中包含視頻的網(wǎng)頁主要分為兩大類,由單個(gè)視頻和專輯中的視頻組成,其網(wǎng)頁URL格式表示如下:
單個(gè)視頻:http://www.tudou.com/albumplay/……=.html.
專輯:http://www.tudou.com/list/……=.html.endprint
還有一類視頻網(wǎng)頁有統(tǒng)一的、有規(guī)則的網(wǎng)站,通過正則表達(dá)式就可以簡單、快速、方便地判斷出對應(yīng)網(wǎng)站內(nèi)包含的網(wǎng)頁是否是視頻網(wǎng)頁。以土豆網(wǎng)為例,系統(tǒng)可以使用下面定義的正則表達(dá)式進(jìn)行判斷:
單個(gè)視頻:http://www.tudou.com/albumplay/_(.*)=.html.
專輯:http://www.tudou.com/list/_(.*)=.html.
通過網(wǎng)頁的URL,使用上述正則表達(dá)式匹配成功,則可以認(rèn)為該網(wǎng)頁中包含視頻。
2.2.2 網(wǎng)頁內(nèi)容分析
互聯(lián)網(wǎng)上的大部分資源是主要是超文本標(biāo)記語言(HTML)網(wǎng)頁資源,HTML網(wǎng)頁必須通過網(wǎng)頁分析、處理后才能用于索引和檢索,很多相關(guān)的計(jì)算都需要解析后的HTML網(wǎng)頁,比如網(wǎng)頁內(nèi)容相關(guān)度計(jì)算、關(guān)鍵詞頻率計(jì)算,等等。HTML網(wǎng)頁的分析和處理,主要是初步完成網(wǎng)頁格式的解析,去掉網(wǎng)頁中顯示格式的控制元素和無意義的標(biāo)簽信息。網(wǎng)頁中的多媒體、圖片等文件有許多不同的編碼格式, 一般都是通過鏈接的錨文本(即鏈接文本)和相關(guān)的文件注釋來判斷這些文件內(nèi)容的。另外, 還可以通過多媒體文件中的文件屬性了解文件的內(nèi)容。
系統(tǒng)對網(wǎng)頁內(nèi)容、編碼、類別等作相應(yīng)的分析、處理:對網(wǎng)頁內(nèi)容進(jìn)行編碼轉(zhuǎn)換,自動(dòng)對中文編碼進(jìn)行識別、轉(zhuǎn)化,將其他種類的編碼類型轉(zhuǎn)換成GBK(即漢字編碼“國標(biāo)”);將繁體字轉(zhuǎn)換成簡體字;并取頁面的標(biāo)題、關(guān)鍵詞、摘要和其中的超鏈(Hyper Link)等關(guān)鍵數(shù)據(jù)生成摘要。
2.2.3 中文分詞技術(shù)
該系統(tǒng)主要采用基于詞典的中分分詞算法、基于統(tǒng)計(jì)的分詞算法和基于語義的分詞算法。
基于詞典的中文分詞算法包含三個(gè)要素,即分詞詞典、字符串匹配原則和文本掃描方向。詞典匹配法通常作為初分手段,其步驟簡單,易于實(shí)現(xiàn),且可以正確地切分出包含在詞典中的詞語,在現(xiàn)實(shí)中被廣泛使用。
基于統(tǒng)計(jì)的中文分詞算法是以相鄰的字之間共同出現(xiàn)的頻率或概率作為基于統(tǒng)計(jì)分詞方法構(gòu)建詞的基本依據(jù)。
基于語義的分詞算法是把語言學(xué)的相關(guān)知識加入到分詞規(guī)則庫中,它是模擬人腦對語言和句子的理解,達(dá)到識別詞匯單元的效果。要建立完整的分詞規(guī)則庫還是存在很大困難的,目前這種分詞方法還沒有得到廣泛應(yīng)用。
〔編輯:白潔〕
Abstract: With the development of economy and the progress of the society, the trend of blossoming over Internet audio-visual program. Internet video monitoring system technology is also more and more important. By introducing the Internet audio-visual program monitoring system and its related technology, in order to provide reference for colleagues.
Key words: internet audio-visual program; web page; monitoring system; technologyendprint