国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“元搜索”技術(shù)在省內(nèi)網(wǎng)絡(luò)環(huán)境治理中的實(shí)踐

2014-04-15 09:46江蘇省常州專用通信局徐偉群江蘇省互聯(lián)網(wǎng)行業(yè)管理服務(wù)中心
江蘇通信 2014年1期
關(guān)鍵詞:搜索引擎環(huán)境治理客戶端

江蘇省常州專用通信局 徐偉群 江蘇省互聯(lián)網(wǎng)行業(yè)管理服務(wù)中心 馬 旸

“元搜索”技術(shù)在省內(nèi)網(wǎng)絡(luò)環(huán)境治理中的實(shí)踐

江蘇省常州專用通信局 徐偉群 江蘇省互聯(lián)網(wǎng)行業(yè)管理服務(wù)中心 馬 旸

基于JSSH(Java script shell server)的元搜索引擎構(gòu)建技術(shù)為“元搜索”在省內(nèi)互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境治理的研究與部署給出了一種實(shí)踐方案。結(jié)合江蘇本省接入的域名庫(kù),對(duì)Baidu、Soso兩個(gè)搜索引擎的搜索結(jié)果進(jìn)行重新整合以提高結(jié)果的有效性,這種高效的元搜索引擎作為省內(nèi)網(wǎng)絡(luò)環(huán)境治理工作中不良信息獲取方式的補(bǔ)充,為有互聯(lián)網(wǎng)環(huán)境治理需求的單位提供了一種有力的技術(shù)手段。

元搜索;網(wǎng)絡(luò)環(huán)境治理;實(shí)踐

0 引言

近幾年來(lái),利用互聯(lián)網(wǎng)傳播有害信息,進(jìn)行網(wǎng)絡(luò)賭博、網(wǎng)絡(luò)色情等違法犯罪活動(dòng)層出不窮,成為影響社會(huì)和諧的不利因素,《2012年中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告》指出:“2012年,網(wǎng)絡(luò)民意表達(dá)進(jìn)入移動(dòng)互聯(lián)時(shí)代,‘90后’青年登上互聯(lián)網(wǎng)和社會(huì)舞臺(tái),中產(chǎn)階層的社會(huì)向心力需要修復(fù),網(wǎng)絡(luò)論爭(zhēng)的非理性化,呼吁網(wǎng)絡(luò)謠言需要?jiǎng)側(cè)岵?jì)的‘生態(tài)治理’,推進(jìn)網(wǎng)絡(luò)公關(guān)成為‘陽(yáng)光產(chǎn)業(yè)’?!盵1],這些網(wǎng)絡(luò)輿論生態(tài)的演變,對(duì)網(wǎng)絡(luò)監(jiān)管部門提出了巨大的挑戰(zhàn)。如果監(jiān)管缺失,在網(wǎng)絡(luò)上很容易出現(xiàn)虛假、反動(dòng)甚至暴力的言論,勢(shì)必嚴(yán)重影響綠色網(wǎng)絡(luò)的營(yíng)造與和諧社會(huì)的建設(shè)。

省內(nèi)網(wǎng)絡(luò)環(huán)境治理工作重在把握網(wǎng)絡(luò)信息動(dòng)向,引導(dǎo)網(wǎng)絡(luò)言論,建設(shè)和諧網(wǎng)絡(luò)環(huán)境,具體來(lái)說(shuō),省內(nèi)各互聯(lián)網(wǎng)專項(xiàng)內(nèi)容主管部門從互聯(lián)網(wǎng)上發(fā)現(xiàn)有害信息加以治理,如版權(quán)部門打擊侵權(quán)盜版、掃黃打非部門打擊淫穢色情信息等。一般這些互聯(lián)網(wǎng)信息的獲得由信息采集、信息融合和結(jié)果呈現(xiàn)三大環(huán)節(jié)共同組成。而對(duì)于在整個(gè)互聯(lián)網(wǎng)進(jìn)行熱點(diǎn)信息匯總,搜索引擎擁有得天獨(dú)厚的優(yōu)勢(shì),搜索引擎為人們?cè)贗nternet中查詢信息提供了很好的解決方案,這也使得它成為了網(wǎng)民使用互聯(lián)網(wǎng)的第三大應(yīng)用。不過(guò)搜索引擎本身存在著一些局限性,比如它們只能覆蓋Internet的一個(gè)子集,某些網(wǎng)頁(yè)內(nèi)容是不可被索引的,以及某些搜索引擎采用競(jìng)價(jià)排名,等等,使它不能直接用來(lái)進(jìn)行網(wǎng)絡(luò)信息監(jiān)管。高效的元搜索引擎能夠解決單個(gè)搜索引擎存在的問(wèn)題,它提供基于主題的全面的信息查詢技術(shù),能夠很好地幫助跟蹤當(dāng)前熱點(diǎn)問(wèn)題的輿論動(dòng)向,使其成為省內(nèi)互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境治理手段的有力補(bǔ)充。

1 元搜索引擎技術(shù)原理概述

元搜索引擎(meta search engine,MSE),是一種建立在獨(dú)立搜索引擎基礎(chǔ)上,調(diào)用其他獨(dú)立搜索引擎的引擎,亦稱“搜索引擎之母(mother of search engines)”。在這里,“元”(meta)為“總的”“超越”之意,元搜索引擎就是對(duì)多個(gè)獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。相對(duì)于元搜索引擎,可被利用的獨(dú)立搜索引擎稱為源搜索引擎(source search engine),或成員搜索引擎(component search engine)。從功能上來(lái)講,元搜索引擎像是一個(gè)過(guò)濾通道:以多個(gè)獨(dú)立搜索引擎的輸出結(jié)果作為輸入,經(jīng)過(guò)一番提取、剔除、萃取等操作,形成最終結(jié)果,然后將最終結(jié)果輸出給用戶。

一個(gè)真正的元搜索引擎由三部分組成:檢索請(qǐng)求提交機(jī)制,檢索接口代理機(jī)制,檢索結(jié)果顯示機(jī)制?!罢?qǐng)求提交”負(fù)責(zé)實(shí)現(xiàn)用戶個(gè)性化的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等?!敖涌诖怼必?fù)責(zé)將用戶的檢索請(qǐng)求翻譯成滿足不同搜索引擎本地化要求的格式?!敖Y(jié)果顯示”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等元搜索引擎的出現(xiàn),對(duì)于那些需要連續(xù)地使用不同的搜索引擎重復(fù)相同的檢索的人來(lái)說(shuō),是一個(gè)福音。使用元搜索引擎同時(shí)對(duì)幾個(gè)搜索引擎進(jìn)行檢索,獲得分級(jí)編排的檢索結(jié)果。

2 元搜索引擎的原理及發(fā)展趨勢(shì)

我們可將元搜索引擎看成具有雙層客戶機(jī)/服務(wù)器結(jié)構(gòu)的系統(tǒng),用戶向元搜索引擎發(fā)出檢索請(qǐng)求。元搜索引擎再根據(jù)該請(qǐng)求向多個(gè)搜索引擎發(fā)出實(shí)際檢索請(qǐng)求;搜索引擎執(zhí)行元搜索引擎檢索請(qǐng)求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個(gè)搜索引擎獲得的檢索結(jié)果經(jīng)過(guò)整理再以應(yīng)答形式傳送給實(shí)際用戶。

2.1 元搜索引擎的原理和特點(diǎn)

元搜索引擎的典型工作過(guò)程可以歸納如下:

1)用戶通過(guò)統(tǒng)一的查詢界面輸入查詢請(qǐng)求,元搜索引擎對(duì)查詢進(jìn)行一定的預(yù)處理;

2)元搜索引擎根據(jù)成員搜索引擎調(diào)度機(jī)制,選擇若干成員搜索引擎;

3)元搜索引擎根據(jù)選擇的成員搜索引擎的查詢格式,對(duì)原始查詢請(qǐng)就進(jìn)行本地化處理,轉(zhuǎn)換為成員搜索引擎要求的查詢格式串;

4)向各個(gè)成員搜索引擎發(fā)送經(jīng)過(guò)格式化的查詢請(qǐng)求,等待返回結(jié)果;

5)收集各個(gè)獨(dú)立搜索引擎的返回結(jié)果;

6)對(duì)返回結(jié)果進(jìn)行綜合處理,例如,消除重復(fù)鏈接,死鏈接等,形成最終結(jié)果;

7)以一定的格式將最終結(jié)果返回給用戶。

元搜索引擎區(qū)別于獨(dú)立搜索引擎,主要有這樣一些特征:

1)不用設(shè)立龐大網(wǎng)頁(yè)數(shù)據(jù)庫(kù),節(jié)省存儲(chǔ)設(shè)備;

2)提供了統(tǒng)一的外界模式,將一次查詢提交到多個(gè)獨(dú)立搜索引擎;

3)基于獨(dú)立搜索引擎結(jié)果的二次加工;

4)標(biāo)明結(jié)果記錄的來(lái)源搜索引擎及其局部相關(guān)度,提供了全局相關(guān)度。

2.2 元搜索引擎發(fā)展趨勢(shì)

目前,針對(duì)元搜索引擎的研究、開(kāi)發(fā)十分活躍。它用到了信息檢索、人工智能、數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、自然語(yǔ)言理解等領(lǐng)域的理論和技術(shù),具有綜合性和挑戰(zhàn)性。一個(gè)理想的元搜索引擎應(yīng)該具備以下功能要求:

1)涵蓋較多的搜索資源,可隨意選擇和調(diào)用獨(dú)立搜索引擎,還可根據(jù)一定調(diào)度策略進(jìn)行自動(dòng)調(diào)度;

2)具備盡可能多的可選擇功能,如資源類型〔網(wǎng)站、網(wǎng)頁(yè)、新聞、軟件、FTP(文件傳輸協(xié)議)、MP3、Flash、圖像、影視等〕選擇、等待時(shí)間控制、返回結(jié)果數(shù)量控制、結(jié)果時(shí)段選擇、過(guò)濾功能選擇、結(jié)果顯示方式選擇等;

3)強(qiáng)大的檢索請(qǐng)求處理功能(如支持邏輯匹配檢索、短語(yǔ)檢索、自然語(yǔ)言檢索等)和不同搜索引擎間檢索語(yǔ)法規(guī)則、字符的轉(zhuǎn)換功能(如對(duì)不支持“near”算符(鄰近度算符)的搜索引擎,可自動(dòng)實(shí)現(xiàn)由“near”向“and”算符的轉(zhuǎn)換等);

4)詳盡全面的檢索結(jié)果信息描述〔如網(wǎng)頁(yè)名稱、URL(統(tǒng)一資源定位)、文摘、源搜索引擎、結(jié)果與用戶檢索需求的相關(guān)度等〕;

5)支持多種語(yǔ)言檢索,比如提供中英文搜索等;

6)可對(duì)結(jié)果進(jìn)行自動(dòng)分類,如按照域名、國(guó)別、資源類型、區(qū)域等進(jìn)行分類整理;

7)可以針對(duì)不同用戶提供個(gè)性化服務(wù)。

3 元搜索引擎的部署實(shí)踐

基于以上的研究,我們提出了一個(gè)元搜索引擎的設(shè)計(jì)構(gòu)想。在這個(gè)構(gòu)想中,我們提供了一個(gè)實(shí)戰(zhàn)系統(tǒng)的整體框架,并對(duì)它們的功能和關(guān)鍵技術(shù)進(jìn)行了部署實(shí)踐,在已有的Baidu、Soso兩個(gè)獨(dú)立搜索引擎的基礎(chǔ)上建立一個(gè)元搜索引擎來(lái)擴(kuò)展獨(dú)立搜索引擎的處理能力,提高檢索的查全率,并且有可能進(jìn)一步提高查準(zhǔn)率。同時(shí)結(jié)合江蘇互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境治理的需要,給出了自己的搜索語(yǔ)法,建立對(duì)搜索引擎檢索效果的評(píng)價(jià)機(jī)制、成員搜索引擎的自動(dòng)調(diào)度機(jī)制,使系統(tǒng)具有良好的可擴(kuò)展性,給出自己的結(jié)果融合算法。

3.1 系統(tǒng)結(jié)構(gòu)框架

圖 1 為系統(tǒng)結(jié)構(gòu)框架。

3.2 利用JSSH技術(shù)構(gòu)建元搜索引擎[2]

FireWatir是一種典型的JSSH(Java script shell server)客戶端,它使用Ruby語(yǔ)言編寫,封裝了與JSSH服務(wù)器交互的諸多功能,例如網(wǎng)頁(yè)表單填寫、點(diǎn)擊網(wǎng)頁(yè)按鈕、網(wǎng)絡(luò)信息交互與網(wǎng)頁(yè)內(nèi)容導(dǎo)出等諸多操作。調(diào)用FireWatir生成Firefox瀏覽器的實(shí)例,應(yīng)用程序能夠方便地操縱Firefox加載的網(wǎng)頁(yè)內(nèi)容。

以單個(gè)成員搜索引擎為例,使用FireWatir作為JSSH客戶端,以(how,what)語(yǔ)法形式把計(jì)劃關(guān)注的熱點(diǎn)話題描述詞匯以Javascript指令形式發(fā)送給內(nèi)嵌JSSH服務(wù)器的Firefox瀏覽器。在JSSH客戶端指示Firefox瀏覽器完成向搜索引擎提交所關(guān)注的檢索詞匯后,客戶端就能夠進(jìn)一步指示Firefox導(dǎo)出信息檢索結(jié)果頁(yè)面。針對(duì)元搜索引擎返回的信息檢索結(jié)果集,這里首先進(jìn)行結(jié)果提取與存儲(chǔ)操作,為后續(xù)的元搜索引擎結(jié)果整合提供必要的數(shù)據(jù)基礎(chǔ),如圖 2 所示。

通常選擇常見(jiàn)的搜索引擎共同構(gòu)成元搜索平臺(tái),圖 2 給出的是單個(gè)成員檢索信息發(fā)送與結(jié)果提取存儲(chǔ)過(guò)程。在多個(gè)搜索引擎共同工作時(shí),可以為每個(gè)成員引擎單獨(dú)運(yùn)行JSSH服務(wù)器,分別對(duì)各個(gè)成員進(jìn)行操作,基于并行處理機(jī)制顯著提高元搜索平臺(tái)工作效率。

3.3 實(shí)現(xiàn)中的關(guān)鍵技術(shù)

基于網(wǎng)絡(luò)交互重構(gòu)的方法,需要對(duì)每個(gè)成員引擎的查詢交互過(guò)程進(jìn)行詳細(xì)的分析,發(fā)現(xiàn)相關(guān)模式之后,再進(jìn)行交互過(guò)程重構(gòu)。這里提出的基于瀏覽器模擬的元搜索引擎實(shí)現(xiàn)方案中,與URL、關(guān)鍵字編碼等相關(guān)的這些過(guò)程,全都是在JSSH客戶端的指示下,由內(nèi)嵌JSSH服務(wù)器的網(wǎng)絡(luò)瀏覽器自行完成。查詢分發(fā)器不再需要針對(duì)不同成員引擎,重復(fù)實(shí)現(xiàn)網(wǎng)絡(luò)交互重構(gòu)機(jī)制,有效降低了實(shí)現(xiàn)的復(fù)雜度,顯著提高了普適性。

另外,基于JSSH的方法中使用了Ruby語(yǔ)言,在結(jié)果集提取方面也相對(duì)網(wǎng)絡(luò)交互重構(gòu)方法更加方便。因?yàn)镽uby中可以直接用簡(jiǎn)單的正則表達(dá)式匹配出所需要的模式,并且可以簡(jiǎn)單地將各個(gè)成員搜索引擎的結(jié)果進(jìn)行消重,該方法提高了網(wǎng)絡(luò)監(jiān)控的信息覆蓋面,充分發(fā)揮了元搜索的優(yōu)勢(shì),很好的靈活性滿足了各種有網(wǎng)絡(luò)熱點(diǎn)信息追蹤的組織的需求。

4 元搜索引擎在網(wǎng)絡(luò)環(huán)境治理中應(yīng)用

基于以上的研究、開(kāi)發(fā)和部署,我們實(shí)現(xiàn)了“元搜索”技術(shù)在省內(nèi)互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境治理專項(xiàng)任務(wù)中的簡(jiǎn)單應(yīng)用。我們提供了一個(gè)整體框架,結(jié)合江蘇本省接入的域名庫(kù),對(duì)Baidu、Soso兩個(gè)搜索引擎的搜索結(jié)果進(jìn)行歸并整理,對(duì)省內(nèi)打擊淫穢色情、衛(wèi)星電視等專項(xiàng)行動(dòng)予以了有利支撐。該搜索引擎上線后1個(gè)月內(nèi)即先后向省內(nèi)版權(quán)局、文化廳、藥監(jiān)局、掃黃打非辦等部門報(bào)送專報(bào)5期,涉及有價(jià)值的互聯(lián)網(wǎng)信息37條。元搜索引擎的部署可以有效支撐行業(yè)監(jiān)管、提高服務(wù)能力、擴(kuò)大地方影響。

5 結(jié)語(yǔ)

基于JSSH的元搜索引擎構(gòu)建技術(shù)為“元搜索”技術(shù)在省內(nèi)互聯(lián)網(wǎng)網(wǎng)絡(luò)環(huán)境治理的研究與部署給出了一種實(shí)踐方案。JSSH客戶端以JavaScript指令向內(nèi)嵌于Firefox瀏覽器中的JSSH服務(wù)器發(fā)送查詢請(qǐng)求。JSSH服務(wù)器運(yùn)行來(lái)自JSSH客戶端的JavaScript指令,填寫查詢關(guān)鍵字并觸發(fā)提交事件,與各成員搜索引擎進(jìn)行交互,從各個(gè)成員獲得相關(guān)結(jié)果集。這里還提出了一種基于用戶自定義權(quán)重的結(jié)果整合方法,將各成員返回的結(jié)果進(jìn)行重新整合以提高結(jié)果的有效性。這種有效的元搜索引擎作為省內(nèi)網(wǎng)絡(luò)環(huán)境治理工作中信息獲取方式的補(bǔ)充,為有互聯(lián)網(wǎng)環(huán)境治理需求的單位提供了一種有力的技術(shù)手段。后續(xù)結(jié)合省內(nèi)相關(guān)互聯(lián)網(wǎng)內(nèi)容主管部門的專項(xiàng)任務(wù),如:省測(cè)繪局在互聯(lián)網(wǎng)專項(xiàng)地圖治理、省廣電總局互聯(lián)網(wǎng)音視頻專項(xiàng)治理等,我們將在結(jié)果整合方面做進(jìn)一步研究,充分地挖掘各成員引擎返回結(jié)果列表之間的關(guān)系以及一些相關(guān)度分析,相信通過(guò)更多的努力,一定能進(jìn)一步提高元搜索引擎的作用。

[1] 祝華新, 劉鵬飛, 單學(xué)剛. 2012年中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告[EB/OL]. (2012-12-21)[2013-8-6]. http://yuqing.people.com.cn/n/2012/1221/c210123-19974822-2.html.

[2] 吳宗靈,李翔,林祥. 基于JSSH的元搜索技術(shù)研究與應(yīng)用[J]. 信息安全與通信保密,2010(11): 41-42.

猜你喜歡
搜索引擎環(huán)境治理客戶端
聯(lián)合國(guó)環(huán)境治理體制
數(shù)字傳聲:環(huán)境治理變中向好
縣級(jí)臺(tái)在突發(fā)事件報(bào)道中如何應(yīng)用手機(jī)客戶端
孵化垂直頻道:新聞客戶端新策略
堅(jiān)決打好環(huán)境治理攻堅(jiān)戰(zhàn)持久戰(zhàn)
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
基于Lucene搜索引擎的研究
客戶端空間數(shù)據(jù)緩存策略
從人體內(nèi)環(huán)境治理解讀中醫(yī)