網(wǎng)絡信息過濾系統(tǒng)的分類*

2010-03-22 15:42劉紅芝

圖書館學刊 2010年4期

劉紅芝

（徐州醫(yī)學院圖書館，江蘇徐州 221004）

劉紅芝女，碩士。館員，發(fā)表論文10篇，主持并參與課題多項。研究方向：電子信息咨詢與服務；計算機網(wǎng)絡及數(shù)據(jù)庫技術(shù)。

目前網(wǎng)絡正以前所未有的速度快速增長，信息共享日益廣泛。但是網(wǎng)絡是把“雙刃劍”，它在給人們帶來方便和快捷的同時，也帶來了各種問題。不良網(wǎng)站的泛濫、非法信息的傳播等令人們防不勝防，網(wǎng)絡信息安全問題越來越引起人們的關(guān)注。采用相應過濾技術(shù)過濾不良信息已經(jīng)成為未來網(wǎng)絡技術(shù)發(fā)展的當務之急。

信息過濾[1]（Information Filtering）就是根據(jù)用戶的信息需求，在動態(tài)的信息流中，搜索用戶感興趣的信息，屏蔽其他無用和不良的信息。信息過濾技術(shù)是以一種系統(tǒng)化的方法，將用戶需求與動態(tài)信息流進行匹配計算，從信息流中抽取出符合用戶個性化需求的信息，并將其傳送給用戶。

信息過濾系統(tǒng)實現(xiàn)信息過濾的方法有以下6種：

1 根據(jù)過濾系統(tǒng)的結(jié)構(gòu)分類

1987年，Malone及其同事把信息過濾方法分為3類：基于內(nèi)容的過濾（content-based filtering）、協(xié)作過濾（collaborative filtering）和經(jīng)濟過濾（economic filtering）。其中，基于內(nèi)容的過濾也叫認知過濾（cognitive filtering）；協(xié)作過濾也叫社會過濾（social filtering）[2]。而目前使用較多的就是基于內(nèi)容的過濾和基于協(xié)作的過濾。

1.1 基于內(nèi)容的過濾

這種方法按照信息內(nèi)容的特征作出選擇，主要采用自然語言處理、人工智能、概率統(tǒng)計和機器學習等技術(shù)進行過濾。過濾系統(tǒng)把每個用戶的信息需求表示成一個用戶需求模板，利用關(guān)鍵詞將進入的信息流與用戶需求模板進行相似度匹配計算。過濾的結(jié)果作為反饋更新用戶需求模板。內(nèi)容過濾能夠監(jiān)測現(xiàn)有信息的內(nèi)容特征，為用戶提供與其曾經(jīng)感興趣信息相似的信息，但不能為用戶發(fā)現(xiàn)新的興趣信息。這種方法比較適合于分析文本信息，但對聲音、圖像、視頻等形式的媒體信息還缺乏有效的自動分析方法。

1.2 基于協(xié)作的過濾

這種方法是“相似”用戶間的相互協(xié)作過程。通過分析用戶興趣，在用戶群體中找到與指定用戶興趣相同或相似的用戶，綜合這些相同或相似用戶對某一信息的評價，形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。在協(xié)作過濾系統(tǒng)中，用戶的知識、經(jīng)驗、職業(yè)、興趣愛好以及思想觀念對于過濾任務是相當重要的。由于不依賴于內(nèi)容，這種過濾方法不僅適用于文本信息，也可以推廣到非文本形式的信息。

協(xié)作過濾的局限是活動用戶只能獲取具有相同興趣的用戶喜歡的信息，而不能獲取不同興趣的用戶喜歡的信息。

1.3 經(jīng)濟過濾

這種方法依賴于成本和用戶獲益的計算，依賴于價格機制。

2 根據(jù)操作的主動性分類

2.1 主動過濾

系統(tǒng)主動從Web上為其用戶推送相關(guān)的信息。在有些主動信息過濾系統(tǒng)中，預先對網(wǎng)絡信息進行處理，例如對網(wǎng)頁或者網(wǎng)站預先分級、建立允許或禁止訪問的地址列表等，在過濾時可以根據(jù)分級標記或地址列表決定能否訪問。

2.2 被動過濾

系統(tǒng)不對網(wǎng)絡信息進行預處理，當用戶訪問時才對地址、文本或圖像等信息進行分析以決定是否過濾及如何過濾。

3 根據(jù)信息過濾的目的分類

3.1 推薦系統(tǒng)

根據(jù)用戶對信息的評價把信息推薦給合適的接收者，屬于協(xié)作過濾系統(tǒng)的一部分。

3.2 阻擋系統(tǒng)

通過設(shè)置一定的條件限制用戶獲取某些信息，而其他信息可以利用。

4 根據(jù)過濾模板所在的位置分類

4.1 上游過濾

上游過濾[4]又叫代理服務器過濾。用戶需求模板存放在服務器端或者代理端。一般說來，為了減少服務器端和客戶端的負荷，過濾系統(tǒng)也可能處在信息提供者與用戶“之間”專門的中間服務器上，這種情況也叫做中間服務器過濾。中間服務器如同一個大型的網(wǎng)絡緩存器，Internet信息只有經(jīng)過它的過濾才能進入本地系統(tǒng)或局域網(wǎng)，而本地信息也要經(jīng)過它的中轉(zhuǎn)才能傳遞出去。上游過濾的優(yōu)點是不僅支持基于內(nèi)容的過濾，也支持協(xié)作過濾，缺點是模板不能用于不同的網(wǎng)絡應用中。

4.2 下游過濾

下游過濾[5]又叫客戶端過濾[3]，用戶需求模板存放在客戶端上，用戶根據(jù)自身需要設(shè)置一定的限定條件，將不感興趣的信息排除在外。優(yōu)點是模板可用于不同的網(wǎng)絡應用，缺點是只能實現(xiàn)基于內(nèi)容的過濾。

4.3 信息源過濾

信息源過濾又叫剪輯服務，用戶將需求模板提交給一個信息提供者，由信息提供者為用戶過濾信息。

5 按照從用戶獲取信息的方法分類

信息過濾系統(tǒng)按照其從用戶獲取信息方法的不同可以分為顯式的、隱含式的、混合式的3類。

5.1 顯式過濾

采用顯式方法獲取用戶信息需求的過濾系統(tǒng)通常要求用戶去填寫一個描述他們興趣領(lǐng)域需求的表或者要求用戶根據(jù)提供的特征項構(gòu)造自身對特定領(lǐng)域信息需求的描述模型。通過用戶交互提供的這些顯式信息可以快速、明確描述用戶的信息需求，減少系統(tǒng)學習的負擔。但是這種顯式的獲取用戶信息需求的方式會增加用戶的負擔，加重用戶使用系統(tǒng)的困難。

5.2 隱含式過濾

采用隱含式方法獲取用戶信息需求的過濾系統(tǒng)通過記錄用戶的行為來獲得用戶的信息需求，如用戶在指定頁面的停留時間、用戶訪問頁面的頻率、是否選擇保存數(shù)據(jù)、是否打印、是否轉(zhuǎn)發(fā)數(shù)據(jù)等對信息項的反應都能作為用戶興趣的標志。一般來說，這種采用隱含式獲取用戶信息需求的方法容易受到干擾的影響，所以這種方法通常用作顯式方法的補充。

5.3 混合式過濾

采用混合式[6]方法獲取用戶信息需求的方法介于顯式方法和隱含式方法之間，它要求盡量減少用戶的參與?；旌鲜将@取用戶信息需求的方法通常有兩種，一種方法是通過文檔空間來獲取知識，另一種方法是通過原型參考來獲取知識。

通過文檔空間來獲取知識的混合式過濾系統(tǒng)通過提供一個用戶已判斷為相關(guān)的文檔集，當新文檔到來時計算新文檔與此文檔集的相似度，如果相似度大于一定的閥值，則新文檔被認為是相關(guān)的。用戶不需要定義模板，只需評價文檔的相關(guān)性。這種方法的缺點是如果某一興趣領(lǐng)域不在初始文檔空間范圍內(nèi)，用戶的興趣可能會發(fā)生偏移。

通過原型參考來獲取知識的混合式過濾系統(tǒng)要求用戶提供自身明確的信息，使系統(tǒng)能夠把用戶與用戶原型模型相關(guān)聯(lián)。所謂的原型模型是指一組用戶的默認信息，將對用戶原型模型上的隱含式推測與用戶提供的明確知識相結(jié)合，可得到更好的表示用戶信息需求的用戶模板。目前只有少量的過濾系統(tǒng)中使用這種方法。

6 根據(jù)過濾的不同應用分類[7]

6.1 專門過濾軟件

這是為過濾網(wǎng)絡信息而專門開發(fā)的軟件，又分為專門過濾軟件和通用過濾軟件兩種。前者只能過濾某種網(wǎng)絡協(xié)議的信息，或者只能在某種網(wǎng)絡應用中起作用；后者能對多種網(wǎng)絡協(xié)議或應用起作用。

6.2 網(wǎng)絡應用程序

有些網(wǎng)絡應用程序如Web瀏覽器、搜索引擎、電子郵件、新聞組等附有過濾功能，可以設(shè)置過濾不適宜的信息。

6.3 其他過濾工具

如防火墻、代理服務器等，可以通過對源地址、目標地址或端口號的限制，防止子網(wǎng)不適宜信息流出或子網(wǎng)外不適宜信息流入。

此外，還有其他分類方法，如按興趣收集涉及到的用戶分為獨立過濾和協(xié)同過濾、按信息的表示方法分為統(tǒng)計概念過濾和知識概念過濾等。

通過對常用過濾系統(tǒng)幾種分類方法的分析，我們可以選擇適合的分類方法構(gòu)建信息過濾模型，使之應用到各種領(lǐng)域中，從而構(gòu)建功能強大的信息過濾系統(tǒng)。

[1]孫鐵利，王圓，李楊.淺析網(wǎng)絡信息過濾的關(guān)鍵技術(shù)[J].計算機科學與實踐，2006（3）：9-10.

[2]Yuefeng Li，Ning Zhong.Ontology-Based Web Mining Model：Representations of User Profiles[J].IEEE/WIC International Conference on Web Intelligence，2003（10）：96-101.

[3]張敏.信息過濾系統(tǒng)模型的相關(guān)問題研究[J].科技情報開發(fā)與經(jīng)濟，2008（1）：85-86.

[4]鄒萍，紀沙.網(wǎng)絡信息過濾機制的研究[J].哈爾濱師范大學自然科學學報，2008（2）：66-69，97.

[5]胡建國，文登敏.基于大量文本信息過濾系統(tǒng)的實現(xiàn)[J].成都信息工程學院學報，2008（6）：249-253.

[6]Ricardo Baeza-Yates，Berthier Ribeiro-Neto.Modern Information Retrieval.China Machine Press，2004.

[7]李東林.中文信息過濾技術(shù)的研究與應用[D].鞍山科技大學，2006.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡