劉紅芝
(徐州醫(yī)學院圖書館,江蘇 徐州 221004)
劉紅芝 女,碩士。館員,發(fā)表論文10篇,主持并參與課題多項。研究方向:電子信息咨詢與服務;計算機網(wǎng)絡及數(shù)據(jù)庫技術(shù)。
目前網(wǎng)絡正以前所未有的速度快速增長,信息共享日益廣泛。但是網(wǎng)絡是把“雙刃劍”,它在給人們帶來方便和快捷的同時,也帶來了各種問題。不良網(wǎng)站的泛濫、非法信息的傳播等令人們防不勝防,網(wǎng)絡信息安全問題越來越引起人們的關(guān)注。采用相應過濾技術(shù)過濾不良信息已經(jīng)成為未來網(wǎng)絡技術(shù)發(fā)展的當務之急。
信息過濾[1](Information Filtering)就是根據(jù)用戶的信息需求,在動態(tài)的信息流中,搜索用戶感興趣的信息,屏蔽其他無用和不良的信息。信息過濾技術(shù)是以一種系統(tǒng)化的方法,將用戶需求與動態(tài)信息流進行匹配計算,從信息流中抽取出符合用戶個性化需求的信息,并將其傳送給用戶。
信息過濾系統(tǒng)實現(xiàn)信息過濾的方法有以下6種:
1987年,Malone及其同事把信息過濾方法分為3類:基于內(nèi)容的過濾(content-based filtering)、協(xié)作過濾(collaborative filtering)和經(jīng)濟過濾(economic filtering)。其中,基于內(nèi)容的過濾也叫認知過濾(cognitive filtering);協(xié)作過濾也叫社會過濾(social filtering)[2]。而目前使用較多的就是基于內(nèi)容的過濾和基于協(xié)作的過濾。
這種方法按照信息內(nèi)容的特征作出選擇,主要采用自然語言處理、人工智能、概率統(tǒng)計和機器學習等技術(shù)進行過濾。過濾系統(tǒng)把每個用戶的信息需求表示成一個用戶需求模板,利用關(guān)鍵詞將進入的信息流與用戶需求模板進行相似度匹配計算。過濾的結(jié)果作為反饋更新用戶需求模板。內(nèi)容過濾能夠監(jiān)測現(xiàn)有信息的內(nèi)容特征,為用戶提供與其曾經(jīng)感興趣信息相似的信息,但不能為用戶發(fā)現(xiàn)新的興趣信息。這種方法比較適合于分析文本信息,但對聲音、圖像、視頻等形式的媒體信息還缺乏有效的自動分析方法。
這種方法是“相似”用戶間的相互協(xié)作過程。通過分析用戶興趣,在用戶群體中找到與指定用戶興趣相同或相似的用戶,綜合這些相同或相似用戶對某一信息的評價,形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。在協(xié)作過濾系統(tǒng)中,用戶的知識、經(jīng)驗、職業(yè)、興趣愛好以及思想觀念對于過濾任務是相當重要的。由于不依賴于內(nèi)容,這種過濾方法不僅適用于文本信息,也可以推廣到非文本形式的信息。
協(xié)作過濾的局限是活動用戶只能獲取具有相同興趣的用戶喜歡的信息,而不能獲取不同興趣的用戶喜歡的信息。
這種方法依賴于成本和用戶獲益的計算,依賴于價格機制。
系統(tǒng)主動從Web上為其用戶推送相關(guān)的信息。在有些主動信息過濾系統(tǒng)中,預先對網(wǎng)絡信息進行處理,例如對網(wǎng)頁或者網(wǎng)站預先分級、建立允許或禁止訪問的地址列表等,在過濾時可以根據(jù)分級標記或地址列表決定能否訪問。
系統(tǒng)不對網(wǎng)絡信息進行預處理,當用戶訪問時才對地址、文本或圖像等信息進行分析以決定是否過濾及如何過濾。
根據(jù)用戶對信息的評價把信息推薦給合適的接收者,屬于協(xié)作過濾系統(tǒng)的一部分。
通過設(shè)置一定的條件限制用戶獲取某些信息,而其他信息可以利用。
上游過濾[4]又叫代理服務器過濾。用戶需求模板存放在服務器端或者代理端。一般說來,為了減少服務器端和客戶端的負荷,過濾系統(tǒng)也可能處在信息提供者與用戶“之間”專門的中間服務器上,這種情況也叫做中間服務器過濾。中間服務器如同一個大型的網(wǎng)絡緩存器,Internet信息只有經(jīng)過它的過濾才能進入本地系統(tǒng)或局域網(wǎng),而本地信息也要經(jīng)過它的中轉(zhuǎn)才能傳遞出去。上游過濾的優(yōu)點是不僅支持基于內(nèi)容的過濾,也支持協(xié)作過濾,缺點是模板不能用于不同的網(wǎng)絡應用中。
下游過濾[5]又叫客戶端過濾[3],用戶需求模板存放在客戶端上,用戶根據(jù)自身需要設(shè)置一定的限定條件,將不感興趣的信息排除在外。優(yōu)點是模板可用于不同的網(wǎng)絡應用,缺點是只能實現(xiàn)基于內(nèi)容的過濾。
信息源過濾又叫剪輯服務,用戶將需求模板提交給一個信息提供者,由信息提供者為用戶過濾信息。
信息過濾系統(tǒng)按照其從用戶獲取信息方法的不同可以分為顯式的、隱含式的、混合式的3類。
采用顯式方法獲取用戶信息需求的過濾系統(tǒng)通常要求用戶去填寫一個描述他們興趣領(lǐng)域需求的表或者要求用戶根據(jù)提供的特征項構(gòu)造自身對特定領(lǐng)域信息需求的描述模型。通過用戶交互提供的這些顯式信息可以快速、明確描述用戶的信息需求,減少系統(tǒng)學習的負擔。但是這種顯式的獲取用戶信息需求的方式會增加用戶的負擔,加重用戶使用系統(tǒng)的困難。
采用隱含式方法獲取用戶信息需求的過濾系統(tǒng)通過記錄用戶的行為來獲得用戶的信息需求,如用戶在指定頁面的停留時間、用戶訪問頁面的頻率、是否選擇保存數(shù)據(jù)、是否打印、是否轉(zhuǎn)發(fā)數(shù)據(jù)等對信息項的反應都能作為用戶興趣的標志。一般來說,這種采用隱含式獲取用戶信息需求的方法容易受到干擾的影響,所以這種方法通常用作顯式方法的補充。
采用混合式[6]方法獲取用戶信息需求的方法介于顯式方法和隱含式方法之間,它要求盡量減少用戶的參與?;旌鲜将@取用戶信息需求的方法通常有兩種,一種方法是通過文檔空間來獲取知識,另一種方法是通過原型參考來獲取知識。
通過文檔空間來獲取知識的混合式過濾系統(tǒng)通過提供一個用戶已判斷為相關(guān)的文檔集,當新文檔到來時計算新文檔與此文檔集的相似度,如果相似度大于一定的閥值,則新文檔被認為是相關(guān)的。用戶不需要定義模板,只需評價文檔的相關(guān)性。這種方法的缺點是如果某一興趣領(lǐng)域不在初始文檔空間范圍內(nèi),用戶的興趣可能會發(fā)生偏移。
通過原型參考來獲取知識的混合式過濾系統(tǒng)要求用戶提供自身明確的信息,使系統(tǒng)能夠把用戶與用戶原型模型相關(guān)聯(lián)。所謂的原型模型是指一組用戶的默認信息,將對用戶原型模型上的隱含式推測與用戶提供的明確知識相結(jié)合,可得到更好的表示用戶信息需求的用戶模板。目前只有少量的過濾系統(tǒng)中使用這種方法。
這是為過濾網(wǎng)絡信息而專門開發(fā)的軟件,又分為專門過濾軟件和通用過濾軟件兩種。前者只能過濾某種網(wǎng)絡協(xié)議的信息,或者只能在某種網(wǎng)絡應用中起作用;后者能對多種網(wǎng)絡協(xié)議或應用起作用。
有些網(wǎng)絡應用程序如Web瀏覽器、搜索引擎、電子郵件、新聞組等附有過濾功能,可以設(shè)置過濾不適宜的信息。
如防火墻、代理服務器等,可以通過對源地址、目標地址或端口號的限制,防止子網(wǎng)不適宜信息流出或子網(wǎng)外不適宜信息流入。
此外,還有其他分類方法,如按興趣收集涉及到的用戶分為獨立過濾和協(xié)同過濾、按信息的表示方法分為統(tǒng)計概念過濾和知識概念過濾等。
通過對常用過濾系統(tǒng)幾種分類方法的分析,我們可以選擇適合的分類方法構(gòu)建信息過濾模型,使之應用到各種領(lǐng)域中,從而構(gòu)建功能強大的信息過濾系統(tǒng)。
[1]孫鐵利,王圓,李楊.淺析網(wǎng)絡信息過濾的關(guān)鍵技術(shù)[J].計算機科學與實踐,2006(3):9-10.
[2]Yuefeng Li,Ning Zhong.Ontology-Based Web Mining Model:Representations of User Profiles[J].IEEE/WIC International Conference on Web Intelligence,2003(10):96-101.
[3]張敏.信息過濾系統(tǒng)模型的相關(guān)問題研究[J].科技情報開發(fā)與經(jīng)濟,2008(1):85-86.
[4]鄒萍,紀沙.網(wǎng)絡信息過濾機制的研究[J].哈爾濱師范大學自然科學學報,2008(2):66-69,97.
[5]胡建國,文登敏.基于大量文本信息過濾系統(tǒng)的實現(xiàn)[J].成都信息工程學院學報,2008(6):249-253.
[6]Ricardo Baeza-Yates,Berthier Ribeiro-Neto.Modern Information Retrieval.China Machine Press,2004.
[7]李東林.中文信息過濾技術(shù)的研究與應用[D].鞍山科技大學,2006.