摘要:設(shè)計計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng),對計算機實時互聯(lián)網(wǎng)信息的內(nèi)容進行審查,能夠?qū)胁涣肌⒚舾械惹闆r的內(nèi)容,發(fā)現(xiàn)并追查,充分利用互聯(lián)網(wǎng)信息過濾系統(tǒng),進行自動檢查。在當(dāng)前信息安全需求不斷強化下,具有重要應(yīng)用價值。該文則對計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng)設(shè)計展開探討,以為計算機信息安全管理提供有效參考資料。
關(guān)鍵詞:計算機;實時互聯(lián)網(wǎng)信息過濾;系統(tǒng)設(shè)計
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)27-0027-03
Abstract: Design computer real-time Internet information filtering system, the content of computer real-time Internet information is reviewed, and can be found in the content of bad, sensitive, etc., and to trace, make full use of Internet information filtering system, automatic inspection. In the current information security needs continue to strengthen, has important application value. This paper discusses the design of computer real-time Internet information filtering system, which provides an effective reference for the computer information security management.
Key words: computer; real-time internet information filtering; system design
基于當(dāng)前計算機技術(shù)的發(fā)展,互聯(lián)網(wǎng)實時不良信息日益增多,設(shè)計計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng),能夠從分詞算法、文檔語義、關(guān)鍵字方面,準確過濾實時互聯(lián)網(wǎng)信息,不僅可以確保計算機實時互聯(lián)網(wǎng)信息安全,也可以提升互聯(lián)網(wǎng)信息過濾系統(tǒng)性能,發(fā)揮積極影響。以下對此做具體分析。
1計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng)結(jié)構(gòu)及功能設(shè)計
1.1系統(tǒng)總體結(jié)構(gòu)
對于該系統(tǒng)設(shè)計中,由于互聯(lián)網(wǎng)上各網(wǎng)頁均采用實時動態(tài)發(fā)布技術(shù),互聯(lián)網(wǎng)上的數(shù)據(jù)非常龐雜【1-2】。因此,在設(shè)計計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng)中,可以及時檢測收集互聯(lián)網(wǎng)實時信息,并將其傳輸給系統(tǒng)功能實現(xiàn)模塊,對不良實時互聯(lián)網(wǎng)信息進行過濾,并將過濾后的安全信息顯示到互聯(lián)網(wǎng)中。下圖為總體設(shè)計結(jié)構(gòu):
1.2系統(tǒng)功能設(shè)計
對于該系統(tǒng)設(shè)計中,對于計算機實時信息互聯(lián)網(wǎng)過濾過程中,確保該系統(tǒng)具備多種功能,能夠建立敏感知識庫模塊、維護敏感詞知識庫模塊、敏感信息過濾計算模塊、敏感信息過濾接口開發(fā)模塊以及敏感信息過濾日志模塊,有效完善系統(tǒng)對實時互聯(lián)網(wǎng)信息過濾的功能。該系統(tǒng)功能結(jié)構(gòu)如下圖中所示:
建立敏感知識庫:實時互聯(lián)網(wǎng)敏感知識庫由滿足過濾需要的敏感詞匯構(gòu)成。敏感詞庫的建立可以共享國家互聯(lián)網(wǎng)中心、公安部門等權(quán)威部門的數(shù)據(jù),也可以通過積累及敏感信息特征構(gòu)造等產(chǎn)生。在特征構(gòu)造時需對敏感知識歸一化處理,注意包括相近的、拆分的或者加拼音等詞匯以及一些繁體字和自造字,比如對 “三去車侖工力”、“法倫功”、“法lun功”、“琺論功”等要統(tǒng)一轉(zhuǎn)化為“法輪功”【3】。同時,需要對敏感知識庫應(yīng)進行分類整理,具體可以分政治敏感性、違法信息、廣告宣傳等類,比如:
政治敏感信息包括:涉國家安全的實時互聯(lián)網(wǎng)敏感信息,涉國家領(lǐng)導(dǎo)人、集會游行、64事件、法輪功、中國臺灣等。
違法信息包括:違反國家法律、產(chǎn)生社會危害的信息,如槍支、毒品買賣信息,提供色情、賭博服務(wù)的信息等。
此外,實時互聯(lián)網(wǎng)敏感知識庫的建立還必須要求能夠具有自動識別功能,根據(jù)用戶選擇對誤判或漏判詞匯和特征的構(gòu)造,智能識別敏感詞匯,并將其自動加入敏感知識庫。也可以根據(jù)實際進一步細分,比如違法信息細分成黃色、賭博、毒品等等。
維護敏感詞知識庫:實時互聯(lián)網(wǎng)敏感詞知識庫應(yīng)該是個動態(tài)的數(shù)據(jù)庫,應(yīng)根據(jù)需要實現(xiàn)自動更新和手動維護。實現(xiàn)對敏感知識庫的可視化管理,能夠分類瀏覽實時互聯(lián)網(wǎng)敏感詞庫和其相近的詞匯,支持單條和批量敏感詞匯的增加、刪除、修改操作【4】。此外,還可以支持通過計算機程序進行實時更新或定期手動更新,實現(xiàn)批量多條記錄的增加、刪除、更新操作。
敏感信息過濾計算:需要設(shè)計算法對實時互聯(lián)網(wǎng)敏感詞匯過濾計算。在對敏感信息過濾時,首先需要對過濾的內(nèi)容進行預(yù)處理,其次根據(jù)敏感詞匯的類型對敏感內(nèi)容進行過濾計算。預(yù)處理過程如下:
1)消重:對需過濾實時互聯(lián)網(wǎng)內(nèi)容中重復(fù)的敏感知識進行消重。
2)格式化:自動處理過濾內(nèi)容無效字符,如“ (空格)”、“.”“*”等信息。
3)拼音替換:將預(yù)處理內(nèi)容中出現(xiàn)的拼音進行替換。
4)交叉歧義識別:對過濾內(nèi)容進行中文分詞,涉及交叉歧義的能夠準確識別。
敏感信息過濾接口:實時互聯(lián)網(wǎng)敏感信息過濾接口是將過濾算法進行封裝【5】,供企業(yè)信用信息公示系統(tǒng)調(diào)用,對實時互聯(lián)網(wǎng)自行填報的文本內(nèi)容進行過濾,并返回處理結(jié)果。該接口返回內(nèi)容包括:
1)處置動作:通過、可疑、嚴重;
2)命中高危敏感特征為嚴重:如“法輪功”、“賣槍”、“小姐上門”等違法信息、政治敏感信息等;
3)命中疑似敏感特征為可疑,如普通敏感等疑似敏感信息;
敏感信息過濾日志:系統(tǒng)自動記錄調(diào)用敏感信息過濾接口的內(nèi)容、IP地址、調(diào)用時間以及對各地對敏感信息處理的反饋結(jié)果等,供進行統(tǒng)計、分析等。
1.3實時互聯(lián)網(wǎng)信息過濾算法
計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng)設(shè)計中,能夠從分詞算法、文檔語義、關(guān)鍵字方面,提升系統(tǒng)對不良實時互聯(lián)網(wǎng)信息的過濾效率。
1)分詞算法
建立停用詞表,在這里面包括一些漢語中的常用詞匯,對于這些常用詞匯,也往往包括一些輔助詞,確保其能夠在許多文檔信息中都可以大量出現(xiàn),確保不能用可以描述文檔特征的詞匯,同時,也不能理解文檔信息。這樣的分詞,可以確保系統(tǒng)過濾信息的正確性,為提升系統(tǒng)性能,將會產(chǎn)生極大影響【6】。其次,就可以互聯(lián)網(wǎng)文檔中,搜尋出現(xiàn)的過濾關(guān)鍵詞,并能夠?qū)⑵涮崛〕鰜怼W詈?,可以先從文檔讀取出兩個字符,搜尋文檔中是否存在相同文檔字符;就可以去根據(jù)這個假設(shè),從而能夠去預(yù)先的設(shè)定一個詞語頻率閥值,以此可以來對互聯(lián)網(wǎng)文檔中應(yīng)該出現(xiàn)的次數(shù)進行分析,將次數(shù)少的詞語進行剔除操作【7】。該方式,可以避免在過濾系統(tǒng)數(shù)據(jù)過程中,導(dǎo)致稀有詞對系統(tǒng)信息過濾帶來的干擾。
2)文檔語義算法
能夠?qū)⒁黄臋n表示為一個形成向量的過程,可以在形成時,提取出在文檔之中的特征項信息,從而將其構(gòu)成一個文檔向量,達到過濾實時信息的目的【8】??梢詫Φ玫降奈臋n語義特征項列表進行相關(guān)排序,然后可以通過特征項標識、權(quán)重等,生成該文檔的向量模型,從而能夠在系統(tǒng)中,以文檔語義內(nèi)容去過濾存在與實時互聯(lián)網(wǎng)中的不良信息。
3)關(guān)鍵字算法
采用“關(guān)鍵詞組抽?。‥xtractorke)”算法,結(jié)合相關(guān)概率統(tǒng)計的方法,實現(xiàn)對實時互聯(lián)網(wǎng)信息中文本關(guān)鍵內(nèi)容的提取過濾。
1.4互聯(lián)網(wǎng)實施信息過濾處理
在該系統(tǒng)設(shè)計中,能夠運用SPIDER系統(tǒng),可以獲取在網(wǎng)頁源文件中的數(shù)據(jù)信息,并可以進一步去分析超鏈接中的遞歸掃描,可以根據(jù)其指定范圍,確保有效的互聯(lián)網(wǎng)過濾信息可以保存到網(wǎng)頁資源庫中。能實現(xiàn)可視化的配置掃描,附加實時信息的篩選、加信息過濾條件、能夠進行最深層數(shù)的信息過濾。并且,還可以進行各類JavaScript的特殊解析,剝離出互聯(lián)網(wǎng)實時用戶所需信息,對互聯(lián)網(wǎng)信息中的標題、正文以及作者等內(nèi)容進行分析。建立系統(tǒng)模塊內(nèi)部過濾處理方法doFilter(),其信息過濾處理流程如下:
具體代碼為:
public String doFilter(String str) {
//process the html tag <>
String r = str.replace(<, [)
.replace(>, ]);
return r;
}
1.5系統(tǒng)信息過濾測試
設(shè)計計算機實時互聯(lián)網(wǎng)信息過濾系統(tǒng),可以有效過濾在計算機中實時互聯(lián)網(wǎng)中的不良信息,對于涉及敏感問題、敏感關(guān)鍵字、敏感信息的相關(guān)內(nèi)容,均可以被系統(tǒng)過濾掉,不再互聯(lián)網(wǎng)中顯示。如下為一個系統(tǒng)測試代碼實例:
public class Main {
/**
* @param args
*/
public static void main(String[] args) {
String msg = "大家好:),
客服熱線:400-656-5456??客服專線:010-56265043??電子郵箱:longyuankf@126.com
電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證:京icp證060024號
Dragonsource.com Inc. All Rights Reserved