陳秋誕
摘要:該文對(duì)組織內(nèi)容安全風(fēng)險(xiǎn)識(shí)別的已有方法進(jìn)行梳理;列舉出兩種常用的方法以及三種基于Web挖掘的方法,并進(jìn)行了詳細(xì)的闡述;同時(shí)分析出每種風(fēng)險(xiǎn)識(shí)別方法的不足,并給出其可能改進(jìn)的方向,以及新的研究方向,為組織內(nèi)容風(fēng)險(xiǎn)識(shí)別提供理論與技術(shù)支持。
關(guān)鍵詞:組織內(nèi)容; 內(nèi)容安全; 風(fēng)險(xiǎn)識(shí)別方法; Web挖掘技術(shù)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)11-0021-02
互聯(lián)網(wǎng)上的文本內(nèi)容中,一部分信息和內(nèi)容對(duì)組織以及個(gè)人具有積極的影響,而另一部分則會(huì)造成消極的影響。例如,某人通過淘寶網(wǎng)購買了一件商品,但是他認(rèn)為該商品質(zhì)量存在問題,于是他在商品的評(píng)價(jià)中發(fā)表了自己的觀點(diǎn),當(dāng)認(rèn)同此評(píng)價(jià)的個(gè)體越來越多的時(shí)候,該評(píng)價(jià)就演變成了熱門評(píng)價(jià),既而可能會(huì)引發(fā)個(gè)體對(duì)該商品的嘲諷、謾罵,最終對(duì)商品的銷售產(chǎn)生無形的影響。在這種情況下,組織如何去識(shí)別可能發(fā)生的風(fēng)險(xiǎn)?如何去評(píng)價(jià)風(fēng)險(xiǎn)發(fā)生之后造成的影響?又如何去降低對(duì)資產(chǎn)所造成的損失?
“內(nèi)容安全”是其中的一個(gè)核心問題。內(nèi)容安全是指由信息內(nèi)容所引發(fā)的信息安全事件以及由此所造成的損失。能夠引發(fā)內(nèi)容安全事件的風(fēng)險(xiǎn)即是信息內(nèi)容風(fēng)險(xiǎn)。因?yàn)樾畔?nèi)容安全事件等相關(guān)概念不適用于社會(huì)組織,現(xiàn)對(duì)相關(guān)概念進(jìn)行擴(kuò)充,具體如下:“組織內(nèi)容”是指在互聯(lián)網(wǎng)上傳播的信息中與組織相關(guān)的內(nèi)容,以及個(gè)人或其他組織針對(duì)這些信息所持有的態(tài)度?!敖M織內(nèi)容風(fēng)險(xiǎn)”是指與組織相關(guān)的內(nèi)容可以為個(gè)人或者其他組織所利用,在利用過程中對(duì)組織的無形資產(chǎn)造成損失的可能性。1
本文主要研究組織內(nèi)容風(fēng)險(xiǎn)的識(shí)別方法。第一部分為引言,第二部分描述了國內(nèi)外有關(guān)信息內(nèi)容安全的發(fā)展現(xiàn)狀,第三部分介紹了組織內(nèi)容風(fēng)險(xiǎn)識(shí)別方法體系,第四部分主要討論了內(nèi)容分析法,第五部分詳細(xì)說明了網(wǎng)絡(luò)計(jì)量法,第六部分對(duì)本文介紹的識(shí)別方法進(jìn)行了問題分析并提出了改進(jìn)方向,第七部分運(yùn)用分析工具對(duì)廣西師范學(xué)院的官方網(wǎng)站進(jìn)行了外鏈分析,第八部分比較了不同類型組織的風(fēng)險(xiǎn)差異性,最后對(duì)本文的研究?jī)?nèi)容作了總結(jié)。
1組織內(nèi)容風(fēng)險(xiǎn)識(shí)別常用分析方法體系
上文中提到,內(nèi)容安全是由信息內(nèi)容所引發(fā)的信息安全事件,那么對(duì)信息內(nèi)容的分析可以參考情報(bào)分析的理念和方法,以及自然語言處理、數(shù)據(jù)挖掘、人工智能等技術(shù),從而形成一套組織內(nèi)容風(fēng)險(xiǎn)識(shí)別分析方法體系,如下圖1所示:
1.1鏈接分析法
鏈接分析法是根據(jù)網(wǎng)站與網(wǎng)站之間的相關(guān)性來進(jìn)行操作的,無論何種網(wǎng)站都是由許許多多的網(wǎng)頁組成,而這些網(wǎng)頁彼此之間存在著某種關(guān)系,這種相關(guān)性是指:1)內(nèi)容相關(guān)性。網(wǎng)絡(luò)信息從某個(gè)方面來講是聚合的;2)結(jié)構(gòu)相關(guān)性。網(wǎng)頁與網(wǎng)頁之間以某種結(jié)構(gòu)相互關(guān)聯(lián);3)功能相關(guān)性。站點(diǎn)可以通過它和其他站點(diǎn)之間共享內(nèi)容;4)附屬相關(guān)性。網(wǎng)站的主體是內(nèi)容、結(jié)構(gòu)和功能,而相對(duì)于這些主體部分,網(wǎng)站上的廣告、網(wǎng)站上的友情鏈接以及初次之外的其他鏈接等都暫且歸為附屬相關(guān)性。
網(wǎng)頁中存在著大量動(dòng)態(tài)的超鏈接,它是網(wǎng)頁的重要元素,幾乎所有的網(wǎng)頁都是利用超鏈接來建立相互之間的聯(lián)系。超鏈接一方面便于引導(dǎo)用戶瀏覽網(wǎng)頁;另一方面,網(wǎng)頁鏈接的創(chuàng)建都帶有一定的目的性,既超鏈接時(shí)常會(huì)指向它們認(rèn)為想要網(wǎng)站訪問者看到的網(wǎng)頁,因此這些超鏈接隱含了大量人為設(shè)定的目的信息。所以,對(duì)互聯(lián)網(wǎng)的鏈接結(jié)構(gòu)信息進(jìn)行充分挖掘,將對(duì)改善Web信息檢索準(zhǔn)確度、Web隱式社區(qū)的發(fā)現(xiàn)等方面產(chǎn)生極為重要的意義。
1.2文本挖掘法
文本挖掘主要由以下步驟構(gòu)成:
(1)文本預(yù)處理:將文本對(duì)象轉(zhuǎn)換成文本挖掘工具能夠識(shí)別的格式。一般包括兩個(gè)主要步驟,既特征抽取和特征選擇。
(2)文本挖掘:是指采用數(shù)據(jù)挖掘以及模式識(shí)別等方法獲取面向特定應(yīng)用目標(biāo)的知識(shí)和模式。
(3)模式評(píng)估和表示:利用已確定的評(píng)估標(biāo)準(zhǔn)進(jìn)行評(píng)估。
1.3主題聚類法
主題發(fā)現(xiàn)也叫主題抽取或者主題識(shí)別,其作用是處理和分析大規(guī)模信息同時(shí)使用戶以最迅速有效的方式理解信息內(nèi)容,探究信息中的主題。當(dāng)前對(duì)于主題發(fā)現(xiàn)并沒有一個(gè)明確定義,只是將從復(fù)雜大規(guī)模信息源中獲取主題并進(jìn)行表現(xiàn)的一系列技術(shù)方法統(tǒng)稱為主題發(fā)現(xiàn)。通過精讀一系列相關(guān)項(xiàng)目和論文,筆者認(rèn)為,主題發(fā)現(xiàn)可作廣義和狹義兩種解釋。
廣義的主題發(fā)現(xiàn)方式較為靈活,只要是可以發(fā)現(xiàn)代表性信息的方法都可以歸納為廣義的主題發(fā)現(xiàn)。比如,針對(duì)文本的主題發(fā)現(xiàn)有:從高頻被引論文中提取高頻詞來代表主題領(lǐng)域、基于語義局部性思想來判定主題領(lǐng)域等多種方式。
狹義的主題發(fā)現(xiàn)是指從文本中提取關(guān)鍵文字信息,將主題聚焦在某幾個(gè)詞上的方法。此種方法需要發(fā)現(xiàn)文檔中的關(guān)鍵問題,聚焦關(guān)鍵詞并選取適當(dāng)方式呈現(xiàn),其也是目前主流的主題發(fā)現(xiàn)方法研究模式。本文的主題聚類法主要基于此種定義。
主題發(fā)現(xiàn)的目標(biāo)在于運(yùn)用一系列語義理解方式,從文本中自動(dòng)提取關(guān)鍵詞或術(shù)語,然后在此基礎(chǔ)上加以聚類,從而發(fā)現(xiàn)主題,并以恰當(dāng)?shù)姆绞匠尸F(xiàn)出來,該方法的關(guān)鍵作用在于利用語料自身的組織和結(jié)構(gòu)來發(fā)現(xiàn)語義信息。聚類方法還有另一優(yōu)勢(shì),傳統(tǒng)方式是利用基于詞的匹配來發(fā)現(xiàn)語料中的信息,其沒有考慮到語料自身的結(jié)構(gòu)在理解語料時(shí)會(huì)發(fā)揮的作用。所以,更準(zhǔn)確地說,主題發(fā)現(xiàn)并不是某一項(xiàng)特定的技術(shù),而是很多方面技術(shù)的綜合運(yùn)用。
2 鏈接挖掘工具應(yīng)用及分析實(shí)例
目前,國內(nèi)外有為數(shù)眾多的免費(fèi)鏈接分析工具。本文選取國內(nèi)一款名為“站長工具”的外鏈查詢工具進(jìn)行實(shí)例分析。該軟件是一款Web頁面工具,其界面如下圖所示:
該工具有三個(gè)文本框,第一個(gè)填寫分析的域名對(duì)象,然后點(diǎn)擊右側(cè)“查詢”按鈕即可得出所需結(jié)果;后兩個(gè)為附加項(xiàng),可在查詢的同時(shí)輸入需要的外鏈文本或過濾不需要的域名,亦可對(duì)文本進(jìn)行模糊匹配查詢。
現(xiàn)使用該工具對(duì)廣西師范學(xué)院官網(wǎng)進(jìn)行鏈接分析,復(fù)制廣西師范學(xué)院官網(wǎng)域名,粘貼到“請(qǐng)輸入查詢的域名”后面的對(duì)話框中,得到分析結(jié)果如下:
由圖中可以看出,本域名有反鏈數(shù)74個(gè),子域名數(shù)3個(gè);點(diǎn)擊“子域名”右側(cè)展開按鈕,可查看結(jié)果中的3個(gè)子域名,如下圖:
每個(gè)子域名后面中括號(hào)內(nèi)的數(shù)字顯示了其反鏈數(shù)。該工具的排序方式有權(quán)重、PR、反鏈數(shù)三種;“只顯示nofollow”為附加條件,可選擇查看是否帶nofollow的域名。網(wǎng)頁主體內(nèi)容顯示了本域名所有的反鏈;每條反鏈下方的信息從左到右分別表示:該反鏈的域名、本域名在該反鏈中的權(quán)重、該反鏈的反鏈數(shù)、鏈接名稱、是否帶nofollow。
通過本工具,我們可以得出的信息如下:
a.本域名有74個(gè)反鏈,3個(gè)子域名及其完整域名。
b.所有反鏈的域名、反鏈自身的反鏈數(shù)以及該反鏈?zhǔn)欠駧ofollow。
c.本域名在各個(gè)反鏈頁面中的鏈接名稱。
d.在本域名的所有反鏈中,網(wǎng)頁“廣西師范學(xué)院_廣西師范學(xué)院錄取分?jǐn)?shù)線,專業(yè)介紹,圖片_新浪院校庫_新浪教育”中所占的百度權(quán)重最高,下表為百度權(quán)重各指數(shù)域名數(shù)量:
e.在本域名的所有反鏈中,網(wǎng)頁“廣西師范學(xué)院_廣西師范學(xué)院錄取分?jǐn)?shù)線,專業(yè)介紹,圖片_新浪院校庫_新浪教育”的PR(PageRank)值最高,PR值越高說明該網(wǎng)頁在google搜索中越重要,下表為PR值各指數(shù)域名數(shù)量:
f.在本域名的所有反鏈中,網(wǎng)頁“123網(wǎng)址之家-教育大學(xué) 教育網(wǎng)_中國教育網(wǎng)_教育部_教育論文_遠(yuǎn)程教育_成人教育_教案_教育培訓(xùn)”所擁有的反鏈數(shù)最多,約為1682個(gè),下表為各反鏈數(shù)區(qū)間的域名數(shù)量:
[反鏈數(shù)區(qū)間\&2000~1501\&1500~1001\&1000~501\&500~1\&0\&域名數(shù)量\&2\&0\&1\&41\&29\&]
鏈接分析是組織內(nèi)容風(fēng)險(xiǎn)識(shí)別的重要組成部分,在本次分析的基礎(chǔ)上,可進(jìn)一步分析其鏈接類型和鏈接動(dòng)機(jī),以便為組織內(nèi)容風(fēng)險(xiǎn)識(shí)別提供基礎(chǔ)。
3 結(jié)論
本文就組織內(nèi)容安全風(fēng)險(xiǎn)識(shí)別對(duì)已有方法進(jìn)行研究綜述,列舉了兩種常用的方法和三種基于Web挖掘的法,并對(duì)列舉的方法進(jìn)行了詳細(xì)的闡述,同時(shí)分析了各風(fēng)險(xiǎn)識(shí)別方法的不足,并給出各個(gè)方法的可能改進(jìn)方向以及新的研究方向,為組織內(nèi)容風(fēng)險(xiǎn)識(shí)別提供理論與技術(shù)支持。
參考文獻(xiàn):
[1] 中國信息安全測(cè)評(píng)中心.組織內(nèi)容風(fēng)險(xiǎn)模型[C].2013.
[2] 揚(yáng)益凡,朱明等.基于鏈接相似度Web挖掘算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2011.
[3] 揚(yáng)中華,汪勇.程序員技能需求:基于內(nèi)容分析法的分析[J].現(xiàn)代情報(bào),2007.
[4] 王知津,閆永君.網(wǎng)絡(luò)計(jì)量法與內(nèi)容分析法比較研究[J].圖書館學(xué)研究,2006.
[5] 沙新光.基于主題的聚類檢索技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2008.
[6] 丁寶瓊.網(wǎng)絡(luò)文本信息采集分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].解放軍信息工程大學(xué),2009.
[7]Edna Reid,Marc Sageman.The Dark Web Portal Project:Collecting and Analyzing the Presence of Terrorist Groups on the Web:Intelligence and Security Informatics[M].Springer,Berlin,2005.
[8]Deerweter S,Dunmaisst,F(xiàn)umasgw.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990(6):391-407.
[9]Allan J.Topic detection and tracking:event-based information organization[M].Kluwer Academic Publishers,2002.
[10]H.Wang,S.L.Yang,The Application of Link Analysis in the Evaluation of Top Rank Enterprises in China[J].Journal of Intelligence,2010(3):48-52.