国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的生活號敏感內(nèi)容感知與預(yù)警系統(tǒng)設(shè)計

2021-12-09 06:37:46張維蔣穎樓斐王慶娟陳齊瑞
微型電腦應(yīng)用 2021年11期
關(guān)鍵詞:查全率查準(zhǔn)率網(wǎng)頁

張維, 蔣穎, 樓斐, 王慶娟, 陳齊瑞

(國網(wǎng)浙江省電力有限公司 營銷服務(wù)中心(計量中心), 浙江 杭州 310014)

0 引言

智能移動設(shè)備的普及使得移動互聯(lián)網(wǎng)的發(fā)展更加迅猛,上網(wǎng)不再局限于時間和地點。同時,信息的開放性也豐富了互聯(lián)網(wǎng)信息資源數(shù)量[1]。而網(wǎng)絡(luò)的開放性與自由性導(dǎo)致了一些別有用心的人在生活號中發(fā)布一些不健康或敏感信息,由此造成不必要損失的情況也越來越普遍。更重要的是,青少年是我國龐大網(wǎng)民中的重要部分,一些敏感信息會影響青少年的價值觀以及心理健康[2-3]。因此,對生活號發(fā)布信息中的敏感內(nèi)容進(jìn)行有效的感知和預(yù)警對于營造良好的網(wǎng)絡(luò)環(huán)境具有重要的社會意義。傳統(tǒng)的敏感內(nèi)容感知預(yù)警系統(tǒng),如社交網(wǎng)絡(luò)敏感內(nèi)容檢測系統(tǒng)[4]和無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng)[5],在詞向量維度增大的情況下對敏感內(nèi)容的感知準(zhǔn)確率會降低。因此,本研究利用機(jī)器學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)模型設(shè)計了生活號敏感內(nèi)容感知與預(yù)警系統(tǒng)。

1 生活號敏感內(nèi)容感知與預(yù)警系統(tǒng)設(shè)計

本研究設(shè)計的系統(tǒng)期望實現(xiàn)的目標(biāo)主要包括兩部分,一是盡可能快且全面地發(fā)現(xiàn)被監(jiān)測生活號發(fā)布內(nèi)容中的敏感信息;二是實現(xiàn)預(yù)警功能。本文在設(shè)計系統(tǒng)時沿用傳統(tǒng)系統(tǒng)的硬件物理架構(gòu),主要針對軟件方面進(jìn)行詳細(xì)的優(yōu)化設(shè)計。系統(tǒng)軟件執(zhí)行架構(gòu)如圖1所示。

圖1 系統(tǒng)軟件執(zhí)行架構(gòu)圖

圖1所示的軟件執(zhí)行架構(gòu)的主要作用是通過監(jiān)測生活號隊列對生活號進(jìn)行爬取,并計算爬取路徑的MD5值,然后連接網(wǎng)頁的預(yù)處理、信息提取、敏感信息檢索、預(yù)警信息構(gòu)建等內(nèi)容。其中,數(shù)據(jù)層主要對信息數(shù)據(jù)庫進(jìn)行管理和訪問[6-7]。在此基礎(chǔ)上,對系統(tǒng)的敏感內(nèi)容感知以及預(yù)警功能進(jìn)行詳細(xì)的研究。

1.1 網(wǎng)頁內(nèi)容提取

在互聯(lián)網(wǎng)中,敏感內(nèi)容主要是指未經(jīng)授權(quán)人接觸或修改后散布的損害國家、政府或個人權(quán)利的信息。為了實現(xiàn)對敏感信息的有效感知,首先需要對網(wǎng)頁內(nèi)容進(jìn)行提取[8]。在這一過程中,需要用到網(wǎng)頁爬蟲技術(shù)。網(wǎng)頁爬蟲是在搜索系統(tǒng)基礎(chǔ)構(gòu)件的基礎(chǔ)上,從若干個指定鏈接出發(fā)構(gòu)建爬行隊列。其提取流程如下:從生活號中選擇部分鏈接作為種子,將初始爬行的URL組成一個隊列,然后將種子URL加入到待爬行隊列中,從待爬行隊列依次取出每個URL下載網(wǎng)頁,將源碼進(jìn)行存儲,提取網(wǎng)頁中的URL鏈接并完成去重處理,添加到待爬行隊列中。不斷重復(fù)上述操作,直到待爬行隊列為空[9]。

在上述的網(wǎng)頁提取過程中,待抓取的URL隊列是程序中重要的組成部分,且URL的排列順序會影響網(wǎng)頁提取的爬行效果,因此在抓取時需要遵循寬度優(yōu)先、非完全PageRank、OPIC以及大站優(yōu)先策略。

1.2 抓取內(nèi)容預(yù)處理

生活號所發(fā)布的信息主要包括文字和圖片。為了提高后續(xù)對敏感內(nèi)容的感知和識別能力,需要對抓取到的內(nèi)容執(zhí)行預(yù)處理操作[10]。

對于文本信息來說,需要對其中的分詞和禁用進(jìn)行處理。首先將原始字符串進(jìn)行原子切分得到原子系列,通過最短路徑粗切分得到最優(yōu)的y個結(jié)果,通過簡單未登錄詞的識別得到修正后的y個結(jié)果,并將其嵌套在未登錄詞識別中[11-13]。文本中包含的人名和復(fù)雜地名機(jī)構(gòu)名等會被單獨分列出來,規(guī)劃到二元切分詞圖當(dāng)中,在此基礎(chǔ)上基于詞類得到HMM分詞系列,包括詞類的HMM標(biāo)注信息。最后得到初步的詞法分析,并對其進(jìn)行簡單處理,對最后得到的信息進(jìn)行分類處理,分類的內(nèi)容如表1所示。

表1 漢語詞性標(biāo)記分類內(nèi)容

除了表1中的分類以外,對文本內(nèi)容的分類還包括時間詞、處所詞、方位詞、區(qū)別詞、量詞、副詞、介詞、連詞、助詞、嘆詞、語氣詞、擬聲詞、前綴、后綴、字符串等,這些是表示文本內(nèi)容某種屬性的分類。經(jīng)過上述分類,可有效減輕對生活號網(wǎng)頁中敏感內(nèi)容關(guān)聯(lián)詞挖掘的難度。結(jié)合關(guān)聯(lián)詞挖掘的意義,選取其中的一些具有特殊屬性的詞進(jìn)行保留,過濾掉其他類別的詞語[14-16]。

對于生活號網(wǎng)頁中的圖片信息來說,根據(jù)圖片大小特征和顏色等信息,在導(dǎo)入圖片信息后,可得到其寬w和高h(yuǎn)的信息,圖片大小的判別條件如式(1)。

w≤200∪h≤300

(1)

當(dāng)圖片的大小滿足式(1)時,說明圖片過小可以直接過濾。對于大小滿足式(1)的圖片,根據(jù)其顏色直方圖來獲取圖片的顏色特征。這一過程中使用的方法通常包括顏色模型轉(zhuǎn)換、非均勻量化和直方圖相似性度量這3種方法[17-19]??筛鶕?jù)圖片的實際情況,選擇適合的方法來提取圖片的顏色特征。經(jīng)過灰度化和二值化處理后,對圖片進(jìn)行2次過濾完成傾斜校正。

1.3 基于機(jī)器學(xué)習(xí)的敏感內(nèi)容感知與預(yù)警

在完成對生活號信息的預(yù)處理后,本研究將機(jī)器學(xué)習(xí)技術(shù)中的卷積神經(jīng)網(wǎng)絡(luò)模型作為敏感信息感知與預(yù)警的主體。卷積神經(jīng)網(wǎng)絡(luò)模型中包含一定數(shù)量的濾波器,可以同時并行處理文本和圖片,節(jié)省了建模時間,且能夠保證感知結(jié)果的準(zhǔn)確性[20]。卷積神經(jīng)網(wǎng)絡(luò)模型建模過程如圖2所示。

圖2 卷積神經(jīng)網(wǎng)絡(luò)模型建模過程示意圖

由圖2可知,建立卷積神經(jīng)網(wǎng)絡(luò)模型后,模型主要在系統(tǒng)第二層:檢測核心功能層訓(xùn)練子模塊,將上層模塊輸出的內(nèi)容輸入到Text-CNN中,最后輸出成功訓(xùn)練的模型。模型使用子模塊主要用來感知生活號網(wǎng)頁內(nèi)容的待查文本,并將檢測結(jié)果傳遞給輸出子模塊,再由子模塊發(fā)布警告信息。至此,完成了對基于機(jī)器學(xué)習(xí)的生活號敏感內(nèi)容感知與預(yù)警系統(tǒng)的設(shè)計。

2 性能測試與分析

為驗證本文設(shè)計的基于機(jī)器學(xué)習(xí)的生活號敏感內(nèi)容感知與預(yù)警系統(tǒng)的實際應(yīng)用性能,設(shè)計如下性能驗證實驗。為突出實驗結(jié)果的有效性和本文系統(tǒng)的應(yīng)用性能,將傳統(tǒng)的社交網(wǎng)絡(luò)敏感內(nèi)容檢測系統(tǒng)與無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng)作為對照,共同完成性能驗證。

2.1 實驗環(huán)境及數(shù)據(jù)集準(zhǔn)備

在系統(tǒng)性能測試過程中,為了保證測試結(jié)果的可靠性,需要對實驗環(huán)境和使用的軟件版本進(jìn)行統(tǒng)一的設(shè)定,盡可能將實驗誤差降到最小。實驗環(huán)境以及工具版本如表2所示。

表2 實驗環(huán)境及軟件版本

為了有效實現(xiàn)機(jī)器學(xué)習(xí),需要對數(shù)據(jù)集進(jìn)行采集與積累。為了保證系統(tǒng)感知和預(yù)警精度,因此數(shù)據(jù)集的質(zhì)量和來源非常重要。本研究中的實驗數(shù)據(jù)主要來源于維基解密、搜狐等數(shù)據(jù)集。根據(jù)實際收集到的文本數(shù)據(jù)情況,將得到的數(shù)據(jù)集按照一定比例劃分成訓(xùn)練集、驗證集和測試集,具體的數(shù)據(jù)集數(shù)量以及拆分情況如表3所示。

表3 數(shù)據(jù)集條目拆分情況

首先,調(diào)整詞向量維度,再利用本文對數(shù)據(jù)集中的所有數(shù)據(jù)條目進(jìn)行掃描,掃描界面如圖3所示。

圖3 敏感信息掃描界面

由圖3可知,利用本文系統(tǒng)可有效掃描數(shù)據(jù)集中含有敏感信息的數(shù)據(jù)條目,初步證明了本文方法的有效性。

在此基礎(chǔ)上,以信息查全率和敏感信息查準(zhǔn)率為測試指標(biāo),對本文系統(tǒng)、社交網(wǎng)絡(luò)敏感內(nèi)容檢測系統(tǒng)、無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng)展開性能檢測。

其中,信息查全率是指系統(tǒng)對其所感知的信息作出正確分類的樣本數(shù)與信息實際樣本數(shù)的比值,查全率越高,說明系統(tǒng)在敏感信息感知與預(yù)警過程中漏掉的樣本數(shù)量越少,查全率計算式如式(2)。

(2)

其中,R表示信息查全率;n表示信息分類正確的數(shù)量;N表示信息的實際數(shù)量。

敏感信息查準(zhǔn)率表示不同系統(tǒng)對敏感信息的正確判斷數(shù)量與實際敏感信息數(shù)量的比值,計算式如式(3)。

(3)

其中,P表示敏感信息查準(zhǔn)率;m表示分類正確的敏感信息數(shù)量;M表示敏感信息的實際數(shù)量。

2.2 不同詞向量維度下查全率對比分析結(jié)果

實驗中利用word2vec實現(xiàn)詞向量化,然后統(tǒng)計本文系統(tǒng)、社交網(wǎng)絡(luò)敏感內(nèi)容檢測系統(tǒng)、無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng)的信息查全率,實驗結(jié)果如表4所示。

表4 不同詞向量維度下不同系統(tǒng)查全率對比

分析表4所示的查全率結(jié)果可知,隨著詞向量維度的增加,3個系統(tǒng)的查全率均有所下降。但是根據(jù)3個系統(tǒng)之間橫向比較可以看出,相對于2個傳統(tǒng)系統(tǒng),本文系統(tǒng)的查全率更高。

2.3 不同詞向量維度下查準(zhǔn)率對比分析結(jié)果

在對比分析不同系統(tǒng)的信息查全率的基礎(chǔ)上,統(tǒng)計不同系統(tǒng)的敏感信息查準(zhǔn)率,結(jié)果如表5所示。

表5 不同詞向量維度下不同系統(tǒng)查準(zhǔn)率對比

分析表5所示的查準(zhǔn)率結(jié)果可知,隨著詞向量維度的增加,3個系統(tǒng)的查準(zhǔn)率均有所降低。通過3個系統(tǒng)之間橫向比較可以看出,本文系統(tǒng)在詞向量維度較高時的查準(zhǔn)率略低于無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng),但始終高于社交網(wǎng)絡(luò)敏感內(nèi)容檢測系統(tǒng)。

為了綜合考量信息查全率和敏感信息查準(zhǔn)率,應(yīng)用求商比較法全面反映系統(tǒng)性能,其計算過程如式(4)。

(4)

經(jīng)過計算,在不同詞向量維度下,本文系統(tǒng)的平均F值為0.844,無線局域網(wǎng)內(nèi)敏感信息安全檢索系統(tǒng)的平均F值為0.835。因此,本文方法的綜合性能更優(yōu)。

對于本文要解決的生活號敏感內(nèi)容感知與預(yù)警的問題,應(yīng)該保守地進(jìn)行敏感內(nèi)容的識別,因此要在能夠保證F值的情況下,獲得更高的R值,系統(tǒng)在現(xiàn)實應(yīng)用中的效果才能更好。

3 總結(jié)

互聯(lián)網(wǎng)的普及促進(jìn)了一些自媒體生活號的發(fā)展,一些自媒體生活號在發(fā)布內(nèi)容時會帶有一些敏感信息。敏感信息的泄露不僅會造成巨大的資源損失,對于一些未成年人的身心成長也具有一定的消極影響。針對這種隱藏的威脅,敏感內(nèi)容感知預(yù)警系統(tǒng)能夠有效地對敏感內(nèi)容進(jìn)行檢測。本文主要從軟件方面進(jìn)行設(shè)計,將機(jī)器學(xué)習(xí)技術(shù)作為主體,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)模型對敏感信息進(jìn)行歸類辨識,有效地提高了不同詞向量維度下的識別精度。

猜你喜歡
查全率查準(zhǔn)率網(wǎng)頁
海量圖書館檔案信息的快速檢索方法
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
基于深度特征分析的雙線性圖像相似度匹配算法
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
10個必知的網(wǎng)頁設(shè)計術(shù)語
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
基于Web的概念屬性抽取的研究
胶南市| 阿鲁科尔沁旗| 昆明市| 保定市| 三台县| 长泰县| 米易县| 和林格尔县| 屯门区| 仙桃市| 和政县| 闵行区| 于都县| 贵港市| 舟曲县| 怀柔区| 台州市| 平阳县| 西丰县| 明水县| 射阳县| 夏津县| 石城县| 东宁县| 赫章县| 广宁县| 东乌珠穆沁旗| 额济纳旗| 府谷县| 信丰县| 水城县| 固阳县| 广东省| 清河县| 仙桃市| 张家口市| 永春县| 德庆县| 登封市| 泰兴市| 保德县|