国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感計算與深度學(xué)習(xí)的彈幕文本敏感詞識別方法

2022-07-12 04:33:06葉海燕
常州工學(xué)院學(xué)報 2022年3期
關(guān)鍵詞:查全率查準(zhǔn)率彈幕

葉海燕

(巢湖學(xué)院信息工程學(xué)院,安徽 合肥 238024)

要實(shí)現(xiàn)對彈幕文本數(shù)據(jù)的安全保護(hù),必須準(zhǔn)確識別彈幕文本內(nèi)容,并進(jìn)一步確認(rèn),并識別出的彈幕文本是否存在敏感部分和機(jī)密部分,如果及時隱藏此類彈幕文本,可進(jìn)一步保證數(shù)據(jù)在傳輸和使用過程中的安全性[1-3]。傳統(tǒng)的彈幕文本識別方法,一般需要手動設(shè)置一些敏感詞,然后利用大數(shù)據(jù)技術(shù)對屏幕文本進(jìn)行批量篩選,找到相同的文本。但是一般的詞都會有近似詞,只有設(shè)置的敏感詞才能被識別,而相似詞無法識別。因此,在批量篩選彈出文本中的敏感詞時常有遺漏。例如,如果文本中含有“秋季果實(shí)”“豐收成果”“大豐收”等與“豐收果實(shí)”意義相近的詞語時,就無法準(zhǔn)確識別和隱藏;丁建立等[4]基于組合式深度學(xué)習(xí)網(wǎng)絡(luò),進(jìn)行混合文本情感分類,有效提升了混合文本分類的準(zhǔn)確率;周錦峰等[5]通過對漢字進(jìn)行特殊編碼,提出一種綜合考慮讀音及字形特點(diǎn)的音形碼漢字相似度改進(jìn)算法。

因此,本文提出一種基于情感計算與深度學(xué)習(xí)的彈幕文本敏感詞識別方法。在情感計算和深度學(xué)習(xí)的相互配合下,構(gòu)建出彈幕文本識別模型,它可以進(jìn)一步識別彈幕文本表達(dá)的內(nèi)容,迅速掌握關(guān)鍵詞,然后對其敏感度進(jìn)行計算,并對其分級,進(jìn)而不同程度地隱藏識別出的敏感詞,保證彈幕文本的安全性。

1 數(shù)據(jù)預(yù)處理

在分析彈幕文本前對彈幕文本進(jìn)行預(yù)處理,可減少多噪音數(shù)據(jù)的干擾,從而提高文本識別準(zhǔn)確度。

通常情況下,中文彈幕文本的詞語之間沒有分割之處,只能靠人工朗讀分辨。本模型采用gxy分詞輔助器對中英文混合彈幕進(jìn)行分詞處理。首先將中英文彈幕分為中文彈幕和英文彈幕,然后對中文彈幕文本中的常用名詞進(jìn)行識別。這些常用名詞的出現(xiàn)會對分詞輔助器造成干擾。比如,“情感計算方法”通常會被分詞輔助器分為“情感”“計算”“方法”,舉例不當(dāng)將“情感計算”4個字分開后,以此得到的分詞內(nèi)容會對后期敏感詞識別造成一定的干擾。為此,在進(jìn)行分詞前,一定要注意識別常用名詞和涉及保密文件的名稱代號,將其去除后才可以分詞。

為了使分詞更容易,去掉不利于判斷文本敏感度的輔助詞,如“的”“地”“得”等。此外,采用NbZ方法去除輔助詞。列出所有敏感詞內(nèi)容相似的詞,判斷每個彈幕文本與敏感詞的相似度,記錄最小相似度,比較多個最小相似度范圍,最終結(jié)果用于確定每個敏感詞的最小相似度范圍。預(yù)處理過程如圖1所示。

圖1 預(yù)處理過程

圖1中,由于相似度越小的彈幕文本對判斷彈幕文本敏感度的干擾越大,因此經(jīng)過上述過程后,當(dāng)彈幕文本與敏感詞的相似度小于最后確定的值域時,則默認(rèn)為這個彈幕文本的敏感因素被去除。

2 關(guān)鍵詞提取

彈幕文本的所有內(nèi)容都是由詞語表達(dá)出來的,在一個文本中,每個詞語對表達(dá)文本主題起到的作用不盡相同,例如,“情感敏感計算”“敏感程度”等詞語對表達(dá)文本主題的作用遠(yuǎn)高于“保護(hù)”“持續(xù)”等詞語,因此,提取出文本中對表達(dá)文本主題作用更大的關(guān)鍵詞,可以更加快速地識別出彈幕文本是否包含敏感詞。目前,能夠提取出關(guān)鍵詞的算法非常多,如TF-IDF算法和TextRank算法,本文采用情感計算法提取文本關(guān)鍵詞[6-11],其計算表達(dá)式如下:

(1)

3 情感計算與深度學(xué)習(xí)彈幕文本敏感詞識別模型構(gòu)建

情感計算與深度學(xué)習(xí)彈幕文本敏感詞識別模型是以深度學(xué)習(xí)理論中的卷積神經(jīng)網(wǎng)絡(luò)原理為基礎(chǔ),模型的識別過程利用階層結(jié)構(gòu)對輸入信息進(jìn)行平移不變分類。首先,利用情感計算方法構(gòu)建彈幕文本敏感詞識別模型;其次,為了提高工作效率和準(zhǔn)確性,采用DHT方法對模型進(jìn)行敏感度訓(xùn)練。

3.1 構(gòu)建彈幕文本敏感詞識別模型

基于深度學(xué)習(xí)理論,采用情感計算方法構(gòu)建的識別模型工作流程如圖2所示。

圖2 識別模型工作流程

根據(jù)獲得的敏感詞匯集,計算輸入文本的敏感相似度,公式如下:

Similarity(word)=

(2)

式中:P代表敏感詞匯集;So代表敏感性系數(shù)。

根據(jù)敏感相似度,判斷文本是否為敏感詞:

(3)

若文本敏感度判斷函數(shù)S(x)為0,則標(biāo)記為非敏感詞,加入敏感詞判斷詞庫后輸出;若結(jié)果為1,則識別為敏感詞。至此完成彈幕文本敏感詞識別模型的基本構(gòu)建。

為了對模型的識別能力進(jìn)行強(qiáng)化,需要進(jìn)一步分析敏感等級,對敏感詞用敏感等級標(biāo)注,與非敏感詞一起加入敏感詞判斷詞庫,方便下次識別。

3.2 采用DHT方法訓(xùn)練模型敏感度

為了提高模型識別的準(zhǔn)確性和工作效率,采用DHT方法對模型進(jìn)行訓(xùn)練,將現(xiàn)有的敏感詞進(jìn)行等級分類,根據(jù)詞語的實(shí)際應(yīng)用場合對敏感詞匯集進(jìn)行由高到低的等級標(biāo)注。

DHT方法將所有信息均以哈希表?xiàng)l目形式加以存儲,這些條目被分散存儲在各個節(jié)點(diǎn)上,構(gòu)成巨大的分布式哈希表。因此,可以形象地把這張哈希大表看成是一本字典:只要知道信息索引的key,便可通過Kademlia協(xié)議來查詢其所對應(yīng)的敏感度信息,而不管這個敏感度信息究竟是存儲在哪一個節(jié)點(diǎn)上。

將DHT方法應(yīng)用到敏感詞識別模型訓(xùn)練中,key的值等于已知的敏感詞字符串的160 bit SHA1散列,而其對應(yīng)的敏感度value則為一個列表,在這個列表中,給出了所有敏感詞信息,這些信息可以簡單地用一個4元組條目表示(敏感詞、敏感集中詞、文本長度、敏感度)。由此通過構(gòu)造一個敏感詞哈希表來實(shí)現(xiàn)敏感度計算,與敏感詞匯集的敏感詞相似度越高,則敏感程度越高,計算過程如下:

(4)

彈幕文本過長會對詞語敏感程度造成一定的影響,所以要用得到的結(jié)果除以整個彈幕文本長度N,再進(jìn)行SMALL縮放處理,使其處于0~2,根據(jù)值域結(jié)果判斷詞語的敏感等級。本文將值域劃分為kSMALL≤0.5為L1等級,0.5

表1 敏感詞集

模型經(jīng)過以上訓(xùn)練,能夠更快、更準(zhǔn)確地完成敏感詞識別。

4 實(shí)驗(yàn)對比

4.1 實(shí)驗(yàn)環(huán)境

本仿真實(shí)驗(yàn)在CPU為2.4 GHz、8 GiB內(nèi)存的Inter Core(TM)i7處理器上進(jìn)行,并與傳統(tǒng)方法(文獻(xiàn)[4]方法)進(jìn)行對比。此次研究在Past KDDCups(http://www.kdd.org/kdd-cup)網(wǎng)站中隨機(jī)抽選30個數(shù)據(jù)集,經(jīng)過預(yù)處理后,將具有某些敏感詞的2 000個數(shù)據(jù)隨機(jī)分成5份,為實(shí)驗(yàn)提供數(shù)據(jù)基礎(chǔ)。

4.2 查全率對比

查全率是被正確檢索的樣本數(shù)與應(yīng)當(dāng)被檢索到的樣本數(shù)之比。設(shè),識別出的敏感詞為TP,未識別出的敏感詞為FN,查全率公式如下:

(5)

對比本文方法與傳統(tǒng)方法的查全率,結(jié)果如圖3所示。

圖3 查全率對比

從圖3分析可知,當(dāng)數(shù)據(jù)集為80個時,傳統(tǒng)識別方法查全率相對較低,這可能是由于數(shù)據(jù)量較小,誤判對實(shí)驗(yàn)結(jié)果影響較大所致,從而降低了查全率。而本文提出的基于情感計算與深度學(xué)習(xí)的彈幕文本敏感詞識別方法的查全率達(dá)到85%以上,能對文本詞匯進(jìn)行綜合分析,提高了識別效果。

4.3 查準(zhǔn)率對比

查準(zhǔn)率是被正確識別的樣本數(shù)與被識別樣本總數(shù)之比。設(shè),識別出的敏感詞為TP,未識別出的敏感詞為FP,查準(zhǔn)率公式如下:

(6)

傳統(tǒng)方法與本文方法的敏感詞查準(zhǔn)率的對比結(jié)果,如圖4所示。

圖4 查準(zhǔn)率對比

通過分析圖4發(fā)現(xiàn),傳統(tǒng)方法的查準(zhǔn)率偏低,原因是敏感詞識別過程中拆分較復(fù)雜,對識別結(jié)果干擾較大。而本文方法具有較高的查準(zhǔn)率,基本能夠保持在92%以上。

4.4 識別時間對比

2種方法的敏感詞匯識別時間見圖5,通過分析可發(fā)現(xiàn),隨著數(shù)據(jù)量的增加,傳統(tǒng)方法與本方法的識別時間也相應(yīng)增加。對比可知,傳統(tǒng)方法的識別時間一直高于本文方法,證明本文方法取得了較好的應(yīng)用效果。

圖5 識別時間對比

綜上所述,本文的識別方法較傳統(tǒng)方法查全率高、查準(zhǔn)率高,并且有效減少了識別時間,證明了本文方法的有效性。本文的識別方法綜合運(yùn)用了情感計算方法與深度學(xué)習(xí)方法,對詞匯特征進(jìn)行了有效的擴(kuò)展與學(xué)習(xí),從而提高了應(yīng)用效果。

5 結(jié)語

本文提出的彈幕文本敏感詞識別方法以當(dāng)前最熱門的情感計算方法和深度學(xué)習(xí)為基礎(chǔ),并與關(guān)鍵詞提取和敏感度計算技術(shù)相結(jié)合,精準(zhǔn)地計算出彈幕文本中每個詞語的敏感度,并形成敏感詞匯網(wǎng)絡(luò),將高于敏感值域的敏感詞都記錄在冊,提高了查準(zhǔn)率與查全率,保證了相似詞、敏感詞被準(zhǔn)確識別。

由于研究條件與時間的限制,所設(shè)計的實(shí)驗(yàn)只選擇了少部分的詞匯進(jìn)行實(shí)驗(yàn),在未來研究中,為更加深入研究該算法,可進(jìn)行大規(guī)模實(shí)驗(yàn),以及時發(fā)現(xiàn)識別方法中存在的不足,從而為相關(guān)領(lǐng)域提供性能更為優(yōu)越的敏感詞識別方法。

猜你喜歡
查全率查準(zhǔn)率彈幕
彈幕
HOLLOW COMFORT
漢語世界(2021年2期)2021-04-13 02:36:18
“彈幕”防御大師
一大撥彈幕正在向你襲來……
海量圖書館檔案信息的快速檢索方法
基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
基于深度特征分析的雙線性圖像相似度匹配算法
中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
基于Web的概念屬性抽取的研究
游戏| 龙江县| 墨脱县| 聂荣县| 南郑县| 武汉市| 苏尼特右旗| 郸城县| 潜山县| 祥云县| 西城区| 博罗县| 澄江县| 新绛县| 淮北市| 樟树市| 花垣县| 安远县| 滁州市| 宣城市| 福清市| 龙胜| 长宁县| 西安市| 贡山| 康乐县| 彭山县| 南城县| 榆社县| 邵阳县| 洮南市| 琼结县| 集安市| 尼玛县| 义马市| 山阴县| 大关县| 平乡县| 抚宁县| 澄城县| 乐山市|