面向色情音頻檢測的內(nèi)容分類研究*

2023-08-02 07:06司朋舉

計算機與數(shù)字工程 2023年4期

司朋舉

（中國石油大學(xué)（華東）計算機科學(xué)與技術(shù)學(xué)院青島 266580）

1 引言

色情音頻檢測及有效屏蔽色情信息一直是網(wǎng)站、直播平臺信息安全檢測的重要組成部分。目前存在許多用來防止未成年人瀏覽不良網(wǎng)站網(wǎng)頁信息的網(wǎng)絡(luò)防火墻軟件，例如格雷盒子（PIRPDA）、凈網(wǎng)大師（KNN）等，但該類軟件只針對含有不良文字和圖片內(nèi)容的信息進行攔截，且在音頻不良信息過濾方面普遍需要依靠人工對初步未過濾的音視頻做進一步的審核，因此在管理方面工作繁忙且浪費人力，容易造成誤判漏判等情況。

目前，國內(nèi)外部分研究者將目光聚焦在了視頻、彈幕文字檢測上，為不良信息檢測提供了很好的技術(shù)、思想以及理論支撐。但在不良信息傳播過程中，音頻形式占據(jù)了很重要的地位，如談話聊天、脫口秀、在線廣播等一些以語音為主的直播節(jié)目，視頻檢測所用到圖像處理技術(shù)，如裸露檢測［1］、動作識別［2］，并不適用于音頻檢測場景下。

在色情音頻分類與檢測問題中［3～4］，工業(yè)界及傳統(tǒng)的色情音頻檢測一般通過檢索關(guān)鍵詞過濾不良信息，需要龐大的色情關(guān)鍵詞庫以及需要對關(guān)鍵詞庫不斷更新支撐［5～9］。與傳統(tǒng)的機器學(xué)習(xí)相比，深度學(xué)習(xí)在圖像識別、語音識別、文本分析等方面有著更加出色的表現(xiàn)。同時能夠有效地解決梯度擴散、過擬合等問題［10～15］。因此在色情音頻信息檢測問題中應(yīng)用深度學(xué)習(xí)技術(shù)是解決傳統(tǒng)方法所面臨問題的一種有效途徑［16～17］。然而目前國內(nèi)外缺乏公開的色情音頻數(shù)據(jù)庫去應(yīng)用測試實驗效果是應(yīng)用深度學(xué)習(xí)技術(shù)檢測音頻中色情內(nèi)容中的關(guān)鍵問題之一。因此本文針對色情音頻信息檢測展開研究，實現(xiàn)對網(wǎng)絡(luò)色情音頻的精準(zhǔn)而快速檢測，過濾網(wǎng)絡(luò)傳播中的色情音頻信息，具有一定的實際應(yīng)用價值。

2 基于內(nèi)容的色情音頻檢測算法

本章將通過借鑒語音識別和文本分類領(lǐng)域中的經(jīng)典成果［17～18］以及作者的工作經(jīng)驗，設(shè)計如圖1所示的基于內(nèi)容的色情音頻檢測算法，基于GPL-Licensed 制作開源音頻剪輯軟件對收集的原始音頻以色情、非色情為標(biāo)簽剪切以及預(yù)處理分為訓(xùn)練集和測試集，同時對收集的原始文本以及訓(xùn)練集中音頻文本化后的數(shù)據(jù)預(yù)處理分為訓(xùn)練集和測試集，隨后訓(xùn)練文本分類模型，實現(xiàn)檢測文本化后的音頻數(shù)據(jù)信息色情檢測。

圖1 基于內(nèi)容的色情音頻檢測框架

2.1 基于全序列卷積神經(jīng)網(wǎng)絡(luò)的語音識別算法

在實現(xiàn)色情音頻檢測過程中或者在應(yīng)用色情音頻檢測模型之前，需要將音頻文本化提取出內(nèi)容信息，因此本文采用科大訊飛提出的較為經(jīng)典的全序列卷積神經(jīng)網(wǎng)絡(luò)框架實現(xiàn)語音識別。首先對音頻的時域信號通過Python 中的librosa 等開發(fā)包進行分幀、加窗以及傅里葉變化得到每個音頻所對應(yīng)的時頻圖，如圖2 所示，每個時頻圖包含了時間、頻率以及幅度，其中時間通過x 軸表示，y 軸表示頻率，幅度高則用亮色表示，低用深色表示。

圖2 全序列卷積神經(jīng)網(wǎng)絡(luò)輸入時頻圖

圖中x 軸表示音頻時間，y 軸表示音頻頻率，可看作圖像的兩個維度，直接作為全序列卷積神經(jīng)網(wǎng)絡(luò)的輸入，隨后對時頻圖做多次卷積、池化操作組合，輸入到全連接層中，訓(xùn)練輸出單元與識別結(jié)果相對應(yīng)。網(wǎng)絡(luò)架構(gòu)如圖3所示，每個卷積層使用3×3 的小卷積核，并在多個卷積層之后再加上池化層，在增強了網(wǎng)絡(luò)表達能力的同時表達了語音的長時相關(guān)性。

圖3 全序列卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)示意圖

2.2 文本分類

在音頻及文本數(shù)據(jù)預(yù)處理后，經(jīng)過word2vec轉(zhuǎn)化為向量輸入，使用基于深度學(xué)習(xí)的文本分類技術(shù)訓(xùn)練模型，以檢測原始音頻是否為色情，其中訓(xùn)練步驟如下：

Step 1：首先將切割后的文本使用Python 版的JieBa 分詞工具包分詞，隨后轉(zhuǎn)化為One-Hot 向量作為word2vec 的輸入，經(jīng)隱藏層以及softmax 回歸訓(xùn)練后，將參數(shù)作為詞的向量化表示；

Step 2：假設(shè)Xi∈Rk表示句子中的第i 個單詞對應(yīng)的k 維向量，那么將長度為n 的句子可表示為X1:n=X1⊕X2⊕…Xn，其中⊕為連接運算符；

Step 3：隨后卷積提取連接而成的句子Xi:i+j特征ci，其中Xi:i+j由Xi，Xi+1，Xi+j連接而成；

Step 4：使用多個不同窗口大小的卷積核應(yīng)用于句子Xi:i+j提取多個特征ci組成c；

Step 5：將特征輸入全連接softmax 層，輸出標(biāo)簽的概率分布，預(yù)測類別標(biāo)簽的置信度；

Step 6：隨后輸入測試集，依次將預(yù)測類別標(biāo)簽與實際標(biāo)簽對比，計算模型分類準(zhǔn)確度。

2.2.1 基于TextCNN的色情文本分類

TextCNN 在網(wǎng)絡(luò)結(jié)構(gòu)上包含了一個卷積層、一個最大池化層，以及softmax 分類預(yù)測層，支持Word2Vec或者GLOV 等向量化方式。如圖4所示，基于TextCNN 的色情文本分類模型將一個句子分割成單詞，隨后通過經(jīng)典的word2vec將單詞映射成詞向量，在對輸入向量進行卷積操作后，通過采用最大池化層減少參數(shù)以增加優(yōu)化速度，同時為了避免模型過擬合，最終計算softmax 預(yù)測得到的標(biāo)簽置信度以實現(xiàn)色情文本檢測。

圖4 TextCNN模型訓(xùn)練示意圖

2.2.2 基于TextRNN的色情文本定義

RNN 模型具有短期記憶功能，在引入門控機制解決長期依賴問題后，比較適合處理自然語言處理等序列問題。2016 年P(guān)engfeiLiu 等提出TextRNN 應(yīng)用于文本分類任務(wù)中?；赥extRNN的色情文本分類模型，經(jīng)過word2vec 文本向量化后，將雙向長短期記憶網(wǎng)絡(luò)在最后一個時間步上隱藏狀態(tài)，且連接其他時間步長后，其結(jié)果作為softmax 函數(shù)的輸入，得到色情類別的概率分布。結(jié)構(gòu)如圖5所示。

圖5 TextRNN模型訓(xùn)練示意圖

3 實驗結(jié)果與分析

本文依據(jù)色情音頻以及文本特點特征，收集整理形成色情文本訓(xùn)練集以及色情音頻測試訓(xùn)練集，其中共1387 個音頻，包含了897 個色情音頻片段，490個非色情音頻片段，每段音頻持續(xù)1min或30s，同時本文提出了一種基于內(nèi)容的色情音頻檢測方法，采用基于深度學(xué)習(xí)的文本分類技術(shù)作為文本分類模塊，并將其與語音識別技術(shù)相結(jié)合，用于色情音頻檢測以及評估本文所公開數(shù)據(jù)集。并提出了基于內(nèi)容的色情音頻檢測算法，驗證了色情音頻數(shù)據(jù)集的合理性。實驗綜合比較了本文所提算法以及經(jīng)典音頻分類算法在色情音頻數(shù)據(jù)集上的各項指標(biāo)如表1 所示，其中TP表示綜合真正率、TN表示綜合真負率，F(xiàn)P表示假正率，F(xiàn)N表示假負率，accuracy表示正確率。

表1 各方法在色情音頻數(shù)據(jù)集中的各項指標(biāo)

可以看出在識別色情音頻問題中，本文將全序列卷積神經(jīng)網(wǎng)絡(luò)結(jié)合文本分類技術(shù)經(jīng)典模型后，所提出的基于內(nèi)容的色情音頻檢測算法，同等條件下相較于基于頻譜特征的分類模型準(zhǔn)確率可提高將近9%左右，相較于多叉樹關(guān)鍵詞匹配算法可提高將近11%左右，且真正率和真負率均有提高。其中全序列卷積神經(jīng)網(wǎng)絡(luò)結(jié)合TextCNN 后在數(shù)據(jù)集上的平均分類正確率為97.3%。為便于工作人員后續(xù)使用，形成了cs 形式的客戶端，其流程界面如圖6所示。

圖6 cs客戶端系統(tǒng)流程圖

4 結(jié)語

本文通過收集分析色情音頻以及文字小說，整理形成了色情音頻、文本數(shù)據(jù)集，結(jié)合語音識別與文本分類等技術(shù)提出了CA-PAD算法，驗證了數(shù)據(jù)集的合理性，實現(xiàn)了基于內(nèi)容的面向網(wǎng)絡(luò)色情音視頻智能監(jiān)管的系統(tǒng)設(shè)計實現(xiàn)。在多種文本分類經(jīng)典模型算法的基礎(chǔ)上進行有效融合，使之更加適用于網(wǎng)絡(luò)環(huán)境中的音視頻監(jiān)管，保證青少年的瀏覽信息安全健康以及平臺工作的順利開展，以及充分考慮音頻其他特征。將成為下一步的主要研究工作，且在實驗訓(xùn)練過程中，隨著訓(xùn)練集的擴充，模型各項指標(biāo)均有提高的趨勢，因此如何利用數(shù)據(jù)增強等算法擴充數(shù)據(jù)集也是下一步的主要研究工作。