深度卷積網(wǎng)絡(luò)在數(shù)據(jù)審核校驗中應(yīng)用研究*

2019-10-09 05:22閆玲博韋占坤吳庚杰

通信技術(shù) 2019年9期

范亮，閆玲博，韋占坤，金星，吳庚杰

（1.中國人民解放軍75837部隊，廣東廣州 510000；2.國防科技大學(xué)信息通信學(xué)院，陜西西安 710106）

0 引言

隨著社會的發(fā)展與進(jìn)步，人們的日常生活已經(jīng)與各式各樣的數(shù)據(jù)息息相關(guān)?；A(chǔ)數(shù)據(jù)作為社會服務(wù)的支撐，已經(jīng)開始讓大家意識到公共服務(wù)質(zhì)量的好壞在很大程度上依賴于基礎(chǔ)數(shù)據(jù)的規(guī)范性與準(zhǔn)確性，特別是對于涉及公共服務(wù)的基礎(chǔ)數(shù)據(jù)則顯得尤為重要。當(dāng)前為了改善數(shù)據(jù)的規(guī)范性和準(zhǔn)確性通常采用以下兩種方式：在數(shù)據(jù)采集錄入時，基于數(shù)據(jù)錄入要求和填報規(guī)則等約束條件實現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范；在數(shù)據(jù)匯聚整編時，基于規(guī)則匹配和人工核對相結(jié)合的審核校驗方式實現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范。由于前一種方式往往對系統(tǒng)部署統(tǒng)一性要求較高，在當(dāng)前大數(shù)據(jù)相互融合匯聚的趨勢下并不能完全解決基礎(chǔ)數(shù)據(jù)的規(guī)范性和準(zhǔn)確性的所有問題，因而第二種方式始終作為數(shù)據(jù)管理的一項重要的補(bǔ)充手段受到大家的重視。

當(dāng)前數(shù)據(jù)審核校驗通常采用基于規(guī)則和模式匹配的方式[1-2]實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的自動化審核校驗，然而對于文本、媒體等非格式數(shù)據(jù)的審核校驗往往只能基于人工核對的方式進(jìn)行篩選判斷，因而當(dāng)面對大量數(shù)據(jù)的審核校驗任務(wù)時則顯得力不從心，進(jìn)而影響了基礎(chǔ)數(shù)據(jù)在公共服務(wù)中的支撐保障效果。

得益于近些年來計算資源的升級和機(jī)器學(xué)習(xí)算法的發(fā)展，人們已經(jīng)在人工智能領(lǐng)域取得了長足的進(jìn)步。特別深度神經(jīng)網(wǎng)絡(luò)算法的再度興起，人工智能算法當(dāng)前在部分領(lǐng)域所展現(xiàn)的工作能力足以與人工相媲美。例如，在文獻(xiàn)[3-5]介紹了采用深度卷積網(wǎng)絡(luò)實現(xiàn)圖片媒體數(shù)據(jù)中特定物體特征屬性的自動化學(xué)習(xí)，并實現(xiàn)了泛化樣本中相應(yīng)物體的檢測與判別。通過在ImageNet等公開數(shù)據(jù)集上的測試，上述算法的識別準(zhǔn)確率已經(jīng)超過人工識別水平取得令人驚喜的實際效果。相較而言，當(dāng)前基礎(chǔ)數(shù)據(jù)中非結(jié)構(gòu)化媒體數(shù)據(jù)上的審核校驗依舊依靠人工比對的方式進(jìn)行，因此在工作效率和保障效果上都存在較大缺陷。例如在人力資源系統(tǒng)中審核相關(guān)人員照片的級別、崗位等信息內(nèi)容時，只能粗粒度核查重要崗位領(lǐng)導(dǎo)人員的信息。

針對上述等問題，為了有效緩解當(dāng)前非結(jié)構(gòu)化媒體數(shù)據(jù)自動化審核手段不足的問題，本文以人力資源系統(tǒng)中人員媒體數(shù)據(jù)的審核為切入點，通過深度卷積網(wǎng)絡(luò)實現(xiàn)非結(jié)構(gòu)化媒體數(shù)據(jù)的自動化審核校驗，有效提高人力資源系統(tǒng)中人員媒體基礎(chǔ)數(shù)據(jù)的審核校驗，為基于機(jī)器學(xué)習(xí)的方式實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)審核校驗探索了新思路，因而具有較好現(xiàn)實意義和實際應(yīng)用價值。

本文的后續(xù)內(nèi)容安排如下：第二部分主要介紹了深度卷積網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的基本組成和概念；第三部分主要以非結(jié)構(gòu)化人員媒體數(shù)據(jù)為研究對象，綜合考慮計算資源和設(shè)計復(fù)雜度等因素，設(shè)計提出了基于VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)（Visual Geometry Group network，VGG）的人員媒體數(shù)據(jù)自動化審核校驗方法；第四部分通過實際采集的數(shù)據(jù)對本文提出的審核校驗方法進(jìn)行了測試，驗證了該方法在實際工作中的可行性與有效性；第五部分對全文內(nèi)容進(jìn)行了總結(jié)。

1 深度卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）作為一種特殊的前饋神經(jīng)網(wǎng)絡(luò)[6]，是由上世紀(jì)60年代Hubel和Wiesel等人在研究貓腦皮層時發(fā)現(xiàn)的一種獨特的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)相較于傳統(tǒng)全連接形式的反饋神經(jīng)網(wǎng)絡(luò)而言具有復(fù)雜度較小的優(yōu)勢，為實現(xiàn)當(dāng)前構(gòu)建深度神經(jīng)網(wǎng)絡(luò)提供有利條件。隨著人們對深度卷積網(wǎng)絡(luò)的研究和實踐，人們發(fā)現(xiàn)CNN網(wǎng)絡(luò)在圖像模式識別與分類領(lǐng)域具有突出優(yōu)勢，能夠自適應(yīng)的實現(xiàn)特征的學(xué)習(xí)與選擇，有效避免傳統(tǒng)圖像處理技術(shù)中復(fù)雜的特征選取等預(yù)處理操作，因此具有廣泛的應(yīng)用價值。

CNN網(wǎng)絡(luò)通常主要包括卷積層（Convolutional Laye，Conv）、線性整流層（Rectified Linear Units Layer，Relu）、池化層（Pooling Layer，Pooling）以及全連接層（Fully-Connected Layer，F(xiàn)C）等4種基本結(jié)構(gòu)，其基本組成形式如圖1所示。在實際應(yīng)用中通過對上述4種基本單元的組合與設(shè)計，能夠形成如ResNet、AlexNet、VGG、Inception等各種不同模式的深度卷積網(wǎng)絡(luò)。

（1）Conv層：該單元通過構(gòu)建具有寬度（Width）、高度（Height）、深度（Depth）的三維神經(jīng)元來對輸入層的局部特診進(jìn)行過濾篩選?？拷W(wǎng)絡(luò)輸入端的卷積層通常能夠?qū)崿F(xiàn)圖像中邊緣、線條和拐角等特征的識別與提取。隨著卷積層的深入迭代，在靠近輸出端的卷積層則能夠進(jìn)一步識別圖片中具有具體語義的物體特征，最終實現(xiàn)物體屬性的識別。

（2）Relu層：該單元通過構(gòu)建非線性的激活函數(shù)，使得整個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具備非線性特征的學(xué)習(xí)能力。相較于傳統(tǒng)的Sigmod，Tanh激活函數(shù)，Relu激活函數(shù)在保證網(wǎng)絡(luò)具有非線性特征的基礎(chǔ)上，具有運(yùn)算復(fù)雜度小、反饋梯度導(dǎo)數(shù)簡單特點，因此廣泛被應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計過程。

（3）池化層：該單元能夠?qū)D像中所提出特征進(jìn)行聚合和匯聚，同時剔除局部重復(fù)特征的冗余信息實現(xiàn)特征參數(shù)的降維，節(jié)省計算資源。另一方面，由于該網(wǎng)絡(luò)層能夠通過對局部特征的篩選，減少非重要特征對分類判別的影響從而對網(wǎng)絡(luò)的過擬合學(xué)習(xí)具有一定的抑制作用，從而在一定程度上提高了系統(tǒng)的泛化能力。

圖1 CNN網(wǎng)絡(luò)基本結(jié)構(gòu)示意圖

（4）全連接層：該單元通常為卷積網(wǎng)絡(luò)的輸出單元，主要實現(xiàn)根據(jù)前端網(wǎng)絡(luò)提取的特征參數(shù)實現(xiàn)對輸入數(shù)據(jù)的分類與判別。

2 媒體數(shù)據(jù)審核校驗網(wǎng)絡(luò)的設(shè)計

在綜合考慮算法性能和計算資源的基礎(chǔ)上，當(dāng)前較為通用靈活的CNN網(wǎng)絡(luò)主要分為AlexNet、GoogleNet、VGG、以及ResNet等類型，其中Alex網(wǎng)絡(luò)結(jié)構(gòu)較為簡單但存在著隨網(wǎng)絡(luò)層數(shù)的增加參數(shù)規(guī)模急劇增加的缺點；GoogleNet網(wǎng)絡(luò)為了適應(yīng)圖像中不同大小的結(jié)構(gòu)特征采用不同尺度的卷積核有效提高了圖像分類的準(zhǔn)確性，但其在網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)湓O(shè)計上往往需要較強(qiáng)的專業(yè)知識，因此也是一項十分艱巨的任務(wù)；VGG網(wǎng)絡(luò)則通過多層小尺寸的卷積核來覆蓋大尺寸卷積核視野的方式，有效地簡化了網(wǎng)絡(luò)結(jié)構(gòu)，降低了訓(xùn)練參數(shù)規(guī)模，具有算法性能較好、訓(xùn)練速度快等優(yōu)點；ResNet則為了適應(yīng)更高深度卷積網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練，通過殘差的方式進(jìn)一步提高網(wǎng)絡(luò)深度，取得更好的學(xué)習(xí)分類效果，但其對計算資源的要求則更為苛刻。

本文在綜合考慮計算資源和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計復(fù)雜程度等因素，主要以VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ)，設(shè)計提出了針對人力資源系統(tǒng)中人員媒體數(shù)據(jù)的自動化審核校驗方法，實現(xiàn)人員媒體數(shù)據(jù)中崗位級別的判斷與審核。

2.1 VGG卷積神經(jīng)網(wǎng)絡(luò)

VGG網(wǎng)絡(luò)結(jié)構(gòu)是由英國牛津大學(xué)Visual Geometry Group團(tuán)隊與2015年提出[7]，正如上節(jié)介紹的，該網(wǎng)絡(luò)結(jié)構(gòu)能夠通過多層的小尺寸的卷積核得到與大卷積核同樣效果的“感受野”，從而減少網(wǎng)絡(luò)參數(shù)，使得網(wǎng)絡(luò)結(jié)構(gòu)樣式能夠簡單和統(tǒng)一，有效緩解大家對于深度神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)計壓力。VGG網(wǎng)絡(luò)具有從A到E共5種配置方式，卷積層數(shù)也從8層到19層，具體參數(shù)如圖2所示。

圖2 各型VGG網(wǎng)絡(luò)結(jié)構(gòu)配置示意圖

2.2 媒體數(shù)據(jù)審核網(wǎng)絡(luò)

在實際應(yīng)用可知，在針對媒體數(shù)據(jù)進(jìn)行審核校驗時，可以根據(jù)媒體數(shù)據(jù)的具體特點設(shè)計調(diào)整相應(yīng)網(wǎng)絡(luò)參數(shù)，以較低的計算資源開銷取得較好的審核效果即可。因此本文以人力資源中警務(wù)系統(tǒng)的人員媒體數(shù)據(jù)為對象，重點實現(xiàn)對警務(wù)人員的崗位級別數(shù)據(jù)的審核校驗。由于警務(wù)人力資源系統(tǒng)中人員媒體數(shù)據(jù)相對規(guī)范，具有規(guī)定大小和分辨率，因此可以適當(dāng)選擇規(guī)模較小、相對簡單的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)崗位級別的判斷。通過對于實際數(shù)據(jù)進(jìn)行分析預(yù)處理后，本文主要從以下3方面對原始VGG網(wǎng)絡(luò)的進(jìn)行調(diào)整配置：

（1）由于媒體數(shù)據(jù)采集規(guī)范的約束，當(dāng)前錄入的人員媒體數(shù)據(jù)通常具有固定的分辨率，即為寬295像素、高413像素的RGB彩色照片。人員崗位級別標(biāo)識通常在照片中相對固定的位置，因此可以通過裁剪的方式摳取媒體數(shù)據(jù)中崗位級別標(biāo)識，以此剔除相關(guān)干擾信息，提高算法的識別準(zhǔn)確率。

（2）由3.1節(jié)可知，原始VGG網(wǎng)絡(luò)最大可設(shè)計為19層神經(jīng)網(wǎng)絡(luò)層，同時各層卷積網(wǎng)絡(luò)所使用的卷積核數(shù)量（64、128、256、512）和全連接層神經(jīng)元個數(shù)（4 096）都十分龐大。因此在綜合考慮當(dāng)前單個筆記本獨立運(yùn)行的硬件資源約束以及識別任務(wù)相對簡單等因素，本文主要在VGG-A網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上將輸入媒體尺寸調(diào)整配置為寬128像素、高128像素的RGB彩色照片；減小各卷積層的卷積核數(shù)量，相應(yīng)分別配置為16、32、64、128；實際判別人員崗位等級較少，將最后兩全連接層的神經(jīng)元個數(shù)減少為1024。

（3）為了適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的快速收斂，在每個卷積網(wǎng)絡(luò)的激活單元前端添加了批歸一化操作（Batch Normalization，BN），使激活層的數(shù)據(jù)輸入滿足0均值、方差為1的標(biāo)準(zhǔn)化分布，從而解決網(wǎng)絡(luò)內(nèi)部因協(xié)變量偏移造成網(wǎng)絡(luò)訓(xùn)練效果不理想的問題[8]。為了進(jìn)一步提高訓(xùn)練模型對實際數(shù)據(jù)的泛化能力，在全連接層后引入了Dropout操作[9]，通過隨機(jī)抑制部分神經(jīng)元的活性來使得整個網(wǎng)絡(luò)更加傾向提取數(shù)據(jù)中的本質(zhì)特征，進(jìn)一步防止模型的過擬合。

為了增加網(wǎng)絡(luò)對媒體數(shù)據(jù)的旋轉(zhuǎn)角度、亮度、對比度以及顏色等的泛化能力，提高魯棒性，在進(jìn)行預(yù)處理時本文通過隨機(jī)旋轉(zhuǎn)，調(diào)整亮度、對比度、色度以及清晰度等操作對媒體數(shù)據(jù)進(jìn)行變化，一定程度上豐富樣本數(shù)據(jù)的數(shù)量，克服數(shù)據(jù)樣本的隨機(jī)性干擾。通過上述調(diào)整即可完成對人員媒體數(shù)據(jù)進(jìn)行審核校驗的卷積網(wǎng)絡(luò)設(shè)計，整個網(wǎng)絡(luò)模型的訓(xùn)練流程如圖3所示。

圖3 針對媒體數(shù)據(jù)自動審核校驗示意圖

3 實際數(shù)據(jù)實驗結(jié)果與分析

為了驗證本文所提出方法的有效性，本節(jié)以實際采集收錄的2 000幅人員媒體照片作為訓(xùn)練數(shù)據(jù)對2.2節(jié)所提出的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，并另取1 000幅人員媒體照片作為測試數(shù)據(jù)對訓(xùn)練后的模型進(jìn)行測試驗證。訓(xùn)練過程中，以80副人員媒體數(shù)據(jù)作為一批（Batch）進(jìn)行訓(xùn)練，總共迭代訓(xùn)練30 000次；以網(wǎng)絡(luò)判別概率分布與實際期望的概率分布之間的交叉熵[10]作為網(wǎng)絡(luò)識別損失；配置學(xué)習(xí)率為0.000 5的Adam優(yōu)化算子作為模型的優(yōu)化方法，配置選擇隨機(jī)概率為0.5的Dropout算子，進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練。通過上述配置，整個模型的最終學(xué)習(xí)曲線如圖4所示。

圖4 媒體數(shù)據(jù)審核校驗網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)曲線

由圖4可知隨著不斷的訓(xùn)練迭代，整個網(wǎng)絡(luò)的識別損失在逐步下降并逐漸趨于平緩，其原因在于隨著網(wǎng)絡(luò)模型的不斷收斂，Dropout操作所引入的隨機(jī)性逐漸變成了網(wǎng)絡(luò)不確定性的主要因素，因此在整個訓(xùn)練的最后階段網(wǎng)絡(luò)仍舊以較小的幅度進(jìn)行的震蕩。當(dāng)?shù)綌?shù)達(dá)到25 000時訓(xùn)練準(zhǔn)確率已經(jīng)可以達(dá)到92.3%，因此可知最終訓(xùn)練后的網(wǎng)絡(luò)已經(jīng)具有較好的判別能力。

在網(wǎng)絡(luò)訓(xùn)練結(jié)束后，以1 000幅人員媒體數(shù)據(jù)作為測試樣本，對訓(xùn)練的模型進(jìn)行驗證。在實際數(shù)據(jù)審核校驗中人們更加關(guān)心媒體數(shù)據(jù)與相關(guān)采集的信息是否一致的問題，因此在該部分主要結(jié)合數(shù)據(jù)審核校驗的實際工作目的，對實際數(shù)據(jù)進(jìn)行判別檢測，其檢測結(jié)果如表1所示。

表1 實際數(shù)據(jù)在審核校驗中的測試結(jié)果

通過表1數(shù)據(jù)可知，本文所提出的模型能夠有效對人員媒體數(shù)據(jù)中崗位級別信息進(jìn)行一致性審核校驗，其準(zhǔn)確率接近80%。因此在實際應(yīng)用過程中，可以通過該網(wǎng)絡(luò)的自動識別后，依靠人工輔助的方式對判別結(jié)果進(jìn)一步進(jìn)行核準(zhǔn)，即能夠快速完成大批量非結(jié)構(gòu)化媒體數(shù)據(jù)的審核校驗，從而有效地減緩人工作業(yè)壓力，具有良好的現(xiàn)實意義和實際應(yīng)用價值。

4 結(jié) 語

為了緩解當(dāng)前依靠人工方式進(jìn)行非結(jié)構(gòu)化媒體數(shù)據(jù)審核校驗的現(xiàn)狀，本文在綜合考慮計算資源和人員媒體數(shù)據(jù)基本特點的基礎(chǔ)上，設(shè)計實現(xiàn)了一種基于深度卷積網(wǎng)絡(luò)的媒體數(shù)據(jù)自動化審核校驗方法，為實現(xiàn)非結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)的自動化審核給出了一種有效的解決思路。該方法能夠通過機(jī)器學(xué)習(xí)的方式對媒體數(shù)據(jù)中的特征進(jìn)行自動提取，并能實現(xiàn)相應(yīng)規(guī)則的判斷與識別，進(jìn)而實現(xiàn)媒體數(shù)據(jù)自動化審核校驗，有效地減輕數(shù)據(jù)整編作業(yè)壓力，具有較高的實際應(yīng)用價值。最后，以實際工作中人員媒體數(shù)據(jù)的審核校驗為實際應(yīng)用場景，對現(xiàn)實數(shù)據(jù)進(jìn)行訓(xùn)練與測試，其測試結(jié)果表明本文所提方法能夠有人員媒體中崗位級別的重要基礎(chǔ)信息，從而實現(xiàn)媒體數(shù)據(jù)的自動化審核校驗，有力的驗證了本方法的實用性和現(xiàn)實價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡