范 亮,閆玲博,韋占坤,金 星,吳庚杰
(1.中國人民解放軍75837部隊,廣東 廣州 510000;2.國防科技大學(xué)信息通信學(xué)院,陜西 西安 710106)
隨著社會的發(fā)展與進(jìn)步,人們的日常生活已經(jīng)與各式各樣的數(shù)據(jù)息息相關(guān)?;A(chǔ)數(shù)據(jù)作為社會服務(wù)的支撐,已經(jīng)開始讓大家意識到公共服務(wù)質(zhì)量的好壞在很大程度上依賴于基礎(chǔ)數(shù)據(jù)的規(guī)范性與準(zhǔn)確性,特別是對于涉及公共服務(wù)的基礎(chǔ)數(shù)據(jù)則顯得尤為重要。當(dāng)前為了改善數(shù)據(jù)的規(guī)范性和準(zhǔn)確性通常采用以下兩種方式:在數(shù)據(jù)采集錄入時,基于數(shù)據(jù)錄入要求和填報規(guī)則等約束條件實現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范;在數(shù)據(jù)匯聚整編時,基于規(guī)則匹配和人工核對相結(jié)合的審核校驗方式實現(xiàn)數(shù)據(jù)準(zhǔn)確與規(guī)范。由于前一種方式往往對系統(tǒng)部署統(tǒng)一性要求較高,在當(dāng)前大數(shù)據(jù)相互融合匯聚的趨勢下并不能完全解決基礎(chǔ)數(shù)據(jù)的規(guī)范性和準(zhǔn)確性的所有問題,因而第二種方式始終作為數(shù)據(jù)管理的一項重要的補(bǔ)充手段受到大家的重視。
當(dāng)前數(shù)據(jù)審核校驗通常采用基于規(guī)則和模式匹配的方式[1-2]實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的自動化審核校驗,然而對于文本、媒體等非格式數(shù)據(jù)的審核校驗往往只能基于人工核對的方式進(jìn)行篩選判斷,因而當(dāng)面對大量數(shù)據(jù)的審核校驗任務(wù)時則顯得力不從心,進(jìn)而影響了基礎(chǔ)數(shù)據(jù)在公共服務(wù)中的支撐保障效果。
得益于近些年來計算資源的升級和機(jī)器學(xué)習(xí)算法的發(fā)展,人們已經(jīng)在人工智能領(lǐng)域取得了長足的進(jìn)步。特別深度神經(jīng)網(wǎng)絡(luò)算法的再度興起,人工智能算法當(dāng)前在部分領(lǐng)域所展現(xiàn)的工作能力足以與人工相媲美。例如,在文獻(xiàn)[3-5]介紹了采用深度卷積網(wǎng)絡(luò)實現(xiàn)圖片媒體數(shù)據(jù)中特定物體特征屬性的自動化學(xué)習(xí),并實現(xiàn)了泛化樣本中相應(yīng)物體的檢測與判別。通過在ImageNet等公開數(shù)據(jù)集上的測試,上述算法的識別準(zhǔn)確率已經(jīng)超過人工識別水平取得令人驚喜的實際效果。相較而言,當(dāng)前基礎(chǔ)數(shù)據(jù)中非結(jié)構(gòu)化媒體數(shù)據(jù)上的審核校驗依舊依靠人工比對的方式進(jìn)行,因此在工作效率和保障效果上都存在較大缺陷。例如在人力資源系統(tǒng)中審核相關(guān)人員照片的級別、崗位等信息內(nèi)容時,只能粗粒度核查重要崗位領(lǐng)導(dǎo)人員的信息。
針對上述等問題,為了有效緩解當(dāng)前非結(jié)構(gòu)化媒體數(shù)據(jù)自動化審核手段不足的問題,本文以人力資源系統(tǒng)中人員媒體數(shù)據(jù)的審核為切入點,通過深度卷積網(wǎng)絡(luò)實現(xiàn)非結(jié)構(gòu)化媒體數(shù)據(jù)的自動化審核校驗,有效提高人力資源系統(tǒng)中人員媒體基礎(chǔ)數(shù)據(jù)的審核校驗,為基于機(jī)器學(xué)習(xí)的方式實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)審核校驗探索了新思路,因而具有較好現(xiàn)實意義和實際應(yīng)用價值。
本文的后續(xù)內(nèi)容安排如下:第二部分主要介紹了深度卷積網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的基本組成和概念;第三部分主要以非結(jié)構(gòu)化人員媒體數(shù)據(jù)為研究對象,綜合考慮計算資源和設(shè)計復(fù)雜度等因素,設(shè)計提出了基于VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)(Visual Geometry Group network,VGG)的人員媒體數(shù)據(jù)自動化審核校驗方法;第四部分通過實際采集的數(shù)據(jù)對本文提出的審核校驗方法進(jìn)行了測試,驗證了該方法在實際工作中的可行性與有效性;第五部分對全文內(nèi)容進(jìn)行了總結(jié)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)作為一種特殊的前饋神經(jīng)網(wǎng)絡(luò)[6],是由上世紀(jì)60年代Hubel和Wiesel等人在研究貓腦皮層時發(fā)現(xiàn)的一種獨特的網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)相較于傳統(tǒng)全連接形式的反饋神經(jīng)網(wǎng)絡(luò)而言具有復(fù)雜度較小的優(yōu)勢,為實現(xiàn)當(dāng)前構(gòu)建深度神經(jīng)網(wǎng)絡(luò)提供有利條件。隨著人們對深度卷積網(wǎng)絡(luò)的研究和實踐,人們發(fā)現(xiàn)CNN網(wǎng)絡(luò)在圖像模式識別與分類領(lǐng)域具有突出優(yōu)勢,能夠自適應(yīng)的實現(xiàn)特征的學(xué)習(xí)與選擇,有效避免傳統(tǒng)圖像處理技術(shù)中復(fù)雜的特征選取等預(yù)處理操作,因此具有廣泛的應(yīng)用價值。
CNN網(wǎng)絡(luò)通常主要包括卷積層(Convolutional Laye,Conv)、線性整流層(Rectified Linear Units Layer,Relu)、池化層(Pooling Layer,Pooling)以及全連接層(Fully-Connected Layer,F(xiàn)C)等4種基本結(jié)構(gòu),其基本組成形式如圖1所示。在實際應(yīng)用中通過對上述4種基本單元的組合與設(shè)計,能夠形成如ResNet、AlexNet、VGG、Inception等各種不同模式的深度卷積網(wǎng)絡(luò)。
(1)Conv層:該單元通過構(gòu)建具有寬度(Width)、高度(Height)、深度(Depth)的三維神經(jīng)元來對輸入層的局部特診進(jìn)行過濾篩選??拷W(wǎng)絡(luò)輸入端的卷積層通常能夠?qū)崿F(xiàn)圖像中邊緣、線條和拐角等特征的識別與提取。隨著卷積層的深入迭代,在靠近輸出端的卷積層則能夠進(jìn)一步識別圖片中具有具體語義的物體特征,最終實現(xiàn)物體屬性的識別。
(2)Relu層:該單元通過構(gòu)建非線性的激活函數(shù),使得整個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)具備非線性特征的學(xué)習(xí)能力。相較于傳統(tǒng)的Sigmod,Tanh激活函數(shù),Relu激活函數(shù)在保證網(wǎng)絡(luò)具有非線性特征的基礎(chǔ)上,具有運(yùn)算復(fù)雜度小、反饋梯度導(dǎo)數(shù)簡單特點,因此廣泛被應(yīng)用于深度卷積神經(jīng)網(wǎng)絡(luò)的設(shè)計過程。
(3)池化層:該單元能夠?qū)D像中所提出特征進(jìn)行聚合和匯聚,同時剔除局部重復(fù)特征的冗余信息實現(xiàn)特征參數(shù)的降維,節(jié)省計算資源。另一方面,由于該網(wǎng)絡(luò)層能夠通過對局部特征的篩選,減少非重要特征對分類判別的影響從而對網(wǎng)絡(luò)的過擬合學(xué)習(xí)具有一定的抑制作用,從而在一定程度上提高了系統(tǒng)的泛化能力。
圖1 CNN網(wǎng)絡(luò)基本結(jié)構(gòu)示意圖
(4)全連接層:該單元通常為卷積網(wǎng)絡(luò)的輸出單元,主要實現(xiàn)根據(jù)前端網(wǎng)絡(luò)提取的特征參數(shù)實現(xiàn)對輸入數(shù)據(jù)的分類與判別。
在綜合考慮算法性能和計算資源的基礎(chǔ)上,當(dāng)前較為通用靈活的CNN網(wǎng)絡(luò)主要分為AlexNet、GoogleNet、VGG、以及ResNet等類型,其中Alex網(wǎng)絡(luò)結(jié)構(gòu)較為簡單但存在著隨網(wǎng)絡(luò)層數(shù)的增加參數(shù)規(guī)模急劇增加的缺點;GoogleNet網(wǎng)絡(luò)為了適應(yīng)圖像中不同大小的結(jié)構(gòu)特征采用不同尺度的卷積核有效提高了圖像分類的準(zhǔn)確性,但其在網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)湓O(shè)計上往往需要較強(qiáng)的專業(yè)知識,因此也是一項十分艱巨的任務(wù);VGG網(wǎng)絡(luò)則通過多層小尺寸的卷積核來覆蓋大尺寸卷積核視野的方式,有效地簡化了網(wǎng)絡(luò)結(jié)構(gòu),降低了訓(xùn)練參數(shù)規(guī)模,具有算法性能較好、訓(xùn)練速度快等優(yōu)點;ResNet則為了適應(yīng)更高深度卷積網(wǎng)絡(luò)的學(xué)習(xí)訓(xùn)練,通過殘差的方式進(jìn)一步提高網(wǎng)絡(luò)深度,取得更好的學(xué)習(xí)分類效果,但其對計算資源的要求則更為苛刻。
本文在綜合考慮計算資源和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計復(fù)雜程度等因素,主要以VGG卷積網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),設(shè)計提出了針對人力資源系統(tǒng)中人員媒體數(shù)據(jù)的自動化審核校驗方法,實現(xiàn)人員媒體數(shù)據(jù)中崗位級別的判斷與審核。
VGG網(wǎng)絡(luò)結(jié)構(gòu)是由英國牛津大學(xué)Visual Geometry Group團(tuán)隊與2015年提出[7],正如上節(jié)介紹的,該網(wǎng)絡(luò)結(jié)構(gòu)能夠通過多層的小尺寸的卷積核得到與大卷積核同樣效果的“感受野”,從而減少網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)結(jié)構(gòu)樣式能夠簡單和統(tǒng)一,有效緩解大家對于深度神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的設(shè)計壓力。VGG網(wǎng)絡(luò)具有從A到E共5種配置方式,卷積層數(shù)也從8層到19層,具體參數(shù)如圖2所示。
圖2 各型VGG網(wǎng)絡(luò)結(jié)構(gòu)配置示意圖
在實際應(yīng)用可知,在針對媒體數(shù)據(jù)進(jìn)行審核校驗時,可以根據(jù)媒體數(shù)據(jù)的具體特點設(shè)計調(diào)整相應(yīng)網(wǎng)絡(luò)參數(shù),以較低的計算資源開銷取得較好的審核效果即可。因此本文以人力資源中警務(wù)系統(tǒng)的人員媒體數(shù)據(jù)為對象,重點實現(xiàn)對警務(wù)人員的崗位級別數(shù)據(jù)的審核校驗。由于警務(wù)人力資源系統(tǒng)中人員媒體數(shù)據(jù)相對規(guī)范,具有規(guī)定大小和分辨率,因此可以適當(dāng)選擇規(guī)模較小、相對簡單的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)崗位級別的判斷。通過對于實際數(shù)據(jù)進(jìn)行分析預(yù)處理后,本文主要從以下3方面對原始VGG網(wǎng)絡(luò)的進(jìn)行調(diào)整配置:
(1)由于媒體數(shù)據(jù)采集規(guī)范的約束,當(dāng)前錄入的人員媒體數(shù)據(jù)通常具有固定的分辨率,即為寬295像素、高413像素的RGB彩色照片。人員崗位級別標(biāo)識通常在照片中相對固定的位置,因此可以通過裁剪的方式摳取媒體數(shù)據(jù)中崗位級別標(biāo)識,以此剔除相關(guān)干擾信息,提高算法的識別準(zhǔn)確率。
(2)由3.1節(jié)可知,原始VGG網(wǎng)絡(luò)最大可設(shè)計為19層神經(jīng)網(wǎng)絡(luò)層,同時各層卷積網(wǎng)絡(luò)所使用的卷積核數(shù)量(64、128、256、512)和全連接層神經(jīng)元個數(shù)(4 096)都十分龐大。因此在綜合考慮當(dāng)前單個筆記本獨立運(yùn)行的硬件資源約束以及識別任務(wù)相對簡單等因素,本文主要在VGG-A網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上將輸入媒體尺寸調(diào)整配置為寬128像素、高128像素的RGB彩色照片;減小各卷積層的卷積核數(shù)量,相應(yīng)分別配置為16、32、64、128;實際判別人員崗位等級較少,將最后兩全連接層的神經(jīng)元個數(shù)減少為1024。
(3)為了適應(yīng)深度神經(jīng)網(wǎng)絡(luò)的快速收斂,在每個卷積網(wǎng)絡(luò)的激活單元前端添加了批歸一化操作(Batch Normalization,BN),使激活層的數(shù)據(jù)輸入滿足0均值、方差為1的標(biāo)準(zhǔn)化分布,從而解決網(wǎng)絡(luò)內(nèi)部因協(xié)變量偏移造成網(wǎng)絡(luò)訓(xùn)練效果不理想的問題[8]。為了進(jìn)一步提高訓(xùn)練模型對實際數(shù)據(jù)的泛化能力,在全連接層后引入了Dropout操作[9],通過隨機(jī)抑制部分神經(jīng)元的活性來使得整個網(wǎng)絡(luò)更加傾向提取數(shù)據(jù)中的本質(zhì)特征,進(jìn)一步防止模型的過擬合。
為了增加網(wǎng)絡(luò)對媒體數(shù)據(jù)的旋轉(zhuǎn)角度、亮度、對比度以及顏色等的泛化能力,提高魯棒性,在進(jìn)行預(yù)處理時本文通過隨機(jī)旋轉(zhuǎn),調(diào)整亮度、對比度、色度以及清晰度等操作對媒體數(shù)據(jù)進(jìn)行變化,一定程度上豐富樣本數(shù)據(jù)的數(shù)量,克服數(shù)據(jù)樣本的隨機(jī)性干擾。通過上述調(diào)整即可完成對人員媒體數(shù)據(jù)進(jìn)行審核校驗的卷積網(wǎng)絡(luò)設(shè)計,整個網(wǎng)絡(luò)模型的訓(xùn)練流程如圖3所示。
圖3 針對媒體數(shù)據(jù)自動審核校驗示意圖
為了驗證本文所提出方法的有效性,本節(jié)以實際采集收錄的2 000幅人員媒體照片作為訓(xùn)練數(shù)據(jù)對2.2節(jié)所提出的網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,并另取1 000幅人員媒體照片作為測試數(shù)據(jù)對訓(xùn)練后的模型進(jìn)行測試驗證。訓(xùn)練過程中,以80副人員媒體數(shù)據(jù)作為一批(Batch)進(jìn)行訓(xùn)練,總共迭代訓(xùn)練30 000次;以網(wǎng)絡(luò)判別概率分布與實際期望的概率分布之間的交叉熵[10]作為網(wǎng)絡(luò)識別損失;配置學(xué)習(xí)率為0.000 5的Adam優(yōu)化算子作為模型的優(yōu)化方法,配置選擇隨機(jī)概率為0.5的Dropout算子,進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)訓(xùn)練。通過上述配置,整個模型的最終學(xué)習(xí)曲線如圖4所示。
圖4 媒體數(shù)據(jù)審核校驗網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)曲線
由圖4可知隨著不斷的訓(xùn)練迭代,整個網(wǎng)絡(luò)的識別損失在逐步下降并逐漸趨于平緩,其原因在于隨著網(wǎng)絡(luò)模型的不斷收斂,Dropout操作所引入的隨機(jī)性逐漸變成了網(wǎng)絡(luò)不確定性的主要因素,因此在整個訓(xùn)練的最后階段網(wǎng)絡(luò)仍舊以較小的幅度進(jìn)行的震蕩。當(dāng)?shù)綌?shù)達(dá)到25 000時訓(xùn)練準(zhǔn)確率已經(jīng)可以達(dá)到92.3%,因此可知最終訓(xùn)練后的網(wǎng)絡(luò)已經(jīng)具有較好的判別能力。
在網(wǎng)絡(luò)訓(xùn)練結(jié)束后,以1 000幅人員媒體數(shù)據(jù)作為測試樣本,對訓(xùn)練的模型進(jìn)行驗證。在實際數(shù)據(jù)審核校驗中人們更加關(guān)心媒體數(shù)據(jù)與相關(guān)采集的信息是否一致的問題,因此在該部分主要結(jié)合數(shù)據(jù)審核校驗的實際工作目的,對實際數(shù)據(jù)進(jìn)行判別檢測,其檢測結(jié)果如表1所示。
表1 實際數(shù)據(jù)在審核校驗中的測試結(jié)果
通過表1數(shù)據(jù)可知,本文所提出的模型能夠有效對人員媒體數(shù)據(jù)中崗位級別信息進(jìn)行一致性審核校驗,其準(zhǔn)確率接近80%。因此在實際應(yīng)用過程中,可以通過該網(wǎng)絡(luò)的自動識別后,依靠人工輔助的方式對判別結(jié)果進(jìn)一步進(jìn)行核準(zhǔn),即能夠快速完成大批量非結(jié)構(gòu)化媒體數(shù)據(jù)的審核校驗,從而有效地減緩人工作業(yè)壓力,具有良好的現(xiàn)實意義和實際應(yīng)用價值。
為了緩解當(dāng)前依靠人工方式進(jìn)行非結(jié)構(gòu)化媒體數(shù)據(jù)審核校驗的現(xiàn)狀,本文在綜合考慮計算資源和人員媒體數(shù)據(jù)基本特點的基礎(chǔ)上,設(shè)計實現(xiàn)了一種基于深度卷積網(wǎng)絡(luò)的媒體數(shù)據(jù)自動化審核校驗方法,為實現(xiàn)非結(jié)構(gòu)化基礎(chǔ)數(shù)據(jù)的自動化審核給出了一種有效的解決思路。該方法能夠通過機(jī)器學(xué)習(xí)的方式對媒體數(shù)據(jù)中的特征進(jìn)行自動提取,并能實現(xiàn)相應(yīng)規(guī)則的判斷與識別,進(jìn)而實現(xiàn)媒體數(shù)據(jù)自動化審核校驗,有效地減輕數(shù)據(jù)整編作業(yè)壓力,具有較高的實際應(yīng)用價值。最后,以實際工作中人員媒體數(shù)據(jù)的審核校驗為實際應(yīng)用場景,對現(xiàn)實數(shù)據(jù)進(jìn)行訓(xùn)練與測試,其測試結(jié)果表明本文所提方法能夠有人員媒體中崗位級別的重要基礎(chǔ)信息,從而實現(xiàn)媒體數(shù)據(jù)的自動化審核校驗,有力的驗證了本方法的實用性和現(xiàn)實價值。