封 順
(吉林警察學(xué)院,吉林 長春 130117)
隨著公安信息化建設(shè)的不斷推進,我國平安城市、雪亮工程、治安防控體系戰(zhàn)略的深入發(fā)展,實施公安大數(shù)據(jù)戰(zhàn)略,著力打造數(shù)據(jù)警務(wù)、建設(shè)智慧公安應(yīng)運而生。如何運用警務(wù)大數(shù)據(jù),并使公安工作實現(xiàn)科技化、智能化和高效化,提升公安實戰(zhàn)各領(lǐng)域的信息化技術(shù)手段,這是公安工作者需要亟待解決的問題。近年來,人工智能相關(guān)技術(shù)不斷應(yīng)用到公安領(lǐng)域中,公安警務(wù)工作方式日新月異,公安實戰(zhàn)應(yīng)用也發(fā)生了翻天覆地的變化,這些新技術(shù)為警務(wù)工作提供新思路、新方法和新模式,為公安各警種實戰(zhàn)應(yīng)用提供了有力的技術(shù)支撐,并在實際應(yīng)用中發(fā)揮了至關(guān)重要的作用,大大減輕了一線民警的工作負擔(dān),極大地提升了公安警務(wù)工作效率。
深度學(xué)習(xí)是當前人工智能領(lǐng)域發(fā)展最快和最引人矚目的領(lǐng)域,在計算機視覺、自然語言處理、網(wǎng)絡(luò)安全等許多應(yīng)用領(lǐng)域中都取得了很高的成就。隨著研究的深入,目前已涌現(xiàn)出許多基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型和算法,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)是當前比較熱點的網(wǎng)絡(luò)模型,深度前饋網(wǎng)絡(luò)、BP算法、正則化、Relu激活函數(shù)、稀疏編碼、Dropout[11]、LSTM[9]長短時記憶等是當前使用較為廣泛的深度學(xué)習(xí)算法。相關(guān)模型和算法以及改進型在人像識別、圖像處理、目標檢測與跟蹤、機器翻譯、自動駕駛、聲紋識別、網(wǎng)絡(luò)信息安全、圖像生成等現(xiàn)實應(yīng)用領(lǐng)域中取得了成功。
近年來隨著深度學(xué)習(xí)在諸多領(lǐng)域中得到了長足的發(fā)展,被廣泛應(yīng)用在各類人工智能任務(wù)中,且都取得了理想結(jié)果。一些從事警務(wù)研究人員將注意力轉(zhuǎn)移到深度學(xué)習(xí)研究領(lǐng)域,嘗試構(gòu)建深度學(xué)習(xí)模型來處理公安實戰(zhàn)中遇到的問題。目前流行的深度學(xué)習(xí)網(wǎng)絡(luò)模型為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs),受到了人工智能學(xué)術(shù)界和工業(yè)界的廣泛研究和高度關(guān)注,可應(yīng)用于警務(wù)工作中的諸多領(lǐng)域,在公安實戰(zhàn)應(yīng)用中有著廣泛的應(yīng)用前景。
人工神經(jīng)網(wǎng)絡(luò)[1](Artificial Neural Network,ANN)是20世紀80年代以來人工智能領(lǐng)域興起的研究熱點。它從信息處理角度出發(fā)對人腦神經(jīng)元網(wǎng)絡(luò)進行抽象描述,從而建立某種簡單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)。深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)的發(fā)展和延續(xù),2006年Hinton在《Science》雜志上首次提出深度學(xué)習(xí)概念,提出多層人工神經(jīng)網(wǎng)絡(luò)模型有很強的特征學(xué)習(xí)能力,深度學(xué)習(xí)模型對原始數(shù)據(jù)有更本質(zhì)的表述等觀點[10]。在大數(shù)據(jù)技術(shù)和計算能力飛速發(fā)展的今天,深度學(xué)習(xí)作為目前人工智能領(lǐng)域研究熱點,因其具有廣泛的發(fā)展前景,受到了學(xué)術(shù)界與工業(yè)界的雙重關(guān)注,近年來也涌現(xiàn)出成功的深度學(xué)習(xí)模型。下面介紹應(yīng)用較為廣泛的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一類以卷積計算為主體,包含激活函數(shù)和降采樣,且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是當前應(yīng)用最為成功、網(wǎng)絡(luò)深度最深的深度學(xué)習(xí)模型之一,在計算機視覺、圖像處理、生物信息等領(lǐng)域取得了巨大的成功。CNN模擬了人類視覺信息處理的過程,這種信息處理方式非常類似圖像處理領(lǐng)域的圖像卷積運算,原始的圖像以二維圖像呈現(xiàn),由一個卷積核來對整張圖像進行處理,得到帶有原始圖像某種特征信息的新的圖像,這樣就把原始信號中某種特定的信息提取出來,實現(xiàn)信息壓縮和抽象。隨著層數(shù)的堆疊,每層有若干個特征提取,若干層堆疊在一起,逐步實現(xiàn)對概念、對視覺的理解。
圖1 人類視覺皮層處理視覺信息過程
圖2 二維圖像卷積運算示意圖
圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
卷積神經(jīng)網(wǎng)絡(luò)主要包括五部分:輸入層、卷積層、激活層、池化層和全連接層[19]。輸入層對輸入數(shù)據(jù)進行標準化處理,這項處理操作有利于算法學(xué)習(xí)效率的提升;卷積層主要功能是實現(xiàn)對原始信號的特征提取、抽象、壓縮和理解,每個卷積層由多個卷積核組成,每個卷積核通過共享相同的權(quán)值處理上層的全部數(shù)據(jù)或部分數(shù)據(jù),通過調(diào)整卷積核的大小和權(quán)值可以實現(xiàn)不同特征的提取,通過權(quán)值共享可以減少參數(shù)的數(shù)量來提高學(xué)習(xí)效率,使得網(wǎng)絡(luò)模型具有更好的泛化能力;激活層通過引入激活函數(shù)(Sigmoid、tanh、Relu)來增加非線性因素,使得網(wǎng)絡(luò)可微可導(dǎo);池化層實現(xiàn)降采樣,在保持特征布局不變的同時不斷減少數(shù)據(jù)輸出維度,使得參數(shù)數(shù)量和計算量下降,從而保留最有效信息并控制過擬合現(xiàn)象,這是卷積神經(jīng)網(wǎng)絡(luò)能夠持續(xù)加深的原因,常用的池化有最大池化(Max pooling)和平均池化(average pooling);全連接層對卷積層、激活層、池化層學(xué)習(xí)得到的特征信息拉平為一維向量,經(jīng)過幾個全連接的前饋神經(jīng)網(wǎng)絡(luò)(FNN)的加權(quán)求和,預(yù)測最終輸出結(jié)果。
最早出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)有時間延遲網(wǎng)絡(luò)和LeNet,被用來識別字符,隨著更有效的卷積神經(jīng)網(wǎng)絡(luò)模型的提出,以及數(shù)字計算設(shè)備的更新和大數(shù)據(jù)帶來的機遇,CNN在2012年有長足的發(fā)展,并在以后衍生一系列的深度學(xué)習(xí)算法模型,如LeNet-5、AlexNet、VggNet、GooleNet、ResNet[21]等。
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一類善于處理和預(yù)測序列數(shù)據(jù)的深度學(xué)習(xí)模型[7]。RNN及其變體網(wǎng)絡(luò)已經(jīng)被應(yīng)用到很多領(lǐng)域,尤其是具有序列性質(zhì)的輸入和存在一定時間依賴的關(guān)系的數(shù)據(jù),如語音識別、機器翻譯、詞量生成、文本分類、信息檢索、情感分類、音樂生成、DNA序列分析等。網(wǎng)絡(luò)最大的特點就是隱藏單元在前一時刻的輸出作為當前時刻的輸入再次輸入到隱藏單元,這樣就可以把當前時刻的狀態(tài)傳遞給下一時刻[2],t 時刻隱藏單元接收網(wǎng)絡(luò)前一時刻的隱藏單元的值a^(
圖4 展開后的循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)圖
RNN通過正向傳播(Forward Propagation)得到a
然后計算每個元素和整個序列的損失函數(shù)(Loss function):
最后使用通過(穿越)時間反向傳播[8](back propagation through time)求導(dǎo)來更新網(wǎng)絡(luò)中的權(quán)重參數(shù),這也是當前循環(huán)神經(jīng)網(wǎng)絡(luò)最常用的訓(xùn)練算法。
循環(huán)神經(jīng)網(wǎng)絡(luò)能夠?qū)⑤斎胄蛄袛?shù)據(jù)映射為序列數(shù)據(jù)作為輸出,根據(jù)不同任務(wù),輸出數(shù)據(jù)長度和輸入序列長度不一定相同,有多用對應(yīng)的關(guān)系。圖2-5中(a)“多對一”結(jié)構(gòu),可用于電影情感分析等任務(wù),首先讀取輸入為一個電影評論的文本,然后判斷他們是否喜歡電影;(b)“一對多”結(jié)構(gòu),可以用于表示生成音樂、圖片描述等任務(wù),輸入固定大小的矩陣表示的數(shù)值或圖片,輸出一首美妙的音樂或圖片描述文字;(c)“一對一”結(jié)構(gòu),是一個小型的標準神經(jīng)網(wǎng)絡(luò),輸入序列數(shù)據(jù)后得到輸出,固定的長度輸入和固定長度輸出;(d)和(e)是“多對多”結(jié)構(gòu),輸入輸出都為序列數(shù)據(jù),(d)輸入輸出同步,可用于語音識別,(e)輸入輸出為非同步,可用于機器翻譯,一個中文句子和一個英語句子不同數(shù)量的單詞卻能表達同一個意思。目前,在實際應(yīng)用中使用最廣泛的循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)來有門控循環(huán)單元(Gated Recurrent Unit, GRU)、長短期記憶網(wǎng)絡(luò)[9](Long-Short Time Memory, LSTM)和雙向循環(huán)網(wǎng)絡(luò)(Bi-directional RNN, BRNN)。
圖5 不同類型RNN結(jié)構(gòu)示例圖
生成對抗網(wǎng)絡(luò)[12](Generative Adversarial Networks,GANs)在2014年由Goodfellow首次提出,是當前深度學(xué)習(xí)領(lǐng)域最具潛力的研究成果之一。其核心思想受博弈論中二元零和博弈的啟發(fā),同時訓(xùn)練兩個相互協(xié)作、同時又相互競爭的深度神經(jīng)網(wǎng)絡(luò),它的框架中包含一對相互對抗的模型:判別器(Discriminator,D)和生成器(Generator,G)。生成器的目的是學(xué)習(xí)真實樣本的數(shù)據(jù)分布,生成與真實樣本分布高度逼近的生成樣本,判別器的目的是判別訓(xùn)練樣本是真實樣本還是生成樣本。二者為了在博弈中勝出,需不斷提高各自的樣本生成能力和樣本判別能力,通過連續(xù)不斷的對抗訓(xùn)練,生成器生成以假亂真的生成樣本分布最大化,判別器判別真實和生成樣本的錯誤概率最小化。
圖6 生成對抗網(wǎng)絡(luò)示意圖
生成器和判別器都是任意可導(dǎo)可微函數(shù),因此,建立一個損失函數(shù)(Loss function)來監(jiān)視和判斷模型學(xué)習(xí)效果,然后利用隨機梯度下降法(SGD)進行優(yōu)化。由于判別器是一個二分類模型,可采用交叉熵表示其損失函數(shù)[3],即
其中,E是求期望,D和G分別為判別器和生成器的可微函數(shù),x為真實數(shù)據(jù)樣本,z為隨機噪聲矢量,G(z)是生成器的生成數(shù)據(jù)。公式(5)前半部分表示判別器D判斷出x是真實數(shù)據(jù)的情況,后半部分為判別器D判別數(shù)據(jù)是由生成器G將噪聲矢量z映射而成的生成數(shù)據(jù)的情況。在訓(xùn)練優(yōu)化生成器G時,輸入為噪聲向量z,希望生成樣本G(z)通過判別器D后的概率值為1,即希望D(G(z))趨于1,故極小化模型G。在訓(xùn)練優(yōu)化判別器D時,當輸入為真實樣本x時,希望D(x)趨于1;當輸入為生成樣本G(z)時,則希望D(G(z))趨于0,故極大化模型D。因此GANs的優(yōu)化問題可描述為下面極大極小博弈問題,最終的損失函數(shù)為:
在模型的訓(xùn)練過程中,生成器G和判別器D的參數(shù)交替迭代更新,先固定G,訓(xùn)練D,更新迭代D的參數(shù),然后在固定D,訓(xùn)練G,更新G的參數(shù),在不斷重復(fù)上述過程最終達到模型穩(wěn)定。GANs作為一種生成式模型,最直接的應(yīng)用就是對真實數(shù)據(jù)進行建模并生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,目前使用較為廣泛的生成對抗網(wǎng)絡(luò)模型有提出推土機距離的WGAN[17](Wasserstein GAN)、首次將卷積神經(jīng)網(wǎng)絡(luò)引入GAN中DCGAN[14](Deep Convolutional GANs)、提出了一種圖像到圖像翻譯的通用方法的Pix2Pix[15](Image-to-Image Translation with Conditional Adversarial Networks)、提出了一種一對多的圖像到圖像的翻譯方法StarGAN(GANs for Multi-Domain Image-to-Image Translation)。
1.卷積神經(jīng)網(wǎng)絡(luò)在人臉識別中的應(yīng)用
2017年7月,國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》指出,圍繞社會綜合發(fā)展、新型犯罪偵查、反恐等迫切需求,要研發(fā)視頻圖像信息分析識別技術(shù)、生物特征識別技術(shù)的智能安防與警用產(chǎn)品,建立智能化檢測平臺。隨著2012年深度學(xué)習(xí)的興起,極大地加快了人臉識別技術(shù)的研究進程,在眾多現(xiàn)實場景中取得了成功的應(yīng)用。其中使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)的人臉識別算法在進行訓(xùn)練和驗證時,具有高識別率、高精確率、模型穩(wěn)定和拓展性強等特點,成為人臉識別領(lǐng)域?qū)W術(shù)界和工業(yè)界的研究熱點,在警務(wù)工作中將會逐漸的被應(yīng)用于公共場合治安維護、云端身份認證、公安視頻偵查等公安安防領(lǐng)域。
人臉識別技術(shù)(Face Recognition)是一種基于人的面部特征信息進行身份識別的生物特征識別技術(shù)。在公安實戰(zhàn)應(yīng)用中主要的三種應(yīng)用模式有:人臉驗證(Face Verification),即判定兩張人臉圖像是否屬于同一人,常用于身份認證如人證核驗;人臉辨別(Face Identification),即給定一張人臉圖像,判斷是否在人臉庫中,若在則返回具體的身份信息,常用于犯罪嫌疑人靜態(tài)檢索或動態(tài)布控;人臉聚類(Face Clustering),即給定一批人臉圖像,將相同人的圖像歸類到同一個類,不同人的劃分為不同的類,常見的應(yīng)用有智能相冊、一人一檔等。
圖7 基于卷積神經(jīng)網(wǎng)絡(luò)模型的人臉識別流程圖
當今主流的人臉識別算法,包括活體鑒別、人臉檢測、人臉預(yù)處理、特征提取、比對識別五步驟。其中活體鑒別用來判斷人臉識別處理中的人臉圖像是否采集自真實人體;人臉檢測是從視頻或圖像中檢測出人臉,記錄和標記重要部位的位置;人臉預(yù)處理和特征提取主要判斷圖像質(zhì)量、位置、光照條件,選取固定大小的人臉圖像,輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中提取人臉特征向量;比對識別可分為人臉驗證(1:1)和人臉辨別(1:N)兩類。
公安安防是基于深度學(xué)習(xí)人臉識別算法應(yīng)用最廣泛的領(lǐng)域之一,主要為視頻結(jié)構(gòu)化、人臉檢索、人臉布控、人群統(tǒng)計、智慧交通、出入安檢等方面提供安全可靠的人臉識別服務(wù),重點應(yīng)用于犯罪人員的識別追蹤、失蹤兒童尋找、反恐行動助力、大型安保、可疑人員跟蹤、視頻監(jiān)控智能檢索等工作。在公安應(yīng)用場景中達到事前預(yù)警、事后跟蹤、事后快速處置的目的,并在平安城市、雪亮工程、天網(wǎng)工程、智慧城市等公安項目中發(fā)揮了至關(guān)重要的作用。
2.卷積神經(jīng)網(wǎng)絡(luò)在惡意代碼檢測中的應(yīng)用
惡意代碼已經(jīng)成為目前網(wǎng)絡(luò)空間安全中最多的威脅來源。近年來,全球各地網(wǎng)絡(luò)信息安全事故頻發(fā),各行業(yè)的電子信息設(shè)備不斷遭受攻擊,嚴重破壞了社會穩(wěn)定和威脅國家安全。智慧公安打造的精準警務(wù)需要依托于警務(wù)信息綜合平臺,具有實時性、高效性、穩(wěn)定性、機密性等特點,如何保證系統(tǒng)信息安全而不受病毒的侵擾一直都在困擾著警務(wù)工作者,因此亟需一種高效準確的惡意代碼檢測分析技術(shù)來消除其帶來的潛在威脅。
惡意代碼檢測方法按照是否可執(zhí)行代碼分為動態(tài)檢測和靜態(tài)檢測,傳統(tǒng)方法都需要依賴專業(yè)的實驗室與復(fù)雜的工具和具有豐富經(jīng)驗的分析檢測人員,需要較高的人工和經(jīng)濟成本,嚴重影響惡意代碼的識別率和準確率,難以滿足大數(shù)據(jù)時代下大規(guī)模的惡意代碼檢測需求。近年來,卷積神經(jīng)網(wǎng)絡(luò)模型被用于檢測惡意代碼,通過從大量的惡意代碼樣本中進行惡意特征的提取,并訓(xùn)練這些惡意特征進行分類,最終得到惡意代碼識別模型,其模型具有資源消耗低、操作簡單方便和自動化程度高等顯著優(yōu)點。
圖8 深度學(xué)習(xí)惡意代碼檢測方法的一般流程
基于多通道圖像視覺特征和AlexNet神經(jīng)網(wǎng)絡(luò)的惡意代碼檢測方法[6]將采集到待檢測的惡意代碼轉(zhuǎn)化為具有更加明顯圖像特征的多通道圖像,利用帶有局部均衡歸一化的AlexNet的卷積神經(jīng)網(wǎng)絡(luò)搭建惡意代碼檢測模型,使用多通道圖像提取彩色紋理特征并分類進行惡意代碼檢測。利用均衡處理后的Malimg數(shù)據(jù)集進行測試,結(jié)果顯示不同類惡意代碼的彩色圖像紋理特征具有相異性、網(wǎng)絡(luò)模型收斂速度快、具有較強的泛化能力,準確率和精確率分別達到97.8%、97.8%。
3.循環(huán)神經(jīng)網(wǎng)絡(luò)在聲紋識別的應(yīng)用
聲紋識別被作為識別人身份的一種非常重要的生物認證技術(shù),有著無需接觸、識別成本低廉、聲紋提取便捷等優(yōu)點,一定時期內(nèi)具有穩(wěn)定性和唯一性的特性。近年來,基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的聲紋識別技術(shù)極大地提升了識別的準確率,逐漸在公安實戰(zhàn)中展開應(yīng)用,諸如公安取證、刑偵破案、身份認證等,與智能視頻監(jiān)控結(jié)合,解決現(xiàn)有智慧城市建設(shè)中的“眼強耳弱”的問題[4],特別是在電信詐騙中發(fā)揮著無可替代的作用,是警務(wù)工作應(yīng)對新形勢下聲紋識別與鑒定的關(guān)鍵。
圖9 Malimg數(shù)據(jù)集四類惡意代碼多通道圖
圖10 帶有局部均衡歸一化的AlexNet網(wǎng)絡(luò)結(jié)構(gòu)圖
公安實戰(zhàn)應(yīng)用中的聲紋識別平臺包含聲紋采集設(shè)備、智能語音分析系統(tǒng)和公安聲紋實戰(zhàn)平臺三個板塊,提供從音頻數(shù)據(jù)采集、傳輸和存儲,到識別、轉(zhuǎn)寫和分析,再到比對、鑒定和司法審訊的全方位一體化管理和使用綜合平臺。
高性能的音頻采集設(shè)備是能否獲取高質(zhì)量聲紋數(shù)據(jù)的關(guān)鍵,對以后語音識別與聲紋分析發(fā)揮著重要的作用,現(xiàn)有的音頻采集設(shè)備能夠?qū)崿F(xiàn)多通道采集、語音增強、自適應(yīng)降噪及聲源分離,在復(fù)雜場景下達到高質(zhì)量音頻。智能語音分析系統(tǒng)由聲紋數(shù)據(jù)庫、語音識別模塊、語音轉(zhuǎn)寫模塊、聲紋分析模塊組成。聲紋數(shù)據(jù)庫具有聲紋數(shù)據(jù)的讀入、調(diào)取和管理等功能,是實現(xiàn)語音識別、語音轉(zhuǎn)寫和聲紋分析功能模塊的基礎(chǔ);語音識別模塊主要是將收集到音頻中話者的聲紋與背景音進行分離,準確找出說話人的聲紋數(shù)據(jù);語音轉(zhuǎn)寫模塊是將搜集到的聲紋轉(zhuǎn)寫為文本文字形式;聲紋分析模塊主要是對聲紋的聲學(xué)特性進行分析,如聲紋的振幅、頻率、基頻、共振峰、功率譜、音調(diào)等。公安聲紋實戰(zhàn)平臺含有公安聲紋比對平臺、聲紋鑒定平臺、司法審訊平臺等,主要以聲紋分析模塊為核心,結(jié)合聲紋數(shù)據(jù)庫,提供聲紋大數(shù)據(jù)檢索、比對、分析和鑒定等功能,通過聲紋檢索比對來鎖定嫌疑人身份,對聲紋的分析與鑒定來認定犯罪嫌疑人,在可疑人員查控、人員身份核驗、案件偵破、反電信詐騙等場所發(fā)揮重大作用。
圖11 公安聲紋識別平臺構(gòu)架圖
這套完整的公安領(lǐng)域聲紋識別方案利用深度學(xué)習(xí)和專業(yè)的數(shù)字化頻譜生成知識,輔助聲紋識別專家,快速比對、分析檢材與樣本的物理特性和聲學(xué)特性,實現(xiàn)對語音中說話人的識別認定,為聲紋的識別與鑒定提供了非??煽康募夹g(shù)基礎(chǔ)。
4.生成對抗網(wǎng)絡(luò)在被拐賣人口外觀和潛逃逃犯面貌預(yù)測中的應(yīng)用
警方對長期失蹤、被拐賣人口和長期潛逃人員所掌握的只有少量年代久遠或者模糊不清的照片,多年下來面貌變得如何這類問題一直都在困擾警方,也給案件偵破帶來不小的難度。近期有學(xué)者提出了基于生成對抗網(wǎng)絡(luò)的新方法“壽命年齡轉(zhuǎn)換合成[16](Lifespan Age Transformation Synthesis)”,旨在從一個單一的輸入圖像模擬連續(xù)老化的過程,連續(xù)生成從年輕到年老的自己的照片。這種方法未來可以廣泛的應(yīng)用與公安實戰(zhàn)中,例如模擬失蹤、被拐賣人口的外觀、長期潛逃套嫌疑人面貌預(yù)測等。
圖12 公安聲紋實戰(zhàn)平臺界面
基于深度學(xué)習(xí)框架新的多域圖像生成對抗網(wǎng)絡(luò)結(jié)構(gòu),其學(xué)習(xí)潛空間模型是一個連續(xù)的雙向的老化過程,解決的是單張照片的年齡增長和退化的問題,即預(yù)測一個人未來的樣子,或者他們過去的樣子。該算法不僅考慮了人臉質(zhì)地和紋理的改變,還加入了人體在老化和生長過程中頭部形態(tài)的變化,使得生成的圖片對略微年長的成年人的更具有適用性和兒童照片能產(chǎn)生高質(zhì)量的結(jié)果。
該方法是在FFHQ數(shù)據(jù)集上進行訓(xùn)練的,并按照年齡、性別和語義分割對其進行標記。采用固定年齡類別被用作錨定來進行近似連續(xù)年齡轉(zhuǎn)換。新框架可以通過一張照片預(yù)測0-70歲年齡段的完整頭像,同時修改頭部的紋理和形狀。
圖13 壽命年齡轉(zhuǎn)換合成結(jié)構(gòu)示意圖
圖14 壽命年齡轉(zhuǎn)換合成年齡預(yù)測示例圖
5.深度學(xué)習(xí)在圖像超分辨率重建中的應(yīng)用
在當今公安工作中,視聽資料在刑事偵查、視頻偵查、預(yù)審和刑事訴訟中發(fā)揮著中要的作用,高品質(zhì)影像、圖像和聲音是獲取關(guān)鍵信息的前提和保障。然而公安實戰(zhàn)中各種因素的影響會導(dǎo)致影像和圖像質(zhì)量不佳,出現(xiàn)模糊的現(xiàn)象,視覺效果不理想,這會對案情的分析、比對和研判造成嚴重的影響。實際工作中獲取的影像和圖像都為案后被動獲取,往往依賴圖像處理方式改善其質(zhì)量。近年來,深度學(xué)習(xí)技術(shù)在超分辨率重建領(lǐng)域得到了積極的探索和發(fā)展,取得了長足的進步,為模糊圖像處理和圖像超分辨率重建提供了一條解決該問題的新途徑。
圖像超分辨率(Super Resolution,SR)重建是使用特定算法將同一場景中低分辨率(LR)圖像恢復(fù)成高分辨率(HR)圖像,該技術(shù)是計算機視覺和圖像處理與檢驗的主要技術(shù)之一,具有高靈活性、簡便性和適用性。高分辨率圖像因其具有很高的像素密度,能夠獲取圖像更多的紋理特征和細節(jié)信息,使圖像能夠看得更細、看得更清,在未來警務(wù)工作中有著廣泛的應(yīng)用前景。目前流行的基于深度學(xué)習(xí)的超分辨率重建方法有CNN網(wǎng)絡(luò)模型(SRCNN、VDSR、DRCN、SRDenseNet等)和生成對抗網(wǎng)絡(luò)(SRGAN、ESRGAN、DICGAN等),這兩個網(wǎng)絡(luò)模型都能夠很好的恢復(fù)圖像的高頻細節(jié),使輸出圖像更接近真實圖像。
圖15 Meta-RDN[20]方法的超分辨率示意圖
2020年有學(xué)者提出一種用于人臉超分辨率的深度迭代協(xié)作方法[18](DICGAN),在人臉超分辨率重建取得了可人效果。該方法提出了一種在深度迭代合并網(wǎng)絡(luò),迭代并漸進地計算超分辨率(SR)圖像和人臉的特征點,采用對抗損失來增加圖像的細節(jié)信息。該模型設(shè)計兩個分支的網(wǎng)絡(luò)結(jié)構(gòu),一個分支為了人臉的恢復(fù),另一個分支用于人臉特征點的計算,兩個分支互相逐步促進,此外還設(shè)計了注意力融合模塊來將人臉圖像特征點進行融合,而不是簡單的連接。DICGAN算法在CelebA和Helen人臉數(shù)據(jù)集上進行訓(xùn)練都取得了良好的效果。圖3-10為DICGAN不同步驟的視覺比對效果圖,結(jié)果顯示不同人臉的生成圖像逐步改善,最后一步生成高質(zhì)量和高保真的圖像。
圖16 DICGAN [18]方法不同步驟生成的效果圖
1.人臉識別領(lǐng)域未來的發(fā)展方向
當前,基于卷積神經(jīng)網(wǎng)絡(luò)模型的人臉識別技術(shù)在公安實戰(zhàn)中的人臉驗證、人臉辨別、人臉聚類等方向有著很好的應(yīng)用前景,但對于低質(zhì)量人臉圖像的識別率和準確率相對較低,給公安工作帶來一定程度的困擾。在實戰(zhàn)中動態(tài)應(yīng)用場景下,人臉識別技術(shù)由于場景的不可控因素,采集到的圖片質(zhì)量和CNN模型訓(xùn)練圖片的質(zhì)量有很大差異,如人臉偏轉(zhuǎn),大幅度側(cè)臉;運動模糊和離焦模糊;逃避偵查的刻意偽裝與遮擋,疫情防控下的口罩;低的光照強度和對比度;視頻傳輸由于封裝方式、有損壓縮和編解碼過程產(chǎn)生的人臉信息丟失;特殊人群和雙胞胎等,這些綜合因素都會導(dǎo)致目前現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)算法的準確率極度下降。針對這些實戰(zhàn)應(yīng)用中遇到的問題,人臉識別未來應(yīng)朝著綜合利用圖像增強技術(shù)和圖像生成技術(shù)的方向發(fā)展,如采用基于深度學(xué)習(xí)的框架對小尺寸模糊人臉進行超分辨率重建和基于注意力機制對人臉圖像進行去模糊處理等。
2.惡意代碼檢測技術(shù)研究方向
近年來,隨著深度學(xué)習(xí)方法不斷更新和發(fā)展,已代替?zhèn)鹘y(tǒng)方法成為惡意代碼識別的熱點研究方向,取得了較好的成就。通過惡意代碼收集獲取將其轉(zhuǎn)化為圖片格式的數(shù)據(jù)集和對其進行均衡化處理,通過現(xiàn)有成熟的卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建惡意代碼檢測模型,從中提取惡意特征并進行分類。經(jīng)過訓(xùn)練和測試后的惡意代碼識別模型,識別率和精準率較高,具有資源消耗低、操作簡單方便和自動化程度高等優(yōu)點。但是現(xiàn)有基于深度學(xué)習(xí)的檢測識別模型,還存在模型相對復(fù)雜、深層次特征提取能力偏弱、訓(xùn)練不穩(wěn)定、難度較高、模型泛化能力不足等問題,需要進一步探索和研究。
3.聲紋識別技術(shù)現(xiàn)在面臨的挑戰(zhàn)
卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),促進了聲紋識別技術(shù)的迅猛發(fā)展,較傳統(tǒng)的方法在識別率和準確率有較高的提升,但實際應(yīng)用中嘈雜的環(huán)境和各種復(fù)雜場景都對聲紋識別系統(tǒng)提出了巨大的挑戰(zhàn)。如短語音情況,待檢測語音所包含說話人的信息不均衡,有些聲紋特征收集不全和不準確,對聲紋識別的性能有著直接的影響,會導(dǎo)致檢材與樣本的匹配性嚴重下降;如噪音及混響因素[4],在實際的應(yīng)用中總是或多或少地摻雜著各種各樣的噪聲,在一定程度上不僅淹沒了語音信號中所蘊含的語音信息,還使得聲紋識別系統(tǒng)無法獲取語音準確的聲紋特征;如遠場景應(yīng)用,在媒質(zhì)中傳播的聲音受到摩擦力的作用會隨著傳輸距離而衰減和消失,隨著距離的增加和周圍復(fù)雜環(huán)境中的噪聲疊加,會導(dǎo)致語音的信噪比和聲紋識別的性能嚴重下降,視頻監(jiān)控中的語音尤為突出。如何能夠更廣泛地在公安實戰(zhàn)中應(yīng)用聲紋識別技術(shù),使其成為案件偵破的重要手段,解決好短語音、遠場應(yīng)用、噪音及混響等問題是未來的發(fā)展方向。
4.深度學(xué)習(xí)在圖像超分辨率重建中的發(fā)展趨勢
深度學(xué)習(xí)技術(shù)的快速發(fā)展,以及硬件設(shè)施和超大規(guī)模數(shù)據(jù)的不斷完善,為圖像超分辨率領(lǐng)域提供了非常好的發(fā)展機遇?,F(xiàn)有基于深度學(xué)習(xí)模型的圖像超分辨率重建算法的性能已經(jīng)取得了長足的進步,但還有很多改進空間。如何在放大任意比例時保證生成的高分辨率圖像質(zhì)量;如何構(gòu)建合理的評價機制,能夠有效評價圖像質(zhì)量;如何優(yōu)化模型結(jié)構(gòu),使其訓(xùn)練過程快速收斂,能夠避免深層網(wǎng)絡(luò)梯度爆炸/消失、模型崩潰等問題;如何滿足視頻偵查、無人機偵察、違禁物品檢測、刑偵分析、刑事圖像檢驗、人臉識別等公安應(yīng)用領(lǐng)域的精確性和適用性的需求,這將是接下來圖像超分辨率重建領(lǐng)域在警務(wù)工作中的重點研究方向。
5.人臉面貌預(yù)測在公安實戰(zhàn)中的應(yīng)用前景
人臉面部蘊含著豐富的視覺信息,在公安實戰(zhàn)中有著廣闊的應(yīng)用前景。基于深度學(xué)習(xí)的人臉老化技術(shù)可以預(yù)測一個人未來的樣子或他過去的樣子,經(jīng)常用于人臉識別、醫(yī)學(xué)、娛樂行業(yè)和電影特效制作中,未來在公安領(lǐng)域具有廣泛的實際應(yīng)用價值。除了在模擬失蹤、被拐賣人口的外觀、長期潛逃套嫌疑人面貌預(yù)測,提供有價值的可比對人臉信息外,還可以應(yīng)用到公安科普教育中,例如禁毒教育,通過還原吸毒者吸毒前的容貌,或者預(yù)測吸毒后的面容進行比對,直觀地展示毒品對人體造成的傷害,讓體驗者更加深刻地認識毒品的危害。還可以應(yīng)用于時間跨越較長案件的串并中,由于當時技術(shù)條件因素影響,在單個案件中,現(xiàn)場提取物證較少,線索缺失較多等情況致使無法將多起犯罪方法和方式相似的案件進行串并,人臉面貌預(yù)測可以作為補充手段,將不同案件中犯罪嫌疑人的人像進行前向預(yù)測和后向回溯,將生成后的不同案件中的人像進行相互匹配和比對,查驗出相似人員的身份信息及已連續(xù)作案信息,達到串并案件的目的。
深度學(xué)習(xí)的快速發(fā)展,以及硬件設(shè)施的不斷完善,為公檢法、智慧公安、平安城市、平安校園領(lǐng)域的公安實戰(zhàn)應(yīng)用注入新動力,提供新的技術(shù)手段,未來在警務(wù)工作中還有諸多的應(yīng)用領(lǐng)域可拓展。
目前,作為深度學(xué)習(xí)的代表算法之一,卷積神經(jīng)網(wǎng)絡(luò)在很多領(lǐng)域都取得了相當好的成就,在公安實戰(zhàn)中有諸多可擴展的領(lǐng)域。如刑事技術(shù)中足跡和指紋識別等領(lǐng)域,能夠解決公安工作中犯罪嫌疑人和警用數(shù)據(jù)庫中的快速比對,具有快速、高效、準確、便捷等特點。如人群異常行為檢測,對監(jiān)控視頻中行人的行為區(qū)分正常行為和異常行為,及時發(fā)現(xiàn)災(zāi)難和意外事件,可用于公安安防領(lǐng)域;如去霧、去噪、去模糊領(lǐng)域,能夠提升涉案圖像或視頻的質(zhì)量,增加細節(jié)和紋理信息,可以廣泛的應(yīng)用于公安工作中的圖像處理與檢驗中。
循環(huán)神經(jīng)網(wǎng)絡(luò)能夠有效的處理具有序列特性的數(shù)據(jù),模擬人腦記憶功能,挖掘數(shù)據(jù)中的時序信息以及語義信息,可應(yīng)用于公安工作中很多涉及自然語言處理的方面。如序列文本內(nèi)容分析,用來識別文章的主題進行網(wǎng)絡(luò)輿情的分析與趨勢預(yù)測,是未來信息安全領(lǐng)域的重點研究方向;序列文本比對,用來比較不同文檔的相關(guān)程度,可用于公安保密工作;時間序列預(yù)測,根據(jù)公安警務(wù)大數(shù)據(jù)建立犯罪預(yù)測模型,實現(xiàn)交通流預(yù)測、區(qū)域犯罪率預(yù)測、警情預(yù)測等,合理調(diào)配警力,提升工作效率。
目前,生成對抗網(wǎng)絡(luò)除了在面貌預(yù)測、計算機視覺等領(lǐng)域有不錯的應(yīng)用,對公安工作還有著廣泛的前景。如圖像翻譯、圖像修復(fù)、人像生成等領(lǐng)域,能夠解決公安工作中圖像模糊、關(guān)鍵人臉部分有遮擋,目擊人描述重塑嫌疑人面貌等亟待改善的問題。圖像翻譯可以根據(jù)輪廓圖像生成照片、根據(jù)一張圖像生成多模態(tài)圖片,可應(yīng)用于公安夜間偵查方面,使圖像中人車物具有更高辨識率;圖像修復(fù)以圖像缺失部分的周邊像素為條件生成完整的修復(fù)圖像,能有效移除嫌疑人人臉圖像中的遮擋物并用于人臉識別。GANs可以進行文本到圖像的轉(zhuǎn)換,根據(jù)目擊人對嫌疑人體貌特征的描述,進行關(guān)鍵字的識別,自動生成犯罪嫌疑人人像圖像。
未來警務(wù)工作必將向著更便捷、更安全、更高效、更精準的方向發(fā)展,深度學(xué)習(xí)技術(shù)在公安應(yīng)用中有著巨大的發(fā)展前景,會大大提升公安工作效率,給公安工作帶來新的技術(shù)變革。
本文在對深度學(xué)習(xí)進行廣泛研究的基礎(chǔ)上,對深度學(xué)習(xí)相關(guān)技術(shù)在公安實戰(zhàn)中的應(yīng)用前景進行了分析與研究,包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)模型三種深度學(xué)習(xí)常見模型的介紹,研究和探討了相關(guān)算法在公安實戰(zhàn)業(yè)務(wù)中的應(yīng)用前景,并提出相關(guān)領(lǐng)域存在的不足和進一步發(fā)展趨勢,闡述了不同模型未來可拓展的領(lǐng)域。
近年來,深度學(xué)習(xí)作為當前科技最前沿技術(shù)之一,在計算機視覺、自然語音處理、生物信息學(xué)、自動控制和網(wǎng)絡(luò)信息安全等領(lǐng)域中都取得了突破性進展,為智慧警務(wù)的建設(shè)和實現(xiàn)公安實戰(zhàn)應(yīng)用智能化、現(xiàn)代化和高效化提供了非常好的技術(shù)支撐。雖然現(xiàn)有的警務(wù)工作中有深度學(xué)習(xí)的身影,但覆蓋范圍并不廣,有著廣泛的可拓展領(lǐng)域,還有很多改進空間。如何解決計算量大、便攜性差的問題,深度學(xué)習(xí)需要對大量的數(shù)據(jù)進行計算,硬件設(shè)施要求教高,很多應(yīng)用還不適合在移動設(shè)備上使用;如何構(gòu)建和優(yōu)化深度網(wǎng)絡(luò)模型,深度學(xué)習(xí)的模型設(shè)計非常復(fù)雜,需要投入大量的人力物力和時間來開發(fā)和優(yōu)化特定的公安實戰(zhàn)應(yīng)用算法和模型;如何提升模型泛化能力,深度學(xué)習(xí)依賴訓(xùn)練數(shù)據(jù),并且可解釋性不高,極易陷入局部最優(yōu),并不能很好地預(yù)測未知的數(shù)據(jù)等,這將是深度學(xué)習(xí)在公安實戰(zhàn)應(yīng)用中未來重點研究的方向。