金瑾 劉偉 王正剛 巫家敏 李波
摘 ?要:為了適應(yīng)當(dāng)前新的外貿(mào)形勢,海關(guān)監(jiān)管部門需要不斷強化風(fēng)險防控管理。本文通過調(diào)研分析當(dāng)前海關(guān)風(fēng)險防控中的重難點問題,借助最新的大數(shù)據(jù)和人工智能技術(shù),改進風(fēng)險防控管理流程,本文提出通過將海關(guān)報關(guān)單數(shù)據(jù)進行二維化表示,用現(xiàn)有的深度學(xué)習(xí)架構(gòu)進行訓(xùn)練,從而得出風(fēng)險評估結(jié)果。這種方法相比于傳統(tǒng)的人工方法能夠有效提高通關(guān)時效。實驗驗證了這種方法在風(fēng)險防控中的有效性。本文提出的方法也可以被通用于多字段表格數(shù)據(jù)的處理問題。
關(guān)鍵詞:大數(shù)據(jù);人工智能;風(fēng)險防控;提質(zhì)增效
中圖分類號:TP183 ? ? 文獻標(biāo)識碼:A
Research on Intelligent Risk Control in the Customs
JIN Jin1, LIU Wei2, WANG Zhenggang2, WU Jiamin2, LI Bo2
(1.Chengdu Neusoft University, Chengdu 611844, China;
2.Chengdu Customs of the People's Republic of China, Chengdu 610041, China)
jinjin@nsu.edu.cn; 45711577@qq.com; wangzgxs@outlook.com;
WuJiamin@nsu.edu.cn; li-bo@nsu.edu.cn
Abstract: In view of new development of foreign trade, the Customs have to strengthen the risk control. This paper uses the latest big data and artificial intelligence technology to improve the risk control management process, through analyzing the key issues within current Customs. This paper proposes a framework to assess risks by deep learning algorithms with two-dimensionally presented Customs declaration data. Compared with traditional manual methods, this method effectively improves the time-efficiency of Customs clearance. The proposed approach can be applied to processing multi-field table data and is verified to be effective.
Keywords: big data; artificial intelligence; risk control; improvement of quality and efficiency
1 ? 引言(Introduction)
海關(guān)查驗是海關(guān)管理部門維護國門安全和依法征稅,打擊走私的重要環(huán)節(jié),是保障進出口貿(mào)易安全不可或缺的手段[1]。一方面由于進出口貨物貿(mào)易的數(shù)量龐大,種類繁多,海關(guān)監(jiān)管部門不可能做到面面俱到,而且覆蓋所有商品的風(fēng)險狀況對關(guān)員也是一個巨大的挑戰(zhàn)。另一方面隨著國際貿(mào)易的飛速發(fā)展,進出口貨物貿(mào)易的海量查驗任務(wù)和海關(guān)人力資源不足的矛盾凸顯[2]。
當(dāng)下,大數(shù)據(jù)技術(shù)的飛速發(fā)展最終將引領(lǐng)人類社會邁進智能型社會的新形態(tài)。海關(guān)風(fēng)險防控已經(jīng)開始由傳統(tǒng)人工分析向風(fēng)險模型評估分析和智能化分析方式轉(zhuǎn)變[3]。我們設(shè)計的風(fēng)險判別模式有別于傳統(tǒng)風(fēng)險判別模式,需要借助CNN對歷史單證進行參數(shù)學(xué)習(xí),形成對輸入模型的單證進行風(fēng)險判別,最后提交給風(fēng)險布控人員進行具體操作,實現(xiàn)計算機輔助風(fēng)險布控作業(yè)模式。
2 ?成都海關(guān)風(fēng)險防控面臨的挑戰(zhàn)(Challenges faced by Chengdu Customs in risk control)
2.1 ? 智能化風(fēng)險分析探索不夠
目前海關(guān)風(fēng)險防控管理流程為人為地提取近期全國海關(guān)風(fēng)險信息數(shù)據(jù),結(jié)合基貨物歷史報關(guān)單和艙單數(shù)據(jù)來進行風(fēng)險評估分析,一方面,在整個流程中數(shù)據(jù)共享存在一些壁壘,沒有完全實現(xiàn)各類單證數(shù)據(jù)的共用共享,風(fēng)險分析人員很難從宏觀角度全面把握貨物貿(mào)易的整體風(fēng)險[4]。另一方面,過分依賴人工分析判斷容易產(chǎn)生以下三個方面的問題:一是人與人之間存在思維、判斷等方面的差異,在風(fēng)險分析和判別的過程中,不可避免的摻雜人為因素,無法做到統(tǒng)一標(biāo)準(zhǔn)實施風(fēng)險管理和布控;二是需要從事風(fēng)險判別的關(guān)員具備豐富的風(fēng)險分析經(jīng)驗,以保證風(fēng)險分析和布控的準(zhǔn)確度,才能確保一定水平的查獲率;三是人工判別效率不高,難以滿足海量貨物通關(guān)的需要,各級政府要求貨物通關(guān)提速和違法商品輸入風(fēng)險增加的矛盾很難通過現(xiàn)有風(fēng)險分析判別流程加以解決[5]。
2.2 ? 外貿(mào)交易新態(tài)勢導(dǎo)致風(fēng)險防控的難度增大
有效地全供應(yīng)鏈風(fēng)險識別、預(yù)警系統(tǒng),能夠準(zhǔn)確判斷貿(mào)易中面臨的風(fēng)險,可以幫助海關(guān)有效監(jiān)管,對風(fēng)險做出正確預(yù)測、識別、判斷風(fēng)險級別,以制定相應(yīng)的策略,避免損失的發(fā)生,將風(fēng)險損失降低到最低。目前,國內(nèi)外關(guān)于供應(yīng)鏈風(fēng)險的研究已經(jīng)取得一定的成果,一些定量研究也運用到了供應(yīng)鏈之中,然而供應(yīng)鏈風(fēng)險識別、預(yù)警問題方面的研究方法單一,定性研究居多,定量研究不足,研究過程中存在大量的人為主觀因素。
2.3 ? 數(shù)據(jù)分析的時效性和可視化程度不高
現(xiàn)階段,開展風(fēng)險防控分析工作使用的數(shù)據(jù)來源較為單一、相關(guān)數(shù)據(jù)和信息相對缺乏、數(shù)據(jù)挖掘和展示工具還需加強。風(fēng)險管理和分析工作仍然沒有擺脫人工調(diào)取所需數(shù)據(jù)、簡單圖表描述趨勢的傳統(tǒng)模式,離大數(shù)據(jù)時代的智能化分析目標(biāo)存在一定差距。在當(dāng)前經(jīng)濟全球化趨勢和國際市場瞬息萬變的形勢下,實時和準(zhǔn)確的大數(shù)據(jù)分析有利于更快地發(fā)現(xiàn)問題并迅速作出響應(yīng),提高對進出口市場和商品分析的時效性顯得尤為必要。
3 ?智慧風(fēng)控平臺的主要功能設(shè)計(Basic functionality of an intelligent risk management platform)
智能化風(fēng)險防控流程,需要測試不同算法流程在報關(guān)數(shù)據(jù)風(fēng)險值判別方面的優(yōu)劣,本文設(shè)計的表格數(shù)據(jù)風(fēng)險值自動判別流程能夠完成海關(guān)報關(guān)數(shù)據(jù)風(fēng)險自動識別。本節(jié)介紹的模型致力于將人工風(fēng)險判別流程智能化,實現(xiàn)海關(guān)報關(guān)數(shù)據(jù)風(fēng)險智能化判定。風(fēng)險防控智慧分析平臺(以下稱智慧分析平臺)具備提升風(fēng)險防控智慧分析的能力。首先需要利用自然語言處理(Word Embedding)算法將來自各種渠道的情況通報信息進行初步收集和加工,建立描述性信息的文本特征向量數(shù)據(jù)庫,利用無監(jiān)督聚類算法對數(shù)據(jù)庫中具有參考價值的特征向量進行記錄和聚類分析,得出情況通報中代表不同國別、產(chǎn)地、數(shù)量等重要文字和數(shù)字信息的類別簇,分析有價值的敏感高頻風(fēng)險信息并賦予不同的權(quán)重值,作為神經(jīng)網(wǎng)絡(luò)模型的輸入信息對后續(xù)報關(guān)單分類產(chǎn)生作用。然后通過搭建使用的神經(jīng)網(wǎng)絡(luò)模型對歷史報關(guān)單數(shù)據(jù)和貨物查驗結(jié)果進行多批次訓(xùn)練,最終達(dá)到能自動識別報關(guān)單、艙單等單證風(fēng)險的等級,并按照特定的模板輸出貨物的分析報告,最后由分析人員對其進行更高層級的風(fēng)險判斷,得出某一時間段、某種商品的風(fēng)險指數(shù),形成一種新的海關(guān)智慧風(fēng)險防控流程。在節(jié)省大量人力成本的同時,提高貨物貿(mào)易風(fēng)險甄別的準(zhǔn)確性,提升口岸現(xiàn)場高危商品的查獲率。
3.1 ? 報關(guān)單數(shù)據(jù)風(fēng)險值標(biāo)注
我們的數(shù)據(jù)集包含三種進口商品近五年13078條數(shù)據(jù),實驗過程采用隨機抽取10000條數(shù)據(jù)作為訓(xùn)練集,另外3078條數(shù)據(jù)作為驗證集。參與風(fēng)險值標(biāo)注的人員均由經(jīng)驗豐富的一線關(guān)員擔(dān)任,關(guān)員根據(jù)各方面通報信息為每一條報關(guān)單數(shù)據(jù)賦予一定的風(fēng)險等級數(shù)據(jù)作為每條數(shù)據(jù)的標(biāo)簽。風(fēng)險等級分為10個等級,從低到高分別為1—10。
3.2 ? 報關(guān)單數(shù)據(jù)清洗和二維化
近年來,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、識別、分割等領(lǐng)域的應(yīng)用已經(jīng)相當(dāng)成熟,涌現(xiàn)出如Resnet[6]、U-net[7]等優(yōu)秀的網(wǎng)絡(luò)結(jié)構(gòu)。圖像主要分為灰度圖像和色彩圖像,灰度圖像就是二維矩陣,每個像素點的值的范圍在0—255,彩色圖像可以由RGB、HSV方式分解為三個不同的像素矩陣。
原始報關(guān)單數(shù)據(jù)包含申報日期、運輸方式、貿(mào)易國別、提運單號等71個字段信息,其中包含數(shù)字,漢字英文字母。必須設(shè)置數(shù)據(jù)字典將數(shù)據(jù)轉(zhuǎn)化為CNN能夠識別的編碼。有字符串、浮點、時間類型的數(shù)據(jù)對于時間格式的數(shù)據(jù)提取相關(guān)年份,浮點類型數(shù)據(jù)中有小數(shù)的列進行四舍五入,如果有缺失值則全填充0。
具體編碼方式為:
根據(jù)列名遍歷每一列,判斷每列數(shù)據(jù)類型:
(1)如果是str類型,直接去重,按索引編號。
(2)如果是float或者int類型數(shù)據(jù),當(dāng)這一列中存在某一個值大于255,則對這一列數(shù)去重,再按照索引進行編碼,否則不處理。
編碼過程中,報關(guān)單數(shù)據(jù)有上萬條,有超過圖像像素0—255的情況,此時我們采用RGB三通道編碼,三通道編碼存在256×256×256=16777216種不同的情況,可以基本滿足數(shù)據(jù)集編碼要求。
每條數(shù)據(jù)的自動編碼完成后,執(zhí)行數(shù)據(jù)轉(zhuǎn)置,實現(xiàn)每條數(shù)據(jù)的二維化,相當(dāng)于將一個向量轉(zhuǎn)置為一個矩陣。這樣所有的一維數(shù)據(jù)轉(zhuǎn)換成為二維圖像數(shù)據(jù)。
3.3 ? 轉(zhuǎn)置數(shù)據(jù)輸入網(wǎng)絡(luò)完成參數(shù)訓(xùn)練
為實現(xiàn)較好的報關(guān)單數(shù)據(jù)智能化風(fēng)險識別,我們采用近年來在圖像分類中成熟運用的幾種網(wǎng)絡(luò)結(jié)構(gòu)進行實現(xiàn)對比,分別是殘差網(wǎng)絡(luò)(Resnet)、U網(wǎng)絡(luò)(U-Net)、Incentive-V3[8]三種網(wǎng)絡(luò)結(jié)構(gòu)。實驗的環(huán)境為Python,實驗的參數(shù)為Tensorflow默認(rèn)參數(shù)。實驗通過對比選用最適合報關(guān)單數(shù)據(jù)智能化風(fēng)險識別的結(jié)構(gòu)作為智慧平臺報關(guān)單數(shù)據(jù)風(fēng)險分析的神經(jīng)網(wǎng)絡(luò)模型。
(1)Resnet
殘差網(wǎng)絡(luò)是由一系列殘差塊組成的。一個殘差塊可以用表示為:
(1)
殘差塊分成兩部分直接映射部分和殘差部分,其中是直接映射;是殘差部分,一般由兩個或者三個卷積操作構(gòu)成。
在卷積網(wǎng)絡(luò)中,可能和的特征圖的數(shù)量不一樣,這時候就需要使用1×1卷積進行升維或者降維。
(2)U-net
U-net是2015年提出的,U-net將輸入進行2次3×3的卷積操作之后,進行一次2×2的最大池化,同時卷積核數(shù)目翻倍(1-64-128-256-512-1024),進行四次這樣的下降操作,然后2次3×3卷積,取一半的卷積核進行上采樣(轉(zhuǎn)置卷積),再剪切對應(yīng)下降層的特征圖像,和上采樣得到的特征圖像拼接在一起,然后重復(fù)這樣的過程。最后輸出是深度為n個特征圖像,進行分類。
U-Net這個網(wǎng)絡(luò)可以應(yīng)對小樣本的數(shù)據(jù)集進行較快、有效地分割,能夠泛化到很多應(yīng)用場景中去。
(3)Inception_V3
這里對整個Inception-V3結(jié)構(gòu)體系結(jié)構(gòu)做如下介紹:從輸入端開始,先有三個卷積層,然后是一個池化層。然后又是兩個卷積層,一個池化層。緊接著用不同數(shù)量的卷積層進行并行卷積,每一套卷積層之間均用連接層(紫色)進行連接,為了防止網(wǎng)絡(luò)過擬合,網(wǎng)絡(luò)的后端還添加了丟包層(淺藍(lán)色)。
3.4 ? 實驗結(jié)果對比
我們設(shè)置不同的超參數(shù)對比各個CNN結(jié)構(gòu)在報關(guān)數(shù)據(jù)集上的分類識別效果和網(wǎng)絡(luò)訓(xùn)練時間。三種結(jié)構(gòu)均選用相同的32個卷積層,在不同輪次(2000,5000,10000)下的Top1及Top5正確率對比分別記錄在表1、表2和表3中。
由表1的結(jié)果可知,在訓(xùn)練輪次為2000時,正確率最高的網(wǎng)絡(luò)模型為Inception-V3,但是該模型訓(xùn)練的時長比Resnet和U-net較長。同樣表2和表3的結(jié)果與表1相近,隨著訓(xùn)練輪次的增加,三種模型的準(zhǔn)確率均有較明顯的提升,但是訓(xùn)練時長也相應(yīng)地增加。但是相對于純?nèi)斯さ牟轵?,這個時間是在可以接受的范圍內(nèi)的。而海關(guān)查驗對準(zhǔn)確率要求相對較高。
通過多輪實驗對比和對實際問題的考慮,智慧平臺選用Inception-V3結(jié)構(gòu)作為報關(guān)單數(shù)據(jù)智能化風(fēng)險識別的驗證結(jié)構(gòu)。將訓(xùn)練好的參數(shù)應(yīng)用到識別過程,將輸入報關(guān)單進行報關(guān)單數(shù)據(jù)編碼和二維化以后,輸入網(wǎng)絡(luò),得出當(dāng)前報關(guān)單數(shù)據(jù)的風(fēng)險值,為口岸現(xiàn)場關(guān)員提供某一票貨物的直觀參考,省去大量人工分析過程,提升海關(guān)口岸查貨率。
4 ? 結(jié)論(Conclusion)
面對新形勢、新要求,海關(guān)風(fēng)險防控應(yīng)積極應(yīng)對大數(shù)據(jù)帶來的各種新挑戰(zhàn),充分發(fā)揮海關(guān)風(fēng)險防控應(yīng)用大數(shù)據(jù)的社會價值。本文探索了一種智能化的風(fēng)險防控方法,該方法將海關(guān)的報關(guān)單數(shù)據(jù)通過數(shù)據(jù)轉(zhuǎn)換,變?yōu)槎S數(shù)據(jù)。從而可以將二維數(shù)據(jù)應(yīng)用于現(xiàn)階段較為成熟的CNN結(jié)構(gòu),CNN強大的分類處理能力為風(fēng)險防控提供支撐。初步的實驗表明,Inception-V3結(jié)構(gòu)作為報關(guān)單數(shù)據(jù)智能化風(fēng)險識別的驗證結(jié)構(gòu)是一種較好的選擇,驗證了本文所提方法對于風(fēng)險防控的
有效性。本文的方法也為多字段表格類數(shù)據(jù)的處理提供了一種較為新穎的選擇。
參考文獻(References)
[1] 劉奇超,彭城.京津冀海關(guān)區(qū)域通關(guān)一體化取向:由歐盟海關(guān)風(fēng)險管理觀察[J].改革,2014(010):92-101.
[2] 魏毅斐.對我國海關(guān)風(fēng)險管理機制的思考[J].河南商業(yè)高等??茖W(xué)校學(xué)報,2013(03):26-28.
[3] 李新民,徐倩,陶黎,等.國外海關(guān)風(fēng)險管理的經(jīng)驗及對我國海關(guān)的啟示[J].上海海關(guān)學(xué)院學(xué)報,2013(4):56-62.
[4] 丁煥苗.試論海關(guān)管理風(fēng)險的防控[J].海關(guān)與經(jīng)貿(mào)研究,2014,035(005):59-65.
[5] 盧金秋.人工神經(jīng)網(wǎng)絡(luò)在海關(guān)風(fēng)險管理中的應(yīng)用研究[J].計算機工程與應(yīng)用,2006(27):212-215.
[6] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 770-778.
[7] Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015: 234-241.
[8] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 2818-2826.
作者簡介:
金 ?瑾(1988-),女,碩士,講師.研究領(lǐng)域:人工智能,大數(shù)據(jù).
劉 ?偉(1969-),女,本科,工程師.研究領(lǐng)域:人工智能,信息系統(tǒng).
王正剛(1982-),男,碩士,工程師.研究領(lǐng)域:人工智能,信息系統(tǒng).
巫家敏(1976-),男,博士,教授.研究領(lǐng)域:人工智能,大數(shù)據(jù).
李 ?波(1981-),男,博士,副教授.研究領(lǐng)域:人工智能,大數(shù)據(jù).