周 欣 張弛海
?
基于數(shù)據(jù)挖掘的海關(guān)風(fēng)險分類預(yù)測模型研究
周 欣 張弛海*
海關(guān)業(yè)務(wù)每日產(chǎn)生的海量記錄中蘊藏著數(shù)據(jù)“金礦”有待進(jìn)一步挖掘,為加強(qiáng)海關(guān)風(fēng)險識別的準(zhǔn)確性,讓大數(shù)據(jù)的價值進(jìn)一步得到顯現(xiàn),本文采用數(shù)據(jù)挖掘分類分析的方法,對歷史報關(guān)單數(shù)據(jù)進(jìn)行分析,根據(jù)其查獲情況,將有查獲與否作為分類標(biāo)號,建立分類模型對歷史報關(guān)單進(jìn)行分類,提取相關(guān)的規(guī)則,揭示數(shù)據(jù)中隱藏的規(guī)律并運用其規(guī)律進(jìn)行預(yù)測,為報關(guān)單的風(fēng)險評估預(yù)測提供參考。
數(shù)據(jù)挖掘;海關(guān)風(fēng)險管理;預(yù)測模型
目前,無紙化通關(guān)已覆蓋所有海關(guān),海關(guān)電子數(shù)據(jù)信息量呈現(xiàn)了爆炸式增長,數(shù)量巨大、來源分散、格式多樣的大數(shù)據(jù)對海關(guān)服務(wù)和監(jiān)管能力提出了新的挑戰(zhàn),也帶來了新的機(jī)遇。海關(guān)作為進(jìn)出境監(jiān)管機(jī)關(guān),大數(shù)據(jù)的運用將成為提高海關(guān)管理能力的重要手段。為積極落實一體化通關(guān)管理,深入貫徹海關(guān)全面深化改革方案,風(fēng)險防控中心和稅收征管中心建設(shè)需要依托進(jìn)出口大數(shù)據(jù)的批量聚集和監(jiān)控分析,進(jìn)而實現(xiàn)海關(guān)通關(guān)流程的前推后移和科學(xué)改造。*歐陽晨:《海關(guān)應(yīng)用大數(shù)據(jù)的實踐與思考》,《海關(guān)與經(jīng)貿(mào)研究》2016第3期。
大數(shù)據(jù)的運用包括“數(shù)據(jù)分析”和“數(shù)據(jù)挖掘”兩個層面,它們的目的都是發(fā)現(xiàn)數(shù)據(jù)的價值,但是過程和方法有所區(qū)別。傳統(tǒng)的“數(shù)據(jù)分析”一般分析目標(biāo)相對明確,主要運用統(tǒng)計的方法從數(shù)據(jù)得到一些信息,不涉及深層規(guī)律的探討?!皵?shù)據(jù)挖掘”是探查和分析大量數(shù)據(jù)以發(fā)現(xiàn)有意義的規(guī)則和模式的過程,是在沒有明確假設(shè)的前提下去挖掘信息發(fā)現(xiàn)知識,發(fā)現(xiàn)的是那些不能靠直覺和經(jīng)驗發(fā)現(xiàn)的規(guī)律,需要通過一定的方法和工具來進(jìn)行挖掘。
數(shù)據(jù)挖掘根據(jù)目標(biāo)不同可以分為預(yù)測型任務(wù)和描述性任務(wù)。預(yù)測性任務(wù)是根據(jù)其他屬性的值預(yù)測特定屬性的值,如回歸、分類、離群點檢測。描述型任務(wù)是尋找數(shù)據(jù)中有潛在聯(lián)系的模式,如聚類分析、關(guān)聯(lián)分析、序列模式挖掘。*蔣盛益:《商務(wù)數(shù)據(jù)挖掘與應(yīng)用案例分析》,電子工業(yè)出版社2014年版。目前已有研究者對海關(guān)數(shù)據(jù)挖掘進(jìn)行了探索,如喻宇應(yīng)用異常檢測的方法對重慶海關(guān)進(jìn)出口數(shù)據(jù)的風(fēng)險點進(jìn)行了探索,*喻宇:《重慶海關(guān)進(jìn)出口數(shù)據(jù)挖掘與分析》,重慶大學(xué)2008年碩士論文。周博等研究了數(shù)據(jù)挖掘技術(shù)在海關(guān)旅檢風(fēng)險分析系統(tǒng)當(dāng)中的應(yīng)用,*周博、潘欣、何忠林等:《數(shù)據(jù)挖掘技術(shù)在海關(guān)旅檢風(fēng)險分析系統(tǒng)當(dāng)中的應(yīng)用》,《上海海關(guān)學(xué)院學(xué)報》2008年第4期。周欣從知識管理的角度對海關(guān)數(shù)據(jù)挖掘和文本挖掘方法進(jìn)行了展望。*周欣:《知識管理在海關(guān)風(fēng)險識別中的應(yīng)用探索》,《海關(guān)與經(jīng)貿(mào)研究》2014年第4期。
本文采用數(shù)據(jù)挖掘分類(Classification)分析的方法,對歷史報關(guān)單數(shù)據(jù)進(jìn)行分析,根據(jù)其查獲情況,將有查獲與否作為分類標(biāo)號,建立分類模型對歷史報關(guān)單進(jìn)行分類,提取相關(guān)的規(guī)則,為現(xiàn)有報關(guān)單的風(fēng)險評估預(yù)測提供參考。
本文采用“跨行業(yè)數(shù)據(jù)挖掘過程標(biāo)準(zhǔn)”CRISP-DM(Cross-industry Standard Process for Data Mining)展開研究,CRISP-DM是標(biāo)準(zhǔn)的數(shù)據(jù)挖掘處理流程,將一個數(shù)據(jù)挖掘項目的生命周期分為六個階段,包括業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建模、評估和部署。
(1)業(yè)務(wù)理解。作為數(shù)據(jù)挖掘的第一階段,從業(yè)務(wù)的角度了解項目的需要和最終需求,同時將需求轉(zhuǎn)化為目標(biāo)并制定初步的實現(xiàn)計劃。
(2)數(shù)據(jù)理解。經(jīng)過數(shù)據(jù)收集,經(jīng)過特定的處理,使數(shù)據(jù)分析人員熟悉數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的質(zhì)量問題,理解數(shù)據(jù)的內(nèi)部屬性,提出關(guān)于數(shù)據(jù)所包含信息的相關(guān)假設(shè)。
(3)數(shù)據(jù)準(zhǔn)備。從源數(shù)據(jù)中構(gòu)造適合挖掘的數(shù)據(jù)集,便于將這些數(shù)據(jù)輸入模型。這些工作包括選擇表、記錄和屬性,同時轉(zhuǎn)換和清洗數(shù)據(jù)。
(4)建模。對已經(jīng)預(yù)處理的數(shù)據(jù)進(jìn)行分析,選擇和應(yīng)用不同的建模技術(shù),構(gòu)建模型,調(diào)整參數(shù)。
(5)評估。對模型結(jié)果進(jìn)行評估,回顧檢測挖掘探索過程,保證模型可以滿足業(yè)務(wù)需求。
(6)部署。根據(jù)業(yè)務(wù)需求,將數(shù)據(jù)挖掘結(jié)果制作分析報告,供決策人員參考。
在實際應(yīng)用中,上述六個步驟不是一次性執(zhí)行而是人機(jī)交互,反復(fù)迭代、不斷完善的過程,在不同階段之間來回反復(fù)以逐步完善,如圖1所示。
圖1 CRISP-DM流程圖
(一)業(yè)務(wù)理解
企業(yè)向海關(guān)進(jìn)行申報后,海關(guān)需要對這些報關(guān)單進(jìn)行風(fēng)險分析,從而決定是否進(jìn)行查驗。因此,需建立一個具有較高的預(yù)測準(zhǔn)確度的報關(guān)單分類預(yù)測模型,來進(jìn)行報關(guān)單風(fēng)險判斷。本文數(shù)據(jù)挖掘目標(biāo)是根據(jù)歷史報關(guān)單數(shù)據(jù)中發(fā)現(xiàn)有查獲的報關(guān)單的風(fēng)險特征和規(guī)律,這樣就可以利用這些特征和規(guī)律來判斷報關(guān)單的風(fēng)險程度,為今后海關(guān)報關(guān)單風(fēng)險評價提供參考。
為此,本文根據(jù)企業(yè)的查驗處理結(jié)果對數(shù)據(jù)進(jìn)行分類標(biāo)號,將表示查驗處理結(jié)果的字段設(shè)為目標(biāo)字段,其余字段作為訓(xùn)練模型的預(yù)測字段。
(二)數(shù)據(jù)理解
本文挖掘的數(shù)據(jù)為模擬進(jìn)口報關(guān)單數(shù)據(jù),分布在不同商品稅號、不同企業(yè)、不同監(jiān)管方式下,其中查驗處理結(jié)果為未查獲的報關(guān)單占82.73%,有查獲的報關(guān)單占總量的17.27%。
數(shù)據(jù)集12共含25個報關(guān)單數(shù)據(jù)字段,具體包括單證號碼、進(jìn)出口標(biāo)志、運輸方式代碼、經(jīng)營單位注冊關(guān)區(qū)、經(jīng)營單位注冊地區(qū)、經(jīng)營單位性質(zhì)、企業(yè)級別、監(jiān)管方式、件數(shù)、毛重、查驗處理結(jié)果(代碼)、商品編號、商品名稱、商品規(guī)格、產(chǎn)銷國、第一(法定)數(shù)量、商品單位、申報單價、成交幣制、成交總價、注冊資本(萬)、注冊資金幣制、行業(yè)種類、注冊日期、商品序號。
(三)數(shù)據(jù)準(zhǔn)備
查驗處理結(jié)果(代碼)中代碼種類過多,為簡化計算,根據(jù)該特征值生成新的標(biāo)志特征值,“查驗處理結(jié)果”為“02”的設(shè)置其“查驗結(jié)果標(biāo)志”為“0”,其余有查獲的設(shè)置其“查驗結(jié)果標(biāo)志”為“1”。原“商品代碼(HS編碼)”與“產(chǎn)銷國”特征值過多,不利于發(fā)現(xiàn)數(shù)據(jù)間的共性,且加大了挖掘的計算量。因此對其進(jìn)行截位,得到商品代碼第一和第二位(導(dǎo)出商品代碼12)及產(chǎn)銷大洲兩個新屬性。此外,為加快運算速度,“注冊資本”、“毛重”、“成交總價”進(jìn)行了連續(xù)變量離散化的區(qū)間分段處理。
在進(jìn)行數(shù)據(jù)過濾后得到16個輸出屬性,部分屬性的樣本分布如圖2所示,柱狀圖分為上下兩個部分,上部查驗結(jié)果標(biāo)記為“0”為無查獲報關(guān)單,下部位查驗結(jié)果標(biāo)記為“1”的有查獲報關(guān)單。從樣本圖形分布說明查驗結(jié)果標(biāo)記在各個特征中分布比較均勻,針對單個特征的分析可能很難獲得滿意結(jié)果,應(yīng)考慮使用更為全面、深入的模式識別算法進(jìn)行挖掘。
圖2 主要屬性的樣本分布圖
(四)建?!獩Q策樹模型
本次挖掘抽取70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%數(shù)據(jù)作為測試集,在挖掘方法上選用決策樹(Decision Tree)分類方法,決策樹分類利用樹形結(jié)構(gòu)來表示決策集合,這些決策集合通過對數(shù)據(jù)集的分類產(chǎn)生規(guī)則。該方法分類速度快,決策樹模型簡單直觀,易于理解,可以清晰顯示哪些字段比較重要,及可以生成容易理解的規(guī)則,因此決策樹分類以其特有的優(yōu)點已得到了廣泛的應(yīng)用。
本次挖掘選擇了軟件內(nèi)置的二元分類器進(jìn)行訓(xùn)練和評估。其中涉及到的決策樹算法有Quest和CHAID。
決策樹是一種樹形結(jié)構(gòu),一個典型的決策樹包括決策節(jié)點、分支和葉節(jié)點三個部分,如圖3所示。其中決策節(jié)點代表某個測試條件,通常對應(yīng)于待分類對象的某個屬性,在該屬性上的不同測試結(jié)果對應(yīng)一個分支。每個葉節(jié)點存放某個類標(biāo)號值,表示一種可能的分類結(jié)果。決策樹可以對未知樣本進(jìn)行分類,分類過程如下:從決策樹的根節(jié)點開始,從上往下沿某個分支往下搜索,直到葉節(jié)點,以葉節(jié)點的類標(biāo)號值作為該未知樣本所屬類標(biāo)號。在生成決策樹后,可以觀察樹的各級分支,找出目標(biāo)特征較為集中的葉節(jié)點,發(fā)現(xiàn)其中的規(guī)律。
圖3 CHAID決策樹局部
對樣本總體,有查獲的報關(guān)單占總量的17.27%(標(biāo)記為“1”),沒有查獲的報關(guān)單占82.73%(標(biāo)記為“0”)。圖3中幾個葉節(jié)點中標(biāo)記為“1”的報關(guān)單占比如圖4所示。
其中節(jié)點16的標(biāo)記為“1”的有查獲報關(guān)單比例達(dá)34.52%,顯著高于樣本數(shù)據(jù)17.27%的查獲率,說明該節(jié)點為高風(fēng)險節(jié)點,讀取決策樹分類規(guī)則得出:監(jiān)管方式為“0110、0845、1200、2700”,且運輸方式代碼為“2、6”,且產(chǎn)銷大洲為“2、7”的風(fēng)險比較高。
而節(jié)點29標(biāo)記為“1”的有查獲報關(guān)單比例為5.43%,顯著低于樣本比例,說明該節(jié)點為低風(fēng)險節(jié)點。其分類規(guī)則為:運輸方式代碼為“2、5、8、9、Y”且監(jiān)管方式為“0300、0444、0544、0700、0815、1741、2600、3100、5034、5335、9600、9900”的風(fēng)險比較低。
圖4 決策樹葉節(jié)點有查獲報關(guān)單比例(標(biāo)記為“1”)
類似的,如圖5所示,在節(jié)點0(根節(jié)點)標(biāo)記為“1”(即有查獲)的報關(guān)單為17.427%,而在節(jié)點3中,該節(jié)點下目標(biāo)特征為“1”的比例極大,說明符合該屬性的項風(fēng)險極大。
圖5 決策樹葉節(jié)點顯示高風(fēng)險區(qū)域
由此,決策樹模型生成規(guī)則集,用判定規(guī)則來表示決策節(jié)點。在圖6的規(guī)則集為:監(jiān)管方式為“0245”、“0258”、“4561”、“9639”的數(shù)據(jù)集將被分類標(biāo)注為“1”,是高風(fēng)險報關(guān)單,其余則為標(biāo)記為0,為低風(fēng)險報關(guān)單。決策樹生成的規(guī)則相比其他模型更容易理解,更具實踐意義。
圖6 決策樹生成的分類規(guī)則
同時,決策樹還可以對各輸入屬性對分類結(jié)果影響的重要性進(jìn)行排序,在本例中,對查驗結(jié)果影響最高的幾個屬性分別為“監(jiān)管方式”、“運輸方式代碼”、“企業(yè)類別”、“產(chǎn)銷大洲”“經(jīng)營單位性質(zhì)”、“注冊年限”,其重要性具體數(shù)值如圖7所示。
圖7 輸入屬性的重要性比較
(五)模型評估
(1)模型篩選
各模型進(jìn)行訓(xùn)練之后,就要利用測試集對各分類模型根據(jù)預(yù)測準(zhǔn)確度進(jìn)行分析評估,評估出預(yù)測準(zhǔn)確度最高的模型。根據(jù)以上各模型的輸出結(jié)果分布,以及二元分類器下的模型輸出分布,篩選出最大利潤較大、構(gòu)建時間較短的模型進(jìn)行下一步分析。如圖8所示,二元分類器共生成三個模型,其中Quest和CHAID的總體精確性較高,予以采用,而決策列表的準(zhǔn)確性相對較低,予以放棄。
圖8 二元分類器輸出
在數(shù)據(jù)挖掘的過程中,往往會用到多種算法,如C5.0、Quest和CHAID等決策樹分類算法、Logistic回歸、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)等,對于不同算法得出的預(yù)測結(jié)果,往往各有千秋,因此,可以采用集成學(xué)習(xí)法(EnsembleLearning),將多個學(xué)習(xí)方法聚集在一起來提高分類準(zhǔn)確率和模型的穩(wěn)定性。集成學(xué)習(xí)法由訓(xùn)練數(shù)據(jù)構(gòu)建一組基分類器,然后對每個基分類器的預(yù)測進(jìn)行投票來實現(xiàn)分類,然后在分類未知樣本時以投票策略繼承它們的預(yù)測結(jié)果,且通常一個繼承分類器的分類性能會好于單個分類器。本文通過整體節(jié)點來構(gòu)建繼承分類器,利用Quest和CHAID算法產(chǎn)生基分類器后,利用整體節(jié)點進(jìn)行集成。整體節(jié)點會根據(jù)各模型的置信度加權(quán)投票,對每一項預(yù)測確定最終的結(jié)果。
(2)預(yù)測結(jié)果評價
在采用集成分類后的測試集最終輸出結(jié)果如圖9和表1所示。其中,圖9中標(biāo)注為“0”的是測試集中實際沒有查獲的樣本,標(biāo)注“1”的是測試集中實際有查獲的樣本,分別占比“82.61”、“17.39”,而經(jīng)計算機(jī)分類預(yù)測得到有查獲的部分為左側(cè)部分。具體數(shù)值詳見表1測試集預(yù)測結(jié)果判錯矩陣,命中報關(guān)單211票,未命中的報關(guān)單為1359票,命中率為13.4%,查驗率為2.67%,查獲率為87.9%,盡管命中率相對較低,但以較低的查驗率獲得了較高的查獲率。
表1 測試集預(yù)測結(jié)果判錯矩陣
圖9 測試集預(yù)測結(jié)果
(3)誤分類成本參數(shù)敏感性分析
由于把高風(fēng)險申報歸入低風(fēng)險類,比把低風(fēng)險類申報歸入高風(fēng)險類的損失更大,因此可以通過調(diào)節(jié)決策樹的誤分類損失參數(shù),來指定不同類型預(yù)測錯誤之間的相對重要性,輸入自定義的損失值后,當(dāng)對決策樹進(jìn)行剪枝時,在計算誤分類損失的過程中,將把這些自定義損失值作為權(quán)重來影響誤分類損失的計算結(jié)果。
系統(tǒng)對誤分類損失默認(rèn)設(shè)置為1,將誤分類損失提高至2至5后,其查驗率和查獲率如圖10所示,可見調(diào)高誤分類損失參數(shù)將使得模型提高查驗率,但同時查獲率有所降低,但將誤分類損失提高至5以上時,查驗率大幅上升,查獲率明顯降低。因此,可以得出這樣的結(jié)論,通過調(diào)整誤分類損失參數(shù)可以調(diào)節(jié)目標(biāo)查驗率,并需要選擇合適的參數(shù)來實現(xiàn)投入最少資源獲得最大風(fēng)險甄別的目的。
圖10 不同誤分類成本下的查驗率與查獲率比較
盡管預(yù)測模型僅覆蓋了少部分風(fēng)險,但其低查驗率高查獲率的結(jié)果體現(xiàn)了預(yù)測模型總體性能值得肯定。結(jié)合不同領(lǐng)域不同地區(qū)的實際需要,將會對模型性能產(chǎn)生不同的需求,因此,可以在高風(fēng)險區(qū)域可運用較為嚴(yán)厲的模型,保證查獲的風(fēng)險數(shù)量;低風(fēng)險區(qū)域可運用查獲率較高的模型,兼顧效率?;蛘哂幂^粗略的模型先提示風(fēng)險程度,在選取風(fēng)險較高的項利用復(fù)雜模型進(jìn)一步判別,靈活運用不同的模型,發(fā)揮各模型的長處,回避其不足,將模型的效用最大化。
此次數(shù)據(jù)挖掘主要目標(biāo)是探索數(shù)據(jù)挖掘模型處理海關(guān)數(shù)據(jù)的可行性,驗證其是否能發(fā)現(xiàn)風(fēng)險中的規(guī)律。從結(jié)果來看,確實發(fā)現(xiàn)了一些規(guī)律。但生成的模型依然比較簡單,模型的預(yù)測性能還沒得到完全的發(fā)揮。如果加強(qiáng)數(shù)據(jù)預(yù)處理,針對海關(guān)風(fēng)險特點,按照不同商品、不同地區(qū)、不同貿(mào)易方式等對模型進(jìn)行相應(yīng)的優(yōu)化,相信能構(gòu)建出更加有效的模型,發(fā)揮出更大的風(fēng)險識別功能,有待今后進(jìn)一步研究探索。
(責(zé)任編輯 趙世璐)
Customs Risk Classification and Forecasting ModelBased on Data Mining
Zhou Xin,Zhang Chihai
The daily record of mass production of customs business contains the data “gold mine” to be further excavated. In order to strengthen the accuracy of customs risk identification and make full use of the value of big data, classification analysis of data mining is adopted to analyze the data of historical customs declaration. The records are tagged as hit or not hit according to its hit result. The classification model classifies the historical declarations, extracts the relevant rules, reveals the hidden rules in the data and uses the rules to predict. The result could be applied in the risk assessment and forecast of the declarations.
Data mining; Customs Risk Management; Forecasting Model
周欣,上海海關(guān)學(xué)院海關(guān)管理系講師、管理學(xué)博士;張弛海,上海海關(guān)風(fēng)險管理處。