程光明
[摘要]本文首次將數(shù)據(jù)挖掘技術(shù)引入進境集裝箱風險評估中,沿著“理論研究——數(shù)據(jù)概念模型——風險評估模型——軟件化”來探討進境集裝箱風險評估系統(tǒng)的建立。本文旨在通過對大量已有的檢疫數(shù)據(jù)進行探索和分析,揭示入境集裝箱風險的影響因素,并進一步將其模型化,以便計算機能夠迅速對入境集裝箱的風險進行預判,從而達到幫助檢疫工作人員“有的放矢”的檢查、布控。使口岸檢疫業(yè)務(wù)部門對進境集裝箱風險做到“心中有數(shù)”。
[關(guān)鍵詞]數(shù)據(jù)挖掘 風險評估 集裝箱
一、引言
隨著我國對外貿(mào)易的快速發(fā)展,進境箱量顯著增長?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長趨勢。僅2010年度,共受理進境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬箱,比去年同期提高了28.20%。進境檢出疫情箱數(shù)占查驗箱數(shù)的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進境集裝箱檢疫面臨形勢十分嚴峻。
目前,在進境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗式方法,效率比較低,工作量繁重,經(jīng)驗知識傳承性差。但是在多年來的實踐過程中,我們已經(jīng)積累了大量的經(jīng)驗和數(shù)據(jù)。通過數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識可以為入境集裝箱風險進行評估,并為檢疫業(yè)務(wù)決策提供輔助支持。
二、數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數(shù)據(jù)挖掘其實是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應用于生物醫(yī)學、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應用的模式和知識來指導檢疫業(yè)務(wù)。
數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個重要分支。從根本上說,數(shù)據(jù)分類就是通過對源數(shù)據(jù)的特點進行歸納和描述。要進行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應用最多,具有非常高的使用價值。
三、數(shù)據(jù)概念模型
根據(jù)從進境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問題——7類問題,對應每一類問題需要建立一個可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運人;④貨運方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對應各類問題集裝箱的風險數(shù)據(jù)字典;
(2)CIQ數(shù)據(jù)庫中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過與場站、貨運公司的比對才能獲得。同時,要對數(shù)據(jù)進行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。
四、風險評估模型
對進境集裝箱進行風險評估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風險評估模型關(guān)系到風險評估系統(tǒng)研究的成敗,主要研究內(nèi)容如下:
(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實際選擇合適的算法進行數(shù)據(jù)挖掘,并在實踐中對模型進行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進行逐類數(shù)據(jù)挖掘、建模。
五、典型系統(tǒng)應用開發(fā)
基于上述的研究成果,設(shè)計實現(xiàn)一個基于數(shù)據(jù)挖掘技術(shù)的進境集裝箱風險評估管理系統(tǒng),重點關(guān)注下面系統(tǒng),如圖1所示:
(1)面向檢疫查驗人員設(shè)計并實現(xiàn)一個基于Web技術(shù)的軟件系統(tǒng),通過此軟件,檢疫管理人員可以將已有風險評估模型軟件化,系統(tǒng)接收進境集裝箱特征數(shù)據(jù),自動對風險進行預評估。同時,將用于風險評估的數(shù)據(jù)獨立于CIQ數(shù)據(jù)庫存在,為以后進一步完善風險評估模型提供數(shù)據(jù)庫支持。
(2)面向檢疫查驗人員設(shè)計并實現(xiàn)一個軟件終端,考慮到檢疫查驗一線人員工作環(huán)境分散、移動的特點,重點面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機、PDA、iPOD等)展開研發(fā)。
圖 基于數(shù)據(jù)挖掘技術(shù)的風險評估系統(tǒng)
六、結(jié)論
針對出入境檢驗檢疫部門在對進境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數(shù)據(jù)挖掘技術(shù)的進境集裝箱風險評估模型,并將其軟件化、實用化,通過軟件自動對進境集裝箱進行風險等級評估,指導日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關(guān)成效。
參考文獻:
[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應用.安徽:安徽大學碩士論文.2010
[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評估系統(tǒng)的研究與開發(fā).武漢:武漢理工大學碩士論文.2002
[3]任爾偉,牟青杰,孫學文著.數(shù)據(jù)挖掘技術(shù)在海關(guān)查驗和價格瞞翩輔助決策中的應用,上海海關(guān)高等??茖W校學報,2002年第3期
[4]朱偉軍.數(shù)據(jù)倉庫在海關(guān)統(tǒng)計中的實踐與應用,知識經(jīng)濟,2009年10期