滕灝,高亞東,劉存,毛柯
摘? 要: 目前海關(guān)常用的十位商品海關(guān)編碼是一種比較粗放的編碼方式,在報(bào)關(guān)單中商品海關(guān)編碼很難和具體商品實(shí)現(xiàn)一一對(duì)應(yīng)的關(guān)系,亟待構(gòu)建一套標(biāo)準(zhǔn)的商品智能分類工具,為海關(guān)管理提供基準(zhǔn)的商品分析依據(jù)。文章基于海關(guān)報(bào)關(guān)單申報(bào)商品名稱規(guī)格型號(hào),利用機(jī)器學(xué)習(xí)等先進(jìn)技術(shù)手段,實(shí)現(xiàn)將海關(guān)商品的最小分析單元從HS編碼細(xì)化至具體品牌型號(hào),形成商品基礎(chǔ)庫,實(shí)現(xiàn)商品智能分類,為貿(mào)易監(jiān)管、稅收征管、稽查緝私等業(yè)務(wù)提供強(qiáng)大支撐。
關(guān)鍵詞: 海關(guān)編碼; 報(bào)關(guān)單; 機(jī)器學(xué)習(xí); 商品基礎(chǔ)庫
中圖分類號(hào):TP311? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2022)01-42-04
A novel design method of building tool for customs brand model library
Teng Hao, Gao Yadong, Liu Cun, Mao Ke
(Division of Science, Hangzhou Customs, Hangzhou, Zhejiang 310006, China)
Abstract: At present, 10 bit commodity HS code is a rough coding method commonly used by Customs. Unfortunately it is difficult to achieve a one-to-one correspondence between the commodity HS code in the customs declaration and the specific commodity, which lead to urgently build a set of standard intelligent commodity classification system to provide the basis of commodity analysis for customs management. According to the customs declaration of commodity name, specification, model, using advanced technology such as machine learning, this paper refines the minimum analysis unit of customs commodity from HS code to specific brand and model, forming a basic commodity library, realizing intelligent classification of commodities, which provide strong support for supervising trade, tax collection and management, anti-smuggling and other businesses.
Key words: HS code; customs declaration; machine learning; basic commodity library
0 引言
近年來全球大數(shù)據(jù)[1]技術(shù)呈現(xiàn)快速發(fā)展趨勢(shì),大數(shù)據(jù)技術(shù)在數(shù)據(jù)分析[2]、流程優(yōu)化[3]、風(fēng)險(xiǎn)防控[4]及監(jiān)測(cè)預(yù)警[5]等方面展現(xiàn)出巨大威力,大數(shù)據(jù)已成為各國家政府的多種國家戰(zhàn)略交叉域。各國海關(guān)在大數(shù)據(jù)應(yīng)用方面紛紛加大投入,如新西蘭海關(guān)實(shí)施大數(shù)據(jù)戰(zhàn)略,聯(lián)合內(nèi)外部專家利用多機(jī)構(gòu)的數(shù)據(jù)開發(fā)目標(biāo)模型,更好地預(yù)測(cè)威脅,監(jiān)測(cè)趨勢(shì)并確定高風(fēng)險(xiǎn)目標(biāo);英國海關(guān)借助第三方數(shù)據(jù)廠商拓展數(shù)據(jù)來源及數(shù)據(jù)多樣化類型,保證數(shù)據(jù)準(zhǔn)確性,通過數(shù)據(jù)對(duì)碰及時(shí)發(fā)現(xiàn)監(jiān)管風(fēng)險(xiǎn)。2018年,我國海關(guān)總署設(shè)立了全國海關(guān)大數(shù)據(jù)應(yīng)用中心,搭建了互相聯(lián)通、統(tǒng)一管理的大數(shù)據(jù)基礎(chǔ)平臺(tái),在支持全國通關(guān)一體化[6]、打擊走私[7]、應(yīng)對(duì)中美貿(mào)易摩擦[8]、捍衛(wèi)國門安全[9]等領(lǐng)域做了有益的嘗試并取得一定成效。但在商品領(lǐng)域,缺少有效的分類基礎(chǔ)數(shù)據(jù)及構(gòu)建工具,如何構(gòu)建精細(xì)的商品分類方式來為精準(zhǔn)分析提供支撐,成為海關(guān)大數(shù)據(jù)分析領(lǐng)域的一個(gè)重要課題。
1 商品分類痛點(diǎn)
海關(guān)通關(guān)業(yè)務(wù)中,各企業(yè)、各代辦機(jī)構(gòu)的報(bào)關(guān)員出于便利、個(gè)人習(xí)慣或?qū)ι唐返牟煌J(rèn)識(shí),填寫報(bào)關(guān)單時(shí),對(duì)商品的描述往往不規(guī)范,導(dǎo)致不同的商品描述代表了同一種商品;同時(shí),海關(guān)常用的稅號(hào)通用的是10位HS編碼[10],這是一種比較粗放的編碼方式,一種商品編碼在報(bào)關(guān)單中很難精準(zhǔn)定位到一種商品。因此亟待構(gòu)建一個(gè)標(biāo)準(zhǔn)的商品要素屬性庫體系為業(yè)務(wù)工作提供基準(zhǔn)的商品分析依據(jù)。
SKU來源于電商平臺(tái)的最小庫存單元理念,即庫存進(jìn)出計(jì)量的基本單元,現(xiàn)在已經(jīng)被引申為產(chǎn)品統(tǒng)一編號(hào)的簡(jiǎn)稱,每種產(chǎn)品均對(duì)應(yīng)有唯一的存貨單元號(hào)。本文中的品牌型號(hào)庫構(gòu)建工具就是構(gòu)建SKU級(jí)的商品分類編碼,能精準(zhǔn)定位到具體某類商品,實(shí)現(xiàn)商品的屬性管理、屬性值管理、SKU管理等功能。
2 系統(tǒng)建設(shè)目標(biāo)
商品庫構(gòu)建工具對(duì)報(bào)關(guān)單中的商品信息進(jìn)行分析,根據(jù)商品報(bào)關(guān)要素進(jìn)行分類整理,最終形成基于SKU級(jí)別的商品庫,為其他數(shù)據(jù)分析系統(tǒng)提供數(shù)據(jù)支持。
系統(tǒng)為海關(guān)商品數(shù)據(jù)分析、歸類提供技術(shù)支持,具體有以下幾個(gè)層次:
一是報(bào)關(guān)的數(shù)據(jù)采集與清洗,采集對(duì)象是報(bào)關(guān)產(chǎn)生的大量非結(jié)構(gòu)、不確定、高冗余的商品記錄數(shù)據(jù),對(duì)其做初步的清洗和規(guī)整化,抽取報(bào)關(guān)單中商品相關(guān)的重點(diǎn)申報(bào)信息;二是商品要素提取,參照海關(guān)報(bào)關(guān)要素提取商品屬性,針對(duì)屬性提取該商品的屬性值;三是商品SKU管理,通過對(duì)商品屬性和屬性值的梳理,逐步形成海關(guān)申報(bào)商品的SKU編碼規(guī)則,實(shí)現(xiàn)比已有的HS編碼更精細(xì)化的分類管理方式。
3 系統(tǒng)設(shè)計(jì)
3.1 總體架構(gòu)
系統(tǒng)對(duì)報(bào)關(guān)單數(shù)據(jù)進(jìn)行快速有效的歸類整理,按照分析人員要求,將報(bào)關(guān)數(shù)據(jù)中的共性的商品特征信息按一定的分類標(biāo)準(zhǔn)歸類入庫,進(jìn)行提取分析,形成SKU級(jí)商品要素屬性庫,供其他分析系統(tǒng)做進(jìn)一步的數(shù)據(jù)分析。系統(tǒng)體系結(jié)構(gòu)如圖1所示。
3.2 功能設(shè)計(jì)
系統(tǒng)應(yīng)用架構(gòu)分為四個(gè)層次,基礎(chǔ)層、服務(wù)層、應(yīng)用層和展現(xiàn)層,系統(tǒng)應(yīng)用架構(gòu)如圖2所示。
3.2.1 數(shù)據(jù)采集與處理
采集對(duì)象是報(bào)關(guān)產(chǎn)生大量非結(jié)構(gòu)、不確定、高冗余的商品記錄數(shù)據(jù)。這些數(shù)據(jù)存在大量不完整、不一致、有異常的情況,嚴(yán)重影響到商品庫要素挖掘的執(zhí)行效率,甚至可能導(dǎo)致挖掘結(jié)果的偏差。所以進(jìn)行數(shù)據(jù)清洗就顯得尤為重要。
通過ETL工具抽取數(shù)據(jù)源為Max Compute、Oracle或SQL Server的系統(tǒng)數(shù)據(jù),支持?jǐn)?shù)據(jù)的全量和增量采集,支持對(duì)數(shù)據(jù)同步過程進(jìn)行監(jiān)控,可通過瀏覽相關(guān)日志,了解數(shù)據(jù)同步過程的詳細(xì)信息,并支持對(duì)數(shù)據(jù)同步執(zhí)行過程進(jìn)行干預(yù)和調(diào)整。
數(shù)據(jù)采集后,預(yù)先對(duì)其清洗,刪除原始數(shù)據(jù)集中的無關(guān)數(shù)據(jù)、重復(fù)數(shù)據(jù),平滑噪聲數(shù)據(jù),處理缺失值、異常值。利用優(yōu)化剪枝以及高性能算法對(duì)其進(jìn)行屬性提取、關(guān)系挖掘、比較融合等處理。
3.2.2 商品分類管理
由于商品數(shù)量龐大,商品種類成千上萬,為方便管理,需要我們將商品分門別類,同一類別是管理范圍內(nèi)的商品集合總體,它既可以是某一類稅號(hào),又可以是擁有相同屬性的某一商品類別。系統(tǒng)提供靈活的商品分類自定義功能,根據(jù)需要對(duì)分類進(jìn)行更新、刪除等,通過查詢分類列表,可掌握該分類商品數(shù)據(jù)挖掘情況。系統(tǒng)按類別定向采集數(shù)據(jù),針對(duì)同一類別下的商品實(shí)現(xiàn)對(duì)商品屬性和屬性值的統(tǒng)一管理。
3.2.3 商品屬性管理
依據(jù)海關(guān)現(xiàn)有商品綜合分類清單,梳理商品屬性,商品屬性由商品自有的特性抽象而來,是商品本身存在的不可缺少的性質(zhì)。系統(tǒng)針對(duì)商品屬性進(jìn)行統(tǒng)一管理,具體功能包括:商品屬性定義、商品屬性維護(hù)。
屬性定義是對(duì)同一商品分類下的商品自有特征進(jìn)行提煉。針對(duì)一類商品,系統(tǒng)完成初步的清洗和規(guī)整化,抽取報(bào)關(guān)單中商品相關(guān)的重點(diǎn)申報(bào)信息,形成待分析商品清單。
屬性維護(hù)便于用戶查看該商品分類下的屬性信息。用戶根據(jù)需求,參照待分析商品清單,對(duì)屬性進(jìn)行增加、修改和刪除。為方便屬性定義和維護(hù),將其分為全局屬性和局部屬性。
3.2.4 商品屬性值管理
按照定義的屬性,對(duì)報(bào)關(guān)單中商品相關(guān)信息進(jìn)行全面分析,將屬性值全部提取出來,形成該屬性的值域。某一商品分類下的同一屬性的屬性值數(shù)量龐大,系統(tǒng)針對(duì)商品屬性值進(jìn)行統(tǒng)一管理。
屬性值提取來自于報(bào)關(guān)單中商品相關(guān)信息,前面提到的待分析商品清單為屬性值提取提供數(shù)據(jù)基礎(chǔ),用戶查看待分析商品清單。同時(shí)支持對(duì)屬性值的批量導(dǎo)入,直接納入屬性值清單。對(duì)于已納入的屬性值,系統(tǒng)采用基于語義的機(jī)器學(xué)習(xí)分詞方法與細(xì)胞詞庫相結(jié)合的方式,結(jié)合過濾去重規(guī)則,更新待分析商品清單。
智能推薦基于主動(dòng)學(xué)習(xí)和模式識(shí)別的方法,利用商品屬性及圖關(guān)系,結(jié)合語義特征對(duì)有效的商品屬性值進(jìn)行推薦。系統(tǒng)根據(jù)選中的屬性值內(nèi)容,自動(dòng)在商品信息中匹配篩選,對(duì)同義詞或相似度高的值進(jìn)行提示。
屬性值維護(hù)記錄已提取的商品屬性值,形成屬性值清單,便于用戶查看該商品屬性下的屬性值信息。為了方便提取,當(dāng)某一屬性值被選中時(shí),系統(tǒng)將通過語義分析,給出其相關(guān)屬性值推薦。用戶可根據(jù)實(shí)際需求對(duì)屬性值清單進(jìn)行修改和刪除。
屬性值定位提供搜索框,支持屬性值模糊搜索功能,除顯示屬性值作為搜素結(jié)果外,選中的記錄將在待分析商品清單中定位,便于用戶對(duì)屬性值相關(guān)信息的查看和分析。
基礎(chǔ)信息更新支持報(bào)關(guān)單商品基礎(chǔ)信息的增量更新。新增數(shù)據(jù)將按照已定義的商品屬性進(jìn)行歸類整理、分類。對(duì)于無法分類的數(shù)據(jù),將其納入待分析商品清單,便于用戶通過機(jī)器學(xué)習(xí)及專家經(jīng)驗(yàn)等方式進(jìn)行商品屬性值提取。
3.2.5 商品信息查詢
對(duì)已完成商品屬性值提取的商品集,建立以商品分類為根節(jié)點(diǎn)的商品展示樹。提供關(guān)鍵字搜索功能,根據(jù)輸入的內(nèi)容定位所在商品樹位置,便于相關(guān)屬性和屬性值的查看;同時(shí),系統(tǒng)自動(dòng)提取該分類下的商品屬性作為篩選條件,查詢符合篩選條件的商品信息。
3.2.6 商品SKU管理
通過對(duì)商品屬性和屬性值的梳理,逐步形成海關(guān)申報(bào)商品的SKU編碼規(guī)則,提供比已有的HS編碼更精細(xì)化的分類管理方式——SKU管理。
SKU定義結(jié)合定義的屬性和提取的屬性值,系統(tǒng)自動(dòng)對(duì)特定稅號(hào)的商品進(jìn)一步抽取、提煉、歸類分析,并給每個(gè)類別賦予一串唯一編碼。每一個(gè)SKU編碼作為識(shí)別一類商品的唯一標(biāo)識(shí),實(shí)現(xiàn)對(duì)申報(bào)商品從HS層面細(xì)分到SKU層面的精細(xì)化管理。
SKU更新將獲取最新數(shù)據(jù)并按一定規(guī)則動(dòng)態(tài)地更新SKU。SKU不斷地更新完善,形成符合最新業(yè)界商品現(xiàn)狀的海關(guān)SKU級(jí)的智能商品庫。
3.3 部署架構(gòu)
系統(tǒng)采用高可用架構(gòu)部署,通過虛擬化及鏈路負(fù)載均衡提高系統(tǒng)的可用性,具體架構(gòu)圖如圖3所示。
4 應(yīng)用展望
通過該系統(tǒng)的運(yùn)用,可以將商品最小分析單元從HS編碼細(xì)化到具體品牌型號(hào),利用專家經(jīng)驗(yàn)機(jī)器輔助構(gòu)建的方式,夯實(shí)海關(guān)商品數(shù)據(jù)基礎(chǔ),為商品價(jià)格分布分析、消費(fèi)指數(shù)分析、違法案件精準(zhǔn)打擊等應(yīng)用提供支撐,通過大數(shù)據(jù)的運(yùn)用提升海關(guān)的監(jiān)管力度和服務(wù)水平。同時(shí)可以利用本系統(tǒng)的相關(guān)技術(shù),服務(wù)于跨境電商的監(jiān)管,如地址解析等,從而實(shí)現(xiàn)海關(guān)高效監(jiān)管,促進(jìn)企業(yè)發(fā)展。
參考文獻(xiàn)(References):
[1] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014(9):1889-1908
[2] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19
[3] 王云鵬,李善興,王占中,等.基于Petri網(wǎng)的汽車制造業(yè)生產(chǎn)物流流程優(yōu)化[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2008,38(S1):61-64
[4] 仲育,辛帥.金融行業(yè)應(yīng)用云計(jì)算和大數(shù)據(jù)安全風(fēng)險(xiǎn)防范策略[J].現(xiàn)代金融,2017,4(410):49-51
[5] 吳炳方,張淼,曾紅偉,等.大數(shù)據(jù)時(shí)代的農(nóng)情監(jiān)測(cè)與預(yù)警[J].遙感學(xué)報(bào),2016(20):1027-1037
[6] 張健.數(shù)據(jù)化驅(qū)動(dòng)的海關(guān)通關(guān)一體化改革[D].廈門大學(xué),2018
[7] 陳志鋒.AS海關(guān)網(wǎng)上緝私研究[D].電子科技大學(xué)碩士學(xué)位論文,2016
[8] 李強(qiáng),覃春面,董耀武.中美貿(mào)易摩擦視角下的股,匯市風(fēng)險(xiǎn)溢出研究[J].武漢金融,2019,238(10):5-11
[9] 徐強(qiáng).試論大數(shù)據(jù)標(biāo)簽化在進(jìn)出口企業(yè)畫像中的運(yùn)用[J].中國口岸科學(xué)技術(shù),2020,460(11):34-39
[10] 張紫玄,王昊,朱立平,等.中國海關(guān)HS編碼風(fēng)險(xiǎn)的識(shí)別研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019