国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

海關(guān)大數(shù)據(jù)分析教學研究

2023-05-30 10:48鄭鵬飛李菁菁
計算機應用文摘 2023年1期

鄭鵬飛 李菁菁

關(guān)鍵詞:海關(guān)大數(shù)據(jù);GTA;R語言教學

1引言

對貿(mào)易數(shù)據(jù)進行統(tǒng)計和分析,是我國海關(guān)的傳統(tǒng)重要職能之一。2021年,我國貨物進出口總額突破39萬億元,比上年增長21 .4%。其中,出口21.7萬億元,增長21.2%;進口17.4萬億元,增長21. 5%。進出口貿(mào)易規(guī)模飛速增長,對海關(guān)統(tǒng)計分析人員的數(shù)據(jù)處理能力提出了更高的要求。然而,依據(jù)我國的海關(guān)統(tǒng)計制度,海關(guān)貿(mào)易數(shù)據(jù)的采集依賴各海關(guān)日常業(yè)務中產(chǎn)生的海量報關(guān)單,匯總以后具有來源廣、字段多、跨度大、體量大等特征,原始數(shù)據(jù)經(jīng)常會到達數(shù)百萬行甚至上億行,面對如此規(guī)模的數(shù)據(jù),傳統(tǒng)的Excel,Tableau等辦公軟件基本很難使用或者無法使用,需要使用新的工具才能實現(xiàn)“快、廣、深”的目標[1]。

作為一種綜合分析、科學預測的技術(shù)手段,大數(shù)據(jù)技術(shù)為構(gòu)建統(tǒng)籌全局、系統(tǒng)集成、協(xié)同高效的海關(guān)數(shù)據(jù)分析體系提供了可能[2]。歐美發(fā)達國家海關(guān)的實踐已經(jīng)表明,大數(shù)據(jù)技術(shù)可以成為海關(guān)數(shù)據(jù)分析的“效率倍增器”。例如,美國海關(guān)開發(fā)的“全球自動布控系統(tǒng)”能夠迅速將旅客、艙單等信息與其他數(shù)據(jù)庫進行綜合比對,大幅提升了對“高風險旅客”的篩查效率。

鑒于此,《“十四五”海關(guān)發(fā)展規(guī)劃》將“科技興關(guān)動力強勁,創(chuàng)新應用能力大幅提升”作為主要目標之一,強調(diào)要“以大數(shù)據(jù)驅(qū)動風險防控、通關(guān)監(jiān)管、稅收征管、檢驗檢疫等海關(guān)主要業(yè)務運行,形成大數(shù)據(jù)智能應用生態(tài),提升大數(shù)據(jù)輔助治理能力?!?/p>

2統(tǒng)計軟件R語言特征

為使人才培養(yǎng)符合大數(shù)據(jù)處理的需求,目前很多高校都開設了諸多統(tǒng)計軟件課程[3],如Python,R,Stata,SAS,SPSS,MATLAB等。其中,R語言是一種功能強大、被諸多高校所青睞的課程,它具有以下幾個基本特征。

(1)R是開源軟件[4]。可以在它的網(wǎng)站及其鏡像中下載任何有關(guān)的安裝程序、源代碼、程序包及其源代碼、文檔資料。標準的安裝文件自身就帶有許多模塊和內(nèi)嵌統(tǒng)計函數(shù),安裝好后可以直接實現(xiàn)許多常用的統(tǒng)計功能。

(2)R是一種可編程的語言。作為一個開放的統(tǒng)計編程環(huán)境,語法通俗易懂,很容易學會和掌握語言的語法。而且學會之后,我們可以編制自己的函數(shù)來擴展現(xiàn)有的語言。這也就是為什么它的更新速度比一般統(tǒng)計軟件(如SPSS,SAS等)快得多。大多數(shù)最新的統(tǒng)計方法和技術(shù)都可以在R中直接得到。

(3)所有R的函數(shù)和數(shù)據(jù)集是保存在程序包里面的[5]。只有當一個包被載人時,它的內(nèi)容才可以被訪問。一些常用、基本的程序包已經(jīng)被收入標準安裝文件中,隨著新的統(tǒng)計分析方法的出現(xiàn),標準安裝文件中所包含的程序包也隨著版本的更新而不斷變化。在另外版安裝文件中,已經(jīng)包含的程序包有:base-R的基礎(chǔ)模塊、mle-極大似然估計模塊、ts-時間序列分析模塊、mva-多元統(tǒng)計分析模塊、survival-生存分析模塊等。

(4)R具有很強的互動性[6]。如圖1所示,除了圖形輸出是在另外的窗口處,它的輸入輸出窗口都是在同一個窗口進行的,輸入語法中如果出現(xiàn)錯誤會馬上在窗口中得到提示,對以前輸入過的命令有記憶功能,可以隨時再現(xiàn)、編輯修改,以滿足用戶的需要。輸出的圖形可以直接保存為JPG,BMP,PNG等圖片格式,還可以直接保存為PDF文件。另外,和其他編程語言與數(shù)據(jù)庫之間有很好的接口。

綜上所述.R語言是一門適合大數(shù)據(jù)分析的強大工具。然而,凡事都有其兩面性,與圖形界面豐富的傳統(tǒng)統(tǒng)計軟件相比,R語言具有一定的學習門檻,初學者往往需要輸入至少一萬行代碼才能入門[7],而且很多程序包的學習甚至比R語言本身還要復雜(如ggplot2軟件包)。

3教學難點

在當前的R語言類課程教學中,主要存在兩個難點。

(1)教學時長偏短。在大多數(shù)高校的人才培養(yǎng)方案中,R語言類課程的教學時長都是16周、32學時,教學內(nèi)容多聚焦于數(shù)據(jù)結(jié)構(gòu)、基本語法,難以使學生快速掌握大數(shù)據(jù)分析能力[8]。

(2)難以獲取數(shù)據(jù)來源。海關(guān)高度重視數(shù)據(jù)保密工作,海關(guān)采集并保有的很多數(shù)據(jù)都涉及國家機密。雖然海關(guān)統(tǒng)計部門也通過其數(shù)據(jù)公布平臺定期發(fā)布海關(guān)數(shù)據(jù)(如圖2所示),但其體量與“大數(shù)據(jù)”的特征存在較大的差距[9]。

除海關(guān)數(shù)據(jù)外,很多其他來源的大數(shù)據(jù)都涉及商業(yè)機密,既難以供學生在課堂上操作實踐,也可能與海關(guān)數(shù)據(jù)分析的主題相去甚遠。

4基于GTA數(shù)據(jù)的教學案例

GTA是全球關(guān)貿(mào)數(shù)據(jù)庫(Global Trade Atlas)的簡稱,它將全球200多個國家和地區(qū)海關(guān)所提供的進出口統(tǒng)計信息整合成一個全面的、雙邊的商品貿(mào)易數(shù)據(jù)庫,使全球貿(mào)易分析人員按需搜索并下載所需數(shù)據(jù)成為可能。該數(shù)據(jù)庫同時提供逐筆的貿(mào)易信息,數(shù)據(jù)來源廣、體量大、跨度久,是用來進行海關(guān)大數(shù)據(jù)分析教學的絕佳數(shù)據(jù)。

4.1分析目標

驗證“十三五”期間我國優(yōu)勢出口產(chǎn)業(yè)是否發(fā)生了明顯地向其他國家轉(zhuǎn)移。

4.2解決思路

第一階段:基于GTA數(shù)據(jù)庫,將我國2015年的全部出口報關(guān)單按6位數(shù)HS編碼進行分組并匯總金額,按倒序排列,取出前200位HS編碼(TOP 200商品)作為我國2015年優(yōu)勢產(chǎn)業(yè)代碼。

第二階段:計算2015年,全世界各個國家和地區(qū)的TOP 200商品出口金額,計算包括我國在內(nèi)的各個國家和地區(qū)這200種商品的出口份額(Share2015)。

第三階段:基于GTA數(shù)據(jù)庫,查找2019年全世界各個國家和地區(qū)TOP 200商品的出口金額,計算包括我國在內(nèi)的各個國家和地區(qū)這200種商品的出口份額(Share2019)。

也可以繪制成圖形,更清晰直觀地展示5年內(nèi)我國在TOP 200商品出口份額的變化情況,如圖3所示。

計算結(jié)果如表1所列(局部),不僅能得到在目標5年內(nèi)TOP 200商品中國的市場份額變化情況,還能得到該商品市場份額增加的前5名國家和減少的后5名國家(因篇幅限制,此處僅顯示前1和后1),即回答了“我們的份額是從誰那搶來的”或者“我們的份額被誰搶走了”的現(xiàn)實問題。

總體來看,在TOP 200商品中,我國出口份額增加的商品有95種,減少的有105種,基本保持穩(wěn)定,即2015~2019年間,我國并未發(fā)生明顯的產(chǎn)業(yè)鏈流失。

5結(jié)束語

在大數(shù)據(jù)人才培養(yǎng)過程中,統(tǒng)計軟件R語言等可編程開源軟件是較為普遍的選擇。然而,由于海關(guān)數(shù)據(jù)的特殊性和難以獲取性,貼近海關(guān)數(shù)據(jù)分析實際的實踐教學相對困難。本文以GTA數(shù)據(jù)為例,利用難度不高的代碼對海關(guān)統(tǒng)計分析領(lǐng)域的一個常見問題進行了較為清晰的解答,為海關(guān)大數(shù)據(jù)分析教學提供了新的思路。