国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)結(jié)構(gòu)編碼的國民經(jīng)濟(jì)行業(yè)分類在輿情監(jiān)測項(xiàng)目中的應(yīng)用

2019-12-26 02:53萬音澤
天津科技 2019年12期
關(guān)鍵詞:匹配

萬音澤

(1.南開大學(xué)金融學(xué)院 天津 300050;2.南開大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300350)

在金融工程的輿情監(jiān)測與分析中,部分項(xiàng)目需要采用“爬蟲”技術(shù)智能監(jiān)測網(wǎng)頁內(nèi)容,進(jìn)行數(shù)據(jù)挖掘、存儲、讀取、機(jī)器學(xué)習(xí)等,存儲及讀取數(shù)據(jù)時需要對大量數(shù)據(jù)進(jìn)行分類與編碼,進(jìn)而進(jìn)行分類存儲、數(shù)據(jù)分析等。GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》提供了幾乎所有經(jīng)濟(jì)活動的分類與編碼,極大方便了項(xiàng)目所需的分類編碼與信息交換。

1 國民經(jīng)濟(jì)行業(yè)分類編碼現(xiàn)狀

1.1 國民經(jīng)濟(jì)行業(yè)分類國家標(biāo)準(zhǔn)

GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》由國家質(zhì)檢總局、國家標(biāo)準(zhǔn)委于2017年6月30日發(fā)布,于2017年10月1日起正式實(shí)施。本標(biāo)準(zhǔn)主要參考聯(lián)合國《所有經(jīng)濟(jì)活動的國際標(biāo)準(zhǔn)產(chǎn)業(yè)分類》(ISIC Rev.4)。根據(jù)我國《國民經(jīng)濟(jì)行業(yè)分類》標(biāo)準(zhǔn)的歷次版本頒布、修訂歷史,自 1984年開始,每經(jīng)歷 8~10年進(jìn)行一次修訂,2017年修訂后的行業(yè)分類共有20個門類、97個大類、473個中類、1 380個小類。本標(biāo)準(zhǔn)的歷次版本依時間次序發(fā)布情況為:GB/T 4754—1984、GB/T 4754—1994、GB/T 4754—2002、GB/T 4754—2011、GB/T 4754—2017。

1.2 國民經(jīng)濟(jì)行業(yè)分類編碼方法和結(jié)構(gòu)

根據(jù)本標(biāo)準(zhǔn)使用說明,本標(biāo)準(zhǔn)采用分類和分層編碼方法,將國民經(jīng)濟(jì)行業(yè)劃分為門類、大類、中類和小類 4級。代碼由 1位拉丁字母和 4位阿拉伯?dāng)?shù)字組成。門類代碼用一位拉丁字母表示,即用字母 A、B、C……依次代表不同門類;大類代碼用2位阿拉伯?dāng)?shù)字表示,打破門類界限,從 01開始按順序編碼;中類代碼用3位阿拉伯?dāng)?shù)字表示,前2位為大類代碼,第3位為中類順序代碼;小類代碼用4位阿拉伯?dāng)?shù)字表示,前 3位為中類代碼,第 4位為小類順序代碼,代碼結(jié)構(gòu)圖見圖1。

圖1 國民經(jīng)濟(jì)行業(yè)分類編碼結(jié)構(gòu)圖Fig.1 Structure of classification and coding of national economic industries

2 基于整數(shù)數(shù)字順序編碼

2.1 經(jīng)濟(jì)活動的數(shù)字編碼

根據(jù)GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》,以金融業(yè)分類編碼為例,采用J表示金融業(yè)的行業(yè)分類,大類、種類、小類的編碼見表1。

從圖1、表1中的編碼方法及編碼數(shù)據(jù)可見,國標(biāo)中的編碼采用整數(shù)數(shù)字順序編碼方式,最終的整數(shù)落在第4層級的小類代碼,大類代碼可以采用在后面補(bǔ)齊2位0形成整數(shù)編碼,例如表1中貨幣金融服務(wù)經(jīng)濟(jì)活動的編碼可編寫為 6600,依此類推,資本市場服務(wù)經(jīng)濟(jì)活動的編碼為 6670,非貨幣銀行服務(wù)經(jīng)濟(jì)活動的編碼為 6630,這樣就在小類代碼列形成了全部為整數(shù)由小到大排列的順序編碼。

表1 金融業(yè)國民經(jīng)濟(jì)分類編碼表Tab.1 Classification and coding table of financial industry

2.2 經(jīng)濟(jì)活動的分類擴(kuò)充

在當(dāng)今信息化、智能化社會,新的經(jīng)濟(jì)活動不斷涌現(xiàn),部分新經(jīng)濟(jì)活動擴(kuò)展較快,例如在GB/T 4754—2017的修訂文件中增補(bǔ)了以下幾項(xiàng)金融行業(yè)服務(wù)分類:汽車金融公司服務(wù)、小額貸款公司服務(wù)、消費(fèi)金融公司服務(wù)、網(wǎng)絡(luò)借貸服務(wù),這幾項(xiàng)服務(wù)近幾年迅速在國內(nèi)的非貨幣銀行服務(wù)中占據(jù)比較重要的位置,業(yè)務(wù)額比例上升較快,非貨幣銀行服務(wù)的編碼也相應(yīng)從6633增編至6637。本標(biāo)準(zhǔn)還增加了中類編碼664,增加了小類編碼 6640,將銀行理財服務(wù)增補(bǔ)入分類標(biāo)準(zhǔn),同時將銀行監(jiān)管服務(wù)調(diào)增至中類 665,小類6650。上述微調(diào)變化見表2。

擴(kuò)充后的分類編碼,局部仍然存在需要即時增補(bǔ)的小類,例如P2P服務(wù)、校園貸、民間借貸服務(wù)等,這類經(jīng)濟(jì)活動在某段時間成為熱點(diǎn),進(jìn)行金融工程的輿情分析時候,需要在數(shù)據(jù)庫中及時擴(kuò)充。

2.3 編碼修訂帶來的問題

表2與表1對比主要有 3種變化:增加中類代碼;增加小類代碼;增加活動內(nèi)容、屬性。按照整數(shù)數(shù)字順序編碼方式理解和使用國民經(jīng)濟(jì)行業(yè)分類標(biāo)準(zhǔn),以上3種變化會帶來以下應(yīng)用問題:

表2 金融業(yè)國民經(jīng)濟(jì)分類編碼表Tab.1 National economy classification and coding table of financial industry

①編碼數(shù)值變化。上述變化中,中類數(shù)字編碼664所對應(yīng)的經(jīng)濟(jì)活動發(fā)生了“移位”變化,新修訂的標(biāo)準(zhǔn)已經(jīng)由664改為665。在輿情監(jiān)測項(xiàng)目中以代碼664作為索引數(shù)值將難以進(jìn)行存儲、讀取。

②編碼數(shù)量擴(kuò)展。分類編碼標(biāo)準(zhǔn)的修訂周期較長,難以滿足某些變化較快的行業(yè)分類要求,例如在“非貨幣銀行服務(wù)”中擴(kuò)充 P2P服務(wù)、校園貸、民間借貸服務(wù)等小類時,當(dāng)按照整數(shù)數(shù)字 663X順序編碼,出現(xiàn)整數(shù)位不足問題,表2中編碼至 6638后無法繼續(xù)進(jìn)行整數(shù)順序編碼。

③編碼層級擴(kuò)展。分類編碼中一般采用“其他XX”經(jīng)濟(jì)活動來補(bǔ)充經(jīng)濟(jì)活動的完整性。但在實(shí)際使用過程中,例如在一些“輿情監(jiān)測”“推薦系統(tǒng)”等金融工程項(xiàng)目中,當(dāng)需要對某些熱點(diǎn)經(jīng)濟(jì)活動單獨(dú)劃分時,需要進(jìn)行層級擴(kuò)張,即在小類代碼 6639所代表的“其他非貨幣銀行服務(wù)”經(jīng)濟(jì)活動中,增加劃分種類,例如可將 P2P服務(wù)、校園貸、民間借貸服務(wù)等劃入此類,進(jìn)行屬性分類儲存、讀取。

3 基于數(shù)據(jù)結(jié)構(gòu)編碼

3.1 以XML文件實(shí)現(xiàn)分類編碼樹狀結(jié)構(gòu)

擴(kuò)展標(biāo)記語言(eXtended Marked Language,XML)是一種能進(jìn)行自我描述的協(xié)議語言,是由W3C組織制定的一系列技術(shù)“推薦規(guī)范”,其特點(diǎn)是可擴(kuò)展性和平臺獨(dú)立性。XML文檔是AscII碼,可以被大多數(shù)應(yīng)用程序處理,一般情況下,操作系統(tǒng)和數(shù)據(jù)庫系統(tǒng)都支持XML文檔進(jìn)行信息傳遞。

以表2為例,國民經(jīng)濟(jì)分類編碼具有樹狀結(jié)構(gòu)特征,即國民經(jīng)濟(jì)分類編碼整體為“樹”,門類為一級主干,大類、中類依次分別為二、三級分支,小類為葉。各類代碼所代表的國民經(jīng)濟(jì)活動具有唯一性,按照同一劃分邏輯進(jìn)行劃分,一般以“其他”來表示所有余下的國民經(jīng)濟(jì)活動,實(shí)現(xiàn)完整劃分。

本文按照門類、大類、中類、小類順序?qū)窠?jīng)濟(jì)活動分類進(jìn)行結(jié)構(gòu)化處理,形成樹狀結(jié)構(gòu),再串行化為 XML流。將標(biāo)準(zhǔn)中的分類代碼,作為一個屬性數(shù)值,存儲到XML流文件對應(yīng)位置。

3.2 以XML文件存儲項(xiàng)目數(shù)據(jù)

圖2為采用 C++語言結(jié)構(gòu)體編制的節(jié)點(diǎn)元素數(shù)據(jù)結(jié)構(gòu)示意圖,節(jié)點(diǎn)元素的主要關(guān)聯(lián)對象有:父節(jié)點(diǎn)元素、上一節(jié)點(diǎn)元素、下一節(jié)點(diǎn)元素、節(jié)點(diǎn)元素名稱、節(jié)點(diǎn)元素編碼。

采用C++語言以結(jié)構(gòu)體形式定義節(jié)點(diǎn)元素對象、子節(jié)點(diǎn)元素鏈表等。圖2中時間序列數(shù)值節(jié)點(diǎn)元素鏈表為一種擴(kuò)充數(shù)據(jù),示例可以在定義節(jié)點(diǎn)元素的數(shù)據(jù)結(jié)構(gòu)時增加屬性字段或者增加鏈表結(jié)構(gòu)等擴(kuò)展編碼數(shù)據(jù)庫,延伸編碼數(shù)據(jù)庫的適用范圍。

圖2 節(jié)點(diǎn)元素數(shù)據(jù)結(jié)構(gòu)示意圖Fig.2 Data structure diagram of node elements

①節(jié)點(diǎn)元素對象

struct Node

{

string name;//元素標(biāo)記名稱

string numStr;//元素節(jié)點(diǎn)編碼

Node* parent;//父節(jié)點(diǎn)元素

list<Node> children;//下層節(jié)點(diǎn)鏈表

list<TimeNode>timeList;//時間節(jié)點(diǎn)鏈表

};

② 時間序列數(shù)值節(jié)點(diǎn)元素鏈表

struct TimeNode

{

DateTime timeStamp;//時間序列元素節(jié)點(diǎn)

intnum;//時間序列對應(yīng)的頻次數(shù)值

};

3.3 以XML文件存儲項(xiàng)目數(shù)據(jù)

圖3為采用 C++語言結(jié)構(gòu)體編制的“非貨幣銀行服務(wù)”經(jīng)濟(jì)活動的節(jié)點(diǎn)元素示意圖,節(jié)點(diǎn)元素的關(guān)聯(lián)對象有:父節(jié)點(diǎn)元素——貨幣金融服務(wù);上一節(jié)點(diǎn)元素——貨幣銀行服務(wù);下一節(jié)點(diǎn)元素——銀行理財服務(wù)等。其中,經(jīng)濟(jì)活動的名稱作為節(jié)點(diǎn)元素名稱字段表示,經(jīng)濟(jì)活動的編碼對節(jié)點(diǎn)元素不起任何控制或約束作用,只作為節(jié)點(diǎn)的一個屬性字段“節(jié)點(diǎn)元素編碼”進(jìn)行存儲。

圖3 非貨幣銀行服務(wù)節(jié)點(diǎn)元素示意圖Fig.3 Elemental schematic diagram of non-monetary banking service nodes

經(jīng)濟(jì)活動的節(jié)點(diǎn)元素可以包含任意數(shù)量的子節(jié)點(diǎn)元素,采用 C++語言中的鏈表數(shù)據(jù)結(jié)構(gòu)存儲,以NULL作為結(jié)束標(biāo)志,具有可擴(kuò)展性能。子節(jié)點(diǎn)元素的C++語言定義見3.2節(jié),其中子節(jié)點(diǎn)元素鏈表任一節(jié)點(diǎn)元素與父節(jié)點(diǎn)元素具有相同的數(shù)據(jù)結(jié)構(gòu)。

4 基于數(shù)據(jù)結(jié)構(gòu)編碼的分類方法運(yùn)用舉例

以某金融工程項(xiàng)目“輿情監(jiān)測”系統(tǒng)為例,在該項(xiàng)目中,需要對常見各大網(wǎng)站進(jìn)行關(guān)鍵詞匹配,進(jìn)而進(jìn)行出現(xiàn)次數(shù)統(tǒng)計,計算出現(xiàn)頻率的變化。

4.1 根據(jù)編碼標(biāo)準(zhǔn)形成編碼XML文件

該項(xiàng)目中首先將 GB/T 4754—2011《國民經(jīng)濟(jì)行業(yè)分類》存入CSV格式文件,CSV文件易讀且修改方便。通過 C++程序讀取文件,按照 3.1、3.2節(jié)之方法形成XML文件。讀入CSV文件時,按照行順序依次進(jìn)行,并按照固定列確定行業(yè)分類,再依照后續(xù)列確定大類、中類、小類或擴(kuò)展類。

4.2 適應(yīng)編碼數(shù)值的更新

當(dāng) GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》出現(xiàn)修訂時,只需要將經(jīng)濟(jì)活動編碼的 CSV文件整體進(jìn)行更新。例如2.3節(jié)所述中類數(shù)字編碼664所對應(yīng)的經(jīng)濟(jì)活動改為665后,采用數(shù)據(jù)結(jié)構(gòu)編碼方式形成XML數(shù)據(jù)庫,XML數(shù)據(jù)庫以經(jīng)濟(jì)活動的名稱為辨別屬性,編碼只作為附屬字段,因此編碼數(shù)值變化不影響 XML數(shù)據(jù)庫的更新,從而為維護(hù)XML數(shù)據(jù)庫帶來了便利。

4.3 實(shí)現(xiàn)編碼數(shù)量擴(kuò)展

以某金融工程項(xiàng)目“輿情監(jiān)測”系統(tǒng)為例,在該項(xiàng)目中,需要對 2.3節(jié)所述“非貨幣銀行服務(wù)”中擴(kuò)充 P2P服務(wù)、校園貸、民間借貸服務(wù)等小類時,當(dāng)按照整數(shù)數(shù)字順序編碼時表2中編碼至6638后無法繼續(xù)進(jìn)行整數(shù)順序編碼。按照數(shù)據(jù)結(jié)構(gòu)形式編碼,以C++程序讀取CSV編碼文件時,會忽略數(shù)值編碼,只按照經(jīng)濟(jì)活動所在的行和列以及所在的上一級分類關(guān)系實(shí)現(xiàn)對XML樹的重構(gòu)。

4.4 實(shí)現(xiàn)編碼層級擴(kuò)展

編碼標(biāo)準(zhǔn)將經(jīng)濟(jì)活動的層級劃分為4級,當(dāng)根據(jù)項(xiàng)目需要,將編碼層級擴(kuò)展為5級、6級時,原整數(shù)順序編碼方式不再適用。按照本文的數(shù)據(jù)結(jié)構(gòu)編碼方式,保持原經(jīng)濟(jì)活動編碼的 CSV文件的整體結(jié)構(gòu)不變,只需將要增加層級的位置的經(jīng)濟(jì)活動向后一列移動,C++程序會按照列的先后順序自動劃分層級,形成更多層級的樹狀結(jié)構(gòu)。因此,按照數(shù)據(jù)結(jié)構(gòu)編碼方式可以方便地實(shí)現(xiàn)編碼層級的擴(kuò)展。

例如對 2.3節(jié)所述的“輿情監(jiān)測”“推薦系統(tǒng)”等金融工程項(xiàng)目中,在小類代碼 6639所代表的“其他非貨幣銀行服務(wù)”經(jīng)濟(jì)活動中,在編碼的 6639列后增加一列編碼(編碼數(shù)值只作為屬性標(biāo)記),同時將劃入此類的經(jīng)濟(jì)活動 P2P服務(wù)、校園貸、民間借貸向后一列移動,C++程序讀取CSV編碼文件時,將按照其所在列的位置方便地實(shí)現(xiàn)編碼層級的擴(kuò)展,實(shí)現(xiàn)對XML樹的重構(gòu)。

5 結(jié) 語

① GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》規(guī)定了全社會經(jīng)濟(jì)活動的分類與代碼,代碼編制方法為基于整數(shù)數(shù)字順序編碼方式。這種編碼方式已經(jīng)難以適應(yīng)編碼數(shù)值變化、編碼數(shù)量擴(kuò)展、編碼層級擴(kuò)展變化。

②基于數(shù)據(jù)結(jié)構(gòu)的分類編碼方法,通過定義數(shù)據(jù)結(jié)構(gòu),編制程序?qū)?CSV編碼文件按照規(guī)定順序進(jìn)行讀取,重構(gòu) XML樹狀結(jié)構(gòu),可方便地實(shí)現(xiàn)編碼數(shù)量擴(kuò)展、編碼層級擴(kuò)展,適應(yīng)編碼數(shù)值變化。

③本文示例在輿情監(jiān)測項(xiàng)目中采用 C++語言針對 XML格式的國民經(jīng)濟(jì)行業(yè)分類編碼進(jìn)行存儲與讀寫,效率較高,能廣泛用于數(shù)據(jù)存儲、讀寫、交換,具有較好的通用性和可推廣性能,對一些國民經(jīng)濟(jì)統(tǒng)計、分類、存儲、金融工程數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等項(xiàng)目具有借鑒意義。

本文提出的數(shù)據(jù)結(jié)構(gòu)編碼方式是對使用GB/T 4754—2017《國民經(jīng)濟(jì)行業(yè)分類》方法上的探討,以數(shù)據(jù)結(jié)構(gòu)編碼思維方式替代整數(shù)數(shù)值順序編碼思維,所提供的C++重構(gòu)XML樹的方法也可以通過其他編程語言如 Python等實(shí)現(xiàn),用于輿情監(jiān)測等金融工程項(xiàng)目中。

猜你喜歡
匹配
展開輪工作表面輪廓度誤差評定
展開輪工作表面輪廓度誤差評定
某車型正面碰撞駕駛員側(cè)約束系統(tǒng)匹配研究
中職學(xué)生職業(yè)性向測評維度與就業(yè)崗位匹配研究
基于新型雙頻匹配電路的雙頻低噪聲放大器設(shè)計
工程車輛柴油機(jī)與液力變矩器的功率匹配及優(yōu)化分析
氣質(zhì)類型在檔案工作中的應(yīng)用
低噪聲放大器設(shè)計
一種標(biāo)準(zhǔn)數(shù)據(jù)元與數(shù)據(jù)項(xiàng)匹配算法
江鈴國IV發(fā)動機(jī)在金杯卡車上的電氣原理設(shè)計
卓尼县| 镇赉县| 荆州市| 长沙市| 安国市| 莆田市| 革吉县| 兴隆县| 京山县| 进贤县| 剑河县| 河北省| 天祝| 沙河市| 南充市| 商城县| 收藏| 花莲县| 西安市| 浮梁县| 油尖旺区| 富顺县| 定南县| 寻甸| 若尔盖县| 广饶县| 新民市| 五寨县| 黔西县| 温泉县| 肃宁县| 威宁| 嘉义市| 吉木萨尔县| 临清市| 长海县| 冀州市| 噶尔县| 休宁县| 大厂| 肥东县|