譚可華 馮晟 陳俏均 郭子昌 高紅霄
摘 要:“智慧糧食”是一個(gè)承載了廣泛的涉糧數(shù)據(jù)、分析模型和應(yīng)用平臺(tái),對(duì)智慧糧食數(shù)據(jù)模型進(jìn)行分析,建立數(shù)據(jù)存儲(chǔ)和交換系統(tǒng),是實(shí)現(xiàn)“智慧糧食”建設(shè)目標(biāo)愿景的重要基礎(chǔ)性工作。
關(guān)鍵詞:智慧糧食;數(shù)據(jù)采集;交換;存儲(chǔ)
中圖分類號(hào):F326.11 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-2064(2018)21-0031-02
1 智慧糧食數(shù)據(jù)采集、交換、存儲(chǔ)標(biāo)準(zhǔn)研究背景
智慧糧食數(shù)據(jù)資源池的建設(shè),是典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的建設(shè),按照業(yè)務(wù)主題劃分,涉及計(jì)組織機(jī)構(gòu)、生產(chǎn)、存儲(chǔ)、消費(fèi)、市場(chǎng)、農(nóng)產(chǎn)品、事件、渠道等主題。這些數(shù)據(jù)存在數(shù)據(jù)來(lái)源多,數(shù)據(jù)格式復(fù)雜,結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)并存等問(wèn)題。因此,編制數(shù)據(jù)采集、交換、存儲(chǔ)的標(biāo)準(zhǔn)和規(guī)范,對(duì)數(shù)據(jù)進(jìn)行分類存儲(chǔ),為后續(xù)數(shù)據(jù)挖掘、分析、管理提供基礎(chǔ),是建設(shè)智慧糧食大數(shù)據(jù)資源池的重要內(nèi)容。
2 智慧糧食數(shù)據(jù)主題域分析
糧食數(shù)據(jù)主題域的準(zhǔn)確劃分包括:(1)原糧種植(生產(chǎn));(2)原糧收儲(chǔ);(3)原糧交易(國(guó)內(nèi)流通、進(jìn)出口);(4)成品糧加工;(5)成品糧交易(國(guó)內(nèi)流通、進(jìn)出口、批發(fā));(6)成品糧零售(消費(fèi))。其中,原糧包括小麥、稻谷和玉米;成品糧包括面粉和大米??紤]到原糧的一個(gè)重要出口是工業(yè)用糧和飼料用糧,因此還可以增加工業(yè)用糧和飼料用糧主題域。
3 智慧糧食數(shù)據(jù)模型分析
3.1 原糧種植(生產(chǎn))數(shù)據(jù)模型分析
原糧種植階段,數(shù)據(jù)主要包括播種區(qū)域、種植戶、播種情況、農(nóng)業(yè)氣象情況和產(chǎn)量,原糧種植(生產(chǎn))數(shù)據(jù)維度如表1所示:其中,最小粒度為種植戶每季播種品類,粒度提升方向主要為鄉(xiāng)鎮(zhèn)、縣、市、省、全國(guó);核心數(shù)據(jù)為各播種區(qū)域每季每品類原糧播種面積和產(chǎn)量;非核心數(shù)據(jù)包括其他播種情況和農(nóng)業(yè)氣象情況,為影響原糧產(chǎn)量的相關(guān)因素,在采集全面的前提下,可用于預(yù)測(cè)原糧產(chǎn)量,分析原糧產(chǎn)量變化趨勢(shì)和影響因素。
3.2 糧食儲(chǔ)存和流通數(shù)據(jù)模型分析
從原糧種植到成品糧消費(fèi)的中間過(guò)程實(shí)際上是一個(gè)糧食的儲(chǔ)存和流通過(guò)程,糧食儲(chǔ)存和流通過(guò)程圖,如圖1所示。
在圖1中,糧食的儲(chǔ)存和流通主要發(fā)生在糧儲(chǔ)企業(yè)、成品糧加工企業(yè)、成品糧批發(fā)企業(yè)、成品糧零售企業(yè);原糧的收儲(chǔ)主要發(fā)生在糧儲(chǔ)企業(yè)和成品糧加工企業(yè),成品糧儲(chǔ)存則涵蓋成品糧加工企業(yè)、成品糧批發(fā)企業(yè)、成品糧零售企業(yè)和最終消費(fèi)端。
因此,可以把糧儲(chǔ)企業(yè)、成品糧加工企業(yè)、成品糧批發(fā)企業(yè)和成品糧零售企業(yè)看成主要的糧食儲(chǔ)存和流通節(jié)點(diǎn),掌握了這些節(jié)點(diǎn)的糧食儲(chǔ)存和流通數(shù)據(jù),就全面掌握了糧食的儲(chǔ)存、流通和消費(fèi)情況。
不同類型的糧食儲(chǔ)存和流通節(jié)點(diǎn)基礎(chǔ)數(shù)據(jù)模型,如圖2所示。
在圖2中,數(shù)據(jù)模型由入庫(kù)數(shù)據(jù)、庫(kù)存數(shù)據(jù)和出庫(kù)數(shù)據(jù)三部分組成,對(duì)于原糧收儲(chǔ),還可以加入質(zhì)量檢測(cè)數(shù)據(jù),以反映庫(kù)存原糧的質(zhì)量信息。
其中,按時(shí)間、地區(qū)維度統(tǒng)計(jì)庫(kù)存數(shù)據(jù),即可得到糧食庫(kù)存的全面信息和變化趨勢(shì),分析各地糧食庫(kù)存的特點(diǎn)和差異;將各糧食節(jié)點(diǎn)的入庫(kù)數(shù)據(jù)、出庫(kù)數(shù)據(jù)繪制成基于時(shí)序的流向圖,則可得到糧食流通的全面信息,用來(lái)分析原糧交易、成品糧交易的流向、現(xiàn)狀和變化趨勢(shì),分析各地糧食交易和口糧消費(fèi)的特點(diǎn)和差異。
以上述數(shù)據(jù)為基礎(chǔ)構(gòu)建分析或預(yù)測(cè)用的數(shù)據(jù)集市,則可以進(jìn)一步對(duì)糧食價(jià)格和糧食消費(fèi)進(jìn)行統(tǒng)計(jì)分析或趨勢(shì)預(yù)測(cè)。
4 智慧糧食數(shù)據(jù)存儲(chǔ)
根據(jù)上述分析,在智慧糧食大數(shù)據(jù)資源池中,數(shù)據(jù)可以按以下方式存儲(chǔ)管理:
4.1 源數(shù)據(jù)存儲(chǔ)
源數(shù)據(jù)為大數(shù)據(jù)資源池各內(nèi)部系統(tǒng)、外部采集上報(bào)系統(tǒng)、外部數(shù)據(jù)交換系統(tǒng)中獲取的原始數(shù)據(jù),其中包含上述數(shù)據(jù)模型中所含的數(shù)據(jù)信息。源數(shù)據(jù)需要單獨(dú)存儲(chǔ),以備隨時(shí)取用來(lái)進(jìn)行后續(xù)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市建設(shè)。源數(shù)據(jù)可以HDFS文件的形式存儲(chǔ)在Hadoop平臺(tái)中。
4.2 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)用來(lái)存儲(chǔ)經(jīng)過(guò)標(biāo)準(zhǔn)化整理的數(shù)據(jù),用于向數(shù)據(jù)集市提供符合數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)質(zhì)量要求的數(shù)據(jù)。數(shù)據(jù)倉(cāng)庫(kù)由一系列數(shù)據(jù)表組成,例如:(1)由最小粒度原糧種植數(shù)據(jù)的組成的全國(guó)原糧種植數(shù)據(jù)表;(2)由最小粒度原糧收儲(chǔ)數(shù)據(jù)的全國(guó)原糧收儲(chǔ)數(shù)據(jù)表;(3)由最小粒度原糧交易數(shù)據(jù)的全國(guó)原糧交易數(shù)據(jù)表;(4)由最小粒度成品糧加工數(shù)據(jù)的全國(guó)成品糧加工數(shù)據(jù)表;(5)由最小粒度成品糧批發(fā)數(shù)據(jù)的全國(guó)成品糧批發(fā)數(shù)據(jù)表;(6)由最小粒度成品糧零售數(shù)據(jù)的全國(guó)成品糧零售數(shù)據(jù)表。
同時(shí),需要為數(shù)據(jù)倉(cāng)庫(kù)設(shè)置配套的分類標(biāo)準(zhǔn)、數(shù)據(jù)字典和數(shù)據(jù)標(biāo)準(zhǔn),主要包括:(1)原糧品類/成品糧品類標(biāo)準(zhǔn);(2)涉糧企業(yè)類別及名錄;(3)糧食價(jià)格類型和數(shù)據(jù)標(biāo)準(zhǔn)。
數(shù)據(jù)倉(cāng)庫(kù)主要以Hive表的形式存儲(chǔ)。
4.3 數(shù)據(jù)集市
數(shù)據(jù)集市可包括通用集市、專用集市、查詢集市和挖掘集市。
通用集市用于支持通用報(bào)表的快速生成,主要以Hive表的形式存儲(chǔ),例如可包括:(1)全國(guó)/各省原糧種植數(shù)據(jù)集市;(2)各品類原糧種植數(shù)據(jù)集市;(3)全國(guó)/各省原糧交易數(shù)據(jù)集市;(4)各品類原糧交易數(shù)據(jù)集市;(5)全國(guó)/各省成品糧加工數(shù)據(jù)集市;(6)各品類成品糧加工數(shù)據(jù)集市;(7)全國(guó)/各省成品糧交易數(shù)據(jù)集市;(8)各品類成品糧交易數(shù)據(jù)集市;(9)全國(guó)/各省成品糧零售數(shù)據(jù)集市;(10)各品類成品糧零售數(shù)據(jù)集市。
專用集市用于支持滿足特殊需求的專用報(bào)表的快速生成,主要以Hive表的形式存儲(chǔ),例如可包括:(1)各品類原糧種植對(duì)比分析數(shù)據(jù)集市;(2)原糧交易流向分析數(shù)據(jù)集市;(3)成品糧交易流向分析數(shù)據(jù)集市;(4)成品糧零售對(duì)比分析數(shù)據(jù)集市;(5)原糧收儲(chǔ)價(jià)格分析數(shù)據(jù)集市;(6)成品糧交易價(jià)格分析數(shù)據(jù)集市;(7)成品糧零售價(jià)格分析數(shù)據(jù)集市。
查詢集市用于支持快速響應(yīng)高并發(fā)自由查詢,內(nèi)容可與上述通用集市、專用集市相同,但主要以基于HATP技術(shù)的形式存儲(chǔ)。
挖掘集市主要面向數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)建模所需的訓(xùn)練數(shù)據(jù)集,按需建設(shè),主要以HDFS文件的形式存儲(chǔ)。
數(shù)據(jù)集市主要通過(guò)可自動(dòng)批量運(yùn)行的數(shù)據(jù)ETL任務(wù)管道連通數(shù)據(jù)倉(cāng)庫(kù),從而保持自動(dòng)定期更新。
5 智慧糧食數(shù)據(jù)交換
智慧糧食數(shù)據(jù)交換主要指以數(shù)據(jù)交換、數(shù)據(jù)查詢的方式為其他部門提供數(shù)據(jù)服務(wù),主要涉及數(shù)據(jù)權(quán)限和交換方式兩項(xiàng)內(nèi)容。
數(shù)據(jù)權(quán)限主要包括地區(qū)權(quán)限、涉密權(quán)限兩類,地區(qū)權(quán)限可用數(shù)據(jù)的行政區(qū)劃維度來(lái)劃分,涉密權(quán)限則需要準(zhǔn)確到表、字段和時(shí)間維度。
數(shù)據(jù)交換機(jī)制如圖3所示,主要提供離線訂閱方式,訂閱方按權(quán)限訂閱數(shù)據(jù),數(shù)據(jù)平臺(tái)則定期將更新后的數(shù)據(jù)包發(fā)送給訂閱方。
數(shù)據(jù)查詢主要提供在線查詢服務(wù),用戶方可根據(jù)權(quán)限查詢所需數(shù)據(jù),并將查詢結(jié)果下載到本地。