国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“云存儲(chǔ)”助力構(gòu)建海關(guān)報(bào)關(guān)單證電子檔案庫(kù)
——基于OpenStack對(duì)象存儲(chǔ)技術(shù)的集群存儲(chǔ)系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)

2013-08-05 12:01
關(guān)鍵詞:報(bào)關(guān)單云存儲(chǔ)結(jié)構(gòu)化

吳 非

一、構(gòu)建海關(guān)報(bào)關(guān)單證電子檔案庫(kù)的必要性

目前海關(guān)對(duì)于報(bào)關(guān)單證的檔案管理仍采用 “紙質(zhì)歸檔、人工管理”的模式。海關(guān)業(yè)務(wù)現(xiàn)場(chǎng)將理單后的紙質(zhì)報(bào)關(guān)單證移交到檔案保管部門,歸檔、調(diào)檔等工作全部由檔案保管部門人工完成。近年來(lái)隨著海關(guān)報(bào)關(guān)單量連年攀升,紙質(zhì)檔案的保存和調(diào)閱面臨著巨大的壓力。日常管理中,紙質(zhì)報(bào)關(guān)單證存在著流轉(zhuǎn)過(guò)程散失、火災(zāi)、水侵、損壞等風(fēng)險(xiǎn),刪改單、涉案調(diào)查等需要將紙質(zhì)檔案借出的,未知風(fēng)險(xiǎn)更不可測(cè)。此外,紙質(zhì)報(bào)關(guān)單證檔案管理無(wú)法滿足檔案實(shí)時(shí)在線調(diào)閱的要求,信息流轉(zhuǎn)存在滯后性,且受紙質(zhì)報(bào)關(guān)單調(diào)檔環(huán)節(jié)多、流轉(zhuǎn)時(shí)間長(zhǎng)等因素制約,作為海關(guān)重要資源的原始報(bào)關(guān)單證的利用效率低下。

構(gòu)建海關(guān)報(bào)關(guān)單證電子檔案庫(kù)是緩解紙質(zhì)單證庫(kù)存及管理壓力的現(xiàn)實(shí)選擇。通過(guò)企業(yè)級(jí)的高速掃描儀將完成理單的紙質(zhì)報(bào)關(guān)單證轉(zhuǎn)換為電子圖像,并且結(jié)合光學(xué)文字識(shí)別(OCR)技術(shù)進(jìn)一步精確捕捉掃描信息(如報(bào)關(guān)單號(hào)),從而形成報(bào)關(guān)單證電子檔案,并統(tǒng)一保存到電子檔案庫(kù)。電子檔案確立法律上的有效地位后,紙質(zhì)檔案可逐步退出,有效解決庫(kù)存所需場(chǎng)地不足的問(wèn)題。在此基礎(chǔ)上可以實(shí)現(xiàn)報(bào)關(guān)單證檔案的在線實(shí)時(shí)調(diào)閱,強(qiáng)化報(bào)關(guān)單證的二次利用。通過(guò)與現(xiàn)有海關(guān)應(yīng)用系統(tǒng)進(jìn)行對(duì)接,延伸系統(tǒng)應(yīng)用,為海關(guān)各部門實(shí)現(xiàn)及時(shí)監(jiān)控創(chuàng)造有利條件,有效提高防控三大風(fēng)險(xiǎn)的能力。

掃描后的電子文件數(shù)據(jù)量巨大。按上海海關(guān)業(yè)務(wù)量測(cè)算,日均報(bào)關(guān)單約7萬(wàn)份,掃描單證70萬(wàn)張,每張單證以300KB計(jì),每日需要存儲(chǔ)200GB,每年需要近50TB??紤]到電子檔案需要長(zhǎng)期存放和在線調(diào)閱的需求,后臺(tái)存儲(chǔ)無(wú)疑是此項(xiàng)目的關(guān)鍵。

二、非結(jié)構(gòu)化數(shù)據(jù)和集群存儲(chǔ)

(一)非結(jié)構(gòu)化數(shù)據(jù)

非結(jié)構(gòu)化數(shù)據(jù)是相對(duì)于結(jié)構(gòu)化數(shù)據(jù)而言的,結(jié)構(gòu)化數(shù)據(jù)一般存放在數(shù)據(jù)庫(kù)中,具有統(tǒng)一的結(jié)構(gòu)和格式,可以通過(guò)二維表結(jié)構(gòu)邏輯來(lái)表達(dá),其它如圖片、音頻、視頻等無(wú)法使用統(tǒng)一結(jié)構(gòu)來(lái)表示的數(shù)據(jù)則歸為非結(jié)構(gòu)化數(shù)據(jù)。通過(guò)掃描形成的海關(guān)報(bào)關(guān)單證電子檔案屬于非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)一般具有以下特點(diǎn):

一是數(shù)據(jù)增長(zhǎng)快。結(jié)構(gòu)化數(shù)據(jù)往往是Byte或KB級(jí)別,而非結(jié)構(gòu)化數(shù)據(jù)的增長(zhǎng)量在MB級(jí)別,反映到存儲(chǔ)容量上,存放結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)一般在GB級(jí)別,而非結(jié)構(gòu)化數(shù)據(jù)動(dòng)輒若干TB(1TB=1000GB),甚至達(dá)到PB(1PB=1000TB)級(jí)別。

二是吞吐需求高。對(duì)結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn)較一般的頻度高,每次讀寫數(shù)據(jù)量小,每次數(shù)據(jù)庫(kù)讀寫操作的數(shù)據(jù)量在若干Byte到KB,而非結(jié)構(gòu)化數(shù)據(jù)的訪問(wèn)特點(diǎn)是讀寫相對(duì)不頻繁,但一次讀寫操作涉及若干MB甚至GB的數(shù)據(jù)。

三是文件級(jí)別存儲(chǔ)。結(jié)構(gòu)化數(shù)據(jù)是以數(shù)據(jù)塊(Block)進(jìn)行存儲(chǔ),而一般情況下,非結(jié)構(gòu)化數(shù)據(jù)存放的是文件(File)。

(二)集群存儲(chǔ)和云存儲(chǔ)

據(jù)IDC①IDC:International Data Corporation(國(guó)際數(shù)據(jù)公司),全球著名的信息技術(shù)、電信行業(yè)和消費(fèi)科技市場(chǎng)咨詢、顧問(wèn)和活動(dòng)服務(wù)專業(yè)提供商。在IT領(lǐng)域的市場(chǎng)跟蹤數(shù)據(jù)已經(jīng)成為行業(yè)標(biāo)準(zhǔn)。的報(bào)告顯示,現(xiàn)在全球數(shù)據(jù)量每18個(gè)月就要翻一番,每年全球產(chǎn)生的數(shù)據(jù)量已經(jīng)高達(dá)40EB(1EB=1000PB),這些數(shù)據(jù)主要來(lái)自非結(jié)構(gòu)化數(shù)據(jù)。面對(duì)日益激增的非結(jié)構(gòu)化數(shù)據(jù)需求,傳統(tǒng)存儲(chǔ)面臨著越來(lái)越多的問(wèn)題。SAN(Storage-Area Networks)用于塊級(jí)別存儲(chǔ),如果要完成對(duì)文件級(jí)別的非結(jié)構(gòu)化數(shù)據(jù)的讀寫,需要用文件服務(wù)器通過(guò)SCSI或FC協(xié)議來(lái)進(jìn)行,這樣無(wú)疑會(huì)增大了文件服務(wù)器的壓力,服務(wù)器的處理能力也會(huì)成為整個(gè)系統(tǒng)架構(gòu)的瓶頸。此外,SAN雖具有很高的性能,但構(gòu)建和維護(hù)相對(duì)復(fù)雜。NAS(Network-Attached Storage)用于文件級(jí)別存儲(chǔ),通過(guò)自有的文件系統(tǒng)對(duì)文件進(jìn)行控制,但是受到其聚合設(shè)備(NAS頭)的性能限制,NAS的整體性能一般低于SAN。無(wú)論是SAN還是NAS,傳統(tǒng)存儲(chǔ)由于受到其物理架構(gòu)的限制,比如磁盤控制器、總線、內(nèi)存、NAS頭以及所連接服務(wù)器等,最終會(huì)對(duì)存儲(chǔ)整體的容量和性能帶來(lái)無(wú)法逾越的瓶頸。一旦遇到存儲(chǔ)瓶頸,一般是通過(guò)更換更為強(qiáng)大的存儲(chǔ)硬件這種解決方案,但存儲(chǔ)的切換往往需要經(jīng)歷設(shè)備選型、購(gòu)置、安裝調(diào)試、復(fù)制或重建數(shù)據(jù)、應(yīng)用測(cè)試等一系列工作,耗時(shí)耗力。

需要存儲(chǔ)的文件將呈指數(shù)級(jí)增長(zhǎng)態(tài)勢(shì),這就要求存儲(chǔ)系統(tǒng)的容量擴(kuò)展能夠跟得上數(shù)據(jù)量的增長(zhǎng),甚至無(wú)限擴(kuò)容。擴(kuò)容過(guò)程最好要簡(jiǎn)便易行,對(duì)應(yīng)用系統(tǒng)乃至計(jì)算中心的整體運(yùn)行的影響應(yīng)降到最低。此外,用戶數(shù)量不斷增加,應(yīng)用需求不斷豐富,尤其是對(duì)于非結(jié)構(gòu)化數(shù)據(jù)訪問(wèn)請(qǐng)求的日益增加,要求存儲(chǔ)系統(tǒng)也必須隨著容量的增加而擁有線性增長(zhǎng)的吞吐性能,這些顯然都是傳統(tǒng)的存儲(chǔ)架構(gòu)無(wú)法達(dá)到的目標(biāo)。為了應(yīng)對(duì)這些問(wèn)題,“集群存儲(chǔ)”作為一種新興的存儲(chǔ)體系架構(gòu)應(yīng)運(yùn)而生了。

根據(jù)百度百科詞條的解釋,“集群存儲(chǔ)”是指 “由若干個(gè) ‘通用存儲(chǔ)設(shè)備’組成的用于存儲(chǔ)的集群,組成集群存儲(chǔ)的每個(gè)存儲(chǔ)系統(tǒng)的性能和容量均可通過(guò) ‘集群’的方式得到疊加和擴(kuò)展?!蓖ㄓ么鎯?chǔ)設(shè)備被稱為存儲(chǔ)節(jié)點(diǎn)(node),除了用于存儲(chǔ)的磁盤外,還有單獨(dú)的處理器、控制器、內(nèi)存等組件。集群存儲(chǔ)由多個(gè)節(jié)點(diǎn)組成,通過(guò)存儲(chǔ)網(wǎng)絡(luò)連接。集群存儲(chǔ)一般沒(méi)有主控節(jié)點(diǎn),所有節(jié)點(diǎn)在定位和功能上沒(méi)有分別,數(shù)據(jù)訪問(wèn)是通過(guò)分布式的操作系統(tǒng)進(jìn)行統(tǒng)一的調(diào)度,分散到各個(gè)節(jié)點(diǎn)上去完成的,因此比較容易做到負(fù)載均衡,從而實(shí)現(xiàn)訪問(wèn)性能最優(yōu)。最重要的是,集群存儲(chǔ)由于采用開放式的基礎(chǔ)架構(gòu),變更或擴(kuò)展每個(gè)存儲(chǔ)節(jié)點(diǎn)時(shí)無(wú)需對(duì)整個(gè)集群存儲(chǔ)的架構(gòu)進(jìn)行調(diào)整,能夠做到方便靈活地進(jìn)行存儲(chǔ)的擴(kuò)容,一般均可達(dá)到PB級(jí)別。

在云計(jì)算時(shí)代,云存儲(chǔ)成為今后存儲(chǔ)發(fā)展的必然趨勢(shì)。對(duì)于云存儲(chǔ)的準(zhǔn)確定義,目前業(yè)界沒(méi)有一個(gè)公認(rèn)的、權(quán)威的表述,百度百科詞條的解釋可供參考:“云存儲(chǔ)是從云計(jì)算概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)?!焙?jiǎn)單地說(shuō),云存儲(chǔ)要實(shí)現(xiàn)的目標(biāo)是使用者可以在任何地方、任何時(shí)間方便地通過(guò)聯(lián)網(wǎng)設(shè)備存取數(shù)據(jù)資源。從這個(gè)角度看,集群存儲(chǔ)實(shí)際上是云存儲(chǔ)從概念到現(xiàn)實(shí)的一種落地表現(xiàn)形式。

從構(gòu)建海關(guān)報(bào)關(guān)單證電子檔案庫(kù)的需求來(lái)看,這是一個(gè)針對(duì)大量非結(jié)構(gòu)化數(shù)據(jù)存取的項(xiàng)目。雖然試點(diǎn)期間只考慮存放三年內(nèi)的數(shù)據(jù)量,但是從電子檔案長(zhǎng)期保存的趨勢(shì)看,對(duì)于今后的數(shù)據(jù)增長(zhǎng)較難預(yù)測(cè),存儲(chǔ)容量需要平滑擴(kuò)展,因此比較適合采用集群存儲(chǔ)。

三、關(guān)鍵技術(shù)OpenStack對(duì)象存儲(chǔ)

云存儲(chǔ)的實(shí)現(xiàn)一般有兩種方式:一種是通過(guò)專用軟件對(duì)現(xiàn)有分散的傳統(tǒng)存儲(chǔ)進(jìn)行整合;另一種就是使用專用集群存儲(chǔ),比如EMC Isilon。第一種將傳統(tǒng)存儲(chǔ)進(jìn)行整合的方式需要詳細(xì)了解計(jì)算中心內(nèi)現(xiàn)有的存儲(chǔ)資源,在此基礎(chǔ)上做出一個(gè)整體的規(guī)劃,以充分挖掘現(xiàn)有存儲(chǔ)資源的潛力,提高使用效率。第二種方式需要單獨(dú)購(gòu)置專用集群存儲(chǔ),但成本一般比傳統(tǒng)存儲(chǔ)要高。

作為一個(gè)獨(dú)立的具有探索性質(zhì)的項(xiàng)目,既不能對(duì)現(xiàn)有運(yùn)行的其他應(yīng)用系統(tǒng)帶來(lái)影響,也不可能在項(xiàng)目初期投入過(guò)多,這兩種方式都不太適合,因此在項(xiàng)目的架構(gòu)設(shè)計(jì)過(guò)程中,項(xiàng)目組考慮了一種基于對(duì)象存儲(chǔ)技術(shù)的服務(wù)器集群存儲(chǔ)——OpenStack對(duì)象存儲(chǔ),這種技術(shù)通過(guò)對(duì)單位成本較低的服務(wù)器進(jìn)行堆疊,組成服務(wù)器集群存儲(chǔ),在投入成本可控的情況下實(shí)現(xiàn)存儲(chǔ)容量的自由擴(kuò)展和數(shù)據(jù)訪問(wèn)性能的線性提升。

(一)對(duì)象存儲(chǔ)的概念

不同于傳統(tǒng)的存儲(chǔ)系統(tǒng)中用文件或數(shù)據(jù)塊作為基本的存儲(chǔ)單位,對(duì)象存儲(chǔ)中的基本存儲(chǔ)單位是對(duì)象(Object)。一個(gè)對(duì)象實(shí)際上就是文件的數(shù)據(jù)和一組屬性信息(metadata)的組合,這些屬性信息可以定義基于文件的RAID參數(shù)、數(shù)據(jù)分布和服務(wù)質(zhì)量等內(nèi)容。簡(jiǎn)單地說(shuō),對(duì)象也可理解為一個(gè)容器,容納了文件數(shù)據(jù)和基本的存儲(chǔ)屬性。文件被分解為若干個(gè)存儲(chǔ)對(duì)象,并分發(fā)到一個(gè)或多個(gè)被稱為基于對(duì)象的存儲(chǔ)設(shè)備(OSD,Objected-based Storage Devices)上去。每個(gè)OSD都有自己的本地處理能力、內(nèi)存和網(wǎng)絡(luò)①在OpenStack對(duì)象存儲(chǔ)中,每個(gè)OSD實(shí)際上就是一臺(tái)Linux服務(wù)器。,OSD是整個(gè)分布式存儲(chǔ)網(wǎng)絡(luò)的核心。

這種存儲(chǔ)結(jié)構(gòu)帶來(lái)的好處是可以實(shí)現(xiàn)數(shù)據(jù)的智能化管理,因?yàn)閷?duì)象本身包含了元數(shù)據(jù)甚至更多的屬性,比如對(duì)象使用狀況的統(tǒng)計(jì)信息,這些信息可以用于數(shù)據(jù)訪問(wèn)的服務(wù)質(zhì)量控制,并在此基礎(chǔ)上實(shí)現(xiàn)訪問(wèn)動(dòng)態(tài)分配,最終達(dá)到OSD間的負(fù)載均衡。

(二)OpenStack對(duì)象存儲(chǔ)技術(shù)

OpenStack是由美國(guó)國(guó)家航空航天局(NASA)和Rackspace②Rackspace:全球三大云計(jì)算中心之一,1998年成立。在全球擁有10個(gè)以上的數(shù)據(jù)中心,管理超過(guò)64000臺(tái)服務(wù)器。合作研發(fā)的云平臺(tái)管理項(xiàng)目,包括HP、Intel、AMD、Microsoft、Cisco在內(nèi)的諸多IT企業(yè)均參與其中。Open-Stack對(duì)象存儲(chǔ)是OpenStack云項(xiàng)目的子項(xiàng)目,目標(biāo)是使用標(biāo)準(zhǔn)的服務(wù)器集群為數(shù)千萬(wàn)億字節(jié)的存取數(shù)據(jù)提供冗余的、可伸縮的數(shù)據(jù)存儲(chǔ)。不同于傳統(tǒng)文件系統(tǒng)和實(shí)時(shí)數(shù)據(jù)存儲(chǔ)系統(tǒng),OpenStack對(duì)象存儲(chǔ)技術(shù)最適合的用例就是永久類型的靜態(tài)數(shù)據(jù)的長(zhǎng)期存儲(chǔ),如圖片存儲(chǔ)、虛擬機(jī)鏡像等。海關(guān)報(bào)關(guān)單證的電子檔案正是此類典型用例。

1.OpenStack對(duì)象存儲(chǔ)的架構(gòu)

OpenStack一般由代理節(jié)點(diǎn)(Proxy node)、存儲(chǔ)節(jié)點(diǎn)(Storage node)、認(rèn)證節(jié)點(diǎn)(Auth node)組成。三種類型節(jié)點(diǎn)的作用大致如下:

①Proxy node部署代理服務(wù)(Proxy Server),負(fù)責(zé)架構(gòu)內(nèi)組件間的相互通信以及客戶端與集群存儲(chǔ)的交互。根據(jù)客戶端的請(qǐng)求,查詢具體對(duì)象的存放位置,并轉(zhuǎn)發(fā)給相應(yīng)的Storage node。

②Storage node部署存儲(chǔ)服務(wù)(Storage Server)和一致性檢查服務(wù)(Consistency Server),Storage Server具體負(fù)責(zé)對(duì)象在磁盤上的存放,接收Proxy Server對(duì)于客戶端讀取數(shù)據(jù)的請(qǐng)求;Consistency Server負(fù)責(zé)查找并解決由數(shù)據(jù)損壞和硬件故障引起的錯(cuò)誤,保證數(shù)據(jù)備份間的一致性。

③Auth node部署認(rèn)證服務(wù),目的在于實(shí)現(xiàn)OpenStack各個(gè)項(xiàng)目間的認(rèn)證管理。

2.數(shù)據(jù)冗余和集群無(wú)單點(diǎn)

整個(gè)集群中用于存放具體對(duì)象的部分可以被規(guī)劃成多個(gè)區(qū)(zone),每個(gè)區(qū)中包含若干個(gè)節(jié)點(diǎn)。對(duì)象被存儲(chǔ)在節(jié)點(diǎn)上,每個(gè)對(duì)象在多個(gè)不同節(jié)點(diǎn)上留有備份(默認(rèn)情況,每個(gè)對(duì)象會(huì)留有3個(gè)副本),備份均勻地分布在集群服務(wù)器上,從而保證了系統(tǒng)的穩(wěn)定性和數(shù)據(jù)的冗余。集群存儲(chǔ)可以通過(guò)增加節(jié)點(diǎn)來(lái)線性地?cái)U(kuò)充存儲(chǔ)空間,對(duì)象本身包含的元數(shù)據(jù)和其他屬性可以讓系統(tǒng)自動(dòng)完成數(shù)據(jù)遷移,使各節(jié)點(diǎn)重新達(dá)到平衡狀態(tài)。

在集群中,存儲(chǔ)的數(shù)據(jù)往往實(shí)現(xiàn)了冗余,但元數(shù)據(jù)信息的存儲(chǔ)一般是單點(diǎn),一旦出現(xiàn)問(wèn)題,同樣會(huì)對(duì)數(shù)據(jù)訪問(wèn)帶來(lái)影響。而OpenStack對(duì)象存儲(chǔ)中的各個(gè)節(jié)點(diǎn)完全對(duì)稱,元數(shù)據(jù)和對(duì)象一起完全隨機(jī)均勻分布的,同時(shí)也有3個(gè)副本,因此整個(gè)集群中基本上不存在單點(diǎn)故障①OpenStack對(duì)象存儲(chǔ)技術(shù)不存在單點(diǎn)故障的理論依據(jù)主要來(lái)源于NWR策略。NWR是一種在分布式存儲(chǔ)系統(tǒng)中用于控制一致性級(jí)別的策略。N代表同一份數(shù)據(jù)副本的份數(shù),W代表更新一個(gè)數(shù)據(jù)對(duì)象時(shí)需要確保成功更新的份數(shù),R代表讀取一個(gè)數(shù)據(jù)需要讀取的副本的份數(shù)。公式W+R〉N,保證某個(gè)數(shù)據(jù)不被兩個(gè)不同的事務(wù)同時(shí)讀和寫;公式W〉N/2保證兩個(gè)事務(wù)不能并發(fā)寫某一個(gè)數(shù)據(jù)。假如把N設(shè)置成為2,那么只要有一個(gè)存儲(chǔ)節(jié)點(diǎn)發(fā)生損壞,就會(huì)有單點(diǎn)的存在,所以N必須大于2。默認(rèn)情況下,OpenStack對(duì)象存儲(chǔ)的N=3,W=2,R=2,符合NWR策略。。此外,當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),OpenStack對(duì)象存儲(chǔ)會(huì)從其他正常節(jié)點(diǎn)上復(fù)制數(shù)據(jù)對(duì)故障節(jié)點(diǎn)進(jìn)行恢復(fù)。

3.REST API接口

OpenStack對(duì)象存儲(chǔ)不能像傳統(tǒng)文件系統(tǒng)那樣進(jìn)行掛載和訪問(wèn),只能通過(guò)REST API接口來(lái)訪問(wèn)數(shù)據(jù)。REST(Representational State Transfer)②REST是一種輕量級(jí)的Web Service架構(gòu)風(fēng)格,通過(guò)HTTP協(xié)議對(duì)資源進(jìn)行操作,獲取、創(chuàng)建、修改和刪除資源正好對(duì)應(yīng)HTTP協(xié)議的GET、POST、PUT和DELETE方法,REST把HTTP對(duì)一個(gè)URL資源的操作限制在這四個(gè)方法之內(nèi)。的實(shí)現(xiàn)和操作完全通過(guò)HTTP協(xié)議,降低了開發(fā)的復(fù)雜性。REST還可以利用Cache來(lái)提高響應(yīng)速度,性能、效率和易用性上都優(yōu)于SOAP協(xié)議。

4.與傳統(tǒng)存儲(chǔ)比較的相對(duì)優(yōu)勢(shì)

如表1所示,和傳統(tǒng)存儲(chǔ)相比較,OpenStack對(duì)象存儲(chǔ)技術(shù)具有以下一些基本特性和相對(duì)優(yōu)勢(shì)。

表1 OpenStack對(duì)象存儲(chǔ)的特性和優(yōu)勢(shì)

四、搭建電子檔案庫(kù)的具體做法和應(yīng)用成效

(一)生產(chǎn)作業(yè)子系統(tǒng)、存儲(chǔ)子系統(tǒng)和查詢應(yīng)用子系統(tǒng)

圖1 各子系統(tǒng)及服務(wù)分解

海關(guān)報(bào)關(guān)單證電子檔案庫(kù)項(xiàng)目在進(jìn)行系統(tǒng)設(shè)計(jì)時(shí),分為生產(chǎn)作業(yè)子系統(tǒng)、數(shù)據(jù)存儲(chǔ)子系統(tǒng)和查詢應(yīng)用子系統(tǒng),各子系統(tǒng)又可細(xì)分為若干服務(wù),如圖1所示。

1.生產(chǎn)作業(yè)子系統(tǒng),通過(guò)高速掃描儀對(duì)紙質(zhì)單證進(jìn)行集中掃描,生成電子圖像后,由光學(xué)文字識(shí)別軟件識(shí)別出單證報(bào)關(guān)單號(hào),并建立以報(bào)關(guān)單號(hào)為索引的電子圖像集合,再由人工進(jìn)行單證審核和掃描質(zhì)量抽檢等環(huán)節(jié),形成可交付歸檔的電子圖像包。該子系統(tǒng)由生產(chǎn)服務(wù)器、客戶端微機(jī)和高速掃描儀組成。客戶端主要完成掃描前的信息錄入、單證審核、質(zhì)檢、抽檢以及作業(yè)流程管理等工作。生產(chǎn)服務(wù)器負(fù)責(zé)暫存可交付的電子圖像和相關(guān)錄入信息,記錄生產(chǎn)日志,并進(jìn)行生產(chǎn)系統(tǒng)的運(yùn)行監(jiān)控。

2.數(shù)據(jù)存儲(chǔ)子系統(tǒng),將生產(chǎn)子系統(tǒng)生成的暫存在生產(chǎn)服務(wù)器上的電子圖像包通過(guò)存儲(chǔ)服務(wù)上傳至后臺(tái)服務(wù)器,通過(guò)數(shù)據(jù)加密服務(wù)進(jìn)行加密,并調(diào)用集群存儲(chǔ)的代理接口傳輸給后臺(tái)的服務(wù)器集群存儲(chǔ)。集群存儲(chǔ)采用OpenStack對(duì)象存儲(chǔ)技術(shù),存儲(chǔ)代理服務(wù)接收加密后的電子圖像數(shù)據(jù)包,分解成相應(yīng)的若干對(duì)象,每個(gè)對(duì)象復(fù)制成為3份后,存放在集群存儲(chǔ)內(nèi)的不同服務(wù)器節(jié)點(diǎn)上。

數(shù)據(jù)存儲(chǔ)子系統(tǒng)由1臺(tái)代理服務(wù)器、1臺(tái)數(shù)據(jù)庫(kù)服務(wù)器和5臺(tái)存儲(chǔ)服務(wù)器組成。代理服務(wù)器用來(lái)部署數(shù)據(jù)存儲(chǔ)代理服務(wù)。數(shù)據(jù)庫(kù)服務(wù)器部署的SQLite數(shù)據(jù)庫(kù)是存放OpenStack對(duì)象存儲(chǔ)賬號(hào)和容器管理進(jìn)程的組成部分,加解密的服務(wù)也部署在該臺(tái)服務(wù)器上。5臺(tái)存儲(chǔ)服務(wù)器組成集群,集群共劃分為5個(gè)zone,每個(gè)zone就是1臺(tái)存儲(chǔ)服務(wù)器,每臺(tái)服務(wù)器配12塊2TBSATA磁盤,5臺(tái)存儲(chǔ)服務(wù)器磁盤滿配容量可達(dá)120TB,由于存放3份數(shù)據(jù),因此可用容量為40TB。項(xiàng)目試點(diǎn)時(shí),會(huì)根據(jù)不同關(guān)區(qū)區(qū)分進(jìn)出口分步推進(jìn),因此在系統(tǒng)設(shè)計(jì)初期只投入了5臺(tái)存儲(chǔ)服務(wù)器,之后可以根據(jù)業(yè)務(wù)需要,增配磁盤或者服務(wù)器。

3.查詢應(yīng)用子系統(tǒng),通過(guò)REST API接口從存儲(chǔ)子系統(tǒng)中讀取并調(diào)閱相關(guān)的電子圖像,通過(guò)B/S方式完成海關(guān)業(yè)務(wù)部門提出的調(diào)檔、打印、流轉(zhuǎn)、出證等具體工作。

(二)系統(tǒng)架構(gòu)和安全設(shè)計(jì)

如圖2所示,系統(tǒng)整體處于海關(guān)內(nèi)部網(wǎng)絡(luò),數(shù)據(jù)存儲(chǔ)子系統(tǒng)和查詢應(yīng)用子系統(tǒng)的服務(wù)器部署在主機(jī)房?jī)?nèi),受場(chǎng)地限制,生產(chǎn)作業(yè)子系統(tǒng)部署在郊區(qū)紙質(zhì)檔案庫(kù)房的掃描作業(yè)現(xiàn)場(chǎng)。試點(diǎn)初期,生產(chǎn)作業(yè)和數(shù)據(jù)存儲(chǔ)子系統(tǒng)間通過(guò)30Mbps網(wǎng)絡(luò)連接進(jìn)行數(shù)據(jù)傳輸。海關(guān)用戶通過(guò)個(gè)人辦公電腦以瀏覽器方式進(jìn)行單證圖像調(diào)閱和流轉(zhuǎn)。

圖2 系統(tǒng)網(wǎng)絡(luò)架構(gòu)

根據(jù)上海海關(guān)信息系統(tǒng)安全等級(jí)保護(hù)的相關(guān)要求,各子系統(tǒng)均被劃分為獨(dú)立的安全域,并在網(wǎng)絡(luò)、數(shù)據(jù)、應(yīng)用、客戶端及作業(yè)場(chǎng)地等層面實(shí)施了相關(guān)的安全控制策略。網(wǎng)絡(luò)層面,各安全域間由防火墻隔離,在系統(tǒng)模塊間通信多采用HTTPS方式,信息在每個(gè)環(huán)節(jié)的傳輸都采用TLS安全保護(hù);數(shù)據(jù)層面,掃描文件在靜態(tài)存儲(chǔ)時(shí),系統(tǒng)采用數(shù)據(jù)加密措施,加密算法為業(yè)界公認(rèn)的AES-256,可以防止因?yàn)槲锢碛脖P丟失而造成電子信息的泄露;應(yīng)用層面,基于用戶所在關(guān)區(qū)、部門、職務(wù),設(shè)計(jì)完備的授權(quán)體系,系統(tǒng)提供用戶登錄及操作日志記錄,以及報(bào)關(guān)單證電子檔案借閱、歸還、加鎖等相關(guān)操作的日志;客戶端層面,所有客戶端操作均在瀏覽器環(huán)境下進(jìn)行,工作人員只能從事自己權(quán)限內(nèi)的工作,本地并不留存電子數(shù)據(jù)。客戶端的外部接口均采用物理或軟件方式禁用,與外網(wǎng)沒(méi)有任何連接,以保證數(shù)據(jù)的安全性,防止數(shù)據(jù)外泄;作業(yè)場(chǎng)地層面,部署24小時(shí)視頻監(jiān)控。

(三)系統(tǒng)應(yīng)用成效

項(xiàng)目上線后,日均處理報(bào)關(guān)單證12000份。每日生成的電子圖像文件約20萬(wàn)個(gè),數(shù)據(jù)容量60GB。報(bào)關(guān)單證電子檔案庫(kù)的建成極大地提升了海關(guān)對(duì)于報(bào)關(guān)單證這一寶貴資源的再次利用能力,刪改單、稽查、緝私取證等以往需要耗費(fèi)較多人工的調(diào)檔過(guò)程變成了在線完成,調(diào)檔時(shí)間從平均2天減少到不足2秒。據(jù)統(tǒng)計(jì),單證檔案的調(diào)閱率由原來(lái)的0.3%顯著提高至3.5%。

電子檔案的調(diào)閱在線完成,基本上可以杜絕紙質(zhì)檔案的借出,從源頭上嚴(yán)格控制住紙質(zhì)檔案出庫(kù)時(shí)所面臨的被損毀甚至被篡改的風(fēng)險(xiǎn)。電子檔案庫(kù)開放訪問(wèn)接口,允許其他作業(yè)或監(jiān)控分析系統(tǒng)調(diào)閱檔案數(shù)據(jù),可以進(jìn)一步拓展應(yīng)用范圍,上海海關(guān)已經(jīng)實(shí)現(xiàn)了電子檔案庫(kù)與海關(guān)廉政風(fēng)險(xiǎn)預(yù)警處置系統(tǒng)(HL2008)、報(bào)關(guān)單批量復(fù)審系統(tǒng)等的對(duì)接,為有效防控執(zhí)法、廉政風(fēng)險(xiǎn),提高相關(guān)應(yīng)用系統(tǒng)使用效能提供了有效的輔助手段。

此外,除了現(xiàn)場(chǎng)批量掃描紙質(zhì)報(bào)關(guān)單,系統(tǒng)還預(yù)留了電子圖像數(shù)據(jù)導(dǎo)入接口,便于今后通過(guò)光盤或其它形式直接遞交的電子圖像歸檔入庫(kù)。將電子檔案庫(kù)前推至通關(guān)作業(yè)環(huán)節(jié)前,甚至可以逐步實(shí)現(xiàn)與分類通關(guān)作業(yè)無(wú)紙化的無(wú)縫銜接,為實(shí)現(xiàn)最終全程通關(guān)無(wú)紙化這一目標(biāo)積累有益的經(jīng)驗(yàn)。

五、結(jié)語(yǔ)

海關(guān)報(bào)關(guān)單證電子檔案庫(kù)項(xiàng)目是上海海關(guān)對(duì)于應(yīng)用集群存儲(chǔ)系統(tǒng)乃至今后搭建云存儲(chǔ)和云計(jì)算環(huán)境做出的有益探索和實(shí)踐。與傳統(tǒng)存儲(chǔ)相比,應(yīng)用OpenStack對(duì)象存儲(chǔ)技術(shù)在存儲(chǔ)設(shè)備投入相對(duì)較少的情況下,實(shí)現(xiàn)了海量非結(jié)構(gòu)化數(shù)據(jù)的有效存儲(chǔ)和冗余,并且在保證數(shù)據(jù)訪問(wèn)性能的前提下,具備良好的擴(kuò)展性。

當(dāng)然,作為新興技術(shù),集群存儲(chǔ)、OpenStack對(duì)象存儲(chǔ)等都還面臨一些問(wèn)題,比如海關(guān)各層面對(duì)于這些技術(shù)的認(rèn)知程度還不高,技術(shù)應(yīng)用范圍還不夠廣泛,技術(shù)本身可能還需進(jìn)一步完善等。但隨著云計(jì)算時(shí)代的腳步日益臨近,云存儲(chǔ)必將成為今后存儲(chǔ)服務(wù)的發(fā)展趨勢(shì)。對(duì)此,海關(guān)科技部門確有必要提前準(zhǔn)備,加強(qiáng)對(duì)于新知識(shí)、新技術(shù)、新產(chǎn)品的學(xué)習(xí)和研究,以迎接全新的技術(shù)管理理念和模式的變革。

〔1〕Lambert M.Surhone Marian T.Tennoe Susan F.Henssonow.Openstack 〔M〕.BetaScript Publishing.2011.

〔2〕Openstack維基.http://zh.wikipedia.org/wiki/OpenStack.

〔3〕Openstack Object Storage Administrator Manual-CACTUS.http://docs.openstack.org/cactus/openstack-objectstorage/admin/content/index.html.

猜你喜歡
報(bào)關(guān)單云存儲(chǔ)結(jié)構(gòu)化
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
“全國(guó)海關(guān)通關(guān)一體化”背景下 新版報(bào)關(guān)單結(jié)構(gòu)分析及新增項(xiàng)目填報(bào)
租賃貿(mào)易貨物報(bào)關(guān)單填制分析
釋疑解惑
加工貿(mào)易下貨物進(jìn)出口報(bào)關(guān)單填寫常見(jiàn)錯(cuò)誤解析
基于云存儲(chǔ)的氣象數(shù)字化圖像檔案存儲(chǔ)研究
云存儲(chǔ)技術(shù)的起源與發(fā)展
基于云存儲(chǔ)的數(shù)據(jù)庫(kù)密文檢索研究