国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校數(shù)據(jù)共享的若干實(shí)踐研究

2021-02-21 08:51毛文卉劉雅琴李凱嚴(yán)帆熊鷹
關(guān)鍵詞:數(shù)據(jù)治理

毛文卉 劉雅琴 李凱 嚴(yán)帆 熊鷹

摘? ?要:近幾年來,學(xué)校信息系統(tǒng)和師生對(duì)數(shù)據(jù)一致性、準(zhǔn)確性、及時(shí)性和完整性提出了更高要求,數(shù)據(jù)治理成為了信息化建設(shè)的熱點(diǎn)之一。數(shù)據(jù)共享是數(shù)據(jù)治理的基礎(chǔ)和重要內(nèi)容。文章主要基于本校的實(shí)際情況,研究數(shù)據(jù)共享的模式、要點(diǎn)和實(shí)現(xiàn)方法;按照相關(guān)研究方法,理清了基礎(chǔ)數(shù)據(jù)的源頭,打通了數(shù)據(jù)孤島,數(shù)據(jù)共享取得了預(yù)期的效果,減少了教工學(xué)生反復(fù)填報(bào)基本信息的麻煩,消除了各個(gè)系統(tǒng)數(shù)據(jù)不一致的問題。

關(guān)鍵詞:數(shù)據(jù)共享與交換;數(shù)據(jù)共享模式;數(shù)據(jù)治理

中圖分類號(hào):TP39 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2021)01-0039-04

一、學(xué)校數(shù)據(jù)共享的現(xiàn)狀及問題

《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》中提出要大力推進(jìn)普通高校數(shù)字校園建設(shè),推進(jìn)系統(tǒng)整合與數(shù)據(jù)共享,促進(jìn)教育決策科學(xué)化、公共服務(wù)系統(tǒng)化、學(xué)校管理規(guī)范化。[1]隨著我國(guó)高校信息化建設(shè)的快速推進(jìn),信息系統(tǒng)在高校的應(yīng)用程度不斷提高,信息化建設(shè)規(guī)模不斷增長(zhǎng),信息不斷積累。[2]我校各個(gè)業(yè)務(wù)部門根據(jù)管理需要,都建成了自己獨(dú)立的信息系統(tǒng),由于建設(shè)周期和所用技術(shù)不同,各個(gè)系統(tǒng)之間相對(duì)封閉,直接進(jìn)行數(shù)據(jù)交換十分困難。但是隨著系統(tǒng)越來越多,保持各個(gè)系統(tǒng)數(shù)據(jù)的一致性、減少教師學(xué)生基礎(chǔ)信息的反復(fù)填報(bào)、數(shù)據(jù)共享的需求越來越強(qiáng)烈。為保證數(shù)據(jù)共享的順利進(jìn)行,在正式實(shí)施共享前,需要理清幾個(gè)問題:選擇什么樣的共享模式?數(shù)據(jù)從哪里???數(shù)據(jù)的權(quán)威性由誰負(fù)責(zé)?取到數(shù)據(jù)后,選擇什么標(biāo)準(zhǔn)存儲(chǔ)數(shù)據(jù)?如何提高數(shù)據(jù)質(zhì)量?異常的數(shù)據(jù)如何處理?文章將基于上述幾個(gè)問題展開。

二、如何進(jìn)行數(shù)據(jù)共享

1.數(shù)據(jù)共享的要點(diǎn)

數(shù)據(jù)共享包含很多具體工作,主要工作包括選擇數(shù)據(jù)共享模式、確定數(shù)據(jù)權(quán)威源、制定數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)清洗、數(shù)據(jù)異常處理、確定數(shù)據(jù)同步頻率及相關(guān)技術(shù)等。

(1)選擇數(shù)據(jù)共享模式

數(shù)據(jù)共享有兩種模式:[3]一是各個(gè)信息系統(tǒng)之間兩兩共享;二是建立一個(gè)基礎(chǔ)數(shù)據(jù)庫(有的高校稱之為共享數(shù)據(jù)庫或公共數(shù)據(jù)庫),所有信息系統(tǒng)之間的數(shù)據(jù)共享均通過基礎(chǔ)數(shù)據(jù)庫實(shí)現(xiàn),基礎(chǔ)數(shù)據(jù)庫作為中心節(jié)點(diǎn)與其他各業(yè)務(wù)信息系統(tǒng)之間共享,形成一個(gè)星型結(jié)構(gòu),如圖1所示。第一種模式適合于信息系統(tǒng)數(shù)量較少、共享數(shù)據(jù)較為簡(jiǎn)單的場(chǎng)景,例如,如果學(xué)?;蚰巢块T內(nèi)部只存在兩三個(gè)系統(tǒng)之間需要共享數(shù)據(jù),就沒有必要單獨(dú)再建立一個(gè)基礎(chǔ)數(shù)據(jù)庫作為橋梁,這樣會(huì)增加共享環(huán)節(jié)。但是,如果信息系統(tǒng)較多,而且數(shù)據(jù)共享的內(nèi)容也多且復(fù)雜,就必須使用第二種模式。隨著共享系統(tǒng)的增多和共享數(shù)據(jù)規(guī)模的不斷增大,第二種模式中的基礎(chǔ)數(shù)據(jù)庫的壓力也將越來越大,如何管理控制好基礎(chǔ)數(shù)據(jù)庫的權(quán)限,確保共享效率,減少共享故障或中斷的發(fā)生,也是面臨的一個(gè)難點(diǎn)。

基礎(chǔ)數(shù)據(jù)庫存儲(chǔ)的數(shù)據(jù)范圍應(yīng)該是各業(yè)務(wù)信息系統(tǒng)之間用于共享的基礎(chǔ)數(shù)據(jù)的集合,而不是所有業(yè)務(wù)信息系統(tǒng)的所有數(shù)據(jù)的集合(為了便于區(qū)分,我們將與基礎(chǔ)數(shù)據(jù)庫進(jìn)行數(shù)據(jù)共享交換的信息系統(tǒng)統(tǒng)稱為業(yè)務(wù)信息系統(tǒng),業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)庫稱為業(yè)務(wù)數(shù)據(jù)庫)。有些高校按“所有數(shù)據(jù)集合”模式建立數(shù)據(jù)庫,并稱之為中心數(shù)據(jù)庫或數(shù)據(jù)倉庫,大而全的中心數(shù)據(jù)庫與以共享為目的的基礎(chǔ)數(shù)據(jù)庫在數(shù)據(jù)量、建表規(guī)則、共享技術(shù)上都有較大差異?;A(chǔ)數(shù)據(jù)庫中的基礎(chǔ)數(shù)據(jù)與業(yè)務(wù)信息系統(tǒng)等的數(shù)據(jù)庫也不是簡(jiǎn)單的表表對(duì)應(yīng)關(guān)系,應(yīng)該是對(duì)數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換后再行存儲(chǔ)或共享?;A(chǔ)數(shù)據(jù)庫和業(yè)務(wù)數(shù)據(jù)庫之間的數(shù)據(jù)共享一般也要經(jīng)過中間庫或中間表進(jìn)行轉(zhuǎn)存,不直接向業(yè)務(wù)數(shù)據(jù)庫中插入或更新數(shù)據(jù)?;A(chǔ)數(shù)據(jù)庫的主要功能是存儲(chǔ)和交換數(shù)據(jù),除了建立以基礎(chǔ)數(shù)據(jù)庫為基礎(chǔ)的“數(shù)據(jù)服務(wù)”應(yīng)用之外,一般不在基礎(chǔ)數(shù)據(jù)庫上直接建立應(yīng)用系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行操作。

(2)確定數(shù)據(jù)權(quán)威源

在數(shù)據(jù)共享前,必須確定哪些數(shù)據(jù)是基礎(chǔ)數(shù)據(jù),由于業(yè)務(wù)信息系統(tǒng)中存在大量數(shù)據(jù),不可能把所有數(shù)據(jù)都同步到基礎(chǔ)數(shù)據(jù)庫中來,必須對(duì)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行清理,明確哪些是基礎(chǔ)數(shù)據(jù)。確定基礎(chǔ)數(shù)據(jù)的一般原則是,數(shù)據(jù)有明確的權(quán)威源且需要被其他信息系統(tǒng)共享使用。沒有明確權(quán)威源的數(shù)據(jù),無法保證其及時(shí)性和準(zhǔn)確性,不宜作為基礎(chǔ)數(shù)據(jù);雖有明確的權(quán)威源但不會(huì)被其他業(yè)務(wù)信息系統(tǒng)使用到的數(shù)據(jù),同步到基礎(chǔ)數(shù)據(jù)庫中意義不大。

確定基礎(chǔ)數(shù)據(jù)權(quán)威源的過程,實(shí)際上是確定產(chǎn)生這些基礎(chǔ)數(shù)據(jù)的業(yè)務(wù)信息系統(tǒng),而這些信息系統(tǒng)由學(xué)校不同的部門負(fù)責(zé)建設(shè)和管理,最終基礎(chǔ)數(shù)據(jù)的權(quán)威源就落實(shí)到了具體的部門?;A(chǔ)數(shù)據(jù)的產(chǎn)生和維護(hù)按照“誰產(chǎn)生,誰負(fù)責(zé)”的原則執(zhí)行,其他信息系統(tǒng)和業(yè)務(wù)部門在嚴(yán)格遵循“最少夠用”的原則下,經(jīng)基礎(chǔ)數(shù)據(jù)產(chǎn)生部門批準(zhǔn)后共享使用?;A(chǔ)數(shù)據(jù)僅允許產(chǎn)生該部分?jǐn)?shù)據(jù)的權(quán)威源業(yè)務(wù)信息系統(tǒng)或部門可以更新,其他信息系統(tǒng)只能使用,不能更新。

為了保證數(shù)據(jù)的唯一性,要避免發(fā)生“一數(shù)多源”情況,即某個(gè)數(shù)據(jù)的權(quán)威源有多個(gè)。例如教職工的聯(lián)系方式(如手機(jī)號(hào)碼),可能會(huì)有多個(gè)業(yè)務(wù)信息系統(tǒng)中均存儲(chǔ)了該信息,但最終必須明確某一個(gè)業(yè)務(wù)信息系統(tǒng)作為權(quán)威源。華中科技大學(xué)的師生聯(lián)系方式手機(jī)號(hào)碼權(quán)威源為學(xué)校信息門戶(綁定微信企業(yè)號(hào)時(shí)必須確定手機(jī)號(hào)碼),其他所有業(yè)務(wù)信息系統(tǒng)不得采集師生手機(jī)號(hào)碼,如需使用,必須從學(xué)校基礎(chǔ)數(shù)據(jù)庫申請(qǐng)。

(3)制定數(shù)據(jù)標(biāo)準(zhǔn)

數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)交換與共享的基礎(chǔ),因此,在實(shí)施數(shù)據(jù)共享前應(yīng)先制定數(shù)據(jù)標(biāo)準(zhǔn)。如果所有信息系統(tǒng)均未建立數(shù)據(jù)庫,就以教育部頒發(fā)的《教育管理信息高等學(xué)校管理信息》標(biāo)準(zhǔn)和相關(guān)行業(yè)信息標(biāo)準(zhǔn)為基礎(chǔ),結(jié)合學(xué)校實(shí)際,制定學(xué)校的信息標(biāo)準(zhǔn),所有信息系統(tǒng)的數(shù)據(jù)庫必須按照學(xué)校發(fā)布的信息標(biāo)準(zhǔn)建設(shè),這是最為理想的情況。但現(xiàn)實(shí)情況是,很多業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)庫早已建成,并且可能正在支撐龐大的業(yè)務(wù)信息系統(tǒng)運(yùn)行,讓這些業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)庫重新按照一個(gè)新的數(shù)據(jù)標(biāo)準(zhǔn)來更新重建,是不現(xiàn)實(shí)的,他們會(huì)認(rèn)為即使是很小的數(shù)據(jù)標(biāo)準(zhǔn)的改動(dòng),也會(huì)引起現(xiàn)有業(yè)務(wù)信息系統(tǒng)的穩(wěn)定運(yùn)行,因此,他們往往會(huì)拒絕采用新制定的標(biāo)準(zhǔn)。如果一個(gè)標(biāo)準(zhǔn)被大多業(yè)務(wù)信息系統(tǒng)拒絕采用,則這個(gè)標(biāo)準(zhǔn)注定會(huì)成為空中樓閣,就是一個(gè)失敗的標(biāo)準(zhǔn)。

那是否可以完全妥協(xié)、遷就現(xiàn)有業(yè)務(wù)信息系統(tǒng)中既有的數(shù)據(jù)標(biāo)準(zhǔn),學(xué)校新的數(shù)據(jù)標(biāo)準(zhǔn)按照這些既有的事實(shí)標(biāo)準(zhǔn)(舊標(biāo)準(zhǔn))來制定,而置國(guó)家或教育部標(biāo)準(zhǔn)于不顧呢?答案也是否定的,這樣做,就會(huì)使國(guó)家或?qū)W校的新標(biāo)準(zhǔn)永遠(yuǎn)無法落地,不利于未來與國(guó)家相關(guān)信息系統(tǒng)或報(bào)表對(duì)接,而且隨著需要共享的數(shù)據(jù)庫和對(duì)接的業(yè)務(wù)信息系統(tǒng)增多,原來的不符合規(guī)范和標(biāo)準(zhǔn)的數(shù)據(jù)在具體共享過程中,也會(huì)非常麻煩。

比較可行的辦法是,根據(jù)國(guó)家相關(guān)標(biāo)準(zhǔn),以及本單位信息化建設(shè)的實(shí)際情況,制訂較為完善的數(shù)據(jù)標(biāo)準(zhǔn)化體系。[4]學(xué)校的標(biāo)準(zhǔn)仍以國(guó)家、教育部以及行業(yè)頒布的標(biāo)準(zhǔn)為主,上述標(biāo)準(zhǔn)未涉及的部分根據(jù)學(xué)校實(shí)際情況制定,且盡量遵循現(xiàn)有的權(quán)威源業(yè)務(wù)信息系統(tǒng)中的數(shù)據(jù)標(biāo)準(zhǔn),以利于推廣和減少反復(fù)。應(yīng)用標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)共享步驟大致為:首先,以教職工和學(xué)生的基本信息、教學(xué)、學(xué)習(xí)、科研等核心數(shù)據(jù)為主要內(nèi)容建立一個(gè)符合標(biāo)準(zhǔn)的數(shù)據(jù)集合。其次,將這些數(shù)據(jù)從權(quán)威源同步到基礎(chǔ)數(shù)據(jù)庫中,同步時(shí)如果權(quán)威源中的數(shù)據(jù)標(biāo)準(zhǔn)與學(xué)校標(biāo)準(zhǔn)不一致時(shí),要求其轉(zhuǎn)換成學(xué)校新標(biāo)準(zhǔn)或建立學(xué)校新標(biāo)準(zhǔn)與舊標(biāo)準(zhǔn)的對(duì)照表,通過中間數(shù)據(jù)庫將數(shù)據(jù)推送到學(xué)?;A(chǔ)數(shù)據(jù)庫。這樣,學(xué)?;A(chǔ)庫中收到的數(shù)據(jù)應(yīng)是符合學(xué)校新標(biāo)準(zhǔn)的數(shù)據(jù),如果仍有不準(zhǔn)確的,經(jīng)過雙方協(xié)商,確定數(shù)據(jù)的清洗、糾錯(cuò)等方案,直至數(shù)據(jù)準(zhǔn)確。再次,基礎(chǔ)數(shù)據(jù)庫通過中間庫將基礎(chǔ)數(shù)據(jù)同步到其他業(yè)務(wù)信息系統(tǒng)中,業(yè)務(wù)信息系統(tǒng)根據(jù)自身數(shù)據(jù)標(biāo)準(zhǔn)情況確定直接引用或者建立標(biāo)準(zhǔn)轉(zhuǎn)表后再引用。隨著現(xiàn)有業(yè)務(wù)信息系統(tǒng)的不斷升級(jí)改造和新舊系統(tǒng)的更替,新的標(biāo)準(zhǔn)將會(huì)逐步應(yīng)用到各個(gè)業(yè)務(wù)信息系統(tǒng)中,最終形成全校一盤棋。

(4)數(shù)據(jù)清洗

數(shù)據(jù)清洗是對(duì)不完整的數(shù)據(jù)、不一致的數(shù)據(jù)以及異常的數(shù)據(jù)進(jìn)行清洗,并過濾掉重復(fù)相似的記錄。[5]數(shù)據(jù)清洗的任務(wù)是過濾掉那些不符合要求的數(shù)據(jù),將過濾的結(jié)果交給業(yè)務(wù)主管部門,確認(rèn)是否過濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合要求的數(shù)據(jù)主要有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)和重復(fù)的數(shù)據(jù)三大類。

不完整的數(shù)據(jù)主要是一些應(yīng)有數(shù)據(jù)的缺失,對(duì)于缺失的數(shù)據(jù)按數(shù)據(jù)項(xiàng)應(yīng)進(jìn)一步分類,整理后提交給數(shù)據(jù)權(quán)威源部門補(bǔ)充完整后再進(jìn)行抽取。實(shí)際實(shí)施過程中此種方法常常會(huì)面臨數(shù)據(jù)權(quán)威源部門補(bǔ)充數(shù)據(jù)不及時(shí)的問題。此時(shí),可以采取“倒逼”方式。例如,如果有教職工或?qū)W生“缺失身份證信息”的,則在登錄學(xué)校的“統(tǒng)一身份認(rèn)證系統(tǒng)”時(shí),賬號(hào)標(biāo)識(shí)為未激活,需要身份證信息數(shù)據(jù)權(quán)威源業(yè)務(wù)信息系統(tǒng)完善好信息并同步到基礎(chǔ)數(shù)據(jù)庫后才可正常使用。

錯(cuò)誤的數(shù)據(jù)主要指格式不正確(如數(shù)字輸入全角數(shù)字字符)、取值范圍不正確(比如日期越界),對(duì)于此類錯(cuò)誤,一般使用SQL腳本進(jìn)行過濾,找出具體問題,直接在抽取的過程中通過編寫視圖對(duì)這些數(shù)據(jù)進(jìn)行修正,再抽取到基礎(chǔ)數(shù)據(jù)庫。

重復(fù)的數(shù)據(jù),比如身份證號(hào)重復(fù),使用SQL腳本導(dǎo)出問題數(shù)據(jù),定期反饋給數(shù)據(jù)源部門。對(duì)于數(shù)據(jù)源部門無法修正的,也采用“倒逼”方式,逐漸完善數(shù)據(jù)。

(5)數(shù)據(jù)異常處理

源數(shù)據(jù)更新包括數(shù)據(jù)的新增、修改和刪除,一般來說,源數(shù)據(jù)新增或修改后,同步到基礎(chǔ)數(shù)據(jù)庫表內(nèi)的數(shù)據(jù)進(jìn)行相應(yīng)的新增或修改即可,基礎(chǔ)數(shù)據(jù)庫再把新增和修改后的數(shù)據(jù)同步到其他業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)庫中。但是如果源數(shù)據(jù)將一條數(shù)據(jù)做了刪除處理后,基礎(chǔ)數(shù)據(jù)庫則不易直接做刪除處理??稍跀?shù)據(jù)同步到基礎(chǔ)庫前使用數(shù)據(jù)比對(duì)工具,找出存在異動(dòng)的數(shù)據(jù),對(duì)于刪除的數(shù)據(jù),使用工具生成SQL語句,將基礎(chǔ)數(shù)據(jù)庫的該條數(shù)據(jù)設(shè)置刪除標(biāo)志位,表示該條記錄已刪除,但該條記錄物理上仍然存在。同時(shí)在基礎(chǔ)數(shù)據(jù)庫的“刪除異動(dòng)表”中插入該條數(shù)據(jù)。在將數(shù)據(jù)同步給其他業(yè)務(wù)信息系統(tǒng)使用時(shí)將“刪除異動(dòng)表”推送給有需求的業(yè)務(wù)信息系統(tǒng),由其根據(jù)異動(dòng)記錄表來更新本地的數(shù)據(jù)庫。

2.數(shù)據(jù)共享的實(shí)現(xiàn)方式

早期數(shù)據(jù)共享的方式之一是通過人工從源數(shù)據(jù)庫中導(dǎo)出Excel表格或Access文件,然后導(dǎo)入到目標(biāo)數(shù)據(jù)庫中,這種落后的共享方式早已無法適應(yīng)現(xiàn)代對(duì)數(shù)據(jù)共享的實(shí)時(shí)性要求高、多表關(guān)聯(lián)等復(fù)雜度高的要求,目前主要使用的是數(shù)據(jù)庫之間的同步或復(fù)制技術(shù)?,F(xiàn)介紹三種常見的數(shù)據(jù)共享技術(shù):一是定時(shí)推送,通過ETL工具定時(shí)將數(shù)據(jù)推送到業(yè)務(wù)信息系統(tǒng)專門為數(shù)據(jù)共享建立的中間庫中;二是實(shí)時(shí)同步,通過OGG(Oracle Golden Gate)實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)同步;三是提供數(shù)據(jù)接口,通過數(shù)據(jù)接口工具提供實(shí)時(shí)查詢。

(1)定時(shí)共享技術(shù)

定時(shí)推送的主要步驟:首先通過視圖等方式規(guī)范和清洗數(shù)據(jù),其次通過ETL工具將數(shù)據(jù)定時(shí)推送到業(yè)務(wù)信息系統(tǒng)的中間庫,最后由業(yè)務(wù)信息系統(tǒng)編寫同步程序從其中間庫同步到業(yè)務(wù)庫中。

需要說明的是:①關(guān)于同步工具。建議選擇Oracle ODI作為ETL工具,它支持幾乎所有主流的數(shù)據(jù)庫,例如Oracle、Mysql、Microsoft SQL Server、Informix、SybaseASEnterprise、SybaseASIQ等。另外,基于其知識(shí)模型體系,它能適應(yīng)不同的、多種多樣的數(shù)據(jù)源,靈活有效地完成數(shù)據(jù)抽取/轉(zhuǎn)換/載入的過程,通過配置代理和調(diào)度,可以實(shí)現(xiàn)自動(dòng)定時(shí)執(zhí)行數(shù)據(jù)同步。②關(guān)于中間庫。在將數(shù)據(jù)從基礎(chǔ)數(shù)據(jù)庫推送到業(yè)務(wù)信息系統(tǒng)時(shí),先將數(shù)據(jù)推到一個(gè)中間庫,這樣可以保證從基礎(chǔ)數(shù)據(jù)庫中推送出去的是標(biāo)準(zhǔn)化的數(shù)據(jù),同時(shí)推送的過程不影響業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)結(jié)構(gòu)及系統(tǒng)運(yùn)行。此外,中間庫的建立要與業(yè)務(wù)信息系統(tǒng)邏輯分離,但要嚴(yán)格限制,只能在基礎(chǔ)數(shù)據(jù)庫和業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)庫之間可以訪問,至少應(yīng)嚴(yán)格限制在校內(nèi)訪問,以保證數(shù)據(jù)的安全性。

定時(shí)推送的流程如圖2所示。

(2)實(shí)時(shí)共享技術(shù)

目前,市場(chǎng)上主流實(shí)現(xiàn)實(shí)時(shí)共享的技術(shù)主要是采用OGG(Oracle GoldenGate)進(jìn)行實(shí)時(shí)同步。主要步驟如圖3所示。

使用這種方式實(shí)現(xiàn)實(shí)時(shí)同步,需要在數(shù)據(jù)的源端和目標(biāo)端同時(shí)安裝OGG,OGG可以靈活地在同類和異類系統(tǒng)(包括不同版本的 Oracle Database、不同的硬件平臺(tái))之間以及 Oracle 數(shù)據(jù)庫和非 Oracle 數(shù)據(jù)庫(包括 Microsoft SQL Server、用于開放系統(tǒng)和 z/OS 的 IBM DB2、Sybase 等)之間移動(dòng)數(shù)據(jù)。

OGG 軟件是一種基于日志的結(jié)構(gòu)化數(shù)據(jù)復(fù)制備份軟件,它通過解析源數(shù)據(jù)庫在線日志或歸檔日志獲得數(shù)據(jù)的增量變化,再將這些變化應(yīng)用到目標(biāo)數(shù)據(jù)庫,從而實(shí)現(xiàn)源數(shù)據(jù)庫與目標(biāo)數(shù)據(jù)庫同步。[6]所以在源端和目標(biāo)端都需要開啟歸檔。需要注意的是,如果存儲(chǔ)空間有限,最好設(shè)定定時(shí)刪除舊的歸檔日志,以免影響數(shù)據(jù)庫的正常使用。

由于OGG通過傳遞在源端生成的trail文件,在目標(biāo)端將其解析為 DML或DDL語句,然后應(yīng)用到目標(biāo)數(shù)據(jù)庫中,這就要求源端和目標(biāo)端的表結(jié)構(gòu)完全一致,這在數(shù)據(jù)共享出去的時(shí)候和定時(shí)同步的方式?jīng)]有區(qū)別,但是數(shù)據(jù)集成到基礎(chǔ)數(shù)據(jù)庫中時(shí),就無法再通過視圖的方式清洗和規(guī)范數(shù)據(jù),為了解決這個(gè)問題,就需要在業(yè)務(wù)信息系統(tǒng)和基礎(chǔ)數(shù)據(jù)庫中間添加“數(shù)據(jù)中心實(shí)時(shí)同步庫”,其中的數(shù)據(jù)結(jié)構(gòu)與源端保持一致,然后在其中通過建立存儲(chǔ)過程和觸發(fā)器的方式進(jìn)行數(shù)據(jù)清洗和規(guī)范。對(duì)于源端和基礎(chǔ)庫差別較大的數(shù)據(jù),這種方式效率較低。如果采用此種方式實(shí)現(xiàn)實(shí)時(shí)同步、日常維護(hù)時(shí),需要定期在源端和目標(biāo)端檢查OGG是否正常運(yùn)行。

(3)數(shù)據(jù)服務(wù)技術(shù)

當(dāng)前的ODI方式只能實(shí)現(xiàn)定期(非實(shí)時(shí))的數(shù)據(jù)推送,從其工作機(jī)制上就無法實(shí)現(xiàn)真正的“實(shí)時(shí)數(shù)據(jù)共享”。OGG方式雖然實(shí)現(xiàn)了源與目標(biāo)數(shù)據(jù)的實(shí)時(shí)同步,但由于數(shù)據(jù)結(jié)構(gòu)只能按照源端進(jìn)行定義,目標(biāo)程序使用數(shù)據(jù)時(shí)還需要存儲(chǔ)過程進(jìn)行讀取、轉(zhuǎn)換、寫入生產(chǎn)庫,才能生效,因此也不能完全實(shí)現(xiàn)“端到端”的實(shí)時(shí)共享。于是需要引入新的數(shù)據(jù)共享機(jī)制,即通過數(shù)據(jù)接口提供數(shù)據(jù)。

將需要共享的數(shù)據(jù)對(duì)象封裝為API接口,[7]目標(biāo)系統(tǒng)需要數(shù)據(jù)時(shí),直接在代碼中調(diào)用API接口,輸入必要的參數(shù)發(fā)起查詢,API引擎立刻直接執(zhí)行檢索后返回結(jié)果給應(yīng)用程序,因此減少了使用ODI時(shí)定時(shí)執(zhí)行的時(shí)間,以及將數(shù)據(jù)從中間庫轉(zhuǎn)到生產(chǎn)庫的延遲。

三、結(jié)語

校園信息化發(fā)展到現(xiàn)階段,數(shù)據(jù)共享的需求已經(jīng)呈井噴之勢(shì),而且隨著新系統(tǒng)新應(yīng)用的不斷推出,數(shù)據(jù)共享的需求會(huì)越來越多。數(shù)據(jù)共享的方式很多,無法判斷哪一種是最佳的方式,方式的選擇都應(yīng)該根據(jù)具體需求和應(yīng)用場(chǎng)景來確定。總體來說,對(duì)于更新比較頻繁的數(shù)據(jù),比如人事信息、學(xué)生基本信息應(yīng)該采用實(shí)時(shí)同步的方式;對(duì)于變化頻率不高的數(shù)據(jù),采用定時(shí)同步的方式,可以根據(jù)需要加快更新頻率,減小更新時(shí)間間隔;對(duì)于數(shù)據(jù)量較小、不需要持續(xù)和基礎(chǔ)數(shù)據(jù)庫保持一致的數(shù)據(jù),可以采用數(shù)據(jù)接口的方式。我們也希望數(shù)據(jù)庫技術(shù)更進(jìn)一步發(fā)展,讓數(shù)據(jù)共享變得更加自動(dòng)化、智能化,減輕數(shù)據(jù)管理人員的負(fù)擔(dān)。

截至目前,我校數(shù)據(jù)共享平臺(tái)已實(shí)現(xiàn)約160個(gè)應(yīng)用系統(tǒng)之間數(shù)據(jù)共享與交換,其中網(wǎng)上辦事大廳的各類流程數(shù)據(jù)均通過數(shù)據(jù)共享平臺(tái)提供給各系統(tǒng)。目前已包括人事、教務(wù)、研究生、科研、資產(chǎn)、財(cái)務(wù)及后勤等7大類近70萬條數(shù)據(jù)記錄,集成了近25個(gè)系統(tǒng)數(shù)據(jù),為近95個(gè)應(yīng)用系統(tǒng)提供基礎(chǔ)數(shù)據(jù),為40多個(gè)系統(tǒng)之間的數(shù)據(jù)交換提供平臺(tái)。日均交換數(shù)據(jù)6000萬條。

參考文獻(xiàn):

[1]教技[2012]5號(hào).教育部關(guān)于印發(fā)《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》的通知[Z].

[2]連純?nèi)A.高校信息化建設(shè)中的信息孤島現(xiàn)象及對(duì)策[J].教育評(píng)論,2009(1):36-38.

[3]俞春,袁芳,劉乃嘉,王茜.高校數(shù)據(jù)共享與交換技術(shù)的應(yīng)用研究[J].實(shí)驗(yàn)技術(shù)與管理,2012(11):109-112,122.

[4]吳琳,張玉振.解析高校數(shù)字化校園平臺(tái)建設(shè)方案與數(shù)據(jù)共享——以西安電子科技大學(xué)為例[J].陜西教育(高教版),2011(10):110-111.

[5]吳信東,董丙冰,堵新政,楊威.數(shù)據(jù)治理技術(shù)[J].軟件學(xué)報(bào),2019(9):2830-2856.

[6]卓鳳艷,崔巍,姜娜娜,王凡.基于Oracle GoldenGate的異構(gòu)數(shù)據(jù)庫實(shí)時(shí)同步研究與應(yīng)用[J].信息技術(shù)與信息化,2019(6).

[7]李曉東,楊揚(yáng),郭文彩.基于企業(yè)服務(wù)總線的數(shù)據(jù)共享與交換平臺(tái)[J].計(jì)算機(jī)工程,2006(21):217-219,223.

(編輯:王天鵬)

猜你喜歡
數(shù)據(jù)治理
營(yíng)配貫通臺(tái)區(qū)線損異常數(shù)據(jù)治理分析
智慧城市建設(shè)項(xiàng)目風(fēng)險(xiǎn)挑戰(zhàn)與解決經(jīng)驗(yàn)
大數(shù)據(jù)治理模型與治理成熟度評(píng)估研究
大數(shù)據(jù)時(shí)代城市治理:數(shù)據(jù)異化與數(shù)據(jù)治理
哈巴河县| 焦作市| 安新县| 巢湖市| 邢台县| 绥德县| 临漳县| 淮北市| 西林县| 涿州市| 连云港市| 蒙自县| 新疆| 荥阳市| 白水县| 乌鲁木齐县| 武平县| 同江市| 潞城市| 阜新| 贞丰县| 连州市| 徐州市| 桐城市| 历史| 丽江市| 大埔县| 图们市| 资讯 | 大英县| 东兰县| 海门市| 香格里拉县| 连城县| 子长县| 沁水县| 东台市| 新民市| 石嘴山市| 札达县| 原阳县|