劉雪芳
(景德鎮(zhèn)學(xué)院,江西 景德鎮(zhèn) 333400)
近些年來,隨著信息化的快速發(fā)展,傳統(tǒng)的數(shù)字校園在數(shù)據(jù)交換上暴露出一些問題,如數(shù)據(jù)孤島、數(shù)據(jù)丟失,以及缺乏統(tǒng)一的數(shù)據(jù)集成平臺等問題。本文旨在通過異構(gòu)數(shù)據(jù)集成技術(shù)的研究,助力智慧校園建設(shè)。異構(gòu)數(shù)據(jù)是指當(dāng)綜合系統(tǒng)中要完成相應(yīng)的任務(wù)時,需要訪問不同系統(tǒng)模塊的數(shù)據(jù)。通過異構(gòu)數(shù)據(jù)集成技術(shù)運用,可以實現(xiàn)數(shù)據(jù)轉(zhuǎn)換、處理和共享等目的,進而加快信息化校園建設(shè)的步伐。
由于近年來高校的不斷擴招,校園系統(tǒng)資源及龐大信息數(shù)據(jù)之間的沖突日趨加劇。這就要求學(xué)校要不斷改善系統(tǒng)資源和信息數(shù)據(jù)管理質(zhì)量,以便更好地服務(wù)于師生。中國高校就現(xiàn)階段而言,引進物聯(lián)網(wǎng)技術(shù),利用互聯(lián)網(wǎng)技術(shù)、移動通信網(wǎng)絡(luò)技術(shù)以及計算機軟、硬件設(shè)備等,加快智慧校園數(shù)字化步伐,是當(dāng)前智慧校園建設(shè)與發(fā)展的必經(jīng)之路[1]。先進的信息化手段的應(yīng)用,順應(yīng)了社會的發(fā)展需求,同時也能極大地提升高校的現(xiàn)代化管理水平,從而促進高校各項工作全面發(fā)展。
智慧校園建設(shè)旨在打造一個靈活、智能、高效的校園系統(tǒng)。其一,校園管理者能夠又快又準(zhǔn)地獲悉校園內(nèi)的物、財、人以及研、學(xué)、管等方面的信息,因此在數(shù)據(jù)方面可以給業(yè)務(wù)流程的優(yōu)化以及管理的改進奠定基礎(chǔ);其二,實現(xiàn)自然、人、設(shè)備、社會因素之間的相互聯(lián)通,實現(xiàn)這些因素間互動的智能化;其三,經(jīng)過集成并融合應(yīng)用服務(wù),校園管理者可以高效獲得校園信息,實現(xiàn)信息共享,加快步伐實現(xiàn)生活、管理、教學(xué)、科研以及服務(wù)的智慧化發(fā)展。
構(gòu)建基于異構(gòu)數(shù)據(jù)集成技術(shù)的智慧校園,可以實現(xiàn)智慧校園信息的互聯(lián)互通和資源的共享。為更好地推進智慧校園異構(gòu)數(shù)據(jù)集成技術(shù)研究與構(gòu)建,筆者認為可依據(jù)下列思路,開展相應(yīng)的研究工作:
第一步,建立數(shù)據(jù)標(biāo)準(zhǔn),暢通數(shù)據(jù)交換渠道。在著手開展數(shù)字化校園建設(shè)之初時,學(xué)校便已架構(gòu)了包含教務(wù)系統(tǒng)在內(nèi)的諸多業(yè)務(wù)系統(tǒng)。隨著投入時間的增加,上述獨立的系統(tǒng)會變得越來越成熟,然而各自都有一套自己的數(shù)據(jù)結(jié)構(gòu)與數(shù)據(jù)標(biāo)準(zhǔn),集成要求不一致,很難進行不同系統(tǒng)之間的數(shù)據(jù)交換。為了確保數(shù)據(jù)在采集、處理、傳輸以及交換時具備統(tǒng)一、合理、規(guī)范的描述與分類,應(yīng)率先實施數(shù)據(jù)標(biāo)準(zhǔn)建設(shè),緊接著以數(shù)據(jù)標(biāo)準(zhǔn)為依據(jù)建立數(shù)據(jù)模型,為數(shù)據(jù)共享和數(shù)據(jù)集成奠定基礎(chǔ)。
第二步,構(gòu)建數(shù)據(jù)模型,對各種數(shù)據(jù)形成的權(quán)威數(shù)據(jù)源進行梳理與歸納匯總,保障每個數(shù)據(jù)都有與其對應(yīng)的數(shù)據(jù)源。比如,學(xué)生的數(shù)據(jù)基本上都出自教務(wù)系統(tǒng),教職工的數(shù)據(jù)則大都出自人事系統(tǒng),所有數(shù)據(jù)均有相對應(yīng)的所有者與生產(chǎn)者,嚴格遵循“誰生成、誰負責(zé)”的原則,確保權(quán)責(zé)清晰。
第三步,尋找數(shù)據(jù)源,確定需集成至數(shù)據(jù)中心的數(shù)據(jù)。所有業(yè)務(wù)系統(tǒng)內(nèi)均存在許多數(shù)據(jù),其中大多數(shù)為業(yè)務(wù)系統(tǒng)自身產(chǎn)生的相關(guān)信息數(shù)據(jù),就其本身系統(tǒng)而言意義重大,但是對別的業(yè)務(wù)系統(tǒng)而言則沒有任何意義與價值,在數(shù)據(jù)集成時要排除這些冗余信息。實際上數(shù)據(jù)集成就是以結(jié)果數(shù)據(jù)為導(dǎo)向,具體操作時,要同步進行前三步的工作,確立標(biāo)準(zhǔn)的同時,要對源頭進行梳理,小到字段信息均需實施數(shù)據(jù)集成確認操作。
第四步,打造數(shù)據(jù)中心,對數(shù)據(jù)進行轉(zhuǎn)換、加載、抽取、清洗。在抽取數(shù)據(jù)時,應(yīng)按照數(shù)據(jù)標(biāo)準(zhǔn)轉(zhuǎn)換并清洗不規(guī)范數(shù)據(jù),完全清理冗余數(shù)據(jù),然后加載到數(shù)據(jù)中心。在進行數(shù)據(jù)轉(zhuǎn)換時,要刪除標(biāo)記字段和時間戳字段。
第五步,共享數(shù)據(jù),對數(shù)據(jù)進行高效管理。以服務(wù)接口為媒介,數(shù)據(jù)中心可以提供全天候數(shù)據(jù)共享,同時立足于共享數(shù)據(jù),在充分考慮到學(xué)生的學(xué)習(xí)生涯與學(xué)校教職工的任職生涯結(jié)束之后,應(yīng)用全生命周期數(shù)據(jù)管理方法對數(shù)據(jù)進行高效管理。例如,依據(jù)身份證件號,對學(xué)生的發(fā)展歷程,教職工的在職、報到、離職等進行全生命周期數(shù)據(jù)管理。
3.2.1構(gòu)建數(shù)據(jù)模型
數(shù)據(jù)模型的構(gòu)建要結(jié)合學(xué)校業(yè)務(wù)的開展情況,依據(jù)國家及行業(yè)有關(guān)法律法規(guī),著重思考數(shù)據(jù)的查詢、確立、維護、執(zhí)行等功能,從而編制合理、統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)。在智慧校園建設(shè)調(diào)研過程中,筆者與學(xué)校教務(wù)管理系統(tǒng)、人事管理系統(tǒng)、財務(wù)管理系統(tǒng)以及資產(chǎn)管理系統(tǒng)等部門進行了充分溝通和確認,提出數(shù)據(jù)標(biāo)準(zhǔn)包含以下兩種類型:
其一,代碼標(biāo)準(zhǔn)。無論哪一個業(yè)務(wù)系統(tǒng),其均需用到代碼類數(shù)據(jù),使用者統(tǒng)稱其為代碼,比方說籍貫代碼、政治面貌代碼[3]。智慧校園數(shù)據(jù)代碼標(biāo)準(zhǔn)應(yīng)當(dāng)以國際通行的軟件開發(fā)規(guī)范與標(biāo)準(zhǔn)為參考,依據(jù)《中華人民共和國教育行業(yè)標(biāo)準(zhǔn)JY/T1001-2012》以及學(xué)校的規(guī)定及發(fā)展情況確立。
其二,元數(shù)據(jù)標(biāo)準(zhǔn)。元數(shù)據(jù),顧名思義指的是與數(shù)據(jù)有關(guān)的數(shù)據(jù),是進行數(shù)據(jù)管理的前提[4]。通過使用元數(shù)據(jù),可將數(shù)據(jù)庫里數(shù)據(jù)的分布狀況詳細地記錄下來。元數(shù)據(jù)標(biāo)準(zhǔn)必須符合數(shù)據(jù)的規(guī)范性、嚴謹性等要求,換言之,為降低操作期間出現(xiàn)信息損失的概率,要求元數(shù)據(jù)必須具有易轉(zhuǎn)換性、互操作性。在確立元數(shù)據(jù)標(biāo)準(zhǔn)前,應(yīng)先將所有元數(shù)據(jù)的源頭明晰下來,確定屬性。學(xué)校元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)當(dāng)在充分考慮學(xué)校業(yè)務(wù)狀況的前提下確立,并應(yīng)與學(xué)校資源的擴展實際相符。概言之,在進行數(shù)據(jù)集成建設(shè)時,要立足于元數(shù)據(jù)標(biāo)準(zhǔn)與代碼標(biāo)準(zhǔn),以數(shù)據(jù)標(biāo)準(zhǔn)為依據(jù),積極轉(zhuǎn)換已有系統(tǒng)的非標(biāo)準(zhǔn)數(shù)據(jù)資源。
3.2.2建設(shè)數(shù)據(jù)中心
以代碼標(biāo)準(zhǔn)和元數(shù)據(jù)標(biāo)準(zhǔn)為參考依據(jù),確立數(shù)據(jù)模型,建設(shè)數(shù)據(jù)中心,然后對數(shù)據(jù)進行清洗、抽取、加載處理。具體流程為:
(1)數(shù)據(jù)抽取
鑒于異構(gòu)數(shù)據(jù)庫在新的業(yè)務(wù)系統(tǒng)中得到了應(yīng)用,但是在一些老、舊的業(yè)務(wù)系統(tǒng)中未得到有效維護,因此,在進行抽取數(shù)據(jù)的過程中,往往需要采取如下措施[5]:
①使用接口
優(yōu)勢:無需直接訪問數(shù)據(jù)庫,較為安全;在開發(fā)接口的過程中,可事先轉(zhuǎn)換代碼、格式,做好數(shù)據(jù)清洗工作,同時可在清洗、轉(zhuǎn)換數(shù)據(jù)期間使用接口。
不足:要求業(yè)務(wù)系統(tǒng)技術(shù)維護人員參與系統(tǒng)研發(fā)環(huán)節(jié),在字段出現(xiàn)改變的情況下,維護人員一定要積極做出應(yīng)對,及時更新接口。所以,對于有專業(yè)技術(shù)維護人員的業(yè)務(wù)系統(tǒng),宜采取此方式。
②直接訪問數(shù)據(jù)庫
優(yōu)勢:可對數(shù)據(jù)庫進行直接訪問,獲取到視圖或者數(shù)據(jù)表信息,無中間過程存在,無需額外開發(fā)。
不足:需要直接訪問數(shù)據(jù)庫,不夠安全;在字段屬性出現(xiàn)改變的情況下,視圖將無法再繼續(xù)發(fā)揮自己的作用,這種情況下就需要數(shù)據(jù)庫管理員進行處理。也正因為這樣,對于無技術(shù)人員維護的老舊業(yè)務(wù)系統(tǒng),宜采取此方式。
(2)數(shù)據(jù)清洗與轉(zhuǎn)換
在抽取數(shù)據(jù)環(huán)節(jié),難免會遇到數(shù)據(jù)質(zhì)量存在問題的情況,這時則需對數(shù)據(jù)實施清洗與轉(zhuǎn)換操作,操作過程中,可考慮采取主鍵重復(fù)、格式內(nèi)容清洗、非空檢查、邏輯錯誤清洗、代碼轉(zhuǎn)換等方法。如果在實施數(shù)據(jù)清洗與轉(zhuǎn)換的過程中,由于數(shù)據(jù)源內(nèi)出現(xiàn)了代碼不達標(biāo)的情況,還需對不達標(biāo)的代碼等進行轉(zhuǎn)碼處理。
(3)數(shù)據(jù)加載
完成以上操作之后,需進行字段選擇和排序,將源頭數(shù)據(jù)與數(shù)據(jù)中心的數(shù)據(jù)進行對比研究。假定從數(shù)據(jù)中心無法發(fā)現(xiàn)某條記錄,然而源頭數(shù)據(jù)又確實存在,在這種情況下就必須新增操作予以處置。如果某條記錄均出現(xiàn)于源頭數(shù)據(jù)和數(shù)據(jù)中心,然而兩者的數(shù)據(jù)又存在區(qū)別,在這種情況下應(yīng)予以更新處置。
(4)元數(shù)據(jù)刪除與超長同步時間解決方案
考慮到數(shù)據(jù)的完整性,存在于數(shù)據(jù)中心的數(shù)據(jù)將長久存在。但是在數(shù)據(jù)源記錄刪除的過程中,數(shù)據(jù)中心要怎樣才能和數(shù)據(jù)源保持相同呢?筆者認為,應(yīng)采用邏輯刪除方案,也就是新增邏輯刪除(SCBJ)字段至所有數(shù)據(jù)表內(nèi)。例如,有工作人員刪除掉了某一記錄的數(shù)據(jù)源,且被檢測到了,這種情況下在進行數(shù)據(jù)加載的時候必須設(shè)置對應(yīng)的記錄的邏輯刪除字段為1,此外別的字段要設(shè)置為0。對于其他同步服務(wù)接口,則需予以過濾處置,以免其影響別的業(yè)務(wù)系統(tǒng),采取此方式處理數(shù)據(jù),可以有效地解決顯示錯誤的問題。
一般而言,每一個業(yè)務(wù)系統(tǒng)內(nèi)的數(shù)據(jù)有多有少,不盡相同,有些系統(tǒng)內(nèi)含的數(shù)據(jù)頗多,導(dǎo)致別的系統(tǒng)在與其進行數(shù)據(jù)共享的過程中需耗費的時長增加。例如,全量同步40余萬條記錄,至少需要消耗100分鐘,會影響到服務(wù)器的性能以及用戶操作的滿意度。對此,筆者認為可考慮采用時間戳(SJC)字段方案,也就是將一個時間戳字段增設(shè)到所有數(shù)據(jù)表內(nèi)。不論是哪條記錄加載至數(shù)據(jù)中心,若監(jiān)測到存在變化的情況,那么立馬把時間戳字段賦予當(dāng)前時間。在進行數(shù)據(jù)同步處理的過程中,業(yè)務(wù)系統(tǒng)在初始化環(huán)節(jié)一次性同步全部數(shù)據(jù)即可,而在接下來的所有環(huán)節(jié)里面,均只需要看記錄的數(shù)據(jù)和歷史記錄時間戳字段值之間的區(qū)別,從而判斷是否有必要對此條記錄進行同步處理。
在實踐操作期間,要想使同步時間有所減少,可考慮使用時間戳字段,這樣的話也可以簡化系統(tǒng)運行的流程。結(jié)合時間戳字段與邏輯刪除字段,可妥善地處理好歷史數(shù)據(jù)存儲的問題,所有記錄均會被存儲于數(shù)據(jù)中心內(nèi),不再可能遭到刪除。
3.2.3數(shù)據(jù)全生命周期管理
數(shù)據(jù)中心中完成了大量數(shù)據(jù)的集成,如職稱評審、部門調(diào)整、學(xué)籍更改等過程的全部數(shù)據(jù)。此次研究立足于此,提出了全生命周期的定義。不管人員信息發(fā)生了怎樣的改變,只需輸入唯一的身份證件號,即可實現(xiàn)對用戶當(dāng)前身份與狀態(tài)進行智能的識別。因為歷史記錄無法徹底刪除,一旦入校,學(xué)生與教職工的身份信息均可追溯,即可實現(xiàn)對全部在校人員的信息全生命周期管理。再者,在系統(tǒng)中可依據(jù)用戶的狀態(tài)信息以及身份信息賦予其對應(yīng)的權(quán)限,這樣就可以對業(yè)務(wù)系統(tǒng)的角色權(quán)限進行控制,實現(xiàn)精準(zhǔn)訪問。
隨著各高校的信息化發(fā)展,數(shù)據(jù)集成所起的作用日益凸顯。不論是向用戶提供何種信息化服務(wù),實際上都應(yīng)以研究數(shù)據(jù)集成為切入點,此次研究中探討了不同業(yè)務(wù)系統(tǒng)異構(gòu)數(shù)據(jù)之間的數(shù)據(jù)集成問題。日后,智慧校園建設(shè)應(yīng)需完成數(shù)據(jù)治理,確保數(shù)據(jù)的完整度與可用性,并高度重視數(shù)據(jù)安全管理,對隱私數(shù)據(jù)進行脫敏、加密、模糊化處置,以確保數(shù)據(jù)運作的安全性、穩(wěn)定性,從而達到實現(xiàn)教育信息化的目標(biāo)。