萬(wàn)楚
(上海立信會(huì)計(jì)金融學(xué)院信息技術(shù)中心,上海 201620)
在教育領(lǐng)域,數(shù)據(jù)作為一種新型的生產(chǎn)要素和戰(zhàn)略資源,其重要作用日益凸顯。它不僅可以反映教育現(xiàn)狀和趨勢(shì),還可以支持教育決策和創(chuàng)新,促進(jìn)教育質(zhì)量和效率的提升。高校作為數(shù)據(jù)密集型的組織,其數(shù)據(jù)龐雜多樣,涉及教學(xué)、科研、管理、服務(wù)等方方面面,如何有效地管理和利用這些數(shù)據(jù),是高校信息化建設(shè)和教育管理面臨的重要課題。隨著校園信息化建設(shè)愈加完善,數(shù)據(jù)治理也成了建設(shè)智慧校園階段亟需解決的重要問(wèn)題。
由于學(xué)校數(shù)據(jù)涉及全校師生和眾多業(yè)務(wù)部門,需要依據(jù)數(shù)據(jù)的生命周期,統(tǒng)籌規(guī)劃,分階段實(shí)施。在數(shù)據(jù)治理實(shí)踐中不能一味貪大求全,首先應(yīng)該從核心系統(tǒng)、核心需求、核心數(shù)據(jù)入手,在汲取先進(jìn)經(jīng)驗(yàn)的基礎(chǔ)上,分階段地推進(jìn)與完善[1]。
數(shù)據(jù)資產(chǎn)管理與服務(wù)平臺(tái)是數(shù)據(jù)治理與應(yīng)用的重要基礎(chǔ)平臺(tái),本文依據(jù)數(shù)據(jù)的生命周期,對(duì)校園數(shù)據(jù)資產(chǎn)管理與服務(wù)平臺(tái)進(jìn)行統(tǒng)籌設(shè)計(jì),以實(shí)現(xiàn)數(shù)據(jù)資源互聯(lián)互通和數(shù)據(jù)價(jià)值最大化。
近些年,隨著高校信息化進(jìn)程的推進(jìn),高校對(duì)數(shù)據(jù)治理的認(rèn)識(shí)得到了普遍提升,數(shù)據(jù)治理已經(jīng)作為信息化建設(shè)的重點(diǎn)任務(wù)之一,被納入學(xué)校發(fā)展規(guī)劃。目前而言,高校數(shù)據(jù)治理存在的問(wèn)題可以歸納為以下幾方面。
1)數(shù)據(jù)安全問(wèn)題
2020年6月,《中華人民共和國(guó)數(shù)據(jù)安全法》正式實(shí)施。教育數(shù)據(jù)多樣龐雜,涉及教學(xué)、科研、行政管理方方面面,需要全面的數(shù)據(jù)安全保護(hù)。但是,由于高校數(shù)據(jù)來(lái)源復(fù)雜、數(shù)據(jù)存儲(chǔ)方式多樣、數(shù)據(jù)傳輸途徑繁多等原因,導(dǎo)致高校數(shù)據(jù)的安全性難以得到保障。雖然建立了較為完善的數(shù)據(jù)安全管理機(jī)制,依然需要通過(guò)技術(shù)手段加強(qiáng)數(shù)據(jù)的保密、備份和恢復(fù)機(jī)制,確保高校數(shù)據(jù)安全可靠。
2)數(shù)據(jù)質(zhì)量問(wèn)題
教育數(shù)據(jù)質(zhì)量問(wèn)題也是一個(gè)需要重視的問(wèn)題。由于數(shù)據(jù)涉及多個(gè)部門和領(lǐng)域,因此可能存在數(shù)據(jù)錯(cuò)誤、數(shù)據(jù)重復(fù)、數(shù)據(jù)不一致、數(shù)據(jù)不完整、數(shù)據(jù)格式不匹配等問(wèn)題。這些問(wèn)題有可能嚴(yán)重影響高校決策和管理的準(zhǔn)確性和有效性[2]。高校應(yīng)該在建立完善的數(shù)據(jù)質(zhì)量管理機(jī)制的基礎(chǔ)上,加強(qiáng)數(shù)據(jù)采集、整合和清洗工作,提高數(shù)據(jù)質(zhì)量和準(zhǔn)確性。
3)數(shù)據(jù)共享問(wèn)題
數(shù)據(jù)共享問(wèn)題是當(dāng)前亟需解決的問(wèn)題之一。由于數(shù)據(jù)來(lái)源眾多、管理部門繁雜,導(dǎo)致校內(nèi)各部門之間數(shù)據(jù)共享不暢,也不利于實(shí)現(xiàn)跨校間的數(shù)據(jù)共享。高校應(yīng)該建立完善的數(shù)據(jù)共享機(jī)制,加強(qiáng)內(nèi)部部門之間和跨校間的數(shù)據(jù)共享,提高數(shù)據(jù)的利用效率和價(jià)值[3]。
4)數(shù)據(jù)分析問(wèn)題
由于高校數(shù)據(jù)規(guī)模龐大,涉及多個(gè)領(lǐng)域和部門,因此需要進(jìn)行全面的數(shù)據(jù)分析工作。但是,由于高校缺乏專業(yè)的數(shù)據(jù)分析人員和分析工具,導(dǎo)致高校數(shù)據(jù)分析工作難以進(jìn)行。高校應(yīng)該加強(qiáng)對(duì)專業(yè)人才的引進(jìn)和培養(yǎng),建立專業(yè)的數(shù)據(jù)分析團(tuán)隊(duì)和分析工具,提升高校數(shù)據(jù)分析能力。
總之,高校數(shù)據(jù)治理是一個(gè)系統(tǒng)性工程,在實(shí)踐中需要不斷地完善和優(yōu)化。高校應(yīng)該統(tǒng)籌規(guī)劃,加強(qiáng)對(duì)數(shù)據(jù)安全、質(zhì)量、共享和分析等方面的管理和控制,推動(dòng)高校信息化建設(shè)向縱深發(fā)展。通過(guò)積極引進(jìn)或自主開(kāi)發(fā)適合自身需求的數(shù)據(jù)治理工具,如:數(shù)據(jù)共享平臺(tái)、數(shù)據(jù)質(zhì)量平臺(tái)、數(shù)據(jù)安全平臺(tái)等,實(shí)現(xiàn)數(shù)據(jù)治理的技術(shù)支撐,從而提高數(shù)據(jù)治理的效率和水平。利用數(shù)據(jù)治理成果支撐各項(xiàng)校園業(yè)務(wù)活動(dòng)和決策,如評(píng)估教學(xué)質(zhì)量、統(tǒng)計(jì)科研成果、優(yōu)化資源配置、應(yīng)對(duì)風(fēng)險(xiǎn)預(yù)警等,從而實(shí)現(xiàn)數(shù)據(jù)治理與業(yè)務(wù)融合、數(shù)據(jù)資源向價(jià)值轉(zhuǎn)化,進(jìn)而提升數(shù)據(jù)治理的應(yīng)用價(jià)值和社會(huì)效益[4]。
數(shù)據(jù)生命周期是指數(shù)據(jù)從產(chǎn)生到最終消亡的整個(gè)過(guò)程。這個(gè)過(guò)程包括采集、存儲(chǔ)、處理、分析和應(yīng)用。在數(shù)據(jù)的生命周期中,我們需要關(guān)注數(shù)據(jù)的質(zhì)量、安全和合規(guī)性。首先,數(shù)據(jù)的采集需要保證數(shù)據(jù)的準(zhǔn)確性和完整性,避免數(shù)據(jù)的重復(fù)和錯(cuò)誤。其次,數(shù)據(jù)的存儲(chǔ)需要保證數(shù)據(jù)的安全性和可靠性,避免數(shù)據(jù)的泄漏和損壞。再次,數(shù)據(jù)的處理需要保證數(shù)據(jù)的一致性和可追溯性,避免數(shù)據(jù)的篡改和誤用。最后,數(shù)據(jù)的分析和應(yīng)用需要保證數(shù)據(jù)的合法性和合規(guī)性,遵守相關(guān)法律法規(guī)和行業(yè)標(biāo)準(zhǔn)。在數(shù)據(jù)生命周期管理中,我們需要遵循相關(guān)法律法規(guī)和道德規(guī)范,制定相應(yīng)的策略和措施,建立完善的管理體系,加強(qiáng)對(duì)數(shù)據(jù)的監(jiān)控和審計(jì),來(lái)保證數(shù)據(jù)質(zhì)量和安全,提高數(shù)據(jù)的價(jià)值和效益。
依據(jù)數(shù)據(jù)生命周期,通過(guò)使用數(shù)據(jù)管理工具、構(gòu)建數(shù)據(jù)中心平臺(tái)、搭建數(shù)據(jù)服務(wù)流程,以及建設(shè)配套的組織架構(gòu)管理制度和相關(guān)規(guī)則等一系列數(shù)據(jù)治理手段,完成以下功能:
1)落實(shí)數(shù)據(jù)交換模塊,完成數(shù)據(jù)采集、轉(zhuǎn)換、清洗;
2)落實(shí)數(shù)據(jù)質(zhì)量管理模塊,管理并明確數(shù)據(jù)來(lái)源,完成數(shù)據(jù)質(zhì)量問(wèn)題糾正;
3)落實(shí)數(shù)據(jù)展示模塊,完成可視化呈現(xiàn)數(shù)據(jù)質(zhì)量及治理情況;
4)落實(shí)數(shù)據(jù)標(biāo)準(zhǔn)管理模塊,統(tǒng)一代碼標(biāo)準(zhǔn)、存儲(chǔ)標(biāo)準(zhǔn)、治理標(biāo)準(zhǔn)、業(yè)務(wù)標(biāo)準(zhǔn),消除二義性,統(tǒng)一全域數(shù)據(jù)資產(chǎn),形成基礎(chǔ)信息標(biāo)準(zhǔn)集;
5)落實(shí)安全和運(yùn)維保障模塊,采用權(quán)限管理、運(yùn)行監(jiān)控、HTTPS協(xié)議,與學(xué)校認(rèn)證接口集成,日志記錄訪問(wèn)行為等,實(shí)現(xiàn)身份鑒別、訪問(wèn)控制、行為審計(jì)等;
6)統(tǒng)一數(shù)據(jù)開(kāi)發(fā)平臺(tái),構(gòu)建出一個(gè)以數(shù)據(jù)為核心的大數(shù)據(jù)資產(chǎn)管理與服務(wù)平臺(tái),包含主數(shù)據(jù)交換平臺(tái)、數(shù)據(jù)中心平臺(tái)等,對(duì)數(shù)據(jù)安全分級(jí),統(tǒng)一數(shù)據(jù)服務(wù)管道,提高數(shù)據(jù)服務(wù)質(zhì)量[4],平臺(tái)框架如圖1所示。
該平臺(tái)的框架主要由業(yè)務(wù)系統(tǒng)、數(shù)據(jù)源、數(shù)據(jù)治理、應(yīng)用服務(wù)構(gòu)成,按照數(shù)據(jù)生命周期,完成數(shù)據(jù)采集、數(shù)據(jù)集成與共享、數(shù)據(jù)應(yīng)用。實(shí)現(xiàn)以用戶為中心,以教工、教學(xué)、科研、資產(chǎn)、學(xué)生等業(yè)務(wù)數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)權(quán)限管理、主數(shù)據(jù)管理、數(shù)據(jù)共享。對(duì)數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)生產(chǎn)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工與共享等過(guò)程進(jìn)行統(tǒng)一管理和維護(hù)[5],具體包括以下三個(gè)方面:
①數(shù)據(jù)采集
依據(jù)基礎(chǔ)信息標(biāo)準(zhǔn)集,通過(guò)圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等AI 技術(shù)自動(dòng)化采集各種半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如文本、圖像、音視頻等,從各業(yè)務(wù)部門落實(shí)數(shù)據(jù)采集,將線上和線下數(shù)據(jù)源數(shù)據(jù)規(guī)范處理后統(tǒng)一匯聚到數(shù)據(jù)中心平臺(tái),形成原始數(shù)據(jù)層,原始數(shù)據(jù)層的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)間的邏輯關(guān)系、組織方式上都與業(yè)務(wù)系統(tǒng)保持一致,如實(shí)反映了各個(gè)系統(tǒng)接口過(guò)來(lái)的數(shù)據(jù)以及主要數(shù)據(jù)的變化過(guò)程。
②數(shù)據(jù)集成與共享
數(shù)據(jù)倉(cāng)庫(kù)是校園數(shù)據(jù)存儲(chǔ)中心,是為了學(xué)校業(yè)務(wù)管理決策提供數(shù)據(jù)支撐而構(gòu)建的集成化數(shù)據(jù)環(huán)境,它不產(chǎn)生數(shù)據(jù),也不消耗數(shù)據(jù)。在現(xiàn)有數(shù)據(jù)中心平臺(tái)基礎(chǔ)上,重新設(shè)計(jì)數(shù)據(jù)庫(kù)實(shí)例,重構(gòu)數(shù)據(jù)表,根據(jù)需要處理的數(shù)據(jù)層次,對(duì)數(shù)據(jù)精細(xì)化管理,將數(shù)據(jù)劃分為全量數(shù)據(jù)層、主題數(shù)據(jù)層和應(yīng)用數(shù)據(jù)層。
在全量數(shù)據(jù)層,主要對(duì)原始數(shù)據(jù)層數(shù)據(jù)輕度匯總,利用ETL等工具對(duì)數(shù)據(jù)抽取、清洗、轉(zhuǎn)換、交換、標(biāo)準(zhǔn)化,通過(guò)數(shù)據(jù)建模,對(duì)數(shù)據(jù)進(jìn)行多模型處理。落實(shí)學(xué)?;A(chǔ)數(shù)據(jù)庫(kù),用于實(shí)現(xiàn)數(shù)據(jù)共享、分析和挖掘等,基礎(chǔ)數(shù)據(jù)庫(kù)包含基礎(chǔ)數(shù)據(jù),而非所有數(shù)據(jù);基礎(chǔ)數(shù)據(jù)庫(kù)同各業(yè)務(wù)系統(tǒng)之間通過(guò)中間庫(kù)連接,而不直接交換數(shù)據(jù)。
在主題數(shù)據(jù)層,按照一定的業(yè)務(wù)邏輯對(duì)各類數(shù)據(jù)有序加工和高度聚合,梳理和挖掘?qū)W生、教師、課程、項(xiàng)目等數(shù)據(jù)對(duì)象的全部屬性,設(shè)計(jì)對(duì)象數(shù)據(jù)寬表,增加寬表數(shù)據(jù)索引,完善寬表,以提高數(shù)據(jù)查詢相應(yīng)效率。一張寬表對(duì)應(yīng)多張全量層數(shù)據(jù)表,通過(guò)數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)交換等方式定時(shí)更新全量層數(shù)據(jù)到對(duì)象寬表。當(dāng)全量層數(shù)據(jù)無(wú)法滿足寬表屬性要求時(shí),及時(shí)通過(guò)數(shù)據(jù)填報(bào)平臺(tái)采集和補(bǔ)錄。主題層數(shù)據(jù)可以生成畫像表和主題表。
在應(yīng)用數(shù)據(jù)層,對(duì)治理后的數(shù)據(jù)進(jìn)行信息封裝、計(jì)算建模、隱私加密、授權(quán)管理等,再根據(jù)數(shù)據(jù)應(yīng)用服務(wù)的需求,從寬表獲取數(shù)據(jù),建立符合應(yīng)用需求的對(duì)應(yīng)簡(jiǎn)表,通過(guò)API、DB等統(tǒng)一的標(biāo)準(zhǔn)開(kāi)放接口,給申請(qǐng)數(shù)據(jù)的各數(shù)據(jù)應(yīng)用服務(wù)。
通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)中樞對(duì)各層數(shù)據(jù)校驗(yàn)其編碼的合規(guī)性和安全性,輸出校驗(yàn)預(yù)警狀態(tài)和標(biāo)記數(shù)據(jù)迭代版本。例如,在全量數(shù)據(jù)層校驗(yàn)教工號(hào)、學(xué)號(hào)、專業(yè)代碼、課程代碼等基礎(chǔ)數(shù)據(jù)編碼規(guī)則,編碼是數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)關(guān)聯(lián)的依據(jù)。在主題數(shù)據(jù)層校驗(yàn)數(shù)據(jù)合規(guī)性(如證件號(hào)異常、數(shù)據(jù)沖突等)。在應(yīng)用數(shù)據(jù)層負(fù)責(zé)校驗(yàn)數(shù)據(jù)安全性(如權(quán)限控制、數(shù)據(jù)脫敏處理、數(shù)據(jù)開(kāi)放申請(qǐng)等,提供數(shù)據(jù)開(kāi)放申請(qǐng)流程,保證數(shù)據(jù)安全可控)。
同時(shí),對(duì)數(shù)據(jù)進(jìn)行冷熱度、數(shù)據(jù)血緣和影響性分析。依據(jù)數(shù)據(jù)的使用頻次和業(yè)務(wù)需求,對(duì)數(shù)據(jù)分層存儲(chǔ),下線長(zhǎng)期閑置或無(wú)調(diào)度需求的數(shù)據(jù),釋放其存儲(chǔ)空間。分析數(shù)據(jù)血緣和影響性,通過(guò)梳理系統(tǒng)、表、視圖、存儲(chǔ)過(guò)程、ETL、程序代碼、字段等之間的關(guān)系,分析數(shù)據(jù)變化對(duì)其他業(yè)務(wù)和數(shù)據(jù)影響的程度和范圍。可以用來(lái)定位復(fù)雜邏輯處理后的數(shù)據(jù)質(zhì)量問(wèn)題,評(píng)估數(shù)據(jù)價(jià)值和數(shù)據(jù)質(zhì)量,進(jìn)一步評(píng)估數(shù)據(jù)修改的必要性和可行性,便于制定應(yīng)對(duì)措施。
③數(shù)據(jù)服務(wù)
基于關(guān)聯(lián)數(shù)據(jù)、分析數(shù)據(jù)、展示數(shù)據(jù)的大數(shù)據(jù)治理的數(shù)據(jù)服務(wù)和應(yīng)用系統(tǒng)具有原型搭建快、表單填寫快、通知覆蓋快、迭代優(yōu)化快的特點(diǎn)。學(xué)校搭建了一系列方便師生教學(xué)與校園管理的創(chuàng)新應(yīng)用與服務(wù)。
構(gòu)建師生數(shù)據(jù)服務(wù),從全域數(shù)據(jù)庫(kù)調(diào)取師生基礎(chǔ)信息,支持校內(nèi)人員相關(guān)報(bào)表查詢,教師可以查看人事、教學(xué)、科研、財(cái)務(wù)、辦公、資產(chǎn)、消費(fèi)等信息;學(xué)生可以查看課表、成績(jī)、消費(fèi)、實(shí)習(xí)、就業(yè)、獎(jiǎng)助學(xué)金等信息;支持智能填報(bào),便于在線申請(qǐng)修改與提交績(jī)效,有效解決大量重復(fù)填報(bào)和不同應(yīng)用系統(tǒng)之間數(shù)據(jù)不一致的問(wèn)題;通過(guò)形成師生個(gè)人數(shù)字畫像,記錄其成長(zhǎng)軌跡,為學(xué)生管理、教師培養(yǎng)提供多角度分析和經(jīng)驗(yàn)指導(dǎo)。
構(gòu)建管理數(shù)據(jù)服務(wù),在數(shù)字校園里快速搭建臨時(shí)人員管理等多個(gè)典型應(yīng)用;支持學(xué)校管理人員查看各種業(yè)務(wù)相關(guān)辦公數(shù)據(jù),為管理者提供科學(xué)決策和精細(xì)管理服務(wù),支持管理者辦公服務(wù)、統(tǒng)計(jì)服務(wù)、決策服務(wù)、人財(cái)物管理等。如構(gòu)建基于一卡通數(shù)據(jù)的疑似不在校學(xué)生模型,提供學(xué)生不在校預(yù)警;對(duì)學(xué)生學(xué)習(xí)情況分析,建立數(shù)據(jù)關(guān)聯(lián)的模型和數(shù)據(jù)預(yù)警指標(biāo)。對(duì)學(xué)生學(xué)業(yè)和心理狀況預(yù)警,便于輔導(dǎo)員及管理人員及時(shí)管理、開(kāi)展學(xué)生工作,進(jìn)一步滿足師生個(gè)性化需求。
本文僅僅介紹了數(shù)據(jù)治理的基礎(chǔ)性工作,包括提升數(shù)據(jù)質(zhì)量,管控?cái)?shù)據(jù)資產(chǎn),為校園信息化發(fā)展提供必要的數(shù)據(jù)基礎(chǔ)。研究仍有許多不足之處,比如可以繼續(xù)完善業(yè)務(wù)系統(tǒng),豐富數(shù)據(jù)源頭,除了從傳統(tǒng)的教務(wù)、人事等系統(tǒng)采集結(jié)構(gòu)化數(shù)據(jù),還可充分利用系統(tǒng)日志數(shù)據(jù)、物聯(lián)網(wǎng)生物識(shí)別等各種智能行為感知數(shù)據(jù),甚至獲取空間交互、定位等非結(jié)構(gòu)化數(shù)據(jù),打造多維數(shù)據(jù)生產(chǎn)中心,建設(shè)感知型智慧校園[6-7]。
隨著科學(xué)技術(shù)的發(fā)展,未來(lái)可嘗試融入云計(jì)算、大數(shù)據(jù)、人工智能等先進(jìn)技術(shù),進(jìn)一步提高數(shù)據(jù)采集、分析和可視化能力,充分挖掘數(shù)據(jù)價(jià)值,釋放數(shù)據(jù)潛能,實(shí)現(xiàn)智慧教學(xué)、科研、管理等服務(wù)。例如:利用區(qū)塊鏈技術(shù)的去中心化、不可篡改、可追溯性,提供多主體、多流程的數(shù)據(jù)治理;利用基于語(yǔ)義模型、分類聚類算法的人工智能技術(shù),管理與整合元數(shù)據(jù),對(duì)主數(shù)據(jù)進(jìn)行自動(dòng)審核校驗(yàn)、查重合并等;利用知識(shí)圖譜等新數(shù)據(jù)庫(kù)技術(shù)進(jìn)行數(shù)據(jù)建模;利用機(jī)器學(xué)習(xí)算法對(duì)數(shù)據(jù)標(biāo)準(zhǔn)優(yōu)化評(píng)估;利用深度學(xué)習(xí)、監(jiān)督學(xué)習(xí)、回歸模型等AI技術(shù)清洗數(shù)據(jù),評(píng)估數(shù)據(jù)質(zhì)量;對(duì)數(shù)據(jù)分級(jí)分類、監(jiān)控訪問(wèn),識(shí)別敏感數(shù)據(jù),從而預(yù)測(cè)數(shù)據(jù)風(fēng)險(xiǎn)。