王 雪
(浙江廣播電視大學(xué),浙江 杭州310012)
黨的十九大提出了“辦好繼續(xù)教育,加快建設(shè)學(xué)習(xí)型社會(huì),大力提高國(guó)民素質(zhì)”[1]的戰(zhàn)略要求,十九屆四中全會(huì)指出“構(gòu)建服務(wù)全民終身學(xué)習(xí)的教育體系”[2],《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010-2020 年)》明確提出,“建立學(xué)習(xí)成果認(rèn)證體系,建立‘學(xué)分銀行’制度”[3],學(xué)分銀行是在終身學(xué)習(xí)理念下,為打通各級(jí)各類教育之間的壁壘,實(shí)現(xiàn)教育的橫向溝通和縱向銜接,通過對(duì)學(xué)歷教育、非學(xué)歷教育產(chǎn)生的學(xué)習(xí)成果進(jìn)行記錄,并實(shí)現(xiàn)積累、轉(zhuǎn)換的機(jī)制,為社會(huì)提供開放多樣教育機(jī)會(huì)而建立的“立交橋”。建立起科學(xué)合理的各級(jí)各類學(xué)習(xí)成果認(rèn)證、積累與轉(zhuǎn)換的學(xué)分銀行機(jī)制,這一機(jī)制的建設(shè)是促進(jìn)全民終身學(xué)習(xí)的有力“抓手”,也是推進(jìn)終身教育體系建設(shè)和人才培養(yǎng)“立交橋”搭建的重要途徑和發(fā)展趨勢(shì)[4]。而終身學(xué)習(xí)的學(xué)習(xí)成果通過“學(xué)分銀行”進(jìn)行轉(zhuǎn)換,其對(duì)社會(huì)的顯性價(jià)值是促進(jìn)社會(huì)個(gè)體學(xué)歷的提升,其隱形價(jià)值則是促進(jìn)個(gè)體整體素質(zhì)的提升,從而提高個(gè)體的生活滿意度、生活質(zhì)量,進(jìn)而推動(dòng)整個(gè)社會(huì)的發(fā)展與進(jìn)步[5]。
自國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要發(fā)布以來,部分開放大學(xué)(廣播電視大學(xué))紛紛借鑒國(guó)外“學(xué)分銀行”模式建設(shè)終身教育學(xué)分銀行信息化平臺(tái)。學(xué)分銀行信息化平臺(tái)是與學(xué)習(xí)者發(fā)生交互關(guān)系的窗口,學(xué)習(xí)成果的認(rèn)證、積累、轉(zhuǎn)換均需依托學(xué)分銀行信息化平臺(tái)完成,因此存儲(chǔ)在學(xué)分銀行信息化平臺(tái)中的數(shù)據(jù)質(zhì)量顯得尤為重要。在現(xiàn)有的學(xué)分銀行信息化平臺(tái)中,平臺(tái)往往只是功能性的增加[6],而無法確保學(xué)分銀行信息化平臺(tái)中錄入數(shù)據(jù)的準(zhǔn)確性與實(shí)時(shí)性,即在保質(zhì)保量完成基礎(chǔ)數(shù)據(jù)存入的同時(shí),對(duì)存入數(shù)據(jù)進(jìn)行深入挖掘,加強(qiáng)分析研判,及時(shí)、全面、系統(tǒng)、準(zhǔn)確地反映成果及存在問題。在“互聯(lián)網(wǎng)+”背景下,利用信息技術(shù)切實(shí)保障學(xué)分銀行信息化平臺(tái)存儲(chǔ)數(shù)據(jù)的質(zhì)量,切實(shí)為主管部門研判形勢(shì)、科學(xué)決策等提供依據(jù)和參考,已成為學(xué)分銀行理論研究者及實(shí)踐探索者迫切需要研究和解決的問題。
在國(guó)外,通過信息技術(shù)構(gòu)建的學(xué)分銀行信息化平臺(tái)已成熟使用。美國(guó)設(shè)立了校級(jí)學(xué)分銀行,向?qū)W生提供多種學(xué)習(xí)記錄的評(píng)估和成績(jī)單服務(wù);加拿大建立了開放學(xué)習(xí)部網(wǎng)站,學(xué)生校外課程項(xiàng)目通過學(xué)分銀行機(jī)制將學(xué)分轉(zhuǎn)入,從而免修相應(yīng)內(nèi)容的課程;韓國(guó)學(xué)分銀行系統(tǒng)通過信息中心和在線服務(wù),可以獲得標(biāo)準(zhǔn)化課程和教學(xué)大綱,從而獲得學(xué)位;英國(guó)構(gòu)建資歷框架信息系統(tǒng),規(guī)范了信息技術(shù)和學(xué)習(xí)記錄服務(wù),為個(gè)人建立學(xué)習(xí)賬戶和存儲(chǔ)個(gè)人學(xué)習(xí)記錄;日本終身學(xué)習(xí)系統(tǒng)構(gòu)建校級(jí)學(xué)分互認(rèn)合作,應(yīng)用于電視、廣播、網(wǎng)絡(luò)教學(xué)的遠(yuǎn)程教育機(jī)構(gòu)。
在國(guó)內(nèi),各省市依托開放大學(xué)或廣播電視大學(xué)搭建學(xué)分銀行信息化平臺(tái),并存入相關(guān)數(shù)據(jù)。上海建立的學(xué)分銀行業(yè)務(wù)覆蓋普通高校、高職院校和成人高校及自學(xué)考試機(jī)構(gòu),截至2018年9月,上海市終身教育學(xué)分銀行信息化平臺(tái)實(shí)名開戶學(xué)習(xí)者超過87萬人,存入學(xué)習(xí)成果信息成績(jī)信息6200 多萬條[7]。浙江的學(xué)分銀行覆蓋了高等教育、社區(qū)教育、網(wǎng)絡(luò)教育在內(nèi)的學(xué)習(xí)成果存儲(chǔ)認(rèn)證體系,截至2018 年12月,浙江省終身教育學(xué)分銀行信息化平臺(tái)開戶數(shù)共有650萬余人,存儲(chǔ)個(gè)人學(xué)習(xí)成果數(shù)累計(jì)2600多萬條[8]。江蘇的學(xué)分銀行以各類學(xué)習(xí)者為服務(wù)對(duì)象,以學(xué)分管理為服務(wù)內(nèi)容,建立標(biāo)準(zhǔn)體系,促進(jìn)各類高等學(xué)歷教育的互通,學(xué)歷教育與非學(xué)歷教育的銜接,截至2019年9月,江蘇省終身教育學(xué)分銀行信息化平臺(tái)開戶人數(shù)共計(jì)63 萬余人,存儲(chǔ)個(gè)人學(xué)習(xí)成果數(shù)117萬多條,實(shí)現(xiàn)了學(xué)習(xí)成果的積累和轉(zhuǎn)換[9]。
當(dāng)前,各地學(xué)分銀行信息化平臺(tái)普遍存在學(xué)習(xí)成果的類型及來源異常復(fù)雜,數(shù)目更不計(jì)其數(shù)等問題。正如前文所述,浙江、上海等省市學(xué)分銀行信息化平臺(tái)開戶的人數(shù)均以百萬計(jì),存儲(chǔ)個(gè)人學(xué)習(xí)成果數(shù)更是以千萬計(jì),數(shù)據(jù)來源的復(fù)雜與廣泛,導(dǎo)致在某種程度上存在一定的數(shù)據(jù)質(zhì)量問題,保證數(shù)據(jù)質(zhì)量成為當(dāng)務(wù)之急。然而海量的數(shù)據(jù),難以通過全人工處理來保障,在“互聯(lián)網(wǎng)+”背景下,通過信息技術(shù)為主,人工抽樣為輔來提升數(shù)據(jù)質(zhì)量成為切實(shí)可行的方法,筆者認(rèn)為可以采取以下幾種方式進(jìn)行。首先,利用智能與人工相結(jié)合的方式進(jìn)行數(shù)據(jù)清洗,以去除冗余數(shù)據(jù),篩選錯(cuò)誤數(shù)據(jù);其次,利用聯(lián)網(wǎng)查詢進(jìn)行數(shù)據(jù)校驗(yàn);最后,利用區(qū)塊鏈技術(shù)進(jìn)行分布式存儲(chǔ)。
由于數(shù)據(jù)來源廣泛,部分學(xué)分銀行存儲(chǔ)數(shù)據(jù)甚至有基本的格式錯(cuò)誤,比如缺乏身份證信息,或是姓名信息存在明顯錯(cuò)誤等。針對(duì)這些數(shù)據(jù)問題,可以采取以下方式對(duì)于數(shù)據(jù)進(jìn)行清洗。
1.通過開發(fā)數(shù)據(jù)接口統(tǒng)一數(shù)據(jù)格式
由于學(xué)分銀行面向的是所在區(qū)域全部學(xué)習(xí)者,存儲(chǔ)在學(xué)分銀行的數(shù)據(jù)可能來源于不同的教育機(jī)構(gòu),然而,由于不同的教育機(jī)構(gòu)信息系統(tǒng)各自為政,數(shù)據(jù)模型不盡相同[10],各教育機(jī)構(gòu)信息系統(tǒng)存儲(chǔ)數(shù)據(jù)的格式和字段千差萬別。通過開發(fā)學(xué)分銀行信息化平臺(tái)數(shù)據(jù)接口,將數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的格式,這樣既可以實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一存儲(chǔ)與查詢,也為我們后續(xù)對(duì)于數(shù)據(jù)校驗(yàn)及清洗提供了基礎(chǔ)。
2.通過制定規(guī)則進(jìn)行數(shù)據(jù)校驗(yàn)及清洗
由于數(shù)據(jù)存在多種屬性,可以利用數(shù)據(jù)的多種屬性制定規(guī)則,并將規(guī)則使用在學(xué)分銀行信息化平臺(tái)中,以進(jìn)行數(shù)據(jù)的校驗(yàn)和清洗。第一,需要判斷數(shù)據(jù)是否完整,如果數(shù)據(jù)缺失了關(guān)鍵性的信息,比如說學(xué)生姓名或是身份證號(hào)碼,可以認(rèn)為數(shù)據(jù)是無效的。第二,需要判斷數(shù)據(jù)格式是否有誤。比如可以對(duì)于身份證信息進(jìn)行位數(shù)檢測(cè),通過將身份證位數(shù)設(shè)置為18或15位,使用身份證編碼規(guī)則,自動(dòng)找出不合理的身份證位數(shù)數(shù)據(jù),篩選出不符合編碼規(guī)則的身份證數(shù)據(jù)。第三,需要判斷數(shù)據(jù)值是否正確,可以通過檢測(cè)是否超過固定閾值,是否存在拼寫錯(cuò)誤、屬性錯(cuò)誤、來源錯(cuò)誤等判斷數(shù)據(jù)的準(zhǔn)確性。第四,需要判斷數(shù)據(jù)類型是否合理,比如存儲(chǔ)為數(shù)字類型的姓名,即可判斷為異常數(shù)據(jù)。此外,數(shù)據(jù)還需要避免多值沖突,大多數(shù)情況下,每個(gè)字段存儲(chǔ)的應(yīng)該是單個(gè)值,若存儲(chǔ)多值則造成矛盾,存在多值沖突的數(shù)據(jù)也可判斷為異常數(shù)據(jù)。
3.通過制定規(guī)則整合重復(fù)數(shù)據(jù)
由于數(shù)據(jù)來源不同,同一個(gè)學(xué)生的數(shù)據(jù)可能通過不同的來源存儲(chǔ)到學(xué)分銀行,這就需要我們對(duì)于數(shù)據(jù)進(jìn)行整合。通過制定規(guī)則判斷相同數(shù)據(jù),并將相同的數(shù)據(jù)進(jìn)行合并。由于學(xué)分銀行中的數(shù)據(jù)量大,所以在判斷重復(fù)項(xiàng)時(shí),可以采取排序和合并的方式進(jìn)行。即先將學(xué)分銀行中的數(shù)據(jù)按照一定規(guī)則進(jìn)行排序,然后比較臨近的記錄,如果是一個(gè)用戶的記錄,就可以將記錄進(jìn)行合并,從而對(duì)重復(fù)數(shù)據(jù)進(jìn)行整合。
4.通過算法篩選異常值與人工抽樣核查相結(jié)合
在數(shù)據(jù)清洗過程中,可以先通過算法制定規(guī)則(策略)篩選出異常值。然后,對(duì)于篩選出的異常值,使用人工進(jìn)行抽樣進(jìn)行核查。比如程序是通過百分制判斷數(shù)據(jù)的異常,但是如果分?jǐn)?shù)是十分制,50 其實(shí)是個(gè)異常數(shù)據(jù)。這時(shí)可以利用算法對(duì)于可能的異常數(shù)據(jù)進(jìn)行推薦,可以通過均值與方差判斷異常數(shù)據(jù),比如說十分制的成績(jī)數(shù)據(jù)中,相對(duì)于方差,50 其實(shí)遠(yuǎn)遠(yuǎn)偏離了分?jǐn)?shù)的均值,可以通過算法確定其可能是個(gè)異常數(shù)據(jù),然后通過人工檢測(cè)的方式判斷數(shù)據(jù)是否異常。而針對(duì)高維數(shù)據(jù),可以通過PCA算法對(duì)于數(shù)據(jù)進(jìn)行主成分分析,進(jìn)而判斷潛在的異常數(shù)據(jù)。
學(xué)分銀行存儲(chǔ)的數(shù)據(jù)可能因?yàn)榉N種原因存在錯(cuò)誤或虛假數(shù)據(jù)。有些錯(cuò)誤或虛假數(shù)據(jù)很難通過智能與人工相結(jié)合的方式找出并清洗。對(duì)此,可以通過數(shù)據(jù)接口利用互聯(lián)網(wǎng)查詢進(jìn)行數(shù)據(jù)校驗(yàn)。比如,可以通過數(shù)據(jù)接口與公安網(wǎng)絡(luò)身份識(shí)別系統(tǒng)或是支付寶等第三方系統(tǒng)進(jìn)行對(duì)接,判斷學(xué)習(xí)者的身份信息是否準(zhǔn)確;可以通過數(shù)據(jù)接口與中國(guó)高等教育學(xué)生信息網(wǎng)進(jìn)行對(duì)接,判斷學(xué)習(xí)者的學(xué)歷教育信息是否準(zhǔn)確;可以通過數(shù)據(jù)接口與國(guó)家職業(yè)資格證書全國(guó)聯(lián)網(wǎng)查詢系統(tǒng)進(jìn)行對(duì)接,判斷學(xué)習(xí)者的國(guó)家職業(yè)資格證書信息是否準(zhǔn)確。同時(shí),我們還可以根據(jù)網(wǎng)絡(luò)上公開的其他信息對(duì)于數(shù)據(jù)準(zhǔn)確度進(jìn)行判斷,清洗學(xué)分銀行信息化平臺(tái)中存儲(chǔ)的錯(cuò)誤或虛假數(shù)據(jù)。
此外,通過聯(lián)網(wǎng)查詢,還可以跟蹤學(xué)分銀行學(xué)習(xí)者最新的信息變動(dòng),并對(duì)信息變動(dòng)進(jìn)行收集。比如學(xué)習(xí)者有了新的學(xué)習(xí)成果,我們可以更新相應(yīng)的信息。通過學(xué)分銀行內(nèi)部的信息互聯(lián),以及外部的信息收集,可以有效保證學(xué)分銀行信息化平臺(tái)相關(guān)數(shù)據(jù)的真實(shí)性及實(shí)時(shí)性,進(jìn)而提升學(xué)分銀行信息化平臺(tái)存儲(chǔ)數(shù)據(jù)的價(jià)值。
1.區(qū)塊鏈技術(shù)有利于海量數(shù)據(jù)長(zhǎng)久存儲(chǔ)
區(qū)塊鏈技術(shù)集合了非對(duì)稱加密、點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)、分布式數(shù)據(jù)庫(kù)等技術(shù),具有安全、透明、信息不可篡改等特點(diǎn)。區(qū)塊鏈技術(shù)不依靠中心機(jī)構(gòu),采取數(shù)學(xué)方法建立可信任的分布式節(jié)點(diǎn),形成去中心化分布式系統(tǒng)。通過區(qū)塊鏈技術(shù)數(shù)據(jù)存儲(chǔ)在不同區(qū)域,互為備份,共同維護(hù)系統(tǒng)功能,因此不會(huì)因?yàn)槿我还?jié)點(diǎn)的損壞或異常而影響系統(tǒng)的運(yùn)行及信息的記錄,而在學(xué)分銀行建立的過程中,積累了海量的學(xué)習(xí)成果信息,這些信息具有范圍廣、跨越時(shí)間長(zhǎng)的特點(diǎn),傳統(tǒng)的方式不利于海量數(shù)據(jù)的長(zhǎng)久存儲(chǔ),而區(qū)塊鏈技術(shù)降低了學(xué)分銀行海量數(shù)據(jù)長(zhǎng)久存儲(chǔ)的難度。
2.區(qū)塊鏈技術(shù)可有效避免虛假信息存入學(xué)分銀行
區(qū)塊鏈的核心技術(shù)是非對(duì)稱加密技術(shù),非對(duì)稱加密技術(shù)是指若信息由公鑰加密,則只能由私鑰解密;若信息由私鑰加密,則只能由公鑰解密。公鑰和私鑰都屬于密鑰,其中,公鑰公開,私鑰由所有者保管。學(xué)分銀行信息化平臺(tái)可以利用區(qū)塊鏈的非對(duì)稱加密技術(shù),實(shí)現(xiàn)對(duì)學(xué)習(xí)信息的分布式控制,從而通過技術(shù)手段,避免虛假信息存入學(xué)分銀行信息化平臺(tái)。
通過非對(duì)稱加密技術(shù),還可以保證不同區(qū)域的數(shù)據(jù)安全可靠。這樣即使中心信息丟失,也可以可靠的利用其它節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行數(shù)據(jù)恢復(fù)。再者,區(qū)塊鏈的共識(shí)機(jī)制規(guī)定了數(shù)據(jù)一經(jīng)記錄就不可更改,杜絕了人為篡改數(shù)據(jù)的可能性。
3.區(qū)塊鏈技術(shù)可有效保障數(shù)據(jù)傳遞的安全性
區(qū)塊鏈的本質(zhì)是一種加密的去中心化分布式賬本系統(tǒng),它可以用于登記和發(fā)行數(shù)字化資產(chǎn)、產(chǎn)權(quán)憑證、積分等。借助于區(qū)塊鏈技術(shù),可以實(shí)現(xiàn)對(duì)于學(xué)分銀行信息分布式存儲(chǔ)。學(xué)分銀行信息化平臺(tái)可以將大量的信息分別存儲(chǔ)在獨(dú)立的區(qū)塊中。學(xué)分銀行信息資源擁有者可以利用非對(duì)稱加密算法中的私有密鑰共享的方式?jīng)Q定存于區(qū)塊的教育信息資源共享給那些特定的節(jié)點(diǎn)用戶。節(jié)點(diǎn)用戶可以不借助中介平臺(tái),直接點(diǎn)對(duì)點(diǎn)的對(duì)于信息傳播。這樣保證了學(xué)分銀行數(shù)據(jù)傳遞的安全性。
同時(shí),傳統(tǒng)的中心化存儲(chǔ)由于數(shù)據(jù)集中存放容易受突發(fā)事件影響,比如自然災(zāi)害或黑客攻擊。因此需要大量投入人力物力財(cái)力建立安全設(shè)備。而通過區(qū)塊鏈技術(shù)存儲(chǔ)學(xué)分銀行數(shù)據(jù),數(shù)據(jù)分散在各網(wǎng)絡(luò)區(qū)塊中,可以有效降低平臺(tái)的運(yùn)維成本且保障信息的安全可靠。
學(xué)分銀行的定位及功能,決定了學(xué)分銀行信息化平臺(tái)存儲(chǔ)的數(shù)據(jù)必然是海量的,上海、浙江、江蘇等地的學(xué)分銀行先試先行,目前,已階段性地完成了基礎(chǔ)數(shù)據(jù)存入學(xué)分銀行信息化平臺(tái)的工作,而在實(shí)踐探索過程中,各地逐步意識(shí)到學(xué)分銀行存儲(chǔ)數(shù)據(jù)質(zhì)量的提升對(duì)于學(xué)分銀行的良性發(fā)展的重要意義。本文基于此,提出了利用智能與人工相結(jié)合的方式進(jìn)行數(shù)據(jù)清洗、利用聯(lián)網(wǎng)查詢進(jìn)行數(shù)據(jù)校驗(yàn)、利用區(qū)塊鏈技術(shù)進(jìn)行分布式存儲(chǔ)的數(shù)據(jù)質(zhì)量提升策略,進(jìn)一步推進(jìn)各地學(xué)分銀行的健康發(fā)展,更好地為廣大學(xué)習(xí)者提供支持服務(wù)。