林華
高等教育自學(xué)考試制度以其開(kāi)放、靈活的特點(diǎn)成為構(gòu)建高等教育立交橋的重要組成部分。數(shù)據(jù)作為信息化的基礎(chǔ),是自學(xué)考試最核心的部分之一,它能為用戶提供業(yè)務(wù)申請(qǐng)、存儲(chǔ)、檢索服務(wù),使其方便、準(zhǔn)確、及時(shí)地從數(shù)據(jù)中獲得所需的信息,更可以為管理者提供決策依據(jù)。完整、準(zhǔn)確的數(shù)據(jù)是保證自學(xué)考試業(yè)務(wù)正常運(yùn)轉(zhuǎn)的重要因素。但隨著自學(xué)考試數(shù)據(jù)不斷積累且日益龐大,海量數(shù)據(jù)中不可避免的產(chǎn)生并積累了不同程度冗余的、失準(zhǔn)的、無(wú)效的甚至是錯(cuò)誤的數(shù)據(jù),形成所謂“臟數(shù)據(jù)”[1],給自學(xué)考試信息系統(tǒng)運(yùn)行與維護(hù)都帶來(lái)了困擾,也直接影響到各項(xiàng)管理工作的效率,長(zhǎng)此以往,甚至?xí)斐勺詫W(xué)考試政策制定的偏差。因此,清洗“臟數(shù)據(jù)”已成為亟待解決的問(wèn)題。
“臟數(shù)據(jù)”(Dirty Data),又稱“壞數(shù)據(jù)”(Bad Data),其概念最初源于西方,是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯?shí)際業(yè)務(wù)毫無(wú)意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯[2]。
這個(gè)概念引申到自學(xué)考試中,是指隨著幾十年自學(xué)考試的發(fā)展沉積下來(lái)的,在目前或以后的數(shù)據(jù)使用過(guò)程中和數(shù)據(jù)管理中冗余的、失準(zhǔn)的、無(wú)效的,甚至是錯(cuò)誤的數(shù)據(jù)。這些數(shù)據(jù)不僅不能為系統(tǒng)的正常運(yùn)行帶來(lái)價(jià)值,反而會(huì)隨時(shí)間推移逐漸占據(jù)存儲(chǔ)空間,浪費(fèi)軟硬件資源,如不能得到及時(shí)的清理,而參與到正常的運(yùn)算和檢索中,會(huì)出現(xiàn)嚴(yán)重的錯(cuò)誤,影響數(shù)據(jù)庫(kù)的可信度。數(shù)據(jù)分析的最終目的是驅(qū)動(dòng)決策,一旦“臟數(shù)據(jù)”使整個(gè)數(shù)據(jù)都不再可靠和準(zhǔn)確的時(shí)候,那將會(huì)直接影響決策的質(zhì)量。
根據(jù)“臟數(shù)據(jù)”形成的主要原因,大致可將其分為以下四類(lèi)。
1.重復(fù)冗余數(shù)據(jù)
隨著我國(guó)社會(huì)經(jīng)濟(jì)的高速發(fā)展,新的行業(yè)不斷涌現(xiàn),相應(yīng)的,自學(xué)考試新專業(yè)也應(yīng)運(yùn)而生。與此同時(shí),不再適應(yīng)社會(huì)人才需求的自學(xué)考試相關(guān)專業(yè)的生源則在逐漸萎縮。目前,全國(guó)自學(xué)考試的專業(yè)及課程體系又進(jìn)入了一個(gè)調(diào)整期,隨著部分專業(yè)的關(guān)停并轉(zhuǎn),考生專業(yè)轉(zhuǎn)考的規(guī)模也將持續(xù)增加。
圖1、圖2、圖3展示了在某個(gè)時(shí)間點(diǎn),??紝I(yè)轉(zhuǎn)考的三種基本形式,在幾十年專業(yè)的不斷調(diào)整過(guò)程中,這三種簡(jiǎn)單形式交錯(cuò)演變形成圖4或圖5的復(fù)雜形式。
圖1 ??紝I(yè)“多對(duì)一轉(zhuǎn)考”示例
圖2 停考專業(yè)“一對(duì)多轉(zhuǎn)考”示例
圖3 ??紝I(yè)“一對(duì)一轉(zhuǎn)考”示例
圖4 ??紝I(yè)鏈狀繼承圖
圖5 ??紝I(yè)網(wǎng)狀繼承圖
例如,從圖4上看,一個(gè)A專業(yè)的考生,多年來(lái)一直參加自學(xué)考試但仍未畢業(yè),始終處在持合格成績(jī)轉(zhuǎn)考的過(guò)程中,其所在專業(yè)先后經(jīng)過(guò)了三次停、轉(zhuǎn)。由于自學(xué)考試是按照專業(yè)管理,考生報(bào)考任何專業(yè)均要申請(qǐng)?jiān)搶I(yè)的準(zhǔn)考證號(hào),所以這個(gè)考生雖然目前留在專業(yè)D里繼續(xù)參加考試直至畢業(yè),但他此時(shí)會(huì)持有專業(yè)A、專業(yè)B、專業(yè)C以及專業(yè)D的四個(gè)準(zhǔn)考證號(hào)。從專業(yè)管理的層面看,根據(jù)準(zhǔn)考證號(hào)的不同,系統(tǒng)將會(huì)把該考生認(rèn)作四個(gè)獨(dú)立的個(gè)體;而從身份管理的層面看,根據(jù)身份證號(hào)等個(gè)人信息,他又被系統(tǒng)視為同一個(gè)人。數(shù)據(jù)庫(kù)中每一位考生的信息是由多個(gè)具有不同屬性的字段組成的,當(dāng)兩個(gè)考生記錄的大多數(shù)屬性字段值相同或絕大程度相似時(shí),就將這兩條記錄判定為相似重復(fù)記錄[3]。從這個(gè)角度看,專業(yè)發(fā)展必定帶來(lái)停考專業(yè)考生集體的遷移,而考生的集體遷移便會(huì)在數(shù)據(jù)庫(kù)中形成大量人員的相似數(shù)據(jù)重復(fù)記錄。
同樣,考生報(bào)考的多個(gè)專業(yè)之間的課程又存在向下可頂替的繼承關(guān)系,從圖5中可以看出,這個(gè)繼承關(guān)系可以是鏈狀繼承,也可以是樹(shù)狀甚至是網(wǎng)狀繼承,那么如果要使符合政策的考生的合格成績(jī)?cè)谏暾?qǐng)畢業(yè)時(shí)生效,記錄成績(jī)數(shù)據(jù)中課程間的相互關(guān)系的過(guò)程,也是產(chǎn)生冗余數(shù)據(jù)的一個(gè)重要環(huán)節(jié)。如果能將這類(lèi)重復(fù)冗余的數(shù)據(jù)加以“瘦身”,將大大簡(jiǎn)化數(shù)據(jù)間的復(fù)雜結(jié)構(gòu),有效提升數(shù)據(jù)的檢索速度,降低系統(tǒng)運(yùn)轉(zhuǎn)壓力。
2.多重標(biāo)準(zhǔn)數(shù)據(jù)
自學(xué)考試制度建立40多年來(lái),從最初的全手工管理到20世紀(jì)90年代的信息系統(tǒng)管理,再?gòu)腃/S模式升級(jí)到B/S模式,各項(xiàng)信息數(shù)據(jù)項(xiàng)采集標(biāo)準(zhǔn)在不斷提高,對(duì)數(shù)據(jù)內(nèi)容的校準(zhǔn)也日趨完善。但數(shù)據(jù)標(biāo)準(zhǔn)的每一次提升,都成為那個(gè)階段新老數(shù)據(jù)的分水嶺,于是多重?cái)?shù)據(jù)標(biāo)準(zhǔn)慢慢成型。
如表1所示,以準(zhǔn)考證號(hào)字段為例。通過(guò)比較發(fā)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)的變化十分明顯。
表1 準(zhǔn)考證號(hào)編碼規(guī)則演變示例
內(nèi)容變化:在前三個(gè)階段的準(zhǔn)考證號(hào)的編制中都含有了考生的專業(yè)信息,其中第一個(gè)階段的專業(yè)代碼用兩位的英文字母表示,第二個(gè)階段的專業(yè)代碼為兩位的純數(shù)字,而第三個(gè)階段為三位的純數(shù)字專業(yè)代碼,在第四個(gè)階段中準(zhǔn)考證編號(hào)中不再體現(xiàn)考生的專業(yè)信息。
位數(shù)變化:準(zhǔn)考證的位數(shù)先后經(jīng)歷了四個(gè)階段,即字母與數(shù)字結(jié)合的8位字符串、8位純數(shù)字字符串、10位純數(shù)字字符串、12位純數(shù)字字符串。
位置變化:在四個(gè)階段的準(zhǔn)考證號(hào)中都含有了考生所屬考區(qū)的信息,但不同之處在于前三個(gè)階段,考區(qū)的標(biāo)志位,在第三、第四兩位體現(xiàn),而在第四個(gè)階段中考區(qū)標(biāo)志位被提到了前兩位。
從上面的分析可以看出,雖然字段表達(dá)內(nèi)容相同,但不同數(shù)據(jù)標(biāo)準(zhǔn)同時(shí)在系統(tǒng)中運(yùn)轉(zhuǎn),加大了系統(tǒng)源代碼辨析的難度以及系統(tǒng)運(yùn)行時(shí)對(duì)數(shù)據(jù)的兼容性要求,也勢(shì)必會(huì)提高系統(tǒng)運(yùn)轉(zhuǎn)的錯(cuò)誤率。同時(shí),在上報(bào)國(guó)家考試中心相關(guān)數(shù)據(jù)時(shí),還要額外增加字段轉(zhuǎn)換和補(bǔ)位工作,也增加了報(bào)送出錯(cuò)的風(fēng)險(xiǎn)。
此外,如表2所示,考生頭像照片的數(shù)據(jù)標(biāo)準(zhǔn)也是在不斷改進(jìn)中。為使對(duì)考生身份的管理更加嚴(yán)謹(jǐn),自從建立管理信息系統(tǒng)后,頭像照片的尺寸(由180×240提高到480×640)、分辨率(由96dpi提高到300dpi)和背景色(由多色統(tǒng)一為淺藍(lán)色)幾個(gè)維度都在不斷地提高照片的精準(zhǔn)度。因此,多規(guī)格的照片在數(shù)據(jù)庫(kù)中在讀取和使用時(shí),相對(duì)低像素的照片會(huì)出現(xiàn)模糊不清,為日后的入場(chǎng)考試身份驗(yàn)證環(huán)節(jié)和畢業(yè)生學(xué)歷認(rèn)證帶來(lái)不必要的麻煩。
表2 考生頭像照片格式標(biāo)準(zhǔn)演變示例
3.過(guò)時(shí)無(wú)效數(shù)據(jù)
數(shù)據(jù)時(shí)效性是與時(shí)間相關(guān)的,表示數(shù)據(jù)是最新有效的,可以描述客觀實(shí)體。反之,過(guò)時(shí)無(wú)效數(shù)據(jù)是指由于其時(shí)間久遠(yuǎn),已不再準(zhǔn)確、不應(yīng)參與到正常處理的、已經(jīng)失去使用價(jià)值的數(shù)據(jù)。自考中的過(guò)時(shí)無(wú)效數(shù)據(jù)指數(shù)據(jù)本身是真實(shí)的,但隨著時(shí)間的推移,其有效性在不斷降低。主要有以下幾類(lèi):
(1)過(guò)時(shí)的考生頭像數(shù)據(jù)。由于考生參加考試數(shù)年,其容貌變化較大,無(wú)論是繼續(xù)考試還是申請(qǐng)畢業(yè),該頭像照片均已無(wú)法成為核驗(yàn)其身份真實(shí)性的有效依據(jù)。
(2)不再活躍的“僵尸”數(shù)據(jù)。例如,某些院校將自考本科段的英語(yǔ)(二)科目合格成績(jī)作為學(xué)士學(xué)位申請(qǐng)的必要條件之一,因此出現(xiàn)有考生注冊(cè)準(zhǔn)考證號(hào)后,僅報(bào)考英語(yǔ)(二)這一個(gè)科目,便不再參加該專業(yè)內(nèi)的其他課程考試,成為“一次性考生”,這類(lèi)考生本不應(yīng)屬于自考的在籍考生范疇,因此,這些數(shù)據(jù)不應(yīng)出現(xiàn)在各項(xiàng)各類(lèi)統(tǒng)計(jì)中。
(3)陳舊的聯(lián)系方式。20世紀(jì)八九十年代初期固定電話還不普及,移動(dòng)通訊的手段更是少之又少,于是在自考剛開(kāi)考的相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)并未采集聯(lián)系電話這一數(shù)據(jù)項(xiàng)。在后期開(kāi)發(fā)系統(tǒng)開(kāi)始采集之后,考生提供的聯(lián)系方式多數(shù)為座機(jī),但由于電話的升位、手機(jī)的普及,凡未及時(shí)更正的,也都成為了過(guò)時(shí)無(wú)效數(shù)據(jù)。通訊地址信息的數(shù)據(jù)變更存儲(chǔ)也有類(lèi)似的情況。
4.缺失完整性數(shù)據(jù)
缺失完整性數(shù)據(jù)是指數(shù)據(jù)集合中的數(shù)據(jù)不能全面地、較完整地描述客觀事實(shí),不能支持某種統(tǒng)計(jì)查詢、關(guān)聯(lián)計(jì)算和決策分析等應(yīng)用。在自學(xué)考試制度建立初期,受當(dāng)時(shí)技術(shù)手段的限制,考生從初次報(bào)考到申請(qǐng)畢業(yè)中間各個(gè)環(huán)節(jié)的信息采集均為手工填表、紙質(zhì)管理,但因采集源不完整,又因缺乏完備的篩查手段而未得到及時(shí)更正,故而成為如今難以追溯的缺失數(shù)據(jù)。隨信息技術(shù)的不斷發(fā)展,考試的管理工作逐步由人工向計(jì)算機(jī)信息系統(tǒng)過(guò)渡,管理者做了大量的整理工作,嘗試將各種各類(lèi)紙介質(zhì)檔案轉(zhuǎn)為數(shù)字化檔案錄入系統(tǒng),但在這個(gè)過(guò)程中,又會(huì)因?yàn)楦鞣N各樣的原因再次造成漏缺的數(shù)據(jù)。以考生身份證號(hào)為例,目前,考生一代、二代身份證號(hào)并存。截至2021年底,在籍考生中身份證號(hào)位數(shù)不滿18位的考生占到考生比例的36.33%,其中一大部分是因?yàn)殚_(kāi)考初期的老考生自始至終未采集,另一部分是因?yàn)椴辉賲⒓涌荚嚽覜](méi)有申請(qǐng)身份證號(hào)正常升位造成的。此外,早期畢業(yè)證書(shū)上均采用手貼照片的形式,而在實(shí)際系統(tǒng)中并未采集數(shù)字化信息,從而造成畢業(yè)生的照片信息缺失,進(jìn)而導(dǎo)致畢業(yè)生身份認(rèn)證時(shí)被質(zhì)疑。隨著信息時(shí)代的發(fā)展以及信息技術(shù)在社會(huì)各行各業(yè)工作中的全面應(yīng)用,這一問(wèn)題也日益凸顯。
數(shù)據(jù)清洗(Data Cleaning)就是把“臟”的“洗掉”,發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤的一道程序,是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,是按照一定的規(guī)則刪除重復(fù)信息,糾正存在的錯(cuò)誤,處理無(wú)效值和缺失值,以提高數(shù)據(jù)一致性、準(zhǔn)確性[4]。自學(xué)考試的數(shù)據(jù)清洗,必須要從自學(xué)考試自身特點(diǎn)入手,采用技術(shù)層面的數(shù)據(jù)清洗,以及與考試管理方式改革緊密結(jié)合的政策調(diào)整等方法,對(duì)臟數(shù)據(jù)進(jìn)行清理并防止“臟數(shù)據(jù)”的進(jìn)一步累積。
1.重復(fù)冗余數(shù)據(jù)清洗
如上文所述,目前的自學(xué)考試按照專業(yè)管理的方式,一旦專業(yè)發(fā)生關(guān)停時(shí),持有兩個(gè)或以上不同專業(yè)的準(zhǔn)考證號(hào)的考生便會(huì)重新注冊(cè)新號(hào)。為避免重復(fù)的考生數(shù)據(jù)再次積累,可嘗試借鑒其他省市“一號(hào)通”概念,即一名考生自始至終僅有一個(gè)準(zhǔn)考證號(hào)。對(duì)于這樣的考生可以采用機(jī)器自動(dòng)合并、手工確認(rèn)的方式,將每個(gè)考生現(xiàn)有的多個(gè)準(zhǔn)考證號(hào)進(jìn)行并檔操作。把多個(gè)準(zhǔn)考證號(hào)歸并到其中一個(gè)準(zhǔn)考證號(hào)下,并將此準(zhǔn)考證號(hào)作為唯一準(zhǔn)考證號(hào)在今后的考試中使用。自動(dòng)合并就是機(jī)器通過(guò)分析考生姓名、身份證號(hào)和頭像照片等信息將確屬同一個(gè)考生的不同準(zhǔn)考證號(hào)歸并到最新的一個(gè)號(hào)上,經(jīng)考辦專家審核后,提交給考生端,待考生本人確認(rèn)無(wú)誤,并檔正式生效。對(duì)于姓名、身份證號(hào)不能完全匹配為同一考生的,可由考生自行補(bǔ)充相關(guān)準(zhǔn)考證號(hào)信息,考辦專家審核通過(guò)后并檔生效。從而,完成多號(hào)歸一的去重工作。
2.多重標(biāo)準(zhǔn)數(shù)據(jù)清潔
多重?cái)?shù)據(jù)標(biāo)準(zhǔn)在清洗前首先要做的是統(tǒng)一標(biāo)準(zhǔn),在唯一的標(biāo)準(zhǔn)下,才能有針對(duì)性地對(duì)不符合標(biāo)準(zhǔn)的數(shù)據(jù)進(jìn)行過(guò)濾篩查,并制定清洗方案。根據(jù)教育部教育考試院2020年發(fā)布的《關(guān)于開(kāi)展高等教育自學(xué)考試考籍管理基礎(chǔ)信息歸集工作的通知》中的要求,統(tǒng)一準(zhǔn)考證號(hào)采集標(biāo)準(zhǔn),報(bào)考期間凡不符合標(biāo)準(zhǔn)的考生在登錄系統(tǒng)時(shí),會(huì)自動(dòng)賦予新的準(zhǔn)考證號(hào),老準(zhǔn)考證號(hào)下的考生個(gè)人以及成績(jī)的各項(xiàng)信息經(jīng)過(guò)一系列審核通過(guò)后,歸并到新準(zhǔn)考證號(hào)下,供日后使用。根據(jù)教育部教育考試院2021年發(fā)布《關(guān)于做好高等教育自學(xué)考試畢業(yè)證書(shū)電子注冊(cè)圖像采集工作的通知》中的要求,統(tǒng)一照片格式標(biāo)準(zhǔn),在辦理畢業(yè)期間,凡老考生成功申請(qǐng)并由考區(qū)、市考辦審核通過(guò)的,須上傳符合標(biāo)準(zhǔn)的近期頭像,經(jīng)過(guò)系統(tǒng)人像對(duì)比和人工專家審核,確屬一人的方可準(zhǔn)予畢業(yè),圖像被記錄到畢業(yè)生庫(kù)。新考生在注冊(cè)準(zhǔn)考證號(hào)時(shí),即按照此文件標(biāo)準(zhǔn)上傳圖像。對(duì)于已經(jīng)畢業(yè)的考生采用按照標(biāo)準(zhǔn)掃描其畢業(yè)生登記表上的照片信息、上傳至畢業(yè)生庫(kù)中的方法,進(jìn)一步完善畢業(yè)生核驗(yàn)信息,為學(xué)歷認(rèn)證提供基礎(chǔ)。
3.無(wú)效、缺失數(shù)據(jù)清洗
對(duì)于過(guò)時(shí)的無(wú)效數(shù)據(jù),最重要的是保持?jǐn)?shù)據(jù)的時(shí)效性,數(shù)據(jù)的時(shí)效性提高之后,缺失數(shù)據(jù)也會(huì)及時(shí)得到補(bǔ)充。為此,在考生服務(wù)系統(tǒng)中增加了信息更正環(huán)節(jié)。考生每次登錄時(shí),系統(tǒng)都自動(dòng)彈出對(duì)話框,引導(dǎo)考生核對(duì)、更新對(duì)時(shí)效性要求比較高的相關(guān)信息。例如,考生需要將15位身份證號(hào)升至18位時(shí),除填寫(xiě)相關(guān)信息外,還須上傳佐證材料,之后考生服務(wù)系統(tǒng)會(huì)向公安部門(mén)身份證認(rèn)證系統(tǒng)申請(qǐng)核驗(yàn),最后通過(guò)考區(qū)和市考辦的審核合格的方為更正成功。如考生修改聯(lián)系電話,那么系統(tǒng)會(huì)向其手機(jī)號(hào)發(fā)送驗(yàn)證信息,確保其提交信息的準(zhǔn)確性。通過(guò)長(zhǎng)期的、反復(fù)的、大量的更正操作,無(wú)效或缺失數(shù)據(jù)的比例會(huì)逐漸減少,在一定時(shí)間內(nèi)都未申請(qǐng)修改的,將被其定義為“僵尸數(shù)據(jù)”,并轉(zhuǎn)移至不活躍數(shù)據(jù)表中,待日后激活使用,以提高系統(tǒng)運(yùn)行效率。
1.轉(zhuǎn)變專業(yè)管理模式
自學(xué)考試多年來(lái)一直采取專業(yè)管理的模式,考生的報(bào)考信息管理是按照從專業(yè)到課程的二維結(jié)構(gòu)實(shí)施的。若出現(xiàn)上述關(guān)、轉(zhuǎn)的專業(yè),為了從根本上改變數(shù)據(jù)冗余,要將原來(lái)的專業(yè)管理模式調(diào)整為課程管理模式,由原來(lái)的一考生一專業(yè)一準(zhǔn)考證號(hào),改為一考生一準(zhǔn)考證號(hào)多專業(yè),即考生用唯一的準(zhǔn)考證號(hào)選擇不同專業(yè)的課程參加考試。最后,將已取得合格成績(jī)的歷史課程與現(xiàn)行某專業(yè)計(jì)劃找出對(duì)應(yīng)替代關(guān)系,按照該專業(yè)要求篩選合格課程申請(qǐng)畢業(yè)。已畢業(yè)考生所有個(gè)人及成績(jī)信息歸檔到畢業(yè)生信息中。從源頭杜絕一人多號(hào)的重復(fù)數(shù)據(jù)和冗余數(shù)據(jù)產(chǎn)生。
2.統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)體系
在規(guī)范數(shù)據(jù)標(biāo)準(zhǔn)問(wèn)題上,首先要加強(qiáng)數(shù)據(jù)標(biāo)準(zhǔn)的頂層設(shè)計(jì),盡量滿足唯一性、穩(wěn)定性、可拓展性、前瞻性和共享性標(biāo)準(zhǔn)規(guī)范要求。所有的業(yè)務(wù)系統(tǒng)均應(yīng)建設(shè)在統(tǒng)一數(shù)據(jù)平臺(tái)基礎(chǔ)之上。逐步統(tǒng)一數(shù)字化基礎(chǔ)管理和安全的數(shù)據(jù)標(biāo)準(zhǔn)體系,統(tǒng)一與國(guó)家考辦間的標(biāo)準(zhǔn)資源,完善跨省數(shù)據(jù)標(biāo)準(zhǔn)體系。通過(guò)建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)體系將為自考業(yè)務(wù)的創(chuàng)新和事業(yè)發(fā)展?fàn)I造有利的環(huán)境。
3.保障數(shù)據(jù)內(nèi)容真實(shí)
從技術(shù)上增加校驗(yàn)維度,提高數(shù)據(jù)標(biāo)準(zhǔn)的精度,可保證數(shù)據(jù)格式屬性的準(zhǔn)確性。但對(duì)于數(shù)據(jù)本身的真?zhèn)?,需要在其他單位或部門(mén)的配合下,才能保障其內(nèi)容的真實(shí)性。因此,首先需要使用身份證識(shí)別設(shè)備或人臉識(shí)別設(shè)備等,核實(shí)新進(jìn)入系統(tǒng)的考生身份號(hào)以及姓名的真?zhèn)?,防止冒名頂替考試的事件發(fā)生。其次,需要聯(lián)合學(xué)信網(wǎng),在考生畢業(yè)申請(qǐng)前,先確認(rèn)該考生前置學(xué)歷的真?zhèn)危沤^假冒前置學(xué)歷的現(xiàn)象。最后,為保證所采集數(shù)據(jù)真實(shí)有效,增加考生到考區(qū)提交佐證材料的環(huán)節(jié)。
本文對(duì)自學(xué)考試現(xiàn)有“臟數(shù)據(jù)”的類(lèi)型進(jìn)行分析,分別從技術(shù)和政策修訂的角度初步構(gòu)建了數(shù)據(jù)清洗策略,設(shè)計(jì)了數(shù)據(jù)清洗流程。在自學(xué)考試不斷發(fā)展的進(jìn)程中,應(yīng)當(dāng)從提高清洗精準(zhǔn)度、清洗效率和調(diào)整相關(guān)政策等方面入手,建立更加完善的臟數(shù)據(jù)發(fā)現(xiàn)舉證機(jī)制、審核認(rèn)定機(jī)制以及糾錯(cuò)更新機(jī)制等[5],以進(jìn)一步提高自考數(shù)據(jù)質(zhì)量,讓清潔的數(shù)據(jù)始終作為信息管理的優(yōu)質(zhì)基礎(chǔ),為決策的制定提供有力保障。