文/本刊記者 王左利
讓沉睡的數(shù)據(jù)說話
文/本刊記者 王左利
“從沉淀的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,深入挖掘、綜合利用、轉(zhuǎn)化為知識(shí),才是信息系統(tǒng)真正價(jià)值的體現(xiàn),而這方面可拓展的空間幾乎是不可限量的?!?/p>
2012年,美國(guó)發(fā)起的“大數(shù)據(jù)”研究吸引了全球的目光。奧巴馬稱:“通過提高我們從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識(shí)和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國(guó)家安全并改變教學(xué)研究?!蓖嘎冻雒绹?guó)進(jìn)行大數(shù)據(jù)研究的重要目標(biāo)之一——教育。
為了推動(dòng)大數(shù)據(jù)的研究,美國(guó)聯(lián)邦政府的部門和機(jī)構(gòu)宣布新的2億美元的投資,“提高從大量數(shù)字?jǐn)?shù)據(jù)中訪問、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平?!?/p>
“大數(shù)據(jù)”時(shí)代的腳步悄然而至,高校也身在其中。在高教學(xué)會(huì)信息化分會(huì)青委會(huì)日前舉行的一次技術(shù)論壇上,一直專注于數(shù)據(jù)分析與挖掘工作的清華大學(xué)信息化技術(shù)中心袁芳做的一個(gè)報(bào)告引起了與會(huì)者的共鳴:《如何在大數(shù)據(jù)時(shí)代掘?qū)??》她認(rèn)為,高校也正面臨著大數(shù)據(jù)所帶來的挑戰(zhàn)與機(jī)遇。“隨著互聯(lián)網(wǎng)應(yīng)用的豐富,每個(gè)學(xué)生和老師每天都在生產(chǎn)著各種各樣的數(shù)據(jù),當(dāng)數(shù)據(jù)量達(dá)到一定級(jí)別后,就可以進(jìn)行很有意義的分析挖掘工作?!彼J(rèn)為,海量數(shù)據(jù)的分析將對(duì)教育信息化產(chǎn)生深刻的影響和沖擊。她覺得,“高校也要關(guān)注大數(shù)據(jù)技術(shù)的研究和應(yīng)用,智謀未來。”
大數(shù)據(jù)時(shí)代勢(shì)不可擋。相關(guān)人士表示,未來的十年將是一個(gè)“大數(shù)據(jù)”引領(lǐng)的智慧科技時(shí)代。隨著社交網(wǎng)絡(luò)的逐漸成熟,移動(dòng)帶寬迅速提升,云計(jì)算、物聯(lián)網(wǎng)應(yīng)用更加豐富。更多的傳感設(shè)備、移動(dòng)終端接入到網(wǎng)絡(luò),由此產(chǎn)生的數(shù)據(jù)及增長(zhǎng)速度將比歷史上的任何時(shí)期都要多,都要快。
目前,幾乎所有的高校都在進(jìn)行數(shù)據(jù)中心的擴(kuò)建,因?yàn)檫@兩年數(shù)據(jù)的發(fā)展與前幾年比較已經(jīng)不是一個(gè)數(shù)量級(jí),以往數(shù)據(jù)中心的空間已經(jīng)無法適應(yīng)當(dāng)前快速發(fā)展的要求?!澳壳拔倚?shù)據(jù)資源正以每年30%到50%的速度在增長(zhǎng)。”中央財(cái)經(jīng)大學(xué)信息網(wǎng)絡(luò)中心主任葉新恩說。
在北京師范大學(xué),校務(wù)管理信息系統(tǒng)數(shù)據(jù)有500~600G,校園卡系統(tǒng)日記1TB~2TB,校園網(wǎng)日記數(shù)據(jù)大約有1TB?!皬拇鎯?chǔ)購(gòu)買量的增長(zhǎng)來看,2011年學(xué)校大約增加存儲(chǔ)400TB,尤其是一些理科科研單位,如氣候氣象數(shù)據(jù),遙感影像數(shù)據(jù)等存儲(chǔ)量很大,其他教學(xué)類資源存儲(chǔ)量也非常大?!北睅煷缶W(wǎng)絡(luò)與信息中心主任劉臻說。
在清華大學(xué),目前電子校務(wù)系統(tǒng)的運(yùn)行業(yè)務(wù)數(shù)據(jù)大致有1.5億條,這還并不包括系統(tǒng)日志、校園卡交易等流水?dāng)?shù)據(jù),換算到存儲(chǔ)量的話,大致是7~8T的樣子,其中并不包括視頻等流媒體數(shù)據(jù)。
另外,非常關(guān)鍵的是,高校當(dāng)今數(shù)據(jù)庫(kù)里的內(nèi)容不僅是多,而且結(jié)構(gòu)已發(fā)生了極大改變,大量的數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)。據(jù)統(tǒng)計(jì),全球結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)速度約為32%,而非結(jié)構(gòu)化數(shù)據(jù)增速高達(dá)63%。這個(gè)趨勢(shì)在高校亦然。
袁芳認(rèn)為,對(duì)于傳統(tǒng)的結(jié)構(gòu)化的數(shù)據(jù),由于已經(jīng)達(dá)到一定數(shù)量,以關(guān)注其應(yīng)用為主,而對(duì)于正在生長(zhǎng)的海量的非結(jié)構(gòu)化數(shù)據(jù),則要關(guān)注怎么收集、用什么方式有效管理。“學(xué)校正在掌握著越來越多活的數(shù)據(jù),這為我們提供了新的方向——尋找某個(gè)規(guī)律背后的原因?!彼f。
數(shù)據(jù)挖掘,也稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),是從數(shù)據(jù)庫(kù)中的數(shù)據(jù)抽取隱含的、未知的和潛在有用的信息(如知識(shí)規(guī)則、約束和規(guī)律等) 的非平凡的過程。確切地講,數(shù)據(jù)挖掘是一種決策支持過程,它主要基于AI、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析各組織原有的數(shù)據(jù),做出歸納的推理,從中挖掘出潛在的模式,為管理人員決策提供支持。
國(guó)外高校教學(xué)管理中, 數(shù)據(jù)挖掘已成為提高教學(xué)管理質(zhì)量與水平的一種有力工具。如美國(guó)學(xué)校能夠以85%的精確度去預(yù)測(cè)學(xué)生的升學(xué)率, 從而把注意力集中在輟學(xué)風(fēng)險(xiǎn)比較大的學(xué)生身上。而在國(guó)內(nèi), 數(shù)據(jù)挖掘在各領(lǐng)域的運(yùn)用與實(shí)踐尚不普遍, 不少的企業(yè)或部門仍處于觀望與考慮之中, 在高校教學(xué)管理中的應(yīng)用更是有待于人們?nèi)ド钊氲匮芯俊?/p>
從海量數(shù)據(jù)中尋找出有意義的規(guī)律,并為高校未來的發(fā)展提供決策上的支撐,使高校邁入“智慧”的校園,是信息化數(shù)據(jù)挖掘的最終目標(biāo)。
“要實(shí)現(xiàn)很好的數(shù)據(jù)分析,需要有兩個(gè)前提條件:一是足夠的數(shù)據(jù)量;二是數(shù)據(jù)必須是可用的、真實(shí)的,這就需要數(shù)據(jù)質(zhì)量的保證?!痹颊f。
但是目前普遍存在的問題是數(shù)據(jù)質(zhì)量不高。許多高校的數(shù)據(jù)分析、利用仍停留在初級(jí)水平,數(shù)據(jù)很難被發(fā)掘利用也反映了在系統(tǒng)建設(shè)和使用過程中的數(shù)據(jù)不準(zhǔn)確、不精確、不一致等諸多質(zhì)量問題。
第一,數(shù)據(jù)整合做得不深入。現(xiàn)在,整合是大勢(shì)所趨,是高校信息化建設(shè)必須面對(duì)的挑戰(zhàn)。一方面,隨著信息化應(yīng)用的深入和普及,各業(yè)務(wù)間出現(xiàn)了大量的數(shù)據(jù)交換需求;由于時(shí)間積累、建設(shè)方式多樣和系統(tǒng)耦合度因素,數(shù)據(jù)交換呈網(wǎng)狀結(jié)構(gòu),隨著需求的增加,授權(quán)越來越復(fù)雜,亟需對(duì)現(xiàn)有信息或數(shù)據(jù)進(jìn)行整合,提高信息資源的利用率。另一方面,隨著非結(jié)構(gòu)化數(shù)據(jù)的增多,需要對(duì)業(yè)務(wù)類的結(jié)構(gòu)化信息和資源辦公類的非結(jié)構(gòu)化數(shù)據(jù)整合。
第二,標(biāo)準(zhǔn)化的挑戰(zhàn)。目前,信息系統(tǒng)中的業(yè)務(wù)數(shù)據(jù)定義不清、概念混淆,程序設(shè)計(jì)時(shí)控制和校驗(yàn)不嚴(yán),系統(tǒng)使用時(shí)數(shù)據(jù)輸入偏差等原因,導(dǎo)致數(shù)據(jù)質(zhì)量問題很多。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)化程度低,不僅導(dǎo)致數(shù)據(jù)質(zhì)量問題,也給數(shù)據(jù)集成帶來了很多麻煩。
第三,數(shù)據(jù)的利用率很低?!皵?shù)據(jù)如果僅僅是保存并沉睡在系統(tǒng)中,那么其質(zhì)量問題很難暴露出來,只有被使用時(shí),問題才會(huì)逐漸顯現(xiàn)?!?/p>
他表示,要想提高數(shù)據(jù)質(zhì)量,首先需要把好數(shù)據(jù)輸入的源頭、保證輸入的數(shù)據(jù)符合要求,其次通過技術(shù)手段控制數(shù)據(jù)輸入的格式、標(biāo)準(zhǔn)和要求。
此外,需要指出的是,數(shù)據(jù)質(zhì)量并非單純的技術(shù)問題。很多時(shí)候,數(shù)據(jù)的真實(shí)性有待商榷。比如,同一所高校不同部門針對(duì)同一項(xiàng)目給出的數(shù)據(jù)不一致。
事實(shí)上,數(shù)據(jù)質(zhì)量不僅是一個(gè)技術(shù)問題,更是一個(gè)管理問題。業(yè)務(wù)部門需要利用數(shù)據(jù)來處理業(yè)務(wù)工作,意味著要為數(shù)據(jù)完整性、完備性、準(zhǔn)確性給出定義和語(yǔ)義層次上的解釋。解決數(shù)據(jù)質(zhì)量問題往往要耗費(fèi)較多資源及增加管理成本,因此還需要管理層在數(shù)據(jù)質(zhì)量和所花費(fèi)的代價(jià)兩方面進(jìn)行平衡??傊?,數(shù)據(jù)質(zhì)量問題不單單是一個(gè)技術(shù)問題,更需要來自管理和技術(shù)兩方面的協(xié)同努力。
數(shù)據(jù)挖掘被信息產(chǎn)業(yè)界視為數(shù)據(jù)庫(kù)技術(shù)的前沿,數(shù)據(jù)庫(kù)技術(shù)的新應(yīng)用領(lǐng)域。它在數(shù)據(jù)倉(cāng)庫(kù)、決策支持、市場(chǎng)策略和金融預(yù)測(cè)等領(lǐng)域具有廣泛的應(yīng)用前景。全世界排名前列的大型和超大型公司95 %以上都建立了數(shù)據(jù)倉(cāng)庫(kù)和應(yīng)用了數(shù)據(jù)挖掘技術(shù)。
袁芳表示,要進(jìn)行數(shù)據(jù)分析,首先必須有充足的有質(zhì)量的數(shù)據(jù)。之所以說現(xiàn)在做數(shù)據(jù)挖掘的時(shí)機(jī)是成熟的,是因?yàn)楦咝S绕涫且恍┐笮透咝碛写罅康慕虒W(xué)、管理、科研等數(shù)據(jù),這為從各個(gè)層面進(jìn)行數(shù)據(jù)分析提供了信息基礎(chǔ)。此外,最近幾年移動(dòng)互聯(lián)網(wǎng)技術(shù)、微博等SNS網(wǎng)站的推出,使學(xué)校擁有了很多可用的、有價(jià)值的海量數(shù)據(jù)。這也意味著,要進(jìn)行信息挖掘,必須充分?jǐn)U展應(yīng)用,才有可能掌握更多的數(shù)據(jù)。
目前,進(jìn)行數(shù)據(jù)挖掘的高?;径际切畔⒒龅煤芎?、規(guī)模較大的學(xué)校,其主要原因是他們有充足的數(shù)據(jù)量。此外,也有人力來做這部分的工作。
在數(shù)據(jù)分析中,去年非常著名的是,通過對(duì)最近幾年清華和北大本科生的所屬地域?qū)Ρ确治霭l(fā)現(xiàn),來自農(nóng)村的學(xué)生所占比例相比10年前大大落后。這些數(shù)據(jù)從一定層面上反映出深刻的社會(huì)問題,值得全民關(guān)注。
總體來看,目前高校對(duì)信息數(shù)據(jù)的挖掘主要集中在幾個(gè)方面:一、針對(duì)網(wǎng)絡(luò)系統(tǒng)運(yùn)行所做的數(shù)據(jù)分析;二、針對(duì)教學(xué)教務(wù)管理所做的支持;三、針對(duì)特定學(xué)生的分析;四、針對(duì)科研所做的數(shù)據(jù)分析支持。
比如,華東師范大學(xué)對(duì)校園網(wǎng)站數(shù)據(jù)進(jìn)行分析,從而改善用戶體驗(yàn)。他們?cè)跀?shù)據(jù)分析后發(fā)現(xiàn),“Chrome、Firefox、Safari等瀏覽器一直被認(rèn)為是冷門。但從華東師范大學(xué)的訪問數(shù)據(jù)可以看到,這些瀏覽器仍然占有10%以上的瀏覽份額。我們根據(jù)這些瀏覽器一一進(jìn)行兼容性測(cè)試,確保頁(yè)面在以上占比較高的環(huán)境下能夠正常顯示。”
浙江大學(xué)通過對(duì)資產(chǎn)的歸納、整理,最終形成權(quán)威、全面的資產(chǎn)數(shù)據(jù),并基于資產(chǎn)數(shù)據(jù)提供數(shù)據(jù)查詢和分析服務(wù)。這些數(shù)據(jù)分析的成果已經(jīng)被真正地應(yīng)用起來,能夠幫助教務(wù)處更好地利用教室、實(shí)驗(yàn)室等資源。
復(fù)旦大學(xué)則對(duì)特定的學(xué)生進(jìn)行數(shù)據(jù)分析,并且得到一些非常有價(jià)值的數(shù)據(jù)。比如,他們對(duì)來自不同區(qū)域的學(xué)生進(jìn)行分析,分析結(jié)果認(rèn)為,學(xué)生成績(jī)受不同地區(qū)基礎(chǔ)教育發(fā)展?fàn)顩r的影響較大。從平均績(jī)點(diǎn)看,來自東部地區(qū)、中部地區(qū)、西部地區(qū)學(xué)生的成績(jī)呈遞減趨勢(shì)。在中部和西部地區(qū),城鎮(zhèn)學(xué)生成績(jī)優(yōu)于農(nóng)村學(xué)生,東部地區(qū)則相反。分析認(rèn)為,出現(xiàn)這種情況或與學(xué)生所受基礎(chǔ)教育相關(guān):在中、西部地區(qū),城鎮(zhèn)的基礎(chǔ)教育資源和水平明顯高于農(nóng)村;而在東部地區(qū),農(nóng)村和城鎮(zhèn)教育資源和水平相對(duì)均衡,不少農(nóng)村學(xué)生在基礎(chǔ)教育階段反而可能學(xué)得更深。
此外,他們對(duì)保送生的教學(xué)情況進(jìn)行了分析。 分析得出,自主選拔錄取學(xué)生的平均績(jī)點(diǎn)總體高于保送生,內(nèi)地新疆班、內(nèi)地西藏班、預(yù)科生、留學(xué)生、港澳臺(tái)學(xué)生學(xué)習(xí)成績(jī)較差。根據(jù)現(xiàn)有保送生政策,除少數(shù)省級(jí)優(yōu)秀學(xué)生外,大多數(shù)保送生是學(xué)科競(jìng)賽獲獎(jiǎng)?wù)?,他們?cè)诨A(chǔ)教育階段偏科較嚴(yán)重,還有個(gè)別保送生為退役優(yōu)秀運(yùn)動(dòng)員,基礎(chǔ)也較為薄弱,因此不少保送生在入校后出現(xiàn)學(xué)習(xí)困難的情況。而經(jīng)歷過“復(fù)旦水平測(cè)試”和高考雙重選拔的自主招生錄取學(xué)生,各項(xiàng)基礎(chǔ)都比較扎實(shí),總體成績(jī)相對(duì)穩(wěn)定。
“在數(shù)據(jù)分析中,目標(biāo)要很明確?!鼻迦A大學(xué)袁芳說。清華正在做一些學(xué)生成長(zhǎng)類的數(shù)據(jù)分析。比如,針對(duì)進(jìn)校時(shí)成績(jī)很優(yōu)秀的一批學(xué)生,追蹤其在大學(xué)四年的各種數(shù)據(jù),觀察其成長(zhǎng)路徑,或者對(duì)畢業(yè)時(shí)表現(xiàn)很優(yōu)秀的學(xué)生進(jìn)行追溯?!皵?shù)據(jù)分析是一項(xiàng)非常系統(tǒng)的工作,涉及到很多社會(huì)學(xué)的內(nèi)容?!?/p>
清華大學(xué)對(duì)數(shù)據(jù)分析做了四個(gè)境界的界定:一是基于一個(gè)統(tǒng)一、權(quán)威的數(shù)據(jù),提供綜合查詢;二是做一些固定的統(tǒng)計(jì)分析,固定報(bào)表;三是做一些靈活的統(tǒng)計(jì)分析,針對(duì)熱點(diǎn)情況進(jìn)行分析;四從大量數(shù)據(jù)中找出規(guī)律,發(fā)現(xiàn)出一些可以幫助大學(xué)未來發(fā)展的戰(zhàn)略。
?
對(duì)于數(shù)據(jù)分析的前景,大部分認(rèn)為:前景非常好,但挑戰(zhàn)很多。袁芳認(rèn)為,數(shù)據(jù)分析存在兩個(gè)方面的關(guān)鍵因素。首先,業(yè)務(wù)和技術(shù)的緊密結(jié)合非常重要。業(yè)務(wù)需求是所有數(shù)據(jù)分析的目的,做數(shù)據(jù)分析要先挖掘出分析什么,擁有了需求,高校才能有針對(duì)性地對(duì)數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)深層次的價(jià)值挖掘出來,讓它們?yōu)闆Q策服務(wù)。
在微博上一些人討論,在數(shù)據(jù)分析中“明確目的、收集數(shù)據(jù)、整理數(shù)據(jù)、分析數(shù)據(jù)、數(shù)據(jù)可視化、數(shù)據(jù)報(bào)告”這幾個(gè)步驟最重要的部分是什么?袁芳回復(fù)說,前四個(gè)步驟缺一不可,要有需求,需求決定了素材和路徑。她打了一個(gè)比方:“好比做菜,得知道吃什么,才去買原材料,拿回來清理干凈,再加工,才有得吃。最苦的是清理,費(fèi)力不討好;最有價(jià)值的是加工。”
然而,數(shù)據(jù)挖掘的“需求”在高校一直是個(gè)很困惑的問題。香港中文大學(xué)資訊科技服務(wù)處處長(zhǎng)梁光漢就說:“我們都說做數(shù)據(jù)挖掘是為了給領(lǐng)導(dǎo)做決策使用,但是領(lǐng)導(dǎo)的需求是什么?我們不知道。但由于我們沒有一種好的形式展現(xiàn)給領(lǐng)導(dǎo)看,原來數(shù)據(jù)挖掘可以幫助我們做這個(gè),所以領(lǐng)導(dǎo)也就看不到數(shù)據(jù)挖掘的前景了?!?/p>
這是一種很被動(dòng)的情形?!拔覀円粯右裁媾R這個(gè)問題,也無法突破這樣的怪圈。只好先假設(shè)一些目標(biāo),做一些我們認(rèn)為有意義的分析,然后把結(jié)果給業(yè)務(wù)部門看,期待著他們會(huì)發(fā)現(xiàn),原來數(shù)據(jù)挖掘可以幫助他們實(shí)現(xiàn)這樣的功能。那么,也許可以啟發(fā)出他有別的需求。反正就是盡自己可能變被動(dòng)為主動(dòng)。”袁芳說。
其次,數(shù)據(jù)分析對(duì)于技術(shù)人員的要求很高,要求他們不僅精通技術(shù),也要熟悉校園網(wǎng)業(yè)務(wù)。
在技術(shù)方面,基于數(shù)據(jù)挖掘的未來前景,挖掘工具也越來越多。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,采用通用的挖掘算法,處理常見的數(shù)據(jù)類型。通用工具可以做多種模式的挖掘,挖掘什么、用什么來挖掘都由用戶根據(jù)自己的應(yīng)用來選擇。
此外,還有一個(gè)非常重要的是:高校對(duì)數(shù)據(jù)挖掘機(jī)制方面的理順。華東師范大學(xué)信息化辦公室主任沈富可說:“關(guān)于數(shù)據(jù)挖掘,國(guó)內(nèi)的院校研究也已起步,但尚停留在學(xué)術(shù)研究層面,高校內(nèi)鮮有帶有行政管理職能的院校研究機(jī)構(gòu)成立,其功能定位、研究范疇和研究方法與國(guó)外院校研究相比,尚有較大差距。其研究人員多是高等教育學(xué)專業(yè)背景的人員,雖從美國(guó)引進(jìn)、傳播了院校研究的概念,并嘗試推動(dòng)了院校研究的實(shí)踐,但數(shù)據(jù)分析作為現(xiàn)代院校研究的基礎(chǔ)和重要內(nèi)容,尚未引起我國(guó)大多數(shù)致力于院校研究的學(xué)者的重視。
他認(rèn)為,數(shù)據(jù)分析作為推動(dòng)高校未來發(fā)展的一項(xiàng)很有戰(zhàn)略眼光的事業(yè),應(yīng)當(dāng)從整個(gè)管理體制中完善。這一點(diǎn),我們可以從國(guó)外大學(xué)中得到一些借鑒。以美國(guó)紐約大學(xué)為例,其數(shù)據(jù)管理體制中有兩個(gè)重要角色:數(shù)據(jù)管理員(Data Steward)和院校研究辦公室。他們的數(shù)據(jù)分析是由院校研究辦公室自上而下地開展工作,院校研究辦公室直接從學(xué)校數(shù)據(jù)倉(cāng)庫(kù)獲取數(shù)據(jù),信息化部門密切與之配合,雙方協(xié)同確保學(xué)校數(shù)據(jù)的準(zhǔn)確性和完整性。他認(rèn)為我國(guó)高校在數(shù)據(jù)挖掘方面也可以參考這一機(jī)制。
“數(shù)據(jù)分析也需要不斷地迭代升級(jí),不斷地實(shí)戰(zhàn)試錯(cuò),才能留下寶貴的財(cái)富?!毕嚓P(guān)人士說。