文/趙澤宇 陳翼 張凱 宓詠
校園大數(shù)據(jù)實(shí)施三階段
文/趙澤宇 陳翼 張凱 宓詠
校園大數(shù)據(jù)是在信息化校園建設(shè)與運(yùn)行基礎(chǔ)上不斷發(fā)展起來的,基本上經(jīng)歷了數(shù)據(jù)積累階段、數(shù)據(jù)展示與利用階段和數(shù)據(jù)分析與決策階段,最終實(shí)現(xiàn)有效服務(wù)于學(xué)校和師生用戶。
自從互聯(lián)網(wǎng)進(jìn)入Web 2.0時代以來,網(wǎng)絡(luò)應(yīng)用產(chǎn)生了巨大的變化,人們不僅單方面獲取信息,同時也在創(chuàng)造信息,例如人們通過即時通信和社交網(wǎng)絡(luò)媒體分享興趣愛好、討論策劃活動,物聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)則能感知用戶的包括地理位置、行為軌跡等數(shù)據(jù),而電子商務(wù)提供商可以通過瀏覽、詢價、對比等數(shù)據(jù)來判斷買家喜好?;ヂ?lián)網(wǎng)保留了網(wǎng)絡(luò)用戶發(fā)布的大量文本、多媒體內(nèi)容和行為數(shù)據(jù),使得服務(wù)提供者們通過挖掘分析,從凌亂紛繁的數(shù)據(jù)背后能夠找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并使得對產(chǎn)品和服務(wù)進(jìn)行針對性的調(diào)整和優(yōu)化成為可能。
“大數(shù)據(jù)”因此進(jìn)入業(yè)界的視野,其概念指的是所涉及的規(guī)模和范圍超越傳統(tǒng)工具和技術(shù)手段的能力、不能在合理時間處理并輔助決策的數(shù)據(jù),以及在此基礎(chǔ)上衍生的技術(shù)和應(yīng)用。大數(shù)據(jù)的特征可用5個“V”來描述:數(shù)量龐大(Volume)、種類繁多(Variety)、高速產(chǎn)生 (Velocity)、真實(shí)準(zhǔn)確(Veracity)和價值巨大(Value)。與傳統(tǒng)數(shù)據(jù)處理的概念不同,大數(shù)據(jù)強(qiáng)調(diào)數(shù)據(jù)的全面性、半結(jié)構(gòu)化和準(zhǔn)結(jié)構(gòu)化等非結(jié)構(gòu)化數(shù)據(jù)、以及非直接的數(shù)據(jù)內(nèi)容是大數(shù)據(jù)的重要組成部分;大數(shù)據(jù)是伴隨著用戶行為自然產(chǎn)生的,并非因?yàn)樾枰{(diào)查而產(chǎn)生。大數(shù)據(jù)技術(shù)所面對的問題重點(diǎn)并不在于收集和掌握的數(shù)據(jù)信息有多么巨大,而在于如何對這些數(shù)據(jù)進(jìn)行專業(yè)化處理,尋找出問題并提供解決的方法。
數(shù)據(jù)化是大數(shù)據(jù)的基礎(chǔ)。在信息化校園中,數(shù)字化和數(shù)據(jù)化大相徑庭?!皵?shù)字化”指的是將業(yè)務(wù)過程中產(chǎn)生的信息、教學(xué)科研所產(chǎn)生的資源或用戶使用網(wǎng)絡(luò)的軌跡轉(zhuǎn)換成電子數(shù)據(jù)存入數(shù)據(jù)庫的過程;而“數(shù)據(jù)化”則是指在數(shù)字化的基礎(chǔ)上,利用數(shù)據(jù)來對事物和現(xiàn)象進(jìn)行描述,使之能同時被人和計算機(jī)所理解的結(jié)果。信息化校園大量數(shù)據(jù)來自于不同來源、數(shù)量龐大的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)群,大部分都不能直接用于預(yù)測和分析。而通過對數(shù)據(jù)有效的組織,能將大量來自不同源的異構(gòu)數(shù)據(jù)量化組合,形成服務(wù)成效數(shù)據(jù)化、業(yè)務(wù)模式數(shù)據(jù)化、用戶行為數(shù)據(jù)化、用戶屬性數(shù)據(jù)化等在信息化服務(wù)中管理者比較關(guān)心的數(shù)據(jù)化形式。數(shù)據(jù)化是將數(shù)據(jù)從無序到有序的加工階段,數(shù)據(jù)化的最終成果是將數(shù)據(jù)對象屬性量化,構(gòu)建數(shù)據(jù)挖掘和服務(wù)的基本對象,簡化數(shù)據(jù)分析和利用過程。例如,基于各種電子資源進(jìn)行課程、教學(xué)資源的“知識化”,以及根據(jù)一卡通消費(fèi)、校園網(wǎng)絡(luò)行為識別來標(biāo)識用戶不同方面的行為和特征都是數(shù)據(jù)化的具體實(shí)現(xiàn)。
校園大數(shù)據(jù)是在信息化校園建設(shè)與運(yùn)行基礎(chǔ)上不斷發(fā)展起來的,基本上經(jīng)歷了數(shù)據(jù)積累階段、數(shù)據(jù)展示與利用階段和數(shù)據(jù)分析與決策階段,最終實(shí)現(xiàn)有效服務(wù)于學(xué)校和師生用戶。
復(fù)旦大學(xué)針對學(xué)生學(xué)分進(jìn)行的數(shù)據(jù)挖掘
數(shù)據(jù)積累階段:在信息化校園建設(shè)取得初步成果的當(dāng)前階段,業(yè)務(wù)部門完成了基本的業(yè)務(wù)信息化,能用信息系統(tǒng)來輔助業(yè)務(wù)的處理、提高工作效率,讓業(yè)務(wù)部門意識到信息化對提高業(yè)務(wù)效率的重要性。由于信息系統(tǒng)的使用和共享數(shù)據(jù)庫的建立,各種業(yè)務(wù)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)和資源數(shù)據(jù)被保存下來,形成了一定的歷史信息集合。盡管業(yè)務(wù)部門和信息化部門還不完全清楚如何能更好地利用這些數(shù)據(jù)改進(jìn)流程和提升業(yè)務(wù)水平,但數(shù)據(jù)的巨大價值和重要性卻已深入人心。
數(shù)據(jù)展示與利用階段:在信息化效率提升的條件下,學(xué)校的業(yè)務(wù)部門對數(shù)據(jù)分析和利用產(chǎn)生了迫切的需求,以期提升業(yè)務(wù)管理水平。學(xué)校的教學(xué)和科研部門往往是首當(dāng)其沖者,數(shù)據(jù)的整合、梳理、展示和利用是這個階段的主要特征。通過數(shù)據(jù)集成和整合,形成歷史數(shù)據(jù)倉庫,建立以服務(wù)為目標(biāo)的數(shù)據(jù)集市和主題數(shù)據(jù)庫,以此形成數(shù)據(jù)展示平臺。通過簡便易用的數(shù)據(jù)集成和數(shù)據(jù)展示分析利用工具,有助于業(yè)務(wù)部門脫離自身單方面業(yè)務(wù)數(shù)據(jù)的局限,并跳出相對專業(yè)的技術(shù)壁壘,立足于全校數(shù)據(jù)的宏觀層面開展工作。
數(shù)據(jù)分析與決策階段:數(shù)據(jù)分析、決策是大數(shù)據(jù)利用的高級階段。校園信息資源和數(shù)據(jù)種類、數(shù)量極大豐富,從業(yè)務(wù)數(shù)據(jù)到網(wǎng)絡(luò)數(shù)據(jù),從師生日常的學(xué)習(xí)、工作到生活數(shù)據(jù)等無所不有。對大數(shù)據(jù)的分析是對不同數(shù)據(jù)維度的量化和相關(guān)性研究。在這個階段,業(yè)務(wù)部門深刻體會數(shù)據(jù)帶來的成效,業(yè)務(wù)的發(fā)展則催生了業(yè)務(wù)部門對數(shù)據(jù)的依賴,數(shù)據(jù)作為核心資產(chǎn)和資源深入人心,人們無法離開數(shù)據(jù)單獨(dú)進(jìn)行決策,數(shù)據(jù)處理與分析技術(shù)得到廣泛應(yīng)用并成熟發(fā)展。
目前高校大多還處于大數(shù)據(jù)應(yīng)用的原始階段,制約大數(shù)據(jù)的推廣和應(yīng)用的主要因素包括:
1.大數(shù)據(jù)的概念很新,所描繪的場景前所未有,很多學(xué)校業(yè)務(wù)部門和校領(lǐng)導(dǎo)對數(shù)據(jù)的真正價值認(rèn)識不夠,還未意識到對大數(shù)據(jù)的分析和挖掘能發(fā)現(xiàn)有價值的信息;
2.數(shù)據(jù)分析和挖掘?qū)I(yè)背景的要求很高,在高??鐦I(yè)務(wù)的數(shù)據(jù)集中模式下,目前對數(shù)據(jù)的有效利用需要不同領(lǐng)域的業(yè)務(wù)人員共同參與,協(xié)調(diào)和管理成本較高,難以推進(jìn);
3.高校業(yè)務(wù)復(fù)雜、特點(diǎn)鮮明,特別是近幾年一直處于改革與發(fā)展階段,業(yè)務(wù)和管理模式還未形成穩(wěn)定形式,數(shù)據(jù)產(chǎn)生和數(shù)據(jù)積累隨意性較大、系統(tǒng)性不夠;從技術(shù)層面而言,相關(guān)的行業(yè)研究剛起步,分析模型還未成熟固定,目前許多分析案例均為零星嘗試,大規(guī)模應(yīng)用還未形成;
4.目前校園信息化數(shù)據(jù)積累數(shù)量和涵蓋范圍還不夠,信息化校園數(shù)據(jù)中心基本只保存了結(jié)構(gòu)化數(shù)據(jù),大量的非結(jié)構(gòu)化數(shù)據(jù)還未被納入視野;另外數(shù)據(jù)質(zhì)量不佳、更新不及時,削弱了數(shù)據(jù)利用的效果。
(作者單位為復(fù)旦大學(xué)信息化辦公室)
數(shù)據(jù)開放與數(shù)據(jù)市場
1. WWW之父Tim Berners-Lee爵士提出將數(shù)據(jù)公開并連接起來,以對社會產(chǎn)生巨大價值為目的的共享主張LOD(Linked Open Data);
2. LOD與倡導(dǎo)政府信息公開,特別是數(shù)據(jù)公開,以及公民參與行政的“政府公開”運(yùn)動緊密相連;
3.通過政府以LOD形式免費(fèi)公開數(shù)據(jù)開展新型服務(wù)的創(chuàng)業(yè)型公司如雨后春筍般在美誕生;
4.為開展健全的數(shù)據(jù)流通,開設(shè)數(shù)據(jù)一站式采購平臺“數(shù)據(jù)市場”,兼容性是難題,可與LOD融合 ;5.應(yīng)用:
OpenStreetMap(OSM),利用GeoEye公開的高分辨率衛(wèi)星圖像,繪制海地大地震后的支援地圖
根據(jù)提供航班數(shù)據(jù),針對某航空公司航班運(yùn)行情況進(jìn)行統(tǒng)計
保險業(yè)
大數(shù)據(jù)治理
大數(shù)據(jù)治理是指制定策略來協(xié)調(diào)多個職能部門的目標(biāo),從而優(yōu)化、保護(hù)和利用大數(shù)據(jù),將其作為一項(xiàng)企業(yè)資產(chǎn)。大數(shù)據(jù)治理計劃須解決以下問題:
元數(shù)據(jù):創(chuàng)建可靠的元數(shù)據(jù)。
隱私:嚴(yán)格關(guān)注遵守隱私方面的問題,例如利用社交媒體進(jìn)行數(shù)據(jù)分析。
數(shù)據(jù)質(zhì)量:考慮到大數(shù)據(jù)的龐大數(shù)量和超快速度,需確定哪種級別的數(shù)據(jù)質(zhì)量屬于“足夠好”的質(zhì)量。
信息生命周期管理:制定存檔策略,確保存儲成本不會超出控制。還需設(shè)定保留計劃,以便按照法規(guī)要求合理處置數(shù)據(jù)。
管理人員:企業(yè)需要招募大數(shù)據(jù)管理員。