周來 劉丙利
(鄭州財(cái)經(jīng)學(xué)院,河南鄭州 450000)
隨著高等教育改革事業(yè)的不斷深入,近年來我國高校辦學(xué)規(guī)模、內(nèi)容不斷發(fā)展轉(zhuǎn)變,過去的生源、教學(xué)模式、管理模式亦不斷由單一化向多元化方向轉(zhuǎn)變。與此期間,教學(xué)數(shù)據(jù)的累積,業(yè)務(wù)流程的日趨發(fā)展,以及現(xiàn)階段校情學(xué)情的評(píng)估分析等情況,無不對(duì)高校傳統(tǒng)人工管理方式方法提出了嚴(yán)峻的考驗(yàn)。面對(duì)龐大的數(shù)據(jù)量及復(fù)雜的計(jì)算流程,高校紛紛展開對(duì)如何應(yīng)用大數(shù)據(jù)技術(shù)以推動(dòng)自身發(fā)展的探索。作為一項(xiàng)針對(duì)龐大、多類型及異構(gòu)數(shù)據(jù)的管理技術(shù),大數(shù)據(jù)技術(shù)可依托挖掘分析、交互共享、優(yōu)化存儲(chǔ)、可視化呈現(xiàn)等手段,推進(jìn)領(lǐng)域活動(dòng)與業(yè)務(wù)數(shù)據(jù)的優(yōu)化整合,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)價(jià)值的形成。而推進(jìn)高校大數(shù)據(jù)平臺(tái)的設(shè)計(jì)及應(yīng)用,不僅是將大數(shù)據(jù)技術(shù)應(yīng)用于高校教學(xué)管理中的一條重要途徑,還是高校秉持“以人文本”理念、提升信息化建設(shè)水平及育人水平的一項(xiàng)重要手段[1]。因而,本文將對(duì)高校大數(shù)據(jù)平臺(tái)的設(shè)計(jì)及應(yīng)用進(jìn)行思考研究。
高校大數(shù)據(jù)平臺(tái)設(shè)計(jì)應(yīng)滿足龐大、多類型及異構(gòu)數(shù)據(jù)高效實(shí)時(shí)的采集、分析、存儲(chǔ)、共享等需求,對(duì)于該平臺(tái)的關(guān)鍵技術(shù)而言,主要包括有:一是數(shù)據(jù)采集、預(yù)處理技術(shù)。數(shù)據(jù)采集及清洗預(yù)處理應(yīng)考慮各式各樣的數(shù)據(jù)來源,諸如傳感器、射頻識(shí)別、互聯(lián)網(wǎng)數(shù)據(jù)等。除去傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng),諸如SQL Server、MySQL等的數(shù)據(jù)采集以外,對(duì)于系統(tǒng)日志的采集,主要借助開源的Scrilbe、Flume等系統(tǒng);網(wǎng)絡(luò)數(shù)據(jù)采集主要研究網(wǎng)絡(luò)爬蟲、網(wǎng)站提供的DPI、API等網(wǎng)絡(luò)流量采集[2]。因?yàn)榇髷?shù)據(jù)的特殊性,數(shù)據(jù)采集完畢還應(yīng)對(duì)其開展過濾去噪、集成變換等預(yù)處理。二是數(shù)據(jù)分析、存儲(chǔ)及可視化技術(shù)。數(shù)據(jù)分析處理技術(shù)主要包含數(shù)據(jù)建模、分類、回歸分析、關(guān)聯(lián)規(guī)則挖掘等技術(shù);數(shù)據(jù)存儲(chǔ)主要涉及Hive、Hadoop等分布存儲(chǔ)技術(shù),且主要包含分布式數(shù)據(jù)倉庫、分布式文件系統(tǒng)等;并行計(jì)算技術(shù)主要包含批處理、內(nèi)存計(jì)算以及圖計(jì)算技術(shù)等;數(shù)據(jù)可視化技術(shù)可提供可靠的分析圖表呈現(xiàn)模式、便捷靈活的數(shù)據(jù)接口給其他應(yīng)用調(diào)用。
高校大數(shù)據(jù)平臺(tái)設(shè)計(jì)旨在切實(shí)實(shí)現(xiàn)數(shù)據(jù)的價(jià)值,依托數(shù)據(jù)可視化分析工具,可便捷地與高?,F(xiàn)有數(shù)據(jù)進(jìn)行連接,高效地建立數(shù)據(jù)圖表,進(jìn)一步使數(shù)據(jù)的實(shí)際價(jià)值得到充分發(fā)揮。為達(dá)成這一目標(biāo),應(yīng)注重實(shí)現(xiàn)高校大數(shù)據(jù)的數(shù)據(jù)采集、數(shù)據(jù)清洗以及數(shù)據(jù)可視化分析等功能。
高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)采集應(yīng)借助可靠的集成中間件技術(shù),也就是依托B/S架構(gòu),通過Web的方式輸出全面統(tǒng)一的可視化采集工具,直觀生動(dòng)地對(duì)各個(gè)流程進(jìn)行設(shè)計(jì)、定義,并保障數(shù)據(jù)采集安全有序進(jìn)行。作為數(shù)據(jù)分析的一大前期,數(shù)據(jù)采集應(yīng)契合多種多樣的數(shù)據(jù)源,以確保高校在信息化建設(shè)中數(shù)據(jù)源的轉(zhuǎn)變,并做到與時(shí)下主流數(shù)據(jù)庫、大數(shù)據(jù)存儲(chǔ)等相匹配。換言之,高校大數(shù)據(jù)平臺(tái)數(shù)據(jù)采集應(yīng)支持與SQL Server、MySQL、Oracle等數(shù)據(jù)庫的有效對(duì)接;數(shù)據(jù)采集基于分布式文件系統(tǒng)的大數(shù)據(jù)存儲(chǔ)庫,諸如Hive、Hadoop、Spark等;數(shù)據(jù)采集可與Excle、Csv、Json等各種類型的數(shù)據(jù)結(jié)構(gòu)相對(duì)接[3]。各項(xiàng)采集的數(shù)據(jù)應(yīng)存儲(chǔ)于搜索引擎類文檔型數(shù)據(jù)庫中,從而確保億級(jí)數(shù)據(jù)的性能及對(duì)各種類型數(shù)據(jù)的可靠支持,并可通過Web頁面實(shí)時(shí)了解數(shù)據(jù)占用存儲(chǔ)空間,以及可在數(shù)據(jù)日歷上了解數(shù)據(jù)日常轉(zhuǎn)變情況。對(duì)于獲取的數(shù)據(jù),應(yīng)通過數(shù)據(jù)集的途徑開展管理。可通過對(duì)數(shù)據(jù)集的數(shù)據(jù)設(shè)置鉆取路徑、設(shè)置數(shù)據(jù)歸檔備份,以此保障數(shù)據(jù)的安全性及系統(tǒng)的有序運(yùn)行。另外,數(shù)據(jù)采集可結(jié)合實(shí)際需求調(diào)節(jié)為定時(shí)運(yùn)行,并可日歷了解接口運(yùn)行狀況。與此同時(shí),還可對(duì)數(shù)據(jù)接口設(shè)置全量更新,亦或通過主鍵、時(shí)間戳等方式開展增量更新設(shè)置。
數(shù)據(jù)清洗主要是指數(shù)據(jù)分析前的數(shù)據(jù)處理能力。高校大數(shù)據(jù)平臺(tái)應(yīng)當(dāng)對(duì)獲取的數(shù)據(jù)開展清洗、加工處理,這一功能離不開數(shù)據(jù)清洗控件的有力支持,以將日常數(shù)據(jù)清洗過程中常用的方式轉(zhuǎn)化為各個(gè)模板庫,諸如數(shù)據(jù)過濾、數(shù)值計(jì)算、列重命名、碼表提取、數(shù)據(jù)混淆、地理解析等。另外,高校大數(shù)據(jù)平臺(tái)還應(yīng)實(shí)現(xiàn)針對(duì)海量數(shù)據(jù)清洗規(guī)則的可擴(kuò)展性,諸如Groovy數(shù)據(jù)清洗、Java代碼數(shù)據(jù)清洗等。
數(shù)據(jù)可視化旨在讓數(shù)據(jù)可實(shí)現(xiàn)有效便捷利用,依托數(shù)據(jù)可視化大數(shù)據(jù)分析工具,可便捷地與高校既有數(shù)據(jù)進(jìn)行連接,并通過自然語言引導(dǎo)的方式,高效建立數(shù)據(jù)圖表,進(jìn)而使數(shù)據(jù)的實(shí)際價(jià)值可得到充分發(fā)揮。比如,高校管理層可通過數(shù)據(jù)可視化分析,制定接下來的決策;教務(wù)處可通過數(shù)據(jù)可視化分析,不斷提升教學(xué)質(zhì)量;學(xué)工部可通過數(shù)據(jù)可視化分析,及時(shí)發(fā)現(xiàn)學(xué)生的異常行為等。數(shù)據(jù)可視化要能夠?qū)崿F(xiàn)圖表、數(shù)據(jù)報(bào)表繪制等功能,這也是數(shù)據(jù)的直觀呈現(xiàn)方式。同時(shí),數(shù)據(jù)可視化應(yīng)支持各式各樣的統(tǒng)計(jì)分析圖表類型,繪制圖表時(shí)以自然語言或者半自然語言的方式實(shí)現(xiàn)人機(jī)交互。圖表應(yīng)支持各式各樣的類型,同時(shí)支持以組件化的方式提供特殊報(bào)表的二次開發(fā)能力,支持線圖、數(shù)值圖、地圖、柱狀圖、區(qū)域圖、餅圖等常用圖表,并可依照各種數(shù)據(jù)結(jié)構(gòu),開展圖表的個(gè)性化配置。為提升數(shù)據(jù)的有效利用率,圖表采用數(shù)據(jù)集中的數(shù)據(jù)模型,以此既可便捷利用既有字段指標(biāo)列,又可對(duì)既有的字段指標(biāo)列開展二次自定義過濾、計(jì)算后獲取新的字段,二次自定義的新字段指標(biāo)列類型包括有統(tǒng)計(jì)值、數(shù)值區(qū)間、時(shí)間區(qū)間、加權(quán)平均等[4]。數(shù)據(jù)報(bào)表應(yīng)將數(shù)據(jù)集中的數(shù)據(jù)以表格的形式予以分析、呈現(xiàn)。同時(shí),數(shù)據(jù)報(bào)表還要能夠?qū)崿F(xiàn)獨(dú)立的數(shù)據(jù)篩選、權(quán)限控制功能。另外,數(shù)據(jù)報(bào)表還應(yīng)支持以透視列、透視行、計(jì)算值等形式生成透視數(shù)據(jù)報(bào)表;支持配置復(fù)雜計(jì)算表達(dá)式,實(shí)現(xiàn)環(huán)比、同比等復(fù)雜計(jì)算邏輯。數(shù)據(jù)報(bào)表要實(shí)現(xiàn)Web可視化樣式設(shè)計(jì)功能,設(shè)置報(bào)表表現(xiàn)樣式,可實(shí)現(xiàn)報(bào)表的帶格式導(dǎo)出,相關(guān)部門可結(jié)合實(shí)際需求通過Excel、JPEG等形式在線制作交叉報(bào)表,并借助關(guān)聯(lián)數(shù)據(jù)集中的數(shù)據(jù)源開展信息填充,切實(shí)避免數(shù)據(jù)重復(fù)填報(bào)問題發(fā)生。綜上,高校大數(shù)據(jù)平臺(tái)架構(gòu),如圖1所示。
隨著大數(shù)據(jù)技術(shù)的迅猛發(fā)展,社會(huì)發(fā)展對(duì)熟練大數(shù)據(jù)技術(shù)的人才提出了越來越迫切的需求。與此同時(shí),近年來國內(nèi)外不斷提高了對(duì)大數(shù)據(jù)平臺(tái)應(yīng)用的重視度。近些年我國眾多高校陸續(xù)推出了數(shù)據(jù)科學(xué)專業(yè)課程,比如,北京航空航天大學(xué)、復(fù)旦大學(xué)、浙江大學(xué)、武漢大學(xué)等高校與阿里云、慧科教育簽訂合作協(xié)議,利用云平臺(tái)推出云計(jì)算與數(shù)據(jù)科學(xué)教育課程,以期培養(yǎng)一批高素質(zhì)的云計(jì)算及數(shù)據(jù)科學(xué)人才。國外一些高校也紛紛推進(jìn)了對(duì)高校大數(shù)據(jù)平臺(tái)的有效應(yīng)用,比如,美國查爾斯頓學(xué)院在其官方網(wǎng)站上提到,其是世界上第一所推出數(shù)據(jù)科學(xué)本科課程的高校,其所設(shè)置的數(shù)據(jù)科學(xué)課程涵蓋多個(gè)專業(yè),以此充分滿足了廣大學(xué)生學(xué)習(xí)數(shù)據(jù)科學(xué)相關(guān)知識(shí)的需求,并表明了數(shù)據(jù)科學(xué)與各大行業(yè)的緊密聯(lián)系。又如,美國德雷克塞爾大學(xué)于2016年設(shè)立數(shù)據(jù)科學(xué)本科專業(yè),以期幫助學(xué)生面對(duì)企業(yè)數(shù)據(jù)洪流的堅(jiān)實(shí)基礎(chǔ),通過該專業(yè)學(xué)習(xí),學(xué)生可了解企業(yè)數(shù)據(jù)需求,構(gòu)建有價(jià)值的數(shù)據(jù)使用及分析機(jī)制等。
圖1 高校大數(shù)據(jù)平臺(tái)架構(gòu)示意圖Fig.1 Schematic diagram of university big data platform architecture
利用大數(shù)據(jù)平臺(tái)實(shí)現(xiàn)教學(xué)管理創(chuàng)新,可從以下幾個(gè)方面著手:一是推進(jìn)教學(xué)管理信息化建設(shè),獲取各式各樣的數(shù)據(jù)來源。利用大數(shù)據(jù)平臺(tái)對(duì)高校教學(xué)管理工作進(jìn)行深度分析,建立完善信息系統(tǒng),對(duì)教學(xué)管理全面環(huán)節(jié)進(jìn)行記錄,開拓多樣豐富的數(shù)據(jù)采集渠道。比如,通過推進(jìn)對(duì)遠(yuǎn)程教育系統(tǒng)優(yōu)化改良,擺脫傳統(tǒng)遠(yuǎn)程教育的束縛,為教學(xué)過程提供更有力支持,全面記錄每位學(xué)生的各項(xiàng)學(xué)習(xí)行為數(shù)據(jù),有效評(píng)估學(xué)生的學(xué)習(xí)情況。同時(shí),依托加強(qiáng)對(duì)物聯(lián)網(wǎng)的有效應(yīng)用,為人員、物品等相關(guān)管理提供有力支持,一方面提升管理質(zhì)量、效率,另一方面促進(jìn)積累豐富的管理數(shù)據(jù)及行為數(shù)據(jù)。二是構(gòu)建大數(shù)據(jù)分析模型,滿足多元服務(wù)需求。提供多元化服務(wù)是教學(xué)管理的一項(xiàng)重要目標(biāo),而利用大數(shù)據(jù)平臺(tái)則是提供多元化服務(wù)的一條重要途徑,而大數(shù)據(jù)分析模型質(zhì)量重要影響著數(shù)據(jù)的價(jià)值。一些不受關(guān)注的數(shù)據(jù)在可靠的模型中,往往可實(shí)現(xiàn)令人意想不到的價(jià)值。為此,可通過對(duì)學(xué)生學(xué)習(xí)行為數(shù)據(jù)進(jìn)行采集分析,了解學(xué)生學(xué)習(xí)需求及學(xué)習(xí)效果,提取為學(xué)生所廣泛接受的教學(xué)模式,以及設(shè)計(jì)學(xué)生喜聞樂見的教學(xué)課程等,以此為教學(xué)管理創(chuàng)新提供有力數(shù)據(jù)支持。三是依托大數(shù)據(jù)平臺(tái),推進(jìn)高校全面創(chuàng)新。依托對(duì)大數(shù)據(jù)平臺(tái)的綜合應(yīng)用,可推進(jìn)對(duì)各個(gè)教學(xué)管理環(huán)節(jié)的評(píng)估分析,并將分析結(jié)果應(yīng)用于工作實(shí)踐中,進(jìn)而實(shí)現(xiàn)高校教學(xué)管理的全面創(chuàng)新。比如,可利用大數(shù)據(jù)平臺(tái)對(duì)教學(xué)過程、教學(xué)滿意度、師資水平、學(xué)習(xí)行為、學(xué)習(xí)成績等進(jìn)行全面分析,制定教學(xué)畫像、學(xué)生畫像,明確優(yōu)缺點(diǎn),評(píng)估發(fā)展?fàn)顩r[5]。又如,還可利用大數(shù)據(jù)平臺(tái)對(duì)學(xué)生數(shù)量、教室使用情況、宿舍分配、網(wǎng)絡(luò)消費(fèi)、圖書館使用情況等進(jìn)行全面分析,制定不同資源利用率指數(shù),實(shí)現(xiàn)數(shù)據(jù)可視化,推進(jìn)教學(xué)管理工作的順利開展。
總而言之,大數(shù)據(jù)時(shí)代提升數(shù)據(jù)質(zhì)量、標(biāo)準(zhǔn),推進(jìn)高校大數(shù)據(jù)平臺(tái)的設(shè)計(jì)及應(yīng)用是高校信息化建設(shè)中的一項(xiàng)重要內(nèi)容。為此,高校相關(guān)人員必須要持續(xù)探索研究,提高對(duì)高校大數(shù)據(jù)平臺(tái)設(shè)計(jì)關(guān)鍵技術(shù)的有效認(rèn)識(shí),加強(qiáng)對(duì)高校大數(shù)據(jù)平臺(tái)的設(shè)計(jì)及應(yīng)用,不斷提升高校數(shù)據(jù)管理質(zhì)量、效率,為教學(xué)科研、師生發(fā)展提供更有力的數(shù)據(jù)支持。