谷騫
摘要:打通系統(tǒng)之間壁壘,避免數(shù)據(jù)孤島。規(guī)范數(shù)據(jù)結(jié)構(gòu),在已有業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上從實際需求出發(fā)建立數(shù)據(jù)分析和展示平臺,從采集、規(guī)范、關(guān)聯(lián)、挖掘、建模、可視化等方面,充分、有效地利用數(shù)據(jù),讓各類數(shù)據(jù)用通俗易懂的方式描述學(xué)校業(yè)務(wù)發(fā)展的歷史、現(xiàn)狀及發(fā)展規(guī)律,讓學(xué)校決策層面和業(yè)務(wù)管理層面能充分了解業(yè)務(wù)情況,并獲得關(guān)鍵指標的預(yù)測和預(yù)警信息。
關(guān)鍵詞:數(shù)據(jù)分析;決策分析;數(shù)據(jù)治理;高校信息化
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0031-04
隨著科技日新月異的發(fā)展,學(xué)校原有各個業(yè)務(wù)系統(tǒng)功能自身描述實現(xiàn)性高,但除去共有的基礎(chǔ)數(shù)據(jù)外,彼此之間缺乏擴展性數(shù)據(jù)的高效互通渠道。大量的擴展性業(yè)務(wù)數(shù)據(jù)積累是學(xué)校高價值的無形資產(chǎn),卻長期得不到深入挖掘和有效利用,對于學(xué)校的業(yè)務(wù)分析而言,有必要統(tǒng)合數(shù)據(jù),建立業(yè)務(wù)關(guān)聯(lián),深度挖掘數(shù)據(jù)價值,讓數(shù)據(jù)發(fā)揮應(yīng)有價值,為學(xué)校業(yè)務(wù)決策提供有效支撐。
1 數(shù)據(jù)分析必要性
當今時代,科學(xué)技術(shù)是第一生產(chǎn)力,人才資源是第一資源。高校作為人才培養(yǎng)的重要基地,承擔著非常重要的使命和任務(wù)。學(xué)校要發(fā)展,歸根結(jié)底就是科研能力和教學(xué)能力的雙面提高。大多數(shù)學(xué)校為探索發(fā)展道路,首選即為調(diào)研兄弟院校,學(xué)習(xí)經(jīng)驗。然而不同的學(xué)校側(cè)重點不同,專業(yè)發(fā)展和經(jīng)費支持方面有很大的差別。因此根據(jù)往年發(fā)展經(jīng)驗,及時找出短板與不足,個性化定制發(fā)展方案,才能最大化適應(yīng)學(xué)校實際[1]。
將校園、師生、教學(xué)、科研等信息以聚合的圖形方式直觀地展示出來,使決策者能總攬學(xué)校的各個關(guān)鍵指標,快速發(fā)現(xiàn)潛在問題和短板,及時調(diào)整管理和教學(xué)策略,提升決策質(zhì)量,引導(dǎo)學(xué)校進入可持續(xù)良性發(fā)展軌道[2]。另外智慧決策系統(tǒng)也通過行為分析,發(fā)現(xiàn)學(xué)生和教職工的需求傾向和訴求痛點,為師生的校園活動提供便利。
2 數(shù)據(jù)分析基礎(chǔ)
高校為方便管理,建設(shè)了許多業(yè)務(wù)系統(tǒng),如教務(wù)系統(tǒng)、學(xué)工系統(tǒng)、科研系統(tǒng)、一卡通系統(tǒng)等,實現(xiàn)了數(shù)字化辦公、學(xué)習(xí)等[3]。也因此積累了大量的教務(wù)教學(xué)、科研管理、人才培養(yǎng)等多方面有價值的數(shù)據(jù),為數(shù)據(jù)分析的提供了充足的數(shù)據(jù)基礎(chǔ),能夠滿足更高級別信息化的需求,因此建設(shè)依托現(xiàn)有的共享數(shù)據(jù)庫和數(shù)據(jù)交換平臺的智慧決策系統(tǒng)的條件已經(jīng)成熟。如何用好現(xiàn)有的數(shù)據(jù)、激活數(shù)據(jù)價值,成為下一階段校園信息化建設(shè)的目標[4]。如圖1所示。
獲取數(shù)據(jù)是進行決策分析的核心任務(wù),可以用一下幾種方式來獲取對應(yīng)的數(shù)據(jù):
1)結(jié)構(gòu)化數(shù)據(jù)采集[5]
結(jié)構(gòu)化數(shù)據(jù)的采集支持多種數(shù)據(jù)源,包括數(shù)據(jù)庫、文件系統(tǒng)、Excel、Xml、LDAP、SOAP/WebService、CSV文件和RSS等各種數(shù)據(jù)源。支持的數(shù)據(jù)庫包括DB2、Oracle、MySQL、MS SQL Server、Sybase等各種主流數(shù)據(jù)庫。
2)網(wǎng)絡(luò)數(shù)據(jù)爬取
網(wǎng)絡(luò)信息爬取技術(shù)上使用通用的爬蟲工具和框架, 備選有scrapy和pyspider。需要爬取的信息不在校內(nèi)存儲的數(shù)據(jù),爬蟲爬取適合有一定數(shù)據(jù)量或定時更新的可公共獲取的數(shù)據(jù),需要爬取的信息占比較少,也可以通過其他方式獲得,如線下導(dǎo)入。業(yè)務(wù)場景中可使用網(wǎng)絡(luò)爬取采集方式的數(shù)據(jù)包括:生源質(zhì)量和生源分析中涉及的各省歷年高考數(shù)據(jù)、來源學(xué)校的信息數(shù)據(jù);畢業(yè)生滿意度場景中企業(yè)關(guān)于畢業(yè)生滿意度的數(shù)據(jù)與其他學(xué)校橫向比較的畢業(yè)生競爭力信息。
3)外部接口數(shù)據(jù)采集
外部接口數(shù)據(jù)采集指將校內(nèi)或校外的通過標準API接口方式開放的數(shù)據(jù)采集到智慧決策系統(tǒng)內(nèi)的過程。通用的行業(yè)標準接口包括REST API和Web Service。系統(tǒng)應(yīng)支持外部來源的標準化數(shù)據(jù)接入,通過動態(tài)配置數(shù)據(jù)源接口地址的方式接入數(shù)據(jù),并動態(tài)識別接口數(shù)據(jù)格式,通過配置的方式選擇所需的數(shù)據(jù)項。
4)線下數(shù)據(jù)導(dǎo)入
線下數(shù)據(jù)導(dǎo)入指部分線下業(yè)務(wù)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)通過標準的數(shù)據(jù)模板導(dǎo)入到系統(tǒng)內(nèi)的過程,通常由分析業(yè)務(wù)決定數(shù)據(jù)導(dǎo)入模板的格式,業(yè)務(wù)數(shù)據(jù)按模板格式填充后導(dǎo)入系統(tǒng)中。系統(tǒng)支持以Excel模板的形式導(dǎo)入數(shù)據(jù)。
線下數(shù)據(jù)主要是各業(yè)務(wù)系統(tǒng)未錄入或未及時錄入數(shù)據(jù)庫的數(shù)據(jù),以及數(shù)據(jù)量較少的公共數(shù)據(jù),是ETL腳本采集和爬蟲采集的補充。線下數(shù)據(jù)錄入并不是系統(tǒng)推薦的數(shù)據(jù)采集方式,只是在業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫建設(shè)不完善的情況下的一種臨時解決方案。督促各業(yè)務(wù)系統(tǒng)完善數(shù)據(jù)庫建設(shè)、最終消除線下數(shù)據(jù)導(dǎo)入的采集方式是建設(shè)本系統(tǒng)的目標之一。
5)網(wǎng)絡(luò)設(shè)備數(shù)據(jù)采集[6]
一些場景(如學(xué)生預(yù)警分析)涉及學(xué)生上網(wǎng)記錄、活動范圍、一卡通消費記錄[7]等,需要分析AP、上網(wǎng)行為監(jiān)控、認證計費系統(tǒng)等網(wǎng)絡(luò)設(shè)備日志??煽紤]采用syslog或Flume集群等方式對接。
獲取數(shù)據(jù)之后,通過可視化方法充分展現(xiàn)。才是決策分析的目標和意義所在。在可視化展示時,將有關(guān)聯(lián)的多個場景放在一起,形成主題,方便決策者及時了解目前科研教學(xué)現(xiàn)狀,進而制定出符合發(fā)展的規(guī)劃和決策。
3 挑戰(zhàn)與解決思路
1)數(shù)據(jù)標準不一,易造成數(shù)據(jù)孤島
業(yè)務(wù)系統(tǒng)在建設(shè)初期,主要基于管理者的角度來設(shè)計。而業(yè)務(wù)需求方主要站在自身管理便捷的角度,不會充分考慮數(shù)據(jù)互聯(lián)互通的問題[9],如圖2所示。例如本科生上課系統(tǒng)和研究生上課系統(tǒng),都需要使用學(xué)校教室公共資源。由于承建單位不同,且研究生與本科生教育模式差別較大,兩個系統(tǒng)的課程安排數(shù)據(jù)結(jié)構(gòu)設(shè)計差異明顯。因此造成的后果就是可能會發(fā)生上課時間地點沖突。因此必須制定統(tǒng)一的數(shù)據(jù)標準和規(guī)范,在信息化系統(tǒng)建設(shè)初期要求按照標準和規(guī)范來設(shè)計對應(yīng)的數(shù)據(jù)結(jié)構(gòu),方便應(yīng)用系統(tǒng)采集對應(yīng)數(shù)據(jù),減少數(shù)據(jù)孤島和人為干預(yù)。
2)共享數(shù)據(jù)庫不完善