董素芬,蔡金金,高 媛
(1.河北農(nóng)業(yè)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,河北 保定071001;2.河北農(nóng)業(yè)大學(xué) 機(jī)電工程學(xué)院,河北 保定071001)
目前高校中已經(jīng)普及應(yīng)用了一些比較完善的系統(tǒng)如教務(wù)處應(yīng)用的教務(wù)管理子系統(tǒng),科技處應(yīng)用的科研管理子系統(tǒng)等,雖然這些系統(tǒng)中都記錄有學(xué)生的基本信息,但是由于其后臺(tái)數(shù)據(jù)庫(kù)都是獨(dú)立維護(hù)的,使得數(shù)據(jù)的更新很難保持一致性,比如,要想統(tǒng)計(jì)目前在校研究生的人數(shù),可能在學(xué)籍管理系統(tǒng)中,某學(xué)生已經(jīng)退學(xué)了,但在教務(wù)系統(tǒng)中還有該學(xué)生的記錄,這就導(dǎo)致不同系統(tǒng)中統(tǒng)計(jì)的人數(shù)不同,即便是簡(jiǎn)單的統(tǒng)計(jì)在校研究生的人數(shù)都很難得到一個(gè)精確地答案,更別說(shuō)想從這些已有的數(shù)據(jù)中總結(jié)對(duì)學(xué)校決策者有用的決策支持信息了,也就是說(shuō),目前的系統(tǒng)中存在的海量數(shù)據(jù),雖然數(shù)據(jù)量龐大,但是,由于沒有渠道很好的利用這些數(shù)據(jù),使得這些數(shù)據(jù)后期應(yīng)用價(jià)值很低,成為了無(wú)用數(shù)據(jù),以上數(shù)據(jù)所反映出的問(wèn)題實(shí)質(zhì)就是:急切地需要獲得一種有效的方法[1],很好地利用這些“大數(shù)據(jù)”,利用非傳統(tǒng)的數(shù)據(jù)篩選工具挖掘出潛存與數(shù)據(jù)中的學(xué)生的行為習(xí)慣與個(gè)人愛好,在凌亂紛繁的數(shù)據(jù)背后發(fā)掘出更符合學(xué)生興趣和習(xí)慣的信息,并且有針對(duì)性地對(duì)這些信息調(diào)整和優(yōu)化,這就是“大數(shù)據(jù)”帶給學(xué)校決策者的最有價(jià)值的信息。
大數(shù)據(jù)作為時(shí)代的產(chǎn)物應(yīng)運(yùn)而生,它是一種現(xiàn)象而并非是一種前沿的技術(shù),最早洞見大數(shù)據(jù)時(shí)代趨勢(shì)的數(shù)據(jù)科學(xué)家之一的維克托·邁爾-舍恩伯格在《Big Data:A Revolution That Will Transform How We Live,Work,and Think》一書中明確指出大數(shù)據(jù)帶來(lái)的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型[2],根據(jù)大數(shù)據(jù)的的性質(zhì)將其特點(diǎn)歸納為4個(gè)“V”:Volume—數(shù)據(jù)體量大,從TB級(jí)升級(jí)到PB乃至ZB級(jí)別;Variety—數(shù)據(jù)類型多樣化,從傳統(tǒng)結(jié)構(gòu)化的數(shù)據(jù),拓展到文本、電子郵件、Web頁(yè)面、博客以及音頻、視頻文件等半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)[3];Value—密度低、價(jià)值高;Velocity—在存取和共享數(shù)據(jù)時(shí)的速度比較快。
各種各樣的數(shù)據(jù)匯集在一起,從而產(chǎn)生了大數(shù)據(jù),例如,查詢某一年研究生畢業(yè)人數(shù),可能只有3 000條數(shù)據(jù),但是對(duì)過(guò)去二十年的畢業(yè)研究生人數(shù)的查詢就構(gòu)成了大數(shù)據(jù),分析大數(shù)據(jù)不再是探求其中難以捉摸的因果關(guān)系——“為什么”會(huì)是這樣?而是發(fā)現(xiàn)探究其中的相關(guān)性關(guān)系,從而能夠達(dá)到預(yù)測(cè)未來(lái)“是什么”的目的[4],通過(guò)對(duì)數(shù)據(jù)的查詢統(tǒng)計(jì)分析,可以發(fā)現(xiàn)潛藏在其中的規(guī)律,為學(xué)校管理者提供決策支持信息。
研究生管理智能決策支持系統(tǒng)的平臺(tái)是建立在大數(shù)據(jù)思想浪潮的推動(dòng)下,順應(yīng)了時(shí)代的發(fā)展需求,其功能全面,涵蓋了目前已有辦公系統(tǒng)的各個(gè)功能模塊,研究生管理智能決策支持系統(tǒng)中主要包括兩部分內(nèi)容,第一部分是研究生的管理模塊,其中包括研究生的招生,培養(yǎng)方案的制定,宿舍管理,學(xué)籍管理,研究生論文中期考核,研究生論文送審,論文答辯等研究生在校期間的各個(gè)階段的管理;第二部分是研究生創(chuàng)新平臺(tái),這個(gè)平臺(tái)中有智能檢索,學(xué)術(shù)交流,知識(shí)共享和科研管理模塊,在科研管理模塊中可以對(duì)研究生在校期間跟隨導(dǎo)師做科研的情況和進(jìn)度進(jìn)行實(shí)時(shí)管理。導(dǎo)師可以對(duì)課題組成員,項(xiàng)目、課題進(jìn)度、發(fā)表文章、科技著作、科研項(xiàng)目、專利成果、獲獎(jiǎng)成果、其他標(biāo)志性成果等進(jìn)行管理,研究生也可以通過(guò)科研論壇發(fā)表自己在科研過(guò)程中的心得體會(huì)和遇到的問(wèn)題,并通過(guò)大家的在線討論得到最佳答案。科研創(chuàng)新平臺(tái)可以解決在科研過(guò)程中,由于學(xué)科限制導(dǎo)致的科研滯后,有些科研項(xiàng)目涉及多個(gè)學(xué)科,以中藥創(chuàng)制決策支持系統(tǒng)的研究為例,中藥創(chuàng)制決策支持系統(tǒng)既涵蓋了計(jì)算機(jī)知識(shí),又涵蓋了中醫(yī)藥學(xué)知識(shí),要想在該領(lǐng)域取得科研成果就必須使得研究者同時(shí)具備中醫(yī)藥學(xué)知識(shí)和計(jì)算機(jī)系統(tǒng)理論知識(shí),但是這樣的人才幾乎不存在,因此,需要將多學(xué)科的專業(yè)人才匯集才可能完成這一課題的研究,這就需要通過(guò)科技創(chuàng)新平臺(tái),匯集各學(xué)科專家的領(lǐng)域知識(shí)。
傳統(tǒng)的數(shù)據(jù)庫(kù)以結(jié)構(gòu)化數(shù)據(jù)查詢語(yǔ)言為基礎(chǔ),數(shù)據(jù)的范圍限定在結(jié)構(gòu)化數(shù)據(jù)范疇以內(nèi),而且,不能支持高級(jí)別的數(shù)據(jù)分析和TB級(jí)的數(shù)據(jù)處理,為了滿足大數(shù)據(jù)量的快速存取與數(shù)據(jù)共享[5],系統(tǒng)將采用面向列的Hbase分布式數(shù)據(jù)庫(kù)技術(shù)建立非結(jié)構(gòu)化數(shù)據(jù)庫(kù);Hadoop與傳統(tǒng)的數(shù)據(jù)方式最大的不同就是,它能夠在廉價(jià)的基礎(chǔ)上,有能力處理好結(jié)構(gòu)化和非結(jié)構(gòu)化的大數(shù)據(jù)[6],數(shù)據(jù)首先被存儲(chǔ)在Hadoop分布式文件系統(tǒng)(Hadoop distributed file system HDFS)中[7];HBase的目標(biāo)就是快速在行數(shù)據(jù)中定位所需的數(shù)據(jù)并訪問(wèn)這些數(shù)據(jù);對(duì)于數(shù)據(jù)庫(kù)內(nèi)部的海量數(shù)據(jù)的處理則采用分布式計(jì)算機(jī)模型 MapReduce來(lái)實(shí)現(xiàn)[4]。
研究生管理系統(tǒng)涵蓋了研究生從培養(yǎng)到論文答辯的全過(guò)程,這里面不僅僅包含傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),還包括文本,web頁(yè)面,圖像,視頻,音頻等一些非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)[3]。而這些數(shù)據(jù)的采集可以從通過(guò)整合現(xiàn)有數(shù)據(jù)庫(kù)中的數(shù)據(jù)得到,目前可以應(yīng)用的比較成熟的技術(shù)方案有三種:即數(shù)據(jù)上報(bào)技術(shù)、數(shù)據(jù)鏡像技術(shù)和數(shù)據(jù)泵技術(shù),現(xiàn)將三種技術(shù)的優(yōu)缺點(diǎn)進(jìn)行比較[8]:一,數(shù)據(jù)上報(bào)技術(shù):該技術(shù)需要更改系統(tǒng)的業(yè)務(wù)邏輯模塊和數(shù)據(jù)訪問(wèn)模塊,對(duì)系統(tǒng)的改變較大,并且不支持?jǐn)?shù)據(jù)一致性檢查,斬?cái)嗔藬?shù)據(jù)的對(duì)應(yīng)關(guān)系;二,數(shù)據(jù)泵技術(shù):該技術(shù)不用改變已有的業(yè)務(wù)邏輯模塊,但是對(duì)系統(tǒng)性能影響較大,對(duì)數(shù)據(jù)庫(kù)的處理能力消耗極大;三,數(shù)據(jù)鏡像技術(shù):是指通過(guò)日志分析,將指定端口的數(shù)據(jù)復(fù)制到目標(biāo)端口,它需要在系統(tǒng)上部署日志分析模塊,只針對(duì)日志文件進(jìn)行讀取和分析,對(duì)業(yè)務(wù)邏輯和數(shù)據(jù)庫(kù)不產(chǎn)生壓力,并且支持?jǐn)?shù)據(jù)的一致性檢查;通過(guò)以上分析可以看出,研究生管理智能決策支持平臺(tái)的后臺(tái)數(shù)據(jù)庫(kù)建設(shè)可以應(yīng)用數(shù)據(jù)鏡像容災(zāi)技術(shù),它可以通過(guò)日志分析,復(fù)制分布在各個(gè)部門的信息系統(tǒng)中的數(shù)據(jù),從而將這些數(shù)據(jù)集中到系統(tǒng)的后臺(tái)數(shù)據(jù)中心中來(lái)。
隨著大數(shù)據(jù)的浪潮蜂擁而至,業(yè)務(wù)需求不斷地發(fā)生變化,基于大數(shù)據(jù)的研究生管理智能決策支持系統(tǒng)的研究,在充分研究各部門后臺(tái)數(shù)據(jù)庫(kù)協(xié)作關(guān)系的基礎(chǔ)上[9],完成了符合系統(tǒng)平臺(tái)要求的后臺(tái)大數(shù)據(jù)庫(kù)建設(shè),它可以支持PB級(jí)海量數(shù)據(jù)的處理和管理[10],為基于大數(shù)據(jù)的研究生管理的進(jìn)一步開發(fā)和應(yīng)用提供了良好的基礎(chǔ)。系統(tǒng)比較全面地完成了辦公需求和學(xué)生管理的各個(gè)功能模塊,經(jīng)投入試用,該系統(tǒng)在某校各個(gè)部門得到了廣泛的應(yīng)用,它可以很好地實(shí)現(xiàn)數(shù)據(jù)的查詢和分析,能有效地為學(xué)校管理層提供必要的決策支持信息。
[1]萬(wàn)澤春.大數(shù)據(jù)的應(yīng)用和解決方案淺析[J].電腦知識(shí)與技術(shù),2013,9(27):6217-6219.
[2]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時(shí)代[M].杭州:浙江人民出版社,2012:12.
[3]葉明,谷晨霞.“大數(shù)據(jù)”時(shí)代決策支持系統(tǒng)新發(fā)展[J].信息安全與技術(shù),2013(8):6-8.
[4]郭鑫.大數(shù)據(jù)教學(xué)資源共享系統(tǒng)的研究[J].電腦知識(shí)與技術(shù),2014,10(3):446-447.
[5]彭細(xì),張盼,許野.基于大數(shù)據(jù)的工程機(jī)械遠(yuǎn)程監(jiān)控系統(tǒng)研究[J].物聯(lián)網(wǎng)技術(shù),2014(1):23-26.
[6]福布斯:Hadoop——你不得不了解的大數(shù)據(jù)工具[EB/OL].[2015-02-03].http://www.csdn.net/article/2012-02-20/312061.
[7]陳麗,基于大數(shù)據(jù)的應(yīng)用系統(tǒng)架構(gòu)研究與應(yīng)用[J].軟件產(chǎn)業(yè)與工程,2014(5):33-38.
[8]陳大川,張寶山.大數(shù)據(jù)技術(shù)在住房信息系統(tǒng)中的應(yīng)用[J].信息通信技術(shù),2012(5):6-11.
[9]董素芬,蔡金金,滕桂法.基于B/S的研究生管理信息系統(tǒng)[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2010,33(4):109-111.
[10]黃曉斌,鐘輝新.基于大數(shù)據(jù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型[J].情報(bào)雜志,2013,32(3):37-43.