姜攀
(蘇州工業(yè)園區(qū)服務(wù)外包職業(yè)學(xué)院,江蘇 蘇州 215123)
改革開(kāi)放40 年來(lái),我國(guó)經(jīng)濟(jì)水平發(fā)展迅速,但仍有許多學(xué)生因各種原因?qū)е录彝ヘ毨?,無(wú)法完成學(xué)業(yè)。為了解決這一重大問(wèn)題,我國(guó)已逐步出臺(tái)了實(shí)施九年制義務(wù)教育,還制定了一系列貧困生資助制度,目的是確保貧困學(xué)生順利入學(xué),幫助他們順利完成學(xué)業(yè)。但是,在助學(xué)工作的實(shí)施和落實(shí)過(guò)程中,存在著很多問(wèn)題。只有充分分析助學(xué)效果,才能更好地開(kāi)展助學(xué)工作,讓真正需要助學(xué)的學(xué)生得到資助。
目前,國(guó)內(nèi)外對(duì)于助學(xué)措施的方法有很多不同的政策。在文獻(xiàn)中筆者介紹了德州針對(duì)社區(qū)學(xué)院的貧困生開(kāi)發(fā)的一種新的基于績(jī)效的資助模式(PBF)。筆者研究了改革引起的低收入學(xué)區(qū)學(xué)業(yè)成績(jī)的變化,結(jié)果表明,學(xué)校資源對(duì)學(xué)業(yè)成績(jī)有很大的影響。在文獻(xiàn)中,筆者重點(diǎn)研究的是來(lái)自于德州的畢業(yè)生就業(yè)結(jié)果的對(duì)比分析。
基于大數(shù)據(jù)分析的大學(xué)生資助分析監(jiān)測(cè)平臺(tái)的總體框架由:校園基礎(chǔ)數(shù)據(jù)源、大數(shù)據(jù)基礎(chǔ)運(yùn)行平臺(tái)(數(shù)據(jù)采集存儲(chǔ)平臺(tái)、綜合分析挖掘平臺(tái)、智能預(yù)警平臺(tái)、安全運(yùn)行管控平臺(tái))以及多種應(yīng)用,如:智能預(yù)警、數(shù)據(jù)挖掘、多維分析、關(guān)鍵指標(biāo)、專題分析等。其中數(shù)據(jù)采集和存儲(chǔ)平臺(tái)主要將學(xué)校各平臺(tái)的基礎(chǔ)信息和學(xué)生行為相關(guān)大數(shù)據(jù)進(jìn)行收集,并將收集到的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲(chǔ)和清洗;綜合分析挖掘平臺(tái)主要是對(duì)學(xué)校采集到的大數(shù)據(jù)分析建模,再對(duì)其進(jìn)行深度挖掘和智能化分析;智能預(yù)警平臺(tái)主要是利用平臺(tái)所分析的結(jié)果對(duì)學(xué)生的異常行為進(jìn)行智能預(yù)警以及自動(dòng)生成對(duì)應(yīng)的監(jiān)督措施;安全管控平臺(tái)主要是對(duì)整個(gè)系統(tǒng)進(jìn)行數(shù)據(jù)監(jiān)控和管理,確保系統(tǒng)的安全穩(wěn)定運(yùn)行。
我們可以通過(guò)校園一卡通系統(tǒng)中的各類終端機(jī)收集到的海量數(shù)據(jù),針對(duì)具體的分析場(chǎng)景建模并智能判斷預(yù)測(cè)貧困生情況。通過(guò)分析一卡通系統(tǒng)中的食堂和超市消費(fèi)情況、宿舍購(gòu)水電記錄情況、醫(yī)務(wù)室就診情況,建立學(xué)生日常交易行為預(yù)警系統(tǒng),通過(guò)在系統(tǒng)中預(yù)設(shè)值閥值來(lái)實(shí)現(xiàn)自動(dòng)預(yù)警功能,然后學(xué)生管理者可以根據(jù)這些預(yù)警信息及時(shí)響應(yīng)。
通過(guò)分析學(xué)工系統(tǒng)中的學(xué)生、家庭基本信息、上網(wǎng)審計(jì)系統(tǒng)中學(xué)生上網(wǎng)審計(jì)記錄等,通過(guò)這些數(shù)據(jù)的抓取來(lái)判斷貧困生的其中重要的依據(jù)。
通過(guò)分析財(cái)務(wù)管理系統(tǒng)中的學(xué)生學(xué)費(fèi)是否存在延遲或者未繳費(fèi)的情況,通過(guò)這些數(shù)據(jù)的抓取來(lái)判斷貧困生的其中重要的依據(jù)。
上網(wǎng)審計(jì)數(shù)據(jù)通常使用的來(lái)源是網(wǎng)絡(luò)挖掘和文本挖掘(來(lái)自網(wǎng)絡(luò)審計(jì)系統(tǒng)的日志),從社交網(wǎng)絡(luò)中挖掘輿論以及從公共門(mén)戶網(wǎng)站收集的數(shù)據(jù)。很多數(shù)據(jù)都是從微信、QQ和微博等社交網(wǎng)站公開(kāi)的,例如:上傳的照片和視頻、評(píng)論、留言、點(diǎn)擊喜歡按鈕等,這些數(shù)據(jù)可以通過(guò)意識(shí)形態(tài)挖掘等技術(shù)進(jìn)行監(jiān)控。
各種數(shù)據(jù)來(lái)源表明我們正在處理大數(shù)據(jù),大數(shù)據(jù)分析的原理是收集大量的數(shù)據(jù),然后利用大數(shù)據(jù)的研究方法對(duì)數(shù)據(jù)進(jìn)行分析。這種大數(shù)據(jù)分析方法可以有效地解決了當(dāng)前數(shù)據(jù)庫(kù)技術(shù)無(wú)法滿足的分析需求,提高數(shù)據(jù)處理操作的及時(shí)性和解決問(wèn)題的響應(yīng)速度。因此我們需要能夠收集、存儲(chǔ)和處理大量數(shù)據(jù)的技術(shù),這些數(shù)據(jù)種類繁多,還有一些數(shù)據(jù)正在高速生成。此外,這些技術(shù)應(yīng)具有足夠的靈活性,以適應(yīng)功能的逐步增加。在處理大數(shù)據(jù)時(shí),最近流行的趨勢(shì)是在云計(jì)算服務(wù)的幫助下使用Hadoop 平臺(tái),Hadoop 是在分布式服務(wù)器集群上存儲(chǔ)海量數(shù)據(jù)并運(yùn)行分布式分析應(yīng)用的開(kāi)源框架。Hadoop 是由許多不同的模塊(超過(guò)150 個(gè))組成,是一個(gè)處理大數(shù)據(jù)的強(qiáng)大平臺(tái),本文采用的大數(shù)據(jù)分析方法是基于Hadoop 架構(gòu)的。
Hadoop 簡(jiǎn)單來(lái)說(shuō)就是用JAVA寫(xiě)的分布式,處理大數(shù)據(jù)的框架,主要思想是“分組合并”思想。所謂分組,比如有一個(gè)大型數(shù)據(jù),那么他就會(huì)將這個(gè)數(shù)據(jù)按照算法分成多份,每份存儲(chǔ)在從屬主機(jī)上,并且在從屬主機(jī)上進(jìn)行計(jì)算,主節(jié)點(diǎn)主要負(fù)責(zé)Hadoop 兩個(gè)關(guān)鍵功能模塊HDFS、MapReduce 的監(jiān)督。合并是將每個(gè)機(jī)器上的計(jì)算結(jié)果合并起來(lái),再在一臺(tái)機(jī)器上計(jì)算,得到最終結(jié)果。這就是MapReduce 算法。
在構(gòu)建Hadoop 集群名節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的條件下,我們使用Map 和Reduce 開(kāi)發(fā)用戶編程,這樣我們可以通過(guò)補(bǔ)貼流量數(shù)據(jù)的方式,使用分區(qū)程序來(lái)計(jì)算需求。這個(gè)程序分為很多子任務(wù),系統(tǒng)用它指向的數(shù)據(jù)來(lái)處理和歸結(jié)子任務(wù)。在刪除數(shù)據(jù)時(shí),先對(duì)數(shù)據(jù)進(jìn)行清理,統(tǒng)計(jì)數(shù)據(jù)中的異常數(shù)據(jù),分析異常數(shù)據(jù)與正常數(shù)據(jù)之間的關(guān)系,并得到異常數(shù)據(jù)在所有數(shù)據(jù)中的比例。在這里,我們使用MapReduce 計(jì)算架構(gòu),實(shí)現(xiàn)學(xué)生資助數(shù)據(jù)清洗和數(shù)據(jù)切片過(guò)程。
EPC總承包的職能就像是房地產(chǎn)企業(yè)的工程管理,在牽頭和配合與協(xié)調(diào)的過(guò)程中進(jìn)行操作,就該層面分析,和地產(chǎn)項(xiàng)目的管理相比可以說(shuō)是如履薄冰,房地產(chǎn)商能夠在地產(chǎn)升值過(guò)程中提高銷售高利潤(rùn),在管理中出現(xiàn)的一些額外費(fèi)并不屬于過(guò)程控制的核心問(wèn)題,地產(chǎn)項(xiàng)目的管理團(tuán)隊(duì)非常成熟,可以劃分職能,這是真正的業(yè)主,管理權(quán)威是絕對(duì)的。
系統(tǒng)將我們程序?qū)崿F(xiàn)的數(shù)據(jù)清洗和切片分配到具體的Map 任務(wù)中。Slaver 角色全部交給Map 的一些數(shù)據(jù)節(jié)點(diǎn),然后將調(diào)度名節(jié)點(diǎn)的任務(wù)也交給Map的數(shù)據(jù)節(jié)點(diǎn)進(jìn)行操作。
Reduce 階段的作業(yè)輸入數(shù)據(jù)流相當(dāng)于前面介紹的Map 階段的輸出數(shù)據(jù)流。當(dāng)每個(gè)學(xué)生根據(jù)兩行排列的關(guān)系補(bǔ)助數(shù)據(jù)鍵對(duì)后,我們用Reduce 函數(shù)對(duì)數(shù)據(jù)進(jìn)行處理,這是Reduce 階段的Map 函數(shù)處理的輸出數(shù)據(jù)統(tǒng)一的必要前提步驟。由于MapReduce 階段的數(shù)據(jù)操作時(shí)間不同不確定,所以這些數(shù)據(jù)保存在數(shù)據(jù)庫(kù)中的時(shí)間也不確定。
學(xué)生異常行為大數(shù)據(jù)分析過(guò)程:
大學(xué)生資助大數(shù)據(jù)分析過(guò)程如圖1 所示。
圖1 學(xué)生異常行為大數(shù)據(jù)分析過(guò)程
數(shù)據(jù)抽取與整合:通過(guò)搜索整個(gè)數(shù)據(jù)源,使用一定的標(biāo)準(zhǔn)來(lái)篩選出合乎要求的數(shù)據(jù)并結(jié)合數(shù)據(jù)庫(kù)相應(yīng)的工作模式,將學(xué)生行為數(shù)據(jù)從源數(shù)據(jù)庫(kù)抽取出來(lái),然后在合適的中間過(guò)程寫(xiě)入操作性數(shù)據(jù)ODS,這個(gè)過(guò)程叫做數(shù)據(jù)抽取,數(shù)據(jù)抽取工作原理圖2 所示:數(shù)據(jù)抽取完成對(duì)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的全量抽取,通過(guò)ODBC 接口、專用數(shù)據(jù)庫(kù)接口和文件數(shù)據(jù)提取器、音視頻數(shù)據(jù)分析器等接口提取原始數(shù)據(jù),并參照元數(shù)據(jù)來(lái)決定數(shù)據(jù)的提取及其提取方式,實(shí)現(xiàn)對(duì)各類主流數(shù)據(jù)庫(kù)原始數(shù)據(jù)的提取。數(shù)據(jù)采集將按照業(yè)務(wù)數(shù)據(jù)具體概況對(duì)不同數(shù)據(jù)集定制適用的數(shù)據(jù)抽取策略。
數(shù)據(jù)清洗與分析:數(shù)據(jù)清洗將學(xué)工、財(cái)務(wù)、一卡通、上網(wǎng)審計(jì)等與學(xué)生行為相關(guān)的全量業(yè)務(wù)數(shù)據(jù)通過(guò)各類數(shù)據(jù)清洗方法,一般包括刪除多列、更改數(shù)據(jù)類型、變量轉(zhuǎn)換、缺失數(shù)據(jù)檢查、刪轉(zhuǎn)換時(shí)間戳等,清洗后形成標(biāo)準(zhǔn)化數(shù)據(jù)。根據(jù)高校信息標(biāo)準(zhǔn)化的統(tǒng)一數(shù)據(jù)模型,數(shù)據(jù)存儲(chǔ)實(shí)現(xiàn)分層數(shù)據(jù)存儲(chǔ)的定義和構(gòu)建,按照近源模型層、整合模型層、共性加工層和集市應(yīng)用層四層模型進(jìn)行構(gòu)建。數(shù)據(jù)清洗過(guò)程模型與圖2 類似。
圖2 數(shù)據(jù)抽取過(guò)程圖
資助模式的創(chuàng)新只有全面考慮如何科學(xué)識(shí)別貧困生,深入分析學(xué)生的資助需求,密切跟蹤資助過(guò)程,科學(xué)、統(tǒng)一評(píng)價(jià)資助結(jié)果,才能更好地完善現(xiàn)有資助模式。
目前,貧困生的認(rèn)定方式一般是通過(guò)證明材料、觀摩認(rèn)證,并通過(guò)走訪同學(xué)、民主評(píng)議。證明材料法是一個(gè)復(fù)雜的程序,過(guò)于依賴在書(shū)面材料上有時(shí)很難有效保證證明材料的真實(shí)性和可靠性,存在很多造假行為。觀察認(rèn)證法多以平時(shí)教師對(duì)學(xué)生消費(fèi)行為的觀察為主,通過(guò)走訪學(xué)生家庭可以了解學(xué)生的真實(shí)貧困情況。民主評(píng)議的方法與觀察法類似,觀察的對(duì)象也由老師變成了被觀察者的同學(xué),但這種方法容易受到被觀察者性格和關(guān)系的限制,有時(shí)很難得出科學(xué)的結(jié)論。
傳統(tǒng)的資助方式往往采取“一刀切”的方式,強(qiáng)調(diào)單一的物質(zhì)資助形式,難以全面滿足家庭經(jīng)濟(jì)困難學(xué)生的學(xué)習(xí)、生活和成長(zhǎng)需求。通過(guò)大數(shù)據(jù)分析,我們可以有效地對(duì)資金資源進(jìn)行分配和個(gè)性化配置,這也是使有限的資金發(fā)揮最大效益的重要手段。在照顧貧困學(xué)生基本生活需求的基礎(chǔ)上,用量化指標(biāo)確定學(xué)生家庭致貧因素,針對(duì)不同的貧困程度采取不同的資助標(biāo)準(zhǔn),確保有限的資金用在刀刃上。
制定實(shí)時(shí)跟蹤和動(dòng)態(tài)調(diào)整機(jī)制是我們高效籌資的重要環(huán)節(jié)。利用大數(shù)據(jù)綜合信息管理平臺(tái),建立每個(gè)學(xué)生的預(yù)警和淘汰機(jī)制,實(shí)現(xiàn)對(duì)資助對(duì)象的動(dòng)態(tài)管理。建立預(yù)警機(jī)制,對(duì)受資助的學(xué)生要及時(shí)關(guān)注,對(duì)其他未受資助的學(xué)生也要及時(shí)有效地關(guān)注其生活、學(xué)習(xí)、心理等。如果在這些方面有困難,應(yīng)及時(shí)提早制定預(yù)警和幫扶措施。利用大數(shù)據(jù)綜合管理平臺(tái)和預(yù)測(cè)功能,建立受助學(xué)生的校園卡、銀行卡、校園網(wǎng)等信息和支持平臺(tái)的管理體系。通過(guò)對(duì)學(xué)生消費(fèi)數(shù)據(jù)、學(xué)業(yè)數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)的分析,制定更加科學(xué)的篩查預(yù)警和淘汰措施。
通過(guò)對(duì)大數(shù)據(jù)的有效分析,我們摸索出一套較為科學(xué)的資助管理辦法。針對(duì)不同原因造成貧困的學(xué)生,我們采取了不同比例的獎(jiǎng)助方式,有效地將有限的資助資金發(fā)揮到極致。在資助學(xué)生的對(duì)象上,我們還通過(guò)數(shù)據(jù)分析制定了相關(guān)的淘汰機(jī)制。對(duì)于受資助的學(xué)生,我們通過(guò)調(diào)取他們的銀行卡和校園卡信息,對(duì)其消費(fèi)行為進(jìn)行分析。如果學(xué)生長(zhǎng)期以來(lái)的消費(fèi)行為基本接近于大眾消費(fèi)水平,將降低或停止補(bǔ)貼的程度。學(xué)會(huì)利用大數(shù)據(jù)分析的結(jié)果來(lái)改進(jìn)現(xiàn)有的資助方式。
基于大數(shù)據(jù)分析的助學(xué)管理方法實(shí)施以來(lái),得到了師生的一致認(rèn)可。在一定程度上,傳統(tǒng)的“一刀切”的助學(xué)方法不能很好地解決學(xué)生的困難問(wèn)題,而經(jīng)過(guò)大數(shù)據(jù)分析后的助學(xué)方法,可以更好地將助學(xué)資金以不同的比例分配給不同情況的學(xué)生,力爭(zhēng)使每一個(gè)學(xué)生不會(huì)因?yàn)樨毨Ф鵁o(wú)法完成學(xué)業(yè)。我校5600 名學(xué)生滿意度調(diào)查結(jié)果如圖2 所示。從圖2 中可以看出,80%以上的學(xué)生對(duì)資助方式表示滿意,超過(guò)了19%的學(xué)生非常滿意,只有0.2%的學(xué)生覺(jué)得不滿意。
通過(guò)對(duì)基于大數(shù)據(jù)分析的助學(xué)效果分析,使資助項(xiàng)目更加科學(xué),真正達(dá)到合理利用資助的目的。同時(shí)也不遺漏任何一個(gè)需要資助的學(xué)生,更不會(huì)讓不符合貧困資助標(biāo)準(zhǔn)的學(xué)生得到本不該得到的資助。只有通過(guò)科學(xué)的跟蹤體系和完善的資助管理辦法,才能讓每一個(gè)貧困學(xué)生不因貧困而失學(xué),讓每一個(gè)學(xué)生都能安心學(xué)習(xí),快樂(lè)成長(zhǎng)。