国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校大數(shù)據(jù)平臺的構(gòu)建與應(yīng)用探索

2018-01-05 11:12曾楊
關(guān)鍵詞:數(shù)據(jù)分析

曾楊

【摘 要】隨著高校信息化建設(shè)的全面發(fā)展,許多信息化系統(tǒng)都在陸續(xù)實施,規(guī)范和簡化了許多的業(yè)務(wù)工作。但是,各業(yè)務(wù)系統(tǒng)并沒有統(tǒng)一建設(shè)和管理,數(shù)據(jù)共享效果不顯著。結(jié)合對大數(shù)據(jù)技術(shù)的認知和其他高校對于大數(shù)據(jù)平臺的研究,論文提出一種大數(shù)據(jù)平臺的構(gòu)建方法,包含四個部分:數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)分析、算法推薦,重點介紹了這四部分涉及的設(shè)計、技術(shù)和應(yīng)用。

【Abstract】With the comprehensive development of the informatization construction in colleges and universities, many information systems has been implemented in succession, which has standardized and simplified a lot of business work. However, there is no uniform construction and management of the business systems, and the data sharing effect is not significant. Combined with the cognition of big data technology and other universities' research on big data platform, a method of constructing big data platform is put forward, which includes four parts of data platform, data warehouse, data analysis and algorithm recommendation. The paper mainly introduces the design, technology and application of the four parts.

【關(guān)鍵詞】教育大數(shù)據(jù)平臺;數(shù)據(jù)分析;算法推薦

【Keywords】educational big data platform; data analysis; algorithm recommendation

【中圖分類號】G718.5 【文獻標志碼】A 【文章編號】1673-1069(2018)10-0169-02

1 高校信息化建設(shè)背景

各高校在近十年全面發(fā)展信息化建設(shè),統(tǒng)一身份認證、公共數(shù)據(jù)庫、服務(wù)器、網(wǎng)絡(luò)、各系統(tǒng)平臺都陸續(xù)建設(shè)實施。在數(shù)字化校園的建設(shè)過程中,各高校相繼建設(shè)了許多的業(yè)務(wù)系統(tǒng),業(yè)務(wù)邏輯得以梳理,辦理步驟得以簡化,信息數(shù)據(jù)得以采集。但是,各業(yè)務(wù)系統(tǒng)在建設(shè)之初沒有進行較好的統(tǒng)籌規(guī)劃和統(tǒng)一管理,這就造成后期維護成本高、數(shù)據(jù)共享難度大、數(shù)據(jù)利用率低,數(shù)據(jù)展示效果差。為解決上述存在的問題,上海大學依靠表單+流程+數(shù)據(jù)+展示的開發(fā)理念,圍繞統(tǒng)一數(shù)據(jù)平臺、一站式服務(wù)大廳、數(shù)據(jù)分析展示三個方面進行重點建設(shè)。但是,這三個平臺主要還是依托傳統(tǒng)的關(guān)系型數(shù)據(jù)庫自底向上地建設(shè)教育信息化,這就成為目前智慧化校園的建設(shè)瓶頸。

2 高校大數(shù)據(jù)平臺的現(xiàn)狀

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,機器學習和人工智能的崛起標志著大數(shù)據(jù)時代的到來,許多領(lǐng)域包括教育信息化相繼進入大數(shù)據(jù)時代。有些高校和研究者已經(jīng)從理論上定義了大數(shù)據(jù),從思維上提煉了大數(shù)據(jù)時代的思維轉(zhuǎn)變[1],從技術(shù)上構(gòu)建了計算、存儲和分析挖掘模型[2]。高校大數(shù)據(jù)從理論到實踐的過程中,平臺的構(gòu)建是至關(guān)重要的環(huán)節(jié)。東北師范大學針對數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)計算、分析挖掘四個方面的需求進行分析,提出了自底向上分別是數(shù)據(jù)源、采集層、存儲層、計算層、分析挖掘?qū)?、?yīng)用層的教育大數(shù)據(jù)平臺[3]。不同于傳統(tǒng)的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)源的分類,其從應(yīng)用場景出發(fā)將數(shù)據(jù)源分為管理、資源、行為、評價四大類。數(shù)據(jù)源中的各類數(shù)據(jù)依照實際需求實時采集或者批量采集到分布式架構(gòu)的存儲層中,再通過計算層的各類數(shù)據(jù)計算引擎實現(xiàn)數(shù)據(jù)的過濾和整合,經(jīng)過分析挖掘?qū)拥奶幚懋a(chǎn)生新的數(shù)據(jù),繼而在應(yīng)用層表現(xiàn)出來。

3 高校大數(shù)據(jù)平臺的構(gòu)建

受其他高校大數(shù)據(jù)平臺構(gòu)建的啟發(fā),并結(jié)合本校教育信息化的實際情況,本文從數(shù)據(jù)平臺、數(shù)據(jù)倉庫、數(shù)據(jù)分析、算法推薦四個部分構(gòu)建符合本校人員結(jié)構(gòu)、管理方式、應(yīng)用實踐的教育大數(shù)據(jù)平臺。

3.1 數(shù)據(jù)平臺

利用Java技術(shù)對各類數(shù)據(jù)源采集的數(shù)據(jù)進行ETL操作,并把處理后的數(shù)據(jù)存入Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)。對于一部分需要在報表中顯示的數(shù)據(jù),存入MongoDB中,利用Python進行查詢,快速在報表中進行分頁展示,還可以利用Storm對數(shù)據(jù)進行快速的流處理[4]。例如:通過師生在食堂的校園卡消費記錄,獲取到實時消費的熱力圖,提供給后勤部門,后勤部門可以根據(jù)圖例實時調(diào)整開放窗口的數(shù)量,增加或者減少菜的供應(yīng),根據(jù)食堂的刷卡人數(shù)科學管理食堂的供應(yīng),發(fā)現(xiàn)各個食堂潛在的營業(yè)差異。

3.2 數(shù)據(jù)倉庫

在數(shù)據(jù)平臺部門將數(shù)據(jù)存入HDFS之后,需要利用Hive、Postgres等客戶端,根據(jù)數(shù)據(jù)分析的業(yè)務(wù)需求,將數(shù)據(jù)進行重新的分庫和分表操作,以便應(yīng)對用戶個性化的需求。數(shù)據(jù)倉庫將原先分散的數(shù)據(jù)根據(jù)主題的不同,集成為新的數(shù)據(jù)源,產(chǎn)生新的數(shù)據(jù)接口,供平臺和業(yè)務(wù)系統(tǒng)調(diào)用。例如:高校各部門的業(yè)務(wù)系統(tǒng)數(shù)據(jù)進入數(shù)據(jù)倉庫后可以根據(jù)不同的主題集成學校管理、學生管理、教學管理、教職工管理、科研管理、資產(chǎn)設(shè)備管理、辦公管理、財務(wù)管理等數(shù)據(jù)子集。學生的獎學金評定、老師的績效考核、部門的年終考核都可以調(diào)用這些數(shù)據(jù)子集。

3.3 數(shù)據(jù)分析

基于數(shù)據(jù)倉庫中的數(shù)據(jù)和Hive客戶端,運用Python、Go、R等編程語言,結(jié)合Spark等計算工具[5],對數(shù)據(jù)倉庫中的數(shù)據(jù)進行多維度、全方位的分析以便給領(lǐng)導層和決策者提供政策擬定和結(jié)果判斷的依據(jù)。運用關(guān)聯(lián)規(guī)則分析、線性回歸、非線性回歸等分析模型擬合出相應(yīng)的數(shù)學模擬,從而發(fā)現(xiàn)問題、描繪趨勢、預(yù)測結(jié)果。例如:可以對學校的學生進行行為分析,通過填寫調(diào)查問卷直接獲取數(shù)據(jù)或者提取學生在校的相關(guān)行為日志數(shù)據(jù),從這些數(shù)據(jù)中訓練出學生的性格、興趣、作息,以此作為社區(qū)分配寢室的依據(jù)。

3.4 算法推薦

利用聚類、分類算法可以得到不同屬性的數(shù)據(jù)分類情況,這些屬性稱為特征,根據(jù)不同的特征用戶群體,可以有不同的報表推薦。協(xié)同過濾算法可以過濾出相似的用戶,之后再用共現(xiàn)規(guī)則算法或者互信息算法可以分析出有關(guān)聯(lián)的特征。所以,運用協(xié)同過濾算法、共現(xiàn)規(guī)則算法、互信息算法可以向?qū)W生推薦適合的社團,也可以向師生推薦可能感興趣的學?;顒?。如果有新的特征的加入,可以采用諸如神經(jīng)網(wǎng)絡(luò)的機器學習方法,根據(jù)不同的事務(wù)訓練不同的特征參數(shù)。如果研究深入也可以嘗試多層神經(jīng)網(wǎng)絡(luò),進入深度學習的研究范圍。高校中的學生獎學金評定和績效考核就可以采用神經(jīng)網(wǎng)絡(luò)的訓練方面,從而得到符合每個高校自身的評價指標體系。

4 結(jié)論與展望

本文從自身高校實際部門人員結(jié)構(gòu)出發(fā)構(gòu)建了大數(shù)據(jù)平臺的四個部分,這四個部分都包含許多的大數(shù)據(jù)技術(shù)。伴隨著管理方式的更新和機構(gòu)改革的實施,上述教育大數(shù)據(jù)平臺的四個部分可以對應(yīng)四個機構(gòu)部門,四個機構(gòu)部門既獨立運作,又相互聯(lián)系,分配清晰,便于統(tǒng)籌管理。

教育大數(shù)據(jù)平臺也包含了傳統(tǒng)領(lǐng)域大數(shù)據(jù)平臺中的開發(fā)平臺、查詢系統(tǒng)、計算框架、存儲、消息傳遞。但其更側(cè)重于分析,教育大數(shù)據(jù)平臺的分析廣義上可以分為兩塊,一塊是實時計算,另一塊是定時運算。

實時計算可以體現(xiàn)在對頁面或者日志進行埋點的分析中。平臺獲取到一些操作或者特定行為的時候,將信息通過消息系統(tǒng)傳遞給實時計算平臺Storm,Storm收到消息完成計算并持久化結(jié)果。例如:對于Web數(shù)據(jù)可以通過埋點的方式,實時獲取已發(fā)布活動的關(guān)注熱度,對于關(guān)注度高的活動可以適當?shù)卦黾踊顒訄龃蝸頋M足大家的需求,對于關(guān)注度低的活動可以通過校內(nèi)推廣、彈窗、算法推薦等方式增加關(guān)注。對于關(guān)注度高,但是,轉(zhuǎn)化率低的活動,可以進一步分析其產(chǎn)生的原因。

定時運算可以體現(xiàn)在學生畫像的分析中。平臺每天定時獲取學生的上網(wǎng)數(shù)據(jù)、門禁數(shù)據(jù)、活動參與數(shù)據(jù)、借書數(shù)據(jù)、校園卡消費數(shù)據(jù)等,利用大數(shù)據(jù)平臺分析其學習、生活、消費等習慣,在學生畫像上以分析出的特征屬性作為標簽,方便學校和企業(yè)對于學生有更好的認知。對學生進行畫像數(shù)據(jù)的采集和分析,有利于學校通過分析學生的行為來改變教學模式、改善管理制度,建設(shè)更符合學生意識形態(tài)的智慧校園。

【參考文獻】

【1】(英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

【2】鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,38(07):103-108.

【3】李振,周東岱,劉娜,等.教育大數(shù)據(jù)的平臺構(gòu)建與關(guān)鍵實現(xiàn)技術(shù)[J].現(xiàn)代教育技術(shù),2018,28(01):100-106.

【4】李川,鄂海紅,宋美娜.基于Storm的實時計算框架的研究與應(yīng)用[J].軟件,2014,35(10):16-20.

【5】胡俊,胡賢德,程家興.基于Spark的大數(shù)據(jù)混合計算模型[J].計算機系統(tǒng)應(yīng)用,2015,24(04):214-218.

猜你喜歡
數(shù)據(jù)分析
基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
佛山某給水管線控制測量探討
SPSS在環(huán)境地球化學中的應(yīng)用
淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響