譚保華,任志鵬,王鵬,趙建平
(長春理工大學(xué),長春 130022)
校友資源是學(xué)校的寶貴財富,隨著大數(shù)據(jù)時代的到來,高校對校友資源的管理更加科學(xué)化、智能化[1]。本文利用大數(shù)據(jù)處理技術(shù)對校友信息數(shù)據(jù)進行挖掘、整理、分析,通過對主要數(shù)據(jù)模型的梳理,提供統(tǒng)一的基于云的大數(shù)據(jù)整合共享平臺,實現(xiàn)校友數(shù)據(jù)信息的整合和共享,同時結(jié)合微信公眾平臺進行信息的搜集與分析,實現(xiàn)了智能化、科學(xué)化管理,充分發(fā)揮校友資源的效用,形成功能完善、消息及時、管理方便、服務(wù)到位的校友信息整合分析平臺,提升了校友對學(xué)校的認同感和滿意度,有效地加強了校友與母校之間的動態(tài)聯(lián)絡(luò)與溝通,極大地增進了雙方之間的情感,為學(xué)校教育事業(yè)的發(fā)展起到了非常重要的推動作用。
本平臺設(shè)計思想旨在為校友建立一個在大數(shù)據(jù)技術(shù)基礎(chǔ)上的信息整合分析平臺,為校友信息收集、信息管理、信息交流等提供一體化服務(wù)[2]。管理模塊主要包括對數(shù)據(jù)、新聞信息、校友名片、企業(yè)招聘、企業(yè)產(chǎn)品和校友互動的六大模塊,此外,在系統(tǒng)維護模塊中可以設(shè)置每個功能模塊的權(quán)限,實現(xiàn)特定的權(quán)限控制功能。各個模塊既是彼此獨立的,與整個系統(tǒng)又是密切相關(guān)的。系統(tǒng)功能如圖1所示。
(1)基礎(chǔ)數(shù)據(jù)管理模塊:融合角色用戶、系統(tǒng)參數(shù)、系統(tǒng)日志、機構(gòu)單位的基礎(chǔ)數(shù)據(jù),建立統(tǒng)一的數(shù)據(jù)模型,進行數(shù)據(jù)管理和維護。應(yīng)用Hadoop分布式計算、Hbase分布式數(shù)據(jù)存儲系統(tǒng)解決大規(guī)模結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的讀寫問題,以MapReduce并行計算引擎為核心,實現(xiàn)對海量數(shù)據(jù)以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理。
圖1 系統(tǒng)總體設(shè)計
(2)新聞信息管理模塊:校友會基本信息、校友活動、校友刊物等信息的編輯展示功能。對校友信息、活動等進行數(shù)據(jù)挖掘,為校友認證、校友互動提供依據(jù)。針對數(shù)據(jù)來源的不同,采取不同的數(shù)據(jù)抽取方式;針對目標數(shù)據(jù)中缺失值,以及噪聲數(shù)據(jù)進行數(shù)據(jù)清洗,同時對數(shù)據(jù)進行規(guī)范化,將數(shù)據(jù)變換或者統(tǒng)一成適合挖掘的數(shù)據(jù)。
(3)校友名片管理模塊:校友注冊、信息管理、信息交互、校友圈、校友活動、e卡通等功能。結(jié)合傳統(tǒng)挖掘算法、機器學(xué)習(xí)和深度學(xué)習(xí),分析校友數(shù)據(jù)內(nèi)在隱含的信息,建立算法庫完成諸如聚類、分類、推薦過濾、頻繁子項挖掘等數(shù)據(jù)挖掘算法。
(4)企業(yè)招聘管理模塊:登記校友企業(yè)、招聘信息、網(wǎng)上招聘、智能分析、企業(yè)校友互動等功能。研究適合校友信息特征的具有廣義關(guān)聯(lián)特征的大數(shù)據(jù)分析挖掘算法,針對校友信息智能分析做重點分析。
(5)企業(yè)產(chǎn)品管理模塊:產(chǎn)品管理、產(chǎn)品銷售、訂單服務(wù)等功能。該模塊可實現(xiàn)對企業(yè)相關(guān)信息進行管理和服務(wù),系統(tǒng)中的數(shù)據(jù)根據(jù)決策需求經(jīng)過ETL轉(zhuǎn)換(數(shù)據(jù)集成、清理、轉(zhuǎn)換及歸約等)導(dǎo)入到數(shù)據(jù)倉庫中,提高挖掘效率。
(6)校友捐贈管理模塊:捐贈項目、捐贈相關(guān)新聞、以及對捐贈信息的統(tǒng)計等功能。
(7)系統(tǒng)維護模塊:包括對系統(tǒng)相關(guān)參數(shù)的設(shè)置、各用戶的權(quán)限設(shè)置、以及對所有管理模塊的控制等功能。以系統(tǒng)安全為基礎(chǔ),遵循先進性和擴展性原則實現(xiàn)本系統(tǒng)維護功能。
數(shù)據(jù)存儲采用基于Hadoop的Hbase分布式存儲技術(shù)來實現(xiàn)集群式存儲,充分發(fā)揮分布式集群存儲的開放式架構(gòu)以及高擴展性,為多源數(shù)據(jù)的統(tǒng)一存儲使用提供完備的技術(shù)支持。Hbase具有高可靠性、高性能、可伸縮性的優(yōu)點,適合于非結(jié)構(gòu)化數(shù)據(jù)的存儲,方便讀寫大規(guī)模數(shù)據(jù)。同時,它可以利用廉價的PC Server搭建大規(guī)模結(jié)構(gòu)化存儲集群,并充分利用現(xiàn)有資源[3]。利用Hive對Hbase中的數(shù)據(jù)進行查詢和分析。通過Hive不僅能夠?qū)崿F(xiàn)傳統(tǒng)數(shù)據(jù)庫對數(shù)據(jù)的統(tǒng)計分析,而且對存儲了計算能力具有擴展功能。本項目采用基于Hadoop的分布式存儲技術(shù)搭建數(shù)據(jù)存儲平臺,構(gòu)建數(shù)據(jù)存儲管理框架,最終解決多源數(shù)據(jù)統(tǒng)一存儲和管理的問題。
針對校友數(shù)據(jù)模式構(gòu)建分析數(shù)據(jù)集,包括教育部發(fā)布的教育信息化行業(yè)標準在內(nèi)的參考模型及數(shù)據(jù)、公共的標準以及滿足各業(yè)務(wù)部門需要的校級標準模型及數(shù)據(jù)、各項業(yè)務(wù)活動的共享數(shù)據(jù)集模型,將數(shù)據(jù)進行主題式分析,構(gòu)建各主題對應(yīng)的多種維度,提高多維數(shù)據(jù)的可擴展性并使之能夠提供對非結(jié)構(gòu)化數(shù)據(jù)的支持。本項目考慮到校友數(shù)據(jù)來源的復(fù)雜性,根據(jù)數(shù)據(jù)來源選擇不同的方式抽取數(shù)據(jù)。對于結(jié)構(gòu)化數(shù)據(jù),使用數(shù)據(jù)抽取工具把源數(shù)據(jù)放入Hbase數(shù)據(jù)庫;對于非結(jié)構(gòu)化數(shù)據(jù),首先使用Nutch來抓取數(shù)據(jù),再使用Solr處理數(shù)據(jù)并存儲到Hbase數(shù)據(jù)庫。將多維分析數(shù)據(jù)集構(gòu)建在HBase分布式數(shù)據(jù)庫中,保證維度創(chuàng)建和維護的靈活性,提高多維分析數(shù)據(jù)集的可擴展性并提供對非結(jié)構(gòu)化數(shù)據(jù)的支持。
數(shù)據(jù)整合工作流技術(shù)主要包含創(chuàng)建整合任務(wù)和任務(wù)調(diào)度兩個方面。整合平臺數(shù)據(jù)來源于多個獨立的業(yè)務(wù)系統(tǒng)。業(yè)務(wù)系統(tǒng)之間不存在數(shù)據(jù)共享,因此需要針對每個業(yè)務(wù)系統(tǒng)開發(fā)獨立的數(shù)據(jù)整合任務(wù),負責將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)拉取到整合平臺中,并完成數(shù)據(jù)的清洗工作。為了保證多整合任務(wù)之間的協(xié)調(diào)性,使用了任務(wù)調(diào)度引擎來管理任務(wù)的定時執(zhí)行,方便整合任務(wù)的擴展和維護。本項目通過使用Sqoop和Chukwa技術(shù)來建立數(shù)據(jù)整合任務(wù),使用Oozie技術(shù)來構(gòu)建任務(wù)調(diào)度引擎,為數(shù)據(jù)處理提供技術(shù)支持。
根據(jù)不同的數(shù)據(jù)性質(zhì),采取適合的算法進行諸如預(yù)測、分類、聚類操作,找到數(shù)據(jù)深層次的含義,提供決策的數(shù)據(jù)支持。針對這些數(shù)據(jù)分析工作,本項目基于MapReduce和Mahout技術(shù)的數(shù)據(jù)分析平臺建立數(shù)據(jù)分析模型作為。數(shù)據(jù)處理在Hadoop分布平臺之下,實現(xiàn)對海量數(shù)據(jù)以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理。具有高可靠性、高擴展性、高效性、高容錯性和低成本等優(yōu)點。Hadoop通過在計算機集簇間分派數(shù)據(jù)來并行完成計算功能,這些集簇能夠便利增添到節(jié)點中。此外,節(jié)點之間可以實現(xiàn)動態(tài)數(shù)據(jù)移動,進而確保每個節(jié)點的動態(tài)平衡,并具有高速的處理速度,能夠自動保存數(shù)據(jù)的多個副本,自動將失敗的任務(wù)重新分配,為大規(guī)模數(shù)據(jù)處理帶來便利。
數(shù)據(jù)可視化,能夠加強對數(shù)據(jù)形式的分析,使校友及其他用戶可以更直觀的觀看數(shù)據(jù),并方便了解數(shù)據(jù)中的隱藏信息[4]。實現(xiàn)數(shù)據(jù)和用戶的溝通,以便用戶對數(shù)據(jù)進行管理,進而有效的實現(xiàn)人機交互。同時滿足數(shù)據(jù)大規(guī)模、高維度的展示效果。如何提高數(shù)據(jù)展示的維度、滿足易操作的人性化交互方式,同時兼容高維度數(shù)據(jù)的展示,是本項目要解決的關(guān)鍵技術(shù)之一。
基于大數(shù)據(jù)技術(shù)的數(shù)據(jù)整合分析臺關(guān)鍵技術(shù):搭建分布式數(shù)據(jù)存儲平臺和構(gòu)建數(shù)據(jù)存儲管理框架,對多源數(shù)據(jù)進行統(tǒng)一的存儲和管理,并提供良好的可用性和可擴展性。根據(jù)校友數(shù)據(jù)特征設(shè)計多維分析數(shù)據(jù)集,將數(shù)據(jù)按照多個主題進行分析,支持多維度大規(guī)模的數(shù)據(jù)分析,同時提供對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的支持。研究數(shù)據(jù)整合調(diào)度技術(shù),利用任務(wù)調(diào)度引擎將原有各個系統(tǒng)的數(shù)據(jù)遷移工作設(shè)計成獨立的任務(wù)執(zhí)行,提供定時定期的計劃任務(wù)執(zhí)行方式。在數(shù)據(jù)整合任務(wù)中,研究了對歷史數(shù)據(jù)的清洗和補齊的相關(guān)規(guī)則,保證了數(shù)據(jù)的可用性。利用大數(shù)據(jù)分析技術(shù),設(shè)計多種數(shù)據(jù)分析模型,對數(shù)據(jù)提供諸如預(yù)測,分類,關(guān)聯(lián)等深層次的數(shù)據(jù)分析功能,輔助管理層進行決策。研究大數(shù)據(jù)可視化技術(shù),利用先進的用戶交互技術(shù),改變傳統(tǒng)報表式的數(shù)據(jù)展示方式,滿足多維度的數(shù)據(jù)展示和易操作的交互方式。
基于大數(shù)據(jù)技術(shù)的高校校友信息整合,該平臺采用的總體功能架構(gòu)設(shè)計為“1+1+4+N”(1個校友基礎(chǔ)數(shù)據(jù)源,1個大數(shù)據(jù)基礎(chǔ)運行平臺,4大平臺,包括數(shù)據(jù)采集存儲平臺、綜合分析挖掘平臺、數(shù)據(jù)整合調(diào)度平臺、安全掌握平臺,N大應(yīng)用包括校友互動、信息共享、決策支持等),如圖2所示。
圖2 平臺總體功能架構(gòu)
數(shù)據(jù)采集與存儲平臺的主要職責是對校友信息相關(guān)大數(shù)據(jù)進行收集,并將采集到的數(shù)據(jù)進行結(jié)構(gòu)化存儲和清洗。而分析與挖掘平臺的主要職責則是先對采集到的校友大數(shù)據(jù)進行專門的分析建模,然后再深入對數(shù)據(jù)進行挖掘和智能分析。安全管控平臺的主要職責是負責對整個的系統(tǒng)數(shù)據(jù)進行監(jiān)控和管理,確保校友的數(shù)據(jù)資產(chǎn)安全和可控。數(shù)據(jù)整合調(diào)度的主要指責是創(chuàng)建整合任務(wù)和任務(wù)調(diào)度,以用來整合不同數(shù)據(jù)來源獨立的系統(tǒng)。
基于大數(shù)據(jù)技術(shù)的多維度高校學(xué)情分析平臺采用的是典型的三大層次大數(shù)據(jù)技術(shù)架構(gòu),所謂三大層次包括源數(shù)據(jù)層、數(shù)據(jù)處理層和應(yīng)用層。系統(tǒng)技術(shù)架構(gòu)如圖3所示,該架構(gòu)是基于分布式數(shù)據(jù)計算平臺和大數(shù)據(jù)算法的結(jié)構(gòu),可用于支撐整個大數(shù)據(jù)的應(yīng)用功能與體系。
(1)源數(shù)據(jù)層設(shè)計
源數(shù)據(jù)層主要是指為整個業(yè)務(wù)分析系統(tǒng)提供各種源數(shù)據(jù)的錄入、數(shù)據(jù)的抽取和組合。源數(shù)據(jù)平臺在設(shè)計過程中重點在于對源數(shù)據(jù)管理設(shè)計,該系統(tǒng)是應(yīng)用大數(shù)據(jù)和云計算等多種技術(shù)和手段對系統(tǒng)所需的各種數(shù)據(jù)進行廣度和深度分析,并應(yīng)用指標、規(guī)則管理等工具實現(xiàn)對數(shù)據(jù)信息的收集與分析,然后借助大數(shù)據(jù)技術(shù)手段來達成數(shù)據(jù)管理的目標,以提升分析預(yù)測水平。
圖3 系統(tǒng)總體功能架構(gòu)
系統(tǒng)設(shè)計思路:第一步,建立統(tǒng)一的信息模型,以進行數(shù)據(jù)的抽取和整合,主要包括統(tǒng)一信息數(shù)據(jù)模型定義、數(shù)據(jù)抽取、數(shù)據(jù)加工和數(shù)據(jù)轉(zhuǎn)換等過程,從計量自動化系統(tǒng)中將相關(guān)數(shù)據(jù)及其他外部數(shù)據(jù)等抽取接入到系統(tǒng)中,然后轉(zhuǎn)換規(guī)則則是依據(jù)統(tǒng)一信息模型的定義進行轉(zhuǎn)換、輕度匯總等;第二步,對元數(shù)據(jù)進行質(zhì)量和安全控制,數(shù)據(jù)質(zhì)量主要是對數(shù)據(jù)值域、編碼正確性、唯一性、外鍵和業(yè)務(wù)規(guī)則進行檢查,安全方面主要控制對數(shù)據(jù)的訪問權(quán)限,包括表級級記錄級權(quán)限控制;第三步,利用云存儲技術(shù)將存儲資源放在云上,以便隨時為使用者提供存儲,這是一種新興方案,本系統(tǒng)使用的云存儲技術(shù)框架如圖4所示。
圖4 采用的云存儲技術(shù)框架
(2)數(shù)據(jù)處理層
數(shù)據(jù)處理層主要是對框架及平臺的實現(xiàn),為業(yè)務(wù)應(yīng)用平臺提供包括神經(jīng)網(wǎng)絡(luò)模型,決策樹模型,KNN模型,關(guān)聯(lián)規(guī)則模型等多種分析預(yù)測模型。
在大數(shù)據(jù)基礎(chǔ)上,從源數(shù)據(jù)平臺得到數(shù)據(jù),為構(gòu)建和分析預(yù)測系統(tǒng)模型做準備。主要提供基于校友會及校友各類信息,校友會信息包括:校友會基本信息、校友會活動信息、校友刊物、校友企業(yè)、招聘信息、產(chǎn)品管理、產(chǎn)品銷售等。校友信息包括:校友交互、e卡通信息等。
①神經(jīng)網(wǎng)絡(luò)的獨特性是它能夠在不了解數(shù)據(jù)來源的情況下,對非線性過程建立模型,有著實時優(yōu)化、非線性映射和學(xué)習(xí)分類的特征,為非線性分類和模式識別等研究提供了新的方法。本文基于校友及校友會數(shù)據(jù),采用深度學(xué)習(xí)算法融合灰色關(guān)聯(lián)度的基礎(chǔ)上,構(gòu)建神經(jīng)網(wǎng)絡(luò)優(yōu)化算法模型,并應(yīng)用于高校校友行為的捐贈預(yù)測中。
②針對校友行為信息數(shù)據(jù)的參與校友活動、與校友交互進行統(tǒng)計,根據(jù)共現(xiàn)次數(shù)和群體行為數(shù)據(jù)進行強化學(xué)習(xí),得到相應(yīng)的校友群體,從而得到更接近真實的校友朋友關(guān)系[5]。
③以大數(shù)據(jù)分析為技術(shù)手段的精準定位,將會在很大程度上保證招聘工作的有效性,借助大數(shù)據(jù)分析技術(shù)構(gòu)建招聘“大數(shù)據(jù)”應(yīng)用格局,為全面把握招聘現(xiàn)狀,實現(xiàn)高效招聘和為準畢業(yè)生提供最合理的就業(yè)幫助提供依據(jù)。采用開源的數(shù)據(jù)挖掘工具來分析校友行為數(shù)據(jù),并提出K-means聚類算法來輔助校友的招聘工作,直觀反映校友企業(yè)招聘狀況。實現(xiàn)大數(shù)據(jù)分析與企業(yè)招聘的高度耦合,有針對性地引導(dǎo)校友企業(yè)對準畢業(yè)生的最大化了解,對校友企業(yè)招聘進行規(guī)劃和提供科學(xué)決策。
④對現(xiàn)有異常檢測方法進行比較,指出現(xiàn)有異常檢測算法的優(yōu)缺點,針對校友活動信息、校友交互等行為數(shù)據(jù),本文采用改進的模糊C均值聚類算法對其進行異常行檢測。
(3)業(yè)務(wù)應(yīng)用層設(shè)計
業(yè)務(wù)應(yīng)用層主要是用來提供系統(tǒng)和應(yīng)用業(yè)務(wù)功能,能夠使用此平臺模塊進行各類功能應(yīng)用分析數(shù)據(jù),如圖5所示。
圖5 系統(tǒng)展示
基于大數(shù)據(jù)技術(shù)的高校校友信息整合分析平臺很好地應(yīng)用到了我校校友工作管理過程中,它對校友們?nèi)粘P袨榱?xí)慣、興趣愛好、社交圈、校友互動以及校友活動的參與度和支持度等信息進行科學(xué)的分析,充分挖掘其中潛在的優(yōu)質(zhì)校友、熱心校友及公益捐贈校友等,并能夠及時的跟蹤、跟進并進行適當?shù)男畔⑼扑团c反饋,同時結(jié)合微信公眾平臺進行功能的整合與綁定,信息完善速度快、發(fā)布及時、傳播范圍廣泛、數(shù)據(jù)智能匹配程度高,功能強大,極大地提高了校友工作者的信息化管理與操作水平,促進我校校友工作走進科學(xué)化、信息化時代。
基于大數(shù)據(jù)技術(shù)的高校校友信息整合分析平臺開發(fā)與應(yīng)用,使校友資源得到了更為科學(xué)的利用,采用智能信息管理手段,可以最大化校友資源的利用效率,加以友好的界面設(shè)計,極大地提高了校友工作者的工作效率和操作水平,使其可以更好的服務(wù)校友,服務(wù)學(xué)校,推動學(xué)校發(fā)展。