国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談教育大數(shù)據(jù)如何真正落地

2017-02-27 20:59
軟件和集成電路 2016年9期
關(guān)鍵詞:數(shù)據(jù)系統(tǒng)數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)

進(jìn)入2016年,在國(guó)家政策導(dǎo)向和大數(shù)據(jù)技術(shù)發(fā)展的整體趨勢(shì)下,“大數(shù)據(jù)”已經(jīng)成為最火熱的詞匯,引爆各行各業(yè)。上至國(guó)家戰(zhàn)略層面,下到大數(shù)據(jù)產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié),都開(kāi)始對(duì)大數(shù)據(jù)進(jìn)行研究與探索。作為人才的高地與源頭,中國(guó)教育領(lǐng)域的大數(shù)據(jù)建設(shè)也迅速提上議程,成為今年教育信息化最熱的話(huà)題。

那么教育行業(yè)該如何根據(jù)自身特性去建設(shè)、落地教育大數(shù)據(jù),大數(shù)據(jù)到底能為現(xiàn)代教育帶來(lái)怎樣的價(jià)值與效益?在此,本人根據(jù)三盟科技近幾年在教育大數(shù)據(jù)上取得的一些研發(fā)成果、教育大數(shù)據(jù)應(yīng)用落地過(guò)程中遇到的問(wèn)題及建設(shè)方法經(jīng)驗(yàn),淺談一下教育大數(shù)據(jù)到底該如何真正落地,并與業(yè)內(nèi)同仁共同分享,一起探討,共同助力教育大數(shù)據(jù)快速健康良性發(fā)展。

教育大數(shù)據(jù)整體建設(shè)流程

如上圖所示,教育大數(shù)據(jù)能夠真正落地,主要經(jīng)歷了對(duì)數(shù)據(jù)源層數(shù)據(jù)的采集整理、大數(shù)據(jù)平臺(tái)的搭建、業(yè)務(wù)的開(kāi)發(fā),然后通過(guò)移動(dòng)APP、電腦、短信、微信、郵件等方式為具體的教育用戶(hù)服務(wù)。

數(shù)據(jù)源層數(shù)據(jù)的采集整理

教育大數(shù)據(jù)系統(tǒng)的構(gòu)建基于學(xué)校沉淀的數(shù)據(jù),只有將學(xué)校散落在各個(gè)系統(tǒng)里的數(shù)據(jù)進(jìn)行集中采集,統(tǒng)一存儲(chǔ),然后進(jìn)行深度挖掘和分析,才能真正讓這些數(shù)據(jù)為教育教學(xué)和管理所用,服務(wù)到教育用戶(hù)。

目前,數(shù)據(jù)源層的數(shù)據(jù)主要來(lái)自校內(nèi)管理、校內(nèi)教學(xué)、校內(nèi)硬件和互聯(lián)網(wǎng)絡(luò)四個(gè)層面。其中校內(nèi)管理、校內(nèi)教學(xué)業(yè)務(wù)系統(tǒng)產(chǎn)生的數(shù)據(jù),以結(jié)構(gòu)化為主,是學(xué)校管理教學(xué)的核心數(shù)據(jù),現(xiàn)階段很多高校自建的數(shù)據(jù)分析平臺(tái),數(shù)字化校園廠(chǎng)商提供的大數(shù)據(jù)服務(wù)主要是基于這部分?jǐn)?shù)據(jù);校內(nèi)硬件設(shè)備、互聯(lián)網(wǎng)上的數(shù)據(jù),包含了大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),也是數(shù)據(jù)源極其重要的一部分,是現(xiàn)在教育大數(shù)據(jù)發(fā)展的重要方向。

大數(shù)據(jù)平臺(tái)的搭建

在完成數(shù)據(jù)的采集以后,需要把采集到的四類(lèi)數(shù)據(jù)統(tǒng)一存儲(chǔ)到大數(shù)據(jù)平臺(tái),然后對(duì)這些采集到的數(shù)據(jù)進(jìn)行清洗、整理、轉(zhuǎn)換,統(tǒng)一標(biāo)準(zhǔn),接口封裝,最后提供統(tǒng)一的對(duì)外接口,為具體的大數(shù)據(jù)業(yè)務(wù)提供所需的數(shù)據(jù)。

考慮到所采集的數(shù)據(jù)特性,統(tǒng)一的大數(shù)據(jù)平臺(tái)需要包括結(jié)構(gòu)化數(shù)據(jù)中心和非結(jié)構(gòu)化數(shù)據(jù)中心兩個(gè)部分,同時(shí)要求數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)是分步式,并且是多數(shù)據(jù)庫(kù)整合模式,以滿(mǎn)足高校多種類(lèi)型的數(shù)據(jù)源,較高的數(shù)據(jù)處理和存儲(chǔ)要求,以及新增數(shù)據(jù)的持續(xù)擴(kuò)展。同時(shí)還需要支持圖形化管理,用于校內(nèi)管理人員日常運(yùn)維管理。

大數(shù)據(jù)業(yè)務(wù)開(kāi)發(fā)

大數(shù)據(jù)業(yè)務(wù)的開(kāi)發(fā)可以說(shuō)是大數(shù)據(jù)能為教育行業(yè)真正所用的最重要的一環(huán),只有結(jié)合每個(gè)學(xué)校的特性與需求,開(kāi)發(fā)出所需的業(yè)務(wù)應(yīng)用模塊,我們的學(xué)校管理者、教師、學(xué)生才能真正感受到大數(shù)據(jù)的存在,才能利用大數(shù)據(jù)去變革傳統(tǒng)教育教學(xué)管理模式,為學(xué)校各級(jí)領(lǐng)導(dǎo)、教師、學(xué)生帶來(lái)宏觀(guān)層面以及微觀(guān)個(gè)體的綜合服務(wù)。

目前,三盟科技主要研發(fā)出了“學(xué)校概況”、“我的大學(xué)”、“行為畫(huà)像”、“綜合預(yù)警”、“輿情分析”、“招生就業(yè)”和“安全大數(shù)據(jù)”等七大業(yè)務(wù)應(yīng)用模塊,分別從教學(xué)就業(yè)、學(xué)生服務(wù)、學(xué)校管理三大維度,為學(xué)校構(gòu)建了整體的大數(shù)據(jù)環(huán)境,實(shí)現(xiàn)了“因材施教”的個(gè)性化教學(xué)、全??梢暬皖A(yù)測(cè)性管理,學(xué)生綜合性和精準(zhǔn)性的就業(yè)服務(wù)等,充分利用和呈現(xiàn)了大數(shù)據(jù)在教育行業(yè)的應(yīng)用價(jià)值,構(gòu)建了持續(xù)化的發(fā)展能力。

特別值得一提的是,由于高校各部門(mén)需求差異大,因此高校大數(shù)據(jù)講究標(biāo)準(zhǔn)化與開(kāi)放性,以便各類(lèi)公司、學(xué)校部門(mén)師生均可以參與,共同開(kāi)發(fā)出所需的大數(shù)據(jù)分析業(yè)務(wù)。2016年開(kāi)始流行的高校大數(shù)據(jù)服務(wù)大廳理念,可以預(yù)見(jiàn)其將成為未來(lái)的發(fā)展趨勢(shì)。高校大數(shù)據(jù)服務(wù)大廳除了提供大數(shù)據(jù)分析結(jié)果服務(wù)外,還能夠提供原始數(shù)據(jù)服務(wù),因此技術(shù)上需要大數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)提供統(tǒng)一的服務(wù)接口。學(xué)校老師、各類(lèi)公司不用關(guān)心數(shù)據(jù)存儲(chǔ)的具體位置,也不需要學(xué)習(xí)Oracle、hadoop等數(shù)據(jù)庫(kù),只需要使用最簡(jiǎn)單的SQL語(yǔ)句就可以調(diào)用整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)數(shù)據(jù),進(jìn)行大數(shù)據(jù)業(yè)務(wù)的開(kāi)發(fā);開(kāi)發(fā)出的大數(shù)據(jù)分析業(yè)務(wù),通過(guò)電腦、手機(jī)、郵件等現(xiàn)階段主流方式,為學(xué)校用戶(hù)、校外社會(huì)用戶(hù)提供服務(wù)。

教育大數(shù)據(jù)具體實(shí)現(xiàn)技術(shù)

教育大數(shù)據(jù)真正應(yīng)用與落地,在技術(shù)實(shí)現(xiàn)層面,主要涉及到大數(shù)據(jù)建設(shè)的五大關(guān)鍵領(lǐng)域,包括數(shù)據(jù)采集、清洗和質(zhì)量管理、存儲(chǔ)及建模、分析及挖掘、展現(xiàn)和應(yīng)用,同時(shí)涉及整個(gè)軟硬件環(huán)境和安全保障整體性設(shè)計(jì)。 由于篇幅有限,在這里,我們主要談一下數(shù)據(jù)的采集、清洗和建模三個(gè)部分:

數(shù)據(jù)采集

教育大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)源分為業(yè)務(wù)系統(tǒng)、硬件設(shè)備、互聯(lián)網(wǎng)三大類(lèi),數(shù)據(jù)格式類(lèi)型豐富;每類(lèi)數(shù)據(jù)源的數(shù)據(jù)量大小和數(shù)據(jù)質(zhì)量差異很大,需要采用不同的存儲(chǔ)技術(shù);同時(shí)還面臨業(yè)務(wù)系統(tǒng)間獨(dú)立建設(shè)、相互割裂、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)接口難協(xié)調(diào)等問(wèn)題。因此,教育領(lǐng)域的大數(shù)據(jù)系統(tǒng)需要根據(jù)數(shù)據(jù)特點(diǎn)和應(yīng)用要求,定制設(shè)計(jì)大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)采集方案,規(guī)劃和設(shè)計(jì)每個(gè)系統(tǒng)的采集方式、采集頻率、存儲(chǔ)方式和采集時(shí)間等。

針對(duì)高校數(shù)據(jù)類(lèi)型豐富、應(yīng)用服務(wù)復(fù)雜、數(shù)據(jù)特點(diǎn)差異大等情況,三盟科技開(kāi)發(fā)了一套數(shù)據(jù)采集工具,對(duì)當(dāng)前已經(jīng)構(gòu)建的信息系統(tǒng)、硬件設(shè)備和互聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行采集。數(shù)據(jù)采集的接口包括DB接口、Socket接口、Webservice接口、Syslog接口等,在這過(guò)程中對(duì)采集到的數(shù)據(jù)進(jìn)行質(zhì)量監(jiān)控和管理。對(duì)于非系統(tǒng)化的數(shù)據(jù),比如表格、文字等,可以通過(guò)人工方式錄入到大數(shù)據(jù)系統(tǒng)??傮w而言,數(shù)據(jù)采集包括系統(tǒng)專(zhuān)有接口、數(shù)據(jù)庫(kù)接口、網(wǎng)絡(luò)爬蟲(chóng)和手工導(dǎo)入四種方式,具體采集方式的選擇原則如下:

接口讀取

對(duì)于實(shí)時(shí)性要求較高的系統(tǒng),需要通過(guò)接口進(jìn)行采集,如一卡通、上網(wǎng)行為審計(jì)、認(rèn)證計(jì)費(fèi)設(shè)備等。

數(shù)據(jù)庫(kù)獲取

對(duì)于靜態(tài)性強(qiáng)的系統(tǒng),如教務(wù)系統(tǒng),可以采用數(shù)據(jù)庫(kù)讀取的方式,但是這種方式工作量較大,而且實(shí)時(shí)性不高。

網(wǎng)絡(luò)爬蟲(chóng)

互聯(lián)網(wǎng)上的數(shù)據(jù),如新浪微博、當(dāng)當(dāng)網(wǎng)、就業(yè)網(wǎng)站等。

人工導(dǎo)入

非系統(tǒng)的數(shù)據(jù)可以人工導(dǎo)入大數(shù)據(jù)系統(tǒng)。

目前,很多學(xué)校已經(jīng)建設(shè)了數(shù)據(jù)交換平臺(tái),整合了高校常見(jiàn)的業(yè)務(wù)數(shù)據(jù)。因此,這類(lèi)學(xué)校可以通過(guò)數(shù)字化校園廠(chǎng)家提供的數(shù)據(jù)字典或者視圖,直接從數(shù)據(jù)交換平臺(tái)中獲得所需要的相關(guān)數(shù)據(jù)。

數(shù)據(jù)清洗

由于學(xué)校數(shù)據(jù)源缺乏有效的數(shù)據(jù)分析技術(shù),同時(shí)在數(shù)據(jù)錄入時(shí),可能會(huì)存在因輸入錯(cuò)誤、數(shù)據(jù)來(lái)源不同而導(dǎo)致的各類(lèi)“臟數(shù)據(jù)”,所以,通過(guò)數(shù)據(jù)清洗,對(duì)“臟數(shù)據(jù)”進(jìn)行剔除或修正,提高整體數(shù)據(jù)質(zhì)量顯得十分必要。

教育數(shù)據(jù)清洗的對(duì)象主要包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),XML半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。常見(jiàn)的數(shù)據(jù)問(wèn)題主要包含殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和重復(fù)數(shù)據(jù)三大類(lèi)。由于學(xué)校業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)源的差異性,這就需要根據(jù)實(shí)際情況定制出適合該校的數(shù)據(jù)清洗規(guī)則和流程,從而保障數(shù)據(jù)質(zhì)量。以下是高校數(shù)據(jù)源清洗的通用流程:

1、分析數(shù)據(jù)源的數(shù)據(jù)是否滿(mǎn)足業(yè)務(wù)規(guī)則和定義,是否存在非正常的數(shù)據(jù)結(jié)構(gòu);

2、讀取采集后的結(jié)果集,進(jìn)行數(shù)據(jù)屬性適配;

3、獲取數(shù)據(jù)清洗規(guī)則;

4、進(jìn)行數(shù)據(jù)匹配;

5、正常數(shù)據(jù)放入清洗結(jié)果集,異常數(shù)據(jù)放入異常結(jié)果集;

6、把結(jié)果集入庫(kù),并記錄清洗結(jié)果。

數(shù)據(jù)建模

數(shù)據(jù)建模是抽象描述現(xiàn)實(shí)世界的一種工具和方法,是通過(guò)抽象組織實(shí)體及實(shí)體之間聯(lián)系,來(lái)表示現(xiàn)實(shí)世界中事務(wù)相互關(guān)系的一種映射。數(shù)據(jù)模型是整個(gè)數(shù)據(jù)底層建設(shè)中的關(guān)鍵部分,數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型架構(gòu)與數(shù)據(jù)倉(cāng)庫(kù)的整體架構(gòu)緊密關(guān)聯(lián),不僅是對(duì)業(yè)務(wù)進(jìn)行抽象劃分,更是對(duì)實(shí)現(xiàn)技術(shù)進(jìn)行具體的指導(dǎo),它涵蓋了從業(yè)務(wù)到技術(shù)實(shí)現(xiàn)的各個(gè)部分;根據(jù)數(shù)據(jù)建模分階段的設(shè)計(jì),數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)建模一般分為業(yè)務(wù)建模、概念建模、邏輯建模、物理建模四個(gè)階段:

第一階段:業(yè)務(wù)建模

劃分高校業(yè)務(wù),一般按照業(yè)務(wù)部門(mén)(如后勤處、教務(wù)處、圖書(shū)館等)劃分,并界定各部門(mén)之間的業(yè)務(wù)工作、理清部門(mén)之間的關(guān)系。

深入了解各業(yè)務(wù)部門(mén)的具體業(yè)務(wù)流程并將其程序化。

提出改進(jìn)業(yè)務(wù)部門(mén)工作流程的方法并程序化。

數(shù)據(jù)建模的范圍界定,數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的目標(biāo)和階段劃分。

第二階段:概念建模

抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。

將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線(xiàn)聚合類(lèi)似的分組概念。

細(xì)化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。

理清分組概念之間的關(guān)聯(lián),形成完整的概念模型。

第三階段:邏輯建模

業(yè)務(wù)概念實(shí)體化,并考慮其屬性?xún)?nèi)容。

事件實(shí)體化,并考慮其屬性?xún)?nèi)容。

說(shuō)明實(shí)體化,并考慮其屬性?xún)?nèi)容。

第四階段:物理建模

針對(duì)特定物理化平臺(tái),做出相應(yīng)的技術(shù)調(diào)整。

針對(duì)模型的性能考慮,調(diào)整Hadoop平臺(tái)與Mysql平臺(tái)。

根據(jù)管理需要,結(jié)合特定平臺(tái),做出相應(yīng)的調(diào)整。

生成最后的數(shù)據(jù)結(jié)構(gòu)實(shí)例并完善。

在教育大數(shù)據(jù)建設(shè)中,數(shù)據(jù)建模設(shè)計(jì)要將學(xué)校的一卡通、教工、圖書(shū)館、后勤管理、科研等現(xiàn)有數(shù)據(jù)系統(tǒng)進(jìn)行統(tǒng)一整合。不同業(yè)務(wù)系統(tǒng)均有各自固有的數(shù)據(jù)模型,為了讓數(shù)據(jù)模型更好地適應(yīng)現(xiàn)有環(huán)境、具備較好的數(shù)據(jù)處理速度,數(shù)據(jù)原型可采用雪花模型或范式模型進(jìn)行設(shè)計(jì)。根據(jù)上圖的設(shè)計(jì)方法,教育大數(shù)據(jù)系統(tǒng)設(shè)計(jì)的核心共享庫(kù)、分析庫(kù)與采集庫(kù)均遵循上述方法進(jìn)行數(shù)據(jù)建模與數(shù)據(jù)實(shí)例的建立。

以上便是教育大數(shù)據(jù)落地過(guò)程中涉及到的部分技術(shù)。當(dāng)然,影響教育大數(shù)據(jù)真正落地的因素有很多,這里只談到了很少的一部分,而且還存在很多未知的領(lǐng)域,有待我們?nèi)ス餐接?。總之一句?huà),教育大數(shù)據(jù)發(fā)展?jié)摿薮螅瑢?shí)施落地意義重大,將為我們的傳統(tǒng)教育變革帶來(lái)無(wú)限可能。

猜你喜歡
數(shù)據(jù)系統(tǒng)數(shù)據(jù)源數(shù)據(jù)倉(cāng)庫(kù)
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)傾斜解決方案研究
圖表中的交互 數(shù)據(jù)鉆取還能這么用
淺析運(yùn)用計(jì)算機(jī)技術(shù)審計(jì)醫(yī)療機(jī)構(gòu)藥品加價(jià)方法
數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
現(xiàn)代學(xué)徒制教學(xué)管理系統(tǒng)的設(shè)計(jì)
基于Excel的照片查詢(xún)系統(tǒng)開(kāi)發(fā)與應(yīng)用
再談利用郵件合并功能批量生成準(zhǔn)考證
數(shù)據(jù)有增加 圖表自適應(yīng)
高危及重要客戶(hù)供用電安全管理分析
數(shù)據(jù)復(fù)用在存儲(chǔ)數(shù)據(jù)倉(cāng)庫(kù)中的運(yùn)用