黃東
摘要:本文采用基于數(shù)據(jù)質(zhì)量的大數(shù)據(jù)集成服務(wù)方案及支持向量機的數(shù)據(jù)挖掘技術(shù)來解決當(dāng)前大數(shù)據(jù)管理中數(shù)據(jù)質(zhì)量低下的問題,通過建立科學(xué)的分析模型,及時治理數(shù)據(jù)質(zhì)量問題,推動大數(shù)據(jù)的整體質(zhì)量持續(xù)提升。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量;大數(shù)據(jù);集成服務(wù);支持向量機
中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1007-9416(2019)09-0109-02
0 引言
大數(shù)據(jù)質(zhì)量的好壞,直接影響學(xué)校信息化建設(shè)的成敗和后續(xù)的可持續(xù)發(fā)展性,高校原有公共數(shù)據(jù)平臺完成了基本的業(yè)務(wù)系統(tǒng)之間進行數(shù)據(jù)共享和交換的工作,一定程度上消除了數(shù)據(jù)孤島、數(shù)據(jù)割裂的問題。但在大力開展信息化建設(shè)的同時,各種原因?qū)е聰?shù)據(jù)的質(zhì)量存在一定程度的問題,大數(shù)據(jù)集成服務(wù)質(zhì)量整體堪憂。
1 當(dāng)前高校大數(shù)據(jù)分析存在的普遍問題
1.1 大數(shù)據(jù)系統(tǒng)集成服務(wù)的數(shù)據(jù)質(zhì)量低下
數(shù)據(jù)質(zhì)量是整個信息化建設(shè)中大數(shù)據(jù)系統(tǒng)集成服務(wù)的重中之重,只有高質(zhì)量的數(shù)據(jù),才能帶來高效率和高價值的系統(tǒng)決策和服務(wù)。數(shù)據(jù)質(zhì)量低下,導(dǎo)致后期數(shù)據(jù)運維無法開展,當(dāng)需要某些數(shù)據(jù)支撐其進行決策或改善的時候,拿不出高質(zhì)量的數(shù)據(jù),普遍存在數(shù)據(jù)不準(zhǔn)、數(shù)據(jù)不全、數(shù)據(jù)不一致的問題,需要進行分析時,還要耗費大量人工線下采集,及時率無法保證,采集之后的加工也耗時耗力,每次都要進行重復(fù)工作。
1.2 數(shù)據(jù)共享時無法執(zhí)行統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)
大多數(shù)前期的信息化建設(shè)已經(jīng)完成了校內(nèi)信息標(biāo)準(zhǔn)的梳理和建設(shè),但沒有真正做到標(biāo)準(zhǔn)的統(tǒng)一管理與有效執(zhí)行,學(xué)校內(nèi)部缺少有效的管理工具和管理機制,造成各業(yè)務(wù)系統(tǒng)還是按照自有標(biāo)準(zhǔn)進行業(yè)務(wù)建設(shè)和運行,集成時可能保持一致,但運行過程中又出現(xiàn)了新的不一致,例如大多數(shù)學(xué)校教務(wù)系統(tǒng)和研究生系統(tǒng)采用自有的學(xué)院代碼。
1.3 大數(shù)據(jù)集成與共享過程響應(yīng)慢
大數(shù)據(jù)的集成與共享一定程度上是校園信息化整體運行的基礎(chǔ)保障,一旦集成過程或數(shù)據(jù)共享出現(xiàn)問題,會影響到多個業(yè)務(wù)系統(tǒng)的正常運行。學(xué)校信息部門在缺乏很強的專業(yè)知識的前提下,無法快速定位與排查,聯(lián)系廠家再安排處理,浪費大量時間的同時造成業(yè)務(wù)系統(tǒng)的使用障礙甚至故障,影響信息化整體運行。
2 解決方案
針對上述問題,可以采用基于數(shù)據(jù)質(zhì)量的大數(shù)據(jù)集成服務(wù)方案來解決目前高校智慧校園建設(shè)中普遍存在的問題,通過建立科學(xué)的分析模型,利用先進的信息化工具,對主數(shù)據(jù)的質(zhì)量進行自動化檢查,及時治理數(shù)據(jù)質(zhì)量問題,推動整體數(shù)據(jù)質(zhì)量持續(xù)提升。
2.1 信息標(biāo)準(zhǔn)建設(shè)
信息標(biāo)準(zhǔn)是數(shù)字化校園建設(shè)的重要基石,信息標(biāo)準(zhǔn)確保信息在采集、處理、交換、傳輸?shù)倪^程中有統(tǒng)一、科學(xué)、規(guī)范的分類和描述,保證源數(shù)據(jù)的唯一性和數(shù)據(jù)轉(zhuǎn)換中的一致性,能夠使信息更加有序流通、最大限度地實現(xiàn)信息資源共享,降低系統(tǒng)整合的成本。
2.2 大數(shù)據(jù)的質(zhì)量治理
隨著學(xué)校大數(shù)據(jù)應(yīng)用系統(tǒng)遷移,更多深層次數(shù)據(jù)質(zhì)量問題進一步暴露,如何為后期數(shù)據(jù)應(yīng)用和分析做好充分的準(zhǔn)備是關(guān)鍵前提。數(shù)據(jù)質(zhì)量檢測可以對系統(tǒng)集成的主數(shù)據(jù)進行事后檢測,發(fā)現(xiàn)數(shù)據(jù)存在問題,并自動匯總形成數(shù)據(jù)質(zhì)量報告,讓學(xué)校對當(dāng)前的數(shù)據(jù)質(zhì)量有清晰的認(rèn)識并輕松發(fā)現(xiàn)數(shù)據(jù)質(zhì)量根源,便于著手解決。
2.3 ERP思路下的集成服務(wù)設(shè)計
基于“頂層設(shè)計”的思想,借鑒國際先進的ERP設(shè)計理念和行業(yè)優(yōu)秀的業(yè)務(wù)實踐為數(shù)據(jù)集成服務(wù)搭建的統(tǒng)一高效、互聯(lián)互通、信息共享的管理平臺,實現(xiàn)校內(nèi)各廠商不同時期開發(fā)應(yīng)用系統(tǒng)、異構(gòu)數(shù)據(jù)源集成,實現(xiàn)應(yīng)用系統(tǒng)一體化,解決內(nèi)部信息孤島,實現(xiàn)數(shù)據(jù)共享和互通。
3 技術(shù)手段
3.1 技術(shù)方案
梳理校內(nèi)信息標(biāo)準(zhǔn),加強信息標(biāo)準(zhǔn)執(zhí)行狀況,確保整體“一個標(biāo)準(zhǔn)”,形成統(tǒng)一的校級大數(shù)據(jù),強化數(shù)據(jù)存儲,完成大數(shù)據(jù)倉庫建設(shè),自動化保留大數(shù)據(jù)的歷史痕跡,豐富歷史數(shù)據(jù),為大數(shù)據(jù)集成分析做數(shù)據(jù)儲備。對大數(shù)據(jù)質(zhì)量進行調(diào)整與優(yōu)化,確保數(shù)據(jù)是逐步可信、權(quán)威的,整理與優(yōu)化是循序漸進的過程。如圖1所示。
3.2 數(shù)據(jù)挖掘分析技術(shù)
大數(shù)據(jù)的數(shù)據(jù)分析技術(shù)主要有樸素貝葉斯、決策樹、K最近鄰分類、支持向量機、集成學(xué)習(xí)、K-means、Apriori、最大期望(EM)等技術(shù)。本文主要介紹基于支持向量機技術(shù)的大數(shù)據(jù)挖掘技術(shù)。SVM算法通過下式的形式來實現(xiàn),其中表示非線性變換,即使輸入空間映射到一個對應(yīng)的高維空間,同時以線性函數(shù)的形式表示出來。
考慮到便于觀測樣本,上式中的Rn表示輸入空間,這樣我們即可以簡單的將回歸SVM視為線性約束二次規(guī)劃優(yōu)化問題:
其中是C>0函數(shù)復(fù)雜度和損失誤差之間的一個平衡量。由優(yōu)化問題(1)的Lagrange函數(shù)相對于變量的偏導(dǎo)數(shù)為0,可得優(yōu)化問題(1)的對偶問題,它的解是核函數(shù)的線性組合,具有如下的形式:
上式即為回歸函數(shù)的學(xué)習(xí)機器即SVM,即為表達式系數(shù)始終不能為零的訓(xùn)練樣本。
SVM的訓(xùn)練算法本質(zhì)上是一個二次規(guī)劃的求解問題,是大數(shù)據(jù)挖掘分析的重要技術(shù)。
4 最終效果
4.1 建成完善的信息標(biāo)準(zhǔn)體系
有了統(tǒng)一的信息標(biāo)準(zhǔn),在數(shù)據(jù)抽取、數(shù)據(jù)清洗、數(shù)據(jù)分析的過程中有統(tǒng)一的規(guī)范,可以最大限度地實現(xiàn)信息優(yōu)化管理和資源共享。
4.2 提升大數(shù)據(jù)集成服務(wù)的數(shù)據(jù)質(zhì)量
通過數(shù)據(jù)清洗處理,提升數(shù)據(jù)整體的質(zhì)量,加強不同系統(tǒng)之間的數(shù)據(jù)共享的力度,避免重復(fù)維護數(shù)據(jù),給決策提供更準(zhǔn)確的數(shù)據(jù)支撐。
參考文獻
[1] 于長虹,王運武.智慧校園建設(shè)的現(xiàn)狀、問題與對策[J].教學(xué)與管理,2015(06):48-51.
[2] 蔣東興,付小龍,吳海燕.大數(shù)據(jù)背景下的高校智慧校園建設(shè)探討[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2015(S1):119-125.
[3] 熊頻.面向智慧校園的學(xué)習(xí)環(huán)境建設(shè)研究:案例與策略[J].電化教育研究,2015(03):64-69.
[4] 胡欽太.教育信息化的發(fā)展轉(zhuǎn)型:從“數(shù)字校園”到“智慧校園”[J].中國電化教育,2014(01):35-39.
[5] 黃榮懷,張進寶.智慧校園:數(shù)字校園發(fā)展的必然趨勢[J].開放教育研究,2012(04):12-17.
Abstract:This paper adopts big data integration service scheme based on data quality and data mining technology of support vector machine to solve the problem of low data quality in current big data management.Through the establishment of scientific analysis model,Manage data quality problem in time,We will continue to improve the overall quality of big data.
Key words:data quality;Big data;Integration services;Support vector machine