国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)可用性在高等教育領(lǐng)域的重要性研究

2018-07-20 01:40:56韓小祥徐華珍衛(wèi)麗華
電腦知識與技術(shù) 2018年13期
關(guān)鍵詞:大數(shù)據(jù)

韓小祥 徐華珍 衛(wèi)麗華

摘要:隨著信息技術(shù)的飛速發(fā)展,各種數(shù)據(jù)增長十分迅速,數(shù)據(jù)量大到無法通過常規(guī)的方法進(jìn)行分析處理,大數(shù)據(jù)應(yīng)運(yùn)而生,大數(shù)據(jù)在各領(lǐng)域應(yīng)用廣泛,在高等教育領(lǐng)域亦是如此。高校的信息系統(tǒng)是數(shù)據(jù)生產(chǎn)大戶,但高校的數(shù)據(jù)價值密度卻很低,文章主要介紹了大數(shù)據(jù)給高校帶來的影響,指出了高校中存在的大數(shù)據(jù)可用性問題,并提出了從關(guān)系數(shù)據(jù)一致性和實(shí)體同一性兩個方面提高高校數(shù)據(jù)可用性,幫助高校從海量數(shù)據(jù)信息中提取有效數(shù)據(jù),相對提高數(shù)據(jù)的價值密度。

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)價值密度;數(shù)據(jù)可用性;數(shù)據(jù)一致性;實(shí)體同一性

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)13-0020-02

Research on the Importance of Large Data Availability in the Field of Higher Education

HAN Xiao-xiang 1, XU Hua-zhen 2, WEI Li-hua 2

(1. Nantong Institute of Technology, Informatization Construction Management Office, Nantong 226002,China;2. Nantong Institute of Technology, School of Computer And Information Engineering, Nantong 226002,China)

Abstract: With the rapid development of information technology, all kinds of data grow very fast, and the amount of data is too large to be processed by conventional methods. Big data emerges and it is widely applied in various fields, and also in higher education. The information system of university is a big data producer, but the density of data value of university is very low. This paper mainly introduces the influence brought by big data to universities, points out the availability of big data in Colleges and universities, and puts forward methods of improving data availability from two aspects: consistency of relational data and entity identity, in order to help colleges and universities to extract effective data from massive data information, and to improve value density.

Key words: big data; data value density; data availability; data consistency; entity identity

大數(shù)據(jù)是指無法在可承受的時間范圍內(nèi)用常規(guī)的軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要采用新處理模式才能獲取很多智能的、深入的、有價值的信息,以期得到更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資源[1]。目前,大家比較公認(rèn)的是大數(shù)據(jù)具有4V的特點(diǎn):數(shù)據(jù)規(guī)模大,即數(shù)據(jù)量大,數(shù)量級別從TB躍升到PB,不久將會產(chǎn)生EB級別甚至ZB更高級別的數(shù)據(jù);數(shù)據(jù)種類多,數(shù)據(jù)類型不僅包括傳統(tǒng)的關(guān)系結(jié)構(gòu)化類型,還包括半結(jié)構(gòu)化和非結(jié)構(gòu)化類型;處理速度快,數(shù)據(jù)產(chǎn)生和更新的頻率快,要求處理數(shù)據(jù)的速度更快;價值密度低,數(shù)據(jù)海量增長,但獲取到的有用信息難度也不斷加大[2]。

1 高校中的大數(shù)據(jù)

大數(shù)據(jù)現(xiàn)已提升到國家戰(zhàn)略層面,“十三五”規(guī)劃明確提出要大力發(fā)展大數(shù)據(jù)產(chǎn)業(yè),加快建設(shè)數(shù)據(jù)強(qiáng)國,實(shí)現(xiàn)我國從數(shù)據(jù)大國向數(shù)據(jù)強(qiáng)國轉(zhuǎn)變。大數(shù)據(jù)正推動著各行業(yè)的發(fā)展。高校作為教育機(jī)構(gòu),它不僅能夠利用信息化技術(shù)發(fā)展教育,還對信息時代的發(fā)展起到促進(jìn)作用[3]。高校也是數(shù)據(jù)生產(chǎn)大戶,高校的工作從宏觀上可劃分為教學(xué)、科研、管理三大類,從教學(xué)上看,會產(chǎn)生學(xué)生作業(yè)數(shù)據(jù),學(xué)生學(xué)習(xí)成績數(shù)據(jù),教師備課教案數(shù)據(jù),教師備課數(shù)據(jù)等;從科研上,會產(chǎn)生教師科研方面的數(shù)據(jù);從管理上,會產(chǎn)生學(xué)生基本信息數(shù)據(jù),教師基本信息數(shù)據(jù),其他崗位工作人員基本信息數(shù)據(jù),學(xué)?;拘畔?shù)據(jù),學(xué)生各項(xiàng)評比數(shù)據(jù)等等。高校中產(chǎn)生的這些數(shù)據(jù)具有數(shù)量大、種類多、產(chǎn)生快、真實(shí)可信和具備分析價值等特點(diǎn),完全符合大數(shù)據(jù)的特征。研究這些數(shù)據(jù),對于高校建設(shè)與發(fā)展有著重要的意義。比如大數(shù)據(jù)可以預(yù)測學(xué)生是否能順利完成課業(yè),紐約州波基普西市瑪麗斯特學(xué)院(Marist College)與運(yùn)營數(shù)據(jù)分析公司Pentaho合作發(fā)起開源學(xué)術(shù)分析計劃(The Open Academic Analytics Initiative),旨在一門新課程開始的兩周內(nèi)預(yù)測哪些學(xué)生可能會無法順利完成課程。通過收集分析學(xué)生的學(xué)習(xí)習(xí)慣—例如點(diǎn)擊線上閱讀材料、是否在網(wǎng)上論壇中發(fā)言、完成作業(yè)的時長——來預(yù)測學(xué)生的學(xué)業(yè)情況、及時干預(yù)幫助問題學(xué)生,從而提升畢業(yè)率。再比如大數(shù)據(jù)可以發(fā)現(xiàn)被關(guān)注的學(xué)生對象,電子科大曾做過一個課題—尋找校園中最孤獨(dú)的人。他們從3萬名在校生中,采集到了2億多條行為數(shù)據(jù),數(shù)據(jù)來自學(xué)生選課記錄、進(jìn)出圖書館、寢室,以及食堂用餐、超市購物等數(shù)據(jù)。通過對不同的校園一卡通“一前一后刷卡”的記錄進(jìn)行分析,可以發(fā)現(xiàn)一個學(xué)生在學(xué)校有多少親密朋友,比如戀人、閨蜜。最后,他們找到了800多個校園中最孤獨(dú)的同學(xué),這些同學(xué)平均在校兩年半時間,一個知心朋友都沒有。這些人中的17%可能產(chǎn)生心理疾病,剩下的則可能用意志力暫時戰(zhàn)勝了癥狀,這些同學(xué)就需要學(xué)校和家長重點(diǎn)予以關(guān)愛。高校中大數(shù)據(jù)應(yīng)用廣泛,但也存在一定的問題,后面將做著重分析。

2 數(shù)據(jù)可用性

隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)在爆炸式增長,但數(shù)據(jù)集合中的劣質(zhì)數(shù)據(jù)也在隨著增長,導(dǎo)致數(shù)據(jù)整體質(zhì)量下降,真正有用信息的利用率并不是很高,這也即前面提到的大數(shù)據(jù)的其中一大特點(diǎn)-價值密度低。為了挖掘出大數(shù)據(jù)更多的有用價值,提高數(shù)據(jù)的質(zhì)量,開展數(shù)據(jù)可用性的研究對于有效發(fā)揮大數(shù)據(jù)的作用具有戰(zhàn)略性的意義[4]。研究者們普遍認(rèn)為數(shù)據(jù)的可用性包含數(shù)據(jù)的一致性、準(zhǔn)確性、完整性、時效性及實(shí)體同一性五個方面性質(zhì),其具體定義如下:

1) 一致性:關(guān)聯(lián)數(shù)據(jù)之間不產(chǎn)生矛盾,邏輯關(guān)系要完整正確。

2) 準(zhǔn)確性:數(shù)據(jù)集合中每個數(shù)據(jù)表示現(xiàn)實(shí)物體的精準(zhǔn)程度。

3) 完整性:數(shù)據(jù)集合包含的數(shù)據(jù)完全滿足對數(shù)據(jù)進(jìn)行各項(xiàng)操作的要求。

4) 時效性:指在不同需求場景下數(shù)據(jù)的及時性和有效性。

5) 同一性:指同一實(shí)體在各種數(shù)據(jù)源中的描述必須相同。

一個數(shù)據(jù)集合,滿足以上五個性質(zhì)的程度稱為該數(shù)據(jù)集合的可用性。

在高校中也同樣存在數(shù)據(jù)可用性問題。數(shù)據(jù)一致性問題:高校中管理職能往往有所重疊,導(dǎo)致信息重復(fù)采集,例如學(xué)生的基本信息,學(xué)院與教務(wù)處都有記錄,同一個字段存在出入。

數(shù)據(jù)完整問題:比如不同部門對同一數(shù)據(jù)的使用習(xí)慣和方式不一樣,數(shù)據(jù)格式不統(tǒng)一,造成數(shù)據(jù)不完整。數(shù)據(jù)不及時、不完整問題:由于收集到的信息不及時,造成所用的數(shù)據(jù)可能并不是最新的。數(shù)據(jù)同一性問題:比如說有的職工既擔(dān)任了行政職務(wù),又擔(dān)任了教課的職務(wù),但在系統(tǒng)中卻有兩條實(shí)體記錄,這是不正確的,應(yīng)屬同一實(shí)體。

3 高校數(shù)據(jù)價值密度提高策略

以下就數(shù)據(jù)的一致性和實(shí)體同一性兩個方面來談?wù)勅绾翁岣吒咝5臄?shù)據(jù)可用性。

1)高校普遍存在不同系統(tǒng)中信息重疊,數(shù)據(jù)不一致的現(xiàn)象,筆者認(rèn)為很大一部分原因是各個部門或系統(tǒng)之間數(shù)據(jù)不能共享。為方便學(xué)校數(shù)據(jù)統(tǒng)一管理,可在校園內(nèi)搭建一個數(shù)據(jù)管理應(yīng)用平臺,實(shí)現(xiàn)各部門數(shù)據(jù)的應(yīng)用共享,各部門制定統(tǒng)一的存儲標(biāo)準(zhǔn),設(shè)計數(shù)據(jù)庫時,要充分考慮其數(shù)據(jù)的安全性,避免數(shù)據(jù)的冗余,能快速實(shí)現(xiàn)數(shù)據(jù)的可視化分析,定期對數(shù)據(jù)進(jìn)行一致性維護(hù),如對數(shù)據(jù)進(jìn)行優(yōu)化,建立多個副本,定時更新。

2) 目前實(shí)體同一性研究是研究數(shù)據(jù)可用性最多的一個方面,其主要涉及兩類方法:第一類是從語義規(guī)則的角度進(jìn)行同一性研究,這類方法主要通過經(jīng)驗(yàn)知識來描述實(shí)體的同一性問題;第二類是從相似性的角度進(jìn)行同一性研究,該類方法主要采用相似度函數(shù)來對實(shí)體同一性進(jìn)行判定。這里,筆者認(rèn)為使用第一類方法來對高校的數(shù)據(jù)進(jìn)行實(shí)體同一性描述,首先要會識別實(shí)體,進(jìn)行正確解析,即弄清楚哪些數(shù)據(jù)實(shí)體描述的是同一個物理實(shí)體, 給定的某個數(shù)據(jù)實(shí)體描述的又是哪個物理實(shí)體。對于關(guān)系型數(shù)據(jù),比如各個信息系統(tǒng)的數(shù)據(jù),應(yīng)要有實(shí)體統(tǒng)一性錯誤檢測機(jī)制以保證實(shí)體的統(tǒng)一。而目前針對半結(jié)構(gòu)化和非結(jié)構(gòu)化類型關(guān)于識別的方法研究還很少,還只能靠人工識別的方式進(jìn)行。

要想真正實(shí)現(xiàn)高校信息化管理,在實(shí)施大數(shù)據(jù)過程中還會面臨諸多挑戰(zhàn),如部分?jǐn)?shù)據(jù)涉及個人隱私,那么在收集時就存在一定的困難。再比如說教育數(shù)據(jù)是在動態(tài)變化的,掌握動態(tài)變化規(guī)律,實(shí)現(xiàn)數(shù)據(jù)實(shí)時更新又是一大挑戰(zhàn)等等。這些問題還有待進(jìn)一步深入研究。

4 結(jié)語

大數(shù)據(jù)的興起給教育行業(yè)帶來了前所未有的機(jī)遇和挑戰(zhàn),如何利用大數(shù)據(jù)的思想將教學(xué)、科研、管理數(shù)據(jù)轉(zhuǎn)化為高校的決策依據(jù),為高校管理和建設(shè)更好地服務(wù)是高校需要努力的目標(biāo)。大數(shù)據(jù)對高校智能化管理意義重大,高校會產(chǎn)生大量數(shù)據(jù),但數(shù)據(jù)的價值密度低,本文從數(shù)據(jù)一致性和實(shí)體同一性兩個層面,對提高數(shù)據(jù)價值密度進(jìn)行了研究。當(dāng)然,要能更好地提高高校數(shù)據(jù)質(zhì)量,還需進(jìn)行更深地探索。

參考文獻(xiàn):

[1] 維基百科.大數(shù)據(jù). https://en.wikipedia.org/wiki/Big_data.

[2] 深圳國泰安教育技術(shù)股份有限公司大數(shù)據(jù)事業(yè)部群, 中科院深圳先進(jìn)技術(shù)研究院——國泰安金融大數(shù)據(jù)研究中心, 編著.大數(shù)據(jù)導(dǎo)論:關(guān)鍵技術(shù)與行業(yè)應(yīng)用最佳實(shí)踐[M].北京:清華大學(xué)出版社,2015.

[3] 胥果.大數(shù)據(jù)在高校教育信息化中的應(yīng)用[J].教育現(xiàn)代化,2017,4(5):114-115.

[4] 李建中,劉顯敏.大數(shù)據(jù)的一個重要方面:數(shù)據(jù)可用性[J].計算機(jī)研究與發(fā)展,2013,50(6):1147-1162.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數(shù)據(jù)的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數(shù)據(jù)時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
铅山县| 台江县| 驻马店市| 正宁县| 朝阳区| 呼和浩特市| 玉环县| 镇雄县| 仪征市| 大厂| 阿拉善右旗| 儋州市| 乐东| 衡水市| 永城市| 澄迈县| 汨罗市| 平和县| 监利县| 江阴市| 辽阳市| 清徐县| 乡城县| 万州区| 武夷山市| 清水河县| 平乡县| 阳江市| 洪泽县| 宁强县| 伊金霍洛旗| 三都| 阳西县| 庄浪县| 虹口区| 贵港市| 民丰县| 临洮县| 万盛区| 怀集县| 宜阳县|