楊 萍
西安外事學(xué)院 陜西西安 710077
基于數(shù)據(jù)挖掘技術(shù)的大學(xué)生信息檢索系統(tǒng)研究
楊 萍
西安外事學(xué)院 陜西西安 710077
隨著網(wǎng)絡(luò)通信的普及,各行各業(yè)中產(chǎn)生了越來越多的信息量,特別是高校的信息化的不斷發(fā)展中,出現(xiàn)了傳統(tǒng)信息管理模式不能滿足現(xiàn)代大學(xué)生的要求的問題,所以怎么能實(shí)現(xiàn)在海量的數(shù)據(jù)中快速檢索出準(zhǔn)確,有價(jià)值的信息已經(jīng)成為教育領(lǐng)域中關(guān)注的主要問題。本研究根據(jù)數(shù)據(jù)挖掘技術(shù)思想,而提出了一種基于大學(xué)生的個(gè)人情況、成績、考勤、社會行為、就業(yè)、獎勵懲罰、貸款還貸七類模塊數(shù)據(jù)的檢索和挖掘的信息系統(tǒng),并實(shí)現(xiàn)了基于大學(xué)生的信息檢索的優(yōu)化和具體的數(shù)據(jù)挖掘流程研究。
數(shù)據(jù)挖掘;云存儲;信息檢索
隨著網(wǎng)絡(luò)通信的普及,各行各業(yè)中產(chǎn)生了越來越多的信息量,特別是高校的信息化的不斷發(fā)展中,出現(xiàn)了傳統(tǒng)信息管理模式不能滿足現(xiàn)代大學(xué)生的要求的問題,所以怎么能實(shí)現(xiàn)在海量的數(shù)據(jù)中快速檢索出準(zhǔn)確,有價(jià)值的信息已經(jīng)成為教育領(lǐng)域中關(guān)注的主要問題。要實(shí)現(xiàn)高校數(shù)子化學(xué)生信息管理系統(tǒng),必須從越來越多的大學(xué)生數(shù)據(jù)中深入挖掘信息,過濾出有用的知識,并能把不同的大學(xué)生按統(tǒng)一標(biāo)準(zhǔn)進(jìn)行分類分析后,能夠使信息得到重新組合和分配。通過對大學(xué)生的優(yōu)化管理和對大學(xué)生的信息深度挖掘和整合,使大學(xué)校園的數(shù)字化信息建設(shè)得到更進(jìn)一步的發(fā)展。
隨著網(wǎng)絡(luò)與通信技術(shù)的蓬勃發(fā)展,越來越多的數(shù)據(jù)資源處于膨脹狀態(tài),完全進(jìn)入了“大數(shù)據(jù)”時(shí)代。面對大量的異構(gòu)的數(shù)據(jù)資源,怎么進(jìn)行劃分,查詢,獲得有價(jià)值的信息,成為各應(yīng)用領(lǐng)域關(guān)心的問題。要想實(shí)現(xiàn)從海量數(shù)據(jù)中提取各類有用的信息并找到信息中各種隱藏的關(guān)系,其中最有效的方法就是利用數(shù)據(jù)挖掘技術(shù)來完成對數(shù)據(jù)的分析與提取。數(shù)據(jù)挖掘技術(shù)是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識別有效的、新穎的、潛在有用的信息和知識的過程,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。隨著教育信息化的發(fā)展和數(shù)據(jù)挖掘技術(shù)的成功運(yùn)用,傳統(tǒng)的以數(shù)據(jù)庫實(shí)現(xiàn)對學(xué)生的海量數(shù)據(jù)及學(xué)習(xí)過程進(jìn)行管理的模式已經(jīng)滿足不了教育工作者和大學(xué)生的要求了。如何轉(zhuǎn)換這些數(shù)據(jù)成為有價(jià)值的信息,并能為教學(xué)決策,學(xué)習(xí)優(yōu)化、改進(jìn)學(xué)習(xí)效果等服務(wù),不僅成為教育界所關(guān)注的焦點(diǎn),更是教育信息化發(fā)展的一個(gè)重要趨勢。Romero&Ventura(2007)以及Baker&Yacef(2009)對10余年的教育數(shù)據(jù)挖掘研究進(jìn)行分析,歸納出5類教育數(shù)據(jù)挖掘方法。目前,教育數(shù)據(jù)挖掘技術(shù)已經(jīng)得到廣泛的關(guān)注和應(yīng)用,特別是網(wǎng)絡(luò)學(xué)習(xí)與相應(yīng)的教育管理系統(tǒng)中得到充分的發(fā)揮。伴隨著教育數(shù)據(jù)挖掘技術(shù)方法的成熟,會進(jìn)一步開啟對學(xué)生的行為分析的數(shù)據(jù)挖掘研究。本研究基于以上的教育數(shù)據(jù)挖掘技術(shù)的研究背景,立足于大學(xué)校園,通過對學(xué)生的海量數(shù)據(jù)進(jìn)行挖掘,希望探索出學(xué)生的個(gè)人情況、成績、考勤、社會行為、就業(yè),獎勵懲罰,貸款還貸中一系列活動分布特點(diǎn)。為開展對大學(xué)生教育教學(xué)個(gè)性化管理服務(wù)提供可靠的網(wǎng)絡(luò)信息平臺。
基于數(shù)據(jù)挖掘技術(shù)的大學(xué)生信息檢索系統(tǒng)是在大量的學(xué)生信息中發(fā)現(xiàn)隱含的數(shù)據(jù)規(guī)則,根據(jù)信息的需求,對包含有的信息進(jìn)行采集、分析和存儲,從而完成學(xué)生信息檢索請求。主要實(shí)現(xiàn)的檢索信息功能見圖1。
圖1 大學(xué)生信息檢索系統(tǒng)功能模塊
(1)個(gè)人信息:對大學(xué)生基本信息包括學(xué)號、姓名、性別、民族、出生年月、電話、QQ號碼(MSN) 、郵箱、班級、家庭地址、所在院系、入學(xué)日期,年制等內(nèi)容檢索。
(2)成績信息:主要包括成績與選課(選修和必修)兩部分內(nèi)容。當(dāng)查詢學(xué)生相關(guān)考試成績信息時(shí),可以根據(jù)學(xué)號、姓名、課程、班級,專業(yè)等不同字段進(jìn)行檢索也可以對選的課程的類型進(jìn)行信息查詢。
(3)考勤信息:主要包括了學(xué)生在校上課情況信息的檢索。可以列出以班、課程為關(guān)鍵字的學(xué)生考勤報(bào)表、并能智能篩選分析個(gè)人或班級的考勤對比等模塊。同時(shí),針對個(gè)人考勤情況,對個(gè)別問題學(xué)生也可以按一定標(biāo)準(zhǔn)進(jìn)行統(tǒng)計(jì)并及時(shí)反饋。
(4)社會行為信息:社會行為信息中反應(yīng)了大學(xué)生社會實(shí)踐重要內(nèi)容。每一個(gè)大學(xué)生的道德修養(yǎng)和知識應(yīng)用能力都是通過社會行為體現(xiàn)出來,其中主要包括了校內(nèi)和校外的課外活動,其中校內(nèi)的包括社團(tuán)活動和勤工助學(xué)等,校外的包括科技文化援助、醫(yī)療衛(wèi)生、法律宣傳、社會調(diào)查、文化服務(wù)等。
(5)就業(yè)信息:為了方便學(xué)校對已經(jīng)畢業(yè)的學(xué)生進(jìn)行跟蹤統(tǒng)計(jì)調(diào)查,實(shí)現(xiàn)對學(xué)生畢業(yè)后的工作情況信息檢索。
(6)獎勵懲罰信息:大學(xué)生在上學(xué)期間因何理由獎勵和因何事進(jìn)行處分信息的檢索。獎勵懲罰的等級包括通報(bào)表揚(yáng)、嘉獎、記小功、記大功、特別獎等和學(xué)生處分分為警告、嚴(yán)重警告、記過、留校察看和開除學(xué)籍五種。以上內(nèi)容都會作為考核每一個(gè)大學(xué)生誠信水準(zhǔn)的重要指標(biāo)。
(7)貸款還貸信息:學(xué)生的貸款還貸現(xiàn)在已經(jīng)成為大學(xué)里不可缺少的一部分。發(fā)展大學(xué)對貸款還貸信息化管理,以達(dá)到大學(xué)生自主管理貸款還貸的目的。為實(shí)現(xiàn)這一目的,該系統(tǒng)對學(xué)生貸款銀行、個(gè)人的誠信信息、貸款利率、貸款類別、貸款年限、貸款金額、和還貸時(shí)間等信息進(jìn)行檢索和數(shù)據(jù)挖掘。
基于大學(xué)生信息檢索系統(tǒng)需求分析,以B/S網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),實(shí)現(xiàn)不同的用戶通過網(wǎng)絡(luò)平臺對服務(wù)器中的學(xué)生的各類信息進(jìn)行檢索和挖掘,多樣性的數(shù)據(jù)形式采取分類采集后,檢索的結(jié)果可通過服務(wù)器端發(fā)送回給客戶端。為了實(shí)現(xiàn)大學(xué)生的七大類信息檢索和數(shù)據(jù)挖掘,把系統(tǒng)劃分為用戶管理模塊、數(shù)據(jù)管理模塊(數(shù)據(jù)采集功能、數(shù)據(jù)分析功能,數(shù)據(jù)存儲功能),通過這些模塊相互協(xié)作實(shí)現(xiàn)大學(xué)生信息檢索功能。
用戶管理模塊按管理員、教師、學(xué)生三類用戶進(jìn)行分類,不同的用戶在相應(yīng)的權(quán)限下執(zhí)行操作。每個(gè)用戶成功登錄后,可對學(xué)生基本情況,在校行為表現(xiàn),學(xué)籍內(nèi)容,獎勵和懲罰等信息的檢索。對于學(xué)生,可以檢索本人相關(guān)的全部信息,并能智能化推薦個(gè)性化的服務(wù)指導(dǎo);而對于管理員,不僅可以獲得學(xué)生的各類信息,而且可以把檢索到的學(xué)生信息進(jìn)行統(tǒng)計(jì)分析和進(jìn)一步數(shù)據(jù)挖掘。同時(shí),為了獲得更全,準(zhǔn)確的個(gè)人信息,在注冊時(shí)提供數(shù)據(jù)類型具有多樣性,能夠滿足各用戶的各種輸入要求。
3.3.1 數(shù)據(jù)采集
數(shù)據(jù)采集分為客戶端數(shù)據(jù)采集和服務(wù)器端數(shù)據(jù)采集兩大類。當(dāng)用戶把檢索條件提交后,先對客戶端數(shù)據(jù)進(jìn)行讀取并匹配成功后傳到Web服務(wù)器,根據(jù)請求的檢索條件進(jìn)行數(shù)據(jù)匹配,按一定的數(shù)據(jù)收集方法找到合適的數(shù)據(jù)源,并將收集到的不同數(shù)據(jù)源以相應(yīng)的格式存入數(shù)據(jù)庫。
3.3.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲問題是基于數(shù)據(jù)挖掘技術(shù)的大學(xué)生信息檢索系統(tǒng)中一個(gè)重要環(huán)節(jié),需要建立一個(gè)完善的數(shù)據(jù)庫,以實(shí)現(xiàn)各類數(shù)據(jù)信息的存儲。本系統(tǒng)由七類信息模塊為依托,分別建立相應(yīng)的數(shù)據(jù)表,其中不僅考慮了功能擴(kuò)展的問題,還必須針對了各個(gè)表之間的關(guān)系,設(shè)置相應(yīng)的數(shù)據(jù)表的主鍵和索引。
3.3.3 數(shù)據(jù)分析
數(shù)據(jù)分析是本系統(tǒng)功能實(shí)現(xiàn)的核心部分。服務(wù)器端根據(jù)不同用戶的要求,建立的相關(guān)索引,實(shí)時(shí)對海量數(shù)據(jù)的分析處理,經(jīng)過數(shù)據(jù)清理后,將完整、正確、一致的信息存儲到大數(shù)據(jù)庫。其中可通過數(shù)據(jù)分析實(shí)現(xiàn)對用戶的個(gè)性化需求進(jìn)行分析,并給予學(xué)生的行為分析預(yù)測,從而可提供滿足這些特征個(gè)性化內(nèi)容的智能化信息展示與推薦指導(dǎo)。例如:從服務(wù)器中提取出某個(gè)學(xué)生的成績,對學(xué)生的成績數(shù)據(jù)篩選并進(jìn)行數(shù)據(jù)挖掘分析后,不僅要分析成績的好壞,并能夠個(gè)性化指導(dǎo)學(xué)習(xí)狀態(tài)以達(dá)到學(xué)習(xí)效率的提高。
該系統(tǒng)的實(shí)現(xiàn)主要由3個(gè)層組成。
表1 基于數(shù)據(jù)挖掘技術(shù)的大學(xué)生信息檢索系統(tǒng)的層次結(jié)構(gòu)
圖2 大學(xué)生信息檢索流程圖
各功能模塊交互協(xié)作實(shí)現(xiàn)數(shù)據(jù)信息的檢索,并傳送給客戶端。具體流程見圖2。
(1)智能檢索網(wǎng)絡(luò)客戶端接收用戶所提出的檢索要求,并對用戶名和密碼進(jìn)行登錄驗(yàn)證。
(2)服務(wù)器收到用戶提出的信息檢索要求后,把信息傳送給服務(wù)器平臺。
(3)在獲得服務(wù)器信息存取訪問后,建立客戶端與網(wǎng)絡(luò)平臺的通信。讀取信息時(shí)先從數(shù)據(jù)塊中采集到對應(yīng)的元數(shù)據(jù)的信息位置,通過數(shù)據(jù)的位置信息,依次對相關(guān)數(shù)據(jù)進(jìn)行讀取,真到讀取完成。在整個(gè)系統(tǒng)實(shí)現(xiàn)過程中就是通過數(shù)據(jù)挖掘工具對查找到的數(shù)據(jù)進(jìn)行反復(fù)的過濾,去除模糊,不確定的數(shù)據(jù),提煉出有價(jià)值的信息。
(4)檢索的結(jié)果將會有不同數(shù)據(jù)形式傳遞到客戶端。
目前,大學(xué)生信息數(shù)據(jù)進(jìn)行合理的挖掘已經(jīng)成為大學(xué)校園里數(shù)子信息化發(fā)展的重要指標(biāo)。根據(jù)信息處理的挖掘技術(shù),本研究提出了一種基于大學(xué)生的個(gè)人信息、成績、考勤、社會行為、就業(yè),獎勵懲罰,貸款還貸七類模塊數(shù)據(jù)的檢索和挖掘的信息系統(tǒng),并實(shí)現(xiàn)了基于大學(xué)生的信息檢索的優(yōu)化和具體的數(shù)據(jù)挖掘流程。 通過構(gòu)建一個(gè)全方位的學(xué)生檢索系統(tǒng),使大學(xué)生的信息實(shí)現(xiàn)統(tǒng)一管理和數(shù)據(jù)重新分配與整合,而且還實(shí)現(xiàn)學(xué)生各類信息的優(yōu)化,又保障了數(shù)據(jù)的準(zhǔn)確性和實(shí)用性。但是,目前教育數(shù)據(jù)挖掘技術(shù)還不成熟,在具體應(yīng)用中還出現(xiàn)很多問題,尤其是在檢索信息的時(shí)候,信息安全性,數(shù)據(jù)匹配,數(shù)據(jù)準(zhǔn)確性等方面都有待于深入研究。
[1] WANG Yi-jie,SUN Wei-dong,ZHOU Song,et a1. Key technologies of distributed storage for cloud computing[J].Joumal of Software,2012(4):1-25.
[2] WU Yong—wei.HUANG Xiao—meng.Cloud storage[J].Society of China Computer Communication,2009,5(6):44-51.
[3] HUANG C Q,DUAN R L,TANG Y,et a1.EllS:An educational information intelligent search engine supported by semantic services[J].International Journal of Distance Education Technologies(I~DET),2011,9(1):21-43.
[4] Baepler,P&Murdoch,C.J.Academic Analytics and Data Mining in Higher Education[J].International Journal for the Scholarship of Teaching and Learning,2010,4(2):170-178.
[5] 陳衛(wèi)榮.Web網(wǎng)絡(luò)信息挖掘系統(tǒng)的體系構(gòu)建探究[J].寧德師范學(xué)院學(xué)報(bào),201(10):156-160.
[6] 魏順平.學(xué)習(xí)分析技術(shù):挖掘大數(shù)據(jù)時(shí)代下教育數(shù)據(jù)的價(jià)值[J].現(xiàn)代教育技術(shù),2013(23):5-11.
[7] 徐鵬,王以寧.大數(shù)據(jù)視角分析學(xué)習(xí)變革——美國《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》報(bào)告解讀及啟示[J].遠(yuǎn)程教育雜志,2013(6):11-17.
[8] 劉宇.網(wǎng)絡(luò)交易數(shù)據(jù)挖掘分析系統(tǒng)設(shè)計(jì)[J].電腦編程技巧與維護(hù),2014(23):50-51.
[9] 中一鳴,申懷亮.基于Hadoop架構(gòu)的校園信息系統(tǒng)研究[J].中國電子商務(wù),2013(24):58-59.
[10] 張建莉.云存儲技術(shù)在高校信息化建設(shè)中的應(yīng)用分析[J].科技視界,2013(28):216.
TP311.13
A