蘇磊
摘要:該文在描述數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上, 深入探討了數(shù)據(jù)挖掘在信息資源管理中的作用。
關(guān)鍵詞:數(shù)據(jù)挖掘;信息資源
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)05-0224-02
為了適應(yīng)教育信息化以及現(xiàn)代化教育工作的需要,各院校都早已建成了性能優(yōu)良的千兆校園網(wǎng),而且,隨著教學(xué)信息網(wǎng)的不斷完善,教學(xué)信息資源的建設(shè)和管理應(yīng)用已成為當(dāng)前和今后一個時期教育信息化工作的主要任務(wù)。信息資源由信息、人、載體、檢索四種要素構(gòu)成,信息是信息資源的源泉,人是信息資源的生產(chǎn)者和使用者,載體是儲存利用信息資源的物質(zhì)工具,檢索則是人們快速查找和共享信息資源的手段。教學(xué)信息資源應(yīng)是經(jīng)過精心組織的、大量搜集和購置與教學(xué)研究密切相關(guān)的、學(xué)科門類齊全的、資源覆蓋面廣、資源大小適中、易于組合再使用的多媒體信息資源。
目前,隨著信息技術(shù)、數(shù)據(jù)庫的迅猛發(fā)展,使得信息資源數(shù)據(jù)量呈指數(shù)趨勢增長,但由于缺乏對分析、決策、預(yù)測等功能的支持機(jī)制,學(xué)習(xí)者在選擇使用資源時很難去除冗余數(shù)據(jù),從海量數(shù)據(jù)中提取有效、優(yōu)質(zhì)的信息,從而導(dǎo)致部分有效的信息得不到發(fā)掘利用,出現(xiàn)“數(shù)據(jù)爆炸、知識貧乏”的現(xiàn)象,因而在高速發(fā)展的現(xiàn)代社會,遠(yuǎn)遠(yuǎn)不能滿足培養(yǎng)專業(yè)人才的需要。面對這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,在信息資源管理中彰顯著越來越強(qiáng)大的生命力。
1 數(shù)據(jù)挖掘概述
現(xiàn)如今,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用在各個行業(yè)之中,它逐漸成為了國際上的研究熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的應(yīng)用將其自身具備的優(yōu)越性和發(fā)展?jié)摿φ宫F(xiàn)得淋漓盡致。在當(dāng)前信息技術(shù)如此發(fā)達(dá)的情況下,將人工智能技術(shù)有效與數(shù)據(jù)挖掘技術(shù)融合在一起,能夠便捷的獲取許多所需要的知識,可以說,數(shù)據(jù)挖掘技術(shù)在一定程度上促進(jìn)了知識檢索和知識的管理發(fā)展。
所謂的數(shù)據(jù)挖掘,實際上是從數(shù)據(jù)中提取內(nèi)在的信息,它可以通過任何載體來實現(xiàn)這一步驟,例如:關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、多媒體數(shù)據(jù)庫、數(shù)據(jù)倉庫、時間數(shù)據(jù)庫、事務(wù)數(shù)據(jù)庫、Web數(shù)據(jù)庫以及空間數(shù)據(jù)庫等,像此種從大型數(shù)據(jù)庫中提出知識的技術(shù)就被稱作:數(shù)據(jù)挖掘技術(shù)。它不僅能夠?qū)㈦[藏的知識提取出來,還能夠自動預(yù)測信息,發(fā)現(xiàn)未知的線索。數(shù)據(jù)挖掘技術(shù)使得人們能夠輕易的在大量數(shù)據(jù)中檢索自己所需要的知識,檢索起來非常的方便、容易,并不需要檢索人員對數(shù)據(jù)挖掘技術(shù)有過多的了解,實際上,數(shù)據(jù)挖掘與提取知識之間存在一定的相同點(diǎn)和不同點(diǎn)。廣義上的數(shù)據(jù)挖掘是一種從開始檢索到發(fā)現(xiàn)知識的一系列過程,一般情況下,人們認(rèn)為:數(shù)據(jù)挖掘是一種特定的模式,它能夠在大型的數(shù)據(jù)庫中抽取模式,然后通過相應(yīng)的模式轉(zhuǎn)換將其變成人們能夠理解的知識。所謂的提取知識也就是今天常說的信息檢索,二者之間存在一定的不同之處:數(shù)據(jù)挖掘是隨機(jī)的,所挖掘的結(jié)果是不能預(yù)測的,而提取知識則是通過輸入關(guān)鍵詞進(jìn)行檢索,其提取結(jié)果是在關(guān)鍵詞的基礎(chǔ)之上有所延伸的,其結(jié)果是能夠預(yù)測的,提取知識的目的是滿足自身所需要的知識,在數(shù)據(jù)中查詢請求的文檔,數(shù)據(jù)挖掘則是將文檔中內(nèi)在的知識揭示出來,從二者的根本目的上看,之間的聯(lián)系是相輔相成的,可以有效通過數(shù)據(jù)挖掘技術(shù)將提取知識的效率提高,改善提取結(jié)果的精密度,進(jìn)而促進(jìn)信息檢索系統(tǒng)的發(fā)展,使其上升一個新的高度。
實際上,數(shù)據(jù)的表現(xiàn)形式是多種多樣的,用戶可以通過自身的研究的對象對數(shù)據(jù)的結(jié)構(gòu)進(jìn)行重新的劃分,一般情況下,都會將其結(jié)構(gòu)形式分為:數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘以及Web數(shù)據(jù)挖掘。
所謂的數(shù)據(jù)挖掘,是指對結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行挖掘、檢索,比如:SQL、Server等數(shù)據(jù)庫。
所謂文本數(shù)據(jù)挖掘,主要是對文本的信息進(jìn)行深度挖掘,當(dāng)要進(jìn)行挖掘的對象與文本信息符合時,就需要對通過文本數(shù)據(jù)挖掘特有的算法在大量的數(shù)據(jù)中將信息自動挖掘、分類、提取,這一系列完成的過程被稱作:文本數(shù)據(jù)挖掘。它能夠?qū)⑽谋镜奶卣鳌⒏拍畈僮饕约罢裙ぷ魅刻崛〕鰜?,實際上,文本數(shù)據(jù)挖掘是通過特定的技術(shù)和算法完成工作的,主要是將文本聚類算法、貝葉斯分類算法、詞集合算法以及詞串表示法等這些算法統(tǒng)一在一起進(jìn)行工作的。
所謂Web挖掘,對Web上的頁面內(nèi)容以及結(jié)構(gòu)等進(jìn)行檢索,所檢索的對象可以是傳統(tǒng)的數(shù)據(jù)庫,也可以是數(shù)據(jù)倉庫,Web數(shù)據(jù),能夠使用戶在網(wǎng)頁上通過特定的技術(shù)和方法將所需要的知識提取出來,不僅如此,還為開展電子商務(wù)和改進(jìn)服務(wù)提供了保障。通常情況下Web數(shù)據(jù)挖掘分為Web內(nèi)容挖掘、Web訪問信息挖掘與Web結(jié)構(gòu)挖掘這三方面。
數(shù)據(jù)挖掘技術(shù)一般通過4個步驟來完成,并且每一步的可行度都要非常高,才能確保一個數(shù)據(jù)挖掘系統(tǒng)的穩(wěn)定運(yùn)轉(zhuǎn)。
第一步是數(shù)據(jù)預(yù)處理階段,是數(shù)據(jù)挖掘系統(tǒng)中的“基石”,因為數(shù)據(jù)挖掘?qū)?shù)據(jù)的質(zhì)量要求極高。數(shù)據(jù)質(zhì)量涉及了準(zhǔn)確性、完整性、一致性、時效性、可信性和可解釋性,而其中最主要的3個要素則是準(zhǔn)確性、完整性和一致性。數(shù)據(jù)在現(xiàn)實世界中極易受到噪聲的感染,從而產(chǎn)生一些例如不完整值和異類值的臟數(shù)據(jù),因為數(shù)據(jù)庫過于龐大,并且大多來自多個性質(zhì)不同的數(shù)據(jù)源。低質(zhì)量的數(shù)據(jù)將會導(dǎo)致挖掘系統(tǒng)性能下降并且挖掘結(jié)果不準(zhǔn)確。數(shù)據(jù)預(yù)處理工作包含個方面:
1)數(shù)據(jù)源清理。數(shù)據(jù)源清理的主要工作是,對不完整值進(jìn)行填充,去噪聲數(shù)據(jù)進(jìn)行重塑,對異類值進(jìn)行刪除,并解決性質(zhì)不統(tǒng)一的問題。此外,臟數(shù)據(jù)極有可能造成數(shù)據(jù)挖掘系統(tǒng)的崩淸和挖掘結(jié)果的不準(zhǔn)確。
2)數(shù)據(jù)集成。即合并來自多個數(shù)據(jù)源的數(shù)據(jù),數(shù)據(jù)語義的多樣性和結(jié)構(gòu)對數(shù)據(jù)集成提出了巨大的挑戰(zhàn),所以集成的過程必須分外小心,因為小心集成有助于減少結(jié)果數(shù)據(jù)集的冗余和不一致,有助于提高挖掘系統(tǒng)接下來各種操作的性能。
3)數(shù)據(jù)變換。所謂數(shù)據(jù)變化,主要是將數(shù)據(jù)轉(zhuǎn)換成了人們能夠檢索出來的數(shù)據(jù)挖掘的形式,其中涉及了數(shù)據(jù)聚集、數(shù)據(jù)平滑以及數(shù)據(jù)規(guī)范化等,需要注意的是,數(shù)據(jù)的規(guī)范化,它能夠?qū)?shù)據(jù)挖掘的結(jié)構(gòu)帶來影響,
4)數(shù)據(jù)歸約。因為在海量數(shù)據(jù)上進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘,將需要耗費(fèi)大量的人力物力,所以使得我們必須在數(shù)據(jù)預(yù)處理階段對數(shù)據(jù)進(jìn)行規(guī)約。并且我們在對數(shù)據(jù)進(jìn)行規(guī)約之后,仍然能夠保持其完整性,也就是說,在規(guī)約過后的數(shù)據(jù)集上進(jìn)行挖掘會大大提高效率,并且不會影響到挖掘結(jié)果。
第二步是數(shù)據(jù)挖掘階段,將要進(jìn)行挖掘的數(shù)據(jù)源和現(xiàn)實工作中的業(yè)務(wù)邏輯放到一起宏觀把握,再利用合適的挖掘模型對數(shù)據(jù)進(jìn)行深度剖析,所涉及的數(shù)據(jù)挖掘算法主要有:關(guān)聯(lián)規(guī)則算法、聚類分析算法、決策樹方法、人工神經(jīng)網(wǎng)絡(luò)算法、貝葉斯模型分析算法等,最終得到一些有用的知識和模式。
第三步是數(shù)據(jù)分析階段,是對數(shù)據(jù)挖掘的結(jié)果給正確的、合理的闡述,從而能輔助管理者做出正確的決策。而這則需要開發(fā)人員對整個系統(tǒng)非常熟悉,對現(xiàn)實中的整個工作流程了如指掌,只有這樣才能對挖掘結(jié)果做出科學(xué)的分析。
第四步是結(jié)果展示階段,對所挖掘出的知識或者模式進(jìn)行理論化和可視化的處理,力求給出一個簡潔、生動并且通俗易懂的展示模式。
2 數(shù)據(jù)挖掘在信息資源管理中的應(yīng)用
依據(jù)信息資源管理系統(tǒng)的結(jié)構(gòu),數(shù)據(jù)挖掘在信息資源管理中的應(yīng)用包括以下幾個方面:
1)使教學(xué)內(nèi)容設(shè)置合理化
為了激發(fā)學(xué)習(xí)者的學(xué)習(xí)興趣,應(yīng)該設(shè)置合理的教學(xué)內(nèi)容,只有這樣,才能夠提高學(xué)習(xí)者的學(xué)習(xí)效率,為此,應(yīng)該根據(jù)學(xué)習(xí)者的實際情況制定符合學(xué)習(xí)者學(xué)習(xí)的教學(xué)方案,通過對學(xué)習(xí)者的興趣愛好、學(xué)習(xí)的歷史記錄進(jìn)行分析,有針對性地制定個性信心,完善推送功能。同時,通過對教學(xué)內(nèi)容的訪問制度以及交流話題的分類情況進(jìn)行分析,明確教學(xué)的重點(diǎn)和難點(diǎn),進(jìn)一步推動教學(xué)改革,此外,還應(yīng)該通過對能力測試和學(xué)習(xí)者知識點(diǎn)的掌握情況進(jìn)行分析,設(shè)置最優(yōu)的教學(xué)內(nèi)容。
2)可轉(zhuǎn)變學(xué)習(xí)者學(xué)習(xí)行為模式
就當(dāng)前的情況看,教育組織的管理方式在信息技術(shù)的沖擊下,發(fā)生了強(qiáng)烈的變化,學(xué)習(xí)者可以通過數(shù)據(jù)挖掘技術(shù)以及其特有的算法,將教學(xué)系統(tǒng)的資源下載下來,學(xué)習(xí)者可以通過查看教學(xué)系統(tǒng)中常點(diǎn)擊的記錄,自行進(jìn)行檢索和學(xué)習(xí),這樣不僅能夠提高學(xué)習(xí)者的學(xué)習(xí)行為模式,還能夠為教學(xué)奠定了科學(xué)的基礎(chǔ)。
3)使教學(xué)效果評價科學(xué)化
在當(dāng)前信息技術(shù)運(yùn)用如此廣泛的時代下,傳統(tǒng)的教學(xué)評價已經(jīng)不能夠應(yīng)用在教學(xué)之中,為此,應(yīng)該建立屬于當(dāng)下的科學(xué)化的教學(xué)評價體系,通過數(shù)據(jù)挖掘算法,對教學(xué)中所涉及的歷史數(shù)據(jù)等進(jìn)行分析,并且對學(xué)習(xí)者的效果進(jìn)行科學(xué)地評價,全面改進(jìn)教學(xué)信息資源的模式,改善教育者的教學(xué)方法,進(jìn)而促進(jìn)教學(xué)管理部門全面掌握教學(xué)狀態(tài)。
3 數(shù)據(jù)挖掘在信息資源管理應(yīng)用中的存在的問題
由于互聯(lián)網(wǎng)、數(shù)據(jù)庫等信息技術(shù)的不斷發(fā)展,使得計算機(jī)的性能逐漸提升,人工智能技術(shù)逐漸被更多行業(yè)所應(yīng)用,這些都為數(shù)據(jù)庫的發(fā)展和數(shù)據(jù)的挖掘、信息的檢索起到了推進(jìn)的作用,在推動發(fā)展過程中,必然會面臨問題,以下就是對多面臨問題的分析:
1)資源存儲類型不一致
眾所周知,數(shù)據(jù)挖掘會被不同的數(shù)據(jù)存儲方式所影響,數(shù)據(jù)挖掘中的技術(shù)有效性以及實現(xiàn)機(jī)制等都會被改變,就目前的情況而言,仍然沒有最適合數(shù)據(jù)儲存模式的存在。一直以來,信息資源都是在自己所建立的數(shù)據(jù)庫中存在,由于大部分?jǐn)?shù)據(jù)沒有相應(yīng)的評判標(biāo)準(zhǔn),使得數(shù)據(jù)質(zhì)量受到損壞,在此種情況下,需要對不同數(shù)據(jù)的存儲特點(diǎn)進(jìn)行研究,保證資源存儲的類型一致。
2)數(shù)據(jù)規(guī)格不一樣
由于信息資源的數(shù)據(jù)挖掘具有動態(tài)性且面向大眾,導(dǎo)致數(shù)據(jù)存在眾多的不確定性、信息丟失甚至?xí)霈F(xiàn)數(shù)據(jù)分布稀疏的情況,再加之,數(shù)據(jù)挖掘是需要在特定的目標(biāo)下進(jìn)行的,致使多數(shù)數(shù)據(jù)都要選擇性的利用。由于信息資源挖掘的數(shù)據(jù)是從不同的管理系統(tǒng)而來,所以并沒有統(tǒng)一性,此種情況會導(dǎo)致數(shù)據(jù)的完備性不能夠得到保證,為此,應(yīng)該針對挖掘問題重新制定方案,選擇有針對性的數(shù)據(jù),保證數(shù)據(jù)的規(guī)格一致。
3)數(shù)據(jù)挖掘算法的效率不高
一般情況下,數(shù)據(jù)挖掘都是在大型的數(shù)據(jù)庫中進(jìn)行的,每個大型的數(shù)據(jù)庫中都有數(shù)萬個檢索的記錄,數(shù)據(jù)之間錯綜的關(guān)系導(dǎo)致數(shù)據(jù)在挖掘的過程中存在一定的難度,增加了搜索維數(shù),也增加了錯誤模式出現(xiàn)的可能性,為此,應(yīng)該提高數(shù)據(jù)挖掘算法的效率,改善數(shù)據(jù)檢索存在的問題,是當(dāng)前數(shù)據(jù)挖掘?qū)嶋H應(yīng)用的一個關(guān)鍵。
4 結(jié)束語
數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,在一定程度上促進(jìn)了信息資源系統(tǒng)的發(fā)展,使得信息服務(wù)的質(zhì)量有所提高,就目前信息資源管理系統(tǒng)的應(yīng)用情況而言,原有的信息資源系統(tǒng)和已經(jīng)實現(xiàn)的數(shù)據(jù)挖掘信息處理環(huán)境,需要人們進(jìn)一步研究和探索。
參考文獻(xiàn):
[1]莊孝彰. 對推進(jìn)軍事教育訓(xùn)練信息資源建設(shè)的思考[J]. 陸軍學(xué)術(shù), 2007(6).
[2]宋欣. 多屬性數(shù)據(jù)挖掘研究中的關(guān)聯(lián)規(guī)則應(yīng)用[J]. 計算機(jī)系統(tǒng)應(yīng)用, 2007, 8(9): 99-102.
[3] 邱月. 數(shù)據(jù)挖掘方法在學(xué)生成績評價中的應(yīng)用[J]. 科技信息, 2010, 12(9): 76-77.