陳 鋒,孫淼洋
(1.遼寧醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心,遼寧 錦州121001;2.遼寧鐵道職業(yè)技術(shù)學(xué)院 電氣工程系,遼寧 錦州121001)
大數(shù)據(jù)在高校檔案信息管理中的應(yīng)用研究*
陳鋒1,孫淼洋2
(1.遼寧醫(yī)學(xué)院現(xiàn)代教育技術(shù)中心,遼寧 錦州121001;2.遼寧鐵道職業(yè)技術(shù)學(xué)院 電氣工程系,遼寧 錦州121001)
本文首先介紹了高校檔案信息管理現(xiàn)狀,并針對高校檔案資源的信息特征進(jìn)行了總結(jié)與歸納;其次,就大數(shù)據(jù)技術(shù)特點與大數(shù)據(jù)技術(shù)的應(yīng)用條件進(jìn)行了分析與闡述;最后,針對大數(shù)據(jù)技術(shù)在高校檔案資源信息管理中的應(yīng)用進(jìn)行了詳細(xì)介紹,并對未來高校檔案信息管理的發(fā)展趨勢進(jìn)行了技術(shù)展望。
大數(shù)據(jù);檔案管理;數(shù)字化校園;智慧校園
隨著我國高校教育事業(yè)的快速發(fā)展,我國高校的教育信息化已經(jīng)日益完善,高校內(nèi)各個管理信息平臺所產(chǎn)生沉積下來的大量電子文件,給高校的檔案管理與信息應(yīng)用帶來巨大挑戰(zhàn)。大數(shù)據(jù)以海量信息、多數(shù)據(jù)類型、價值密度低等技術(shù)特征為高校檔案信息資源的數(shù)據(jù)挖掘與數(shù)據(jù)分析提供了技術(shù)保障,也為高校利用檔案信息資源進(jìn)行新的知識發(fā)現(xiàn)與趨勢預(yù)測提供了強有力的技術(shù)支撐。
當(dāng)前高校的檔案管理主要面臨如下問題:(1)高校已有的檔案信息管理平臺已不能滿足日趨龐大的檔案信息資源的管理與存儲,高?,F(xiàn)有檔案管理信息平臺多為B/S或C/S單一服務(wù)器的系統(tǒng)架構(gòu)方案,在不引入服務(wù)器集群或虛擬云存儲技術(shù)的前提下,隨著檔案資源數(shù)據(jù)存儲的增大,極有可能會引發(fā)磁盤物理存儲容量不足,進(jìn)而導(dǎo)致平臺數(shù)據(jù)庫“脹庫”危險。(2)高校內(nèi)部的檔案資源數(shù)據(jù)來源廣泛,種類繁雜,有資料顯示2012年以來,非結(jié)構(gòu)化電子文件,如文檔、表格、網(wǎng)頁、音視頻等數(shù)據(jù)信息占整個校園網(wǎng)數(shù)據(jù)信息總量85%以上。這些內(nèi)容各異、格式不同的信息都將成為未來高校檔案的重要數(shù)據(jù)源。(3)當(dāng)前我國高校檔案管理尚存在“重館藏輕利用”的現(xiàn)象,檔案管理人員往往把高校檔案館藏量作為硬性指標(biāo)來衡量,而對于檔案信息的應(yīng)用服務(wù)普遍重視不夠。
(1)種類樣式多、內(nèi)容廣泛。高校檔案來源豐富,其中包括師生個人信息如職工人事檔案、職工醫(yī)療保健檔案、學(xué)生學(xué)籍檔案,也有反映教務(wù)教學(xué)情況的,如教務(wù)檔案、試題庫,還有反映學(xué)校政務(wù)類別的如校務(wù)檔案、財務(wù)檔案、基建檔案及各類資產(chǎn)類檔案等。
(2)高校檔案存儲形式多樣。高校檔案的存儲介質(zhì)既有傳統(tǒng)紙質(zhì)檔案如人事檔案卷宗、財務(wù)原始報銷憑證及公文文書,也有教務(wù)、科研、OA辦公等管理信息系統(tǒng)生成的數(shù)據(jù)庫文件;此外,除了傳統(tǒng)的字處理文檔和結(jié)構(gòu)化數(shù)據(jù)庫文件外,還包括大量電子表格、電子郵件、影音等半結(jié)構(gòu)、非結(jié)構(gòu)化電子文件。
(3)高校檔案資源體量大,數(shù)據(jù)冗余度較高。隨著高校網(wǎng)絡(luò)及辦公自動化水平的提升,高校的校園網(wǎng)內(nèi)產(chǎn)生并沉淀大量電子文檔,這些文檔、報表來自學(xué)校不同部處的業(yè)務(wù)信息系統(tǒng),雖然電子文件內(nèi)容相對完整、獨立,但不同類別電子文件之間存在大量數(shù)據(jù)冗余,占用并浪費了檔案資源共享平臺的存儲空間。
(4)高校檔案調(diào)閱頻繁,檔案綜合利用率高。高校人員技術(shù)職稱晉升、學(xué)生評優(yōu)評先、財務(wù)審計分析、設(shè)備儀器招標(biāo)等工作都需要提供大量數(shù)據(jù)佐證。而調(diào)閱檔案則是最直接、最有效的一種信息獲取手段。因此,高校檔案調(diào)閱頻繁,檔案綜合利用率較高。
(5)高校檔案價值密度較大,高校檔案資源大多是經(jīng)由高校教學(xué)、科研、財務(wù)、人事等各個管理信息系統(tǒng)采集得到,這些由業(yè)務(wù)信息系統(tǒng)提交匯總的檔案信息無論從格式上還是內(nèi)容上都是相對完整規(guī)范的,其檔案信息價值密度較高。
所謂大數(shù)據(jù)技術(shù)就是將海量信息資源在合理時間內(nèi)進(jìn)行采集與處理,并將其結(jié)果反饋給用戶,幫助用戶實現(xiàn)輔助決策。大數(shù)據(jù)具備Volume信息海量;Variety數(shù)據(jù)類型多,日志、音視頻、地理位置等半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)并存;Value價值、數(shù)據(jù)價值密度稀疏;Velocity高速、時效性強、信息采集處理速度快的基本特征。檔案資源共享平臺上不但能夠管理傳統(tǒng)意義上的檔案信息資源,更能記錄數(shù)萬師生在高校校園生活中衣食住行的點點滴滴,借助于大數(shù)據(jù)應(yīng)用,可以在高校檔案資源管理平臺上真實客觀地展現(xiàn)師生的教學(xué)、生活全貌。
大數(shù)據(jù)的應(yīng)用環(huán)境主要由業(yè)務(wù)、技術(shù)、數(shù)據(jù)三個維度要素構(gòu)成。高校檔案資源管理平臺為適應(yīng)大數(shù)據(jù)應(yīng)用也應(yīng)按檔案業(yè)務(wù)、檔案信息技術(shù)以及檔案資源進(jìn)行如下調(diào)整和部署:
(1)檔案大數(shù)據(jù)應(yīng)用業(yè)務(wù)維的構(gòu)建。檔案業(yè)務(wù)主題的定義與描述,在進(jìn)行大數(shù)據(jù)分析前,要對其業(yè)務(wù)分析的主題進(jìn)行科學(xué)細(xì)致的定義和描述,只有對其待分析業(yè)務(wù)準(zhǔn)確地定義和描述,才能對檔案信息模型進(jìn)行準(zhǔn)確建模。
(2)檔案大數(shù)據(jù)應(yīng)用數(shù)據(jù)維的構(gòu)建。檔案數(shù)據(jù)模型的轉(zhuǎn)換,以往高校檔案資源共享平臺下的信息大多借助于數(shù)據(jù)庫系統(tǒng)進(jìn)行存儲與管理,檔案數(shù)據(jù)庫系統(tǒng)主要是為檔案業(yè)務(wù)信息管理而創(chuàng)建,并不適用于數(shù)據(jù)分析。因此在檔案大數(shù)據(jù)應(yīng)用時,首先要將檔案資源共享平臺下的檔案信息進(jìn)行數(shù)據(jù)模型的轉(zhuǎn)換,即將二維關(guān)系特征的業(yè)務(wù)型檔案信息轉(zhuǎn)換為具有多維度、多度量的檔案數(shù)據(jù)模型。
(3)檔案大數(shù)據(jù)應(yīng)用技術(shù)維的構(gòu)建。首先在大數(shù)據(jù)軟件上要考慮檔案數(shù)據(jù)挖掘算法的加載,在處理完檔案數(shù)據(jù)模型轉(zhuǎn)換工作后,則可篩選適用于檔案系統(tǒng)特征和業(yè)務(wù)需求的數(shù)據(jù)挖掘算法;此外,在大數(shù)據(jù)應(yīng)用的硬件上,要考慮其運行環(huán)境應(yīng)具備足夠的計算與存儲性能,高校部署并開展大數(shù)據(jù)應(yīng)用,必須具備強大的計算機運算處理能力,院校通過夜間開啟大數(shù)據(jù)應(yīng)用,可有效緩解校園網(wǎng)晝間服務(wù)器的計算負(fù)荷;此外,檔案信息的大數(shù)據(jù)存儲可通過部署云存儲或配置大容量磁盤陣列等方式予以解決。
(1)大數(shù)據(jù)技術(shù)可用于高校檔案信息的資源發(fā)掘。在校園大數(shù)據(jù)時代,信息應(yīng)用服務(wù)及師生用戶的客觀需求引領(lǐng)著高校檔案由常規(guī)分析向廣度、深度分析轉(zhuǎn)變。人工智能、機器學(xué)習(xí)、知識圖譜等一系列大數(shù)據(jù)技術(shù)能夠從海量檔案信息資源當(dāng)中分析潛在價值并找出學(xué)校特有辦學(xué)規(guī)律。未來,利用海量檔案信息資源進(jìn)行數(shù)據(jù)挖掘與數(shù)據(jù)分析將成為高校檔案信息服務(wù)的主營業(yè)務(wù)。
(2)大數(shù)據(jù)技術(shù)有利于高校檔案用戶信息的數(shù)據(jù)挖掘。當(dāng)高校全面進(jìn)入智慧校園時代,校園師生用戶將會對高校檔案資源的信息服務(wù)、應(yīng)用服務(wù)、智慧服務(wù)的要求變得更為迫切。高校檔案資源共享平臺借助大數(shù)據(jù)技術(shù)可對來訪用戶身份、來訪記錄等結(jié)構(gòu)化信息及其存儲行為、搜索方式、位置信息等半結(jié)構(gòu)化信息進(jìn)行分析與處理,從中挖掘并找到用戶的隱形訴求從而提升檔案信息的應(yīng)用服務(wù)水平。
(3)大數(shù)據(jù)技術(shù)可用于高校檔案知識發(fā)現(xiàn)與趨勢預(yù)測。高校檔案資源共享平臺中的檔案資源與用戶信息相對孤立,如學(xué)校一卡通系統(tǒng)用戶行為信息、教務(wù)考試成績信息、學(xué)生系統(tǒng)的學(xué)管信息等即便能夠被高校檔案資源共享平臺收錄、采集,但都是獨立存儲,學(xué)校無法從利用這些檔案資源中進(jìn)行知識發(fā)現(xiàn)和趨勢判斷,借助大數(shù)據(jù)技術(shù)則可找出這些檔案信息間、用戶間以及檔案與用戶間的潛在邏輯關(guān)聯(lián)規(guī)則,從而能夠為學(xué)校教學(xué)、學(xué)生綜合素質(zhì)評價、財務(wù)分析等各領(lǐng)域提供趨勢判斷和輔助決策。
隨著高校數(shù)字校園、智慧校園建設(shè)的逐漸深入,未來將會有更多的信息技術(shù)融合到高校檔案信息管理中。如云計算與云存儲服務(wù),將會解決高校海量檔案信息資源存儲不足問題,同時借助于云架構(gòu)模式,能夠?qū)崿F(xiàn)校際檔案信息平臺互聯(lián)互通及檔案資源共享;4G移動通信與智能終端的普及,將拓展豐富校園用戶訪問檔案資源的媒介渠道;而大數(shù)據(jù)技術(shù)更會引領(lǐng)高校檔案界從“狹義檔案資源觀”向“大檔案觀”里程碑式地發(fā)生轉(zhuǎn)變。
[1]周楓.資源·技術(shù)·思維——大數(shù)據(jù)時代檔案館的三維詮釋[J].檔案學(xué)研究,2013(6).
[2]魯?shù)挛?試述檔案大數(shù)據(jù)的定義、特征及核心內(nèi)容[J].檔案,2014(4).
[3]周楓.國內(nèi)檔案學(xué)領(lǐng)域“大數(shù)據(jù)”研究述評[J].檔案,2014(6).
[4]鄧小軍.大檔案、大數(shù)據(jù)、大整合——訪廣東省中山市檔案工作[J].中國檔案,2014(8).
[5]陶水龍.大數(shù)據(jù)時代下數(shù)字檔案館面臨的機遇與挑戰(zhàn)[J].中國檔案,2013(10).
[6]高茂科.對檔案大數(shù)據(jù)關(guān)鍵環(huán)節(jié)的認(rèn)識[J].中國檔案,2013(10).
[7]丁國勇.大數(shù)據(jù)時代對檔案工作影響及應(yīng)對策略研究[J].蘭臺世界,2014(S3).
[8]梁啟敏,劉暉,劉怡君.檔案管理遭遇云計算和大數(shù)據(jù)[C].廣西計算機學(xué)會2013年學(xué)術(shù)年會論文集,2013.5.
(編輯:王曉明)
TP393
B
1673-8454(2015)07-0054-02
2013年遼寧省教育廳科學(xué)研究一般項目(編號L2013535)。