国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)挖掘管理與技術(shù)策略在高校檔案館中的應(yīng)用研究*

2019-12-16 04:59蔣紅健
山西檔案 2019年1期
關(guān)鍵詞:數(shù)據(jù)挖掘檔案館檔案管理

蔣紅健

(華南理工大學(xué)檔案館 廣州 510641)

大數(shù)據(jù)挖掘技術(shù)在現(xiàn)實(shí)社會(huì)中已經(jīng)得到初步的運(yùn)用,并處在快速發(fā)展的過(guò)程中。Google翻譯就是有說(shuō)服力的例子,它運(yùn)用大數(shù)據(jù)挖掘技術(shù)訓(xùn)練數(shù)據(jù),訓(xùn)練的數(shù)據(jù)量達(dá)到數(shù)十億個(gè),改變了根據(jù)語(yǔ)言規(guī)則分析判斷的傳統(tǒng)翻譯軟件的運(yùn)行模式。通過(guò)對(duì)比這兩種翻譯模式,我們可以看出Google翻譯無(wú)論是速度還是精度遠(yuǎn)超過(guò)傳統(tǒng)翻譯軟件,這從一個(gè)側(cè)面反映出大數(shù)據(jù)挖掘技術(shù)具有快速、高效、精準(zhǔn)的優(yōu)點(diǎn)。正因?yàn)槿绱?,大?shù)據(jù)挖掘技術(shù)受到了各行各業(yè)信息技術(shù)人員的關(guān)注和重視。

萬(wàn)事萬(wàn)物都是由一系列數(shù)據(jù)所構(gòu)成的,社會(huì)生活對(duì)信息技術(shù)應(yīng)用的需求催生了大數(shù)據(jù)挖掘技術(shù)的發(fā)展。我們可以用數(shù)據(jù)對(duì)任何事件、任何物體進(jìn)行描述,即使作為單一事件、單一物體,其蘊(yùn)含的數(shù)據(jù)量都已經(jīng)極其龐大,更何況社會(huì)是由無(wú)數(shù)事件和物體構(gòu)成。事件和物體內(nèi)部之間和相互之間存在著千絲萬(wàn)縷的聯(lián)系。可以說(shuō),社會(huì)就是一個(gè)數(shù)據(jù)總集,大數(shù)據(jù)挖掘技術(shù)就是要挖掘出這個(gè)數(shù)據(jù)總集中數(shù)據(jù)的有機(jī)聯(lián)系,通過(guò)分析數(shù)據(jù)總集的全貌推斷出精準(zhǔn)的結(jié)論,而不是采用隨機(jī)抽樣的方式片面了解。

一、大數(shù)據(jù)挖掘技術(shù)是實(shí)現(xiàn)檔案管理利用目標(biāo)的重要途徑

檔案管理之所以存在和發(fā)展,是與其存史、資政、育人的重大價(jià)值分不開(kāi)的,而大數(shù)據(jù)挖掘技術(shù)則是實(shí)現(xiàn)檔案管理內(nèi)在價(jià)值的最新和極其重要的技術(shù)工具。我們收集、保管、管理檔案的實(shí)質(zhì)就是存史。把檔案保護(hù)好是檔案管理必備的前期工作,通過(guò)存史提供檔案有效利用的物質(zhì)基礎(chǔ),進(jìn)而衍生到資政育人更高層次的目的,使得檔案價(jià)值得以最大化地體現(xiàn),實(shí)現(xiàn)檔案管理的終極意義。

要實(shí)現(xiàn)檔案管理資政育人的目的,必須有效管好、用好前期產(chǎn)生的數(shù)量多種類(lèi)繁雜的大數(shù)據(jù)。高校檔案館存量檔案多達(dá)幾十萬(wàn)卷,通過(guò)數(shù)字化工作,海量的紙質(zhì)檔案已轉(zhuǎn)化為PDF文件,而這些PDF文件多是半結(jié)構(gòu)及非結(jié)構(gòu)化數(shù)據(jù)。除了這些數(shù)字化工作產(chǎn)生的電子文件,高校檔案館還接收了各類(lèi)圖像、音頻及電子文檔。據(jù)統(tǒng)計(jì),許多綜合性院校電子檔案容量已達(dá)幾十TB。隨著高校檔案館電子文件管理系統(tǒng)的開(kāi)發(fā)、應(yīng)用和發(fā)展,可以預(yù)見(jiàn)電子文件總量將以幾何級(jí)數(shù)增長(zhǎng)。因此,投入必要的人力、物力研究大數(shù)據(jù)挖掘技術(shù)已經(jīng)是一件迫在眉睫的事情。

高校檔案大數(shù)據(jù)是數(shù)據(jù)價(jià)值的富集地。相比較其它數(shù)據(jù)源,檔案大數(shù)據(jù)之間的有機(jī)聯(lián)系更為密切,具有高度相關(guān)性。其它數(shù)據(jù)源如網(wǎng)站、社交網(wǎng)絡(luò)、微信、微博、移動(dòng)通信等,其數(shù)據(jù)之間的關(guān)聯(lián)是松散的,而檔案則是有組織有條理地收集歸納的,其蘊(yùn)藏的內(nèi)在價(jià)值更大??梢哉f(shuō),檔案大數(shù)據(jù)就是價(jià)值富礦。因此,有必要在檔案管理領(lǐng)域率先運(yùn)用大數(shù)據(jù)挖掘技術(shù),采用泛化、動(dòng)態(tài)、深入的方式,把檔案大數(shù)據(jù)中的有機(jī)聯(lián)系找出來(lái)、理清楚,并以親民化的方式呈現(xiàn)出來(lái),如以數(shù)據(jù)、表單或圖形等可視化的方式發(fā)送給用戶。

二、突破固有視野,構(gòu)建全面、完整的檔案大數(shù)據(jù)倉(cāng)庫(kù)

檔案大數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)建可以把眼界放寬一些,首先要立足檔案館自身,做好最有價(jià)值數(shù)據(jù)的收集,把檔案館各門(mén)類(lèi)的數(shù)據(jù)收集工作做扎實(shí),打好基本功;其次要跳出檔案館的圈子,把與檔案有關(guān)的數(shù)據(jù)納入進(jìn)來(lái),實(shí)現(xiàn)大數(shù)據(jù)互聯(lián)互通,形成大格局、大整合、大服務(wù)的大檔案觀。

(一)高校檔案館自身的數(shù)據(jù)源要充足、全面

高校檔案館首先要把眼光向內(nèi)看,做到應(yīng)歸盡歸、真實(shí)完整。要加強(qiáng)檔案從業(yè)人員和兼職檔案員的管理,做好檔案收集前端介入工作。在保證檔案從業(yè)人員業(yè)務(wù)熟練的基礎(chǔ)上,提高二級(jí)單位負(fù)責(zé)人對(duì)檔案資源的重視程度;加大對(duì)二級(jí)單位兼職檔案員的培訓(xùn)力度,提高兼職檔案員的業(yè)務(wù)專(zhuān)業(yè)度和檔案收集流程的熟悉度,保證檔案免于流失和遺失。同時(shí),要從制度上保障檔案大數(shù)據(jù)的收集,建立起兼職檔案員的考核制度及相應(yīng)激勵(lì)制度,提高檔案管理業(yè)績(jī)?cè)诳己朔种抵械臋?quán)重,形成檔案數(shù)據(jù)收集的長(zhǎng)期推動(dòng)力。

其次,要分門(mén)別類(lèi)地細(xì)化檔案數(shù)據(jù)收集范圍,消除檔案數(shù)據(jù)收集容易忽略的死角。高校檔案館可以通過(guò)劃分的綜合文書(shū)、學(xué)籍學(xué)位、科研、基建、出版、設(shè)備、產(chǎn)品、實(shí)物、聲像、人物等檔案門(mén)類(lèi),根據(jù)以往收集的經(jīng)驗(yàn),判斷出尚余哪些門(mén)類(lèi)檔案尚未收集,及時(shí)進(jìn)行催辦和補(bǔ)充,要熟悉每一門(mén)類(lèi)檔案的歸檔范圍,根據(jù)歸檔范圍推斷尚未及時(shí)收集的檔案,及時(shí)跟蹤反饋,從而把高校人才培養(yǎng)、科學(xué)研究、社會(huì)服務(wù)等社會(huì)實(shí)踐過(guò)程中形成的檔案數(shù)據(jù)及時(shí)、完整地進(jìn)行收集,謹(jǐn)防散失、遺漏造成檔案數(shù)據(jù)不全面、不系統(tǒng)。檔案數(shù)據(jù)有各種載體、各種格式,要確保檔案的全媒介收集,除了常規(guī)的紙質(zhì)檔案,還有光盤(pán)、移動(dòng)硬盤(pán)、磁帶、錄像帶等各種媒介。對(duì)包括文本、表單、圖像、音視頻等各種媒介的檔案數(shù)據(jù)及時(shí)進(jìn)行格式轉(zhuǎn)換,保存好高校發(fā)展歷程的記憶點(diǎn)和值得傳承的歷史文化,使之成為大數(shù)據(jù)挖掘的策源地。

(二)互聯(lián)互通二級(jí)單位信息系統(tǒng),實(shí)現(xiàn)檔案數(shù)據(jù)倉(cāng)庫(kù)擴(kuò)容增值

高校檔案館要順應(yīng)信息技術(shù)的發(fā)展,突破部門(mén)界限,打通校內(nèi)各信息系統(tǒng),把檔案數(shù)據(jù)倉(cāng)庫(kù)從檔案館的店面格局?jǐn)U展到整個(gè)學(xué)校的商城格局。高校檔案館在做好檔案信息管理系統(tǒng)特別是電子文件管理系統(tǒng)的同時(shí),應(yīng)在校辦與網(wǎng)絡(luò)中心牽頭下,積極與各二級(jí)單位加強(qiáng)聯(lián)系,以檔案管理信息系統(tǒng)作為切入點(diǎn),以點(diǎn)帶面,使檔案信息管理系統(tǒng)與OA、人事、教務(wù)、科研、資產(chǎn)設(shè)備等系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)共享及互聯(lián)互通,積極拓展各信息系統(tǒng)能夠開(kāi)放利用的信息容量,實(shí)現(xiàn)檔案數(shù)據(jù)擴(kuò)容和檔案價(jià)值增值,使用戶通過(guò)檔案管理信息系統(tǒng)可以搜索到更大更廣范圍的、有價(jià)值的數(shù)據(jù)信息,滿足用戶多方位的查檔需求。

檔案數(shù)據(jù)擴(kuò)容突破了原先的檔案收集渠道,擴(kuò)大了檔案數(shù)據(jù)總量,必須利用大數(shù)據(jù)挖掘技術(shù)進(jìn)行有效利用。高校檔案館要充分利用信息革命的成果,利用大數(shù)據(jù)挖掘技術(shù)管理海量的數(shù)字資源,找出這些數(shù)字資源的有機(jī)聯(lián)系,把檔案大數(shù)據(jù)的內(nèi)在價(jià)值充分挖掘出來(lái),使處于休眠或半休眠狀態(tài)的檔案通過(guò)挖掘得到價(jià)值復(fù)蘇;把死檔案變成活檔案、檔案數(shù)據(jù)變成檔案資源,最大程度地提高檔案利用服務(wù)的廣度和深度,使大數(shù)據(jù)挖掘技術(shù)成為檔案利用服務(wù)的新運(yùn)行模式。

信息系統(tǒng)的互聯(lián)互通,需要檔案從業(yè)人員進(jìn)行前端介入,使得檔案資源體系集中有序、規(guī)范齊整。信息系統(tǒng)的對(duì)接需要多部門(mén)參與,包括檔案館、二級(jí)單位、校辦、網(wǎng)絡(luò)中心及各系統(tǒng)的開(kāi)發(fā)商,經(jīng)過(guò)齊心協(xié)力、通力合作才能順利實(shí)現(xiàn)。在信息系統(tǒng)對(duì)接過(guò)程中,高校檔案館除了重視機(jī)關(guān)單位的檔案資源收集外,也要注重二級(jí)學(xué)院、直屬單位的檔案資源收集,及廣大校友提供的有收藏利用價(jià)值的學(xué)校史料。這些數(shù)據(jù)源都是檔案編研的重要依據(jù),這些信息資源集合體將構(gòu)建起內(nèi)容豐富多彩的校內(nèi)檔案大數(shù)據(jù)倉(cāng)庫(kù)。

值得一提的是,注重信息系統(tǒng)的互聯(lián)互通,還可以極大程度上緩解目前高校檔案館普遍存在的庫(kù)房飽和問(wèn)題。信息系統(tǒng)的互聯(lián)互通,不僅能充分保障檔案大數(shù)據(jù)的質(zhì)和量,還能有效解決高校檔案館經(jīng)過(guò)長(zhǎng)期積累庫(kù)房容量有限的難題。高?;ㄔ隽坑邢?,各二級(jí)單位用房需求較大,檔案庫(kù)房需求難以得到滿足,是制約高校檔案館發(fā)展的瓶頸。檔案根據(jù)規(guī)定需要鑒定保管期限,許多檔案根據(jù)屬性保管期限為永久保存或長(zhǎng)期保存,而長(zhǎng)期保存需要30年時(shí)限,導(dǎo)致檔案銷(xiāo)毀速度有限,檔案進(jìn)多出少,需要不斷增加庫(kù)房面積。另一個(gè)現(xiàn)實(shí)問(wèn)題是,近年來(lái)檔案進(jìn)館量激增,遠(yuǎn)非往年可比,導(dǎo)致庫(kù)房余量劇減。表面上庫(kù)房容量暫時(shí)可以應(yīng)對(duì),但庫(kù)房容量很快就會(huì)告急。信息系統(tǒng)的互聯(lián)互通是實(shí)現(xiàn)檔案增量電子化的具體表現(xiàn),通過(guò)吸收信息系統(tǒng)的電子資源,從技術(shù)層面強(qiáng)化電子檔案管理,是解決館舍面積和館藏總量之間矛盾的最佳選擇。

(三)高校檔案館、校史館、博物館和圖書(shū)館具有性質(zhì)相似性,可以集中統(tǒng)管

高校檔案館的管理對(duì)象是檔案,檔案數(shù)據(jù)具有育人價(jià)值;校史館、博物館管理的是實(shí)物,實(shí)物信息也具有育人價(jià)值;圖書(shū)館管理的是圖書(shū),同樣具有育人價(jià)值。因此,四者具有高度的性質(zhì)相似性,都具有育人育才的文化特征。有的高校對(duì)檔案館、校史館、博物館及圖書(shū)館進(jìn)行統(tǒng)籌管理,使其合而為一,充分整合,展現(xiàn)其育人功能;而有的高校即使各自行政獨(dú)立,但之間仍存在著密不可分的聯(lián)系。例如,很多圖書(shū)的素材來(lái)自于史料,需要查考檔案和校史館、博物館的實(shí)物,需要尋找歷史記憶,在此基礎(chǔ)上經(jīng)過(guò)二次加工打磨而成。[1]集中統(tǒng)管高校檔案館、校史館、博物館和圖書(shū)館,將其存量信息融入到檔案大數(shù)據(jù)倉(cāng)庫(kù)中來(lái),用戶就可以從這些價(jià)值密度高的數(shù)據(jù)資源中集中找尋有用信息。當(dāng)圖書(shū)作為檔案大數(shù)據(jù)的供給主體之一時(shí),將極大程度上豐富檔案大數(shù)據(jù)倉(cāng)庫(kù)。經(jīng)過(guò)集中管理,統(tǒng)籌利用服務(wù),各類(lèi)信息將互相補(bǔ)充、互為旁證,融合成大檔案館的數(shù)據(jù)供應(yīng)倉(cāng)庫(kù)。

(四)各檔案館館際之間協(xié)同建立搜索引擎,消滅信息孤島

各高校檔案館之間、甚至不同行業(yè)檔案館之間可以協(xié)同建立搜索引擎,共建、共享檔案大數(shù)據(jù)建設(shè)成果。在實(shí)際情況中,高校檔案館信息交流的渠道有限,各自建設(shè)、各自為政,限制了檔案大數(shù)據(jù)倉(cāng)庫(kù)的進(jìn)一步發(fā)展。雖然高校檔案館間有交流有互訪,相互學(xué)習(xí)取經(jīng),但時(shí)間有限,頻次低。此外,各檔案館獨(dú)立建設(shè)檔案信息管理系統(tǒng),資源得不到共享,成為事實(shí)上的信息孤島。因此,有必要建立檔案館館際信息檢索系統(tǒng),通過(guò)聯(lián)合檢索使分散存在的檔案信息連接成有機(jī)的整體;打破部門(mén)壁壘,使檔案數(shù)據(jù)量達(dá)到一個(gè)更新的高度,使檔案大數(shù)據(jù)的內(nèi)涵涉及到更大的層面。

三、提煉檔案大數(shù)據(jù)內(nèi)在關(guān)聯(lián)線索,采集檔案數(shù)據(jù)價(jià)值

檔案大數(shù)據(jù)由于數(shù)據(jù)量大,超出了單一服務(wù)器或現(xiàn)有數(shù)據(jù)庫(kù)軟件的管理分析能力,因此不能用傳統(tǒng)數(shù)據(jù)管理方式運(yùn)作,必須借助大數(shù)據(jù)挖掘技術(shù)。檔案大數(shù)據(jù)雖然價(jià)值含量高,但所蘊(yùn)含的價(jià)值在眾多檔案數(shù)據(jù)中隨機(jī)分布,并具有動(dòng)態(tài)更新的特征,需要通過(guò)大數(shù)據(jù)挖掘技術(shù)找出檔案數(shù)據(jù)中的相關(guān)性,采集出用戶需要的適用、有效的信息。[2]數(shù)據(jù)關(guān)聯(lián)的實(shí)質(zhì)就是優(yōu)化,提煉出檔案利用的規(guī)律、偏好和熱點(diǎn),建立分類(lèi)標(biāo)簽和分類(lèi)模型,從而簡(jiǎn)化挖掘流程,修正挖掘行為,避免挖掘負(fù)荷過(guò)大,保障挖掘操作的正常運(yùn)轉(zhuǎn)。

首先,可以從檔案的形成過(guò)程中找出關(guān)聯(lián)規(guī)律。檔案數(shù)據(jù)雖然結(jié)構(gòu)各異,既有結(jié)構(gòu)化數(shù)據(jù),又有半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),但是檔案的形成過(guò)程是可以跟蹤的,檔案的形成單位和形成人、檔案收集整理人、檔案用戶與檔案門(mén)類(lèi)之間的關(guān)系、檔案用戶相互之間的關(guān)系,這些相關(guān)性把看似獨(dú)立的檔案文件聯(lián)系起來(lái),組成一個(gè)關(guān)聯(lián)整體,對(duì)這些提煉出來(lái)的檔案進(jìn)行整理、分析、判斷,就可以有針對(duì)性地為用戶提供檔案數(shù)據(jù)信息。其次,可以從檔案元數(shù)據(jù)中找出關(guān)聯(lián)規(guī)律。檔案元數(shù)據(jù)包含著大量有價(jià)值的信息,可以折射出檔案之間的相互聯(lián)系,案卷或文件題名中的高頻詞可以歸類(lèi)出檔案數(shù)據(jù)表達(dá)的信息要點(diǎn),檔案元數(shù)據(jù)表現(xiàn)出來(lái)的特征和因果關(guān)系可以作為大數(shù)據(jù)相關(guān)分析的依據(jù),只要找出檔案元數(shù)據(jù)中存在著的相同、相似、相關(guān)性,就可以把隱秘潛藏的檔案價(jià)值挖掘出來(lái),成為可加以利用的檔案信息。此外,可以從用戶信息和行為特征找出關(guān)聯(lián)規(guī)律。用戶在注冊(cè)時(shí)將留下個(gè)人信息,包括姓名、性別、年齡、文化程度、專(zhuān)業(yè)類(lèi)型、職業(yè)、所在地域等身份信息,這些都是檔案大數(shù)據(jù)合理分類(lèi)的線索。用戶的行為特征包括檢索或?yàn)g覽特征、瀏覽時(shí)長(zhǎng)、瀏覽檔案的門(mén)類(lèi)、瀏覽量及下載量、瀏覽目的、反饋意見(jiàn)等??蓳?jù)此用統(tǒng)計(jì)學(xué)原理建立用戶行為偏好模型,預(yù)測(cè)用戶興趣點(diǎn)并匹配檔案數(shù)據(jù),形成個(gè)性化的推薦界面,使用戶更好地理解、評(píng)判、反饋實(shí)時(shí)挖掘結(jié)果,達(dá)到大數(shù)據(jù)挖掘精準(zhǔn)服務(wù)和知識(shí)推薦的功能。

四、整合標(biāo)準(zhǔn),系統(tǒng)規(guī)范地推進(jìn)檔案大數(shù)據(jù)信息系統(tǒng)建設(shè)

首先,高校檔案館基本以各自為戰(zhàn)的方式開(kāi)發(fā)檔案管理信息系統(tǒng),所借助的軟件公司不同,軟件公司技術(shù)力量和技術(shù)重心也不同,高校檔案館之間缺乏針對(duì)技術(shù)開(kāi)發(fā)的信息交流,缺少借鑒和提升。正因?yàn)闆](méi)有明確的設(shè)計(jì)規(guī)范,導(dǎo)致高校檔案館開(kāi)發(fā)出的檔案信息管理系統(tǒng)形式和功能各異。因此,必須加強(qiáng)開(kāi)發(fā)設(shè)計(jì)經(jīng)驗(yàn)的交流和推廣,避免人力和財(cái)力的浪費(fèi)。

其次,從檔案大數(shù)據(jù)角度來(lái)看,相關(guān)標(biāo)準(zhǔn)必須進(jìn)行有效整合。例如,不同的網(wǎng)絡(luò)通信協(xié)議、不同量綱或量綱單位的數(shù)據(jù)標(biāo)準(zhǔn)、不同的數(shù)據(jù)存儲(chǔ)格式之間必須進(jìn)行有效整合,也只有通過(guò)整合,才能保證檔案大數(shù)據(jù)順利實(shí)現(xiàn)共建、共享。高校網(wǎng)絡(luò)中心在配置云存儲(chǔ)時(shí),應(yīng)有統(tǒng)一的邏輯和結(jié)構(gòu),各二級(jí)單位信息系統(tǒng)要遵循網(wǎng)絡(luò)中心對(duì)于數(shù)據(jù)信息的規(guī)定。校內(nèi)各業(yè)務(wù)信息系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)要統(tǒng)一,相關(guān)數(shù)據(jù)值要和基礎(chǔ)業(yè)務(wù)數(shù)據(jù)保持一致。這是一項(xiàng)比較艱巨耗時(shí)的工作,但可以層層推進(jìn),一步一步解決。這項(xiàng)工作推進(jìn)得好,才能開(kāi)展各類(lèi)信息的對(duì)接工作,拓展檔案大數(shù)據(jù)總量,真正建立起檔案大數(shù)據(jù)的資源庫(kù)。

五、對(duì)檔案大數(shù)據(jù)進(jìn)行清洗處理,保證數(shù)據(jù)有效性

大數(shù)據(jù)挖掘技術(shù)運(yùn)用于檔案大數(shù)據(jù)管理,取決于檔案數(shù)據(jù)的有效程度。檔案信息管理系統(tǒng)內(nèi)部及對(duì)接外部信息系統(tǒng)過(guò)程中都會(huì)產(chǎn)生大量的錯(cuò)誤數(shù)據(jù)或沖突數(shù)據(jù),產(chǎn)生數(shù)據(jù)噪音和數(shù)據(jù)冗余,需要進(jìn)行清洗過(guò)濾和濃縮。比如,檔案數(shù)據(jù)之間可能前后不一致,根據(jù)規(guī)則可以判定某些數(shù)據(jù)是無(wú)效的,或者因?yàn)榉N種原因造成檔案數(shù)據(jù)缺失,或者檔案數(shù)據(jù)出現(xiàn)了許多重復(fù)值,需要進(jìn)行校驗(yàn)和處理。

具體處理方法建議如下:當(dāng)根據(jù)檔案業(yè)務(wù)規(guī)則或常規(guī)知識(shí)發(fā)現(xiàn)數(shù)據(jù)出現(xiàn)不一致性時(shí),如屬于輸入方法、專(zhuān)門(mén)領(lǐng)域知識(shí)可判別等較容易糾正的問(wèn)題,可由計(jì)算機(jī)自動(dòng)識(shí)別糾正;如不能自動(dòng)識(shí)別糾正,可歸類(lèi)發(fā)送至相關(guān)業(yè)務(wù)部門(mén)修改相應(yīng)系統(tǒng)內(nèi)部數(shù)據(jù)。對(duì)于數(shù)據(jù)無(wú)效性問(wèn)題,如確屬關(guān)鍵數(shù)據(jù),可采用整例刪除,否則建議采用刪除變量或用特殊碼代替,以保證檔案統(tǒng)計(jì)樣本的有效總量。數(shù)據(jù)缺失問(wèn)題一般需要數(shù)據(jù)責(zé)任人進(jìn)行手工補(bǔ)充。數(shù)據(jù)重復(fù)性問(wèn)題可以通過(guò)合并或清除的方式來(lái)處理。

數(shù)據(jù)清洗是一個(gè)長(zhǎng)期的處理過(guò)程,需要檔案從業(yè)人員和業(yè)務(wù)系統(tǒng)責(zé)任人秉持責(zé)任心和恒心多角度反復(fù)清洗、反饋和處理,經(jīng)過(guò)持之以恒的努力,使檔案大數(shù)據(jù)的數(shù)據(jù)值保持有效可用。

六、嚴(yán)防網(wǎng)絡(luò)入侵、網(wǎng)絡(luò)泄密,保障檔案大數(shù)據(jù)安全無(wú)患

檔案的安全保障除了防止自然災(zāi)害、環(huán)境影響、人為因素等造成高溫、高濕、蟲(chóng)蛀、霉變等破壞檔案實(shí)體的安全風(fēng)險(xiǎn)之外,網(wǎng)絡(luò)入侵、網(wǎng)絡(luò)泄密等行為成為大數(shù)據(jù)時(shí)代異常重要的安全隱患。對(duì)于這類(lèi)安全隱患,除了采用傳統(tǒng)的防火墻、入侵檢測(cè)、防病毒方法以外,高校檔案館多采用數(shù)據(jù)完整性鑒別方法,即通過(guò)身份控制,根據(jù)用戶獨(dú)立的身份配置相應(yīng)權(quán)限。

根據(jù)數(shù)據(jù)加密技術(shù)的發(fā)展情況,很多數(shù)據(jù)加密技術(shù)可引起重視并加以運(yùn)用于檔案大數(shù)據(jù)信息管理系統(tǒng)。[3]例如,數(shù)據(jù)傳輸加密、數(shù)據(jù)存儲(chǔ)加密和密鑰管理等,這些數(shù)據(jù)加密技術(shù)是保護(hù)個(gè)人隱私和敏感數(shù)據(jù)的重要方法,確保免于暴露檔案數(shù)據(jù),免于違規(guī)使用有安全風(fēng)險(xiǎn)的檔案數(shù)據(jù),支持用戶根據(jù)自身權(quán)限進(jìn)行選擇性訪問(wèn)檔案數(shù)據(jù),確保檔案大數(shù)據(jù)既好用又安全。

七、運(yùn)用有別于傳統(tǒng)檔案管理的分布式算法,實(shí)現(xiàn)檔案大數(shù)據(jù)挖掘

檔案大數(shù)據(jù)挖掘由于數(shù)據(jù)量過(guò)大,單個(gè)服務(wù)器難以有效計(jì)算、處理,必須借助分布式計(jì)算方法。分布式算法的基本原理是將特征矩陣劃分成大量子矩陣等小單元,安排各服務(wù)器節(jié)點(diǎn)進(jìn)行子矩陣的計(jì)算,得到各個(gè)子矩陣的計(jì)算結(jié)果,迭代至上一矩陣中,匯總到全局矩陣,從而得出最后的總結(jié)果。因此,只要檔案大數(shù)據(jù)達(dá)到一定規(guī)模,必須采用分布式算法才能挖掘出有用的信息。

盡管分布式算法使大數(shù)據(jù)挖掘技術(shù)成為現(xiàn)實(shí),但不建議將所有屬性納入矩陣計(jì)算。必須對(duì)檔案的屬性進(jìn)行篩選,減少計(jì)算的工作量,減少處理時(shí)間。過(guò)高的屬性分散性實(shí)質(zhì)是過(guò)度地依賴大數(shù)據(jù)挖掘技術(shù),將導(dǎo)致計(jì)算速度過(guò)慢甚至難以得到想要的結(jié)果。因此,在進(jìn)行檔案大數(shù)據(jù)挖掘操作之前,有必要先對(duì)檔案屬性進(jìn)行整理、篩選,確保檔案大數(shù)據(jù)挖掘的速度和成效。

八、利用人工智能建立語(yǔ)義分析數(shù)據(jù)庫(kù),增強(qiáng)檔案大數(shù)據(jù)挖掘技術(shù)的分析判斷能力

計(jì)算機(jī)只是一種機(jī)器,不可能做到與人類(lèi)一樣擁有復(fù)雜的語(yǔ)義分析知識(shí)能力,但是計(jì)算機(jī)有別于其它機(jī)器,具有特有的計(jì)算速度快的優(yōu)勢(shì)。近年來(lái),人工智能的發(fā)展使得計(jì)算機(jī)語(yǔ)義分析能力得到極大的增強(qiáng)??梢哉f(shuō),人類(lèi)的自然語(yǔ)言具有語(yǔ)義關(guān)聯(lián)錯(cuò)綜復(fù)雜的特點(diǎn),包括同義、近義、反義、相關(guān)等多種類(lèi)型,但是人工智能可以超出單純使用語(yǔ)義規(guī)則的模式,對(duì)語(yǔ)義進(jìn)行聚類(lèi)、統(tǒng)計(jì)和分析,進(jìn)而獲得詞語(yǔ)重組后的對(duì)應(yīng)關(guān)系,并進(jìn)行自動(dòng)識(shí)別和標(biāo)注。[4]這些語(yǔ)義的關(guān)聯(lián)將被記錄、保存、更新、豐富,從而建立起既龐大又科學(xué)的語(yǔ)義數(shù)據(jù)庫(kù)。檔案大數(shù)據(jù)挖掘技術(shù)可以利用這些語(yǔ)義數(shù)據(jù)庫(kù),保證挖掘過(guò)程中的準(zhǔn)確性和科學(xué)性,使得檔案大數(shù)據(jù)挖掘技術(shù)有依據(jù)、有保障。

目前,檔案大數(shù)據(jù)挖掘技術(shù)可采用許多現(xiàn)成的語(yǔ)義知識(shí)庫(kù),比如各類(lèi)主題詞表、知網(wǎng)、百度百科、維基百科等,在此基礎(chǔ)上再?gòu)木W(wǎng)絡(luò)社會(huì)中提煉語(yǔ)義信息,進(jìn)行語(yǔ)義補(bǔ)充和更新。

九、采用成熟的開(kāi)源平臺(tái),推進(jìn)檔案大數(shù)據(jù)挖掘技術(shù)應(yīng)用程序的開(kāi)發(fā)工作

MapReduce及基于此基礎(chǔ)上開(kāi)發(fā)的開(kāi)源計(jì)算平臺(tái)Hadoop是相當(dāng)成熟的大數(shù)據(jù)挖掘編程架構(gòu),平臺(tái)采用節(jié)點(diǎn)并發(fā)計(jì)算的方式進(jìn)行挖掘、提取關(guān)鍵信息,可將計(jì)算任務(wù)切割到多個(gè)節(jié)點(diǎn),極大地縮短了處理時(shí)間,其大數(shù)據(jù)處理規(guī)模達(dá)1TB以上,其高效處理大規(guī)模數(shù)據(jù)的能力已被世界所公認(rèn),足以滿足高校檔案館大數(shù)據(jù)處理能力的現(xiàn)實(shí)需求。同時(shí),高校檔案館存有大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)平臺(tái)難以讀取和分析,而MapReduce及Hadoop的讀取范圍不僅僅包含關(guān)系數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù),也包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),是數(shù)據(jù)管理的重大突破,給廣大檔案從業(yè)人員帶來(lái)了福音。

MapReduce是由Google公司開(kāi)發(fā)設(shè)計(jì),應(yīng)用程序可在此平臺(tái)上分布式并行計(jì)算和處理,開(kāi)發(fā)者不用在多線程同步程序的編寫(xiě)和調(diào)試上花費(fèi)精力,從而免于在系統(tǒng)層設(shè)計(jì)方面投入時(shí)間。MapReduce主要分成Map映射功能和Reduce規(guī)約功能,Map函數(shù)解析無(wú)序的數(shù)據(jù),提取鍵值(key-value),通過(guò)對(duì)列表中的元素做計(jì)算,由Reduce函數(shù)進(jìn)行迭代規(guī)約,從而對(duì)列表元素進(jìn)行合并化簡(jiǎn),直至得出簡(jiǎn)單結(jié)果。[5]

MapReduce服務(wù)器節(jié)點(diǎn)可高達(dá)數(shù)千個(gè),計(jì)算性能隨節(jié)點(diǎn)數(shù)的增加呈線性增長(zhǎng)關(guān)系,可將大數(shù)據(jù)劃分為較小的數(shù)據(jù)塊,計(jì)算任務(wù)將自動(dòng)在各節(jié)點(diǎn)上分配、執(zhí)行,獲取最終計(jì)算結(jié)果。如果節(jié)點(diǎn)沉默時(shí)間超過(guò)預(yù)定值,則定位該節(jié)點(diǎn)狀態(tài)為死亡狀態(tài),如果節(jié)點(diǎn)數(shù)據(jù)因硬件或軟件故障發(fā)生出錯(cuò)情況,該節(jié)點(diǎn)的數(shù)據(jù)將被遷移至其它節(jié)點(diǎn)。Reduce規(guī)約功能的并行性相對(duì)較差,因此將被盡可能安排在同一節(jié)點(diǎn)或鄰近節(jié)點(diǎn)。MapReduce通過(guò)代碼遷向數(shù)據(jù)的方式優(yōu)先處理本地存儲(chǔ)的數(shù)據(jù),否則將把數(shù)據(jù)遷向鄰近節(jié)點(diǎn),從而減少數(shù)據(jù)通信,提高處理速度。

Hadoop是在GFS和MapReduce的基礎(chǔ)上開(kāi)發(fā)的,Hadoop的核心成分包括HDFS及MapReduce,通過(guò)HDFS存儲(chǔ)大數(shù)據(jù),而MapReduce則實(shí)現(xiàn)大數(shù)據(jù)的計(jì)算。HDFS支持以流的形式寫(xiě)文件,NameNode管理文件系統(tǒng)名稱空間,并以DateNode標(biāo)識(shí)和目標(biāo)塊管理客戶機(jī)存取文件,使計(jì)算任務(wù)可在存儲(chǔ)節(jié)點(diǎn)上得以完成,工作任務(wù)的分配及數(shù)據(jù)通信工作則由JobTracker節(jié)點(diǎn)完成。Hadoop作為開(kāi)源技術(shù),被許多大公司運(yùn)用于Web搜索、數(shù)據(jù)分析之中,一些企業(yè)通過(guò)二次開(kāi)發(fā),成功開(kāi)發(fā)出許多商業(yè)服務(wù),使得Hadoop被廣泛使用,受到大數(shù)據(jù)挖掘技術(shù)工作者的青睞。

十、運(yùn)用非關(guān)系型數(shù)據(jù)庫(kù)(No S QL),實(shí)現(xiàn)半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的管理

如今,高校檔案館存有大量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),迫切需要成熟的非關(guān)系型數(shù)據(jù)庫(kù),除了檔案館之外,其它領(lǐng)域同樣迫切需要運(yùn)用NoSQL。在這樣的背景下,NoSQL得到長(zhǎng)足的發(fā)展,是數(shù)據(jù)庫(kù)發(fā)展史上歷史性的突破。NoSQL數(shù)據(jù)庫(kù)分鍵值存儲(chǔ)(如Tokyo Cabinet/Tyrant)、列存儲(chǔ)(如Cassandra)、文檔型(如CouchDB)及圖形(如Neo4J)四種,各有其優(yōu)勢(shì)和不足。NoSQL使用鍵值對(duì)應(yīng)數(shù)據(jù),不需要定義表結(jié)構(gòu),每條記錄屬性可以不同,因此結(jié)構(gòu)簡(jiǎn)單而且靈活;同時(shí)NoSQL可分布存儲(chǔ)在多個(gè)服務(wù)器上,實(shí)現(xiàn)全共享架構(gòu);此外,NoSQL分布式節(jié)點(diǎn)可動(dòng)態(tài)增刪,擴(kuò)展性較好,并可根據(jù)日志文件異步復(fù)制。NoSQL已被一些企業(yè)部署應(yīng)用于大數(shù)據(jù)管理中,檔案工作者可根據(jù)檔案大數(shù)據(jù)管理的實(shí)際需要。對(duì)照四類(lèi)NoSQL性能并加以選取運(yùn)用,解決了長(zhǎng)期以來(lái)困擾大家的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)籌管理問(wèn)題。

十一、針對(duì)大數(shù)據(jù)挖掘技術(shù)的發(fā)展,高校檔案館應(yīng)做好專(zhuān)業(yè)人才的配置工作

高校檔案管理人員的專(zhuān)業(yè)范圍已經(jīng)在交叉融合,不僅有檔案學(xué)專(zhuān)業(yè)的,還有計(jì)算機(jī)、中文、傳媒、歷史、工程等多種專(zhuān)業(yè)的。檔案管理人員的實(shí)際專(zhuān)業(yè)配置情況證明高校檔案館確實(shí)需要復(fù)合型人才。同樣,檔案學(xué)也出現(xiàn)越來(lái)越多的交叉學(xué)科,主要偏向計(jì)算機(jī)應(yīng)用和網(wǎng)絡(luò)管理方面。隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展,高校檔案管理專(zhuān)業(yè)應(yīng)當(dāng)重視檔案學(xué)和大數(shù)據(jù)挖掘技術(shù)這一交叉學(xué)科的人才培養(yǎng)。[6]高校檔案館編制的使用應(yīng)逐步向云計(jì)算、大數(shù)據(jù)分析技術(shù)這類(lèi)專(zhuān)業(yè)傾斜,檔案管理將更為需要大數(shù)據(jù)挖掘技術(shù)的專(zhuān)家,從而跟得上檔案信息化快速發(fā)展的步伐。

現(xiàn)有其它專(zhuān)業(yè)的檔案從業(yè)人員要積極通過(guò)繼續(xù)教育和自學(xué)鉆研等渠道涉獵大數(shù)據(jù)挖掘技術(shù),防止知識(shí)老化,努力成為既有檔案管理業(yè)務(wù)知識(shí)又有現(xiàn)代信息化技能的多面手,適應(yīng)新時(shí)代檔案管理的模式轉(zhuǎn)變,形成大數(shù)據(jù)管理的思維能力,在檔案管理發(fā)展過(guò)程中出現(xiàn)熱點(diǎn)和難點(diǎn)問(wèn)題時(shí)能夠提出科學(xué)解決方案,提高檔案管理的實(shí)際水平。

十二、結(jié)語(yǔ)

檔案大數(shù)據(jù)挖掘技術(shù)是在檔案數(shù)據(jù)劇增的現(xiàn)實(shí)環(huán)境下,將檔案數(shù)據(jù)信息挖掘?yàn)橹R(shí)庫(kù)的有效方式,傳統(tǒng)檔案管理運(yùn)行模式無(wú)法有效收集、整理、存儲(chǔ)、分析、判斷海量數(shù)據(jù)源,從而加速了檔案大數(shù)據(jù)挖掘技術(shù)的發(fā)展。同時(shí)檔案管理也提出了處理儲(chǔ)量豐富的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的要求,要求檔案管理措施和技術(shù)策略同步更新,真正把大數(shù)據(jù)挖掘技術(shù)作為提升檔案利用服務(wù)功能的重要突破口。

作為提供知識(shí)服務(wù)的趨勢(shì)性技術(shù),大數(shù)據(jù)挖掘技術(shù)日益受到大家的關(guān)注。高校檔案館要密切聯(lián)系各二級(jí)單位,協(xié)作融合,共同把大數(shù)據(jù)挖掘技術(shù)運(yùn)用于日常管理工作中,不斷提高工作效率和服務(wù)質(zhì)量??梢哉f(shuō),大數(shù)據(jù)挖掘技術(shù)在高校的大規(guī)模使用是可以期待和預(yù)見(jiàn)的。

猜你喜歡
數(shù)據(jù)挖掘檔案館檔案管理
改進(jìn)支持向量機(jī)在特征數(shù)據(jù)挖掘中的智能應(yīng)用
關(guān)于企業(yè)檔案管理體制改革的探討
事業(yè)單位檔案管理的難點(diǎn)及對(duì)策實(shí)踐
太原市檔案館牽手百年胡氏榮茶共尋文化脈絡(luò)
云南省檔案館館藏《東巴經(jīng)》
檔案管理模式改革在醫(yī)院檔案管理中的運(yùn)用
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于事故數(shù)據(jù)挖掘的AEB路口測(cè)試場(chǎng)景
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
when與while檔案館
大余县| 鹿泉市| 金华市| 大竹县| 南郑县| 河南省| 葫芦岛市| 东阿县| 贵溪市| 静宁县| 交城县| 大关县| 突泉县| 岐山县| 科技| 普陀区| 汉川市| 通许县| 泗阳县| 邵东县| 济源市| 金阳县| 抚松县| 庆元县| 荥经县| 滕州市| 潜山县| 乐亭县| 红河县| 郑州市| 陆川县| 平陆县| 旬邑县| 东丰县| 边坝县| 获嘉县| 吐鲁番市| 辉南县| 准格尔旗| 新昌县| 岢岚县|