王靜 辛玉明 高鴻雁
〔摘 要〕數(shù)據(jù)挖掘技術(shù)可以幫助人們在海量的信息資源中提取隱含的、潛在的、有價值的信息,因此已經(jīng)被引入到了處理爆炸式增長的檔案信息資源中。而待挖掘的信息是否完整、規(guī)范直接關(guān)系到之后的挖掘質(zhì)量。本文根據(jù)檔案信息資源的現(xiàn)狀以及檔案數(shù)據(jù)的特性,在給出執(zhí)行具體挖掘操作前的數(shù)據(jù)采集和數(shù)據(jù)預處理各個環(huán)節(jié)的概念描述的基礎(chǔ)上,探討各個環(huán)節(jié)的注意事項及具體實現(xiàn)方法。
〔關(guān)鍵詞〕數(shù)字檔案館;數(shù)據(jù)挖掘;數(shù)據(jù)采集;數(shù)據(jù)預處理
DOI:10.3969/j.issn.1008-0821.2012.06.018
〔中圖分類號〕G270保罰 〔文獻標識碼〕A 〔文章編號〕1008-0821(2012)06-0072-03