摘要:科技的進步帶動了互聯(lián)網(wǎng)行業(yè)的發(fā)展,信息化、數(shù)據(jù)化也逐漸走進了人們的視野,數(shù)據(jù)挖掘的容錯技術的重要性得到了關注。本文對大數(shù)據(jù)的數(shù)據(jù)挖掘中容錯技術進行探究,從數(shù)據(jù)挖掘的意義展開,提出了其容錯技術的具體應用措施,旨在拓展技術研究范圍,提升工作效率,從而為關注這一話題的人們提供參考。
關鍵詞:大數(shù)據(jù)時代;數(shù)據(jù)挖掘;容錯技術
中圖分類號:TP311 ? 文獻標識碼:A ? ? 文章編號:1007-9416(2020)06-0000-00
0引言
大數(shù)據(jù)時代改變了人們的生活方式,豐富了人們的精神生活。數(shù)據(jù)挖掘技術能夠?qū)⒂脩舻臄?shù)據(jù)進行統(tǒng)計,整合用戶信息,將信息數(shù)據(jù)轉向網(wǎng)絡化的方向。其中,數(shù)據(jù)容錯技術可以實現(xiàn)規(guī)劃系統(tǒng)數(shù)據(jù)、調(diào)整運行方向的目的,進而將數(shù)據(jù)更好地規(guī)劃整合。因此,有必要對大數(shù)據(jù)的數(shù)據(jù)挖掘中容錯技術展開探討。
1 數(shù)據(jù)挖掘的意義
大數(shù)據(jù)是指數(shù)據(jù)含量大、數(shù)量多的數(shù)據(jù)信息,起初由金融、通訊及生物學等領域廣泛傳播,隨著時間的發(fā)展被各領域所廣泛地接受運用。大數(shù)據(jù)的信息數(shù)量多,無法被正常的軟件工具所處理,因此,需要相關的技術手段對其進行彌補。大數(shù)據(jù)具有增長快、樣式多的特點,有利于數(shù)據(jù)信息的高效化處理。隨著計算機網(wǎng)絡的運行發(fā)展,計算機的數(shù)據(jù)量也得到了一定程度上空間的拓寬與增加,進而形成空間大數(shù)據(jù),將數(shù)據(jù)的儲存及運算融為一體。
數(shù)據(jù)挖掘是一種新的技術,最早提出于上個世紀。數(shù)據(jù)挖掘又叫做數(shù)據(jù)勘探,能夠?qū)⒎彪s的數(shù)據(jù)進行整合分析,進而提取出相應有價值的數(shù)據(jù)信息。一般而言,數(shù)據(jù)挖掘技術多用于商業(yè)領域,通過對商業(yè)數(shù)據(jù)的分析及整合實現(xiàn)商業(yè)利益的最大化,進而將數(shù)據(jù)進行簡化處理,提高商業(yè)發(fā)展的效率。
2 數(shù)據(jù)挖掘技術特征
2.1流行性高
數(shù)據(jù)挖掘技術具有較大的流動性,其信息處理的方式較為靈活,能更好地實現(xiàn)數(shù)據(jù)信息的分析及整合,進而提升數(shù)據(jù)挖掘的工作效率。在大數(shù)據(jù)發(fā)展的背景下,較大的數(shù)據(jù)信息量,也為數(shù)據(jù)挖掘提出了技術上的難題,促進數(shù)據(jù)挖掘的轉型與發(fā)展。相對比于傳統(tǒng)的數(shù)據(jù)運行模式,數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)數(shù)據(jù)整理手段的現(xiàn)代化,提升數(shù)據(jù)信息的工作效率。
2.2種類多
數(shù)據(jù)種類的增加有利于對相關數(shù)據(jù)信息的整合,人們在使用現(xiàn)代化信息技術時,數(shù)據(jù)信息的種類隨之增加。數(shù)據(jù)挖掘過程中,互聯(lián)網(wǎng)信息與智慧設備的聯(lián)通,也產(chǎn)生了大量的數(shù)據(jù),豐富了數(shù)據(jù)信息,完善了數(shù)據(jù)整理體系。
2.3處理數(shù)據(jù)量大,價值度低
隨著人們對新媒體技術使用的增加,數(shù)據(jù)信息也在不斷地增長,進而增加數(shù)據(jù)挖掘的信息,形成其處理數(shù)據(jù)量大的特點。同時,數(shù)據(jù)信息總量的提升還增大了數(shù)據(jù)庫的基數(shù)和密度,將其信息庫的總值擴至最高,這就會導致數(shù)據(jù)信息中有價值的信息被降低,由此增加數(shù)據(jù)信息處理的難度,增大數(shù)據(jù)挖掘的工作量。
3 大數(shù)據(jù)的數(shù)據(jù)挖掘中容錯技術的應用措施
3.1數(shù)據(jù)挖掘及處理
數(shù)據(jù)挖掘容錯技術指數(shù)據(jù)系統(tǒng)運行過程中產(chǎn)生錯誤時,系統(tǒng)的算法能維護其正常運轉,避免系統(tǒng)死機的情況,進而減少系統(tǒng)的內(nèi)在差錯,將其對系統(tǒng)的影響降至最低。容錯技術能保障信息系統(tǒng)數(shù)據(jù)的完好性,對數(shù)據(jù)信息進行備份,減少相關信息的損失。例如,在航天、醫(yī)療、金融等行業(yè)領域中,其系統(tǒng)失誤會造成不可估量的后果,而容錯技術的運用,則會為相關的數(shù)據(jù)系統(tǒng)提供保障,維護數(shù)據(jù)信息的完整性[1]。
數(shù)據(jù)容錯多會采用Python技術為根本運行依據(jù),保障信息系統(tǒng)的運行。Python技術具有開源共享、函數(shù)式編程等特點,能將數(shù)據(jù)信息庫進行整合及規(guī)范化處理。其中,Python包含jieba庫、json庫及numpy庫等15萬個第三方數(shù)據(jù)庫,進而對于數(shù)據(jù)信息進行高效的處理。在進行數(shù)據(jù)挖掘時,Python技術能將數(shù)據(jù)進行清洗、探索及將其模型參數(shù)化處理,形成一系列數(shù)據(jù)環(huán)節(jié)的流程化實施。流程化的項目操作與實施有利于數(shù)據(jù)信息運行的高效化,多種信息能同時運行,將數(shù)據(jù)信息規(guī)范性整理,進而提升其數(shù)據(jù)儲藏量及數(shù)據(jù)運算的速度。容錯技術中Python技術的運用提高了計算機數(shù)據(jù)整理運行的效率,實現(xiàn)傳統(tǒng)計算機數(shù)據(jù)管理技術向現(xiàn)代化的方向轉變。
使用Python技術進行數(shù)據(jù)挖掘時,要先將其自身已有的數(shù)據(jù)進行處理,將其中無效化數(shù)據(jù)做出預判及分析,處理掉影響數(shù)據(jù)運算結果的臟數(shù)據(jù),保障數(shù)據(jù)運行的基礎效率。只有保障數(shù)據(jù)信息運行的準確性,才能實現(xiàn)數(shù)據(jù)系統(tǒng)的正確運算。數(shù)據(jù)預存中,多包含缺失值處理、異常處理等對于數(shù)據(jù)丟失預防處理的方法。其中,數(shù)據(jù)信息的異常處理是其運行的關鍵。例如,數(shù)據(jù)運行時,將采集數(shù)據(jù)由88誤錄為880,進行數(shù)據(jù)異常處理時,計算機系統(tǒng)會根據(jù)算法及圖表進行核算,以此發(fā)現(xiàn)異常并進行改進,從而將數(shù)據(jù)進行修正,保證數(shù)據(jù)信息的準確性[2]。
3.2異常處理
數(shù)據(jù)的異常是指計算機程序運行的過程中存在著一些不正常的現(xiàn)象,數(shù)據(jù)采集及分析帶來的失誤及問題等,嚴重的甚至會造成系統(tǒng)數(shù)據(jù)的崩潰和數(shù)據(jù)丟失,進而造成無法預計的損失。在此基礎上,數(shù)據(jù)容錯技術利用對數(shù)據(jù)異常處理的手法進行分析,實現(xiàn)異常情況的分級化處理,對相關的損失及誤差做出預判并加以解決。
Python系統(tǒng)能將數(shù)據(jù)異常信息進行規(guī)劃整合,形成數(shù)據(jù)信息異常信息庫,當數(shù)據(jù)信息系統(tǒng)出現(xiàn)其信息庫中的異常情況時,系統(tǒng)就會做出相應的提示并給出解決信息。Python的運行中要將其運行代碼做出合理化預判,通過對于運行代碼的試運行尋找相應的問題,進而將數(shù)據(jù)系統(tǒng)進行規(guī)范化處理,降低信息系統(tǒng)數(shù)據(jù)漏洞帶來的危害。Try…expect語句的使用為Python系統(tǒng)的運行提供了根本的保障,是數(shù)據(jù)異常處理的基本信息結構形式,其運行主要通過try字句中的代碼來進行數(shù)據(jù)信息的分析,同時通過expect信息進行異常的捕捉,二者間相互配合,共同完成數(shù)據(jù)異常處理的檢測。
進行數(shù)據(jù)容錯異常處理時,還需將數(shù)據(jù)信息系統(tǒng)中出現(xiàn)的數(shù)據(jù)庫進行詞頻統(tǒng)計,對于數(shù)據(jù)系統(tǒng)出現(xiàn)的詞條進行歸檔及檢索處理。大數(shù)據(jù)中數(shù)據(jù)庫具有信息量大的特點,因而需將數(shù)據(jù)信息進行關鍵詞的分類形成詞頻,來將數(shù)據(jù)庫進行整合。
4結論
綜上所述,大數(shù)據(jù)的數(shù)據(jù)挖掘中容錯技術的使用有利于完善數(shù)據(jù)信息,進而實現(xiàn)數(shù)據(jù)信息的綜合處理。其中,數(shù)據(jù)信息容錯技術可以通過數(shù)據(jù)挖掘及處理來進行數(shù)據(jù)的整合,同時通過對于數(shù)據(jù)的異常處理實現(xiàn)容錯技術的發(fā)展。由此保障計算機系統(tǒng)運行的安全性,提升數(shù)據(jù)系統(tǒng)的可靠性。
參考文獻
[1]謝盛嘉.大數(shù)據(jù)時代背景下數(shù)據(jù)挖掘技術的應用研究[J].計算機產(chǎn)品與流通,2020(5):128.
[2]張紅軍,王豫鑫,楊萬里.基于大數(shù)據(jù)的數(shù)據(jù)挖掘中容錯技術研究[J].電腦知識與技術,2020,16(9):16-18.
收稿日期:2020-04-16
作者簡介:賀穎(1982—),女,四川遂寧人,本科,講師,研究方向:計算機應用。