李靜燕
摘要:計算機技術的飛速發(fā)展,帶動社會各項事業(yè)共同進步,其中大數(shù)據(jù)時代的來臨為更多的行業(yè)帶來新的發(fā)展契機。不僅科研單位對數(shù)據(jù)的獲取與挖掘提高了重視,企業(yè)發(fā)展對數(shù)據(jù)的內容和可靠性也產生較強的依賴性。在這種背景下,數(shù)據(jù)挖掘技術已經成為一種主流技術,在大數(shù)據(jù)的發(fā)展中發(fā)揮著重要的作用。
關鍵詞:大數(shù)據(jù)時代;數(shù)據(jù)挖掘技術;分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)09-0230-01
數(shù)據(jù)挖掘技術是基于計算機技術和大數(shù)據(jù)的新型技術,通常也可以稱之為數(shù)字處理技術。具體指的是對各大企業(yè)內部的數(shù)據(jù)進行整理、調整、挖掘實施以及評估等一系列操作,目的是實現(xiàn)全局數(shù)據(jù)的優(yōu)化。大數(shù)據(jù)技術跟以往抽樣方式有很大的不同,大數(shù)據(jù)技術通過對全局數(shù)據(jù)進行全面分析,保證分析的可靠性。大數(shù)據(jù)技術的優(yōu)點主要體現(xiàn)在以下幾個方面:高數(shù)量、高速度、多元化以及高價值。
1 大數(shù)據(jù)與數(shù)據(jù)挖掘技術概述
1.1 大數(shù)據(jù)技術的發(fā)展情況
在一定的時間范圍內,有些數(shù)據(jù)不能通過常規(guī)的軟件進行捕捉、管理和處理,我們將這些數(shù)據(jù)的集合稱為大數(shù)據(jù)。海量的數(shù)據(jù)信息和高強度的數(shù)據(jù)處理能力是大數(shù)據(jù)技術的兩個重要內容,這也是不同于傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的兩個重要方面。大數(shù)據(jù)技術的主要用途在于完成對大型復雜數(shù)據(jù)模塊的高效分析,具體工作包括對數(shù)據(jù)的收集、分析、共享以及傳輸?shù)?。超前性也是大?shù)據(jù)分析的重要特點。不同于傳統(tǒng)的數(shù)據(jù)處理方式,大數(shù)據(jù)分析技術具有一定的預測性,完成分析之后,能夠及時對數(shù)據(jù)進行提取,保證數(shù)據(jù)分析的實際價值。在分析過程中還會發(fā)現(xiàn)數(shù)據(jù)之間新的聯(lián)系以及新的信息,這對于多個領域的發(fā)展具有重要的作用。
1.2 數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術是基于計算機技術和大數(shù)據(jù)發(fā)展的新型學科,數(shù)據(jù)挖掘技術起源于上世紀80年代,當時的數(shù)據(jù)挖掘在本質上跟現(xiàn)在有較大的區(qū)別??蒲泄ぷ髡邔Υ髷?shù)據(jù)的研究最初只是為了推動人工智能技術的發(fā)展。數(shù)據(jù)挖掘技術本質上是一個對數(shù)據(jù)進行挖掘并創(chuàng)新的過程。因此挖掘過程中對目標數(shù)據(jù)也有一定的要求,目標數(shù)據(jù)應該具備以下特征:隱蔽性、具有挖掘價值以及挖掘潛力,從而保證數(shù)據(jù)挖掘工作的意義。數(shù)據(jù)挖掘者需要在隨機、模糊、冗雜的數(shù)據(jù)庫對目標數(shù)據(jù)完成挖掘,這也是最主要的工作方式。從商業(yè)經濟層面來講,數(shù)據(jù)挖掘技術還有一個重要的意義,就是通過分析完成對數(shù)據(jù)規(guī)律和價值信息的獲取,這些數(shù)據(jù)規(guī)律對公司的重要決策確定具有重要的指導意義。
2 大數(shù)據(jù)中的算法分析
大數(shù)據(jù)技術處理的數(shù)據(jù)量龐大,并且呈現(xiàn)出來的是無規(guī)律的隨機狀態(tài),通過挖掘技術獲取數(shù)據(jù)的價值時,應該對算法有一定的要求。常用的大數(shù)據(jù)算法有神經網(wǎng)絡算法和灰色關聯(lián)度分析。
2.1 神經網(wǎng)絡算法
神經網(wǎng)絡算法主要是通過神經網(wǎng)絡系統(tǒng)對神經元的控制處理形成最終的算法。整個神經網(wǎng)絡系統(tǒng)包含大量的神經元,不同神經元之間通過具有調節(jié)性的連接權值完成,如圖1所示。
大規(guī)模并行處理、分布式信息存儲、良好的自組織自學習能力等是神經網(wǎng)絡系統(tǒng)的主要特點。神經網(wǎng)絡是處理神經元集合的一種計算方式,主要目的在于有效解決生物神經元的大集群問題,這些生物神經元之間通過軸突完成連接。另外,由于神經元之間相互連接,相互影響,因此單一神經元對與之連接的神經元的激活狀態(tài)會產生不同程度的抑制作用。單一的神經元還有將輸入值組合求和的功能。每個神經元本身還具有容納閾值函數(shù)和限制函數(shù)的能力,因此信號在不同神經元之間傳遞時,需要沖破限制。這一功能已經被應用于編程的困難任務中。神經網(wǎng)絡算法的特征體現(xiàn)在包含具有一些動力系統(tǒng)的認知模型參數(shù)中的知識,這對于高級人工智能的發(fā)展大有裨益。
2.2 灰色關聯(lián)度分析
灰色關聯(lián)度分析也是一種常用的大數(shù)據(jù)算法的分析方式,數(shù)據(jù)因素在發(fā)展趨勢上會呈現(xiàn)一定的相同性和不同性,對這些相同和不同進行歸納分析的過程就是灰色關聯(lián)度分析的過程。在數(shù)據(jù)信息上,可以定義兩個理想狀態(tài),即沒有信息的黑色情況和具有完美信息的白色情況。而實際中的狀態(tài)就是介于兩者之間的灰色狀態(tài)。灰色狀態(tài)的內容較多,即有部分是已知信息,也包含部分未知信息。而灰色情況的信息質量形成在于信息的絕對缺乏到信息完整存在的過渡?;疑闆r具有一定的不確定性,因此灰色分析可以有效得出關于解決方案的相關內容。在實際應用上,灰色分析主要用于篩選最優(yōu)方案,改善問題的解決方式。
2.3 大數(shù)據(jù)平臺的設計
在計算機技術發(fā)展的衍生技術中,虛擬化技術在一定程度上促進了大數(shù)據(jù)技術的發(fā)展和云平臺的搭建。虛擬化技術還可以實現(xiàn)數(shù)據(jù)資源的有效整合,并將數(shù)據(jù)資源中的高質量數(shù)據(jù)進行處理并存儲。借助職能設備,將資源進行合理分配,進而不斷優(yōu)化自身系統(tǒng)。優(yōu)化主要體現(xiàn)在以下三個層面:
(1)平臺層。大數(shù)據(jù)本身的存儲方式和管理技術,能夠對數(shù)據(jù)進行高效處理,為科研活動的開展保駕護航。
(2)功能層。采用擴展法對目標數(shù)據(jù)進行挖掘,通過建立數(shù)據(jù)模型,可以有效完成云計算以及分布的處理能力,改善數(shù)據(jù)的處理效率。
(3)服務層。借助于WEB與Open API的大數(shù)據(jù)挖掘處理技術,可以在副I大數(shù)據(jù)的環(huán)境下完成數(shù)據(jù)的分析,優(yōu)化端口管理方式和流程,改善端口智能配置,加強數(shù)據(jù)的交換,科學合理地實現(xiàn)大數(shù)據(jù)的共享。受到管理層次的影響,應該通過合理控制輸入輸出保證數(shù)據(jù)的高效交換。
3 結語
綜上所述,盡管數(shù)據(jù)挖掘技術已經經歷了一定的發(fā)展階段,但新背景下的數(shù)據(jù)挖掘技術依然有較大的發(fā)展空間,尤其在特殊領域的應用中,這種前景更加明朗。因此研究這項技術,對于創(chuàng)造更大的經濟效益和社會效益具有重要作用。
參考文獻
[1]楊華昆.大數(shù)據(jù)時代數(shù)據(jù)挖掘技術[J].電腦編程技巧與維護,2015,(24):22.
[2]孔志文.大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術與應用[J].電子技術軟件,2015,(23):68.
[3]石靜靜.基于大數(shù)據(jù)的數(shù)據(jù)挖掘技術探討[J].數(shù)字技術與應用,2016,(03):92.
[4]孫勤紅.大數(shù)據(jù)時代的數(shù)據(jù)挖掘及應用[J].電子技術,2016,(06):72.endprint