郭東峰
摘 ?要:眾所周知,大數據已經成為現代社會發(fā)展的重要推動力量之一,大數據具有信息量大、種類多元等特點,這就使得我們在利用大數據的過程中一定要高度關注數據處理的時效和速度,確保數據的實時性和準確性。數據分析挖掘技術便是要從海量的數據信息當中尋找到隱藏其中的有效信息,進而確保大數據應用的價值和作用。該文將就數據分析挖掘技術進行深入的分析和探究。
關鍵詞:大數據 ?分析挖掘技術 ?應用分析 ?創(chuàng)新突破
中圖分類號:TP311 ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? 文章編號:1672-3791(2020)10(a)-0017-03
Abstract: As we all know, big data has become one of the important driving forces for the development of modern society. Big data has the characteristics of large amounts of information and diverse types, which makes us pay attention to the timeliness and speed of data processing in the process of using big data to ensure the real-time and accuracy of data. Data analysis and mining technology is to find the hidden effective information from the massive data information, so as to ensure the value and role of big data application. In this paper, data analysis and mining technology will be in-depth analysis and exploration.
Key Words: Big data; Analysis and mining technology; Application analysis; Innovation and breakthrough
伴隨著社會的發(fā)展與時代的進步,大數據已經滲透到了我們工作和生活的方方面面,并且呈現出非常重要的應用價值,而掌握大數據分析和挖掘技術則是高效應用大數據的重要前提。以下是筆者結合自己多年相關工作經驗,就此議題提出自己的幾點看法和建議。
1 ?大數據分析和挖掘技術的概念
1.1 大數據分析技術
何為大數據分析技術,其從理論層面來解釋,指的就是對現有數據挖掘和機器學習的改進技術,開發(fā)數據網絡挖掘技術、特異群組挖掘技術、圖挖掘技術等新型數據挖掘技術。突破用戶興趣分析、網絡行為分析、情感語義分析等大數據挖掘技術。
1.2 大數據挖掘技術
何為大數據挖掘技術,顧名思義,其指的就是從海量、有噪聲、模糊、不完全、隨機的實際應用數據當中去提取隱含在其背后不為人所熟知和了解,但是有具備應用價值的潛在信息和知識的過程。
2 ?大數據挖掘技術的分類
根據筆者的調查和研究,發(fā)現當前在大數據挖掘技術領域當中,所涉及的大數據挖掘技術的分類方法有很多種,根據不同的分類標準,大數據挖掘技術可以分為以下幾種類型。
(1)按照挖掘任務分類。大數據挖掘技術可以分為分類或預測模型發(fā)現、數據總結、聚類、關聯規(guī)則發(fā)現、序列模式發(fā)現、依賴關系或者依賴模型發(fā)現、異常和趨勢發(fā)現等。
(2)按照挖掘方法分類。大數據挖掘技術可以分為機器學習方法、神經網絡方法、統(tǒng)計方法和數據庫方法。
(3)按照挖掘對象分類。大數據挖掘技術可以分為面向對象數據庫、關系數據庫、空間數據庫、文本數據源、時態(tài)數據庫、多媒體數據庫和異質數據庫、遺產數據庫和環(huán)球網Web。
3 ?當前比較具有代表性的幾類數據挖掘技術以及具體應用分析
3.1 關聯規(guī)則
關聯規(guī)則的模式其實相對比較簡單直接,其是讓兩個或者兩個以上項之間建立起關聯并確定項與項之間的關系。關聯規(guī)則在現實中的應用主要體現銷售系統(tǒng)當中,即確定產品與產品之間的關聯性,考慮產品之間的共同趨勢。比如,一般消費者在超市購物時,購買了各種生吃蔬菜之后會選擇購買沙拉醬或者千島醬,用于制作蔬菜沙拉。還有,消費者在購買衣服的時候,選擇了上衣之后也會考慮到褲子或者鞋子的搭配等,這就是關聯規(guī)則的實際應用。其實,關聯規(guī)則是一個非常簡單的方法,但是關聯規(guī)則背后蘊藏著是人們的智慧,是人們對于大數據的洞察與應用?,F代社會中有越來越多的企業(yè)選擇應用關聯規(guī)則來搜集信息和制定營銷方案,其在增加企業(yè)經濟效益中發(fā)揮著非常重要的作用。目前,關于關聯規(guī)則的主要應用領域集中在市場營銷、產品交叉或者搭配銷售以及實物擺放組織等諸多方面。
3.2 聚類
聚類,顧名思義,就是將各種數據信息記錄組合在一起的方式,聚類可以幫助用戶加深對數據庫中所發(fā)生事情的認知程度,幫助用戶做出更加正確的選擇。
關于聚類的具體應用,其中比較具有代表性的便是企業(yè)對市場的劃分。根據聚類方式,企業(yè)可以通過查看各個對象分組的情況來將市場細化分為多個客戶子集,也就是對市場進行細分,然后根據每一個子集即細分后市場的情況來制定出具有針對性的營銷策略,這樣一來,企業(yè)的營銷效果必然會得到很大的提升。
3.3 分類
分類即實現對各項的分門別類。我們會就特定類別的項標記清楚各自的屬性,然后按照標記的屬性將其劃分到各個類別當中去,根據類別來預測其未來的發(fā)展方向和形式,進而提高預測的準確程度。
以信貸公司為例來對分類這一方式進行說明:信貸公司會制定出符合市場形勢的分類標準,公司員工會按照既定的分類標準對全部貸款申請人的實際情況進行審核,在審核過后,將貸款申請人劃分為高信用風險、中信用風險和低信用風險3類等級當中去,然后根據不同風險等級的服務內容和標準來為貸款申請人提供信貸服務,這就有效保障了信貸業(yè)務的安全性,對于維護信貸公司的利益有著非常大的幫助作用。
3.4 決策樹
決策樹的價值主要在于對數據進行分類和預測,從一個問題開始,通過決策樹我們可能得到多個答案,而每一個答案背后又會繼續(xù)出現更深一步的問題,而隨后出現的這些問題又會被用于分類和識別,便形成了決策樹的形式。
在具體應用中,手機供應商通過會選擇通過決策樹的形式來對流失的客戶或者不更新收集的客戶進行分類,其會將數據分成多個葉結點,所有葉結點的數據記錄數的和等于輸入數據的記錄總數,也就是兩個或者兩個以上子結點中所包含的數據記錄的總和等于上一級父結點中的數據記錄總數。手機供應商需要在及時存儲決策樹出現上下移動過程中的客戶數量變化,通過數據的變化來分析客戶的流失情況。
3.5 序列模式
何為序列模式,其主要是根據序列來對發(fā)生的相似事件的趨勢以及發(fā)生同樣情況的可能性進行識別。序列模式在實際生產生活中有著非常廣泛的應用,生產商和經銷商主要是利用序列模式這一數據挖掘技術來理解和評估廣大消費者的購買行為,也會通過數據和序列模式來做出產品展示的決策。比如,序列模式可以幫助產品供應商識別固定時間段內客戶們在不同時間購買同一類產品的幾何,也可以使用序列模式來根據瀏覽頻率和過去購買歷史記錄來對客戶下一次做出購買商品行為的預測,提前將商品推薦給客戶或者直接將商品添加到客戶的購物車當中去。
4 ?數據分析挖掘技術的創(chuàng)新與突破
4.1 可視化分析
數據的可視化屬于基礎功能,數據可視化,不管是對數據分析領域的專家還是對普通用戶而言,都是通過圖像的形式呈現出來,讓數據透過圖像的形式來說話,這樣數據分析專家和普通用戶都可以得到最直接的結果。
4.2 預測性分析
預測性分析是數據分析挖掘技術的重要價值體現之一,數據分析人員可以通過分析圖像,也可以對數據挖掘結果進行分析,進而對未來的方向和可能出現的結果做出前瞻性判斷和預測,而且預測的結果準確性也比較高。
4.3 數據挖掘算法
如果說圖像是機器語言翻譯的重要途徑和結果,那么,數據挖掘就相當于是機器中的母語。我們可以通過各種各樣的分析和計算方式來實現對數據的挖掘和精煉,比如分割、集群、孤立點分析等,提煉數據背后所隱藏著的有效信息。數據挖掘算法不僅要保證能夠應對海量的數據,同時也要追求處理的速度和效率。
5 ?結語
綜上所述,大數據時代已然來臨,我們需要借助和利用大數據去解決現實工作和生活中存在的各種問題,大數據終將成為我們最得力的解決工具。大數據分析挖掘技術可以幫助我們從海量的數據信息當中分析和挖掘出對我們有利、有效的信息資源,其為各行各業(yè)的發(fā)展與決策提供重要的參考依據,未來伴隨著大數據分析挖掘技術的不斷創(chuàng)新與升級,大數據在我們現實生活中所發(fā)揮的作用將會越來越強大。
參考文獻
[1] 劉政宇.大數據分析挖掘技術及其決策應用研究[J].科學技術創(chuàng)新,2019(23):84-85.
[2] 李加慶,原士棟.數據挖掘關鍵技術分析探索[J].計算機產品與流通,2020(3):81.
[3] 林翔,賈璐,吳小勇.大數據技術在裝備體系仿真實驗中的應用模式及難點分析[J].兵工自動化,2019,38(7):26-29.
[4] 李希堯.基于數據挖掘技術的股票數據分析研究[D].電子科技大學,2020.
[5] 會淵凱.基于數據挖掘技術的NBA金州勇士隊取勝的影響因素分析[D].燕山大學,2019.
[6] 王者.基于數據挖掘技術的變電站巡檢機器人故障分析與自主特巡系統(tǒng)[D].山東大學,2019.
[7] 楊林芬.基于大數據分析技術的名老中醫(yī)醫(yī)案價值挖掘研究[D].云南大學,2019.
[8] 劉宇.基于數據挖掘技術的廣東省2005—2016年預防接種異常反應分析[D].南方醫(yī)科大學,2019.