宋萬清
摘 要:數(shù)據(jù)挖掘是當今大數(shù)據(jù)應用研究中的重要理論知識部分。如何理解數(shù)據(jù)挖掘算法中的工程應用背景,對理解講授數(shù)據(jù)挖掘課程極其重要。本文詮釋了理論算法與實際應用的關(guān)系,并對數(shù)據(jù)挖掘的應用領(lǐng)域做了相關(guān)介紹,開拓學生對課程的由淺入深的理解。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策支持;關(guān)聯(lián)規(guī)則;發(fā)展趨勢
1 在商務領(lǐng)域的應用
數(shù)據(jù)挖掘在商務領(lǐng)域的應用包括:庫存及物流管理、數(shù)據(jù)庫營銷、客戶群體劃分、背景分析、交叉銷售、客戶流失性分析等。美國運通公司(American Express)有一個用于記錄信用卡業(yè)務的數(shù)據(jù)庫,數(shù)據(jù)量達到54億字符,并仍在隨著業(yè)務進展不斷更新。運通公司對這些數(shù)據(jù)進行挖掘,在此基礎上制定了“關(guān)聯(lián)結(jié)算(Relation Ship Billing)優(yōu)惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那么在同一個商店再買一雙鞋,就可以得到比較大的折扣。這種策略取得了極大的成功,實現(xiàn)了商店銷售量和運通卡使用率的雙雙增長。
農(nóng)夫山泉通過定期采集純進水的生產(chǎn)、運輸、銷售、財務等環(huán)節(jié)的場景數(shù)據(jù),每月收到約3 TB的數(shù)據(jù),其中不乏圖像、視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù),通過對這些數(shù)據(jù)的挖掘,實時制定生產(chǎn)、運輸、銷售的精準管理策略,取得了巨大的成功,近年銷售額連續(xù)以30%~40%的速度增長。
亞馬遜(Amazon)在業(yè)內(nèi)率先使用了大數(shù)據(jù)、人工智能和云技術(shù)進行倉儲物流的管理。創(chuàng)新性地推出預測性調(diào)撥、跨區(qū)域配送、跨國境配送等服務。京東的JIMI客服機器人通過大數(shù)據(jù)挖掘來判斷用戶需求,還具備一定的學習能力,在售前咨詢方面,在部分品類上的回答滿意度已經(jīng)超過了人工客服;同時在采銷系統(tǒng)上利用數(shù)據(jù)挖掘?qū)崿F(xiàn)智能補貨,效率提高近50%,通過用戶和小區(qū)的需求畫像實現(xiàn)智能推薦和C2B(Consumer to Business)。
2015年8月,阿里巴巴與蘇寧戰(zhàn)略合作,實現(xiàn)線上與線下聯(lián)合,利用大數(shù)據(jù)、物聯(lián)網(wǎng)、移動應用、金融支付等手段打造了O2O(Online to Offline)的新模式,充分發(fā)揮了阿里巴巴強大的線上體系和蘇寧線下門店的互補優(yōu)勢。
2 在醫(yī)療和醫(yī)學方面的應用
人體是一個復雜的系統(tǒng),人的生老病死有著復雜的內(nèi)在規(guī)律,盡管目前分子生物學和醫(yī)學高度發(fā)展,人類對這些復雜規(guī)律的了解仍然是冰山一角??偛课挥诿绹腡ute Genomics公司通過基因測序服務收集了大量的受試者基因和健康信息,建立了一個大型基因數(shù)據(jù)庫,他們以云技術(shù)為依托,結(jié)合全世界的基因組學信息,解碼患者基因信息,為基于基因組學的精密醫(yī)療提供相應數(shù)據(jù)與決策。
斯坦福大學醫(yī)學院的Lloyd Minor教授與其同事們從不同資源中獲取了大量數(shù)據(jù),包括電子醫(yī)療記錄、全基因組序列、保險和醫(yī)藥記錄、可穿戴式傳感器和社會環(huán)境數(shù)據(jù),建立了一個名為“和你一樣的病人”的數(shù)據(jù)庫系統(tǒng),通過數(shù)據(jù)挖掘,醫(yī)生和研究人員可更好地預測個人患特定疾病的概率,有針對性地制定對早期檢查和預防的方案。
大數(shù)據(jù)在醫(yī)療領(lǐng)域的另一個應用是利用電子病歷數(shù)據(jù)庫、互聯(lián)網(wǎng)大數(shù)據(jù)、社交媒體數(shù)據(jù)以及衛(wèi)生部門專有的各種病疫數(shù)據(jù)庫實時開展公共衛(wèi)生監(jiān)測,包括流行病監(jiān)測、傳染病監(jiān)測、慢性非傳染性疾病及相關(guān)危險因素監(jiān)測、出生缺陷監(jiān)測、食品安全風險監(jiān)測等。
3 在銀行和保險行業(yè)的應用
風險管理是商業(yè)銀行經(jīng)營管理的重要內(nèi)容,對互聯(lián)網(wǎng)金融企業(yè)尤其如此。阿里巴巴旗下的浙江網(wǎng)商銀行通過對海量客戶數(shù)據(jù)的挖掘?qū)崿F(xiàn)對貸款申請人的信用評估;芝麻信用通過海量的網(wǎng)絡交易數(shù)據(jù)分析對用戶進行信用評估和風險控制。
在保險行業(yè),大數(shù)據(jù)挖掘分析將成為風險評估與定價的重要手段,如美國前進保險公司(Progressive)利用車聯(lián)網(wǎng)設備,收集駕駛時間、地點、速度、急剎車等駕駛數(shù)據(jù),來判斷駕駛行為中存在的風險,設計“從用”的個性化UBI 車險產(chǎn)品;英國保險公司英杰華集團(Aviva)運用網(wǎng)絡數(shù)據(jù)挖掘幫助該公司識別出申請者的潛在健康隱患及風險,為保費設定提供支持。
4 在社交媒體行業(yè)的應用
Facebook每天產(chǎn)生100億條消息、45億次“喜歡”按鈕點擊和3.5億張新圖片,通過對這些數(shù)據(jù)的挖掘分析可獲得用戶的位置、朋友、喜好等信息,F(xiàn)acebook一方面利用這些信息影響用戶行為,如提供標注建議等,另一方面還向合作伙伴推出話題數(shù)據(jù)(Topic Data),這些話題數(shù)據(jù)可以向市場營銷人員反應大眾對于品牌、事件、活動和主題的反應,市場營銷人員可以據(jù)此有選擇地調(diào)整他們在該平臺及其他渠道中的營銷方式。
騰訊每天接入5千億條數(shù)據(jù),覆蓋移動設備數(shù)達7.7億臺,通過對這些數(shù)據(jù)的挖掘分析可實現(xiàn)對用戶的行為特點、偏好、消費能力等的精準定位,并以此為基礎實現(xiàn)精準廣告投放、精準移動推送、手機游戲精細化運營的業(yè)務。
YouTube是Google旗下的一個視頻交流網(wǎng)站,是目前世界上最大的視頻交流網(wǎng)站,在全球有超過10億注冊用戶,每天收到用戶上傳的視頻接近1 000萬個,用戶要從如此龐大的視頻數(shù)據(jù)庫中找到自己感興趣的視頻猶如大海撈針,為了增加用戶體驗,Google利用深度神經(jīng)網(wǎng)絡挖掘視頻語義特征,改進搜索推薦算法,實現(xiàn)了目前世界上最強大的推薦系統(tǒng)。
5 結(jié)論
綜上,數(shù)據(jù)挖掘涵蓋多種理論和技術(shù),成為一個熱門的研究課題,這說明數(shù)據(jù)挖掘的理論、技術(shù)及應用都具有重要的意義,在未來還會涉及更多的領(lǐng)域。但數(shù)據(jù)挖掘作為一個分析方法和工具,還需要專業(yè)人員根據(jù)具體情況,結(jié)合相關(guān)行業(yè)的大環(huán)境以及國家的政策法規(guī)等進行綜合分析后,才能得到正確及專業(yè)的數(shù)據(jù)挖掘信息。而在教學領(lǐng)域,對深入分析數(shù)據(jù)挖掘、應用數(shù)據(jù)挖掘技術(shù)將是我們未來努力的方向。
參考文獻
[1][美]Jiawei Han,Micheline Kamber(譯者:范明,孟小峰).數(shù)據(jù)挖掘概念與技術(shù) [M],北京:機械工業(yè)出版社,2007-6-1.
[2]毛國君.數(shù)據(jù)挖掘原理與算法(第二版)[M].北京:清華大學出版社,2007-12-1.
[3][美]Pang-Ning Tan , [美]Michael Steinbach (譯者: 范明 ,范宏).數(shù)據(jù)挖掘?qū)д?[M].北京:人民郵電出版社,2010-12-10
[4][美]Jiawei Han ,[加]Micheline Kamber ,[加]Jian Pei .Data Mining,Concepts and Techniques [M].北京:機械工業(yè)出版社,2012-3.
[5][美] Michael Milton(譯者:李芳).深入淺出數(shù)據(jù)分析 [M],北京:電子工業(yè)出版社,2011-4.