Bob+Violino
編譯 Charles
數(shù)據(jù)挖掘是一種自動化的過程,對大量的數(shù)據(jù)集進(jìn)行排序,確定趨勢和模式,并建立關(guān)系。
當(dāng)今的企業(yè)正在收集各種來源日益增長的信息,包括網(wǎng)站、企業(yè)應(yīng)用程序、社交媒體、移動設(shè)備,以及越來越多的物聯(lián)網(wǎng)(IoT)設(shè)備等。
最大的問題是怎樣從這些信息中獲得真正的商業(yè)價值?這正是數(shù)據(jù)挖掘大顯身手的地方。數(shù)據(jù)挖掘是一種自動化的過程,對大量的數(shù)據(jù)集進(jìn)行排序,確定趨勢和模式,并建立關(guān)系,通過分析數(shù)據(jù)來解決業(yè)務(wù)問題,或者發(fā)現(xiàn)新機(jī)會。
這不僅僅是通過檢查數(shù)據(jù)來看看過去發(fā)生了什么,而是要在當(dāng)下采取明智的行動。數(shù)據(jù)挖掘工具和技術(shù)使您能夠預(yù)測未來會發(fā)生什么,并據(jù)此采取行動,順勢而為。
術(shù)語“數(shù)據(jù)挖掘”在IT行業(yè)應(yīng)用得相當(dāng)廣泛。它經(jīng)常應(yīng)用于各種大規(guī)模數(shù)據(jù)處理活動,例如收集、提取、存儲和分析數(shù)據(jù)等。它還可以包括決策支持應(yīng)用程序和技術(shù),例如人工智能、機(jī)器學(xué)習(xí)和商業(yè)智能。
數(shù)據(jù)挖掘被用于業(yè)務(wù)和研究的很多領(lǐng)域中,包括產(chǎn)品開發(fā)、銷售和市場營銷、遺傳學(xué)和控制論,等等。如果應(yīng)用的合適,數(shù)據(jù)挖掘和預(yù)測分析相結(jié)合能夠讓您比那些不使用這些工具的競爭對手更有優(yōu)勢。
從數(shù)據(jù)挖掘中獲取業(yè)務(wù)價值
數(shù)據(jù)挖掘的真正價值源于能夠挖掘出隱藏在模式和數(shù)據(jù)關(guān)系中的“寶石”,用于做出對企業(yè)產(chǎn)生重大影響的預(yù)測。
例如,如果一家公司確定經(jīng)過某次營銷活動后,某一產(chǎn)品型號在該國某些地區(qū)的銷售要比其他地區(qū)好得多,那么今后就可以重新調(diào)整這類活動以獲得最大回報。
技術(shù)所能帶來的好處取決于業(yè)務(wù)類型及其目標(biāo)。例如,與航空公司和金融服務(wù)行業(yè)相比,零售業(yè)的銷售和營銷經(jīng)理會以不同的方式來挖掘客戶信息,以吸引更多的客戶。
不論是那種行業(yè),過去應(yīng)用于銷售模式和客戶行為的數(shù)據(jù)挖掘可以用來創(chuàng)建預(yù)測未來銷售和行為的模型。
數(shù)據(jù)挖掘還有助于消除可能危害企業(yè)的活動。例如,您可以使用數(shù)據(jù)挖掘來提高產(chǎn)品的安全性,或者檢測保險和金融服務(wù)交易中的欺詐行為。
數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘幾乎可以應(yīng)用到所有行業(yè)的各種應(yīng)用中。
● 零售商可以部署數(shù)據(jù)挖掘,更好地識別出人們會根據(jù)過去的購物習(xí)慣來購買哪些產(chǎn)品,或者在一年中的某些時間段哪些商品會銷售得更好。這可以幫助商家做好庫存計劃和店面布局。
● 銀行和其他金融服務(wù)提供商可以挖掘與客戶賬戶、交易和渠道偏好相關(guān)的數(shù)據(jù),以更好地滿足客戶需求。他們還可以收集來自網(wǎng)站和社交媒體互動的數(shù)據(jù),以幫助提高現(xiàn)有客戶的忠誠度,并吸引新客戶。
● 制造企業(yè)可以使用數(shù)據(jù)挖掘來發(fā)現(xiàn)生產(chǎn)過程中的規(guī)律,精確地識別出存在瓶頸和缺陷的方法,找到提高效率的途徑。他們還可以把數(shù)據(jù)挖掘中的知識應(yīng)用到產(chǎn)品設(shè)計中,并根據(jù)客戶體驗反饋進(jìn)行調(diào)整。
● 教育機(jī)構(gòu)能夠從數(shù)據(jù)挖掘中獲益,例如,分析數(shù)據(jù)集以預(yù)測學(xué)生未來的學(xué)習(xí)行為和表現(xiàn),然后利用這些知識改進(jìn)教學(xué)方法或者課程。
● 衛(wèi)生保健提供商可以挖掘并分析數(shù)據(jù),以確定護(hù)理病人更好的方式,并降低成本。在數(shù)據(jù)挖掘的幫助下,他們可以預(yù)測需要照顧多少病人,以及病人需要什么樣的服務(wù)。在生命科學(xué)中,數(shù)據(jù)挖掘可以用來從大量生物數(shù)據(jù)獲得深度分析結(jié)果,幫助開發(fā)新藥和其他治療方法。
● 在很多行業(yè)中,包括衛(wèi)生保健和零售業(yè),可以使用數(shù)據(jù)挖掘發(fā)現(xiàn)欺詐和其他犯罪行為——能夠比傳統(tǒng)方法更迅速地識別出此類活動。
數(shù)據(jù)挖掘的關(guān)鍵組成
數(shù)據(jù)挖掘過程包括幾個不同的組成,以滿足不同的需求:
● 預(yù)處理。在應(yīng)用數(shù)據(jù)挖掘算法之前,您需要構(gòu)建一個目標(biāo)數(shù)據(jù)集。數(shù)據(jù)的常見來源是數(shù)據(jù)集市或者數(shù)據(jù)倉庫。您需要執(zhí)行預(yù)處理才能分析數(shù)據(jù)集。
● 數(shù)據(jù)清洗和準(zhǔn)備。必須對目標(biāo)數(shù)據(jù)集進(jìn)行清洗和準(zhǔn)備,去掉“噪聲”,處理缺失值,篩選無關(guān)的數(shù)據(jù)點(用于異常檢測),以消除錯誤,或者進(jìn)行進(jìn)一步的研究,創(chuàng)建分段規(guī)則,執(zhí)行與數(shù)據(jù)準(zhǔn)備相關(guān)的其他功能。
● 關(guān)聯(lián)規(guī)則學(xué)習(xí)(也稱為市場購物籃分析)。這些工具搜索數(shù)據(jù)集中變量之間的關(guān)系,例如確定一個商店中哪些產(chǎn)品會被經(jīng)常一起購買。
● 聚類。數(shù)據(jù)挖掘的這一特性被用來發(fā)現(xiàn)數(shù)據(jù)集中在某種程度上相似的群組和結(jié)構(gòu),而不必使用數(shù)據(jù)中已知的結(jié)構(gòu)。
● 分類。執(zhí)行分類的工具將已知的結(jié)構(gòu)歸納應(yīng)用到新的數(shù)據(jù)點,例如電子郵件應(yīng)用程序把消息分類為合法郵件和垃圾郵件。
● 回歸。這種數(shù)據(jù)挖掘技術(shù)用于預(yù)測某一具體數(shù)據(jù)集的數(shù)值范圍,例如銷售額、住房價值、溫度或者價格等。
● 總計。這種技術(shù)提供了一個數(shù)據(jù)集的緊湊表示,包括可視化和報表生成。
數(shù)十家供應(yīng)商提供數(shù)據(jù)挖掘軟件工具,一些提供專有軟件,另一些則通過開源工作交付產(chǎn)品。
提供專有數(shù)據(jù)挖掘軟件和應(yīng)用的主要供應(yīng)商有Angoss、Clarabridge、IBM、微軟、Open Text、Oracle、RapidMiner、SAS研究院和SAP。
提供開源數(shù)據(jù)挖掘軟件和應(yīng)用的企業(yè)有Carrot2、Knime、Massive Online Analysis、ML-Flex、Orange、UIMA和Weka。
數(shù)據(jù)挖掘的風(fēng)險和挑戰(zhàn)
數(shù)據(jù)挖掘也伴隨著風(fēng)險和挑戰(zhàn)。與任何涉及使用敏感或者個人身份信息的技術(shù)一樣,安全和隱私都是最令人關(guān)注的問題。
從根本上講,被挖掘的數(shù)據(jù)應(yīng)完整、準(zhǔn)確和可靠;畢竟,您使用它來做出重大業(yè)務(wù)決策,經(jīng)常與公眾、管理方、投資方和商業(yè)合作伙伴進(jìn)行交流?,F(xiàn)代形式的數(shù)據(jù)也需要新技術(shù),例如將各種分布式計算環(huán)境產(chǎn)生的數(shù)據(jù)集(也稱之為大數(shù)據(jù)集成)與圖像和視頻、時域數(shù)據(jù)和空域數(shù)據(jù)等更復(fù)雜的數(shù)據(jù)集成在一起。
獲取正確的數(shù)據(jù),然后把它們整合在一起,這樣就可以對其進(jìn)行挖掘——IT面臨的挑戰(zhàn)遠(yuǎn)不止這些。云、存儲和網(wǎng)絡(luò)系統(tǒng)需要高性能的數(shù)據(jù)挖掘工具。從數(shù)據(jù)挖掘中得到的信息應(yīng)能夠清晰地呈現(xiàn)給那些希望采取行動并解釋它的廣大用戶。您需要有數(shù)據(jù)科學(xué)和相關(guān)領(lǐng)域技能的人才。
從隱私的角度看,如果挖掘與人們的行為、購買什么、訪問哪些網(wǎng)站等相關(guān)的信息,那么這種想法可能會讓人們擔(dān)心公司收集的信息太多了。這不僅影響您的技術(shù)實現(xiàn),而且還影響您的業(yè)務(wù)策略和風(fēng)險分析。
除了全方位跟蹤個人的倫理問題之外,對于怎樣收集數(shù)據(jù)、確定個人身份以及共享這些信息等也有法律規(guī)定。美國的健康保險流通與責(zé)任法案(HIPAA)和歐盟的通用數(shù)據(jù)保護(hù)條令(GDPR)都是人們所熟知的法規(guī)。
在數(shù)據(jù)挖掘中,最初的準(zhǔn)備活動,例如匯集然后使數(shù)據(jù)合理化等,能夠發(fā)現(xiàn)可能危及數(shù)據(jù)機(jī)密性的信息或者模式。因此,有可能在無意間與倫理問題或者法律要求相沖突。
數(shù)據(jù)挖掘還需要數(shù)據(jù)保護(hù),每一步都是如此,以確保數(shù)據(jù)不會被竊取、更改或者被偷偷地訪問。安全工具包括加密、訪問控制和網(wǎng)絡(luò)安全機(jī)制。
數(shù)據(jù)挖掘是關(guān)鍵的不同之處
盡管存在這些挑戰(zhàn),數(shù)據(jù)挖掘已成為很多企業(yè)IT戰(zhàn)略的關(guān)鍵組成,這些企業(yè)希望能夠從他們收集或者訪問的信息中獲取價值。隨著預(yù)測分析、人工智能、機(jī)器學(xué)習(xí)以及其他相關(guān)技術(shù)的不斷進(jìn)步,這種發(fā)展趨勢無疑會進(jìn)一步加速。
Bob Violino——目前在紐約,是Computerworld、CIO、CSO、InfoWorld和Network World的特約撰稿人。
原文網(wǎng)址:
http://www.infoworld.com/article/3218151/data-mining/what-is-data-mining-how-analytics-uncovers-insights.html