關(guān)于大數(shù)據(jù)預(yù)測性分析,如今可謂大肆宣傳,人人都想在預(yù)測分析市場上分得一杯羹。周末和朋友喝茶聊天,談到了這個話題。預(yù)測的故事一個接著一個,然而一些關(guān)于預(yù)測性分析價值的說法,似乎太過美好且不太真實。
當(dāng)然,這個話題很大,可以談的內(nèi)容很多。我從“預(yù)測性分析”的定義談起。關(guān)于預(yù)測分析的定義有不少種版本,在被廣泛接受的版本中,都圍繞著三個共通的關(guān)鍵點:
1. 從數(shù)據(jù)中提取信息。
2. 預(yù)測潛在趨向或行為模式。
3. 既關(guān)系著未來,也關(guān)系著當(dāng)下和過去。
把上述三個核心特征點融合,我們可以看到預(yù)測性分析就是通過分析全面數(shù)據(jù),包含了歷史數(shù)據(jù)與實時數(shù)據(jù)、人類行為數(shù)據(jù)和機(jī)器數(shù)據(jù)等,預(yù)測潛在的結(jié)果或可能,而非宣布絕對的確定即將、會或已經(jīng)發(fā)生什么。
在大數(shù)據(jù)討論中,有一句經(jīng)典的流行語:大數(shù)據(jù)預(yù)測就好比占卜。
大數(shù)據(jù)預(yù)測精準(zhǔn)度分析
占卜功能來源于《易經(jīng)》,從來就是神秘高深,深不可測。 而我們從《易經(jīng)》中了解到,每個卦,每一爻都包含了“象”,“數(shù)”,“理”三種含義。就好比,我們在晚宴上,舉起紅酒杯,左右搖擺,這就是一個“象”, 而左右搖擺了多少度,多少秒鐘搖擺一次,就有了它的“數(shù)”,為什么要搖擺?所以“理”就出現(xiàn)了。
宇宙間萬事萬物都有它的理,也必有它的象,每個現(xiàn)象必有定數(shù),這是必然的過程。這就是占卜預(yù)測的基礎(chǔ)與科學(xué)。
中國人講“旁觀者清,當(dāng)局者迷”。“當(dāng)局者迷”是因為自己看不清自己,所以我們要把自己的處境懸架起來,當(dāng)作一面鏡子,這就是卦。讓自己成為旁觀者來評判自己的狀態(tài)、自己的處境,這個過程就是算卦,其中對未來的展望就是占卜。
《易經(jīng)》把360度的空間通過八八六十四卦,分成了64種情景。這與大數(shù)據(jù)預(yù)測分析中提出的360度數(shù)字畫像類似??墒?,無論是占卜還是預(yù)測分析,我們并不知道自己現(xiàn)在處在哪一個卦或位,也不明白自己所處的情況,只能憑感覺。從占卜來講,就是通過某一個場景,每一卦的每一爻找到自己的定位。而大數(shù)據(jù)預(yù)測就需要聚焦到具體的行業(yè)應(yīng)用的特定功能,這也是現(xiàn)代預(yù)測的定位要求。
預(yù)測分析的過去與現(xiàn)在
人處在這個世界上,與這個世界的關(guān)系不停地在變化,只要發(fā)生了變化,就包含了它的象、數(shù)、理。
從制造業(yè)預(yù)測分析工具來看,過去正是對高質(zhì)量算法的需求驅(qū)動著預(yù)測性分析市場的發(fā)展。無論是對于庫存優(yōu)化、狀態(tài)和可靠性維修,還是先進(jìn)的基于模型的過程控制和過程優(yōu)化,預(yù)測引擎的質(zhì)量以及對過程或領(lǐng)域動態(tài)的了解,是獲得可靠且可盈利的結(jié)果的關(guān)鍵。這是“過去”式的預(yù)測分析。
“現(xiàn)在”的預(yù)測分析更像沃森技術(shù)。能夠解的問題并沒有框架,而且沃森可以處理缺損數(shù)據(jù),并提供可靠結(jié)果的基于平臺的計算預(yù)測性分析,功能著實強(qiáng)大,正在改變著預(yù)測性分析的局面。多種多樣且結(jié)構(gòu)不定的大數(shù)據(jù)促進(jìn)數(shù)據(jù)庫的制造者比如企業(yè)軟件供應(yīng)商和數(shù)據(jù)庫供應(yīng)商等提供配置功能強(qiáng)大的分析引擎。而強(qiáng)大的分析引擎反過來又使任何人都可以在幾乎任何類型的數(shù)據(jù)基礎(chǔ)上進(jìn)行預(yù)測分析并獲得令人比較滿意的結(jié)果。
預(yù)測分析:準(zhǔn)不準(zhǔn)與信不信
占卜準(zhǔn)不準(zhǔn)?很難講。預(yù)測準(zhǔn)不準(zhǔn),也很難講。一件事讓10個人來做,一定會有很多種不同的結(jié)果。占卜或預(yù)測亦是如此。
對于大多數(shù)企業(yè)而言,預(yù)測性分析主要是在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,理解可能出現(xiàn)的可能性。預(yù)測的準(zhǔn)確性取決于預(yù)測算法的好壞或準(zhǔn)確性以及預(yù)測算法操作時所使用的數(shù)據(jù)的“質(zhì)量”。
隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展,采集數(shù)據(jù)的方式多樣化,數(shù)據(jù)的總量顯著增多。但是,數(shù)據(jù)可能質(zhì)量的確不高。也就是說,數(shù)據(jù)其實并不精確,這也是大數(shù)據(jù)分析中講的要擁抱混亂。如果利用這些不夠精確的數(shù)據(jù),不管預(yù)測算法或模型如何高明,預(yù)測結(jié)果的準(zhǔn)確率都會下降。
另外一種情況就是數(shù)據(jù)基本準(zhǔn)確,但不夠完整。當(dāng)然,我們要采集足夠的樣本又有相當(dāng)?shù)木_度在現(xiàn)實生活中的難度非常高。預(yù)測算法在沒有足夠的完整數(shù)據(jù)樣本前提下做出的預(yù)測,預(yù)測結(jié)果也不會好到哪里去。當(dāng)然,如果算法本身有很多不足,不管數(shù)據(jù)質(zhì)量多高,預(yù)測結(jié)果還是很可能有誤。
未來的預(yù)測性分析
隨著工業(yè)物聯(lián)網(wǎng)(Industrial IoT)的發(fā)展,傳感器、系統(tǒng)、設(shè)備等產(chǎn)生的數(shù)據(jù)正在迅猛增長。過去依賴大量工程及特定領(lǐng)域的預(yù)測性分析解決方案將難以跟上如今不斷擴(kuò)大的數(shù)據(jù)云。云計算的計算與存儲等功能將變得更加強(qiáng)大,擁有自學(xué)習(xí)型預(yù)測性分析解決方案的能力從而適應(yīng)新的且不斷變化的數(shù)據(jù)流,將對過去的預(yù)定義模型發(fā)起顛覆性的挑戰(zhàn)。
然而,即便基于云的自學(xué)型系統(tǒng)提供的預(yù)測質(zhì)量可以與專用解決方案做出的預(yù)測結(jié)果相媲美,但這還不是未來的預(yù)測分析。最終的預(yù)測分析的領(lǐng)導(dǎo)者必須符合下面這三個優(yōu)勢:
能夠適應(yīng)不斷增長的復(fù)雜數(shù)據(jù)流的學(xué)習(xí)型預(yù)測分析解決方案。
可以為特定行業(yè)、特定領(lǐng)域、特定功能的模型提供高質(zhì)量預(yù)測結(jié)果與創(chuàng)新思路。
所有企業(yè)都支付得起的預(yù)測解決方案。
風(fēng)險管控是現(xiàn)代管理學(xué)也是預(yù)測管理學(xué)中的一個重點。其背后的思路與《易經(jīng)》中占卜類似,那就是預(yù)測占卜后,我們可以拿結(jié)果作為參考,從當(dāng)中找到合理的、能夠趨吉避兇、能把損害減到最小的路徑。