■文/時培昕
物聯(lián)網(wǎng)和大數(shù)據(jù),這兩個看似毫無關(guān)聯(lián)的技術(shù),可以通過數(shù)據(jù)(一個產(chǎn)生數(shù)據(jù),一個處理和分析數(shù)據(jù))緊密地聯(lián)系在一起。
物聯(lián)網(wǎng)(IoT)是一個完整的概念,不僅包括遠(yuǎn)端的傳感器數(shù)據(jù)采集、傳輸、存儲和展示,還包括對采集的傳感器歷史數(shù)據(jù)的分析,以及基于分析結(jié)果所產(chǎn)生的決策、反饋和控制動作。相對于傳統(tǒng)的人的認(rèn)知方式,物聯(lián)網(wǎng)相當(dāng)于增強(qiáng)了人的“五官”的識別能力,使人能夠獲取很多原本無法直接獲取的信息。而基于物聯(lián)網(wǎng)的數(shù)據(jù)分析,則相當(dāng)于增強(qiáng)了人的“大腦”的感知能力,讓人能夠擺脫傳統(tǒng)思維的局限性,實現(xiàn)更多維度、更全面、更實時的認(rèn)知和判斷。
通常意義上的大數(shù)據(jù),指的是對批量數(shù)據(jù)的計算。最近10年陸續(xù)發(fā)展出的一系列包括Hadoop、Spark在內(nèi)的新技術(shù),可以高效、實時地處理海量的數(shù)據(jù)(批量數(shù)據(jù)為主)。在此基礎(chǔ)上,將原來的一些處理小數(shù)據(jù)集的數(shù)據(jù)挖掘技術(shù),同大數(shù)據(jù)結(jié)合起來,可以實現(xiàn)對很多業(yè)務(wù)系統(tǒng)數(shù)據(jù)(批量數(shù)據(jù)為主)的分析,例如針對不同標(biāo)簽的群體的分類和畫像,并進(jìn)行精準(zhǔn)營銷。隨著實時性的提高,最近幾年流式計算和分析也被提到了一個更高的層次,用于處理時刻都需要分析和處理的、帶有時間標(biāo)簽的數(shù)據(jù),如物聯(lián)網(wǎng)數(shù)據(jù)或日志數(shù)據(jù)。
由此可見,物聯(lián)網(wǎng)和大數(shù)據(jù)這兩個看似毫無關(guān)聯(lián)的技術(shù),是可以通過數(shù)據(jù)(一個產(chǎn)生數(shù)據(jù),一個處理和分析數(shù)據(jù))緊密地聯(lián)系在一起的。
在進(jìn)一步闡述物聯(lián)網(wǎng)和大數(shù)據(jù)分析的關(guān)系之前,需要弄清楚物聯(lián)網(wǎng)、工業(yè)物聯(lián)網(wǎng)(IIoT)和工業(yè)大數(shù)據(jù)幾個概念。
傳統(tǒng)物聯(lián)網(wǎng)主要針對消費者以及智慧城市等,通過增加眾多分散廣泛的傳感器,采集和傳輸實時數(shù)據(jù),構(gòu)建實時監(jiān)控、展示、告警和歷史數(shù)據(jù)查詢的能力。工業(yè)物聯(lián)網(wǎng),則主要指的是通過采集現(xiàn)有工業(yè)設(shè)備的控制系統(tǒng)數(shù)據(jù)(很少需要增加傳感器),在監(jiān)控告警的基礎(chǔ)上,通過深入的數(shù)據(jù)分析,找到提高設(shè)備可靠性、降低異常風(fēng)險、提高生產(chǎn)和運營效率的途徑。
傳統(tǒng)物聯(lián)網(wǎng)的數(shù)據(jù)分析與互聯(lián)網(wǎng)上的流式數(shù)據(jù)分析區(qū)別不大,通過單一指標(biāo)的處理,產(chǎn)生相應(yīng)的時間窗口內(nèi)的平均、極值等計算量,并進(jìn)行批量計算和展示。
在國外,很多廠商和媒體并沒有工業(yè)大數(shù)據(jù)這個概念,更多是將其合并在工業(yè)物聯(lián)網(wǎng)的范疇,而國內(nèi)則將二者當(dāng)成兩個不同的類別,還將二者連同諸如生產(chǎn)和供應(yīng)鏈系統(tǒng)等,統(tǒng)統(tǒng)融入工業(yè)互聯(lián)網(wǎng)的概念中。因此,我們可以看到包括高德納咨詢公司(Gartner)在內(nèi)的國外分析機(jī)構(gòu),并沒有專門針對工業(yè)大數(shù)據(jù)或工業(yè)互聯(lián)網(wǎng)的分類,而有很細(xì)致的工業(yè)物聯(lián)網(wǎng)的分析。
傳統(tǒng)工業(yè)并不是沒有數(shù)據(jù)處理,只是數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)分析和反饋都分散在不同系統(tǒng)里,從而導(dǎo)致無法處理海量的工業(yè)“大”數(shù)據(jù),也無法保證實時性。在工業(yè)企業(yè)里,很多數(shù)據(jù)分析人員被迫從不同的控制系統(tǒng)中手動導(dǎo)出一些數(shù)據(jù)文件,通過手工的方式進(jìn)行交叉關(guān)聯(lián)和標(biāo)注,并編寫相應(yīng)的Matlab程序?qū)崿F(xiàn)統(tǒng)計分析和建模,然后再提取一些現(xiàn)場數(shù)據(jù)進(jìn)行驗證,條件好的企業(yè)還會請一些外部的合作伙伴將其開發(fā)成應(yīng)用。這種處理和分析的效率非常低,但確實是一種普遍現(xiàn)象。
工業(yè)物聯(lián)網(wǎng)的大數(shù)據(jù)分析
工業(yè)物聯(lián)網(wǎng)的數(shù)據(jù)分析(工業(yè)物聯(lián)網(wǎng)+工業(yè)大數(shù)據(jù)),同傳統(tǒng)的互聯(lián)網(wǎng)大數(shù)據(jù)分析,有很多不一樣的地方。
(1)數(shù)據(jù)量巨大
工業(yè)數(shù)據(jù)的“量”,需要從數(shù)據(jù)維度、采樣頻率、時間跨度等方面來考慮。
傳統(tǒng)的物聯(lián)網(wǎng),由于大多是相對獨立的傳感器,而每個傳感器上數(shù)據(jù)點的數(shù)量往往都是個位數(shù),因此數(shù)據(jù)維度很少。而對工業(yè)物聯(lián)網(wǎng)來說,復(fù)雜的生產(chǎn)都是多個過程相互關(guān)聯(lián),每個過程又是多維度數(shù)據(jù)集成的過程。這里所說的數(shù)據(jù)維度囊括了生產(chǎn)過程中各種設(shè)備特征、外部工況、參數(shù)、材料和工藝配方等相關(guān)因素。這種維度的數(shù)量級往往很大,在很多高端自動化生產(chǎn)(如半導(dǎo)體)的過程中,數(shù)據(jù)維度都達(dá)到了千萬級別,而其中任何一個過程的任何一個變量的變化,都有可能對最終生產(chǎn)的結(jié)果產(chǎn)生蝴蝶效應(yīng)。
傳統(tǒng)物聯(lián)網(wǎng)的數(shù)據(jù)采集間隔通常都是秒級、分鐘級,相對比較固定。而工業(yè)設(shè)備數(shù)據(jù)的采樣頻率的跨度非常大,一個設(shè)備的不同指標(biāo)可以有上千倍的差別。對于設(shè)備故障診斷常用的電流、振動加速度等傳感器指標(biāo),往往需要10 kHz以上的采樣頻率,而一些狀態(tài)變化往往需要幾秒甚至幾十秒才采樣一次。
長期數(shù)據(jù)的保存,對于積累在不同狀態(tài)下的特征判決,非常有幫助。但是,傳統(tǒng)的物聯(lián)網(wǎng)對長期數(shù)據(jù)的保存需求不是很明顯,沒有太多“狀態(tài)性”(stateless)的需求。而工業(yè)物聯(lián)網(wǎng)對基于狀態(tài)(stateful)的數(shù)據(jù)分析,需求非常強(qiáng)烈。首先,在傳統(tǒng)的工業(yè)領(lǐng)域,對于設(shè)備狀態(tài)、控制門限、關(guān)鍵參數(shù)的設(shè)置,往往都是通過廠家或者運營人員的經(jīng)驗值進(jìn)行設(shè)置和調(diào)整,這個值是否正確,是需要經(jīng)過長期的數(shù)據(jù)驗證的。其次,工業(yè)設(shè)備的電流、功率、扭矩等指標(biāo),在不同工作模式、工況條件、故障狀態(tài)下,往往都存在明確的不一樣特征。而這些特征如果能夠被保存下來,通過機(jī)器學(xué)習(xí)來訓(xùn)練特征識別模型,將有助于實現(xiàn)精準(zhǔn)的狀態(tài)判決、異常檢測和故障診斷。此外,通過不斷累積類似相同標(biāo)簽的數(shù)據(jù)樣本,將有助于增強(qiáng)識別的準(zhǔn)確性。特別是一些可靠性很高的關(guān)鍵設(shè)備,因為故障的成本很高,更需要保存異?;蛘吖收系奶卣?,并通過部件之間、子系統(tǒng)之間以及設(shè)備之間特征的組合分析,來進(jìn)一步提高可靠性。
(2)實時性強(qiáng)
通常大家都認(rèn)為工業(yè)數(shù)據(jù)的實時性會很強(qiáng),事實上,這指的是工業(yè)控制的實時性,而不是工業(yè)數(shù)據(jù)分析的實時性。
傳統(tǒng)的工業(yè)數(shù)據(jù)分析,往往是通過在控制系統(tǒng)或者軟件系統(tǒng)中截取一段數(shù)據(jù),保存成文件,通過分析人員編寫一段代碼(如Matlab)和模型,在實驗環(huán)境中進(jìn)行測試和驗證,再開發(fā)相應(yīng)的控制邏輯或者應(yīng)用程序,通過實時接收來評估開發(fā)的模型,在運行的過程中不斷調(diào)整模型的參數(shù)。這個過程是非常痛苦的,不僅因為數(shù)據(jù)的來源和分析是脫節(jié)的,更因為在模型開發(fā)的過程中需要的實時數(shù)據(jù)的驗證是沒有辦法在現(xiàn)有環(huán)境中實現(xiàn)的。
理想的工業(yè)數(shù)據(jù)分析,應(yīng)該是一個高效實時的過程。它可以從實時的工業(yè)數(shù)據(jù)中截取有效的數(shù)據(jù)樣本,基于不同的開發(fā)語言和模型框架,開發(fā)特定的算法和模型,并基于實時采集的數(shù)據(jù)進(jìn)行驗證,然后將驗證的結(jié)果同真實的實時數(shù)據(jù)流結(jié)合起來,實現(xiàn)實時的判決。只有這樣,才能形成針對具體場景的智能分析和控制。
(3)數(shù)據(jù)質(zhì)量差
工業(yè)數(shù)據(jù)質(zhì)量差是工業(yè)數(shù)據(jù)的典型特點。工業(yè)的專業(yè)性特點,導(dǎo)致大型設(shè)備往往是來自多個不同廠家的子系統(tǒng)的大集成。而主機(jī)廠往往并不了解每個子系統(tǒng)的工作原理,并沒有形成一套完整的、跨子系統(tǒng)的控制邏輯和數(shù)據(jù)整合機(jī)制,因此只能從其中挑選一些關(guān)鍵的控制信號,實現(xiàn)既定的控制邏輯,而不會去關(guān)心每一個子系統(tǒng)的工作原理,包括各種有助于實現(xiàn)可靠性、效率乃至質(zhì)量分析的非控制用指標(biāo)。
工業(yè)設(shè)備生產(chǎn)廠家雖然都聲稱能夠達(dá)到各種指標(biāo),但他們往往只能保證關(guān)鍵控制指標(biāo)的完整性,而不能保證子系統(tǒng)關(guān)鍵指標(biāo)的精度和可靠性。由于沒有很好的數(shù)據(jù)整合機(jī)制,主機(jī)廠往往無法識別不同子系統(tǒng)的工作狀態(tài),而給后期針對不同工作狀態(tài)的數(shù)據(jù)分析造成巨大的障礙。此外,來自不同子系統(tǒng)的整合,可能會出現(xiàn)時間標(biāo)簽不統(tǒng)一、數(shù)據(jù)量程不對、數(shù)據(jù)標(biāo)簽錯誤等常見錯誤,甚至在出現(xiàn)問題的時候,主機(jī)廠都無法解釋子系統(tǒng)的指標(biāo)意義。同時,由于現(xiàn)場環(huán)境的惡劣條件,往往會造成傳感器數(shù)據(jù)失效,或者長期處于不準(zhǔn)確狀態(tài)。這些數(shù)據(jù)質(zhì)量問題,都給后期的數(shù)據(jù)分析造成了巨大的障礙,在分析之前需要做大量的清洗和處理工作。
一提到大數(shù)據(jù)分析,很多人會想到通過海量數(shù)據(jù)的聚類、分類、挖掘,實現(xiàn)精準(zhǔn)營銷、用戶畫像。但是,這些互聯(lián)網(wǎng)或業(yè)務(wù)系統(tǒng)的數(shù)據(jù),都有一些顯著的假設(shè)條件,即數(shù)據(jù)量大、數(shù)據(jù)可以清晰地標(biāo)簽化、標(biāo)準(zhǔn)化場景多、分析的準(zhǔn)確性要求不高。通過一系列的分類、挖掘,可以找到不同樣本之間的共同特征,針對有相似屬性的不同個體的訓(xùn)練結(jié)果,來推測具備相同或者相近屬性的個體的特征。但是,對于工業(yè)數(shù)據(jù)分析,這些假設(shè)條件基本都不存在,數(shù)據(jù)分析面臨更多挑戰(zhàn)。
首先是小樣本。工業(yè)的異?,F(xiàn)象往往會非常少,或者在單一設(shè)備上發(fā)生的概率非常低,這就造成無法使用常規(guī)的大數(shù)據(jù)、機(jī)器學(xué)習(xí)的方法,根據(jù)采集的異常數(shù)據(jù)特征,去訓(xùn)練穩(wěn)定的故障模型。
其次是過擬合。根據(jù)大量相關(guān)因素,通過機(jī)器學(xué)習(xí)在特定數(shù)據(jù)集下所訓(xùn)練出來的模型,即使經(jīng)過了大量的測試數(shù)據(jù)的驗證,表現(xiàn)出很完美的擬合特征,但在真實環(huán)境下,由于數(shù)據(jù)和工作狀態(tài)的多變性,往往很難取得長期穩(wěn)定的判決結(jié)果,即出現(xiàn)“過擬合”的情況。
第三是難以準(zhǔn)確清晰地標(biāo)注。工業(yè)數(shù)據(jù)即使出現(xiàn)了一些可以提煉的特征,但這種特征往往跟不同的工況或者工作模式緊密相關(guān)(如振動傳感器振動幅度的高低,在設(shè)備輕載或者重載下完全不一樣)。如果沒有辦法區(qū)分出異常特征的標(biāo)注條件,很難實現(xiàn)有效的數(shù)據(jù)過濾和分析。
第四是場景碎片化。工業(yè)的場景呈碎片化,很難有通用的模型,即使有一些類似電機(jī)、泵的故障模型,以及振動分析、統(tǒng)計過程控制(SPC)這樣的通用分析方法,在不同類型的設(shè)備上,甚至在同一類型的不同個體上,都很難保證統(tǒng)一穩(wěn)定的運行。
這些挑戰(zhàn),都會造成工業(yè)大數(shù)據(jù)分析不可能完全采用互聯(lián)網(wǎng)大數(shù)據(jù)的分析方法,而是需要充分結(jié)合工作機(jī)理,實現(xiàn)復(fù)合型的建模和判決。
我們都知道,互聯(lián)網(wǎng)大數(shù)據(jù)的應(yīng)用場景包括基于用戶畫像的精準(zhǔn)營銷、海量結(jié)構(gòu)化的決策支持等。那么,工業(yè)物聯(lián)網(wǎng)的數(shù)據(jù)分析可以應(yīng)用到哪些場景中呢?
我們認(rèn)為,工業(yè)物聯(lián)網(wǎng)的大數(shù)據(jù)分析,從工業(yè)的三個層次,都可以發(fā)揮出巨大的作用。
工業(yè)企業(yè)可以通過讀取智能工業(yè)產(chǎn)品的傳感器或者控制系統(tǒng)的各種實時參數(shù),構(gòu)建可視化的遠(yuǎn)程監(jiān)控,并基于采集的歷史數(shù)據(jù),構(gòu)建層次化的部件、子系統(tǒng)乃至整個設(shè)備的健康指標(biāo)體系,并使用人工智能實現(xiàn)趨勢預(yù)測?;陬A(yù)測的結(jié)果,工業(yè)企業(yè)可以對維修策略以及備品備件的管理策略進(jìn)行優(yōu)化,降低和避免客戶因非計劃停機(jī)帶來的損失。
例如,寄云科技為某石油機(jī)械制造公司提供了鉆井設(shè)備的預(yù)測性維修和故障輔助診斷系統(tǒng),不僅能夠?qū)崟r采集鉆機(jī)不同關(guān)鍵子系統(tǒng),如發(fā)電機(jī)、泥漿泵、絞車、頂驅(qū)的各種關(guān)鍵指標(biāo)數(shù)據(jù),更能夠根據(jù)歷史數(shù)據(jù)的發(fā)展趨勢,對關(guān)鍵部件的性能進(jìn)行評估,并根據(jù)部件性能預(yù)測的結(jié)果,調(diào)整和優(yōu)化維修的策略。該系統(tǒng)還能夠根據(jù)鉆機(jī)的實時狀態(tài)的分析,對鉆井的效率進(jìn)行評估和優(yōu)化,有效地提高鉆井的投入產(chǎn)出比。
工業(yè)企業(yè)可以將生產(chǎn)階段的各種要素,如原材料、設(shè)備、工藝配方和工序要求,通過數(shù)字化的手段集成在一個緊密協(xié)作的生產(chǎn)過程中,并根據(jù)既定的規(guī)則,自動完成在不同條件組合下的操作,實現(xiàn)自動化的生產(chǎn)過程;同時,記錄生產(chǎn)過程中的各類數(shù)據(jù),為后續(xù)的分析和優(yōu)化提供依據(jù)。通過采集生產(chǎn)線上的各種生產(chǎn)設(shè)備的實時運行數(shù)據(jù),實現(xiàn)全部生產(chǎn)過程的可視化監(jiān)控,并且通過經(jīng)驗或者機(jī)器學(xué)習(xí)建立關(guān)鍵設(shè)備參數(shù)、檢驗指標(biāo)的監(jiān)控策略,對出現(xiàn)違背策略的異常情況進(jìn)行及時處理和調(diào)整,實現(xiàn)穩(wěn)定并不斷優(yōu)化的生產(chǎn)過程。
例如,寄云科技為某電子玻璃產(chǎn)線構(gòu)建的在線質(zhì)量監(jiān)控體系,充分采集了冷端和熱端的設(shè)備產(chǎn)生的數(shù)據(jù),并通過機(jī)器學(xué)習(xí)獲得流程生產(chǎn)過程中關(guān)鍵指標(biāo)的最佳規(guī)格,設(shè)定相應(yīng)的監(jiān)控告警策略,在幾萬個數(shù)據(jù)采集點中實現(xiàn)對特定的質(zhì)量異?,F(xiàn)象的診斷分析。
工業(yè)企業(yè)可以通過將過程層產(chǎn)生的各種運營技術(shù)(OT)數(shù)據(jù),同業(yè)務(wù)系統(tǒng)產(chǎn)生或者填報的各類信息技術(shù)(IT)數(shù)據(jù)相結(jié)合,構(gòu)建統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),并在其基礎(chǔ)上,通過一定的計算和分析,就能夠產(chǎn)生準(zhǔn)確的經(jīng)營層面的分析,對企業(yè)的安全生產(chǎn)、經(jīng)營效率、決策支持都提供支撐,逐步延展至企業(yè)外部環(huán)境,提供開放的數(shù)據(jù)生態(tài),進(jìn)而形成更強(qiáng)的競爭力。
例如,寄云科技為某省級能源集團(tuán)提供了安全生產(chǎn)智慧管控的解決方案,從數(shù)十個不同類型的實時數(shù)據(jù)庫提取生產(chǎn)的實時數(shù)據(jù),結(jié)合從第三方業(yè)務(wù)系統(tǒng)抽取的業(yè)務(wù)數(shù)據(jù),構(gòu)建多維度的統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),并基于IT和OT融合的數(shù)據(jù)標(biāo)準(zhǔn),開發(fā)包括生產(chǎn)運行監(jiān)控、安全管理、環(huán)保管理、質(zhì)量管理、能源管理、經(jīng)營分析等在內(nèi)的一系列的工業(yè)應(yīng)用。
工業(yè)IT/OT數(shù)據(jù)融合平臺架構(gòu)示意圖
一個高效運行的工業(yè)企業(yè),按照我們的理解,必須將OT和IT的數(shù)據(jù)整合到一個大的平臺上,并制定嚴(yán)格的數(shù)據(jù)標(biāo)準(zhǔn)(資產(chǎn)、過程、流程、組織的標(biāo)準(zhǔn)),通過不同的專業(yè)數(shù)據(jù)分析,持續(xù)開發(fā)不同的新形態(tài)的應(yīng)用(如上圖所示),才能滿足企業(yè)全方位、精準(zhǔn)、高效運營的需求。
總之,對物聯(lián)網(wǎng)而言,無論是通用的物聯(lián)網(wǎng)還是工業(yè)物聯(lián)網(wǎng),如果沒有結(jié)合專業(yè)的精細(xì)化的數(shù)據(jù)分析,是支撐不了企業(yè)未來的發(fā)展戰(zhàn)略的。選擇合適的工業(yè)物聯(lián)網(wǎng)平臺,將極大地加快企業(yè)的數(shù)字化進(jìn)程,朝著智能化的道路快速推進(jìn)。