国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式聚類(lèi)的制造業(yè)大數(shù)據(jù)監(jiān)測(cè)與分析算法

2022-01-06 12:33:00張路
電子設(shè)計(jì)工程 2021年24期
關(guān)鍵詞:計(jì)算成本復(fù)雜度站點(diǎn)

張路

(臺(tái)州職業(yè)技術(shù)學(xué)院經(jīng)貿(mào)學(xué)院,浙江臺(tái)州 318000)

隨著我國(guó)制造業(yè)發(fā)展的不斷創(chuàng)新,智能制造的應(yīng)用逐漸普及。國(guó)家綜合實(shí)力的重要提升手段,即是本國(guó)制造業(yè)的迅速發(fā)展。制造業(yè)大數(shù)據(jù)作為生產(chǎn)過(guò)程的重要要素,能在較大程度上推動(dòng)制造業(yè)的升級(jí)轉(zhuǎn)型[1]。

大數(shù)據(jù)分析是評(píng)估各種數(shù)據(jù)集以發(fā)現(xiàn)模式、相關(guān)性、市場(chǎng)趨勢(shì)和其他有用信息的技術(shù)手段,可以幫助相關(guān)部門(mén)作出更明智的決策[2]。大數(shù)據(jù)算法需要與實(shí)際數(shù)據(jù)共同發(fā)揮作用,此外,在智能車(chē)間使用智能制造對(duì)象的RFID 數(shù)據(jù)的相關(guān)研究也較少。為了彌補(bǔ)這些不足,該文針對(duì)制造業(yè)RFID 大數(shù)據(jù)使用分布式聚類(lèi)算法建立了監(jiān)測(cè)與分析的算法架構(gòu)。

1 大數(shù)據(jù)監(jiān)測(cè)分析算法架構(gòu)

RFID 數(shù)據(jù)來(lái)自具有物聯(lián)網(wǎng)功能的制造車(chē)間。當(dāng)操作人員使用閱讀器對(duì)標(biāo)簽進(jìn)行檢測(cè)或?qū)FID閱讀器進(jìn)行操作時(shí),系統(tǒng)將記錄一條RFID 數(shù)據(jù)。其數(shù)據(jù)集定義如表1 所示[3]。

表1 RFID數(shù)據(jù)集定義

數(shù)據(jù)記錄員通過(guò)操作這些數(shù)據(jù)集可以計(jì)算出以下主要變量:一種是在一段時(shí)間內(nèi)跟蹤特定的BatchMainID,然后對(duì)比批處理所需的時(shí)間。一種是UserID 和ProcCode,用于觀察操作員在車(chē)間的操作效率,最后,通過(guò)跟蹤每個(gè)BatchMainID 以獲得完成制造批次所需的操作員數(shù)量,對(duì)于制造業(yè)數(shù)據(jù)分析也有較為重要的意義。

此次所提出算法方案的工作流程如圖1 所示。該體系結(jié)構(gòu)涉及4 個(gè)主要過(guò)程:數(shù)據(jù)預(yù)處理[4]、分類(lèi)、模式識(shí)別和可視化[5]。從制造車(chē)間的大量RFID 數(shù)據(jù)生成有關(guān)制造工廠生產(chǎn)效率的信息可視化視圖,這些相互獨(dú)立的數(shù)據(jù)集群為預(yù)測(cè)提供線性或非線性回歸數(shù)據(jù)。

圖1 算法流程

1.1 數(shù)據(jù)預(yù)處理

原始RFID 數(shù)據(jù)沒(méi)有TimeFloat 數(shù)據(jù)代碼,因此在將數(shù)據(jù)導(dǎo)入TensorFlow 程序時(shí),需要將其修改為正確的格式。原始RFID 數(shù)據(jù)時(shí)間按照連續(xù)的日、月和年格式(DD/ MM/ YYYY)排列,該算法只支持使用數(shù)字類(lèi)型(例如整數(shù)或浮點(diǎn)數(shù)),因此程序無(wú)法直接使用該數(shù)值。此外,為了方便計(jì)算,閏年的影響忽略不計(jì)[6]。

此次實(shí)驗(yàn)用的RFID 數(shù)據(jù)集總共包含413 472 個(gè)數(shù)據(jù)??紤]到BatchMainID 的完成時(shí)間,需要對(duì)制造業(yè)數(shù)據(jù)的時(shí)間信息重點(diǎn)分析。因此為了提高處理速度,所有沒(méi)有時(shí)間條目的數(shù)據(jù)均被刪除[7]。經(jīng)過(guò)初步篩選的數(shù)據(jù)為376 746 個(gè)條目,但這些條目是從制造車(chē)間的高集成度傳感器中收集的,且信息量不足。通過(guò)對(duì)數(shù)據(jù)采用線性回歸和質(zhì)心比較法[8],進(jìn)一步篩選有用數(shù)據(jù)至176 746 個(gè)。

1.2 批次識(shí)別算法實(shí)現(xiàn)

此次通過(guò)使用BatchMainID 與時(shí)間之間的關(guān)系進(jìn)行數(shù)據(jù)分析,以產(chǎn)生具有統(tǒng)計(jì)意義的相關(guān)數(shù)據(jù),實(shí)現(xiàn)對(duì)制造數(shù)據(jù)批次的識(shí)別[9]。

圖2 顯示了匹配的BatchMainID 進(jìn)程與時(shí)間的所有176 746 個(gè)樣本的繪圖。樣本數(shù)據(jù)較集中,因此難以識(shí)別隱藏的模式或趨勢(shì)。另外,整體數(shù)據(jù)的計(jì)算成本較高。因此可以得出結(jié)論:數(shù)據(jù)集聚類(lèi)分析是算法設(shè)計(jì)的重難點(diǎn)問(wèn)題[10]。

圖2 BatchMainID與時(shí)間關(guān)系圖

此次通過(guò)跟蹤各個(gè)BatchMainID 以獲取開(kāi)始時(shí)間和結(jié)束時(shí)間,并計(jì)算完成批處理的進(jìn)程數(shù)量[11]。文中使用的分布式機(jī)器學(xué)習(xí)聚類(lèi)方法是有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)過(guò)程的集成,首先使用K-means 聚類(lèi)(一種無(wú)監(jiān)督的學(xué)習(xí)方法)將數(shù)據(jù)分組為多個(gè)聚類(lèi)[12]。然后使用梯度下降優(yōu)化算法(一種有監(jiān)督的學(xué)習(xí)方法)來(lái)計(jì)算預(yù)測(cè)值,并減少成本與目標(biāo)函數(shù)的損失[13]。

2 分布式聚類(lèi)算法設(shè)計(jì)

K 均值聚類(lèi)算法核心為分布式思想,該過(guò)程從數(shù)據(jù)集和一組隨機(jī)聚類(lèi)中心開(kāi)始。在每個(gè)迭代過(guò)程中,將每個(gè)元素分配給其最接近的集群[14],這樣的設(shè)計(jì)能夠在基于單個(gè)處理器的傳統(tǒng)計(jì)算機(jī)上良好地運(yùn)行。傳統(tǒng)的集中式K 均值算法在使用計(jì)算機(jī)求取聚類(lèi)結(jié)果時(shí),要用到所有需要聚類(lèi)的數(shù)據(jù)[15]。在數(shù)據(jù)量較大的應(yīng)用場(chǎng)景下,集中式聚類(lèi)服務(wù)器難以達(dá)到效能要求,因此提出了分布式的聚類(lèi)算法。分布式聚類(lèi)服務(wù)器通過(guò)Internet 網(wǎng)絡(luò)連接實(shí)現(xiàn)通信,各個(gè)站點(diǎn)僅計(jì)算部分信息。分析數(shù)據(jù)根據(jù)就近原則存儲(chǔ)在網(wǎng)絡(luò)的不同站點(diǎn)上,聚類(lèi)結(jié)果通過(guò)網(wǎng)絡(luò)通信協(xié)議相互影響[16]。分布式K 均值聚類(lèi)算法的關(guān)鍵問(wèn)題是協(xié)調(diào)各個(gè)站點(diǎn)之間的數(shù)據(jù)計(jì)算,即全局中心計(jì)算問(wèn)題,這與集中式K 均值數(shù)據(jù)分析方法有本質(zhì)的區(qū)別。該文提出了一種針對(duì)解決全局中心計(jì)算問(wèn)題的算法,以實(shí)現(xiàn)大數(shù)據(jù)下分布式K 均值中心算法的設(shè)計(jì)。下面將詳細(xì)描述改進(jìn)的分布式聚類(lèi)算法的實(shí)現(xiàn)過(guò)程:

每個(gè)處理器Si根據(jù)站點(diǎn)的制造業(yè)數(shù)據(jù),初始化一組任意的聚類(lèi)中心向量Mi={mk|k=1,2,…,K}。每個(gè)站點(diǎn)相互獨(dú)立地計(jì)算數(shù)據(jù)中心點(diǎn),在設(shè)計(jì)的分布式算法的每次迭代步驟中,本地站點(diǎn)Si將計(jì)算得出的聚類(lèi)中心通過(guò)UDP 通信協(xié)議廣播到通信網(wǎng)絡(luò)中。在本地站點(diǎn)上聚類(lèi)后,所有聚集的本地?cái)?shù)據(jù)和估計(jì)的中心點(diǎn)矢量均將作用于;而新的中心點(diǎn)矢量將被計(jì)算并記錄為。在每次迭代產(chǎn)生新聚類(lèi)中心的過(guò)程中,為了避免站點(diǎn)聚類(lèi)結(jié)果出現(xiàn)空集,迭代過(guò)程中的估計(jì)中心點(diǎn)被添加至聚類(lèi)數(shù)據(jù)中。

中心計(jì)算是設(shè)計(jì)的分布式聚類(lèi)分析算法的最重要特征。為闡述集中式與分布式聚類(lèi)算法的核心區(qū)別,可用式(1)與式(2)說(shuō)明,集中式K 均值可表達(dá)為:

分布式K 均值可表達(dá)為:

每次迭代產(chǎn)生的新中心向量以廣播方式存儲(chǔ)在所有站點(diǎn)上。每個(gè)站點(diǎn)Si根據(jù)本地?cái)?shù)據(jù)計(jì)算所得的聚類(lèi)中心值和從其他站點(diǎn)收到的聚類(lèi)中心值,根據(jù)加權(quán)平均法得出新的中心值,并替換。分析可知,聚類(lèi)服務(wù)器除去在迭代第一步可能出現(xiàn)空集的情況外,所有站點(diǎn)在所有的迭代步驟中均可確定唯一的聚類(lèi)中心。通過(guò)上述步驟,即可實(shí)現(xiàn)聚類(lèi)中心向量范數(shù)穩(wěn)定,直至聚類(lèi)結(jié)束。

由于數(shù)據(jù)規(guī)模與通信的要求,分布式數(shù)據(jù)監(jiān)測(cè)與分析對(duì)于計(jì)算機(jī)性能有較大的考驗(yàn)。為了檢測(cè)算法對(duì)于計(jì)算機(jī)資源的要求,對(duì)分布式K 均值算法的復(fù)雜度進(jìn)行分析。對(duì)于任何并行和分布式聚類(lèi)算法,復(fù)雜度均有兩個(gè)方面,即時(shí)間復(fù)雜度Ttime和通信復(fù)雜度Tcomm。在通信過(guò)程中,數(shù)據(jù)、中心向量等相關(guān)信息需要從一個(gè)站點(diǎn)傳輸?shù)搅硪粋€(gè)站點(diǎn)。首先分析一個(gè)迭代步驟中分布式聚類(lèi)算法的復(fù)雜度,處理站完成一項(xiàng)聚類(lèi)后,實(shí)際通信時(shí)間定義為T(mén)data;服務(wù)站與通信網(wǎng)絡(luò)建立通信連接所需的時(shí)間定義為T(mén)start。由于數(shù)據(jù)傳輸是并行執(zhí)行的,因此僅傳輸一個(gè)數(shù)據(jù),每一步的復(fù)雜度為:

計(jì)算距離的復(fù)雜度為:

Tdist是處理站計(jì)算處理單個(gè)制造業(yè)數(shù)據(jù)的時(shí)間;設(shè)計(jì)的分布式分析算法復(fù)雜度可由式(5)得出:

式中,T為網(wǎng)絡(luò)中聚類(lèi)算法的迭代次數(shù)。

忽略處理器間的連接時(shí)間,算法復(fù)雜度可用以下形式表示:

從上式可以看出,時(shí)間復(fù)雜度不僅包含TKTdist,且包含本地站所有數(shù)據(jù)矢量的計(jì)算、本地站點(diǎn)元素?cái)?shù)量分配、所有本地站點(diǎn)的歐幾里德最小二乘誤差計(jì)算以及通信復(fù)雜性。算法復(fù)雜度僅呈線性增長(zhǎng),可用于大范圍部署。

3 實(shí)驗(yàn)驗(yàn)證

為驗(yàn)證該系統(tǒng)的有效性,使用基于RFID 的制造業(yè)大數(shù)據(jù)進(jìn)行算法驗(yàn)證。

預(yù)測(cè)算法的結(jié)果如表2 所示。輸入是一維數(shù)組,該數(shù)組描述了進(jìn)程數(shù);輸出為這些進(jìn)程與集中處理器的分配方式。預(yù)測(cè)百分比表示了分配的準(zhǔn)確率,可以看出該方法比計(jì)算預(yù)測(cè)更可靠。

表2 預(yù)測(cè)結(jié)果

通過(guò)5 次獨(dú)立進(jìn)行的實(shí)驗(yàn)操作,取每個(gè)樣品的平均數(shù)作為計(jì)算成本來(lái)驗(yàn)證實(shí)驗(yàn)結(jié)果,如圖3 所示。

圖3 計(jì)算成本實(shí)驗(yàn)

可以看出,隨著樣本數(shù)量的增加,計(jì)算時(shí)間成本也在增加。由于該算法進(jìn)行數(shù)據(jù)預(yù)處理、可視化和優(yōu)化需要花費(fèi)時(shí)間,因此實(shí)驗(yàn)結(jié)果是合理的。為排除大數(shù)據(jù)中的錯(cuò)誤并對(duì)不確定性數(shù)據(jù)進(jìn)行處理,計(jì)算成本實(shí)驗(yàn)使用了高達(dá)10 000 個(gè)樣本。由于算法內(nèi)產(chǎn)生的是隨機(jī)數(shù)(例如權(quán)重、常數(shù)和預(yù)測(cè)輸入值),即使樣本數(shù)相同,每次運(yùn)行的計(jì)算成本也不同。但從圖3 可以看出,綜合統(tǒng)計(jì)成本下,計(jì)算成本與樣本數(shù)呈線性關(guān)系,并未由于數(shù)據(jù)量的增長(zhǎng)而造成成本的顯著上升。

實(shí)驗(yàn)使用的處理服務(wù)器為2.50 GHz 的Intel?Core?i7-6500U CPU。測(cè)試可知,若該算法在NVIDIA GPU 支持下進(jìn)行數(shù)據(jù)分析,則可降低計(jì)算成本,因?yàn)門(mén)ensorFlow 程序在GPU 上的速度明顯快于CPU 處理速度。

為了測(cè)試該算法的多平臺(tái)運(yùn)算能力,在CPU(Intel i7-6700)的計(jì)算平臺(tái)上,采用3 種具有不同功率水平的GPU 和基于DSP 的處理器(Intel Movidius)進(jìn)行了聚類(lèi)算法測(cè)試,實(shí)驗(yàn)結(jié)果如圖4 所示。使用的GPU 是NVIDIA Jetson TX2 的Max-Q 與Max-P,分別標(biāo)記為GPU#1和GPU#2,GPU#3為NVIDIA Tesla V100。顯然,GPU#3 在處理速度上優(yōu)過(guò)其他類(lèi)型的處理器,而其相應(yīng)的最大功耗明顯大于其他處理器。

圖4 跨平臺(tái)測(cè)試實(shí)驗(yàn)

在驗(yàn)證算法分析準(zhǔn)確率與成本的基礎(chǔ)上,通過(guò)引入不同類(lèi)型的樣本數(shù)據(jù)以進(jìn)一步評(píng)估算法的表現(xiàn)。由于計(jì)算量大,僅將前10 000個(gè)樣本生成的模型與最終選擇的樣本進(jìn)行比較。根據(jù)經(jīng)驗(yàn)可知,分析超過(guò)10 000 個(gè)數(shù)據(jù)大小會(huì)產(chǎn)生較高的計(jì)算成本。同樣,繪制的數(shù)據(jù)越多,可見(jiàn)性的質(zhì)量就越差。

圖5 為10 000 個(gè)樣本的分類(lèi)散點(diǎn)圖,其描述了最近10 000 個(gè)樣本的聚類(lèi)結(jié)果。分析圖5 可以看出,該算法對(duì)于生產(chǎn)數(shù)據(jù)可以精確地分為不同的類(lèi)型,準(zhǔn)確率可達(dá)98.9%以上,算法對(duì)預(yù)處理的制造業(yè)大數(shù)據(jù)聚類(lèi)時(shí)間僅為13.2 s,具有較好的實(shí)時(shí)性。

圖5 樣本分類(lèi)散點(diǎn)圖

4 結(jié)論

該文設(shè)計(jì)了一種大數(shù)據(jù)分析方法,用于檢測(cè)與分析來(lái)自制造業(yè)的大量RFID 數(shù)據(jù)。該方法包括了數(shù)據(jù)的處理和可視化,并對(duì)其進(jìn)行了綜合驗(yàn)證和評(píng)估,得到結(jié)論如下:1)可以直接對(duì)從制造現(xiàn)場(chǎng)獲取的大數(shù)據(jù)進(jìn)行分析,以作出預(yù)測(cè)并提高效率;2)提出了梯度下降和聚類(lèi)方法的組合。當(dāng)使用大量樣本對(duì)算法進(jìn)行測(cè)試時(shí),將損失降至合理的水平。

今后的工作重點(diǎn)將放在如何在移動(dòng)終端中實(shí)現(xiàn)分析的可視化,以便于用戶訪問(wèn)。此外,算法商業(yè)化則需要考慮軟件設(shè)計(jì)原理,以提高所提出方法的可讀性、可擴(kuò)展性、有效性和數(shù)據(jù)處理效率。

猜你喜歡
計(jì)算成本復(fù)雜度站點(diǎn)
王瑛的詩(shī)(三首)
春與人間相遇
中外文摘(2021年13期)2021-08-06 09:30:04
基于Web站點(diǎn)的SQL注入分析與防范
電子制作(2019年14期)2019-08-20 05:43:42
一種低復(fù)雜度的慣性/GNSS矢量深組合方法
2017~2018年冬季西北地區(qū)某站點(diǎn)流感流行特征分析
求圖上廣探樹(shù)的時(shí)間復(fù)雜度
首屆歐洲自行車(chē)共享站點(diǎn)協(xié)商會(huì)召開(kāi)
怕被人認(rèn)出
某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
圖解各個(gè)行業(yè)的成本真相
記者觀察(2015年3期)2015-04-29 00:44:03
綦江县| 弥渡县| 罗山县| 墨玉县| 含山县| 武宣县| 合山市| 闽清县| 福清市| 农安县| 灌阳县| 宁蒗| 永顺县| 桂东县| 福州市| 兰州市| 游戏| 望城县| 都兰县| 仁寿县| 永登县| 南皮县| 永康市| 鹤壁市| 富顺县| 瓮安县| 额济纳旗| 金寨县| 海安县| 正蓝旗| 昌宁县| 美姑县| 五指山市| 饶平县| 曲阜市| 剑阁县| 射阳县| 监利县| 奇台县| 赤峰市| 土默特左旗|