国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合神經(jīng)網(wǎng)絡(luò)的時序不平衡分類研究

2022-10-26 13:37:00毛玉明楊留方曹偉嘉謝宗效
關(guān)鍵詞:時序卷積分類

毛玉明,楊留方,曹偉嘉,謝宗效

(云南民族大學(xué) 電氣信息工程學(xué)院,云南 昆明 650500)

對于傳統(tǒng)分類任務(wù),屬性的值是獨立于屬性的發(fā)生順序的,而對于時間序列,正是屬性的發(fā)生順序使得樣本具有獨特性,其難點就是怎樣挖掘出數(shù)據(jù)樣本前后所隱藏的特殊邏輯關(guān)系,這些邏輯關(guān)系包括數(shù)據(jù)點的先后,局部子序列的特征,數(shù)據(jù)維度高以及噪聲節(jié)點等.目前,針對時間序列分類有以下幾種分類方式.①采用計量距離的全序列的分類方法,如DTW[1]、WDTW[2]、TWE[3](time warp edit)等算法,這類方法是計算整個時間序列間的相似度來判斷所屬類別的.②基于區(qū)間的分類方法,其中具有代表的算法是TSF[4](time series forest)和TSBF[5](time series bag of forest),其都采用了隨機森林的思想,并通過隨機采樣來減少選取的復(fù)雜度.③采用shapelets分類方法,代表算法有將shapelets發(fā)現(xiàn)過程融入二叉決策樹的Shapelets發(fā)現(xiàn)算法[6-8](shapelet discovery algorithms),將shapelets的提取與分類的構(gòu)建相分離的Shapelets變換算法[9](shapelet transform algorithms).④深度學(xué)習(xí)的方法,近幾年深度學(xué)習(xí)、機器學(xué)習(xí)的快速發(fā)展,也逐漸被用來解決時間序列分類問題,文獻[10-14]展示了深度學(xué)習(xí)方法對于時間序列分類的可行性,但在實際應(yīng)用中也受到了一定限制,因為其需要大量的數(shù)據(jù)和復(fù)雜的計算量.

現(xiàn)實生活中大多數(shù)分類問題都屬于不平衡分類的范疇,不平衡問題的研究來源于生活中現(xiàn)實問題的稀有事件,其難以發(fā)現(xiàn)但往往問題發(fā)生后又會產(chǎn)生嚴(yán)重的后果.如疾病診斷[15],詐騙檢測[16],異常識別[17],自然災(zāi)害[18],癌癥基因表達[19]等.解決不平衡問題有兩個方向,一個是進行重采樣,代表的有SMOTE(synthetic minority over-sampling technique)[20]算法.另一個是集成學(xué)習(xí),boosting是其具有代表性的串行迭代方法.其中重采樣只是單純解決的數(shù)據(jù)不平衡的問題,忽略了數(shù)據(jù)空間時間關(guān)系,結(jié)果往往不理想.集成學(xué)習(xí)是將多個分類器集成在一起,每個分類器都對數(shù)據(jù)樣本分類,用一定的規(guī)則來提高分類的精確性.

時間序列分類和不平衡數(shù)據(jù)常常會出現(xiàn)在同一個問題中,但將二者結(jié)合起來的研究成果還較少.隨著深度學(xué)習(xí)的快速發(fā)展,出現(xiàn)了一批用深度學(xué)習(xí)來解決時序不平衡分類的方法,如論文[21]提出了一種自適應(yīng)代價敏感卷積神經(jīng)網(wǎng)絡(luò)來解決時序不平衡,文中采用代價敏感網(wǎng)絡(luò)(CS-CNN),用類相關(guān)矩陣對錯分類樣本進行懲罰.論文[22]提出一種基于對抗網(wǎng)絡(luò)的異常序列檢測方法,訓(xùn)練了一個編碼器-解碼器-編碼器三子網(wǎng)發(fā)生器,該發(fā)生器只會從正常樣本中提取特征,忽略了樣本不均衡的問題. 因而,文中采用LSTM全卷積網(wǎng)絡(luò)結(jié)合混合采樣算法(SKLF算法)來對時序不平衡問題進行處理,此方法兼顧了時間序列和類不平衡的問題.

1 SKLF模型

1.1 SKLF混合模型

SKLF(SMOTE and K-means LSTM-FCN(并行))模型由混合采樣和LSTM全卷積網(wǎng)絡(luò)構(gòu)成,模型訓(xùn)練流程框圖如圖1所示.混合采樣由K-means和SMOTE組成,分別對多樣本類進行欠采樣和少樣本類進行插值處理.

圖1 SKLF模型訓(xùn)練流程框圖

全卷積塊由濾波器個數(shù)分別為128、256、128的3個堆疊時間卷積塊組成.每個卷積塊與王等[23]提出的CNN體系結(jié)構(gòu)中的卷積塊相同.每個塊由一個時間卷積層組成,它伴隨著批量歸一化[24],隨后是ReLU激活函數(shù).最后,應(yīng)用全局池化可以減少過擬合.

1.1.1 SKLF參數(shù)設(shè)置

SKLF網(wǎng)絡(luò)中的超參數(shù)會對模型的訓(xùn)練和泛化能力有較大的影響.因此對超參數(shù)的設(shè)置比較重要,常見的參數(shù)設(shè)置方法一般有試驗法、網(wǎng)格搜索法、遺傳算法[25]等.基于一些通用的設(shè)計準(zhǔn)則[26-28]利用試驗法找到最佳參數(shù)并使 SKLF 網(wǎng)絡(luò)穩(wěn)定,具體參數(shù)設(shè)置如表1.其中,Nfilters表示卷積層濾波器的個數(shù),Cs表示卷積核的尺寸,a表示激活函數(shù),Nunits表示神經(jīng)元數(shù)量.采用 Adam 優(yōu)化算法,訓(xùn)練階段損失函數(shù)采用mse,準(zhǔn)確率使用binary_accuracy函數(shù),一共訓(xùn)練20輪,每批次訓(xùn)練32個樣本.

表1 SKLF網(wǎng)絡(luò)參數(shù)設(shè)置

1.1.2 SKLF模型評價方法

在二分類問題中常用混淆矩陣來對模型進行評估,將真實類別與預(yù)測的類別劃分成真正例(TP),假正例(FP),真反例(TN),假反例(FN)這4種情況,分類指標(biāo)定義如下:

F-measure值(F):是精確率和召回率的調(diào)和均值.

(1)

G-mean值(G):同時考慮了正例和反例的準(zhǔn)確率.

(2)

AUC值:表示ROC曲線下的面積大小,值越大,代表分類器性能越好.

(3)

其中,ranki表示第i個樣本的序號(按從小到大排列),M和N分別表示正負樣本的個數(shù).

統(tǒng)計假設(shè)檢驗可以對幾個分類器性能的優(yōu)劣提出一個判斷依據(jù),因此在對比實驗是可以采用假設(shè)檢驗來判斷分類器模型的優(yōu)劣,文中采用wilcoxon秩和檢驗,其相關(guān)原理如下:

記假設(shè)檢驗:

H0:算法A和算法B相近,沒有統(tǒng)計意義上的顯著差異

H1:算法A和算法B相近,有統(tǒng)計意義上的顯著差異.

根據(jù)上述R的觀察值r1,在給定的顯著水平α下(α為0.05),H的拒絕域為:

r1≤C-U(α).

(4)

式中,臨界點C_U(α)滿足P{R_1≤C_U(α)≤α}的最大整數(shù),只要知道R的分布,式子C_U(α)的臨界點便可以求出,這里采用仿真法來獲得R的分布,用python中的scipy包的stats.mannwhitneye()來計算秩和檢驗.通過對界值α比較來判斷是否拒絕原假設(shè)H0

1.2 不平衡數(shù)據(jù)處理——混合采樣

1.2.1SMOTE算法

SMOTE算法[20]是一種基于線性直插的方法,合成的主要方式是選取某個少數(shù)類樣本和這個少數(shù)樣本鄰近樣本的差值,并將差值與(0,1)間的某個隨機數(shù)相乘,將所得結(jié)果累積在先前選定的樣本上,此過程將少數(shù)類樣本與其鄰近連線的某點作為生成樣本,可以有效的解決因簡單復(fù)制少數(shù)類帶來的過擬合問題.

SMOTE的基本原理為:取出訓(xùn)練樣本S中少數(shù)類樣本元素xi,先計算這個少類樣本的同類k-鄰近集pi,一般SMOTE算法中k的取值不超過10.然后,從pi中隨機選擇一個樣本,設(shè)為xa,則少數(shù)類樣本xi與同類樣本k-鄰近集合pi中的對應(yīng)屬性q上的差值記為diff(q)=xaq-xiq.最后,新合成的少數(shù)類樣本fiq的數(shù)學(xué)表達式如下所示.

fiq=xi+(xaq-xiq)×rand(0,1).

(5)

式子中,rand(0,1)表示區(qū)域(0,1)中的隨機數(shù).

1.2.2 基于K-means的欠采樣

時間序列是有順序的一串單維或多維的數(shù)據(jù),因此在處理時序不平衡數(shù)據(jù)時,不能簡單的進行隨機采樣,要使用能保持其邏輯順序的采樣方式.因此采取基于聚類的不等比例欠采樣的方法.首先采用K-means算法將多類數(shù)據(jù)聚合成K個類,這個K是一個超參數(shù),可以用肘部法則(SSE)尋找一個最優(yōu)的K值.然后根據(jù)這K個類中數(shù)據(jù)量的大小進行不等比例欠采樣,這樣既可以保留這些數(shù)據(jù)潛在的前后邏輯關(guān)系,又可以不破壞數(shù)據(jù)的結(jié)構(gòu).

SSE的核心指標(biāo)是誤差平方合,其計算公式如下:

(6)

上面式子中的i表示的是第i個簇,p是中的樣本點,是的質(zhì)心.

1.3 全卷積網(wǎng)絡(luò)(FCN)和長短期記憶網(wǎng)絡(luò) (LSTM)

時間全卷積網(wǎng)絡(luò)的輸入是時間序列信號.如Lea等[29]所述,設(shè)Xt∈R^(Fo)是0

考慮L層一維卷積層.在這每一層上應(yīng)用一組1D濾波器來查看輸入信號如何演變的.根據(jù)Lea等[29]每個層的濾波器由張量(W^l∈R^(Fl×d×F_(l-1)))和偏差b_(l∈)∈R^(Fl)參數(shù)化,其中l(wèi)∈{1,…,L}是層索引,d是過濾持續(xù)時間.對于第l層,(非標(biāo)準(zhǔn)化)激活(E_(i,t)^((l))∈R^(Fl))的第l個分量是來自前一層的輸入(標(biāo)準(zhǔn)化)激活矩陣(E^((l-1))∈R^(F_(l-1)×T_(l-1)))的函數(shù).

LSTM[30]模型是循環(huán)神經(jīng)網(wǎng)絡(luò)(recur-rent neural networks,RNN) 結(jié)構(gòu)中一種,可以對時間序列(TS)進行建模,通過一個記憶單元來儲存任意時刻的值,便能記憶TS前后的關(guān)系.同時LSTM也具有刪除和添加信息到細胞狀態(tài)的能力,可以決RNN中存在的梯度消失或者梯度爆炸的問題.LSTM網(wǎng)絡(luò)中記憶單元的結(jié)構(gòu)如圖2.

圖2 LSTM神經(jīng)單元結(jié)構(gòu)圖

記憶單元主要由輸入門,遺忘門,輸出門構(gòu)成,輸入門it是來決定添加信息的過程,遺忘門ft是決定失去一些信息,輸出門ot是根據(jù)判斷條件來輸出當(dāng)前記憶單元的一些狀態(tài)特征.其計算公式如下:

ft=σ(Wf[ht-1,xt]+bf)

(7)

it=σ(Wi[ht-1,xt]+bi)

(8)

(9)

(10)

ot=σ(Wo[ht-1,xt]+bo)

(11)

ht=ot×tanh(Ct)

(12)

2 實驗結(jié)果分析

為驗證本文所提算法SKLF的性能,采用2個數(shù)據(jù)集來進行實驗并與單獨LSTM、CNN和LSTM-FCN算法進行比較,一個數(shù)據(jù)集是來自實驗室火災(zāi)數(shù)據(jù)集.該數(shù)據(jù)集包含8個受控火災(zāi)實驗相關(guān)的時間系列數(shù)據(jù),對于每個實驗,都會記錄濕度、溫度、MQ139、TVOC 和 eCO2的傳感器測量結(jié)果,文中采用其中4個電火源數(shù)據(jù)進行試驗.另一個數(shù)據(jù)集是occupancy_data[31]數(shù)據(jù),這個數(shù)據(jù)集描述的是一個房間內(nèi)是否被占用的一個二分類問題.以下是2個數(shù)據(jù)集的描述.

在Indoor Laboratory Fire Dataset數(shù)據(jù)集中,采用electrical_3做訓(xùn)練集,其余數(shù)據(jù)做測試集.在Occupancy_data數(shù)據(jù)中,datatraining做訓(xùn)練集,其余數(shù)據(jù)做測試集,對測試的結(jié)果取10次平均值并分別和CNN、LSTM、FCN-LSTM比較.

表格3~5展示了4種算法分別在Indoor Laboratory Fire Dataset和 Occupancy_data數(shù)據(jù)集上的F-mean,G-mean,AUC分?jǐn)?shù),分析可以得到以下幾條結(jié)論.

1) 表3中可以發(fā)現(xiàn),SKLF算法在以上5個數(shù)據(jù)集上的F-means得分總體比較穩(wěn)定,最高98.5%,最低為91.0%,平均得分為96.8%.F-means是精準(zhǔn)率和召回率的調(diào)和平均數(shù),可以看出SKLF模型在精準(zhǔn)率和召回率上的性能都優(yōu)于其他幾種模型.

2) 從表4中可以發(fā)現(xiàn),在5個數(shù)據(jù)集的不平衡率相差很大的情況下,SKLF算法模型在G-meas指標(biāo)上波動很小,更加平穩(wěn).可以看出,模型的魯棒性較高,在不同的不平衡率下也有不錯的性能,適用性較強.

3) 從表5中總體來看,幾種算法在5個數(shù)據(jù)集上的表現(xiàn)都還不錯,得分基本上都達到了90%以上,但平穩(wěn)度不如SKLF算法,其中CNN模型的波動最大,LSTM次之,F(xiàn)CN-LSTM稍次之.這是因為采用的5個數(shù)據(jù)集在樣本的數(shù)量有較大的差別.因此,SKLF算法在數(shù)據(jù)量差異較大的情況下,也有不錯的表現(xiàn).

表2 數(shù)據(jù)集信息描述

表3 算法“SKLF”和其他算法的F-mean

表4 算法“SKLF”和其他算法的G-mean

表5 算法“SKLF”和其他算法的AUC

圖3 SKLF算法相對其他算法的性能增加率和不平衡率的關(guān)系

從表6中的Wilcoxon檢驗可以看出,SKLF算法相對LSTM可以提高上述3種指標(biāo)的分?jǐn)?shù),說明SKLF模型在處理時間序列不平衡分類上的性能要優(yōu)于LSTM模型.對于CNN,SKLF算法在保持F-means值不變的情況下,提高了G-means和AUC的值.相對于FCN-LSTM算法,SKLF算法與其的區(qū)別在于FCN和LSTM的結(jié)構(gòu)上,F(xiàn)CN-LSTM是串行結(jié)構(gòu),而SKLF模型中FCN和LSTM為并行結(jié)構(gòu),可以得到模型的網(wǎng)絡(luò)結(jié)構(gòu)對其性能也有一定的影響,并行的SKLF模型在處理時序不平衡分類時要優(yōu)于串行的FCN-LSTM.

表6 算法“SKLF”和其他算法的Wilcoxon檢驗

通過分析圖3與圖4可以得到以下結(jié)論:

圖4 SKLF算法和其他算法的指標(biāo)平均值

1) 算法SKLF相對CNN,LSTM,FCN-LSTM,能夠顯著提高平均AUC,F-means和G-means 的值.

2) 當(dāng)不平衡率大于38.3時,SKLF算法能顯著提升所有數(shù)據(jù)集的評價指標(biāo),特別是F-means和G-means的值.

3) 從評價指標(biāo)的平均值來看,4種算法對時序不平衡分類的處理能力由大到小依次為SKLF>FCN-LSTM>LSTM>CNN.由此可以看出,SKLF組合算法,實現(xiàn)了幾種算法的優(yōu)勢互補,對問題的處理能力相較于單個算法要強,魯棒性要高.

3 結(jié)語

文中提出了集時序不平衡和時空特征提取為一體的SKLF算法解決了結(jié)構(gòu)復(fù)雜、高噪音、不平衡的時間序列分類問題,相較于傳統(tǒng)的分類算法有一個較好的分類結(jié)果.通過結(jié)合過采樣和欠采樣,將不平衡數(shù)據(jù)中的多類樣本采用K-means不等比采樣,保證了多類數(shù)據(jù)前后的結(jié)構(gòu)關(guān)系,將少類數(shù)據(jù)采用SMOTE過采樣,使2類數(shù)據(jù)的不平衡率降低,然后組成訓(xùn)練數(shù)據(jù),并將FCN和LSTM算法的優(yōu)勢相結(jié)合,將訓(xùn)練數(shù)據(jù)分別導(dǎo)入全卷積網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò),讓其各自進行訓(xùn)練,在送入sigmoid函數(shù)輸出前將二者結(jié)合,得到最終的分類結(jié)果.通過在Indoor Laboratory Fire Dataset和Occupancy_data數(shù)據(jù)集上的對比實驗,表明 SKLF 算法對時序不平衡的分類精度達到了98.5%,且性能比較穩(wěn)定,有較好的魯棒性.相較于CNN,SKLF算法將評價指標(biāo)的平均值提高了4%~10%.相較于LSTM和FCN-LSTM,SKLF算法將評價指標(biāo)的平均值分別提高了1%~5%和1%~3%.

猜你喜歡
時序卷積分類
基于時序Sentinel-2數(shù)據(jù)的馬鈴薯遙感識別研究
基于Sentinel-2時序NDVI的麥冬識別研究
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
分類算一算
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
教你一招:數(shù)的分類
一種毫米波放大器時序直流電源的設(shè)計
電子制作(2016年15期)2017-01-15 13:39:08
文安县| 洛宁县| 清水县| 三江| 博爱县| 武安市| 成都市| 通化市| 阿瓦提县| 小金县| 芮城县| 长泰县| 黎平县| 梁山县| 龙川县| 察哈| 昌平区| 安庆市| 九龙坡区| 城市| 高雄市| 阳高县| 梅河口市| 宁波市| 准格尔旗| 吉木萨尔县| 樟树市| 青浦区| 延边| 通城县| 元氏县| 林芝县| 汝阳县| 宁河县| 上思县| 托克托县| 安多县| 永清县| 依安县| 廊坊市| 出国|