楊寒雨,趙曉永,2,王 磊
1.北京信息科技大學(xué) 信息管理學(xué)院,北京 100129
2.北京信息科技大學(xué) 北京材料基因工程高精尖創(chuàng)新中心,北京 100129
如今的大數(shù)據(jù)場(chǎng)景信息非常豐富,從物聯(lián)網(wǎng)到智能城市,再到醫(yī)療保健、社交媒體和金融應(yīng)用。大數(shù)據(jù)呈現(xiàn)容量大、種類(lèi)多等特點(diǎn),大規(guī)模且雜亂無(wú)章的數(shù)據(jù)會(huì)對(duì)研究結(jié)果產(chǎn)生巨大的影響[1]。大數(shù)據(jù)因其高價(jià)值的特征,可以作為機(jī)器學(xué)習(xí)的輸入以預(yù)測(cè)未來(lái)趨勢(shì)[2]。在機(jī)器學(xué)習(xí)任務(wù)中,對(duì)大數(shù)據(jù)應(yīng)該進(jìn)行規(guī)范化的預(yù)處理,從而提高模型的預(yù)測(cè)精度[3-4],獲得機(jī)器學(xué)習(xí)的高性能[5]。數(shù)據(jù)歸一化是數(shù)據(jù)預(yù)處理的一個(gè)重要步驟。
歸一化(normalization)是一種簡(jiǎn)化計(jì)算的方式。即將所有屬性以相同的測(cè)量單位表示,并使用通用的刻度或范圍。歸一化試圖賦予所有數(shù)據(jù)屬性同等的權(quán)重,使屬性之間的比較與聚合更容易,數(shù)據(jù)的收斂條件更好[6]。不會(huì)出現(xiàn)屬性值凌駕于其他屬性值之上的情況。另一方面,歸一化有助于防止使用屬性之間距離度量的機(jī)器學(xué)習(xí)算法產(chǎn)生扭曲的結(jié)果,并提高了數(shù)據(jù)分析的效率。常用的歸一化方法有Min-Max、Z-Score和Sigmoid等。
歸一化在當(dāng)今數(shù)據(jù)應(yīng)用的不同方面都有深刻影響[7]。在深度學(xué)習(xí)方面,由于深度學(xué)習(xí)是包含很多隱藏層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在訓(xùn)練過(guò)程中,各層參數(shù)在不停變化,所以會(huì)存在內(nèi)部變量偏移(internal covariate shift)[8]。在基于機(jī)器學(xué)習(xí)的分類(lèi)任務(wù)中,應(yīng)用了Min-Max數(shù)據(jù)歸一化技術(shù)的隨機(jī)數(shù)森林和決策樹(shù)模型的平均準(zhǔn)確率最高可達(dá)到99%[9]。在股指價(jià)格變動(dòng)預(yù)測(cè)任務(wù)中,選取合適歸一化方法的支持向量機(jī)(support vector machine,SVM)可以提高預(yù)測(cè)準(zhǔn)確率2.4%[10]。同時(shí),歸一化在數(shù)據(jù)流挖掘方面同樣重要。不同評(píng)價(jià)指標(biāo)往往具有不同量綱,數(shù)值間差別較大,不進(jìn)行處理可能會(huì)影響到數(shù)據(jù)分析的結(jié)果[6,11]。為消除指標(biāo)之間的量綱和取值范圍差異的影響,需要對(duì)輸入數(shù)據(jù)進(jìn)行歸一化處理。將其按照比例進(jìn)行縮放,落入一個(gè)特定的區(qū)域,以便進(jìn)行綜合分析[12]。例如將人的身高屬性值映射到[-1,1]或[0,1]內(nèi)。而在流式數(shù)據(jù)場(chǎng)景下,處理的是非連續(xù)的數(shù)據(jù),數(shù)據(jù)以流的形式先后到達(dá)訓(xùn)練點(diǎn),一次一個(gè)樣本,所以流處理方法必須在時(shí)間和資源的嚴(yán)格限制下處理數(shù)據(jù)[13]。這就為流場(chǎng)景下數(shù)據(jù)的歸一化帶來(lái)了極大的挑戰(zhàn)性。
目前,國(guó)外對(duì)歸一化問(wèn)題的研究很多。比較著名的有Google(谷歌)、Texas Tech University(得克薩斯理工大學(xué))等。但當(dāng)前研究?jī)H僅側(cè)重于神經(jīng)網(wǎng)絡(luò)隱藏層之間的歸一化算法,包括文獻(xiàn)[8,14-15]等,缺乏流場(chǎng)景下綜述類(lèi)文獻(xiàn)。目前國(guó)內(nèi)較為詳盡的歸一化綜述為文獻(xiàn)[16],此文獻(xiàn)著重于深度神經(jīng)網(wǎng)絡(luò)下隱藏層之間的批數(shù)據(jù)歸一化算法。本文則系統(tǒng)地整理并分析了相關(guān)文獻(xiàn),提出基于批數(shù)據(jù)的歸一化分類(lèi)方法以及基于流數(shù)據(jù)的歸一化分類(lèi)方法,通過(guò)上述方法對(duì)近年來(lái)的研究進(jìn)行了綜述,并討論了未來(lái)研究方向。
數(shù)據(jù)集的數(shù)據(jù)對(duì)學(xué)習(xí)建模不是完全有效。有時(shí)直接選定的屬性是原始屬性,僅在獲取它們的原始域中具有意義,不足以獲得準(zhǔn)確的預(yù)測(cè)模型[6]。機(jī)器學(xué)習(xí)應(yīng)注意輸入數(shù)據(jù)屬性的統(tǒng)計(jì)分布,且檢查屬性統(tǒng)計(jì)的變化[17]。
因此,需要對(duì)數(shù)據(jù)執(zhí)行一系列預(yù)處理步驟以實(shí)現(xiàn)將原始屬性轉(zhuǎn)換成能利用的屬性,這將有助于模型的建立。線性無(wú)量綱方法可用于批數(shù)據(jù)在不同學(xué)習(xí)模式中在輸入層的歸一化操作。詹敏等[18]根據(jù)線性無(wú)量綱化方法函數(shù)構(gòu)成所使用的中心點(diǎn)值和值域指標(biāo),對(duì)線性無(wú)量綱化方法進(jìn)行分析總結(jié);郭亞軍等[19]在多種線性無(wú)量綱化方法的基礎(chǔ)上,就指標(biāo)無(wú)量綱化過(guò)程的穩(wěn)定性問(wèn)題提出了改進(jìn)型方法理論;鄭宏宇等[20]討論了綜合評(píng)價(jià)中線性無(wú)量綱方法的選擇問(wèn)題。
表1列出了批數(shù)據(jù)與流數(shù)據(jù)分別在學(xué)習(xí)模式和處理階段兩方面的歸一化方法的對(duì)比。對(duì)于流數(shù)據(jù)在離線學(xué)習(xí)下的歸一化操作,可通過(guò)將流數(shù)據(jù)轉(zhuǎn)為批數(shù)據(jù)從而選取與批數(shù)據(jù)在離線學(xué)習(xí)下相同的歸一化方法。而對(duì)于批數(shù)據(jù)在在線學(xué)習(xí)下的歸一化方法,可通過(guò)海量批數(shù)據(jù)的方式以采用與流數(shù)據(jù)在在線模式下相同的歸一化方法。
表1 數(shù)據(jù)歸一化方法對(duì)比Table 1 Comparison of data normalization methods
在本節(jié)中,重點(diǎn)介紹將數(shù)據(jù)的原始分布轉(zhuǎn)換為目標(biāo)數(shù)據(jù)分布的一系列線性無(wú)量綱方法。
1.1.1 Min-Max
Min-Max歸一化[21-24]也稱(chēng)為線性函數(shù)歸一化,對(duì)原始數(shù)據(jù)做一次線性變換,通過(guò)以下函數(shù)(1),將原數(shù)據(jù)映射到[0,1]之間,不改變?cè)紨?shù)據(jù)分布。函數(shù)(1)中,擬歸一化數(shù)據(jù)用x表示,xnew則為x歸一化后的數(shù)據(jù),Max、Min分別表示為當(dāng)前數(shù)據(jù)中最大值和最小值。
優(yōu)點(diǎn):對(duì)原數(shù)據(jù)做處理之后并不改變數(shù)據(jù)分布。
缺點(diǎn):過(guò)度依賴(lài)最大最小值,當(dāng)有異常數(shù)據(jù)點(diǎn)出現(xiàn)時(shí)會(huì)對(duì)結(jié)果產(chǎn)生較大影響。
1.1.2 Z-Score
Z-Score[21-24]的原理是將原數(shù)據(jù)處理成符合正態(tài)分布的數(shù)據(jù),具體是取得數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,通過(guò)以下函數(shù)(2)實(shí)現(xiàn)歸一化操作。此方法對(duì)數(shù)據(jù)的映射沒(méi)有一個(gè)固定的范圍,由數(shù)據(jù)本身均值和標(biāo)準(zhǔn)差決定。函數(shù)(2)中Mean表示數(shù)據(jù)的均值,StandardDeviation表示數(shù)據(jù)的標(biāo)準(zhǔn)差。
優(yōu)點(diǎn):受離群值影響較小,適合最大值、最小值未知的情況。
缺點(diǎn):改變數(shù)據(jù)的分布。
1.1.3 Sigmoid
Sigmoid函數(shù)也稱(chēng)為L(zhǎng)ogistic函數(shù)[25-26],值域?yàn)閇0,1],經(jīng)過(guò)函數(shù)(3),輸入的數(shù)據(jù)被映射在[0,1]之間。Sigmoid函數(shù)具體函數(shù)圖像如圖1所示。
圖1 Sigmoid函數(shù)圖Fig.1 Sigmoid function diagram
優(yōu)點(diǎn):適合用于反映二分類(lèi)結(jié)果的概率,對(duì)于計(jì)算反向傳播較為簡(jiǎn)單。
缺點(diǎn):可能存在梯度消失問(wèn)題。
1.1.4 小數(shù)定標(biāo)
小數(shù)定標(biāo)[21-24]通過(guò)移動(dòng)小數(shù)點(diǎn)直觀地對(duì)數(shù)據(jù)進(jìn)行處理,將原始數(shù)據(jù)的絕對(duì)值映射到始終小于1的范圍內(nèi)。函數(shù)如公式(4)所示,其中j是整個(gè)輸入數(shù)據(jù)的絕對(duì)值最大的數(shù)據(jù)的位數(shù)。
優(yōu)點(diǎn):適用范圍廣,受到數(shù)據(jù)分布影響小,更加實(shí)用。
缺點(diǎn):過(guò)度依賴(lài)最大最小值,容易受異常點(diǎn)影響。
1.1.5 Rank Gauss
Rank Gauss[27]是一種對(duì)變量的處理方法,它分為四個(gè)步驟。第一步,先對(duì)要處理的數(shù)據(jù)進(jìn)行排序;第二步,將目標(biāo)數(shù)據(jù)轉(zhuǎn)換尺度到[-1,1];第三步,調(diào)整極端值;第四步,使用erfinv()函數(shù),其中erfinv(1)等于正無(wú)窮,erfinv(-1)等于負(fù)無(wú)窮。erfinv()是erf()的反函數(shù),erf()的值域?yàn)閇-1,1],表達(dá)式如公式(5)所示。第四步使得歸一化后的數(shù)據(jù)滿(mǎn)足高斯分布。
優(yōu)點(diǎn):數(shù)據(jù)變?yōu)楦咚狗植?,更為直觀。
缺點(diǎn):只保留了數(shù)據(jù)的排序信息。
1.1.6 反余切函數(shù)
反余切函數(shù)的值域?yàn)閇0,π],函數(shù)表達(dá)式如公式(6)所示,值域范圍為[0,1],歸一化后的數(shù)據(jù)映射到[0,1]之間。同時(shí)也有研究人員提出基于反三角函數(shù)的非線性預(yù)處理方法[28]。
優(yōu)點(diǎn):函數(shù)圖像平穩(wěn),對(duì)于計(jì)算反向傳播較為簡(jiǎn)單。
缺點(diǎn):僅當(dāng)數(shù)據(jù)都大于等于0時(shí),映射的區(qū)間為[0,1]。并非所有數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果都映射到[0,1]區(qū)間上。
1.1.7 tanh
tanh函數(shù)[29]值域?yàn)椋?1,1),經(jīng)過(guò)此函數(shù)數(shù)據(jù)被映射在(-1,1)之間,其中tanh函數(shù)的表達(dá)式如公式(7)所示。圖2為tanh函數(shù)具體函數(shù)圖像。
圖2 tanh函數(shù)圖Fig.2 tanh function diagram
優(yōu)點(diǎn):訓(xùn)練容易。
缺點(diǎn):全部激活,使得神經(jīng)網(wǎng)絡(luò)較重(heavy)。
當(dāng)批數(shù)據(jù)進(jìn)入深度神經(jīng)網(wǎng)絡(luò)后,容易出現(xiàn)“Internal Covariate Shift”的問(wèn)題。由于深度學(xué)習(xí)是由多層神經(jīng)元組成,某一層更新參數(shù),在深度的迭代下,即使參數(shù)的變化較小,在多層次的影響下也會(huì)對(duì)結(jié)果產(chǎn)生較大影響[8]。
流數(shù)據(jù)按順序先后到達(dá),難以存儲(chǔ)在內(nèi)存中。當(dāng)前深度學(xué)習(xí)下絕大多數(shù)的隱藏層歸一化方法需要在學(xué)習(xí)任務(wù)之前提供整個(gè)訓(xùn)練數(shù)據(jù)集,所以在隱藏層下對(duì)流數(shù)據(jù)進(jìn)行歸一化任務(wù)極為困難。而對(duì)于流數(shù)據(jù)下的深度學(xué)習(xí)應(yīng)用,Zhang等[30]提出了在線深度學(xué)習(xí)模型,此模型能夠從數(shù)據(jù)流中連續(xù)訓(xùn)練深度學(xué)習(xí)模型,并且它能夠隨著時(shí)間的推移使模型能力從簡(jiǎn)單到復(fù)雜,很好地結(jié)合了在線學(xué)習(xí)和深度學(xué)習(xí)的優(yōu)點(diǎn)。在線深度學(xué)習(xí)模型中的隱藏層歸一化方法可使用深度學(xué)習(xí)隱藏層中的歸一化方法。深度學(xué)習(xí)隱藏層下有如下六種歸一化方法被先后提出。
1.2.1 Batch Normalization
由于低層網(wǎng)絡(luò)更新了參數(shù),經(jīng)多層迭代使后面層輸入數(shù)據(jù)發(fā)生變化。Ioffe等[8]提出Batch Normalization,中心思想是在隱藏層的每一層輸入前加一個(gè)歸一化層,在數(shù)據(jù)進(jìn)入隱藏層前,先進(jìn)行歸一化處理,處理之后再進(jìn)入神經(jīng)元進(jìn)行運(yùn)算[4]。例如網(wǎng)絡(luò)第四層輸入數(shù)據(jù)為X4(X4表示網(wǎng)絡(luò)第四層的輸入數(shù)據(jù)),把輸入數(shù)據(jù)歸一化為均值為0、方差為1的數(shù)據(jù)集,然后再輸入至第四層進(jìn)行計(jì)算。
優(yōu)點(diǎn):提升訓(xùn)練速度,尤其在計(jì)算機(jī)視覺(jué)任務(wù)上表現(xiàn)較好。
缺點(diǎn):過(guò)度依賴(lài)批量大?。╞atchsize)。
1.2.2 Layer Normalization
由于BN(batch normalization)過(guò)度依賴(lài)批量的大小,當(dāng)批量較小時(shí),可能由于批量大小太小,均值和方差不具有全局代表性,導(dǎo)致模型效果惡化。Ba等[14]提出Layer Normalization,中心思想是對(duì)當(dāng)前隱藏層整層做歸一化操作。與Batch Normalization的不同之處在于,BN是針對(duì)同一個(gè)樣本中的所有數(shù)據(jù),而LN(layer normalization)是針對(duì)于單個(gè)樣本來(lái)操作。在LN中,一個(gè)批里就有與批量大小同數(shù)量的均值和方差。均值計(jì)算方法如表達(dá)式(8)所示,方差計(jì)算方法如表達(dá)式(9)所示。Batch Normalization與Layer Normalization中均值與方差的不同計(jì)算方式如圖3所示。
圖3 BN與LN對(duì)比Fig.3 Comparison of BN and LN
其中H是一層神經(jīng)元的個(gè)數(shù),一層網(wǎng)絡(luò)共享一個(gè)均值和方差,ai表示當(dāng)前層中第i個(gè)神經(jīng)元。
優(yōu)點(diǎn):批量大小較小時(shí),效果好;適用于自然語(yǔ)言處理任務(wù)。
缺點(diǎn):批量大小較大時(shí),效果不如BN。
1.2.3 Instance Normalization
BN針對(duì)于對(duì)數(shù)據(jù)的歸一化,但對(duì)于圖像風(fēng)格化任務(wù)來(lái)說(shuō),應(yīng)注重于圖像實(shí)例的處理,Ulyanov等[15]提出Instance Normalization。與BN的不同之處在于,IN(instance normalization)作用于單張圖片的單個(gè)通道,對(duì)此單獨(dú)進(jìn)行歸一化操作,而B(niǎo)N是對(duì)同一個(gè)批中的所有圖片的同一通道進(jìn)行歸一化。圖4具體展示了BN、LN與IN的不同之處,BN是針對(duì)所有圖片同一通道,LN針對(duì)一張圖片的所有通道,而IN針對(duì)一張圖片的一個(gè)通道。IN歸一化表達(dá)式如式(10)所示,其中均值計(jì)算方法如表達(dá)式(11)所示,方差計(jì)算方法如表達(dá)式(12)所示。xtijk表示它的第tijk個(gè)元素,k和j代表空間維度,i是特征通道(如果輸入是RGB圖像,則是顏色通道),t是該圖像在當(dāng)前批量中的索引。公式中ε是一個(gè)很小的正常量,以防止除0,H、W表示特征圖的高和寬。
圖4 BN、LN與IN的對(duì)比Fig.4 Comparison of BN,LN and IN
優(yōu)點(diǎn):不受批量大小和圖片通道的影響。
缺點(diǎn):丟失通道之間的相關(guān)性。
1.2.4 Group Normalization
在視覺(jué)識(shí)別任務(wù)上,Wu等[31]提出Group Normalization,在GN(group normalization)中,將圖片的通道分為不同的組,針對(duì)于不同的組來(lái)做歸一化操作。具體表現(xiàn)為將特征的維度由[N,C,H,W]重新修改為[N,G,C∥G,H,W],歸一化的維度為[C∥G,H,W],其中G是分的組的數(shù)量。
優(yōu)點(diǎn):不依賴(lài)批量大小。
缺點(diǎn):當(dāng)批量大小較大時(shí),性能不如BN。
1.2.5 Switchable Normalization
不同的神經(jīng)層可能需要不同的歸一化操作,而每一層歸一化都是由人工設(shè)計(jì)并操作,這將消耗大量人力。Luo等[32]設(shè)計(jì)了一個(gè)自適應(yīng)歸一化層,通過(guò)建立一個(gè)通用的歸一化層來(lái)解決所有問(wèn)題。主要操作是將BN、LN、IN分別賦予不同的權(quán)重并結(jié)合,由網(wǎng)絡(luò)自行學(xué)習(xí)調(diào)整。圖5展示SN(switchable normalization)的詳細(xì)計(jì)算方法。
圖5 SN計(jì)算方法Fig.5 SN calculation method
優(yōu)點(diǎn):集BN、LN、GN優(yōu)點(diǎn)于一身。
缺點(diǎn):訓(xùn)練復(fù)雜。
1.2.6 Filter Response Normalization
谷歌研究所的Singh等[33]提出FRN(filter response normalization)方法,旨在消除批量大小影響的同時(shí)也能獲得大批量下BN的性能。主要方法是設(shè)計(jì)一個(gè)歸一化層,里面包含一個(gè)歸一層和一個(gè)激活層。FRN方法具體框架如圖6所示,其中的歸一層類(lèi)似于IN,是對(duì)單個(gè)圖片的單一通道操作的。FRN中v2是x的二次范數(shù)的平均值,歸一化層需要進(jìn)行縮放和平移變換,γ和β是可學(xué)習(xí)的參數(shù)。
優(yōu)點(diǎn):不受批量大小的影響。
缺點(diǎn):暫無(wú)。
綜上,本研究將隱藏層歸一化算法的方法與優(yōu)缺點(diǎn)進(jìn)行了對(duì)比。表2列出了隱藏層歸一化方法,從提出原因、方法、優(yōu)點(diǎn)與缺點(diǎn)四個(gè)維度進(jìn)行具體分析。通過(guò)表2可以看出BN主要用于解決內(nèi)部斜變量遷移的問(wèn)題。然而B(niǎo)N過(guò)度依賴(lài)批量大小,為解決此問(wèn)題,繼而研究LN、GN、FRN等歸一化方法。當(dāng)批量大小較大時(shí),BN的效果仍為最優(yōu)。不同的應(yīng)用任務(wù)應(yīng)選擇不同的歸一化方法,BN適用于計(jì)算機(jī)視覺(jué)任務(wù);LN更適用于自然語(yǔ)言處理;對(duì)于圖像實(shí)例應(yīng)用來(lái)說(shuō),IN為最佳選擇。
表2 隱藏層歸一化算法對(duì)比Table 2 Comparison of hidden layer normalization algorithms
大數(shù)據(jù)流具有不斷變化的性質(zhì),有嚴(yán)格的內(nèi)存和時(shí)間限制以及學(xué)習(xí)訓(xùn)練前無(wú)法獲得全部數(shù)據(jù)的特點(diǎn),所以大數(shù)據(jù)流的預(yù)處理比批數(shù)據(jù)更具挑戰(zhàn)性[34]。但就目前為止,對(duì)于數(shù)據(jù)流的歸一化算法研究較少。預(yù)處理數(shù)據(jù)參數(shù)保持固定或手動(dòng)調(diào)整可能導(dǎo)致預(yù)測(cè)結(jié)果不佳[35]。通常采用滑動(dòng)窗口技術(shù)對(duì)流數(shù)據(jù)進(jìn)行預(yù)處理參數(shù)調(diào)整。窗口的選擇對(duì)結(jié)果至關(guān)重要。本章重點(diǎn)從窗口選擇及流式數(shù)據(jù)下的歸一化法兩方面進(jìn)行歸納分析。
由于流數(shù)據(jù)以流的形式輸入,需要使用滑動(dòng)窗口或者翻轉(zhuǎn)窗口來(lái)暫時(shí)存放數(shù)據(jù)。流場(chǎng)景下,對(duì)于窗口的選擇也至關(guān)重要。
2.1.1 滑動(dòng)窗口
在流處理應(yīng)用中,對(duì)于數(shù)據(jù)的傳輸,通常使用滑動(dòng)窗口技術(shù)?;瑒?dòng)窗口有一個(gè)固定的長(zhǎng)度或時(shí)間長(zhǎng)度,不停捕捉隨著數(shù)據(jù)流到來(lái)的數(shù)據(jù),待窗口內(nèi)數(shù)據(jù)被填滿(mǎn)(比如收集了5個(gè)數(shù)據(jù))或滿(mǎn)足規(guī)定的時(shí)間長(zhǎng)度(比如到達(dá)10 s)后,窗口根據(jù)規(guī)定的滑動(dòng)長(zhǎng)度向前移動(dòng)并對(duì)窗口內(nèi)數(shù)據(jù)進(jìn)行處理。一般來(lái)說(shuō)滑動(dòng)長(zhǎng)度小于或等于窗口長(zhǎng)度,因此窗口是重疊的,相鄰的窗口每次都包含一些共同的元素?;瑒?dòng)窗口模型的優(yōu)點(diǎn)是保持存儲(chǔ)空間,從最近的數(shù)據(jù)點(diǎn)保持新的知識(shí)和有效的處理。
圖7為滑動(dòng)窗口模型的示意圖。如圖所示,定義了一個(gè)持續(xù)時(shí)間為10 s,滑動(dòng)間隔為5 s的滑動(dòng)窗口。第一個(gè)窗口(W1)包含從0~10 s到達(dá)的元素,第二個(gè)窗口(W2)包含從5~15 s的元素,每隔5 s,一些元素被添加,一些元素過(guò)期。例如在t=15時(shí),e7、e8、e9、e10被添加到窗口,而e1、e2從窗口過(guò)期。通過(guò)這種方式,所有的元素都被處理,直至流的結(jié)束。
圖7 滑動(dòng)窗口示意圖Fig.7 Sliding window diagram
2.1.2 翻轉(zhuǎn)窗口
翻轉(zhuǎn)窗口是滑動(dòng)窗口的一個(gè)特殊形式。與滑動(dòng)窗口不同的是,翻轉(zhuǎn)窗口沒(méi)有重疊的窗口,相鄰窗口沒(méi)有共同的元素。窗口的滑動(dòng)長(zhǎng)度或者時(shí)間間隔等于窗口長(zhǎng)度。在翻滾窗口中,數(shù)據(jù)的處理都是在一個(gè)窗口內(nèi)進(jìn)行然后到下一個(gè)窗口,中間沒(méi)有任何重合部分。翻滾窗口收集隨著流到達(dá)的數(shù)據(jù),當(dāng)窗口長(zhǎng)度或時(shí)間間隔達(dá)到規(guī)定長(zhǎng)度時(shí),滑動(dòng)相應(yīng)的長(zhǎng)度到下一個(gè)窗口。翻轉(zhuǎn)窗口的示意圖如圖8所示。
圖8 翻轉(zhuǎn)窗口示意圖Fig.8 Tumbling window diagram
圖8中定義了一個(gè)長(zhǎng)度為5 s的翻滾窗口。第一個(gè)窗口(W1)包含0~5 s的元素,W2包含5~10 s的元素,然后W3包含10~15 s的元素,每隔5 s滑動(dòng)此窗口,只有新的元素被添加到窗口中,沒(méi)有一個(gè)窗口重疊。例如在t=10時(shí),e4、e5、e6被添加到窗口中,而e1、e2、e3則從窗口中過(guò)期。通過(guò)這樣的方式,整個(gè)數(shù)據(jù)流將被處理。
2.2.1 Smart Preprocessing for Streaming Data(SPSD)
大多數(shù)關(guān)于數(shù)據(jù)流挖掘的研究都將模型再訓(xùn)練和預(yù)處理放在一起。但在真實(shí)流挖掘情況下,很多時(shí)候不需要對(duì)模型重新訓(xùn)練,只需要對(duì)輸入的流數(shù)據(jù)進(jìn)行重新歸一化的操作。Hu等[36]提出了一種SPSD的方法,該方法有兩個(gè)重點(diǎn)。
重點(diǎn)一:計(jì)算兩個(gè)指標(biāo)。
指標(biāo)一:新的流數(shù)據(jù)塊中至少有一個(gè)數(shù)據(jù)的值在參考的最小-最大值范圍樣本之外的百分比。目的是將噪音和異常值從數(shù)據(jù)流的實(shí)際變化中分離出來(lái)。
指標(biāo)二:新的樣本數(shù)據(jù)在每個(gè)維度的值與該維度的參考最小-最大值之間的最大差異百分比。目的是減少重新規(guī)范化的次數(shù),以加快方法的速度。
如圖9所示,當(dāng)前的滑動(dòng)窗口共有100個(gè)數(shù)據(jù),其中有95個(gè)正常數(shù)據(jù),5個(gè)異常數(shù)據(jù)。參考的最大最小值分別為2和-1,指標(biāo)一的計(jì)算方法則為(5/100),假定存在一個(gè)值為3的數(shù)據(jù)x,對(duì)于數(shù)據(jù)x,指標(biāo)二的計(jì)算方法則為[(3-2)/2=1/2]。
圖9 滑動(dòng)窗口指標(biāo)計(jì)算例子Fig.9 Example of sliding window indicator calculation
重點(diǎn)二:獲得指標(biāo)返回值
算法中自定義兩個(gè)閾值,若兩個(gè)指標(biāo)都超過(guò)閾值則返回真(True),反之則為假(False)(True表示重新進(jìn)行歸一化操作,即用更新后的最大值和最小值來(lái)對(duì)數(shù)據(jù)塊做Min-Max歸一化操作;False表示暫時(shí)不更新最大最小值,用當(dāng)前的最大最小值對(duì)窗口內(nèi)的數(shù)據(jù)進(jìn)行Min-Max歸一化操作)。
SPSD算法分為如下流程:
首先將第一個(gè)數(shù)據(jù)塊作為初始的參考數(shù)據(jù)塊,第一個(gè)數(shù)據(jù)塊的最大、最小值作為初始的參考最大、最小的范圍。
然后進(jìn)行兩個(gè)指標(biāo)計(jì)算,獲得指標(biāo)返回值,進(jìn)行Min-Max歸一化,將歸一化后的數(shù)據(jù)發(fā)送到基礎(chǔ)學(xué)習(xí)模型中進(jìn)行分類(lèi)。當(dāng)前的這個(gè)數(shù)據(jù)塊則會(huì)取代原參考數(shù)據(jù)塊成為一個(gè)新的參考點(diǎn),更新后的最大、最小值也將成為參考的最大最小范圍。
優(yōu)點(diǎn):減少模型再訓(xùn)練的次數(shù),降低新模型生成的成本。
缺點(diǎn):某些時(shí)候效率與重新的模型再訓(xùn)練相比會(huì)較低。
2.2.2 特征直方圖
在網(wǎng)絡(luò)安全方面,對(duì)于入侵檢測(cè)等應(yīng)用,必須注意實(shí)時(shí)性,及時(shí)做好防護(hù)[37]。數(shù)據(jù)處理的操作大部分選擇在網(wǎng)絡(luò)邊緣的邊緣端進(jìn)行,處理之后形成適用于數(shù)據(jù)分析的樣式[38]。
Lopez等[39]提出一種基于特征相關(guān)和特征歸一化的網(wǎng)絡(luò)流量分類(lèi)的快速預(yù)處理方法。此方法基于特征直方圖的歸一化,特征直方圖即為用直方圖的形式來(lái)表示特征的劃分。具體實(shí)現(xiàn)方式如下。
滑動(dòng)窗口的每個(gè)特征fi被劃分為b1,b2,…,bm,m=n1/2+1,n為特征的數(shù)量,b1=[min,k1),b2=[k1,k2),bm=[km-1,max](其中k表示閾值,k=(maxi-mini)/m)。每一個(gè)區(qū)間稱(chēng)為bin,bk表示落在第k個(gè)bin中樣本的數(shù)量,每個(gè)bin的高度為樣本落在此區(qū)間的相對(duì)頻率fri,其中fri=fqj/N(其中N為樣本總數(shù),fqj表示為樣本落在binj的數(shù)量)。樣本直方圖如圖10所示。
圖10 特征直方圖劃分Fig.10 Feature histogram division
對(duì)于每一個(gè)滑動(dòng)窗口,首先獲取到每個(gè)特征的最小值和最大值,在生成單個(gè)滑動(dòng)窗口的樣本直方圖之后再通過(guò)滑動(dòng)窗口獲取新的最大、最小值。如果新的滑動(dòng)窗口的最小值小于前一個(gè)滑動(dòng)窗口的最小值或者新的滑動(dòng)窗口的最大值大于前一個(gè)滑動(dòng)窗口的最大值,即mini-1<mini或maxi-1>maxi,則創(chuàng)建新的倉(cāng),直至區(qū)間包含新的最小值或最大值再停止建倉(cāng)。劃分好所有的倉(cāng)之后,即特征直方圖建立完畢,再將所有的倉(cāng)近似為正態(tài)分布則完成歸一化操作。與此同時(shí),在建立新的倉(cāng)的過(guò)程中,由于是動(dòng)態(tài)建立,可以實(shí)時(shí)觀察到異常點(diǎn)的出現(xiàn)。
優(yōu)點(diǎn):可以實(shí)現(xiàn)流數(shù)據(jù)歸一化并檢測(cè)異常點(diǎn)。
缺點(diǎn):計(jì)算效率不高,在無(wú)限數(shù)據(jù)的情況下,不適合在內(nèi)存中存放。
2.2.3 窗口平均值變化百分比
為解決不斷變化的大數(shù)據(jù)流規(guī)范化問(wèn)題,Gupta等[40]提出了一種分布式的大數(shù)據(jù)流自適應(yīng)規(guī)范化的方法。此方法提供了一個(gè)簡(jiǎn)單的機(jī)制,以適應(yīng)每個(gè)窗口中不斷變化的數(shù)據(jù)的規(guī)范化統(tǒng)計(jì)。
主要方法如下:
第一步:獲取第一個(gè)窗口的統(tǒng)計(jì)數(shù)據(jù)(比如最大值、最小值、平均值等),將這些數(shù)據(jù)設(shè)置為初始的參考數(shù)據(jù)。第一個(gè)窗口使用這些參考數(shù)據(jù)進(jìn)行Min-Max歸一化。
第二步:滑動(dòng)到下一個(gè)窗口后,計(jì)算當(dāng)前窗口和上一個(gè)窗口之間平均值的百分比變化,用于檢測(cè)是否有重大變化。自行定義一個(gè)閾值,如果百分比的變化超過(guò)閾值,當(dāng)前窗口的最大最小值將取代原始的最大最小值作為新的參考值;反之,當(dāng)百分比變化不超過(guò)閾值時(shí),數(shù)據(jù)流變化被看成是不重要的,為保持最大最小的實(shí)際范圍并消除對(duì)一個(gè)窗口的依賴(lài),參考的最大最小值將被逐步更新,選取兩個(gè)窗口更小或者更大的那個(gè)值作為新的參考值。
優(yōu)點(diǎn):可以應(yīng)用于全領(lǐng)域的數(shù)據(jù)流。
缺點(diǎn):閾值無(wú)法動(dòng)態(tài)調(diào)整。
2.2.4 動(dòng)態(tài)調(diào)節(jié)窗口大小
Gupta等[41]提出了一種基于自適應(yīng)窗口大小的規(guī)范化方法,主要方法是根據(jù)數(shù)據(jù)速率來(lái)調(diào)整窗口大小。如果數(shù)據(jù)速率增加,則窗口大小減少;反之,如果數(shù)據(jù)速率減少,則窗口大小增加,以保證在一個(gè)理想的速率中處理數(shù)據(jù),方法流程如下。
第一步:首先將第一個(gè)窗口作為當(dāng)前窗口,使用當(dāng)前窗口的最大最小值,對(duì)其進(jìn)行Min-Max歸一化。
第二步:當(dāng)下一個(gè)窗口到來(lái)時(shí),將這個(gè)窗口代替前一個(gè)窗口作為當(dāng)前窗口,比較當(dāng)前窗口和前一個(gè)窗口的數(shù)據(jù)率,預(yù)測(cè)下一個(gè)窗口的大小或時(shí)間間隔。數(shù)據(jù)率百分比計(jì)算如下:rw=rc/rp(其中rc表示當(dāng)前窗口的數(shù)據(jù)速率,rp表示前一個(gè)窗口的數(shù)據(jù)速率)。自行定義一個(gè)理想數(shù)據(jù)率r來(lái)作為閾值。比較rw和r的大小,如果rw小于r,則將窗口長(zhǎng)度增加一個(gè)固定的常數(shù)c,反之,如果rw大于r,則將窗口長(zhǎng)度減少一個(gè)固定的常數(shù)c,其中c自行定義。
第三步:改成理想速率的窗口大小后,用修改后的窗口里的最大值和最小值來(lái)對(duì)窗口中的數(shù)據(jù)進(jìn)行Min-Max歸一化。
優(yōu)點(diǎn):能保持一個(gè)穩(wěn)定的數(shù)據(jù)處理速度。
缺點(diǎn):暫時(shí)沒(méi)有實(shí)驗(yàn)來(lái)證明。
2.2.5 時(shí)間序列歸一化
對(duì)于時(shí)間序列數(shù)據(jù)來(lái)說(shuō),時(shí)序性是其重要特征[42]。由于時(shí)序數(shù)據(jù)具有高維度、動(dòng)態(tài)性等特點(diǎn),直接對(duì)時(shí)序數(shù)據(jù)進(jìn)行分析會(huì)無(wú)法提取有用信息,甚至得出錯(cuò)誤結(jié)果。對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)處理也是時(shí)序數(shù)據(jù)分析的重要步驟[43]。在非穩(wěn)定的時(shí)間序列流的歸一化方面,Passalis等[44]提出一種進(jìn)入深度神經(jīng)網(wǎng)絡(luò)前的深度自適應(yīng)歸一化層,Ogasawara等[45]提出了一種對(duì)非平穩(wěn)異方差(具有非均勻波動(dòng)性)時(shí)間序列進(jìn)行歸一化的新方法。該方法被命名為自適應(yīng)歸一化(AN)。其完整的數(shù)據(jù)歸一化過(guò)程可分為三個(gè)階段:(1)將非穩(wěn)態(tài)時(shí)間序列轉(zhuǎn)化為穩(wěn)態(tài)序列,從而創(chuàng)建一個(gè)不相交的滑動(dòng)窗口序列(不重疊);(2)去除離群點(diǎn);(3)數(shù)據(jù)標(biāo)準(zhǔn)化。
具體步驟如下:
第一步:基于移動(dòng)平均數(shù),將非平穩(wěn)的時(shí)間序列轉(zhuǎn)換成一個(gè)平穩(wěn)的時(shí)間序列。先計(jì)算原始時(shí)間序列的移動(dòng)平均數(shù),使用其值來(lái)創(chuàng)建一個(gè)新的靜止序列,并將這個(gè)序列劃分成不相干的滑動(dòng)窗口。
第二步:利用箱型圖來(lái)檢測(cè)數(shù)據(jù)的異常值,檢測(cè)出來(lái)的異常值根據(jù)情況進(jìn)行調(diào)整。
第三步:對(duì)做過(guò)處理后的數(shù)據(jù)使用這個(gè)序列的全局統(tǒng)計(jì)信息(最大值、最小值等)進(jìn)行Min-Max歸一化。
優(yōu)點(diǎn):每個(gè)相對(duì)的滑動(dòng)窗口內(nèi)保留原有的時(shí)間序列屬性。
缺點(diǎn):暫無(wú)。
2.2.6 SUCR-DTW
在動(dòng)態(tài)時(shí)間扭曲下時(shí)間序列的相似性搜索上,歸一化操作極有必要,Giao等[46]提出SUCR-DTW方法,包含增量化的歸一化法。主要方法如下:首先,用Quic-ksort算法從數(shù)據(jù)點(diǎn)創(chuàng)建一個(gè)升序數(shù)字?jǐn)?shù)組,先對(duì)時(shí)間序列的子序列排序,然后插入新數(shù)據(jù)移除老數(shù)據(jù),最后Min-Max歸一化。由于是時(shí)間序列歸一化的同時(shí)進(jìn)行相似性搜索,相似性搜索過(guò)程中需要更新首尾的最大最小值,使用Quicksort對(duì)其進(jìn)行排序,xmin是排序數(shù)組的第一個(gè)元素,xmax是最后一個(gè)。在刪除和插入的過(guò)程中必須保持?jǐn)?shù)組的升序,所以還需要使用二進(jìn)制搜索的算法來(lái)尋找需要?jiǎng)h除的元素和插入新數(shù)據(jù)點(diǎn)的合適位置。
2.2.7 NSPRING
在時(shí)間序列匹配上,Sakurai等[47]提出動(dòng)態(tài)時(shí)間扭曲(dynamic time warping,DTW)距離下的子序列匹配方法SPRING,SPRING不支持歸一化,而歸一化在匹配中極為重要。Gong等[48]提出基于SPRING的歸一化方法NSPRING。該方法選取一個(gè)暫時(shí)性的子序列S′用于存儲(chǔ)原序列S,但S′的長(zhǎng)度等于查詢(xún)序列Q,當(dāng)一個(gè)新的時(shí)間節(jié)點(diǎn)進(jìn)入,最開(kāi)始進(jìn)入的時(shí)間節(jié)點(diǎn)就會(huì)被刪除,維持S′的長(zhǎng)度等于查詢(xún)序列Q的長(zhǎng)度。隨著S′不斷更新,當(dāng)S′的長(zhǎng)度等于查詢(xún)序列Q時(shí),NSPRING算法開(kāi)始,存儲(chǔ)序列S′可以被用于計(jì)算整個(gè)時(shí)間序列的均值和方差,繼而對(duì)整個(gè)時(shí)間序列S進(jìn)行Z-Score標(biāo)準(zhǔn)化運(yùn)算,從而實(shí)現(xiàn)時(shí)間序列的歸一化。
表3列出多類(lèi)流數(shù)據(jù)歸一化算法,從窗口及評(píng)判標(biāo)準(zhǔn)兩個(gè)維度進(jìn)行對(duì)比。窗口細(xì)化分為固定窗口和滑動(dòng)窗口,評(píng)判標(biāo)準(zhǔn)細(xì)化為4個(gè)評(píng)判標(biāo)準(zhǔn),用于評(píng)判是否進(jìn)行歸一化操作或者是否更新歸一化參數(shù)。
表3 流數(shù)據(jù)歸一化算法對(duì)比Table 3 Comparison of stream data normalization algorithms
數(shù)據(jù)歸一化是數(shù)據(jù)預(yù)處理的重要一步。無(wú)論是在深度學(xué)習(xí)還是時(shí)間相似性搜索等方面都起了極大的作用。本文收集并整理了歸一化方法相關(guān)文獻(xiàn),從數(shù)據(jù)類(lèi)型角度對(duì)這些歸一化方法進(jìn)行劃分,凝煉提出了基于流數(shù)據(jù)的歸一化分類(lèi)方法。將數(shù)據(jù)歸一化方法劃分為基于批數(shù)據(jù)的歸一化法和基于流式數(shù)據(jù)的歸一化法。本文首先對(duì)歸一化的研究現(xiàn)狀以及發(fā)展趨勢(shì)進(jìn)行了詳細(xì)分析,通過(guò)收集相關(guān)文獻(xiàn),以數(shù)據(jù)類(lèi)型作為切入點(diǎn),提出了基于流式數(shù)據(jù)的歸一化分類(lèi)方法。然后,將批數(shù)據(jù)及流數(shù)據(jù)歸一化方法從學(xué)習(xí)模式與處理階段兩個(gè)維度進(jìn)行梳理。在大數(shù)據(jù)流的場(chǎng)景下,對(duì)于窗口和輸入數(shù)據(jù)歸一化方法的選擇也至關(guān)重要。在不同的場(chǎng)景下,使用特定的方法可以更有效地防止神經(jīng)網(wǎng)絡(luò)因數(shù)據(jù)量綱的復(fù)雜性而錯(cuò)誤建模并提高預(yù)測(cè)正確率等。由于流式數(shù)據(jù)的應(yīng)用需求日趨急迫,對(duì)流式數(shù)據(jù)的研究也逐漸成為各領(lǐng)域的重點(diǎn)?;诹鲾?shù)據(jù)的歸一化面臨著一些亟待解決的問(wèn)題。
(1)海量樣本下歸一化算法的魯棒性。隨著大數(shù)據(jù)技術(shù)的發(fā)展,呈現(xiàn)出海量、復(fù)雜的數(shù)據(jù)特點(diǎn)。在海量數(shù)據(jù)的應(yīng)用中,常常會(huì)出現(xiàn)異常值,而歸一化可能會(huì)受到異常值的影響。因此,如何在流式場(chǎng)景下,面對(duì)海量樣本的情況下,保證數(shù)據(jù)的魯棒性是當(dāng)前需要解決的問(wèn)題。
(2)自適應(yīng)性。不同的流式數(shù)據(jù)應(yīng)用需要與此最適合的歸一化方法,手動(dòng)選擇并調(diào)整歸一化方法會(huì)消耗大量人力物力資源。到目前為止,并沒(méi)有一個(gè)通用的自適應(yīng)方法以供選擇。
總體來(lái)說(shuō),由于流式數(shù)據(jù)應(yīng)用必須在時(shí)間和資源的嚴(yán)格限制下處理數(shù)據(jù),這為流數(shù)據(jù)應(yīng)用帶來(lái)了極大的挑戰(zhàn)。流式數(shù)據(jù)場(chǎng)景下的歸一化研究相對(duì)缺乏,在流場(chǎng)景下的歸一化方法還有許多需要研究的方向。
(1)面向深度網(wǎng)絡(luò)的動(dòng)態(tài)自適應(yīng)歸一化法。當(dāng)前深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用作用于各行各業(yè),并取得了顯著的效果。但對(duì)于深度學(xué)習(xí)的歸一化研究大多停留在隱藏層的歸一化方法,對(duì)于流式數(shù)據(jù)在輸入層的歸一化方法則相對(duì)缺乏。當(dāng)前僅有的基于流式數(shù)據(jù)的歸一化方法需要手動(dòng)調(diào)整,缺乏一個(gè)通用的歸一化方案。將來(lái)關(guān)于歸一化的研究應(yīng)該致力于如何避免消耗大量人力資源下對(duì)流數(shù)據(jù)進(jìn)行自適應(yīng)的動(dòng)態(tài)歸一化操作。在深度神經(jīng)網(wǎng)絡(luò)中使用這樣的方法是當(dāng)前的一個(gè)重要研究方向。
(2)大數(shù)據(jù)流下歸一化法。數(shù)據(jù)的大規(guī)模增長(zhǎng)是當(dāng)前大數(shù)據(jù)分析的一個(gè)主要問(wèn)題。由于大數(shù)據(jù)呈現(xiàn)出海量、復(fù)雜的數(shù)據(jù)特點(diǎn),在數(shù)據(jù)挖掘等應(yīng)用下,對(duì)大數(shù)據(jù)應(yīng)該進(jìn)行歸一化的預(yù)處理,以實(shí)現(xiàn)應(yīng)用更好的性能與精度。而大數(shù)據(jù)流處理方法對(duì)時(shí)間和資源有著嚴(yán)格的限制,這對(duì)流式場(chǎng)景下的歸一化研究具有重大挑戰(zhàn)。因此,如何在大數(shù)據(jù)流場(chǎng)景下,設(shè)計(jì)一種更具適應(yīng)性歸一化方法具有重要的理論意義與實(shí)用價(jià)值。