唐勝唐, 吳共慶, 臺昌楊, 楊 澤, 張 贊
(合肥工業(yè)大學 計算機與信息學院,安徽 合肥 230601)
多變量時間序列(multivariate time series,MTS)是通過監(jiān)測多個指標(變量)收集的具有時間特性的一系列數(shù)據(jù)。 多變量時間序列分類(multivariate time series classification,MTSC)是將時間序列分類為預(yù)定義類別的任務(wù),它是數(shù)據(jù)挖掘領(lǐng)域中一個重要且具有挑戰(zhàn)性的問題,吸引了眾多研究者的關(guān)注,已廣泛應(yīng)用于醫(yī)療保健、運動識別和天氣預(yù)測[1]等諸多領(lǐng)域。
早期的MTS分類方法大多是基于距離的方法[2]和基于特征的方法[3],它們依賴于從原始MTS數(shù)據(jù)中提取特征并結(jié)合傳統(tǒng)分類器進行分類,難以直接處理原始MTS數(shù)據(jù),需要大量的領(lǐng)域?qū)I(yè)知識和特征工程對數(shù)據(jù)進行處理。 近年來,基于深度學習的方法[4]在時間序列分類中取得了優(yōu)異的表現(xiàn)。 其相比于傳統(tǒng)的MTS分類方法能夠更全面且自主地學習MTS數(shù)據(jù)中隱藏的豐富的有價值信息,取得更好的分類效果,然而在對MTS數(shù)據(jù)的關(guān)系利用上依舊存在不足。
MTS樣本間隱藏了豐富的關(guān)系信息。 以醫(yī)療領(lǐng)域為例,利用心電圖儀器可以對心臟活動進行實時監(jiān)測并采樣,從而獲取一系列具有時序關(guān)系并且相互聯(lián)系的MTS數(shù)據(jù)樣本。 醫(yī)生可以根據(jù)這些樣本的關(guān)系以及相關(guān)數(shù)據(jù)的分析結(jié)果對病人病情做出判斷。 然而,現(xiàn)有的MTS分類方法通常將MTS樣本當作一個單獨的個體進行處理,未考慮樣本間隱藏的關(guān)系信息,難以有效提升分類性能。 同時這些方法構(gòu)建的分類模型只使用了標記樣本的數(shù)據(jù)進行訓練,未能有效利用未標記的樣本,在標記的樣本較少的數(shù)據(jù)集上分類性能不佳。
為了更好地捕獲MTS數(shù)據(jù)中的關(guān)系信息,一些研究者將MTS數(shù)據(jù)映射到圖空間,通過圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)挖掘數(shù)據(jù)中潛在的關(guān)系[5-6]。 近年來,圖神經(jīng)網(wǎng)絡(luò)在許多任務(wù)上都取得了優(yōu)異的表現(xiàn)[7]。 以圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)為例,它通過圖結(jié)構(gòu)擴展信息,引入可以優(yōu)化的卷積參數(shù)對節(jié)點的鄰居進行卷積操作,使每個節(jié)點都能充分利用其鄰接節(jié)點的特征信息,不但獲得了節(jié)點更有效的特征表示,而且能將圖中未標記節(jié)點的特征信息充分利用起來,可以有效地處理節(jié)點分類任務(wù)。
為了充分挖掘MTS樣本間的潛在關(guān)系,本文提出一種基于GCN的MTS分類框架,通過挖掘樣本間的潛在關(guān)系和利用未標記數(shù)據(jù)來提高分類性能。 為了對樣本關(guān)系進行建模,本文設(shè)計了一種基于樣本相似性的關(guān)系映射準則構(gòu)造樣本關(guān)系圖,將時間序列數(shù)據(jù)映射到圖空間來獲取樣本間潛在關(guān)系的特征表示。 在圖的構(gòu)建過程中,圖節(jié)點包括標記樣本和未標記樣本,因此,模型可以充分利用未標記樣本包含的有價值的信息。 為了獲得樣本關(guān)系圖中的多階鄰接樣本特征信息,提出使用由多個不同的圖卷積層組成的MTS分類模型,通過圖結(jié)構(gòu)聚合和更新其t階相鄰樣本信息學習圖的深層結(jié)構(gòu)表示。 大量實驗結(jié)果驗證了本文提出的分類模型的有效性。 本文的主要貢獻概括如下:
1) 提出一種基于圖卷積網(wǎng)絡(luò)的MTS分類框架,能夠獲取MTS樣本的關(guān)系信息,進而將其與樣本特征信息進行融合生成語義更豐富的多變量時序數(shù)據(jù)的樣本表示。
2) 設(shè)計了一種基于樣本相似性的關(guān)系映射準則,將MTS樣本映射到圖空間,獲取樣本間潛在關(guān)系的特征表示。
3) 本文在11個數(shù)據(jù)集上進行了大量實驗,并與12種多變量時間序列分類方法進行比較。 實驗結(jié)果表明,該方法在分類性能方面具有顯著優(yōu)越性。
本文提出一種新的MTS分類模型,通過對MTS樣本進行建模,將樣本關(guān)系映射到圖空間,使用GCN獲取樣本間潛在關(guān)系信息的特征表示用于分類。
MTS分類方法可分為基于距離的方法、基于特征的方法、基于模型的方法和基于深度學習的方法4種。
基于距離的方法采用歐幾里德距離[8]、短時間序列距離[9]、動態(tài)時間規(guī)整距離(dynamic time wrapping,DTW)[10-11]及其各種變體[12-13]等利用相似性度量準則計算時間序列之間的相似性,然后根據(jù)測試實例與訓練實例之間的相似性對測試實例進行分類。 基于特征的方法采用時間序列Shapelets模型[14]、多變量時間序列的符號表示模型[15]和廣義多變量Shapelet模型[16]等將時間序列轉(zhuǎn)換為特征向量,從原始MTS數(shù)據(jù)中提取全局或局部的特征,提供給分類器進行分類。 基于模型的方法采用高斯混合模型[17]、多變量高斯模型[18]和隱馬爾可夫模型[19]等使用模型參數(shù)表示原始時間序列,根據(jù)假設(shè)模型對數(shù)據(jù)建模,通過衡量模型之間的相似度進行分類。
近年來,基于深度學習的方法在時間序列分類領(lǐng)域表現(xiàn)優(yōu)異。 文獻[20-22]引入自動學習特征的理念,通過神經(jīng)網(wǎng)絡(luò)中逐層的特征變換,將MTS樣本在原始空間上的特征表示映射到一個新特征空間,使用這些新特征能夠更容易地實現(xiàn)分類的目的。 與人工構(gòu)造規(guī)則抽取特征、設(shè)計模型的方法相比,基于深度學習的方法可以自動地學習特征,提取數(shù)據(jù)蘊含的豐富信息以提升分類性能。
上述分類方法僅學習序列的特征信息,沒有考慮序列間的復雜關(guān)系。 鑒于圖模型能方便地表示對象之間的關(guān)系,本文引入圖模型,用于表示序列之間的關(guān)系,通過基于圖模型的挖掘方法發(fā)現(xiàn)序列之間的關(guān)系輔助,提升MTS分類性能。
隨著圖神經(jīng)網(wǎng)絡(luò)[23]的興起,基于消息傳遞[24]、信息傳播[25]和圖卷積[26]設(shè)計的GNN模型已被應(yīng)用于網(wǎng)絡(luò)分析和自然語言處理等諸多領(lǐng)域。 圖卷積網(wǎng)絡(luò)[26]和圖注意網(wǎng)絡(luò)[27]等學習有效的消息傳遞機制,對節(jié)點及其鄰居節(jié)點進行加權(quán)求和,通過多層圖卷積,聚合多階節(jié)點之間的信息以表達節(jié)點的關(guān)系信息,利用最后一層卷積得到的節(jié)點特征向量執(zhí)行分類或預(yù)測等任務(wù)。
已有研究工作探索將圖神經(jīng)網(wǎng)絡(luò)應(yīng)用于MTS處理任務(wù)。 文獻[28]設(shè)計一種新的池化層MTPool,與GCN結(jié)合,捕獲MTS變量之間的隱藏依賴關(guān)系和時序信息用于分類。 StemGNN[29]是實現(xiàn)MTS預(yù)測的深度學習框架,集成了圖傅里葉變換和離散傅里葉變換,以捕獲序列間的相關(guān)性。 MTGNN[30]結(jié)合了圖卷積模塊和時間卷積模塊,捕獲MTS變量之間的依賴關(guān)系用于MTS預(yù)測任務(wù)。 這些基于GNN的方法能夠有效獲取MTS變量之間的依賴關(guān)系,在MTS分類和預(yù)測等領(lǐng)域取得了較好的效果。
然而,上述方法沒有將MTS樣本之間的關(guān)系用于提升MTS分類任務(wù)的精度。 因此,本文探索將樣本的關(guān)系信息映射到圖空間,對MTS樣本進行編碼,利用GCN的關(guān)系獲取能力和節(jié)點分類能力挖掘樣本間潛在的關(guān)系信息以提升分類性能。
本節(jié)設(shè)計基于圖卷積網(wǎng)絡(luò)挖掘樣本間潛在關(guān)系的多變量時間序列分類模型(MTSC based on GCN,GMTSC),詳細介紹模型的組成以及基于模型的分類算法設(shè)計。 MTSC模型如圖1所示。
圖1 GMTSC模型
直推學習在訓練時會同時使用訓練集和測試集數(shù)據(jù),在訓練階段不使用測試集樣本的標簽,只在測試階段使用測試集樣本的標簽用于性能評估,適合基于圖卷積模型的學習。 本文基于直推學習范式設(shè)計了一種半監(jiān)督圖卷積模型GMTSC用于多變量時序樣本分類。 由圖1可知GMTSC包含2個模塊:樣本關(guān)系圖構(gòu)建模塊以及圖節(jié)點聚合與更新模塊。 首先,輸入原始時間序列樣本數(shù)據(jù),基于樣本相似度量按照直推學習范式對訓練集和測試集中的樣本統(tǒng)一建圖,將樣本間的關(guān)系信息映射到圖空間;然后,利用卷積神經(jīng)網(wǎng)絡(luò)對每個樣本提取多個時間戳上的特征,映射為樣本節(jié)點的特征向量,通過圖卷積在圖空間上挖掘樣本間的潛在關(guān)系信息用于分類任務(wù),此外通過迭代優(yōu)化訓練樣本的預(yù)測值,提升模型對樣本關(guān)系的獲取能力,進而將關(guān)系信息有效地編碼到樣本的特征向量上;最后,通過一個線性分類器,將測試樣本編碼后的特征向量映射為該測試樣本的概率向量以預(yù)測類別。
使用圖卷積挖掘MTS樣本之間的潛在關(guān)系信息需要預(yù)定義的圖結(jié)構(gòu)。 本文使用樣本建立圖的節(jié)點,基于樣本相似性的映射準則計算樣本之間的相似度量,選擇每個樣本的前k個最相似樣本作為鄰接節(jié)點,構(gòu)建無向邊,為整個MTS數(shù)據(jù)集構(gòu)建樣本關(guān)系圖。
在構(gòu)建無向邊時,由于DTW算法能夠自動規(guī)整時間序列,通過時間軸上的局部縮放,可使2個序列的形態(tài)接近以計算相似度。 因此,本文選擇DTW算法進行樣本的相似度量來尋找鄰接節(jié)點構(gòu)建無向邊,生成圖結(jié)構(gòu)。 對于多變量時間序列樣本,基于多維變量計算維度相關(guān)的DTW距離DTW,而不是單獨面向每個維度進行計算,計算公式為:
DTW(t1,t2)={dis(t1,t2)+min[DTW(t1-1,t2),DTW(t1,t2-1),DTW(t1-1,t2-1)]}1/2
(1)
其中:dis(t1,t2)=(Xi(t1)-Xi(t2))2為MTS數(shù)據(jù)集任意2個樣本Xi的t1時間戳和Xj的t2時間戳相對應(yīng)的所有變量觀察值的局部距離;DTW(t1,t2)為從Xi和Xj的第1個時間戳到Xi的t1時間戳和Xj的t2時間戳的最小累加距離。
關(guān)系圖節(jié)點的數(shù)據(jù)表示形式為一維特征向量。 然而,根據(jù)樣本構(gòu)建的節(jié)點對應(yīng)的原始樣本數(shù)據(jù)是一個二維矩陣。 為了便于GCN對圖的操作,需要重建節(jié)點的數(shù)據(jù),將原始樣本數(shù)據(jù)的二維矩陣映射為對應(yīng)節(jié)點的一維特征向量。 向量映射準則為:① 保留原始數(shù)據(jù)之間的特征和時序性;② 映射的特征向量符合圖卷積網(wǎng)絡(luò)的輸入要求;③ 每個節(jié)點特征向量的維數(shù)是統(tǒng)一的。
根據(jù)上述向量映射準則,設(shè)計堆疊卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CCN),將節(jié)點的原始二維矩陣數(shù)據(jù)映射為一維特征向量,以圖中所有節(jié)點的原始樣本數(shù)據(jù)作為輸入,使用多個具有不同大小卷積核的卷積神經(jīng)網(wǎng)絡(luò)層提取樣本中多變量和多時間戳下的特征,通過全局池化將采樣的特征映射為一維向量,計算公式為:
(2)
其中:X={X1,X2,…,XN}為原MTS始樣本數(shù)據(jù)的集合;N為數(shù)據(jù)集中樣本數(shù);T、M分別為每個樣本的時間戳數(shù)和變量數(shù);D為映射生成的特征向量的維度。
上述過程通過對樣本關(guān)系進行建模生成樣本關(guān)系圖,將關(guān)系信息映射到圖空間。 為了在分類時能充分利用樣本間的潛在關(guān)系信息,本文基于圖卷積模型對樣本節(jié)點執(zhí)行聚合和更新操作,將樣本在圖上多個鄰接樣本的特征信息結(jié)合起來作為樣本特征的補足信息,并與樣本自身特征融合,將潛在樣本關(guān)系信息編碼到節(jié)點特征向量上。 通過不斷融合節(jié)點的鄰接樣本信息(潛在樣本關(guān)系信息)來更新節(jié)點自身樣本特征,直到模型達到穩(wěn)定均衡。
單個節(jié)點聚合與更新操作計算公式為:
(3)
其中:i∈[1,N],Near(Xi)為樣本Xi的鄰居樣本集合;Vu∈R1×d為Xi的鄰居樣本的特征向量;Vi′∈R1×d′為Xi經(jīng)過鄰域聚合與更新后的特征向量;d為樣本原始特征長度;d′為模型預(yù)設(shè)置的輸出特征維度;W∈Rd×d′為節(jié)點聚合其相鄰節(jié)點特征后進行線性變換的權(quán)重矩陣;σ為激活函數(shù)。
對所有節(jié)點的聚合與更新操作計算公式為:
(4)
(5)
本節(jié)給出基于直推學習范式下的多變量時間序列分類算法GMTSC,算法描述如下:
輸入:時間序列訓練集樣本和標簽、測試集樣本和迭代次數(shù)epoch。
輸出:測試集樣本的預(yù)測標簽。
1) 使用訓練集和測試集樣本構(gòu)建樣本關(guān)系圖;
2) 將原始MTS樣本數(shù)據(jù)映射為圖節(jié)點的一維特征向量;
3) 輸入樣本關(guān)系圖到圖卷積模塊;
4) 迭代epoch次,每次迭代中在每層圖卷積層都對樣本節(jié)點的特征進行聚合和更新,得到更新后的特征向量;
5) 使用算法對訓練集樣本標簽進行預(yù)測;
6) 根據(jù)訓練集樣本的預(yù)測標簽與真實標簽計算圖卷積模塊的損失;
7) 根據(jù)算法的損失優(yōu)化算法的權(quán)重參數(shù),返回步驟4)進入下一次迭代;
8) 迭代結(jié)束,根據(jù)訓練好的GMTSC算法對測試集的標簽進行預(yù)測;
9) 返回測試集的預(yù)測標簽。
算法步驟1)~步驟3)根據(jù)式(1)~式(2)構(gòu)建樣本關(guān)系圖,輸入到圖卷積模塊;步驟4)~步驟7)是算法的訓練過程。 首先算法步驟4)基于樣本關(guān)系圖,使用多層圖卷積捕獲圖中樣本節(jié)點的關(guān)系信息并編碼到節(jié)點的特征向量上,然后通過一層全連接層對訓練樣本的標簽進行預(yù)測,計算公式為:
(6)
算法步驟5)~步驟7)每次迭代利用訓練樣本的預(yù)測標簽與它們的真實標簽對比計算算法的損失,將其作為反饋信息來指導算法中權(quán)重參數(shù)的更新。 交叉熵可以用來計算學習算法分布與訓練分布之間的差異,一般情況下可以收斂得到更好的局部極小值點,本文使用交叉熵函數(shù)計算算法的損失,計算公式為:
(7)
算法步驟8)~步驟9)是算法的分類過程,在算法訓練結(jié)束后,通過式(6)對圖中測試樣本的標簽進行預(yù)測以完成分類。
本文使用分類精度、平均精度和每種算法能達到最佳精度的數(shù)據(jù)集數(shù)量作為實驗的評價指標,迭代次數(shù)epoch為100,實驗環(huán)境為Intel (R) Core(TM) i7-9800x CPU@3.80 GHz CPU、32 GiB RAM、Windows 10 Pro 64,開發(fā)平臺為Python 3.7。
本文從UEA&UCR時間序列數(shù)據(jù)集網(wǎng)站中選擇了5個類別共11個公開MTS數(shù)據(jù)集,見表1所列。
表1 數(shù)據(jù)集所屬的類別
實驗數(shù)據(jù)集的基本信息見表2所列。 數(shù)據(jù)集由不同應(yīng)用程序收集的真實多變量時間序列數(shù)據(jù)組成,包括人類活動識別、運動分類、音頻頻譜分類等,包含了廣泛樣本、維度和序列長度的真實多變量時序數(shù)據(jù)。
表2 實驗數(shù)據(jù)集及其基本信息
數(shù)據(jù)集中的變量數(shù)量從軌跡分類數(shù)據(jù)集中的2維變量到交通流分類任務(wù)中的963維變量不等,時間序列長度在8~3 000之間,樣本數(shù)量在27~10 992之間,樣本數(shù)據(jù)的分布是隨機的,具有代表性。
本文對比算法選擇在MTSC領(lǐng)域的12種代表性分類算法,包括9種監(jiān)督分類算法和3種半監(jiān)督分類算法。
9種監(jiān)督分類算法如下:
1) 1NN-ED[8]。 使用歐氏距離作為MTS之間的距離度量的最近鄰分類器。
2) 1NN-DTW-I[31]。 最近鄰分類器中分別計算MTS每個維度的DTW距離,并將其總和作為分類依據(jù)。
3) 1NN-DTW-D[31]。 將每個時間戳對應(yīng)的多個變量的觀測值視為一個點,在最近鄰分類器計算距離時,對齊過程與傳統(tǒng)的DTW算法相同。
4) WEASEL-MUSE[32]。 使用多個窗口長度來構(gòu)建一個大的特征空間,然后使用卡方檢驗來確定最相關(guān)的特征并將其輸入到邏輯回歸模型中。
5) MLSTM-FCN[4]。 將全卷積網(wǎng)絡(luò)模型與LSTM進行結(jié)合,同時向全卷積模塊中添加了壓縮模塊和激勵模塊。
6) Tapnet[20]。 設(shè)計了一個將時間序列的維度重構(gòu)為組的隨機組置換方法,從多變量時間序列數(shù)據(jù)中學習低維特征,利用標記樣本和未標記樣本設(shè)計了一個注意原型網(wǎng)絡(luò),有效解決了缺少標記樣本訓練模型的問題。
7) 1NN-ED(norm)。 1NN-ED在分類前對輸入數(shù)據(jù)進行的歸一化操作。
8) 1NN-DTW-I(norm)。 1NN-DTW-I在分類前對輸入數(shù)據(jù)進行的歸一化操作。
9) 1NN-DTW-D(norm)。 1NN-DTW-D在分類前對輸入數(shù)據(jù)進行的歸一化操作。
3種半監(jiān)督分類算法如下:
1) 1NN-DTW-D[33]。 使用基于距離的最近鄰分類器構(gòu)建時間序列半監(jiān)督學習算法。
2) MTL[34]。 利用已建立的多任務(wù)學習算法,將模型預(yù)測作為次要任務(wù)與主分類任務(wù)一起優(yōu)化。
3) Semi-Tapnet[20]。 Tapnet的注意原型網(wǎng)絡(luò)利用未標記數(shù)據(jù)將模型擴展到半監(jiān)督模式,應(yīng)用于MTS半監(jiān)督分類。
3.3.1 監(jiān)督分類算法的實驗結(jié)果比較
GMTSC與9種監(jiān)督分類算法的分類精度、平均精度和能達到最佳精度的數(shù)據(jù)集數(shù)量(獲勝數(shù))見表3所列。
表3 GMTSC和9種MTS分類算法在11個數(shù)據(jù)集上的分類精度
從表3可以看出,GMTSC不僅在8個數(shù)據(jù)集上取得了最佳分類精度,而且平均分類精度也達到了最佳(0.775),遠遠優(yōu)于分類精度次佳的Tapnet(0.716)。 這說明GMTSC通過將樣本關(guān)系映射到圖空間,利用圖卷積挖掘樣本間的潛在關(guān)系信息用于分類,為樣本提供了更多的可區(qū)分特征。 相比之下,幾種傳統(tǒng)的基于距離的方法平均分類精度只在0.650左右,這是由于它們只簡單利用了與測試樣本最相似的訓練集樣本進行分類,沒有深入考慮樣本間潛在的關(guān)系信息。
基于特征的分類方法和深度學習的分類方法雖然在EP和PSF等數(shù)據(jù)集中也獲得了最佳的分類精度,但在11個數(shù)據(jù)集上的平均精度也只在0.68左右,遠遠不及GMTSC。 這是由于它們在處理每個MTS樣本時,僅將其作為獨立個體進行特征提取,很少考慮使用其他相似的樣本特征信息來豐富自身特征表示。
此外,在AF和SWJ只有少量標記樣本的數(shù)據(jù)集上, GMTSC也取得了最佳分類精度,說明GMTSC充分利用了未標記樣本包含的有價值的信息,有效提升了分類性能。
本文還給出了GMTSC與9種對比算法分類性能差異的臨界差值圖,如圖2所示,具有最佳排名的分類算法位于圖中右側(cè)。 從圖2可以看出GMTSC的平均排名最高。 根據(jù) Friedman test,若算法性能相同,則它們的平均排名也相等,圖2表明GMTSC以及其他9種對比方法的性能都不相同。 使用 Nemenyi test做進一步區(qū)分,設(shè)定顯著性水平α=0.05,計算出平均排名差別的臨界值域(critical difference, CD),若2個算法的平均排名之差超出了該閾值說明2個算法性能有差異,圖2表明GMTSC在性能上顯著優(yōu)于大部分方法。
圖2 GMTSC與9種對比算法分類性能差異的鄰接差值圖
3.3.2 半監(jiān)督分類算法的實驗結(jié)果比較
本文選擇了4個屬于不同領(lǐng)域的數(shù)據(jù)集來評估GMTSC在不同的監(jiān)督水平下的分類效果,并與1NN-DTW-D、Semi-Tapnet和MTL這3種代表性半監(jiān)督分類算法進行對比。 在劃分數(shù)據(jù)集時,按照0.1~1.0遞增比例r,選取訓練集中每個類別對應(yīng)該比例的樣本數(shù)標記樣本進行訓練,剩下的樣本作為無標記樣本,保證選取的訓練集樣本包含所有的類別。
GMTSC與其他3種算法在這4個數(shù)據(jù)集下的分類精度如圖3所示。
圖3 GMTSC與3種半監(jiān)督分類算法的實驗結(jié)果
從圖3可以看出,GMTSC在分類精度上明顯優(yōu)于對比算法,尤其在AWR數(shù)據(jù)集上,GMTSC在只有0.1帶標記樣本集上訓練時分類精度能達到0.983,明顯優(yōu)于Semi-Tapnet(0.790)、MTL(0.835)和1NN-DTW-D(0.400)。
由圖3可知,隨著劃分比例的增加,GMTSC的分類性能穩(wěn)定提升,而Semi-Tapnet、MTL和1NN-DTW-D的分類性能整體變化趨勢不穩(wěn)定,尤其是基于距離的半監(jiān)督算法1NN-DTW-D極易受到單MTS樣本(噪聲數(shù)據(jù))的影響。
上述結(jié)果表明,即使只有較少的標記樣本,GMTSC通過對樣本間關(guān)系信息的挖掘以及利用未標記樣本,在MTS半監(jiān)督分類任務(wù)中具有較好的分類性能。
本文提出了GMTSC算法并用于MTS分類,設(shè)計了一種挖掘時間序列樣本間潛在關(guān)系的圖卷積模型,該模型能捕獲映射到圖空間的樣本間關(guān)系信息用于MTS分類,通過對樣本節(jié)點執(zhí)行聚合和更新操作,將潛在樣本關(guān)系信息編碼到節(jié)點特征向量更新節(jié)點自身特征以提高分類精度。 在11個數(shù)據(jù)集上與12種代表性算法進行對比,實驗結(jié)果表明GMTSC在MTS分類任務(wù)上具有優(yōu)越的性能。 未來可進一步從以下2個方面開展研究:
1) 在樣本關(guān)系圖構(gòu)建方面,探索設(shè)計一種新的構(gòu)圖規(guī)則,解決基于DTW算法構(gòu)建樣本關(guān)系圖時間復雜度過高的問題,并能夠很好地衡量時間序列之間的距離以處理時間序列不等長的問題,從而提高建圖質(zhì)量。
2) 在模型結(jié)構(gòu)設(shè)計方面,改進圖卷積網(wǎng)絡(luò),在對節(jié)點進行聚合和更新時,將與節(jié)點相連的邊的特征信息附加到節(jié)點的特征向量上一起計算,以捕獲更充分的樣本間關(guān)系信息,以期進一步提高MTS分類性能。