基于混沌關(guān)聯(lián)維與決策樹的運動數(shù)據(jù)分類研究

2022-11-29 13:23:54鄒俊穎

計算機仿真 2022年10期

鄭貞，鄒俊穎

(1. 成都中醫(yī)藥大學(xué)體育學(xué)院，四川成都 610101；2. 四川師范大學(xué)計算機科學(xué)學(xué)院，四川成都 610101)

1 引言

通過對運動數(shù)據(jù)挖掘，可以得到其中包含的特征信息，這對于運動分析與管理有著重要意義[1]。運動數(shù)據(jù)通常具有明顯的波動性，同時也具有某種程度上的關(guān)聯(lián)性，隨著移動互聯(lián)與大數(shù)據(jù)的發(fā)展，運動數(shù)據(jù)變得混沌、龐大且不平衡[2]，使得數(shù)據(jù)分類變得愈加困難。為了能夠更好的實現(xiàn)運動數(shù)據(jù)分類，增強運動數(shù)據(jù)的利用價值，相關(guān)領(lǐng)域的專家學(xué)者已經(jīng)取得了一些研究成果。文獻[3]首先針對數(shù)據(jù)邊緣做濾波處理，然后引入小波識別數(shù)據(jù)特征，最后根據(jù)RBF完成數(shù)據(jù)分類。該方法復(fù)雜度過高，不適用于大規(guī)模非規(guī)則運動數(shù)據(jù)的處理。文獻[4]針對波動的運動數(shù)據(jù)，引入了關(guān)聯(lián)維積分算法，對于隨時間波動的非規(guī)則數(shù)據(jù)具有較好的估測效果。文獻[5]針對運動數(shù)據(jù)引入圖模型，通過關(guān)聯(lián)維搜索數(shù)據(jù)特征，根據(jù)特征分布生成決策樹，從而完成數(shù)據(jù)分類。雖然該方法能夠較好的利用關(guān)聯(lián)信息，但是沒有考慮關(guān)聯(lián)維參數(shù)的影響，以及決策樹構(gòu)建的優(yōu)化。

由于不同數(shù)據(jù)間的分類方法通用性較差，加上運動數(shù)據(jù)獨有的一些特征，使得其它領(lǐng)域中的分類方法移植過來難以獲得理想的效果。目前的研究成果中，關(guān)聯(lián)維能夠較好的克服運動數(shù)據(jù)非規(guī)則和非確定性[6-7]，提高數(shù)據(jù)特征提取的準(zhǔn)確度，于是，本文也利用關(guān)聯(lián)維提取運動數(shù)據(jù)特征。同時，本文結(jié)合混沌時間序列，充分考慮了相空間的關(guān)鍵參數(shù)影響，并設(shè)計了關(guān)鍵參數(shù)最優(yōu)值的確定方法，根據(jù)相空間內(nèi)關(guān)聯(lián)相點對數(shù)量計算得到關(guān)聯(lián)積，實現(xiàn)運動數(shù)據(jù)特征提取。針對提取后的高維特征，考慮到解釋能力與多屬性組合，決定構(gòu)造多參決策樹?；趥鹘y(tǒng)決策樹在分裂次數(shù)與學(xué)習(xí)方面的性能問題[8-9]，設(shè)計了基于信息增益與增益率評價的分裂規(guī)則，避免樹生長出現(xiàn)偏向性，使決策樹生成更加純凈高效。利用剪枝策略降低決策樹的冗余度和復(fù)雜度，并采取輪廓相似性實現(xiàn)數(shù)據(jù)類型判斷。

2 混沌關(guān)聯(lián)維算法

由于采集過程存在多方面差異，運動數(shù)據(jù)一般具有多源、不規(guī)則，以及扭曲等特性。基于運動數(shù)據(jù)所表現(xiàn)出的混沌性質(zhì)，可以將其在相空間進行重構(gòu)，并通過關(guān)聯(lián)維來提取其特征。

在對運動數(shù)據(jù)采取重構(gòu)時，會構(gòu)造線性與非線性兩種序列。根據(jù)運動數(shù)據(jù)的特征，兩種序列分別代表時間與數(shù)據(jù)。假定時間序列表示為{y1，y2，…，yt}，將其與多維空間結(jié)合，可以對混沌時間進行估計。于是，運動數(shù)據(jù)在相空間中的重構(gòu)表示如下

(1)

式中，m=t-(n-1)δ；m代表嵌入維度；δ代表混沌延時。這里m與δ是影響重構(gòu)性能的關(guān)鍵參數(shù)。

針對運動數(shù)據(jù)建立分布曲線。數(shù)據(jù)范圍內(nèi)，假定y(τ)位于分布曲線i上的概率是pi，y(τ+δ)表示y(τ)對應(yīng)的δ混沌延時，y(τ+δ)位于分布曲線j上的概率是pj。則根據(jù)y(τ)及其延遲y(τ+δ)可得聯(lián)合概率pij(δ)。由此，計算得到混沌時間互信息如下

(2)

雖然y(τ+δ)與y(τ)存在δ混沌延時，但是y(τ+δ)與y(τ)各自獨立，而且互信息M(δ)的值越小，說明y(τ+δ)與y(τ)獨立程度越高。當(dāng)互信息M(δ)的值為零時，y(τ+δ)無法估算。此時，可以通過計算τ+δ時間的自相關(guān)程度來確定最優(yōu)δ。自相關(guān)程度的計算公式如下

(3)

Ym={ym，y(m+δ)，…，y(m+(n-1)δ)}

(4)

當(dāng)m取最小時，還能夠保證重構(gòu)滿足如下約束，則Y(m)可看成是Ym的虛假臨界點

(5)

式中，Th表示閾值。至此，利用虛假臨界點的條件約束，可以確定最優(yōu)m。結(jié)合最優(yōu)δ，便可以完成相空間的合理重構(gòu)。

在經(jīng)過重構(gòu)之后的相空間內(nèi)，如果yi與yj相距在d范圍以內(nèi)，則表示yi與yj存在關(guān)聯(lián)。除去數(shù)據(jù)yi，與yj相距在d以內(nèi)的數(shù)據(jù)集合表示為

(6)

(7)

由于I(d)也表示運動數(shù)據(jù)混沌特征，因此，通過求解I(d)實現(xiàn)了特征提取。

3 決策樹分類

在執(zhí)行第一步驟的過程時，利用屬性組合構(gòu)成評判規(guī)則

(8)

式中，k表示數(shù)據(jù)的屬性數(shù)量；Xi表示數(shù)據(jù)的第i個特征屬性；wi表示Xi的加權(quán)；TX表示門限。為增強葉子的純凈度，在屬性組合基礎(chǔ)上引入信息增益

G(Z|X)=Hs(Y)-E(Hs(Y|X))

(9)

G(Z|X)即為分裂過程信息增益，用來衡量屬性區(qū)分的訓(xùn)練性能。式中，E(Hs(Y|X))為計算Hs(Y|X)的期望；Hs(·)為香農(nóng)熵，計算公式表示為

(10)

當(dāng)G(Z|X)具有最大值時，分裂得到葉子分類的純凈度最高。但是在G(Z|X)取得最大值時，可能是某些原因引起的G(Z|X)假性升高，從而引發(fā)分裂的偏向性。為此，采用信息增益率評價來抑制G(Z|X)可能受到的干擾，其公式表示為

R(Z|X)=G(Z|X)/U(Y)

(11)

式中，U(Y)為葉子分布熵。葉子越多，U(Y)值越大，如果葉子增多使得數(shù)據(jù)平衡性變差，利用U(Y)的波動就能夠調(diào)整傾斜，從而有效控制G(Z|X)免受干擾。

求解信息增益的過程中，熵期望E(Hs(Y|X))的計算表示為

E(Hs(Y|X))=W(X>Xi)Hs(Y|X>Xi)

+W(X

(12)

圖1 數(shù)據(jù)分布交叉區(qū)

圖1描述了數(shù)據(jù)分布情況，其中[Xi，Yi]是紅藍(lán)兩類數(shù)據(jù)交叉區(qū)。如果分裂點選擇Xi，那么有Hs(Y|X

E(Hs(Y|Xi))=W(X>Xi)Hs(X>Xi)

(13)

如果分裂點選擇Xj，則Hs(Y|X>Xj)=0，此時期望描述為

E(Hs(Y|Xj))=W(X

(14)

對于數(shù)據(jù)交叉區(qū)[Xi，Yj]，根據(jù)兩類數(shù)據(jù)的多少可判斷出E(Hs(Y|Xi))與E(Hs(Y|Xj))的大小，從而確定Xi與Xj哪個作為分裂點更合適。如果最終選擇Xi作為分裂點，則可將XXi的數(shù)據(jù)在決策樹中。如果最終選擇Xj作為分裂點，則可將X>Xj的所有數(shù)據(jù)刪除，只保留X

(15)

式中，關(guān)于faj、Qj和Pj參量的計算方式分別描述如下

(16)

(17)

(18)

4 仿真與結(jié)果分析

實驗平臺JDK版本為JDK1.8.65，Python開發(fā)環(huán)境為Eclipse，數(shù)據(jù)通過Python在網(wǎng)絡(luò)中爬取得到，總共包含18869條運動數(shù)據(jù)。利用WEKA進行分類實驗，該平臺可以用于數(shù)據(jù)挖掘，采取其自帶的J48實現(xiàn)決策樹。

采用準(zhǔn)確度來衡量運動數(shù)據(jù)的分類準(zhǔn)確性，其公式表示如下

Accuracy=countture/counttotal

(19)

countture是被正確分類的正樣本數(shù)量；counttotal是全部數(shù)據(jù)集中的數(shù)據(jù)數(shù)量。

實驗過程中，隨機選擇1000條數(shù)據(jù)作為測試樣本，利用PrintBolt輸出運動數(shù)據(jù)分類的準(zhǔn)確度，10次實驗得出的結(jié)果如表1所示。通過結(jié)果對比分析可知，所提算法對運動數(shù)據(jù)的分類準(zhǔn)確度高于其它方法，10次實驗的準(zhǔn)確度平均值分別高于其它方法3.85%和1.17%。并且算法性能更加穩(wěn)定，準(zhǔn)確度波動范圍保持在12.43%。

表1 分類準(zhǔn)確度結(jié)果(%)

為了更加合理的衡量分類方法的有效性，采用靈敏度指標(biāo)進行補充評價，其公式如下

Recall=countture/(countture+countfalse)

(20)

式中，countfalse是被錯誤分類的正樣本數(shù)量。Recall能夠描述某個正確分類和實際分類的數(shù)據(jù)量比例關(guān)系，Recall值越大表示分類性能越好。

通過10次實驗得出Recall指標(biāo)的平均值，以及決策樹相關(guān)參數(shù)(文獻[4]方法不包含決策樹)，結(jié)果如表2所示。根據(jù)Recall指標(biāo)比較可知，本文方法較其它方法具有更好的召回率，能夠降低數(shù)據(jù)錯誤分類的概率。另外，通過決策樹規(guī)模和節(jié)點的比較可知，本文方法的分類計算復(fù)雜度明顯低于文獻[5]方法，有助于分類速度的提升。

表2 Recall指標(biāo)與決策樹相關(guān)參數(shù)

選擇不合度指標(biāo)來進一步衡量運動數(shù)據(jù)的分類性能。其公式如下

(21)

針對10個相鄰數(shù)據(jù)分類，仿真得到它們與其它類的不合度，結(jié)果如圖2所示。根據(jù)不合度比較可知，對于10個相鄰數(shù)據(jù)分類，本文方法的不合度顯然更加穩(wěn)定，沒有在某個分類上出現(xiàn)明顯較大的不合度。并且平均不合度僅為19.46%，分別比其它方法低6.98%和3.37%，較其它方法顯然更好。

圖2 不合度結(jié)果對比

將原始數(shù)據(jù)循環(huán)輸入分類算法模型，得到對應(yīng)的吞吐量曲線，如圖3所示。根據(jù)曲線分析可知，因為早期數(shù)據(jù)量的增長未超過決策樹構(gòu)建需求，所以吞吐量都不高，且都處于緩慢增長趨勢。到了中后期，數(shù)據(jù)量增長達到?jīng)Q策樹構(gòu)建需求，吞吐量開始快速增加，表明方法具有更好的數(shù)據(jù)分類速度。本文算法在分裂過程中，多參決策樹和剪枝操作表現(xiàn)出明顯優(yōu)勢，決策樹相關(guān)參數(shù)得到有效優(yōu)化，分類效率增長明顯。

圖3 吞吐量結(jié)果對比

5 結(jié)束語