鄭 貞,鄒俊穎
(1. 成都中醫(yī)藥大學(xué)體育學(xué)院,四川 成都 610101;2. 四川師范大學(xué)計算機科學(xué)學(xué)院,四川 成都 610101)
通過對運動數(shù)據(jù)挖掘,可以得到其中包含的特征信息,這對于運動分析與管理有著重要意義[1]。運動數(shù)據(jù)通常具有明顯的波動性,同時也具有某種程度上的關(guān)聯(lián)性,隨著移動互聯(lián)與大數(shù)據(jù)的發(fā)展,運動數(shù)據(jù)變得混沌、龐大且不平衡[2],使得數(shù)據(jù)分類變得愈加困難。為了能夠更好的實現(xiàn)運動數(shù)據(jù)分類,增強運動數(shù)據(jù)的利用價值,相關(guān)領(lǐng)域的專家學(xué)者已經(jīng)取得了一些研究成果。文獻[3]首先針對數(shù)據(jù)邊緣做濾波處理,然后引入小波識別數(shù)據(jù)特征,最后根據(jù)RBF完成數(shù)據(jù)分類。該方法復(fù)雜度過高,不適用于大規(guī)模非規(guī)則運動數(shù)據(jù)的處理。文獻[4]針對波動的運動數(shù)據(jù),引入了關(guān)聯(lián)維積分算法,對于隨時間波動的非規(guī)則數(shù)據(jù)具有較好的估測效果。文獻[5]針對運動數(shù)據(jù)引入圖模型,通過關(guān)聯(lián)維搜索數(shù)據(jù)特征,根據(jù)特征分布生成決策樹,從而完成數(shù)據(jù)分類。雖然該方法能夠較好的利用關(guān)聯(lián)信息,但是沒有考慮關(guān)聯(lián)維參數(shù)的影響,以及決策樹構(gòu)建的優(yōu)化。
由于不同數(shù)據(jù)間的分類方法通用性較差,加上運動數(shù)據(jù)獨有的一些特征,使得其它領(lǐng)域中的分類方法移植過來難以獲得理想的效果。目前的研究成果中,關(guān)聯(lián)維能夠較好的克服運動數(shù)據(jù)非規(guī)則和非確定性[6-7],提高數(shù)據(jù)特征提取的準(zhǔn)確度,于是,本文也利用關(guān)聯(lián)維提取運動數(shù)據(jù)特征。同時,本文結(jié)合混沌時間序列,充分考慮了相空間的關(guān)鍵參數(shù)影響,并設(shè)計了關(guān)鍵參數(shù)最優(yōu)值的確定方法,根據(jù)相空間內(nèi)關(guān)聯(lián)相點對數(shù)量計算得到關(guān)聯(lián)積,實現(xiàn)運動數(shù)據(jù)特征提取。針對提取后的高維特征,考慮到解釋能力與多屬性組合,決定構(gòu)造多參決策樹?;趥鹘y(tǒng)決策樹在分裂次數(shù)與學(xué)習(xí)方面的性能問題[8-9],設(shè)計了基于信息增益與增益率評價的分裂規(guī)則,避免樹生長出現(xiàn)偏向性,使決策樹生成更加純凈高效。利用剪枝策略降低決策樹的冗余度和復(fù)雜度,并采取輪廓相似性實現(xiàn)數(shù)據(jù)類型判斷。
由于采集過程存在多方面差異,運動數(shù)據(jù)一般具有多源、不規(guī)則,以及扭曲等特性。基于運動數(shù)據(jù)所表現(xiàn)出的混沌性質(zhì),可以將其在相空間進行重構(gòu),并通過關(guān)聯(lián)維來提取其特征。
在對運動數(shù)據(jù)采取重構(gòu)時,會構(gòu)造線性與非線性兩種序列。根據(jù)運動數(shù)據(jù)的特征,兩種序列分別代表時間與數(shù)據(jù)。假定時間序列表示為{y1,y2,…,yt},將其與多維空間結(jié)合,可以對混沌時間進行估計。于是,運動數(shù)據(jù)在相空間中的重構(gòu)表示如下
(1)
式中,m=t-(n-1)δ;m代表嵌入維度;δ代表混沌延時。這里m與δ是影響重構(gòu)性能的關(guān)鍵參數(shù)。
針對運動數(shù)據(jù)建立分布曲線。數(shù)據(jù)范圍內(nèi),假定y(τ)位于分布曲線i上的概率是pi,y(τ+δ)表示y(τ)對應(yīng)的δ混沌延時,y(τ+δ)位于分布曲線j上的概率是pj。則根據(jù)y(τ)及其延遲y(τ+δ)可得聯(lián)合概率pij(δ)。由此,計算得到混沌時間互信息如下
(2)
雖然y(τ+δ)與y(τ)存在δ混沌延時,但是y(τ+δ)與y(τ)各自獨立,而且互信息M(δ)的值越小,說明y(τ+δ)與y(τ)獨立程度越高。當(dāng)互信息M(δ)的值為零時,y(τ+δ)無法估算。此時,可以通過計算τ+δ時間的自相關(guān)程度來確定最優(yōu)δ。自相關(guān)程度的計算公式如下
(3)
Ym={ym,y(m+δ),…,y(m+(n-1)δ)}
(4)
當(dāng)m取最小時,還能夠保證重構(gòu)滿足如下約束,則Y(m)可看成是Ym的虛假臨界點
(5)
式中,Th表示閾值。至此,利用虛假臨界點的條件約束,可以確定最優(yōu)m。結(jié)合最優(yōu)δ,便可以完成相空間的合理重構(gòu)。
在經(jīng)過重構(gòu)之后的相空間內(nèi),如果yi與yj相距在d范圍以內(nèi),則表示yi與yj存在關(guān)聯(lián)。除去數(shù)據(jù)yi,與yj相距在d以內(nèi)的數(shù)據(jù)集合表示為
(6)
(7)
由于I(d)也表示運動數(shù)據(jù)混沌特征,因此,通過求解I(d)實現(xiàn)了特征提取。
在執(zhí)行第一步驟的過程時,利用屬性組合構(gòu)成評判規(guī)則
(8)
式中,k表示數(shù)據(jù)的屬性數(shù)量;Xi表示數(shù)據(jù)的第i個特征屬性;wi表示Xi的加權(quán);TX表示門限。為增強葉子的純凈度,在屬性組合基礎(chǔ)上引入信息增益
G(Z|X)=Hs(Y)-E(Hs(Y|X))
(9)
G(Z|X)即為分裂過程信息增益,用來衡量屬性區(qū)分的訓(xùn)練性能。式中,E(Hs(Y|X))為計算Hs(Y|X)的期望;Hs(·)為香農(nóng)熵,計算公式表示為
(10)
當(dāng)G(Z|X)具有最大值時,分裂得到葉子分類的純凈度最高。但是在G(Z|X)取得最大值時,可能是某些原因引起的G(Z|X)假性升高,從而引發(fā)分裂的偏向性。為此,采用信息增益率評價來抑制G(Z|X)可能受到的干擾,其公式表示為
R(Z|X)=G(Z|X)/U(Y)
(11)
式中,U(Y)為葉子分布熵。葉子越多,U(Y)值越大,如果葉子增多使得數(shù)據(jù)平衡性變差,利用U(Y)的波動就能夠調(diào)整傾斜,從而有效控制G(Z|X)免受干擾。
求解信息增益的過程中,熵期望E(Hs(Y|X))的計算表示為
E(Hs(Y|X))=W(X>Xi)Hs(Y|X>Xi)
+W(X (12) 圖1 數(shù)據(jù)分布交叉區(qū) 圖1描述了數(shù)據(jù)分布情況,其中[Xi,Yi]是紅藍(lán)兩類數(shù)據(jù)交叉區(qū)。如果分裂點選擇Xi,那么有Hs(Y|X E(Hs(Y|Xi))=W(X>Xi)Hs(X>Xi) (13) 如果分裂點選擇Xj,則Hs(Y|X>Xj)=0,此時期望描述為 E(Hs(Y|Xj))=W(X (14) 對于數(shù)據(jù)交叉區(qū)[Xi,Yj],根據(jù)兩類數(shù)據(jù)的多少可判斷出E(Hs(Y|Xi))與E(Hs(Y|Xj))的大小,從而確定Xi與Xj哪個作為分裂點更合適。如果最終選擇Xi作為分裂點,則可將X (15) 式中,關(guān)于faj、Qj和Pj參量的計算方式分別描述如下 (16) (17) (18) 實驗平臺JDK版本為JDK1.8.65,Python開發(fā)環(huán)境為Eclipse,數(shù)據(jù)通過Python在網(wǎng)絡(luò)中爬取得到,總共包含18869條運動數(shù)據(jù)。利用WEKA進行分類實驗,該平臺可以用于數(shù)據(jù)挖掘,采取其自帶的J48實現(xiàn)決策樹。 采用準(zhǔn)確度來衡量運動數(shù)據(jù)的分類準(zhǔn)確性,其公式表示如下 Accuracy=countture/counttotal (19) countture是被正確分類的正樣本數(shù)量;counttotal是全部數(shù)據(jù)集中的數(shù)據(jù)數(shù)量。 實驗過程中,隨機選擇1000條數(shù)據(jù)作為測試樣本,利用PrintBolt輸出運動數(shù)據(jù)分類的準(zhǔn)確度,10次實驗得出的結(jié)果如表1所示。通過結(jié)果對比分析可知,所提算法對運動數(shù)據(jù)的分類準(zhǔn)確度高于其它方法,10次實驗的準(zhǔn)確度平均值分別高于其它方法3.85%和1.17%。并且算法性能更加穩(wěn)定,準(zhǔn)確度波動范圍保持在12.43%。 表1 分類準(zhǔn)確度結(jié)果(%) 為了更加合理的衡量分類方法的有效性,采用靈敏度指標(biāo)進行補充評價,其公式如下 Recall=countture/(countture+countfalse) (20) 式中,countfalse是被錯誤分類的正樣本數(shù)量。Recall能夠描述某個正確分類和實際分類的數(shù)據(jù)量比例關(guān)系,Recall值越大表示分類性能越好。 通過10次實驗得出Recall指標(biāo)的平均值,以及決策樹相關(guān)參數(shù)(文獻[4]方法不包含決策樹),結(jié)果如表2所示。根據(jù)Recall指標(biāo)比較可知,本文方法較其它方法具有更好的召回率,能夠降低數(shù)據(jù)錯誤分類的概率。另外,通過決策樹規(guī)模和節(jié)點的比較可知,本文方法的分類計算復(fù)雜度明顯低于文獻[5]方法,有助于分類速度的提升。 表2 Recall指標(biāo)與決策樹相關(guān)參數(shù) 選擇不合度指標(biāo)來進一步衡量運動數(shù)據(jù)的分類性能。其公式如下 (21) 針對10個相鄰數(shù)據(jù)分類,仿真得到它們與其它類的不合度,結(jié)果如圖2所示。根據(jù)不合度比較可知,對于10個相鄰數(shù)據(jù)分類,本文方法的不合度顯然更加穩(wěn)定,沒有在某個分類上出現(xiàn)明顯較大的不合度。并且平均不合度僅為19.46%,分別比其它方法低6.98%和3.37%,較其它方法顯然更好。 圖2 不合度結(jié)果對比 將原始數(shù)據(jù)循環(huán)輸入分類算法模型,得到對應(yīng)的吞吐量曲線,如圖3所示。根據(jù)曲線分析可知,因為早期數(shù)據(jù)量的增長未超過決策樹構(gòu)建需求,所以吞吐量都不高,且都處于緩慢增長趨勢。到了中后期,數(shù)據(jù)量增長達到?jīng)Q策樹構(gòu)建需求,吞吐量開始快速增加,表明方法具有更好的數(shù)據(jù)分類速度。本文算法在分裂過程中,多參決策樹和剪枝操作表現(xiàn)出明顯優(yōu)勢,決策樹相關(guān)參數(shù)得到有效優(yōu)化,分類效率增長明顯。 圖3 吞吐量結(jié)果對比 本文根據(jù)時間序列構(gòu)造運動數(shù)據(jù)的相空間,結(jié)合混沌軌跡提取數(shù)據(jù)特征。對關(guān)聯(lián)維提取出的特征變量,構(gòu)建多參決策樹,利用決策樹的可解釋性實現(xiàn)數(shù)據(jù)分類。為驗證所提方法對運動數(shù)據(jù)分類的實際效果,基于WEKA數(shù)據(jù)挖掘環(huán)境進行仿真,得到方法的準(zhǔn)確度為81.47%,靈敏度為83.92%,不合度為19.46%,結(jié)果充分說明方法具有良好的分類性能。同時吞吐量結(jié)果也說明方法具有良好的數(shù)據(jù)處理效率。4 仿真與結(jié)果分析
5 結(jié)束語