許麗娟,葉仕通
(廣州華商學(xué)院 數(shù)據(jù)科學(xué)學(xué)院,廣東 廣州 511300)
在數(shù)據(jù)泛濫的當(dāng)下,對于興趣推薦、故障檢測、圖像處理、傳感數(shù)據(jù)融合等應(yīng)用方面,數(shù)據(jù)挖掘需要面對越來越艱巨的挑戰(zhàn)[1]。對于一些傳統(tǒng)應(yīng)用需求,其任務(wù)就是對信息流進(jìn)行主特征的識(shí)別,比較流行的處理手段通常包括特征提取、關(guān)聯(lián)規(guī)則,以及一些結(jié)合生物智能的聚類等[2]。數(shù)據(jù)特征深入研究可以分為顯著與非顯著,目前這些算法的提出主要針對顯著特征的檢測識(shí)別,很少有專門針對非顯著特征的算法,對于當(dāng)前日益增長的復(fù)雜應(yīng)用場景,已經(jīng)很難滿足實(shí)際應(yīng)用需求。比如存在稀疏甚至非規(guī)則數(shù)據(jù),或者鄰域范圍內(nèi)存在離群現(xiàn)象的場景,會(huì)因噪聲數(shù)據(jù)引入很多偽點(diǎn),影響數(shù)據(jù)挖掘精度的同時(shí),也增加了挖掘耗時(shí),使算法性能整體被拉低[3,4]。
為了增強(qiáng)對信息的識(shí)別性能,一些學(xué)者已經(jīng)關(guān)注到非顯著特征的數(shù)據(jù)處理領(lǐng)域。文獻(xiàn)[5]為了降低視頻圖像檢測的精度偏差,先將原始數(shù)據(jù)采取濾波操作,得到初步特征域,再根據(jù)SUSAN搜索其中的角點(diǎn),推導(dǎo)灰度差異,最終完成特征識(shí)別。由于該算法是基于視頻圖像設(shè)計(jì)的,盡管在實(shí)驗(yàn)中表現(xiàn)出優(yōu)秀的魯棒性,可是很難將其遷移到數(shù)據(jù)的檢索和挖掘應(yīng)用中。文獻(xiàn)[6]先對數(shù)據(jù)采取分解,再把各分解屬性做匹配計(jì)算,從而得到特征分類。經(jīng)過在云計(jì)算數(shù)據(jù)庫上的仿真測試,驗(yàn)證了該算法擁有良好的實(shí)時(shí)性,而在精度方面還有欠缺。文獻(xiàn)[7]針對多噪聲干擾引入濾波操作,為防止濾波發(fā)散設(shè)計(jì)了協(xié)方差比較,并采用模糊推理進(jìn)行結(jié)果糾正?;谠朴?jì)算平臺(tái)的數(shù)據(jù)實(shí)驗(yàn),驗(yàn)證了該算法對于傳感數(shù)據(jù)融合的可靠性,但是對于子域內(nèi)的一些特征挖掘效果不夠理想。
由于數(shù)據(jù)挖掘的目標(biāo)就是確定數(shù)據(jù)發(fā)展傾向,這與聚類的目標(biāo)不謀而合,而SOM[8]因其在文本處理上表現(xiàn)出良好的學(xué)習(xí)性,本文提出SOM與聚類算法結(jié)合,完成對非顯著特征數(shù)據(jù)的挖掘。在傳統(tǒng)的一些SOM模型設(shè)計(jì)中,由于神經(jīng)元規(guī)模過于龐大,使得本應(yīng)歸為一類的特征卻未被支配到同一個(gè)神經(jīng)元[9],因此對特征分類結(jié)果產(chǎn)生嚴(yán)重干擾。而當(dāng)前對SOM的優(yōu)化模型,大部分是對數(shù)據(jù)特征的逼近效果做改善處理,從而也帶來了算法過擬合的詬病。本文基于時(shí)頻分析和寬平穩(wěn)過濾,來得到非顯著特征。并基于修正鏈接權(quán)重的SOM模型進(jìn)行特征訓(xùn)練,最終改善聚類的敏感性和適應(yīng)性,增強(qiáng)對非顯著特征的挖掘效果。
假定原始數(shù)據(jù)為U={u1,u2,…,ue},其中任意元素都是矢量,將非顯著特征基于頻域進(jìn)行分析,得到頻域方程如下
ue=Uef+δeL(t)
(1)
f代表特征傳函;δe代表估計(jì)偏差;L(t)代表負(fù)載平衡模型,公式如下
(2)
wi代表相位;φi代表融合程度;ε代表修正程度;F(Ci+τi)是擬合操作。通過寬平穩(wěn)特征,對特征采取過濾,公式如下
(3)
(4)
hi表示發(fā)送載波。通過時(shí)頻域的分析,可以完成非顯著特征的提取,以及擬合處理。在采用學(xué)習(xí)網(wǎng)絡(luò)對特征數(shù)據(jù)進(jìn)行挖掘訓(xùn)練的過程中,應(yīng)該保證符合如下限定
(5)
ri(k)是序號(hào)為i的非顯著特征。訓(xùn)練的期望公式如下
(6)
η是常系數(shù);δ是訓(xùn)練偏差。
此外,在訓(xùn)練過程中,由于離群因子對特征分類的具有明顯的影響作用,于是這里針對非顯著特征將其進(jìn)行重新定義。假定任意數(shù)據(jù)r,它的相似k近鄰記作SK(r)={r1,r2,…,rl+1},l表示r鄰域范圍內(nèi)的對象數(shù)量,且鄰域范圍內(nèi)對象包含r自身。根據(jù)r的鄰域情況,將離群因子公式表示如下
(7)
其中,Q(r)表示r的鄰域?qū)ο蠹?dis(i)表示對象i的相似k距離。
SOM作為神經(jīng)元聚類,具有無監(jiān)督學(xué)習(xí)優(yōu)勢。利用輸入與神經(jīng)元的比較,決定網(wǎng)絡(luò)輸出結(jié)果,且每次比較輸出具有唯一性。所有輸出根據(jù)加權(quán)值向輸入靠攏,直至全部近似特征完成匯集為止。
圖1描述了SOM的神經(jīng)元模型。其中,input為特征向量,表示為I={im|m=1,…,k},m代表I的維度。經(jīng)過比較篩選,獲勝的神經(jīng)元來到output層,對于任意獲勝神經(jīng)元n,加權(quán)值可以描述成Wn={ωmn|m=1,…,k;n=1,…,d},d代表output神經(jīng)元數(shù)量。由input層的I與加權(quán)值,就可以得到如下的歐氏距離求解公式
圖1 SOM網(wǎng)絡(luò)模型
(8)
對于SOM學(xué)習(xí)網(wǎng)絡(luò),ωmn代表的含義為input層第m維向量和output層第n個(gè)篩選結(jié)果的鏈接權(quán)重。利用式(1),求解出最小dn(I)所對應(yīng)的神經(jīng)元。并以此神經(jīng)元作為基準(zhǔn),在一定范圍內(nèi)對其加權(quán)值進(jìn)行調(diào)節(jié),從而保證和input層向量的自適應(yīng)近似性。在SOM模型中,output層篩選出的神經(jīng)元數(shù)量對于最終結(jié)果有著重要影響。如果output層的輸出不足,則會(huì)使得分類不夠細(xì)致;而如果output層的輸出超量,則會(huì)使得網(wǎng)絡(luò)產(chǎn)生很多無效節(jié)點(diǎn)?;诖?本文提出如下方式計(jì)算output層輸出數(shù)量
d=nc+as0+b
(9)
nc代表聚類的個(gè)數(shù);s0代表原始節(jié)點(diǎn)規(guī)模;a代表s0的影響因子;0
根據(jù)加權(quán)值的變化范圍,SOM鏈接加權(quán)的更新公式為
ω′mn=N(t)·Rm(t)·(in-ωmn)
(10)
t代表學(xué)習(xí)進(jìn)行至第t輪;N(t)代表學(xué)習(xí)率;Rm(t)代表加權(quán)值的搜索空間。在學(xué)習(xí)輪次增加過程中,由于輸出逐漸趨于穩(wěn)定,學(xué)習(xí)率也將逐漸降低。
通過以上自組織投影,SOM便能夠?qū)崿F(xiàn)input層樣本的訓(xùn)練工作,在ωmn作用下使網(wǎng)絡(luò)輸出結(jié)果穩(wěn)定接近輸入I。再經(jīng)過屬性計(jì)算,就可以達(dá)到聚類結(jié)果至output層神經(jīng)元的投影計(jì)算。雖然此時(shí)的SOM中,任意樣本僅存在唯一的活動(dòng)神經(jīng)元,可以有效保證ωmn和I具有相同的分布狀態(tài),但是為了能夠令ωmn和所屬類具有更好的擬合效果,需要對ωmn的調(diào)節(jié)方式采取進(jìn)一步完善。引入加權(quán)調(diào)節(jié)修正因子,于是鏈接加權(quán)的更新過程描述為
ω′mn=N(t)·Rm(t)·(in-ωmn)+N(t)·C(t)
(11)
C(t)是修正向量,表示為
C(t)={c1(t),c2(t),…,ck(t)}
(12)
其中,ck(t)是目標(biāo)函數(shù),它的數(shù)量由輸入向量的維度決定,函數(shù)具體形式為
(13)
(14)
假定α與β滿足高斯分布,則根據(jù)maxck(t)能夠推導(dǎo)出如下關(guān)系
(15)
Trace(·)表示對矩陣對角線進(jìn)行累加計(jì)算;T表示Hessen矩陣。
通過C(t)糾正神經(jīng)元之間的鏈接加權(quán)。由于ck(t)值和逼近程度成反比關(guān)系,因此,糾正過程就是尋求最小ck(t)過程?;诖?再根據(jù)正則因子對糾正的過程進(jìn)行約束,從而限定ck(t)值,防止出現(xiàn)過擬合現(xiàn)象。
仿真前,通過電商平臺(tái)搜集五類商品數(shù)據(jù),將其映射成固定格式作為原始數(shù)據(jù)集,具體的實(shí)例與特征情況如表1中所描述?;赑ython的gensim對數(shù)據(jù)采取向量構(gòu)造,并實(shí)現(xiàn)SOM訓(xùn)練模型。訓(xùn)練過程中鄰域半徑是0.3,學(xué)習(xí)率是0.5,原始節(jié)點(diǎn)規(guī)模的影響因子a=1,最大迭代數(shù)量是1000此。
表1 初始數(shù)據(jù)集
圖2是對數(shù)據(jù)1進(jìn)行非顯著特征聚類的結(jié)果,實(shí)驗(yàn)設(shè)定了5個(gè)非顯著特征的類別。
圖2 聚類結(jié)果
通過可視化結(jié)果可以看出,經(jīng)過SOM訓(xùn)練后,確實(shí)出現(xiàn)了5個(gè)非顯著特征的聚集簇,其它類型數(shù)據(jù)分散周圍。
為了定量分析所提SOM優(yōu)化算法的聚類性能,引入如下評價(jià)指標(biāo):
1)準(zhǔn)確率,用于衡量被正確分類的樣本占全部樣本的比例,計(jì)算公式為
(16)
Ncorrect代表被正確分類的樣本數(shù)量;Ntotal代表全部樣本數(shù)量。ACC值越大,意味著聚類算法的識(shí)別效果越好。
2)凝聚程度,用于衡量分類中樣本之間的耦合程度,計(jì)算公式為
(17)
n代表聚類的數(shù)量;Ni代表聚類i中樣本數(shù)量;i代表聚類i中錯(cuò)誤分類的樣本數(shù)量;ai代表與聚類i產(chǎn)生關(guān)聯(lián)的神經(jīng)元數(shù)量。C值越大,意味著樣本聚類的越為緊湊,內(nèi)斂效果越好。
將本文提出的改進(jìn)SOM聚類與傳統(tǒng)SOM算法做性能比較,針對5個(gè)數(shù)據(jù)集,分別得到兩種聚類算法的ACC值與C值,結(jié)果比較如圖3和圖4。
圖3 準(zhǔn)確率對比
圖4 凝聚程度對比
由ACC的結(jié)果可得,改進(jìn)SOM算法對于不同數(shù)據(jù)集的聚類處理差異相對較小,平均準(zhǔn)確率達(dá)到97.44%。而傳統(tǒng)SOM聚類對于不同數(shù)據(jù)集的處理敏感度很高,聚類準(zhǔn)確度波動(dòng)明顯,平均準(zhǔn)確率僅為92.87%。這表明改進(jìn)SOM算法具有良好的適應(yīng)性與魯棒性。
從凝聚程度對比可得,在5中數(shù)據(jù)集測試中,改進(jìn)SOM算法的最高凝聚程度達(dá)到0.553,平均凝聚程度為0.493。而傳統(tǒng)SOM的最高凝聚程度為0.478,平均凝聚程度僅為0.353。這表明改進(jìn)SOM算法的輸出結(jié)果具有更好的低耦合高內(nèi)斂效果。
聚類效果的改善,主要得益于鏈接權(quán)重計(jì)算時(shí)采用了修正因子,并采取貝葉斯對鏈接權(quán)重進(jìn)行更新計(jì)算,保證了算法對不同維度不同類型數(shù)據(jù)的適應(yīng)性和識(shí)別率。
為了衡量數(shù)據(jù)挖掘性能,對算法的準(zhǔn)確性和執(zhí)行時(shí)間進(jìn)行仿真測試。采用文獻(xiàn)[5]、文獻(xiàn)[6]和文獻(xiàn)[7]中算法,以及傳統(tǒng)SOM算法作為比較,引入均方根誤差和執(zhí)行時(shí)間指標(biāo)。其中,均方根誤差計(jì)算方式如下
(18)
RMSE值越小,意味著數(shù)據(jù)挖掘的準(zhǔn)確性越高。
關(guān)于RMSE的結(jié)果對比如圖5所示。通過不同算法的比較可得,SOM優(yōu)化算法的RMSE指標(biāo)較文獻(xiàn)[5]、文獻(xiàn)[6]、文獻(xiàn)[7],以及傳統(tǒng)SOM算法分別降低了0.307、0.125、0.062、0.640,對非顯著特征數(shù)據(jù)挖掘精度得到明顯提升。
圖5 RMSE結(jié)果對比
關(guān)于各算法的執(zhí)行時(shí)間對比如圖6所示。通過比較可得,SOM優(yōu)化算法的執(zhí)行時(shí)間雖然不是最短的,但是已經(jīng)能夠滿足當(dāng)前數(shù)據(jù)規(guī)模下的挖掘需求,且同時(shí)保證良好可靠的挖掘準(zhǔn)確性。
圖6 執(zhí)行時(shí)間對比
本文針對非顯著特征數(shù)據(jù)挖掘存在的問題,采取時(shí)頻分析結(jié)合濾波算法的方式,降低稀疏與噪聲影響。同時(shí)考慮到特征訓(xùn)練網(wǎng)絡(luò)的非監(jiān)督性,引入SOM,并對其output輸出和鏈接權(quán)重的更新方式分別進(jìn)行了優(yōu)化設(shè)計(jì)。通過多個(gè)數(shù)據(jù)集上的可視化結(jié)果與數(shù)值結(jié)果,證明了改進(jìn)SOM具有很高的準(zhǔn)確度和凝聚程度;在非特征數(shù)據(jù)挖掘時(shí),在較小的執(zhí)行時(shí)間內(nèi),能夠保證較低的挖掘誤差,各項(xiàng)數(shù)據(jù)充分表明所提算法在非特征數(shù)據(jù)挖掘方面的性能優(yōu)勢。