張歡韻 李益才 藍章禮
摘 要: RFID采集的車輛信息可以識別營運車輛的運行規(guī)律,采用這種方法能找出運行規(guī)律類似營運車輛的私家車,并判定為疑似非法營運車輛。應用SOM神經(jīng)網(wǎng)絡聚類時,初始化網(wǎng)絡需要設置各種參數(shù)。為此,提出一種自適應確定網(wǎng)絡訓練次數(shù)的方法,利用權值導數(shù)來判斷是否停止訓練。利用UCI數(shù)據(jù)集對傳統(tǒng)的和改進后的網(wǎng)絡進行測試并對比,發(fā)現(xiàn)改進后的網(wǎng)絡優(yōu)于傳統(tǒng)網(wǎng)絡。最后,將改進后的網(wǎng)絡用在車輛運行規(guī)律識別中,得到預期的效果。
關鍵詞: SOM神經(jīng)網(wǎng)絡; 網(wǎng)絡訓練; 自適應; 聚類
中圖分類號:TP391.4 文獻標志碼:A 文章編號:1006-8228(2014)04-09-03
Abstract: The vehicle information collected by RFID could identify laws of the commercial vehicles' operation. Using this approach can find out private cars which have similar operation laws, and judge them as suspected illegal vehicles. When using SOM neural network to cluster, various parameters need to be set when initializing the network. A self-adaptive method is introduced for determining the network training times, which uses weights derivative to determine whether to stop training. After the test and comparison of the traditional and the improved network by taking advantage of UCI datasets, it turns out that the improved network is better than the traditional network. Finally, when the improved network is used in identification of the vehicle, an expected recognition results can be reached.
Key words: SOM neural network; network training; a self-adaptive method; cluster
0 引言
RFID技術作為一種新興的車輛監(jiān)控技術,正在被廣泛地應用于交通領域,重慶市目前正在建設全球最大規(guī)模的以UHF RFID技術為基礎的車聯(lián)網(wǎng),已建設RFID數(shù)據(jù)采集點300余處,給利用RFID數(shù)據(jù)來進行非法營運車輛的識別提供了可能。項目前期已經(jīng)得到了模擬城市某點的RFID對各種機動車輛仿真的數(shù)據(jù),其中包括營運車輛和非營運車輛。營運車輛包括:公交車、長短途客運車輛和出租車;非營運車輛是私家車。識別的任務就是找到非法的營運車輛。在識別過程中采用了SOM神經(jīng)網(wǎng)絡對各種車輛進行聚類,從而識別運行規(guī)律與營運車輛類似的私家車,并將其標記為疑似非法營運車輛,提高交通行政執(zhí)法人員的目的性和執(zhí)法效率。
所謂自組織映射網(wǎng)絡(SOM)是由芬蘭學者Kohonen教授在1981年提出的,也稱作Kohonen網(wǎng)絡[1]。網(wǎng)絡通過把復雜、多維的輸入數(shù)據(jù)投射到一維或者二維的輸出空間來進行對復雜數(shù)據(jù)的研究。SOM網(wǎng)絡的應用和研究都非常廣泛,例如利用模糊概率SOM神經(jīng)網(wǎng)絡來進行人臉識別[2],利用改進的自組織網(wǎng)絡進行概率密度估計與分類[3],設計自生長的批處理SOM網(wǎng)絡以及確定它的停止條件[4],這里的停止條件是指獲勝者的近鄰加權平均失真誤差發(fā)生收斂時停止訓練網(wǎng)絡等。
項目前期得到RFID點采集到的信息包含:車輛車牌號、車輛經(jīng)過時間和經(jīng)過地點,再將數(shù)據(jù)導入SQL Sever數(shù)據(jù)庫進行數(shù)據(jù)的預處理,處理后得到的數(shù)據(jù)包括:車輛車牌號,統(tǒng)計周期內(nèi)的車輛平均通過時間、通過時間的方差、通過時間間隔、通過時間間隔的方差、通過頻次、高峰通過占比等相關信息,而后經(jīng)過PCA降維處理去掉不同維數(shù)據(jù)之間的相關性并剩下最終的六維數(shù)據(jù),將這六維數(shù)據(jù)作為網(wǎng)絡的輸入數(shù)據(jù)。
使用MATLAB神經(jīng)網(wǎng)絡工具箱[5]對SOM網(wǎng)絡進行聚類時發(fā)現(xiàn),對SOM網(wǎng)絡的初始參數(shù)的確定有很多局限性,這些初始參數(shù)包括:網(wǎng)絡權值和閾值、訓練次數(shù)、訓練樣本的順序、學習率等[6-7],但目前暫時還沒有找到一種有效的方法來解決這些初始參數(shù)的設定問題。本論文對網(wǎng)絡的訓練次數(shù)的設定方式進行一些改進。
1 論述
1.1 SOM網(wǎng)絡的基本模型及原理
SOM網(wǎng)絡由輸入層和輸出層構成,輸入層是一維的神經(jīng)元,神經(jīng)元個數(shù)由輸入向量的維數(shù)i確定,表示網(wǎng)絡的輸入信號;輸出層也是競爭層,一般是一維或二維的神經(jīng)元組成的網(wǎng)絡,其中每個神經(jīng)元表示不同的輸出模式。其連接方式如圖1所示。對于每一個輸出神經(jīng)元j,它和每一個輸入神經(jīng)元通過一個權值連接,這個權值組成的向量如式⑴:
其中i表示輸入向量的維數(shù),即輸入層的神經(jīng)元個數(shù),j表示第j個輸出神經(jīng)元,輸出層共包含M*N個輸出神經(jīng)元,如圖1所示為4輸入神經(jīng)元,4*4輸出神經(jīng)元構成的SOM神經(jīng)網(wǎng)絡[5]。
SOM網(wǎng)絡的運行分為訓練和工作兩個階段[1]。訓練階段,對網(wǎng)絡輸入數(shù)據(jù),輸出層將有某個神經(jīng)元產(chǎn)生最大的響應而獲勝。獲勝神經(jīng)元周圍的神經(jīng)元也因此產(chǎn)生較大的響應,于是將獲勝神經(jīng)元及其領域(以某種方式定義的一個獲勝神經(jīng)元周圍的區(qū)域)內(nèi)的所有神經(jīng)元以某種方式將其權值向量進行修改。網(wǎng)絡通過自組織方式,用輸入數(shù)據(jù)調(diào)整網(wǎng)絡權值,最后使輸出層各神經(jīng)元的權值向量成為某類的聚類中心,確定好后訓練結束。網(wǎng)絡訓練結束后,輸出層各神經(jīng)元與輸入模式的特定關系就完全確定了,因此可以工作了,當輸入一個模式時,網(wǎng)絡輸出層代表該模式的特定神經(jīng)元會產(chǎn)生最大的響應,在所有神經(jīng)元中競爭成功,從而自動將該輸入歸類。
在訓練階段,訓練次數(shù)需要根據(jù)經(jīng)驗并反復對比確定一個合理的值,但對于一個陌生的問題,并不能夠在短時間內(nèi)很好地確定訓練次數(shù)的最佳值,若訓練次數(shù)設定過小,可能造成訓練不充分而使得到的結果正確率不高;若訓練次數(shù)過多,又會造成訓練過度而使結果不準確,且會浪費大量的時間。故訓練次數(shù)確定過程很繁瑣,不夠簡便,而且確定最佳訓練次數(shù)時 花費的時間較多,針對這個問題本文提出了一種解決方法。
1.2 SOM神經(jīng)網(wǎng)絡的訓練過程
傳統(tǒng)SOM神經(jīng)網(wǎng)絡的訓練過程主要包括以下幾步驟[6]:
⑴ 初始化網(wǎng)絡:首先確定輸出神經(jīng)元的數(shù)目,二維的輸出矩陣可以表示為M*N,往往要比預測的聚類數(shù)目多,初始化權值向量如式⑵:
⑵ 確定獲勝神經(jīng)元:對于每一個訓練樣本x,使用最小歐式距離準則來尋找離樣本向量最近的神經(jīng)元c,作為獲勝神經(jīng)元,并把它添加到該獲勝神經(jīng)元的類型VC中。決策條件如式⑶:
⑶ 更新權值:對優(yōu)勝鄰域內(nèi)所有節(jié)點按照式⑷
來調(diào)整權值。其中學習率η(t,N)是訓練時間t和鄰域內(nèi)第j個神經(jīng)元與獲勝神經(jīng)元之間的拓撲距離N的函數(shù),且η隨著t和N的增加減小。
⑷ 檢查結束:SOM網(wǎng)絡的訓練是以學習率η(t)是否減小到0或某個特定的值,或者訓練次數(shù)t是否達到某一設定的值為條件,滿足這個條件就退出訓練,否則繼續(xù)對網(wǎng)絡進行訓練,返回步驟⑵。
1.3 SOM網(wǎng)絡的改進
在SOM的訓練過程中,權值一開始是一系列的隨機的小數(shù),隨著訓練過程的進行,權值不停地改變,更加靠近每一個輸出神經(jīng)元的聚類中心,直到達到一個設定的訓練次數(shù)或?qū)W習率衰減到一定的值。但設定的訓練次數(shù)往往需要多次實驗才能確定;而學習率最后衰減的閾值需要靠經(jīng)驗來確定,如果設定為0,會使網(wǎng)絡陷入亞穩(wěn)定狀態(tài)[1],設置合適的閾值需要適應不同的實際情況。故提出一種利用權值導數(shù)來判斷何時該停止訓練的方法。
每個神經(jīng)元都代表一個聚類中心,而在傳統(tǒng)的聚類過程中,類中心是隨著聚類的過程不斷地靠近每一類數(shù)據(jù)中心,而在SOM神經(jīng)網(wǎng)絡中,聚類中心的表征形式又是各個輸出神經(jīng)元的權值向量[Wj1,Wj2,…,Wji](j=1,2,…,M*N),所以定義每一次訓練后權值的變化,如式⑸:
來表示類中心的變化情況。其中其中Wn表示當前訓練后的權值,Wn-1表示前一次訓練后的權值,ΔW是一個i*j維的向量。其中i是輸入神經(jīng)元的個數(shù),j是輸出神經(jīng)元的個數(shù)M*N。
權值變化量ΔW的一范數(shù)如式⑹:
一范數(shù)即為列模,這里符合權值的定義,每一列代表一個聚類中心,ΔW的一范數(shù)就是變化最大的類中心的變化量。最終的目的即判斷在訓練次數(shù)為何值時權值W收斂。采用函數(shù)值的下降量充分小[8]為收斂準則,即最大的類中心變化值‖ΔW‖1小于某一給定值ε時,即:
來判斷收斂。ε為事先給定的收斂條件。
在網(wǎng)絡的訓練過程中,學習率仍采用SOM網(wǎng)絡經(jīng)典的函數(shù),即指數(shù)函數(shù),這里所用的是:
2 實驗
為了評估訓練次數(shù)自適應的SOM改進算法對網(wǎng)絡性能的影響[10],本文對改進算法與傳統(tǒng)算法進行了對比分析。采用UCI數(shù)據(jù)集對數(shù)據(jù)進行測試,分別采用了八個數(shù)據(jù)集,包括Wine、Breast_Cancer、Iris、Zoo、Car_Evaluation、Abalone、bupa、segment數(shù)據(jù)集的基本信息和對應的輸出網(wǎng)絡模型設置見表1,并對照MATLAB中傳統(tǒng)的SOM網(wǎng)絡[5]進行仿真結果如表2所示,其中在MATLAB中默認的訓練次數(shù)為200次。
經(jīng)過測試可以看到,改進后的SOM網(wǎng)絡能夠比matlab中傳統(tǒng)SOM網(wǎng)絡(默認訓練200次)識別的正確率高。
把改進后的SOM神經(jīng)網(wǎng)絡用在車輛類型識別中的效果如圖2所示,其中綠色的為私家車數(shù)據(jù),黑色為非法營運車輛數(shù)據(jù),紅色為公交車數(shù)據(jù),藍色為長途車數(shù)據(jù)。
該網(wǎng)絡輸出矩陣設置為7*7的矩陣,經(jīng)過若干次自適應的迭代,得到的聚類結果如圖3所示。
可以看到營運車輛被聚到一類,綠色的合法私家車均勻的散布在輸出矩陣中,非法營運的私家車被聚到營運車一類。將這些疑似營運車輛的私家車提供給執(zhí)法部門,能夠給執(zhí)法人員提供一些線索和依據(jù)。
3 結束語
本文提出了一種運用在SOM網(wǎng)絡中利用導數(shù)判斷收斂的算法,該算法能夠自適應確定SOM網(wǎng)絡無監(jiān)督訓練時的迭代次數(shù),縮短確定訓練次數(shù)所花費的時間,減小算法復雜度。經(jīng)過實驗驗證,在不降低正確率的情況下通過該算法可以減少手動確定訓練次數(shù)的過程;并與MATLAB中傳統(tǒng)的SOM神經(jīng)網(wǎng)絡工具箱相對比,其中默認的訓練次數(shù)是200次,從表2中可以看到改進后的網(wǎng)絡比默認參數(shù)的神經(jīng)網(wǎng)絡識別正確率高。利用改進后的網(wǎng)絡對經(jīng)過特征數(shù)據(jù)提取之后的RFID數(shù)據(jù)進行聚類,能夠達到預期結果。
參考文獻:
[1] Samarasinghe.s. Neural Networks for Appeied Sciences and Engineering:From Fundamentals to Complex Pattern Recognition[M].Beijing:Mechanical industry press,2009.7.
[2] Laura Lanzarini, Franco Ronchetti, Cesar Estrebou, Luciana Lens Aurelio Fern' andez Bariviera,F(xiàn)ace recognition based on fuzzy probabilistic SOM[J]. IFSA World Congress and NAFIPS Annual Meeting (IFSA/NAFIPS),2013.
[3] Lin Chang, Yu Chong-xiu, Modified Self-Organizing Mixture Network for Probability Density Estimation and Classification[J].Neural Networks (IJCNN), The 2013 International Joint Conference on,2013.
[4] Se Won Kim, Tang Van To. A Self-Growing and Self-Organizing Batch Map with Automatic Stopping Condition[J].2013 5th International Conference on Knowledge and Smart Technology (KST),2013.
[5] 張德豐等.MATLAB神經(jīng)網(wǎng)絡應用設計[M].機械工業(yè)出版社,2011.
[6] 周開利,康耀紅.神經(jīng)網(wǎng)絡模型及其MATLAB仿真程序設計[M].清華大學出版社,2005.
[7] 任軍號,吉沛琦,耿躍.SOM神經(jīng)網(wǎng)絡改進及在遙感圖像分類中的應用[J].計算機應用研究,2011.3.
[8] 陳寶林.最優(yōu)化理論與算法[M].清華大學出版社,2005.
[9] Apirak Jirayusakul. Improve the SOM Classifier with the Fuzzy Integral Technique[J].Ninth International Conference on ICT and Knowledge Engineering,2011.
[10] Juha Vesanto, Johan Himberg, Esa Alhoniemi and Juha Parhankangas, Self-organizing map in Matlab: the SOM Toolbox[J].Proceedings of the Matlab DSP Conference,1999.
[11] Chen Weijun,Li Xiao. An Improved Solution of SOM Network Anomaly Detection Based on T-Distribution[J].International Conference on Cyber-Enabled Distributed Computing and Knowledge Discovery,2011.