王輝
【摘 要】針對目前基于張量分解的噪聲推斷算法中對于數(shù)據(jù)本身特征信息考慮不足使得分解速度不夠快的問題,提出一種引入平滑約束的上下文感知張量分解方法—基于快速上下文感知張量分解的噪聲推斷算法(F-CATD)。該方法為了加快分解過程將平滑約束與上下文感知張量分解方法相結合,在張量分解成低維矩陣過程中做近似處理。實驗結果表明,該算法與基于上下文感知張量分解的噪聲推斷算法(CATD)相比,推斷填補噪聲張量模型中缺失數(shù)據(jù)的均方根誤差幾乎相同,運行時間減小了近4倍。該算法能夠有效地進行噪聲推斷。
【關鍵詞】城市噪聲;張量分解;平滑約束;推斷填補
中圖分類號: TP391.3 文獻標識碼: A 文章編號: 2095-2457(2017)26-0050-002
A Noise Inference Method Based on Fast Context-aware Tensor Factorizations
WANG Hui
(Xuzhou Medical University ,Xuzhou Jiangsu 221004,China)
【Abstract】Existing noise inference algorithms based on tensor decomposition neglected noise data has the character of smooth, which results in a slower rate of noise inference. Aiming to the problem, we present a noise inference algorithm based on fast context-aware tensor decomposition F-CATD. F-CATD is improved based on context-aware tensor decomposition algorithm. It combines smoothness constraint with context-aware tensor decomposition to do approximation when tensor is decomposed into low-dimensional matrix to speed up the process of decomposition. Finally, we conduct experiments on real urban noise data to demonstrate the advantages of the proposed noise inference algorithm.
【Key words】Urban noises; Tensor factorizations; Smoothness constraint; Data filling
0 引言
當今城市化的飛速發(fā)展帶來了城市的噪聲污染問題[1],對于城市噪聲情況及分布成為當前研究的一個熱點。一些國家已經(jīng)開始監(jiān)測噪聲污染,它們通常使用基于諸如交通流量數(shù)據(jù)的噪聲地圖來評估噪聲污染水平。但是這樣的輸入數(shù)據(jù)收集是非常昂貴的,隨后Luca等人[2]提出了通過部署無線傳感器網(wǎng)絡監(jiān)控噪聲污染,但在大型城市空間部署專用的傳感器網(wǎng)絡實際測量成本也是很昂貴的。近年來,噪聲測量移動終端設備有了較大的發(fā)展,NoiseTube[3]和Ear-phone[4]是兩款比較受歡迎的用于監(jiān)測噪音污染應用軟件產(chǎn)品。然而,由于城市噪聲通常是多個聲源的混合物,即使可以隨處部署聲音傳感器,診斷完全基于傳感器數(shù)據(jù)的城市噪聲污染是不徹底的。分析噪聲的組成是解決噪聲污染的關鍵。
為了解決這一問題,鄭宇等人[5]提出了基于上下文感知的張量分解噪聲推斷方法(CATD)。CATD結合紐約市311投訴數(shù)據(jù)[6]與社會媒體,路網(wǎng)數(shù)據(jù),興趣點數(shù)據(jù),通過上下文感知的張量分解方法補充缺失數(shù)據(jù),以此推斷全市各區(qū)域的噪聲情況(包含噪聲污染的指標和噪聲的組成)。
然而,此方法在噪聲推斷過程中對于數(shù)據(jù)本身平滑性特征信息考慮不足降低了分解速度,針對此問題本文提出基于快速上下文感知張量分解的噪聲推斷算法(F-CATD)。將平滑約束與上下文感知張量分解方法相結合,在張量分解成低維矩陣過程中做近似處理以加快分解過程。
1 噪聲推斷
1.1 噪聲張量模型構建
為表示城市中每個地區(qū)的噪聲情況使用一個張量來構建城市噪聲模型,Y∈RN×M×L三維分別表示N個區(qū)域,M種噪聲種類,L個時間節(jié)點。
地區(qū)維:第一維表示劃分后的各地區(qū)r=[r1,r2…ri…rN]。
時間段維:將一天等分成相同的時間段,每個時間段表示一段時期。t=[t1,t2…tk…tL]結果是在時間維度上的時隙數(shù)目是固定的。
噪聲種類維:這一維度表示c=[c1,c2…cj…cM]噪聲的種類。各項元素:元素Y(i,j,k)存儲在時間節(jié)點tk地區(qū)ri的噪聲種類為cj的311數(shù)據(jù)投訴的數(shù)目。
填補張量中的缺失數(shù)據(jù)方法是基于張量Y的非零項將張量Y分解成幾個低秩的矩陣和一個核心張量。使用塔克分解模型[7]將Y分解成一個核心張量G∈R 和三個矩陣,R∈R ,C∈R ,T∈R 。目標函數(shù)為公式1:
其中‖.‖2表示歐幾里得距離,第一部分控制分解的誤差,第二部分為正規(guī)懲罰部分控制過度擬合。使目標函數(shù)最小化可以得到最優(yōu)化的R,C,T。最后可以通過公式2恢復張量Y中的缺失數(shù)據(jù):
公式中的×表示矩陣相乘;×k表示張量矩陣相乘,其中下標k表示張量的模為k。每一項Yre的值表示噪聲污染的指標即在某個地區(qū)某個時間段內(nèi)的某種噪聲的投訴數(shù)目。通過Yre可以獲得地區(qū)ri時間段內(nèi)不同噪聲種類的噪聲分布情況。endprint
但是,構建的噪聲張量中的數(shù)據(jù)過于稀疏。例如,如果設定1小時為時隙,構建的張量中只有5.18%的項具有值。只根據(jù)其自身的非零項分解Y是不夠準確的。因此,尋求加入其他信息源。為了應對數(shù)據(jù)稀疏的問題,引入三種相關數(shù)據(jù)信息特征,從POI/道路網(wǎng)數(shù)據(jù)、用戶簽到、311的數(shù)據(jù)中提取地域特征,人才流動的特征和噪聲類型相關的特征(由矩陣X,D和Z表示)。這些特征在分解過程用作上下文來減少推斷誤差。
1.2 上下文感知張量分解
為了獲得更高的填補張量Y中缺失項準確率,分解張量Y時與特征矩陣X,D,Z協(xié)作??梢苑纸獬蓛蓚€矩陣的乘法,X=R×U,其中R∈R 和U∈R 分別為地區(qū)和地理特征低秩的潛在因素。同樣地,矩陣D可以分解成兩個矩陣乘法的,D=T×RT,其中T∈R 是時隙低秩的潛在因子矩陣。目標函數(shù)定義為公式3:
其中(‖X-RU‖2)控制X分解的誤差; tr(C L C)控制噪聲種類之間的相似度;(‖D-TRT‖2)控制D分解的誤差;λ1,λ2,λ3,λ4是在協(xié)同分解的過程中控制各部分的貢獻參數(shù)。最后可以通過公式2恢復張量Y中的缺失數(shù)據(jù)。然而,此方法忽略了噪聲數(shù)據(jù)在相鄰時間段或區(qū)域是具有平滑性的,降低了分解速度。
1.3 快速上下文感知張量分解
平滑是指在某些域中相鄰值之間的差異是很小的??紤]到平滑特性本文將高斯徑向基函數(shù)(GRBF-NTD)[8]引入到上下文感知張量分解算法中,在張量分解成低維矩陣過程中做近似處理以提高算法的性能。目標函數(shù)定義為公式4:
其中W是一個非負矩陣,矩陣Φ的元素使用GRBF和一個標準差σ表示成公式5:
其中σ是表示高斯函數(shù)帶寬的折衷參數(shù),Δt表示時間段。F-CATD算法描述如下:
輸入:噪聲張量Y,矩陣X,矩陣D,矩陣Z,平滑約束矩陣Φ,核張量G的大小為R1,R2,R3。誤差閾值ε。
輸出:矩陣R,C,T,核張量G
由于對目標函數(shù)F沒有固定的解析方法,本文采用梯度下降方法求解。引入GRBF-NTD方法目的是用ΦW近似代替R。而其中最關鍵的問題是W的更新。步驟6-14是W的更新過程,[x]+=max(x,ε),ε很?。é?10-16通常),和表示元素乘法和元素除法,?茚表示克羅內(nèi)克積。步驟15-20通過梯度下降求解目標矩陣R,C,T,G。最后通過公式2推測填充張量中的缺失項。使用F-CATD方法可以加速噪聲推斷過程。
2 實驗及分析
為了測試F-CATD的性能,進行實驗驗證。實驗硬件環(huán)境為:CPU為四核Core i5 2.3GHz,內(nèi)存為4GB。
2.1 實驗數(shù)據(jù)
本文采用的數(shù)據(jù)集共有四個數(shù)據(jù)源:311 nosie data、Road Networks、Check-ins、POIs數(shù)據(jù)。
2.2 實驗分析
評價本文的基于平滑數(shù)據(jù)的上下文感知張量分解模型實驗方法,我們隨機從張量中移除一部分(20%,30%,40%)的非零項作為測試數(shù)據(jù),隨后使用本文的實驗方法模型對張量中的移除缺失項進行填補。最后,使用這些項的原始值作為基礎事實來衡量推斷值。
評價指標:均方根誤差(Root Mean Square Error,RMSE)。
定義6均方根誤差。RMSE可以計算為以下公式:
從圖1中可以看出,在參數(shù)lambda為0.00001時,當張量中的非零項為60%和70%(移除張量中40%和30%的非零項作為測試數(shù)據(jù))時兩種方法得到的RMSE結果幾乎相同,張量中的非零項為80%時本文的RMSE略小于CATD。
從圖2可以看出,在參數(shù)lambda為0.00001時,兩種方法法所消耗的時間相差很大。本文的方法耗時在50s左右,CATD耗時在200s到250s之間,整體來說,在時間方面F-CATD方法加快了4-5倍,大大提升了算法的性能。
3 結語
本文針對目前基于稀疏噪聲數(shù)據(jù)的張量分解算法中數(shù)據(jù)本身特征考慮不足的問題,提出一種基于快速上下文感知張量分解的噪聲推斷方法。該方法在上下文感知張量分解方法的基礎上,考慮到噪聲數(shù)據(jù)具有平滑性,引入平滑約束。實驗表明,本文方法在噪聲張量模型中有效地進行缺失噪聲數(shù)據(jù)的填補同時大大減小了的時間消耗。
【參考文獻】
[1]W.Phil, “European Commission Green Paper on Future Noice Policy,” com (96) 540 final, 04 Nov. 1996.
[2]L. Filipponi S. Santini and A. Vitaletti, “Data Collection in Wireless Sensor Networks for Noise Pollution Monitoring,” Proc. 2008 IEEE Int. Conf. on Distributed Computing in Sensor Systems(DCOSS) Santorini Island, Greece, pp. 11-14, June 2008.
[3]N. Maisonneuve, M. Stevens, M. E. Niessen and L. Steels, “NoiseTube: Measuring and mapping noise pollution with mobile phones,” J. Environmental Science \& Engineering, vol.2, no.6, pp.215-228, 2009.
[4]R. K. Rana, C. T. Chou, S. S. Kanhere, N. Bulusu and W. Hu, “Ear-phone: an end-to-end participatory urban noise mapping system,” Proc. 9th IEEE Int. Conf. on Information Processing in Sensor Networks(IPSN), pp. 105-116, Stockholm, Sweden, April 2010.
[5]Y. Zheng, T. Liu, Y.L. Wang, Y.M. Zhu, Y.C. Liu and E. Chang, “Diagnosing New York city's noises with ubiquitous data,” Proc. 2014 ACM Int. Conf. on Pervasive and Ubiquitous Computing (UbiComp), Seattle, US, pp.715-725, September 2014.
[6]http://research.microsoft.com/apps/pubs/?id=217236.
[7]T.G. Kolda and B.W. Bader, “Tensor decompositions and applications,” J. Siam Review, vol.51, no.3, pp.294-310, 2005.
[8]T. Yokota, R. Zdunek, A. Cichocki and Y. Yamashita, “Smooth nonnegative matrix and tensor factorizations for robust multi-way data analysis,” J. Signal Processing, vol.113, pp.234-249, 2015.endprint