白 鶴,崔競(jìng)飛,張國庭,李婷婷,趙 明
(國家廣播電影電視總局 廣播科學(xué)研究院,北京 100039)
隨著中國移動(dòng)多媒體廣播電視(CMMB)技術(shù)標(biāo)準(zhǔn)體系的成熟和產(chǎn)業(yè)鏈的完善,全國已有220多個(gè)城市進(jìn)行了CMMB單頻網(wǎng)的建設(shè),覆蓋測(cè)試是建設(shè)過程必不可少的環(huán)節(jié),對(duì)測(cè)試數(shù)據(jù)進(jìn)行分析能夠指導(dǎo)網(wǎng)絡(luò)規(guī)劃、優(yōu)化以及評(píng)估效果,但是作為后續(xù)處理基礎(chǔ)的測(cè)試數(shù)據(jù)可能因?yàn)樵O(shè)備異常等因素造成數(shù)據(jù)失真,因此,需要檢測(cè)異常值以保證測(cè)試數(shù)據(jù)的真實(shí)性和可靠性。
在城市的CMMB覆蓋測(cè)試中,數(shù)據(jù)多元、大量,含有地理和時(shí)間等多維標(biāo)記信息。目前,業(yè)界還沒有針對(duì)CMMB信號(hào)測(cè)試數(shù)據(jù)進(jìn)行異常值檢測(cè)的有效方法,而利用統(tǒng)計(jì)學(xué)中的一般異常值檢測(cè)方法的甄別效果也不理想。筆者基于對(duì)CMMB網(wǎng)絡(luò)信號(hào)特征的分析,在采用歐氏距離對(duì)數(shù)據(jù)樣本進(jìn)行聚類之后,使用Z-統(tǒng)計(jì)量進(jìn)行度量,可以有效地檢測(cè)出CMMB測(cè)試信號(hào)異常值。
異常值[1]定義為“嚴(yán)重偏離了樣本集合中其他觀測(cè)值的觀測(cè)值”,包括某樣本的單個(gè)屬性與該屬性的大多數(shù)值出現(xiàn)分布偏離,或者該樣本的屬性間的結(jié)構(gòu)和相關(guān)關(guān)系與整個(gè)屬性集的屬性之間結(jié)構(gòu)和相關(guān)性不同。
異常值檢測(cè)是數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié),也是學(xué)界探討和研究的內(nèi)容[2]。目前主要有3種策略:
1)統(tǒng)計(jì)法。對(duì)樣本總體分布作出假設(shè)的基礎(chǔ)上,構(gòu)造如四分位點(diǎn)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量進(jìn)行檢測(cè),主要適用于單屬性值的情況。
2)距離法[3]。將兩個(gè)樣本視為K維空間的兩點(diǎn),計(jì)算兩點(diǎn)間的Minkowski,Chebyshev或Mahalanobis距離來度量,此方法能夠應(yīng)用于多元數(shù)值,但沒有綜合考慮總體分布的因素,導(dǎo)致太依賴于參數(shù)的選擇。
3)分類法。建立分類模型判斷數(shù)據(jù)類別,以認(rèn)定其是否與總體偏離,一般需要有大量樣本集以訓(xùn)練分類模型,并且此方法判斷的顆粒度較大,相對(duì)于精細(xì)的數(shù)據(jù)要求顯得誤判率較高。
CMMB信號(hào)測(cè)試數(shù)據(jù)有經(jīng)緯度、時(shí)間等標(biāo)記屬性以及Powerlevel,CNR等指標(biāo)屬性,各屬性值有合理的取值范圍,并且指標(biāo)屬性對(duì)應(yīng)于一定的區(qū)域和時(shí)間內(nèi)的標(biāo)記屬性,但是由于設(shè)備故障、無線特性或系統(tǒng)誤差會(huì)使得指標(biāo)屬性在總體范圍出現(xiàn)偏離或局部區(qū)域內(nèi)發(fā)生跳變。因此異常值檢測(cè)方法既需要考慮指標(biāo)屬性的統(tǒng)計(jì)學(xué)特征,同時(shí)要兼顧指標(biāo)與標(biāo)記屬性的具體相關(guān)性。基于以上分析,各種異常值檢測(cè)的通用方法不適合CMMB信號(hào)異常值檢測(cè)的具體應(yīng)用場(chǎng)景。
筆者處理的異常值包括因設(shè)備問題造成的標(biāo)記空缺或指標(biāo)超過正常范圍的樣本以及在一定區(qū)域內(nèi)明顯與周圍指標(biāo)值不同的孤立點(diǎn)。在對(duì)CMMB信號(hào)的數(shù)據(jù)特征分析的基礎(chǔ)上,針對(duì)以上的檢測(cè)對(duì)象,設(shè)計(jì)了一種結(jié)合統(tǒng)計(jì)學(xué)和地理信息聚類的檢測(cè)方案。首先將多個(gè)CMMB信號(hào)測(cè)試文件合并為一個(gè)數(shù)據(jù)集合,在此基礎(chǔ)上進(jìn)行了空缺標(biāo)記檢測(cè)、界外指標(biāo)處理、地理信息聚類以及對(duì)各區(qū)域數(shù)據(jù)進(jìn)行孤值點(diǎn)甄別幾個(gè)算法步驟,如圖1所示。
如前所述,CMMB信號(hào)測(cè)試樣本SCMMB有經(jīng)度ALongtitude、緯度ALatitude和測(cè)試時(shí)間ATime等標(biāo)記屬性,可以準(zhǔn)確地標(biāo)定某一地點(diǎn)、某一時(shí)刻的信號(hào)強(qiáng)度APowerlevel、載噪比ACNR等指標(biāo)屬性
但是因?yàn)镚PS設(shè)備搜索定位時(shí)延等原因,ALongtitude,ALatitude的標(biāo)記信息可能出現(xiàn)空缺,此時(shí)記錄下來的對(duì)應(yīng)點(diǎn)的指標(biāo)屬性相對(duì)于評(píng)估來說就沒有意義,因此需要將ALongtitude或ALatitude為空缺值的信號(hào)樣本識(shí)別出并剔除??梢詫?duì)此類異常值定義為
式中:null表示空缺值,Outlier表示異常值,此步驟從標(biāo)記屬性的角度保證了信號(hào)的完整性。
CMMB信號(hào)測(cè)試樣本SCMMB的指標(biāo)屬性包括APowerlevel、載噪比ACNR、誤碼率ABER等,其中對(duì)于接收效果最直接、最有效的評(píng)估度量是APowerlevel,在發(fā)射臺(tái)站規(guī)劃合理、測(cè)試地點(diǎn)空曠、頻率干擾弱以及多徑時(shí)延小等情況下,APowerlevel測(cè)試值會(huì)比較理想,即使信號(hào)覆蓋不理想,指標(biāo)值也會(huì)在一個(gè)合理范圍內(nèi),但是在實(shí)地外場(chǎng)測(cè)試中由于設(shè)備、系統(tǒng)誤差等原因,APowerlevel取值會(huì)超過合理范圍,此時(shí)SCMMB因?yàn)闇y(cè)量值處于合理范圍外而沒有意義。定義此類界外值為
此步驟保證在全部樣本集合內(nèi)測(cè)試數(shù)據(jù)屬性值取值的合理性。
數(shù)據(jù)集合一般包括了城域范圍的測(cè)試數(shù)據(jù),在空缺標(biāo)記和界外指標(biāo)處理后,在整體上從數(shù)據(jù)樣式和取值范圍角度保證了可靠性,但是就某個(gè)小顆粒度的區(qū)域(比如街道)來說,某樣本的APowerlevel雖然已處在{minAPowerlevel,maxAPowerlevel}的合理取值范圍內(nèi),同樣不能保證其可信。在單頻網(wǎng)建設(shè)中,1 kw功率的有效發(fā)射機(jī)覆蓋半徑是10 km左右,一般情況下對(duì)百米量級(jí)、物理遮蔽情況類似的區(qū)域來說,信號(hào)強(qiáng)度值比較平滑,因此,街道區(qū)域內(nèi),信號(hào)的APowerlevel值不應(yīng)該出現(xiàn)跳變的孤值。實(shí)測(cè)中與鄰近信號(hào)強(qiáng)度差別較大的樣本出現(xiàn),可能是由于設(shè)備故障造成的系統(tǒng)誤差,即使并非誤差,如采用對(duì)孤值敏感的測(cè)試評(píng)價(jià)算法就會(huì)對(duì)這一區(qū)域內(nèi)的信號(hào)總體評(píng)估結(jié)果產(chǎn)生較大影響,因此,定義此類鄰近區(qū)域內(nèi)的孤值為異常值。
經(jīng)分析,孤值點(diǎn)甄別的分析對(duì)象是小區(qū)域內(nèi)的樣本集合,因此需要對(duì)城域測(cè)試數(shù)據(jù)集合根據(jù)地理信息進(jìn)行聚類。聚類需要確定方法、策略、距離度量算法以及聚類個(gè)數(shù)。對(duì)樣本的聚類需要采用Q型聚類中的系統(tǒng)聚類方法,聚類策略采用類平均法(Between-groups Linkage),因?yàn)锳Longtitude,ALatitude兩個(gè)屬性值無關(guān),對(duì)于聚類同樣重要,因此使用p=2時(shí)的Minkowski,也就是歐式距離DEuc來計(jì)算兩樣本間的距離
聚類個(gè)數(shù)需要根據(jù)城域數(shù)據(jù)總體的樣本個(gè)數(shù)、路測(cè)儀器的記錄間隔、路測(cè)車速等幾個(gè)變量綜合判斷。
劃分出小顆粒度的數(shù)據(jù)集合Ui后,可以看到Ui的數(shù)據(jù)趨勢(shì)比較平滑,APowerlevel值接近,絕大部分單樣本APowerlevel值xi與Ui的APowerlevel數(shù)據(jù)均值xˉ在一定范圍內(nèi),此時(shí)Ui符合中心極限定理,樣本APowerlevel值xi與xˉ之差絕對(duì)值在兩個(gè)標(biāo)準(zhǔn)差之外的概率小于1%。因此,構(gòu)建Z-統(tǒng)計(jì)量zi,以統(tǒng)計(jì)孤值點(diǎn),具體為
筆者參與了重慶部分區(qū)縣的CMMB單頻網(wǎng)覆蓋測(cè)試,獲得了大量的測(cè)試數(shù)據(jù),對(duì)其進(jìn)行異常值檢測(cè)和處理。首先使用編寫的程序合并某縣的測(cè)試文件,然后按照提前預(yù)定義的規(guī)則將合并后的數(shù)據(jù)導(dǎo)入SPSS軟件。經(jīng)過探索性分析,由圖2a可知,ALongtitude,ALatitude標(biāo)記屬性空缺的樣本值占有一定比例;由圖2b可知,APowerlevel指標(biāo)屬性存在較明顯的界外值,綜合原理分析和測(cè)試經(jīng)驗(yàn),APowerlevel取值范圍應(yīng)為(-100 dBm,-20 dBm)。使用SPSS經(jīng)過空缺標(biāo)記檢測(cè)和界外指標(biāo)處理之后,圖3可看出樣本總體的可靠性得到了保證。
綜合分析覆蓋測(cè)試中車速、間隔、樣本總數(shù)3個(gè)因素后,聚類個(gè)數(shù)被設(shè)計(jì)為5。圖4為樣本集形成的5個(gè)聚類類別中各類的樣本數(shù)目所占百分比。聚類作為一種探索性分析方法,沒有明確的檢驗(yàn)方法,但本方案中聚類情況與實(shí)際地理情況非常吻合,城域的整體樣本基本按照距離鄰近原則得到了有效劃分。
之后對(duì)每類數(shù)據(jù)分別計(jì)算樣本的Z-得分,并檢測(cè)出孤值點(diǎn)。表1所示數(shù)據(jù)取自第二區(qū)域的鄰近樣本,其中Z-得分為2.231 9的APowerlevel值與鄰近數(shù)值明顯不同,跳變了大概10 dBm,以此方法可以直觀地對(duì)孤值點(diǎn)進(jìn)行甄別,以避免敏感值對(duì)評(píng)估結(jié)果的影響。
圖4 聚類后各類樣本所占比例餅圖
表1 聚類后一段樣本的Z-得分
在分析CMMB信號(hào)覆蓋和屬性特征的基礎(chǔ)上,筆者設(shè)計(jì)了一種結(jié)合聚類與統(tǒng)計(jì)學(xué)方法的檢測(cè)方案。在實(shí)際案例上的應(yīng)用中,既能提高處理效率,使數(shù)據(jù)分析人員能夠擺脫以往依靠人工對(duì)異常值的檢測(cè),并且可以更加準(zhǔn)確地甄別測(cè)試數(shù)據(jù),從而保證了數(shù)據(jù)的可信度,有效地為網(wǎng)絡(luò)優(yōu)化和評(píng)估提供數(shù)據(jù)支撐。在數(shù)據(jù)準(zhǔn)備中,還需要處理重復(fù)標(biāo)記值,當(dāng)然不屬于異常值范疇,不在討論范圍之內(nèi)。
[1]HAWKINS D M.Identification of outliers[M].[S.l.]:London Chapmanand Hall,1980.
[2]劉云霞.數(shù)據(jù)規(guī)約的統(tǒng)計(jì)方法研究及應(yīng)用[D].廈門:廈門大學(xué),2008.
[3]KNORR E M,RAYMOND T N,TUCAKLV V.Distance-based outliers:algorithms and applications[EB/OL].[2010-10-25].http://portal.acm.org/citation.cfm?id=764218.