(中國移動通信集團云南有限公司紅河分公司,紅河 661100)
TD-SCDMA數據業(yè)務的故障排查方法研究
陳捷
(中國移動通信集團云南有限公司紅河分公司,紅河 661100)
目前傳統(tǒng)運營商從話音經營向流量經營戰(zhàn)略轉型已是大勢所趨。假如設備故障導致TD-SCDMA用戶PS業(yè)務不暢,會嚴重影響用戶感知。本文針對以上問題,通過信令跟蹤、指標分析與灌包測試相結合,形成一套行之有效的故障排查方法,有助于TD-SCDMA系統(tǒng)的維護和優(yōu)化。
TD-SCDMA;數據業(yè)務;故障排查
當下數據業(yè)務收入超過話音業(yè)務已是產業(yè)發(fā)展到一定階段的必然趨勢,中國移動因此也迎來了從傳統(tǒng)話音經營向流量經營戰(zhàn)略轉型的契機,作為“四網協(xié)同”(GSM/TD-SCDMA/TD-LTE/WLAN四網協(xié)同發(fā)展)網絡發(fā)展戰(zhàn)略中的重要一環(huán),TD-SCDMA網絡所承載的用戶數與數據業(yè)務量隨著網絡技術的成熟與TD-SCDMA終端的普及與日俱增,其分流作用也日趨顯著。
因此保障用戶數據業(yè)務的高速流暢也成為了網絡優(yōu)化與維護工作的重中之重,假如因為設備故障導致用戶PS業(yè)務受阻,有悖于流量經營宗旨,將極大影響用戶感知。
本文針對TD-SCDMA網絡結構特點,提出了一種信令跟蹤、指標聯(lián)合分析與環(huán)回灌包測試相結合的故障排查方法,通過當地TD-SCDMA網絡實踐驗證確實有效,為TD-SCDMA網絡日常優(yōu)化與維護提供經驗總結。
2.1 網絡結構
TD-SCDMA網絡結構如圖1所示。Node B是TD-SCDMA移動基站,通過標準Iub接口與RNC相連,通過Uu接口與UE進行通信,主要完成Uu接口物理層協(xié)議和Iub接口協(xié)議的處理。RNC是TD-SCDMA網絡的一個關鍵網元,主要完成對Node B的無線資源控制和移動接入鏈路管理,處理移動呼叫、切換和功率控制,同時管理RNC本身的各種資源。SGSN(Serving GPRS Support Node,服務GPRS節(jié)點)作為GPRS/ TD-SCDMA核心網分組域的重要組成部分,主要完成分組數據包的路由轉發(fā)、移動性管理、會話管理、邏輯鏈路管理、鑒權和加密、話單產生和輸出等功能,通過Iu-PS接口連接RNC。
Uu接口是UTRAN與用戶設備的接口,也稱無線接口或者空中接口,Iub口是Node B與RNC之間的接口,Iu-PS接口是RNC與SGSN之間的接口,如圖2 UTRAN接口通用協(xié)議模型所示,每個接口在無線網絡層均可分為用戶面和控制面,控制面用于控制無線接入承載及UE和網絡之間的連接,用戶面用于傳輸通過接入網的用戶數據。
圖1 TD-SCDMA網絡結構圖
圖2 UTRAN接口通用協(xié)議模型
2.2 PS業(yè)務標準流程
PS業(yè)務標準信令流程如圖3所示,UE經Uu口和Node B/RNC建立起RRC連接,向SGSN初始直傳業(yè)務請求,再經Iu-PS口至SGSN建立信令連接,信道指派后建立起業(yè)務承載附帶用戶信息,CN和UE間進行鑒權、加密信令交互,然后激活PDP上下文,SGSN和UE間通過RAB指派建立起承載,就開始傳輸數據,業(yè)務完成后,PDP去激活,釋放信道連接。
圖3 PS業(yè)務流程圖
從TD-SCDMA網絡結構、接口協(xié)議與標準業(yè)務流程可知,在PS業(yè)務流程中,無線網起到傳輸通道的作用,通道在控制面建立,由用戶面承載,如若設備故障引起通道不順暢,排查工作就應先從控制面入手,再對用戶面進行檢測。
3.1 控制面排查思路
由圖1可知,網絡上游結構復雜,涉及不同廠家、不同功能的多種網元實體,一些深層次的網絡故障隱蔽性強,監(jiān)控系統(tǒng)未必能檢測出并上報告警提示,但上游的設備故障必然會引起下游終端用戶的業(yè)務不暢與相關指標的異常波動,常見的表象有網速慢、無響應、掉線等,由于商用網絡用戶數多,受眾面廣,業(yè)務故障必然引起用戶投訴數量激增,故可以根據用戶投訴統(tǒng)計,提取相應指標進行分析,在用戶投訴現場實地測試,結合后臺信令跟蹤,抓取異常信令進行原因分析。
3.2 用戶面排查思路
上文中如若通道能夠在控制面建立,那傳輸不暢問題就需要從用戶面各環(huán)節(jié)逐段進行排查。如圖1所示,TD-SCDMA網絡中PS業(yè)務的端到端可認為是從UE到SGSN,中間歷經多個接口與網元設備。日常維護工作中可以根據異?,F象出現的范圍、時間、地點、無線環(huán)境、終端類型等因素判斷故障環(huán)節(jié),不同網元故障的影響范圍、嚴重程度各有不同,越是處于網絡上游,故障影響越為嚴重與廣泛。在TD-SCDMA網絡PS域,RNC與CN間的用戶面組網結構如圖4所示,RNC側ROMB板(RNC Operating & Maintenance Board,RNC 操作維護單板)主要負責RNC系統(tǒng)的全局過程處理與操作維護代理,各單板狀態(tài)的管理和信息的搜集,并維護整個RNC的全局性的靜態(tài)數據。ROMB單板有4條媒體面地址,板上運行的RPU模塊負責路由協(xié)議處理。
RNC的GIPI板(GE IP Interface,吉比特以太網接口板)負責各種IP接口和OMCB網關功能,提供最大8×100Mbit/s以太網接口,2×吉比特以太網接口,主要實現 IuPS/IuCS/ Iub 的IP化接口功能和OMCB網關功能,一般配置在RNC1架1框3、4、5、6槽位的GIPI板作用是IU接口。
CE(Customer Edge,用戶邊緣設備)用于匯接移動核心網和接入網網元和業(yè)務系統(tǒng),并實現與IP承載網的隔離,減小兩者的耦合度。同時,管理域和業(yè)務域也得到有效區(qū)分,IP承載網設備和CE設備分別單獨管理,維護界面變得更加清晰。
實際組網中,為了負荷分擔與業(yè)務保護,GIPI板、近端/遠端CE與SGSN媒體面均成對配置并相互連通,以本地實際組網為例,5槽GIPI板連接近端CE1,6槽GIPI板連接近端CE2。遠近端CE如圖4互通,SGSN側分為兩個媒體面,每一平面與兩個遠端CE均建立連接。
圖4 用戶面組網結構圖
基于以上用戶面的組網結構,可將RNC的ROMB單板到SGSN媒體面間的通道劃分為多條路徑與多個分段,從ROMB單板開始,逐路由逐路段進行ROMB到GIPI、GIPI到近端CE、ROMB到近端CE、ROMB到 SGSN媒體面的灌包環(huán)回測試,就能夠有效縮小故障排查范圍甚至定位通道斷點,有利于及時處理故障與恢復業(yè)務。
當地TD-SCDMA網絡曾經出現過大面積PS業(yè)務不暢的問題,異常表現為PS業(yè)務信令連接能夠成功建立,但下行速率為零,視頻、網頁無法打開,斷開重連多次有可能恢復正常。該問題短時間就能引起大規(guī)模的用戶投訴,嚴重影響當地用戶感知,我們根據上文思路,應用信令、指標聯(lián)合分析與灌包測試相結合的系統(tǒng)排查方法,快速定位到問題所在,故障得到及時處理。
4.1 控制面排查過程
根據以上故障現象,從SGSN側通過網管系統(tǒng)軟件traffica在指定時間段內對PS業(yè)務進程統(tǒng)計(如表1所示)發(fā)現,沒有下行流量的進程數量極大,異常占比達到43.87%,與同SGSN下的Y市相比,遠超正常范圍。
表1 統(tǒng)計指標分析
選擇某用戶投訴地進行現場測試,該故障復現幾率極高,結合后臺的信令跟蹤,發(fā)現歷經RRC連接建立,業(yè)務發(fā)起、PDP上下文激活等正常步驟后,由于計數時間內無下行速率,RNC發(fā)送Iu_ReleaseRequest釋放命令,釋放原因為radioNetwork=TRANAP_user_ inactivity,發(fā)起重連后可能恢復正常,也可能重復多次釋放與重連步驟,信令流程如表2所示。
4.2 用戶面排查過程
從用戶投訴的統(tǒng)計來看,該故障分布范圍廣,涉及多種不同品牌和類型的用戶終端,從市區(qū)的拉網路測來看,故障出現的時間地點較為隨機,且無線環(huán)境大多較為良好,故可排除無線環(huán)境的質差、干擾影響和單站或個別終端故障因素,推斷問題誘因極可能在于RNC或更上游的設備上,故排查工作的重點轉向RNC至SGSN的用戶平面。
表2 異常信令分析
按照上文中的排查思路,分別用ROMB板的4條媒體面地址逐次Ping GIPI板、近端CE、SGSN媒體面地址,通過測試結果來確定故障環(huán)節(jié)。該段鏈路連接正常。
圖5 灌包測試示意圖
SGSN媒體面地址返回的數據分組減半(InMsgs:5),出現了嚴重的分組丟失情況,由此可以縮小排查范圍,故障點可能出現在近端CE到遠端CE,或遠端CE到SGSN通道段。
由于RNC的GIPI板采用負荷分擔的工作方式,分別連接近端CE1/2形成雙路由保護模式,關閉其中一條路由用戶業(yè)務不會中斷,于是先關閉RNC上5槽GIPI板接口地址,從路由2進行灌包測試正常。之后關閉6槽GIPI板接口地址,倒換至路由1測試時分組丟失問題依然存在。如圖6所示。
如圖5中虛線所示,具體操作為:順續(xù)用ROMB的4條媒體面地址“112.62.116.17-20”作為源地址,依次向5/6槽GIPI板(接口地址:112.62.116.26/30)、近端CE1/2(接口地址:112.62.116.25/29)、SGSN媒體面1/2(接口地址:112.62.112.132/133)發(fā)送10個數據分組(OutMsgs:10),觀察目標地址數據分組返回情況,5/6槽GIPI板、近端CE1/2均返回10個數據分組(InMsgs:10),未出現數據分組異常,可判斷
圖6 CE關閉GIPI接口地址PING包測試
此前路由1上ROMB到5槽GIPI通道已通過檢驗,做5槽GIPI板到近端CE1的Ping分組測試,收發(fā)正常,故可定位故障通路在近端CE1到遠端CE1段。由于目前GIPI單板功能不要求能Ping通遠端CE、SGSN媒體面地址功能,故障范圍已縮小到CE側,CE工程師對近端CE、遠端CE設備進行排查,確定最終問題定位在近端CE1到遠端CE1的端口上,對近端CE1進行跳纖處理業(yè)務即恢復正常。
如今傳統(tǒng)運營商從話音經營向流量經營戰(zhàn)略轉型已是大勢所趨,運營商向用戶提供多元PS業(yè)務的同時,必須保證業(yè)務通道的通暢無阻,才能提升用戶感知滿意度。
在處理PS業(yè)務問題的過程中,關鍵步驟及故障點信息說明如下:
(1)重視指標分析與用戶投訴,由于網絡側涉及多個廠家、多種功能的設備元件,告警監(jiān)控系統(tǒng)不可能面面俱到,很多隱性故障需要從異?,F象與指標波動中尋找蛛絲馬跡,步步反推?,F場測試可摸清無線環(huán)境,對異?,F象的詳細記錄是排查處理的第一步。
(2)結合前臺業(yè)務驗證測試,后臺需實時進行信令跟蹤與分析。信令是設備交互的語言,建立聯(lián)系的協(xié)議,異常信令的出現往往預示著業(yè)務的中斷,從異常信令的含義、產生條件、設備來源、方向等方面進行分析,可以大大縮小故障排查范圍。
(3)PS業(yè)務不暢極有可能是媒體面通道受阻,逐段進行灌包測試是檢測數據流斷點的一種有效手段,結合有針對性的路徑選擇、設備重啟和配置修改等嘗試能更快的定位問題所在,有利于故障排除。
綜上所述,只有明確業(yè)務流程的關鍵節(jié)點,并掌握系統(tǒng)的故障排查方法,對可能出現的故障點做好經驗總結,才能有助于更好地進行網絡維護與優(yōu)化工作。
[1] 張玉勝, 陳欣偉, 高屹, 等. TD-SCDMA網絡設計、評估及優(yōu)化實踐[M]. 北京:北京郵電大學出版社, 2012.
[2] 萬斌, 高峰, 李率信, 等. TD-SCDMA無線網絡評估與優(yōu)化[M]. 北京:人民郵電出版社, 2009.
[3] 金鑫. TD-SCDMA系統(tǒng)接入性能優(yōu)化[D]. 吉林:吉林大學,2012.
[4] 趙光胤. TD-SCDMA協(xié)議一致性測試研究及其測試例的實現[D]. 北京:北京交通大學, 2011.
[5] 陳清華. TD-SCDMA微基站物理層信令處理研究與實現[D]. 成都:電子科技大學, 2009.
Research on troubleshooting method of TD-SCDMA date service
CHEN Jie
(China Mobile Group Yunnan Co., Ltd. Honghe Branch, Honghe 661100, China)
There's a great trend to change from voice to traff c operation of the traditional telecom operators. If the TD-SCDMA users were unable to enjoy the PS services smoothly, due to the equipment failures, it will have a bad inf uence on the user perception. In connection with the appearance above-mentioned, this paper has explored a series of troubleshooting methods, including follow signaling, index analysis and so on, which was meaningful in maintenance and optimization for the TD-SCDMA system.
TD-SCDMA; data service; troubleshooting
TN929.5
A
1008-5599(2014)07-0015-05
2014-06-13