業(yè)務系統(tǒng)故障往往不一定是網(wǎng)絡或者應用單一的問題,存在一類或多類故障并存的可能。某些故障則是業(yè)務系統(tǒng)和網(wǎng)絡設備工作機制沖突導致的。
某航空公司華南客服中心,客服人員使用客服系統(tǒng)接電話時經常出現(xiàn)接聽失敗的現(xiàn)象,由于客服服務器位于北京數(shù)據(jù)中心,中間涉及的網(wǎng)絡設備較多,一直未能定位到故障原因。
如圖1拓撲所示,每個客服人員桌面都會有一臺電腦跟電話機,一天中會出現(xiàn)幾次偶發(fā)故障,故障發(fā)生時,用電腦上的客服軟件接聽用戶電話失敗,如果及時改用座機接聽則可成功,我們用科來網(wǎng)絡回溯分析系統(tǒng)在華南客服中心廣域網(wǎng)出口抓包分析:
客服人員可以用電腦和座機接聽電話,電腦接聽電話失敗時,改用座機可以成功接聽。
規(guī)律分析:電腦與座機是連接同一個hub上,座機可以成功接聽電話說明網(wǎng)絡連接正常,需要從電腦客服軟件的角度分析問題。
故障發(fā)生時間段主要集中在午休后及凌晨時段,重置電腦的客服軟件后也能恢復正常。
規(guī)律分析:這兩個時間段的特點就是接聽的電話數(shù)量比較少,很可能是空閑時間太長,電腦客服軟件某些連接被中斷了。
圖1
圖2
圖3
圖4
重現(xiàn)故障,使用科來網(wǎng)絡回溯分析系統(tǒng)將客服電腦與北京服務器之間的通信流量進行回溯、分析,尋找故障原因。
在深圳客服中心尋找一臺客服電腦,首先驗證該客服電腦、座機都能正常接聽電話;然后從16:12開始閑置該客服電腦,超過半個小時候,16:48再撥打該客戶座機,接聽失敗,故障成功重現(xiàn)。
客 服 電 腦 的IP為XX.XX.22.21,與北京的兩臺服務器有通信流量,分別是:
XX.XX.176.51,經確認為客服軟件界面的服務器
XX.XX.203.155,經確認為客服軟件控制插件的服務器
從客服電腦XX.XX.22.21與服務器XX.XX.176.51通信的TCP幾乎時序圖可以看到(如圖3),兩者采用了長連接的機制,在空閑的時間,客戶端每隔幾秒鐘就會發(fā)送一個GET的請求與服務器保持連接。
從 16:12分至 16:48分,每個6分鐘客戶端與服務器就跟新一次TCP連接,未曾中斷過(如圖4),因此軟件界面一直能夠正常顯示。
從客服電腦XX.XX.22.21與服務器XX.XX.203.155在16:12分至16:48期間只有3對TCP連接一直保持(如圖5),如果這三對TCP連接沒有采用長連接的傳輸機制,很可能會因為空閑太長時間而被網(wǎng)絡中的防火墻等設備中斷連接。
果然,客戶端在空閑的2090秒(34分鐘)的時間內沒有發(fā)送任何保持連接的數(shù)據(jù)包(如圖6),等到客服電腦重新發(fā)起接聽電話請求的時候,客戶端的請求已經無法到達服務器端,一直在發(fā)起重傳的請求,最后客服人員看到請求超時的告警提示。
大部分防火墻都會將空閑時間超過30分鐘的TCP連接斷開,而控制進程在空閑的34分鐘內沒有采用長連接機制保持連接,所以被防火墻中斷了,再有電話接入的時候便會出現(xiàn)接聽失敗的現(xiàn)象。
圖5
圖6
修改防火墻的策略:增長訪問北京XX.XX.203.155的TCP連接的空閑時間。
(注:該策略實施后,偶發(fā)故障出現(xiàn)的次數(shù)明顯下降)
優(yōu)化客服控制插件程序設置,能從根本上解決問題。
客戶通過檢測防火墻規(guī)則、長Ping網(wǎng)絡進行檢測,并未發(fā)現(xiàn)異常,在服務器中也未發(fā)現(xiàn)告警信息,難以確定問題的原因。
通過網(wǎng)絡分析技術可以迅速還原網(wǎng)絡中的每一個TCP會話,通過圖形化界面就能夠快速找到問題為程序并未進行定時?;睿阑饓Τ瑫r關閉會話導致,很快就幫助用戶解決了困擾已久的問題。
成都科來軟件有限公司
電話:400-6869-069 010-82601814
網(wǎng)址:www.colasoft.com.cn
論壇:www.csna.cn