張偉峰 潘潔 孫亮亮 樊冬
摘要為了保證臺站觀測數(shù)據(jù)的連續(xù)可靠,提高臺站運(yùn)行率,中心站承擔(dān)的轄區(qū)站點(diǎn)儀器和網(wǎng)絡(luò)運(yùn)維工作顯得尤為重要。本文通過在日常運(yùn)維過程中遇到對臺站網(wǎng)絡(luò)故障一案例的分析及處置,闡述儀器運(yùn)維過程中如何查找故障的基本工作思路和操作方法,為中心站負(fù)責(zé)儀器運(yùn)維的同事提供一定的經(jīng)驗(yàn)。
關(guān)鍵詞地震監(jiān)測中心;儀器運(yùn)維;網(wǎng)絡(luò)故障;案例分析
中圖分類號: P315.78文獻(xiàn)標(biāo)識碼: A文章編號:2096-7780(2023)06-0285-04
doi:10.19987/j.dzkxjz.2022-149
A case analysis of network faults in the operation and maintenance of seismic instruments
Zhang Weifeng,Pan Jie,Sun Liangliang,F(xiàn)an Dong
(Bengbu Earthquake Monitoring Center Station of Anhui Earthquake Agency, Anhui Bengbu 233000, China)
AbstractIn order to ensure the continuous and reliable observation data of seismic stations,improve the operationrate of seismic stations,it is very important for the earthquake monitoring center station to take charge of the operationand maintenanceof theinstrumentsandnetworkinitsarea. Inthispaper,thestationusesVPNlinktoconfigureparameter router,which can not communicate with the provincial agency for data transmission fault case analysis anddisposal. The basic working idea of finding this kind of fault is expounded. Combining with experience in actual work, some points for attention in instrument operation and maintenance at the center station are also put forward.
Keywords earthquakemonitoringcenterstation; instrumentoperationandmaintenance; networkfaults; case analysis
引言
安徽省地震局在地震監(jiān)測中心站改革過程中,每個中心站專門設(shè)置一個運(yùn)維科室,負(fù)責(zé)轄區(qū)內(nèi)站點(diǎn)各測項(xiàng)儀器和網(wǎng)絡(luò)運(yùn)維工作。臺站儀器包含了四大學(xué)科,種類與型號繁多,特別是臺站儀器數(shù)字化、網(wǎng)絡(luò)化后,在實(shí)際操作中遇到出現(xiàn)的問題千變?nèi)f化,影響的因素亦繁多,如儀器故障、網(wǎng)絡(luò)故障、環(huán)境干擾等等,這就要求運(yùn)維人員不僅要有扎實(shí)的儀器維修技術(shù)基礎(chǔ),還需熟悉計(jì)算機(jī)與網(wǎng)絡(luò)方面知識,不能單純依賴?yán)碚?,更需要在運(yùn)維實(shí)踐中不斷總結(jié)經(jīng)驗(yàn)。本文通過介紹蚌埠市地震監(jiān)測中心因網(wǎng)絡(luò)故障造成站點(diǎn)前兆觀測數(shù)據(jù)無法正常采集入庫案例分析,探究臺站儀器運(yùn)維過程中查找和解決問題的基本方法[1]。
1 蚌埠市地震監(jiān)測中心儀器故障簡述
蚌埠市地震監(jiān)測中心(以下簡稱市監(jiān)測中心)位于蚌埠市老虎山公園內(nèi),臺站背景噪聲低、干擾小,是蚌埠市地震局建設(shè)并管理的市級區(qū)域臺站,2011建成投入觀測,有 SZW-Ⅱ水溫儀,SWY-1A 型水位儀,RPT 氣象三要素儀,數(shù)字化測震等觀測儀器,觀測數(shù)據(jù)質(zhì)量較好[2-3]。圖1是市監(jiān)測中心臺站地震監(jiān)測系統(tǒng)構(gòu)成拓?fù)鋱D。臺站使用中國電信50 M光纖寬帶網(wǎng)絡(luò),通過 VPN 鏈路配置參數(shù)路由器,實(shí)現(xiàn)與省局臺網(wǎng)中心的數(shù)據(jù)傳輸通訊,數(shù)據(jù)服務(wù)器在省局監(jiān)測臺網(wǎng)中心機(jī)房,系統(tǒng)運(yùn)行至今網(wǎng)絡(luò)情況總體穩(wěn)定。
2022年3月27日突然出現(xiàn)臺站 SZW-Ⅱ水溫儀和 RPT 氣象三要素儀觀測數(shù)據(jù)無法正常自動采集入庫,手動采集也無法完成的故障現(xiàn)象。SWY-1A 型水位儀正常自動采集入庫,數(shù)字化測震波形亦正常傳輸數(shù)據(jù)到省局測震臺網(wǎng)中心,市監(jiān)測中心安裝的區(qū)域測震小臺網(wǎng)亦能查看波形和數(shù)據(jù)分析。這很大程度影響到臺站水溫、氣象三要素的正常觀測。
蚌埠中心站運(yùn)維室技術(shù)人員聞知后,主動承擔(dān)了市監(jiān)測中心儀器故障的維修工作,經(jīng)初步檢查,確認(rèn)站點(diǎn)各測項(xiàng)儀器參數(shù)配置無誤,便開始后續(xù)故障排查。
2 故障原因排查
臺站儀器出現(xiàn)故障,需及時查明原因,才能有效地解決問題,本次故障排查我們采取分步驟方式。首先排查網(wǎng)絡(luò),其次排查儀器本身故障,最后再查找其他原因。分析判斷造成故障原因與影響因素,最后排除故障,解決問題,使臺站儀器采集數(shù)據(jù)入庫恢復(fù)正常。
2.1 站點(diǎn)內(nèi)部網(wǎng)絡(luò)排查
市監(jiān)測中心使用中國電信50 M 帶寬光纖專網(wǎng),由路由器配置 VPN 鏈路與省局臺網(wǎng)中心網(wǎng)絡(luò)連通。操作步驟如下:ping 命令從省局到站點(diǎn)儀器和路由均能連通,延遲在15 ms左右,檢查丟包率,測試結(jié)果為零;同理,使用 ping 命令,反向從臺站到省局網(wǎng)絡(luò)或其他站點(diǎn),亦連通,時延符合要求。考慮到臺站使用的路由和交換設(shè)備在網(wǎng)運(yùn)行10余年了,存在有設(shè)備老化可能,為進(jìn)一步查找原因,我們更換全新路由和交換機(jī)設(shè)備,更換質(zhì)量較好超6類網(wǎng)線等,完成一系列操作后,采集數(shù)據(jù)入庫故障仍未排除;隨后,再檢查是否因儀器配置 IP 地址被封禁原因造成,更換多個 IP 地址,甚至把正常采集數(shù)據(jù)水位儀地址分配給兩臺儀器不能正常采集數(shù)據(jù)的其中一臺,故障現(xiàn)象仍存在。排查結(jié)果:判定臺站儀器故障不是因臺站內(nèi)部網(wǎng)絡(luò)問題或網(wǎng)絡(luò)設(shè)備老化等因素原因。
2.2 觀測儀器故障排查
無法正常采集數(shù)據(jù)的 SZW-Ⅱ水溫儀,RPT 氣象三要素儀和正常采集數(shù)據(jù)的 SWY-1A 型水位儀是由國家自然災(zāi)害防治研究院研發(fā)生產(chǎn)的,雖然出廠期不同,但儀器指標(biāo)參數(shù)相同、性能穩(wěn)定,運(yùn)行至今很少出現(xiàn)故障。網(wǎng)絡(luò)排查中亦確認(rèn)儀器網(wǎng)絡(luò)端口正常,重點(diǎn)排查儀器內(nèi)部系統(tǒng)軟件問題。兩臺儀器故障類型相同,先對 SZW-Ⅱ水溫儀進(jìn)行排查,聯(lián)系廠家更換儀器系統(tǒng)主板,更新最新系統(tǒng)軟件,仍未解決問題;隨后配置一臺全新水溫儀進(jìn)行對比測試,發(fā)現(xiàn)全新儀器在同一網(wǎng)絡(luò)環(huán)境下存在同樣問題。為進(jìn)一步確認(rèn)是否因儀器故障造成,再把兩臺 SZW-Ⅱ水溫儀送到中心站,使用中心站網(wǎng)絡(luò)環(huán)境和服務(wù)器進(jìn)行數(shù)據(jù)通訊,兩臺儀器數(shù)據(jù)采集均正常,確認(rèn)臺站觀測儀器沒問題。
3 查看路由網(wǎng)絡(luò)配置及故障排除
為進(jìn)一步驗(yàn)證臺站采集數(shù)據(jù)故障是否出在網(wǎng)絡(luò)環(huán)境上,采取臨時分配獨(dú)立 IP 地址方式,使用省局的 VPN 鏈路流動臺4G 無線路由器代替原來光纖網(wǎng)絡(luò),進(jìn)行采集數(shù)據(jù)試驗(yàn),結(jié)果原認(rèn)為有故障的兩臺儀器均正常采集數(shù)據(jù),最終,基本可以判定臺站故障出在站點(diǎn)內(nèi)部網(wǎng)絡(luò)環(huán)境下的路由配置或者運(yùn)營商機(jī)房的路由配置。
一般應(yīng)用軟件,當(dāng)客戶端和服務(wù)器端在建立 TCP/IP 連接時,需根據(jù)實(shí)際傳輸?shù)膱?bào)文大小來協(xié)商 TCP 窗口大小 MSS。TCP 連接成功后會再經(jīng)過兩次滑動窗口的協(xié)商,一次儀器與服務(wù)器,一次儀器與網(wǎng)關(guān),在兩次協(xié)商中選擇一個較小值作為窗口發(fā)送數(shù)據(jù)。MSS 值計(jì)算方法[4]:MSS=MTU?IP?TCP,也就是說 MSS 值其實(shí)是 TCP 所承載凈載荷的數(shù)據(jù)長度。
市監(jiān)測中心目前使用的路由為 H3C MSR810系列,中心站運(yùn)維室技術(shù)人員經(jīng)咨詢該路由廠商售后技術(shù)支持工程師得知,MSR810系列路由原來為 V5版本,系統(tǒng)自動升級后為V7版本,接口缺省的 MTU 是1500字節(jié),但一般要求加密報(bào)文頭+鏈路層開銷+IP 頭(20—60字節(jié))+TCP 報(bào)文(20字節(jié))應(yīng)小于1500字節(jié),即 TCP 分片配置在1024字節(jié)較適合。一般缺省情況下,TCP 報(bào)文沒有修改分片字節(jié)。所以,導(dǎo)致臺站儀器無法正常采集數(shù)據(jù)原因是站內(nèi)路由系統(tǒng)自動更新后,配置的 TCP MSS 值不匹配所引起。
路由原來 TCP MSS 協(xié)商配置缺省值為1280字節(jié),如下:
interface LoopBack0
ip address XX.XX.XX.XX 255.255.255.255
#
interface Vlan-interface1
ip address 192.168.0.1255.255.254.0
tcpmss 1280
解決方法:在路由器0端口和1端口,增加一條 TCP MSS 值協(xié)商配置命令,把 TCP 分片配置修正為1024,具體配置如下:
#
Interface GigabitEthernet0/0
tort link-mode router
ip address xx. xx. xx. xx(運(yùn)營商給的固定 IP)255.255.255.0
tcpmss 1024
Qosoqpql 1
Nat outbound 3001
Ipsec apply policy ahdzj
#
Interface GigabitEthernet0/1
tort link-mode router
ip address xx.xx.xx.xx(路由器網(wǎng)關(guān))255.255.255.0 tcpmss 1024
在省局信息中心網(wǎng)絡(luò)室技術(shù)人員幫助下,對市監(jiān)測中心網(wǎng)絡(luò)路由增加 TCP MSS 值協(xié)商配置修改命令,完成路由配置參數(shù)修改后,臺站儀器采集數(shù)據(jù)入庫恢復(fù)正常,排除了故障。故障原因就是更改路由配置前有的儀器能正常采集數(shù)據(jù),而出現(xiàn)故障的儀器實(shí)際傳輸?shù)膱?bào)文大小只能是1024字節(jié),所以,在不能改變儀器參數(shù)配置的情況下,就應(yīng)修改市監(jiān)測中心網(wǎng)絡(luò)環(huán)境下路由器的配置參數(shù)。經(jīng)驗(yàn)告訴我們,在臺站儀器運(yùn)維中若再遇到類似問題,特別是在更新路由系統(tǒng)升級后出現(xiàn)故障,應(yīng)該重點(diǎn)排查路由 TCP 分片的配置參數(shù),檢查數(shù)據(jù)傳輸通信時所能承載的最大數(shù)據(jù)長度與儀器配置是否相符。
4 結(jié)束語
當(dāng)今,地震臺或子臺、一般站是一個多學(xué)科的數(shù)字化觀測系統(tǒng),各站點(diǎn)的儀器型號、類型較多,遇到的問題就會各不一樣[5-6],遇到問題要及時和廠家取得聯(lián)系,多溝通,多向經(jīng)驗(yàn)豐富的同事和專家請教。在臺站出現(xiàn)該類網(wǎng)絡(luò)故障的排查中,首先,需要認(rèn)真確認(rèn)儀器內(nèi)部各項(xiàng)指標(biāo)參數(shù)配置是否正確;其次,排查網(wǎng)絡(luò)和路由網(wǎng)絡(luò)配置是否存在問題;最后,排查儀器軟硬件是否存在故障。若有條件的話,中心站應(yīng)配備必要的備機(jī)備件。另外,中心站負(fù)責(zé)儀器運(yùn)維的同志還需注意以下幾點(diǎn):
(1)隨著轄區(qū)臺站儀器逐年進(jìn)入更新?lián)Q代時期,盡快建立中心站運(yùn)維室臺站運(yùn)維工作流程,規(guī)范故障排除操作步驟,提高運(yùn)維工作效率是中心站運(yùn)維當(dāng)務(wù)之急。針對轄區(qū)臺站各學(xué)科觀測儀器情況,建立相應(yīng)的故障排查和處理工作流程和維修檢修程序,規(guī)范各站點(diǎn)運(yùn)維具體操作步驟;逐步逐級的排查,查找儀器故障,分析故障原因。
(2)中心站負(fù)責(zé)儀器運(yùn)維同志要有一專多能的技能,在日常工作中應(yīng)經(jīng)常參加相關(guān)技能培訓(xùn),學(xué)習(xí)新知識,敢于動手實(shí)踐,不斷積累運(yùn)維經(jīng)驗(yàn)。根據(jù)各中心站的實(shí)際情況,定期開展對轄區(qū)內(nèi)站點(diǎn)儀器運(yùn)維巡檢,積累經(jīng)驗(yàn)[7]。
(3)每一次故障排除,問題解決之后,應(yīng)學(xué)會撰寫維修心得,要經(jīng)常與其他運(yùn)維同志開展經(jīng)驗(yàn)交流,為做好中心站儀器運(yùn)維工作夯實(shí)技術(shù)技能基礎(chǔ)。
參考文獻(xiàn)
[1]毛華峰,張義德,林國元,等.數(shù)字地震儀觀測系統(tǒng)常見故障及排除[J].防災(zāi)科技學(xué)院學(xué)報(bào),2005,7(1):51-55
Mao H F,Zhang Y D,Lin G Y,et al. Common troubles of digital seismograph observation system and their removals[J]. Jounal of Institute of Disaster Prevention,2005,7(1):51-55
[2]石小磊,李良輝.蚌埠地震監(jiān)測中心井水位、水溫干擾度評估[J].國際地震動態(tài),2017(9):18-22
Shi X L,Li L H. Assessment of disturbance of water level and temperature of Bengbu monitoring center well[J]. Recent Developments in World Seismology,2017(9):18-22
[3]石小磊,李良輝,王俊,等.蚌埠監(jiān)測中心井水位長時間持續(xù)升高成因分析[J].地震科學(xué)進(jìn)展,2021,51(10):472-476
Shi X L,Li L H,Wang J,et al. Analysis on the causes of the long-term continuous increase of the water level in the well of Bengbu monitoring center[J]. Progress in Earthquake Sciences,2021,51(10):472-476
[4]張藝. TCP/IP 協(xié)議簡述及應(yīng)用[D].蘇州:蘇州科技學(xué)院,2016:357-359
Zhang Y. The application of TCP/IP protocol in network[D]. Suzhou:Suzhou University of Science and Technology,2016:357-359
[5]程樹岐,王帥合,王西寶,等.地震臺站數(shù)字化觀測系統(tǒng)的運(yùn)行與維護(hù)[J].防災(zāi)科技學(xué)院學(xué)報(bào),2011,13(4):44-47
Cheng SQ,Wang SH,Wang XB,et al. Operation and maintenance of digital observation system of seismic station[J]. Jounal of Institute of Disaster Prevention,2011,13(4):44-47
[6]肖孟仁,項(xiàng)月文,陳浩,等.江西測震臺網(wǎng)運(yùn)行故障統(tǒng)計(jì)分析[J].地震科學(xué)進(jìn)展,2020,50(6):1-7
Xiao M R,Xiang Y W,Chen H,et al. Statistical analysis of operation failure of Jiangxi seismic network[J]. Progress in Earthquake Sciences,2020,50(6):1-7
[7]李小晗.山東省地震臺站管理與地震儀器運(yùn)維保障工作的思考[J].地球,2019(9):103
Li X H. Consideration on the management of seismic stations and the operation and maintenance of seismic instruments in Shandong Province[J]. The Earth,2019(9):103