俞霄靚 陳齊亞 梁欣 兀鵬越
摘 ?;要: 介紹了一起典型的由于民航氣象數(shù)據(jù)庫(kù)通信分系統(tǒng)的配置文件格式錯(cuò)誤而導(dǎo)致的氣象數(shù)據(jù)庫(kù)資料傳輸故障案例,采用排除法對(duì)通信系統(tǒng)資料傳輸故障進(jìn)行詳細(xì)分析,逐個(gè)排除,最終確定故障點(diǎn)為.netrc配置文件格式錯(cuò)誤,并給出詳細(xì)的處理過(guò)程。探討了此次故障原因以及暴露出的問(wèn)題,從熟練掌握通信系統(tǒng)的系統(tǒng)配置文件的內(nèi)容及用途、升級(jí)改造氣象數(shù)據(jù)庫(kù)系統(tǒng)、增加日常維護(hù)經(jīng)驗(yàn)等三個(gè)方面提出了防范整改措施,以幫助氣象數(shù)據(jù)庫(kù)運(yùn)行維護(hù)人員對(duì)此類(lèi)故障的準(zhǔn)確排查。
關(guān)鍵詞: 通信分系統(tǒng); ftp傳輸; 故障處理; .netrc
中圖分類(lèi)號(hào):TP3 ?; ?; ?; ?; ?;文獻(xiàn)標(biāo)志碼:A ?; ?;文章編號(hào):1006-8228(2014)12-32-03
Typical troubleshooting of data transmission of civil aviation meteorological database system
Yu Xiaoliang1, Chen Qiya1, Liang Xin1, Wu Pengyue2
(1. Air Traffic Management Bureau of Northwest Regional of CAAC, Xi'an, Shanxi 710082, China; 2. Thermal Power Research Institute of Xi'an)
Abstract: A case of data transformation interruptioncaused by an error modifying configuration file has been introduced. The elimination methodis used in the detailed analysis of data transmission trouble caused by communication system. The analysis has been carried on by removing method, thefault point is determined and eliminated. The exposed problems have been discussed.The measures of prevention have been proposed frommasking configuration file of communication subsystem,upgrading the civil aviation meteorological database systemand increasingdaily maintenance experience. It can provide the directive function to operation and maintenance staffs.
Key words: civil aviation meteorological database; ftp transfer; troubleshooting; .netrc
0 引言
民航氣象數(shù)據(jù)庫(kù)系統(tǒng)是由全國(guó)七大地區(qū)中心(華北、東北、西北、西南、華東、中南、新疆)組成的分布式數(shù)據(jù)庫(kù)系統(tǒng),各個(gè)中心又是一個(gè)獨(dú)立的數(shù)據(jù)庫(kù)系統(tǒng)[1]。西北地區(qū)氣象數(shù)據(jù)庫(kù)系統(tǒng)通過(guò)基于民航氣象廣域網(wǎng)的MQ通信中間件與華北氣象中心數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行資料交換。西北地區(qū)氣象數(shù)據(jù)庫(kù)系統(tǒng)分為通信分系統(tǒng)和數(shù)據(jù)庫(kù)分系統(tǒng)兩部分,通信分系統(tǒng)負(fù)責(zé)氣象資料的接收、處理及轉(zhuǎn)發(fā),數(shù)據(jù)庫(kù)分系統(tǒng)負(fù)責(zé)對(duì)資料進(jìn)行質(zhì)量控制及分類(lèi)存入本地ORACLE數(shù)據(jù)庫(kù)。
本文詳細(xì)分析了一起民航氣象數(shù)據(jù)庫(kù)系統(tǒng)向氣象局域網(wǎng)服務(wù)器資料傳輸故障及其處理過(guò)程,以供相關(guān)技術(shù)人員在處理類(lèi)似問(wèn)題時(shí)借鑒參考。
1 背景介紹
民航西北地區(qū)氣象局域網(wǎng)系統(tǒng)是一個(gè)集資料收集、存儲(chǔ)、服務(wù)、統(tǒng)計(jì)、備份功能為一體的信息系統(tǒng),是民航系統(tǒng)西北地區(qū)氣象中心業(yè)務(wù)開(kāi)展和對(duì)外服務(wù)的重要平臺(tái)。作為當(dāng)前民航西北地區(qū)氣象中心(以下簡(jiǎn)稱(chēng)中心)多個(gè)氣象信息服務(wù)軟件的主要資料來(lái)源,一旦局域網(wǎng)系統(tǒng)癱瘓會(huì)給外服務(wù)造成嚴(yán)重影響。因此保證氣象局域網(wǎng)服務(wù)器資料的完整性、及時(shí)性成為西北氣象中心的主要業(yè)務(wù)之一。
氣象局域網(wǎng)系統(tǒng)以文件服務(wù)器為核心,以文件數(shù)據(jù)共享方式在西安咸陽(yáng)機(jī)場(chǎng)范圍內(nèi),將多類(lèi)數(shù)據(jù)文件進(jìn)行統(tǒng)一存放。這些數(shù)據(jù)資料類(lèi)型主要分為報(bào)文資料、圖形產(chǎn)品、雷達(dá)圖、衛(wèi)星云圖、自動(dòng)觀測(cè)資料,其中報(bào)文資料和圖形產(chǎn)品均由民航氣象數(shù)據(jù)庫(kù)系統(tǒng)轉(zhuǎn)發(fā),雷達(dá)圖經(jīng)本地雷達(dá)接收處理服務(wù)器以FTP方式上傳到局域網(wǎng)服務(wù)器,衛(wèi)星云圖資料經(jīng)本地衛(wèi)星云圖接收處理系統(tǒng)處理后由后端服務(wù)器以FTP方式上傳到局域網(wǎng)服務(wù)器,氣象局域網(wǎng)服務(wù)器通過(guò)讀取自動(dòng)觀測(cè)服務(wù)器串口數(shù)據(jù)獲取自動(dòng)觀測(cè)資料。西北地區(qū)氣象局域網(wǎng)報(bào)文和圖形產(chǎn)品數(shù)據(jù)來(lái)源如圖1所示。
“控制數(shù)據(jù)”作為通信分系統(tǒng)的核心配置文件,包含了三種控制文件:BSB(公報(bào)說(shuō)明塊)、RSB(報(bào)告說(shuō)明塊)、TOL(時(shí)間處理表)。BSB用于決定氣象公報(bào)的處理原則;RSB用于收集氣象報(bào)告,確定報(bào)告的處理原則;TOL用于定時(shí)作業(yè),也可看作定時(shí)編輯、定時(shí)轉(zhuǎn)發(fā)、定時(shí)廣播的時(shí)間表[2]。
通信分系統(tǒng)根據(jù)控制數(shù)據(jù)BSB將收集到的報(bào)文資料分成兩路,一路經(jīng)AFTN線路轉(zhuǎn)發(fā)到局域網(wǎng)服務(wù)器,一路通過(guò)MQ線路轉(zhuǎn)發(fā)給數(shù)據(jù)庫(kù)分系統(tǒng);通信分系統(tǒng)一方面將收集到的的圖形產(chǎn)品資料由MQ線路轉(zhuǎn)發(fā)到數(shù)據(jù)庫(kù)分系統(tǒng),同時(shí)根據(jù)控制數(shù)據(jù)BSB將收集到的圖形產(chǎn)品資料通過(guò)在通信分系統(tǒng)中配置的一條60號(hào)FTP線路轉(zhuǎn)發(fā)到局域網(wǎng)服務(wù)器prog目錄;另外,為滿足定時(shí)統(tǒng)計(jì)本地區(qū)缺報(bào)漏報(bào)情況的業(yè)務(wù)需求,在通信分系統(tǒng)上配置一條70號(hào)FTP線路,把局域網(wǎng)服務(wù)器bulletin目錄作為公報(bào)輸出路徑。
<;E:\方正創(chuàng)藝5.1\Fit201412\圖\yxl圖1.tif>;
圖1 ?;西北地區(qū)氣象局域網(wǎng)數(shù)據(jù)來(lái)源
2 故障現(xiàn)象
2014年9月2日晚18時(shí),局域網(wǎng)區(qū)域管制用戶反映氣象信息服務(wù)系統(tǒng)無(wú)最新圖形資料,檢查發(fā)現(xiàn)氣象局域網(wǎng)服務(wù)器自9月2日15:00以后無(wú)圖形產(chǎn)品資料,報(bào)文資料、雷達(dá)圖資料、衛(wèi)星云圖資料、自動(dòng)觀測(cè)資料接收正常,氣象局域網(wǎng)系統(tǒng)網(wǎng)絡(luò)線路正常。
3 故障分析
根據(jù)西北地區(qū)氣象局域網(wǎng)數(shù)據(jù)來(lái)源分析,出現(xiàn)此種故障有以下幾種可能。
⑴ 網(wǎng)絡(luò)線路故障。在局域網(wǎng)服務(wù)器上ping氣象二期數(shù)據(jù)庫(kù)通信服務(wù)器,顯示網(wǎng)絡(luò)連通正常。并且,區(qū)域管制用戶終端上除了無(wú)最新圖形資料外,其他資料均能正常檢索,說(shuō)明局域網(wǎng)網(wǎng)絡(luò)線路正常且區(qū)域管制用戶終端工作正常。
⑵ 局域網(wǎng)服務(wù)器存儲(chǔ)空間已滿。檢查局域網(wǎng)服務(wù)器空間利用率為50%,并且每月定期清理歷史資料,故排除服務(wù)器空間不足情況。
⑶ 數(shù)據(jù)庫(kù)通信分系統(tǒng)故障。檢查通信分系統(tǒng)留底文件,顯示資料轉(zhuǎn)發(fā)均正常,通信分系統(tǒng)AFTN線路轉(zhuǎn)發(fā)正常,MQ線路向數(shù)據(jù)庫(kù)分系統(tǒng)資料轉(zhuǎn)發(fā)正常,故排除通信分系統(tǒng)硬件故障情況。
⑷ 應(yīng)用系統(tǒng)調(diào)整。檢查《值班日志》發(fā)現(xiàn),9月2日由于業(yè)務(wù)調(diào)整,通信分系統(tǒng)新增加一條70號(hào)FTP線路向局域網(wǎng)服務(wù)器輸出公報(bào)統(tǒng)計(jì)文件,正是增加了70號(hào)FTP線路之后出現(xiàn)了60號(hào)FTP線路資料傳輸失敗故障,檢查60號(hào)FTP線路send目錄,顯示有大量文件積壓。因此判斷故障是由于此次系統(tǒng)調(diào)整而產(chǎn)生的。
檢查新增70號(hào)FTP線路更改的通信分系統(tǒng)配置文件。
(a) 線路定義表MSSINI.INI。$HOME/config/mssini.ini是通信系統(tǒng)啟動(dòng)時(shí)使用的文件,其中定義了通信系統(tǒng)所有的線路[3]。為了能夠按數(shù)據(jù)源進(jìn)行留底和記錄統(tǒng)計(jì)信息,在線路定義表中定義的線路有物理連接到路由器上的,有通過(guò)MQ通信隊(duì)列連接的,還有通過(guò)網(wǎng)絡(luò)協(xié)議FTP連接的。在MSSINI.INI線路表中查到新增FTP線路60號(hào)、70號(hào)。表1為線路定義表中的新增線路部分。
表1 ?;線路定義表
從表1中可以看出,MODE列為G表示FTP線路,DIR列對(duì)應(yīng)存放文件的目錄號(hào)$HOME/send/sendn目錄n的取值。
根據(jù)通信系統(tǒng)配置規(guī)則,線路定義表配置正確。
(b) 遠(yuǎn)程主機(jī)IP地址定義表hosts。
AIX操作系統(tǒng)/etc/hosts文件中定義了遠(yuǎn)程主機(jī)IP地址,格式如下:
QXZX 10.36.x.x
BULL 10.36.x.x
根據(jù)通信分系統(tǒng)配置規(guī)則,hosts文件配置正確。
(c) 公報(bào)輸出需要修改BSB、TOL控制數(shù)據(jù)。
i. 修改BSB。公報(bào)需要統(tǒng)計(jì)西北地區(qū)所有SA、FC、FT報(bào),輸出報(bào)配置格式如下:
SACI37 1LXY ?; OUT ?;Y ?;3 ?;Y
71 ZLIC ?;71 ZLLL ?;71 ZLXN ?;71 ZLXY
FTCI37 1LXY ?; OUT ?;Y ?;20 ?;Y
71 ZLIC ?;71 ZLLL ?;71 ZLXN ?;71 ZLXY
ii. 修改TOL。TOL文件定義通信系統(tǒng)定時(shí)輸出文件時(shí)間表。文件示例如下。
FN6BSM圖形文件從00:00點(diǎn)到23:00,每6小時(shí)輸出一次,共輸出4次;
SA報(bào)從00:00到23:00點(diǎn),每1小時(shí)輸出一次,共24次;
FC報(bào)從02:00到23:00點(diǎn),每3小時(shí)輸出一次,共8次;
FT報(bào)從04:00到23:00點(diǎn),每6小時(shí)輸出一次,共4次[4];
00:05 ?;FN6BSM DJLA ?;00:00 ?;3 ?; P ?; 56
00:05 ?;FN6BSM DSLA ?;00:00 ?;3 ?; P ?; 56
00:05 ?;SACI37 ?;1LXY ?;00:00 ?;2 ?; N ?; 70
01:05 ?;SACI37 ?;1LXY ?;00:00 ?;2 ?; N ?; 70
02:00 ?;FCCI37 ?;1LXY ?;03:12 ?;2 ?; N ?; 70
02:00 ?;FCCI67 ?;1LXY ?;03:12 ?;2 ?; N ?; 70
02:00 ?;FCCI77 ?;1LXY ?;03:12 ?;2 ?; N ?; 70
……
根據(jù)氣象數(shù)據(jù)庫(kù)通信分系統(tǒng)配置規(guī)則,控制數(shù)據(jù)BSB、TOL文件配置正確。
(d) FTP線路相關(guān)配置文件。
i. critical文件是ftpp進(jìn)程使用的參數(shù)文件,其中包括數(shù)據(jù)源目錄、目標(biāo)目錄、遠(yuǎn)程主機(jī)名(與mssini.ini、hosts、.netrc對(duì)應(yīng))、數(shù)據(jù)源目錄掃描時(shí)間間隔、傳輸方式、一次發(fā)送文件個(gè)數(shù)等信息。新增命令行如下:
start
$HOME/send/send6 prog put bin 1 QXZX NULL NULL NULL NULL
end
start
$HOME/send/send4 bulletin put bin 1 BULL NULL NULL NULL NULL
end
ii..netrc文件是ftpp進(jìn)程進(jìn)行自動(dòng)ftp時(shí)使用,在IBM/AIX系統(tǒng)中格式如下:
machine QXZX ?;/*配置遠(yuǎn)程機(jī)器QXZX
login sync
password XXXX
macdef init
passive ?; /*設(shè)置連接模式為被動(dòng)模式
空行
兩段FTP線路配置信息中間需要有一行空行,并且空行不能省略,以此作為一段代碼的結(jié)束符[3]。根據(jù)此規(guī)則檢查通信分系統(tǒng).netrc文件發(fā)現(xiàn),新配置的70號(hào)ftp線路與原先的60號(hào)ftp線路之間無(wú)空行,判斷是因?yàn)榇嗣钚懈袷藉e(cuò)誤導(dǎo)致的60號(hào)線路文件FTP網(wǎng)絡(luò)傳輸失敗。
4 故障處理
⑴ 修改.netrc文件的配置。
將命令更改為:
machine QXZX
login sync
password sync123
macdef init
passive
machine BULL
login sync
password sync123
macdef init
passive
⑵ 重啟通信程序。
對(duì)通信系統(tǒng)做結(jié)構(gòu)調(diào)整后需要對(duì)通信系統(tǒng)冷啟動(dòng),在通信系統(tǒng)根目錄下輸入inicold命令就開(kāi)始執(zhí)行冷啟動(dòng),當(dāng)出現(xiàn)要求輸入定時(shí)處理的開(kāi)始時(shí)間時(shí),按格式輸入時(shí)間或按回車(chē)鍵輸入當(dāng)前時(shí)間[5]。
⑶ 檢查通信分系統(tǒng)各應(yīng)用程序。
(a) 通信分系統(tǒng)啟動(dòng)完畢,在通信服務(wù)器上命令提示符后輸入s_asyn檢查通信線路運(yùn)行狀態(tài)。
(b) 輸入mmi1命令,檢查通信進(jìn)程工作狀態(tài)。
(c) 在通信服務(wù)器上輸入dspmq,顯示MQ隊(duì)列管理器運(yùn)行狀態(tài),輸入showque、showchl命令檢查MQ隊(duì)列排隊(duì)數(shù)目、MQ通道狀態(tài)。
⑷ 檢查通信分系統(tǒng)$HOME/send/send6目錄下積壓的文件數(shù)目,數(shù)目已經(jīng)開(kāi)始減少,經(jīng)過(guò)2小時(shí),積壓的文件已全部轉(zhuǎn)發(fā)完畢,檢查局域網(wǎng)文件服務(wù)器prog目錄下已有最新圖形產(chǎn)品。用局域網(wǎng)氣象信息服務(wù)系統(tǒng)軟件檢索最新圖形產(chǎn)品,能夠顯示出最新圖形產(chǎn)品。
5 故障暴露的問(wèn)題
由于對(duì)通信系統(tǒng)配置文件進(jìn)行了不正確的修改,導(dǎo)致氣象數(shù)據(jù)庫(kù)通信分系統(tǒng)向遠(yuǎn)程主機(jī)以FTP方式傳輸資料失敗。
分析其原因,首先,對(duì)通信系統(tǒng)配置文件的格式?jīng)]有作充分的了解。由于日常維護(hù)過(guò)程中很少有需要對(duì)通信系統(tǒng)配置文件做較大改動(dòng)業(yè)務(wù)調(diào)整,因此對(duì)氣象數(shù)據(jù)庫(kù)通信分系統(tǒng)各系統(tǒng)配置文件運(yùn)行掌握得不夠透徹,需要加強(qiáng)業(yè)務(wù)學(xué)習(xí)及實(shí)際操作。其次,氣象二期數(shù)據(jù)庫(kù)是2004年建成使用的,當(dāng)時(shí)廠家培訓(xùn)沒(méi)有針對(duì)通信系統(tǒng)內(nèi)部每個(gè)配置文件做詳細(xì)講解,并且系統(tǒng)配套的使用說(shuō)明書(shū)也沒(méi)有詳細(xì)說(shuō)明,不利于后期使用時(shí)運(yùn)維人員對(duì)系統(tǒng)的修改。再次,由于系統(tǒng)建成時(shí)間較早,軟件結(jié)構(gòu)及內(nèi)部配置都較為復(fù)雜,僅增加一條FTP線路就需要修改mssini.ini、BSB、TOL、.netrc、hosts、critical六個(gè)系統(tǒng)配置文件,每個(gè)文件都環(huán)環(huán)相扣,一個(gè)文件配置錯(cuò)誤,將會(huì)導(dǎo)致線路中斷,更有甚者會(huì)造成系統(tǒng)癱瘓,為日常維護(hù)帶來(lái)很大不便,這已成為氣象二期數(shù)據(jù)庫(kù)系統(tǒng)的弊端,因此中國(guó)民航總局已提出開(kāi)發(fā)民航三期數(shù)據(jù)庫(kù)系統(tǒng)項(xiàng)目計(jì)劃,將對(duì)二期數(shù)據(jù)庫(kù)系統(tǒng)的結(jié)構(gòu)做出較大調(diào)整,簡(jiǎn)化日常維護(hù)、系統(tǒng)變更、升級(jí)的步驟。
經(jīng)過(guò)對(duì)這次故障的分析,加深了對(duì)數(shù)據(jù)庫(kù)通信分系統(tǒng)的了解,掌握了通信系統(tǒng)配置文件互相配合使用的工作模式,對(duì)日常運(yùn)行維護(hù)有了很大幫助。
6 結(jié)束語(yǔ)
民航氣象數(shù)據(jù)庫(kù)通信分系統(tǒng)的配置文件.netrc中定義了每條FTP線路的連接方式,通過(guò)此次故障分析排除過(guò)程,增加了對(duì)通信系統(tǒng)FTP線路的配置經(jīng)驗(yàn)以及對(duì).netrc文件內(nèi)容的理解,同時(shí),通過(guò)分析故障暴露出的問(wèn)題,提出整改方案,消除了此類(lèi)故障再次出現(xiàn)的安全隱患,但是要真正解決類(lèi)似通信系統(tǒng)存在的問(wèn)題,需要對(duì)數(shù)據(jù)庫(kù)系統(tǒng)做全面的升級(jí)改造。本文所論述的通信系統(tǒng)線路配置故障的分析處理過(guò)程可供相關(guān)技術(shù)人員在處理類(lèi)似問(wèn)題時(shí)參考借鑒。
參考文獻(xiàn):
[1] 劉小魏.數(shù)據(jù)庫(kù)應(yīng)用系統(tǒng)設(shè)計(jì)與開(kāi)發(fā)培訓(xùn)教材[M].天譯計(jì)算機(jī)科技
開(kāi)發(fā)公司,2005.
[2] 馮向陽(yáng).民航氣象數(shù)據(jù)庫(kù)通信系統(tǒng)解析[J].空中交通管理,2009.8.
[3] 陳齊亞.民航氣象數(shù)據(jù)庫(kù)通信系統(tǒng)[M].西安,2011.
[4] 民航局空管局.民用航空飛行氣象情報(bào)發(fā)布與交換辦法[Z].2009.
[5] 張迪馨.民航二期氣象數(shù)據(jù)庫(kù)主機(jī)維護(hù)經(jīng)驗(yàn)總結(jié)[J].空中交通管理,
2007.8.