蔡其波 王晴筠 李植達(dá) 陳嵩榮 陳光淙
1. 福建省泉州市公安局 2. 福建省南威軟件股份公司
泉州市城市安全信息系統(tǒng)為泉州市的平安城市項(xiàng)目,2012年以來連續(xù)9年“市政府為民辦實(shí)事”項(xiàng)目,建設(shè)內(nèi)容包括公共安全視頻監(jiān)控、道路交通電子卡口、治安RX卡口、無線感知、計(jì)算平臺(tái)、存儲(chǔ)系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)、安全系統(tǒng)等設(shè)施設(shè)備及軟件系統(tǒng),項(xiàng)目建設(shè)周期長,投資大,所建軟硬設(shè)備數(shù)量龐大,系統(tǒng)復(fù)雜,運(yùn)維難度高。為提高系統(tǒng)穩(wěn)定性,保障系統(tǒng)在社會(huì)治安防控、偵察破案、維護(hù)社會(huì)安定、服務(wù)群眾工作中持續(xù)高效發(fā)揮作用,提出運(yùn)維工作全面信息化,引入大數(shù)據(jù)智能化技術(shù),精心設(shè)計(jì)建設(shè)了智能化運(yùn)維管理平臺(tái),并圍繞平臺(tái)制定嚴(yán)謹(jǐn)運(yùn)維工作制度,推行嚴(yán)格考評(píng)機(jī)制,強(qiáng)化運(yùn)維督促制度,平臺(tái)上線運(yùn)行以來取得了良好成效。
在平安城市、雪亮工程的運(yùn)維中普遍存在一些難題,制約了運(yùn)維的成效,主要有:
隨著前端感知技術(shù)的不斷發(fā)展和相關(guān)平臺(tái)的建設(shè),擁有資產(chǎn)種類和數(shù)量,包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備、機(jī)房設(shè)施、前端感知設(shè)備等硬件資產(chǎn)和操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用業(yè)務(wù)系統(tǒng)以及系統(tǒng)產(chǎn)生的數(shù)據(jù)等資產(chǎn)越來越龐大;同時(shí)隨著城市化進(jìn)程難免存在因城市建設(shè)等原因?qū)е沦Y產(chǎn)變動(dòng),資產(chǎn)紛繁復(fù)雜加上頻繁變動(dòng)導(dǎo)致資產(chǎn)的巡查工作相當(dāng)困難,及時(shí)發(fā)現(xiàn)問題更是難上加難。
城市安全信息系統(tǒng)的前端感知設(shè)備大部分在戶外工作,往往工作環(huán)境惡劣,比理想環(huán)境中故障率高出許多倍;同時(shí)在系統(tǒng)中信息傳輸鏈路長,環(huán)節(jié)多,子系統(tǒng)間聯(lián)系復(fù)雜,一旦出現(xiàn)問題,往往難以迅速準(zhǔn)確定位故障點(diǎn)。
一個(gè)故障需要多個(gè)不同部門技術(shù)人員共同協(xié)作,傳統(tǒng)的通信手段難以迅速完成全面準(zhǔn)確的信息交互,信息遺漏往往導(dǎo)致故障沒能全面徹底解決。
城市安全信息系統(tǒng)故障響應(yīng)和維修處理時(shí)間需要符合GA 308、GA/T 367、GA 669.8、GA/T 792等國家標(biāo)準(zhǔn)。同時(shí)城市安全信息系統(tǒng)構(gòu)建在公安視頻專網(wǎng)上,全國性網(wǎng)絡(luò)互聯(lián)互通的特殊性和傳輸內(nèi)容的敏感性均要求網(wǎng)絡(luò)較高安全,確保運(yùn)維中的信息安全是一項(xiàng)復(fù)雜的工程,也為運(yùn)維工作提出更高要求。
構(gòu)建一個(gè)高可靠的智能運(yùn)維平臺(tái),以運(yùn)行監(jiān)測和故障告警兩個(gè)方面為重點(diǎn),將所有業(yè)務(wù)系統(tǒng)中所涉及的網(wǎng)絡(luò)資源、硬件資源、軟件資源、數(shù)據(jù)資源等納入統(tǒng)一的運(yùn)維監(jiān)控中,并通過消除采集軟件和采集手段差別,對(duì)各種不同的數(shù)據(jù)來源實(shí)現(xiàn)統(tǒng)一管理、統(tǒng)一處理,最終實(shí)現(xiàn)運(yùn)維規(guī)范化、自動(dòng)化、智能化的大運(yùn)維管理,為工作團(tuán)隊(duì)提供一個(gè)看得見、理得清、查得準(zhǔn)的綜合運(yùn)維平臺(tái)。
基于信息技術(shù)基礎(chǔ)架構(gòu)庫(ITIL,Information Technology Infrastructure Library)體系,運(yùn)維平臺(tái)以統(tǒng)一資產(chǎn)管理為基礎(chǔ),精細(xì)監(jiān)控監(jiān)測管理、統(tǒng)一告警管理、統(tǒng)一運(yùn)維服務(wù)為主體,輔以統(tǒng)一運(yùn)維機(jī)制為確保運(yùn)維工作高效穩(wěn)妥。
通過實(shí)時(shí)動(dòng)態(tài)監(jiān)測,資產(chǎn)管理實(shí)現(xiàn)從資產(chǎn)入庫、安裝調(diào)試、運(yùn)行、維修到變更、報(bào)廢的全生命周期管理,資產(chǎn)管理透明化、精細(xì)化、動(dòng)態(tài)化。平臺(tái)提供覆蓋各種服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、數(shù)據(jù)庫和中間件、業(yè)務(wù)系統(tǒng)等IT資源和包括攝像機(jī)、電子卡口、電子警察、RX卡口、RFID、電圍設(shè)備等前端感知設(shè)備關(guān)鍵指標(biāo)的統(tǒng)一管理,奠定統(tǒng)一運(yùn)維平臺(tái)的基礎(chǔ)。
運(yùn)維平臺(tái)的核心工作之一是運(yùn)行監(jiān)控。運(yùn)維平臺(tái)對(duì)納入資產(chǎn)管理的所有設(shè)備進(jìn)行運(yùn)行監(jiān)控管理,支持SNMP、CLI(Telnet、SSH)、WMITELNET、SSH、ICMP、JDBC、ODBC、JMX及私有協(xié)議等方式,進(jìn)行不間斷監(jiān)控服務(wù)。同時(shí),周期性通過機(jī)器加人工復(fù)核的方式,對(duì)監(jiān)測機(jī)制進(jìn)行調(diào)優(yōu),確保監(jiān)測準(zhǔn)確性。
故障告警或臨界預(yù)警是故障處理的第一步,通過數(shù)據(jù)抽取模塊從數(shù)據(jù)收集服務(wù)器獲取需要的數(shù)據(jù)進(jìn)行分析并實(shí)現(xiàn)實(shí)時(shí)告警,告警方式支持客戶端告警、短信告警、郵件告警、App告警等,以最快的方式通知相關(guān)人員進(jìn)行處理。APP和客戶端還能夠快速、清晰、高效流轉(zhuǎn)工單信息,反饋工作結(jié)果,具備團(tuán)隊(duì)間協(xié)作必要的通信功能。
定義了包括事件管理、問題管理、配置管理、變更管理、服務(wù)級(jí)別管理、作業(yè)計(jì)劃、知識(shí)庫等在內(nèi)的服務(wù)管理流程,通過各流程環(huán)節(jié)的工單形成運(yùn)維服務(wù)的閉環(huán)管理,利用系統(tǒng)將人員、流程、技術(shù)和信息有機(jī)地結(jié)合起來,提高運(yùn)行維護(hù)的有效性。
根據(jù)公安工作實(shí)際配套建立三級(jí)(市級(jí)、縣級(jí)、派出所級(jí))分級(jí)運(yùn)維管理機(jī)構(gòu),同步建立資產(chǎn)管理、日常巡檢、故障響應(yīng)、安全管理、人員培訓(xùn)、績效考核等一系列完善的運(yùn)維管理制度,將管理、服務(wù)、考核在系統(tǒng)里有機(jī)結(jié)合,使運(yùn)維工作制度化、規(guī)范化、精細(xì)化。
運(yùn)維工作中嚴(yán)格要求按照有關(guān)規(guī)范進(jìn)行操作,尤其是信息安全方面,建立完善安全監(jiān)測手段,及時(shí)發(fā)現(xiàn)并阻止非法設(shè)備和違規(guī)網(wǎng)絡(luò)聯(lián)接,加強(qiáng)網(wǎng)絡(luò)及視頻圖像信息應(yīng)用的動(dòng)態(tài)審計(jì)監(jiān)督和管理,實(shí)行行為日志審計(jì),保障安全事件可追溯、可查證,實(shí)現(xiàn)可管可控。
智能運(yùn)維管理平臺(tái)基于大數(shù)據(jù)的計(jì)算和存儲(chǔ)能力以及ITIL的最佳實(shí)踐經(jīng)驗(yàn),將復(fù)雜的運(yùn)維管理工作變得簡單化、可視化、規(guī)范化和自動(dòng)化(部分),有效提升服務(wù)效率和效果。平臺(tái)的架構(gòu)設(shè)計(jì)如圖1所示。
監(jiān)控對(duì)象,大致可以分為四大類:業(yè)務(wù)應(yīng)用、中間件、基礎(chǔ)設(shè)施和數(shù)據(jù)。業(yè)務(wù)應(yīng)用主要包括應(yīng)用軟件、業(yè)務(wù)系統(tǒng)等。中間件包括數(shù)據(jù)庫、緩存、消息隊(duì)列、Web容器等。基礎(chǔ)設(shè)施又可以分成前端感知設(shè)備和后端IT設(shè)備。前端感知設(shè)備主要包括攝像機(jī)(包括車輛卡口、RX卡口等)、無線終端、電圍設(shè)備、智能箱等;后端IT設(shè)備主要包括物理機(jī)、虛擬機(jī)、網(wǎng)絡(luò)設(shè)備、安全設(shè)備、存儲(chǔ)設(shè)備等。數(shù)據(jù)主要有用戶使用情況和數(shù)據(jù)質(zhì)量。主要資產(chǎn)監(jiān)測指標(biāo)如下:
網(wǎng)絡(luò)設(shè)備:運(yùn)行時(shí)間、通信狀態(tài)、CPU負(fù)載、MEM利用率、線路流量、幀流量等指標(biāo)。
服務(wù)器:CPU性能指標(biāo)、內(nèi)存使用情況、硬盤、網(wǎng)口狀態(tài)及流量、操作系統(tǒng)(Windows、HP Unix、Aix、Solaris、Linux)的系統(tǒng)狀態(tài)、主進(jìn)程、系統(tǒng)告警情況等。
存儲(chǔ)設(shè)備:設(shè)備運(yùn)行狀態(tài)、網(wǎng)絡(luò)連通性、磁盤運(yùn)行狀態(tài)、控制器狀態(tài)、存儲(chǔ)總空間、空閑及占用情況等。
攝像設(shè)備:攝像頭的運(yùn)行狀態(tài)、網(wǎng)絡(luò)連通性及視頻圖像質(zhì)量、錄像完整性等。
數(shù)據(jù)庫:運(yùn)行狀態(tài)、連接數(shù)、并發(fā)數(shù)、數(shù)據(jù)庫日志、緩存情況、索引信息、庫緩存情況、監(jiān)聽器工作情況、進(jìn)程數(shù)、會(huì)話、實(shí)例性能信息、SQL語句執(zhí)行狀況、日志和表空間使用率等指標(biāo)。
中間件:運(yùn)行狀態(tài)、隊(duì)列信息、線程信息、事務(wù)信息、連接池狀態(tài)、連接數(shù)量、最大連接數(shù)量、Session數(shù)等指標(biāo)。
應(yīng)用系統(tǒng):應(yīng)用狀態(tài)、進(jìn)程狀態(tài)、進(jìn)程占用資源情況、最大時(shí)延、最小時(shí)延、端口狀態(tài)等指標(biāo)。
感知設(shè)備:服務(wù)運(yùn)行狀態(tài)、端到端響應(yīng)時(shí)間、業(yè)務(wù)/應(yīng)用所關(guān)聯(lián)的資源對(duì)象的性能等。
數(shù)據(jù)質(zhì)量:抓拍圖像清晰完好情況、識(shí)別準(zhǔn)確率、8秒數(shù)據(jù)入庫率、倒掛率、數(shù)據(jù)及時(shí)上傳上級(jí)部門情況等。
用戶使用情況:使用記錄、故障報(bào)告、用戶反饋、使用中的系統(tǒng)異常報(bào)告、系統(tǒng)反應(yīng)時(shí)間等。
數(shù)據(jù)采集,主要負(fù)責(zé)檢測以及收集各種監(jiān)控對(duì)象的監(jiān)控指標(biāo)數(shù)據(jù),然后將收集到的數(shù)據(jù)進(jìn)行規(guī)范化,并進(jìn)行存儲(chǔ)。由于監(jiān)控對(duì)象種類繁多,各類數(shù)據(jù)的采集方式也不盡相同,主要的采集方式包括:SDK接口采集、客戶端采集、通過網(wǎng)絡(luò)協(xié)議(http/snmp/jmx)主動(dòng)抓取等。
根據(jù)不同的數(shù)據(jù)特點(diǎn)以及業(yè)務(wù)的需要,采集到的數(shù)據(jù)分別存儲(chǔ)到文件系統(tǒng)(HDFS)、對(duì)象存儲(chǔ)(Fastdfs)、指標(biāo)庫(Influxdb),建立索引系統(tǒng)(Elasticsearch)、消息隊(duì)列(Kafka),為后續(xù)大數(shù)據(jù)分析以及業(yè)務(wù)處理做好準(zhǔn)備。
業(yè)務(wù)處理是系統(tǒng)架構(gòu)中體現(xiàn)核心價(jià)值的部分。其關(guān)注點(diǎn)主要集中在業(yè)務(wù)規(guī)則的制定、業(yè)務(wù)流程的實(shí)現(xiàn)等與業(yè)務(wù)需求有關(guān)的設(shè)計(jì),是運(yùn)維管理平臺(tái)所使用的各種業(yè)務(wù)邏輯,集中管理和協(xié)調(diào)各子系統(tǒng)之間的服務(wù)調(diào)用。業(yè)務(wù)處理主要有資產(chǎn)管理、監(jiān)測配置、運(yùn)維服務(wù)、數(shù)據(jù)分析等核心業(yè)務(wù)。
資產(chǎn)管理:結(jié)合日常監(jiān)測,把資產(chǎn)管理由被動(dòng)管理轉(zhuǎn)為主動(dòng)管理,從多個(gè)維度管理資產(chǎn),將極大提高資產(chǎn)管理效率,實(shí)現(xiàn)資產(chǎn)全生命周期的數(shù)字化、無紙化。
監(jiān)測配置:通過CMDB(配置管理庫)識(shí)別、控制、維護(hù)與檢查資產(chǎn),保障資產(chǎn)數(shù)據(jù)的準(zhǔn)確與安全,實(shí)現(xiàn)更好的資產(chǎn)決策,優(yōu)化資產(chǎn)生命周期投資以提供更好的服務(wù)。
運(yùn)維服務(wù):解決資產(chǎn)運(yùn)行過程中已發(fā)生的和潛在的問題,通過調(diào)查和分析基礎(chǔ)構(gòu)架的薄弱環(huán)節(jié),查明事故原因,由此制定解決方案和防止事故再次發(fā)生的具體措施。
數(shù)據(jù)分析:針對(duì)不同類型設(shè)備設(shè)施設(shè)計(jì)不同的模型,既分析其量值又分析其變化情況,既分析其個(gè)體又分析同類資源情況還分析其“上下游”關(guān)聯(lián)設(shè)備情況、系統(tǒng)總體情況。分析結(jié)果一方面以“界定、測量、分析、改進(jìn)、控制”管理規(guī)范為指導(dǎo),以改進(jìn)為目標(biāo),在測量的基礎(chǔ)上對(duì)數(shù)據(jù)統(tǒng)計(jì)、分析,為總體工作上改進(jìn)、控制提供依據(jù)。另一方面分析人員、團(tuán)隊(duì)、區(qū)域保障資產(chǎn)設(shè)備穩(wěn)定運(yùn)行的工作情況,為建立科學(xué)運(yùn)維績效考核體系提供數(shù)據(jù)。
展示層負(fù)責(zé)處理所有的界面展示以及交互邏輯,是用戶和系統(tǒng)之間交流的橋梁,一方面為用戶提供了交互的工具,另一方面也為顯示和提交數(shù)據(jù)實(shí)現(xiàn)了一定的邏輯,以便協(xié)調(diào)用戶和系統(tǒng)的操作。實(shí)現(xiàn)多維度分析報(bào)表、巡檢報(bào)表、多種格式報(bào)表導(dǎo)出。
平臺(tái)工單主要采用自動(dòng)派發(fā)方式,并根據(jù)實(shí)際靈活保留手動(dòng)創(chuàng)建派發(fā)工單的方式。工單類型包含故障工單、應(yīng)急工單、巡檢工單、其他工單,涉及工單處理角色包含監(jiān)理、業(yè)主(分級(jí))、運(yùn)維人員(分域)、運(yùn)營商(電信或電力)4種角色。
運(yùn)維平臺(tái)以集群運(yùn)行,避免單點(diǎn)故障,各資產(chǎn)均實(shí)現(xiàn)24小時(shí)的監(jiān)測,一旦獲取到故障信息或超過告警閾值,均會(huì)自動(dòng)告警并派發(fā)工單至相關(guān)負(fù)責(zé)人員。工單負(fù)責(zé)人員接收后,工單將開始處理時(shí)間統(tǒng)計(jì),按照不同工單等級(jí),運(yùn)維人員應(yīng)在規(guī)定時(shí)間內(nèi)完成工單處理。
在排查過程中,故障一般分為3種情況:一是由于運(yùn)營商網(wǎng)絡(luò)連通故障,二是由于第三方不可抗力因素(如修路、停電等),三是由于設(shè)備自身故障等。針對(duì)3類故障情況,對(duì)應(yīng)進(jìn)行轉(zhuǎn)發(fā)、掛起、修復(fù)等操作,通過平臺(tái)快速反饋現(xiàn)場排查情況。除了線上自動(dòng)派單,為配合線下巡檢工單機(jī)制,設(shè)定自查告警,在周期性巡檢中發(fā)現(xiàn)的問題及時(shí)派發(fā)工單。
運(yùn)維監(jiān)控平臺(tái)通過配置閾值,達(dá)到閾值后自動(dòng)觸發(fā),生成告警信息,平臺(tái)對(duì)信息進(jìn)行壓縮合并與降噪處理。一是降噪,在指定時(shí)間內(nèi)容自動(dòng)去重,并消除不重要的事件,識(shí)別重要關(guān)鍵信息,避免告警疲勞。二是聚類,將相關(guān)的事件分門別類聚合起來,抑制告警風(fēng)暴。三是根因識(shí)別,基于故障模式及關(guān)聯(lián)消息的持續(xù)自我學(xué)習(xí),進(jìn)行自主機(jī)器學(xué)習(xí)后,識(shí)別告警的根本原因進(jìn)行告警。通過以上方法到達(dá)運(yùn)維人員的告警信息基本上是有效信息。
結(jié)合責(zé)、權(quán)、利三個(gè)方面建立運(yùn)維服務(wù)考核與激勵(lì)機(jī)制,做到工作質(zhì)量與績效掛鉤,根據(jù)平臺(tái)客觀統(tǒng)計(jì)數(shù)據(jù)結(jié)合復(fù)核結(jié)果做到精準(zhǔn)考核、獎(jiǎng)懲有度,建立起科學(xué)規(guī)范、系統(tǒng)全面的運(yùn)維績效管理體系,有效調(diào)動(dòng)運(yùn)維組員工勞動(dòng)積極性,提高執(zhí)行力,保障維護(hù)工作的持續(xù)穩(wěn)定運(yùn)行,打造優(yōu)質(zhì)的運(yùn)維服務(wù)質(zhì)量。
知識(shí)庫是一個(gè)解決方案的匯總,日常運(yùn)維故障典型解決方案的總結(jié)、積累,相關(guān)小組組織研究運(yùn)維事件發(fā)生的原因和特點(diǎn),分析事件發(fā)展過程,總結(jié)處理過程中的經(jīng)驗(yàn)和教訓(xùn),進(jìn)行知識(shí)積累,進(jìn)一步補(bǔ)充、完善和修訂相關(guān)應(yīng)急預(yù)案記錄知識(shí)庫。經(jīng)過沉淀,針對(duì)各種資產(chǎn)設(shè)備故障現(xiàn)象以及面對(duì)突發(fā)事件,知識(shí)庫均能提供行之有效的解決方案,能夠自動(dòng)推送解決方案發(fā)給問題解決人員以供工作參考。部分故障情形下可根據(jù)情況對(duì)服務(wù)器進(jìn)程、智能化前端進(jìn)行遠(yuǎn)程重啟、復(fù)位,實(shí)現(xiàn)自動(dòng)快速運(yùn)維。
目前接入前端設(shè)備包括攝像機(jī)、無線終端監(jiān)控、電圍設(shè)備監(jiān)控、智能箱監(jiān)控等,監(jiān)控?cái)?shù)量超過7萬個(gè);后端設(shè)備包括服務(wù)器、虛擬機(jī)、安全設(shè)備、中間件、Web應(yīng)用等,數(shù)量超過5千個(gè)。每日產(chǎn)生的監(jiān)控?cái)?shù)據(jù)超過1000萬條,每日產(chǎn)生預(yù)(告)警信息約2500個(gè),觸發(fā)有效工單約1000個(gè)。原來設(shè)備依靠人工巡檢,周期需要兩三個(gè)月,現(xiàn)在前端設(shè)備每半小時(shí)巡檢一次,后端設(shè)備每日至少一次或多次檢測。以某日情況為例,各地設(shè)備在線率、視頻圖像完好率普遍在99.5%以上,其中核心(重要)點(diǎn)位設(shè)備大部分地方長時(shí)間保持100%在線,磁盤完好率99%,錄像完整性96%,所有軟件故障總時(shí)間由原來300小時(shí)以上降低到不到1小時(shí),運(yùn)維效率穩(wěn)步提高。
本文針對(duì)平安城市項(xiàng)目運(yùn)維難點(diǎn)問題,提出通過構(gòu)建平臺(tái)進(jìn)行實(shí)時(shí)監(jiān)控,隨時(shí)掌握各個(gè)資源的運(yùn)行狀態(tài),通過大數(shù)據(jù)分析后及時(shí)預(yù)警或告警,甚至自動(dòng)修復(fù),為盡快解決問題提供條件,并為領(lǐng)導(dǎo)決策、團(tuán)隊(duì)管理、建立經(jīng)驗(yàn)、完善工作流程等提供依據(jù),最終實(shí)現(xiàn)持續(xù)提升運(yùn)維和建設(shè)水平。
在運(yùn)維平臺(tái)指導(dǎo)下,運(yùn)維團(tuán)隊(duì)整合資源,明確分工,積極作為,確保質(zhì)效,形成統(tǒng)一管理、集約高效的一體化運(yùn)維服務(wù)質(zhì)量保障體系,從而保障城市安全信息系統(tǒng)安全、穩(wěn)定、高效、持續(xù)的運(yùn)行。