馬波勇
安全生產(chǎn)是各行各業(yè)必須堅(jiān)守的底線。金融行業(yè)的特點(diǎn)決定了數(shù)據(jù)中心安全可靠、信息系統(tǒng)穩(wěn)定運(yùn)行是安全生產(chǎn)的重中之重。針對(duì)此,在監(jiān)管層面的監(jiān)督指導(dǎo)下,各公司應(yīng)高度重視安全生產(chǎn),從組織、制度流程、工具上不斷強(qiáng)化和優(yōu)化舉措,確保IT安全生產(chǎn)。
面臨新形勢(shì)、承受新壓力
在經(jīng)濟(jì)下行明顯的宏觀背景下,中國(guó)保險(xiǎn)業(yè)正在借助移動(dòng)互聯(lián)、大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等新技術(shù),創(chuàng)造新需求、新模式、新業(yè)態(tài),擴(kuò)大客戶接觸點(diǎn)、提升客戶體驗(yàn),增大業(yè)務(wù)規(guī)模,降低運(yùn)營(yíng)成本。隨著業(yè)務(wù)規(guī)模的擴(kuò)大和業(yè)務(wù)的創(chuàng)新,數(shù)據(jù)中心的安全生產(chǎn)面臨著全新的壓力,IT的服務(wù)能力面臨全新的挑戰(zhàn)。
首先,產(chǎn)品、服務(wù)、模式創(chuàng)新的不斷推出,系統(tǒng)上線和發(fā)布頻繁,基礎(chǔ)設(shè)施變更頻繁,使得事故發(fā)生的概率大增;其次,隨著電商、微信、移動(dòng)APP等工具的應(yīng)用,IT從過去以服務(wù)內(nèi)部用戶為主,轉(zhuǎn)變?yōu)橹饕苯用嫦蚯f級(jí)終端用戶提供服務(wù),用戶對(duì)信息系統(tǒng)的穩(wěn)定性要求越來越高,7x24小時(shí)服務(wù)成為新常態(tài);再次,面對(duì)千萬級(jí)用戶及TB級(jí)數(shù)據(jù),現(xiàn)有信息系統(tǒng)架構(gòu)的穩(wěn)定性、靈活性和處理性能均面臨新的壓力,容易出現(xiàn)響應(yīng)緩慢甚至崩潰,需要進(jìn)行全新的升級(jí)換代;四是上一輪大集中投入的IT基礎(chǔ)設(shè)施進(jìn)入生命周期的后期,設(shè)備故障易發(fā)多發(fā);五是業(yè)務(wù)創(chuàng)新對(duì)技術(shù)供給能力提出新的要求,IT面臨人才緊缺,能力需要時(shí)間培育。
面對(duì)新形勢(shì)新要求新壓力,要標(biāo)本兼治。
立足當(dāng)下,確保安全穩(wěn)定
針對(duì)新形勢(shì)下的安全挑戰(zhàn),需多措并舉,確保安全穩(wěn)定運(yùn)行,并為技術(shù)供給能力的升級(jí)擠出時(shí)間和空間。
首先必須避免發(fā)生影響業(yè)務(wù)運(yùn)行的重大IT生產(chǎn)事故。
1.主動(dòng)排查重大生產(chǎn)隱患,及時(shí)采取有針對(duì)性的防范措施。數(shù)據(jù)丟失、關(guān)鍵基礎(chǔ)設(shè)施不可用、自動(dòng)化腳本錯(cuò)誤、數(shù)據(jù)和資金批量處理錯(cuò)誤、重要單證打印錯(cuò)誤以及發(fā)生重大信息安全事件是金融企業(yè)面臨的重大IT生產(chǎn)風(fēng)險(xiǎn),必須有效防范。數(shù)據(jù)是金融企業(yè)的生命線。為確保故障發(fā)生時(shí)數(shù)據(jù)不丟,在地域上采取數(shù)據(jù)中心、本地、異地備份;在介質(zhì)上采取磁帶和磁盤交叉?zhèn)浞?;在頻率上采取年度、定期、實(shí)時(shí)備份。在防范黑客攻擊、惡意代碼入侵、信息泄漏等信息安全風(fēng)險(xiǎn)方面,采取主動(dòng)安全架構(gòu)設(shè)施、代碼檢測(cè)、漏洞掃描、補(bǔ)丁修復(fù)、數(shù)據(jù)防泄漏、事件綜合分析預(yù)警等縱深防御、立體防護(hù)策略。
2.完善應(yīng)急預(yù)案,確保故障發(fā)生時(shí),對(duì)業(yè)務(wù)運(yùn)行不產(chǎn)生重大影響,避免致命影響。按數(shù)據(jù)備份策略定期對(duì)備份數(shù)據(jù)進(jìn)行恢復(fù)演練,驗(yàn)證備份數(shù)據(jù)隨時(shí)可用;不斷補(bǔ)充新的場(chǎng)景預(yù)案,通過有計(jì)劃開展針對(duì)實(shí)際場(chǎng)景的應(yīng)急演練和年度災(zāi)難恢復(fù)演練完善應(yīng)急預(yù)案;開展突然發(fā)令的無預(yù)警應(yīng)急演練持續(xù)提高應(yīng)急故障處置的實(shí)戰(zhàn)能力。
其次要不斷減少輕微影響業(yè)務(wù)的一般故障發(fā)生。
1.有計(jì)劃開展運(yùn)維工作。詳細(xì)編制年度生產(chǎn)運(yùn)維計(jì)劃,明確各類日常巡檢具體事項(xiàng)和頻率,明確業(yè)務(wù)活動(dòng)期、季度報(bào)告期、節(jié)假日以及重要社會(huì)活動(dòng)期間的特別保障事項(xiàng)和頻率。如每天監(jiān)控檢查數(shù)據(jù)庫(kù)性能、容量、連接數(shù)是否逼近閥值;業(yè)務(wù)活動(dòng)期是否存在性能瓶頸等。
2.實(shí)行7x24運(yùn)維。通過所有IT組件自動(dòng)化的監(jiān)控以及7x24的值班制度,確保事件和故障能夠第一時(shí)間被響應(yīng)和處置。
3.開展主動(dòng)運(yùn)維。明確開發(fā)禁止項(xiàng),如禁止多表關(guān)聯(lián)等,提升開發(fā)交付質(zhì)量,提高應(yīng)用系統(tǒng)的穩(wěn)定性;主動(dòng)開展IT組件生命周期管理,規(guī)避單點(diǎn)隱患,減少IT組件故障對(duì)業(yè)務(wù)運(yùn)行產(chǎn)生的影響。
4.定期進(jìn)行生產(chǎn)問題復(fù)盤。通過每日生產(chǎn)調(diào)度晨會(huì)、每周生產(chǎn)例會(huì)、每月生產(chǎn)分析會(huì)對(duì)生產(chǎn)情況、故障情況進(jìn)行仔細(xì)分析,查找產(chǎn)生的原因、研究改進(jìn)的措施,舉一反三,亡羊補(bǔ)牢。
同時(shí),要高度重視人的因素在安全生產(chǎn)的重要作用。堅(jiān)決杜絕不按照規(guī)章制度執(zhí)行,擅自操作造成的事故,盡量避免考慮不周和操作失誤。
1.加強(qiáng)意識(shí)教育,做到警鐘長(zhǎng)鳴。參照業(yè)界的最佳實(shí)踐、經(jīng)驗(yàn)和教訓(xùn),明確“十四條”安全生產(chǎn)生底線,作為上崗前提;結(jié)合實(shí)際案例剖析和交流思想認(rèn)識(shí);對(duì)照制度和14條底線,確定檢查要素,開展自查、交叉檢查和事后日志分析;及時(shí)反饋,依章處罰,保持警鐘長(zhǎng)鳴。
2.防止因方案不周產(chǎn)生生產(chǎn)事故。強(qiáng)調(diào)生產(chǎn)方案必須包括關(guān)聯(lián)性風(fēng)險(xiǎn)等和應(yīng)對(duì)、回退評(píng)判標(biāo)準(zhǔn)和方案;采用需求方、執(zhí)行方、關(guān)聯(lián)方面對(duì)面綜合評(píng)估,充分評(píng)估風(fēng)險(xiǎn)識(shí)別和應(yīng)對(duì)是否充分,實(shí)施方案和回退方案是否合理有效;對(duì)于高風(fēng)險(xiǎn)的發(fā)布、變更、事件處置,在綜合評(píng)估的基礎(chǔ)上還必須通過變更管理委員會(huì)的再次評(píng)估才能實(shí)施。
3.標(biāo)準(zhǔn)化處置流程,避免隨意操作。
通過把常見的故障處理、變更、發(fā)布、巡檢、配置及部署等運(yùn)維工作總結(jié)成標(biāo)準(zhǔn)化的SOP手冊(cè),加強(qiáng)雙人復(fù)核、技術(shù)和業(yè)務(wù)驗(yàn)證,防止隨意性操作帶來偶發(fā)事故。
4.借助技術(shù)手段,防止非授權(quán)操作和操作失誤。借助堡壘機(jī)、特權(quán)管理平臺(tái)等安全技術(shù)手段,阻止未授權(quán)人員操作生產(chǎn)系統(tǒng);通過自動(dòng)化平臺(tái)實(shí)現(xiàn)發(fā)布變更、事件處置等SOP的自動(dòng)化處理,既防止因操作失誤產(chǎn)生偶發(fā)生產(chǎn)事故,又可以提高運(yùn)維工作效率。
借助新技術(shù)、構(gòu)筑新起點(diǎn)
充分利用立足當(dāng)下多措并舉所獲得的寶貴時(shí)間和空間,一方面要借助云計(jì)算、移動(dòng)互聯(lián)、分布計(jì)算、大數(shù)據(jù)、容器等技術(shù),重視面向安全生產(chǎn)的架構(gòu)設(shè)計(jì),確保非功能性需求的滿足。面對(duì)大量并發(fā)訪問,能抗壓、能分流、能瘦身、能防錯(cuò)、能監(jiān)控、有日志,打造適應(yīng)互聯(lián)網(wǎng)+時(shí)代C終端用戶高頻、低值、脈沖的消費(fèi)特點(diǎn),能夠秒級(jí)響應(yīng)、靈活配置、彈性擴(kuò)展、無縫切換、方便運(yùn)維的新一代信息系統(tǒng),從源頭提高系統(tǒng)運(yùn)行的穩(wěn)定性和可維護(hù)性;另一方面應(yīng)用虛擬化、云計(jì)算、軟件定義網(wǎng)絡(luò)(SDN)、軟件定義存儲(chǔ)(SDS)等技術(shù),構(gòu)建可靠、可配置、可擴(kuò)展的基礎(chǔ)設(shè)施;三是借助新的運(yùn)維技術(shù)深入開展自動(dòng)化運(yùn)維和數(shù)字化運(yùn)維,實(shí)現(xiàn)運(yùn)維計(jì)劃、變更、發(fā)布的自動(dòng)執(zhí)行,隱患的主動(dòng)發(fā)現(xiàn)和自動(dòng)治愈,通過大數(shù)據(jù)的分析找到瓶頸,提高運(yùn)維效率、優(yōu)化應(yīng)用程序和架構(gòu);四是探索新的工作機(jī)制、借助新系統(tǒng)的研發(fā)培養(yǎng)掌握新技術(shù)的核心團(tuán)隊(duì)。可考慮嘗試DEVOPS方法,優(yōu)化團(tuán)隊(duì)組合,縮短溝通鏈條,提升團(tuán)隊(duì)技能,提高交付質(zhì)量,實(shí)現(xiàn)快速交付和敏捷高效運(yùn)維。