張吉春 葛 良 劉 玲 秦 磊
中國移動(dòng)通信集團(tuán)江蘇有限公司
中國移動(dòng)有八大區(qū)虛擬化網(wǎng)絡(luò)云資源池,業(yè)務(wù)網(wǎng)元以NVF化承載在網(wǎng)絡(luò)云平臺上。中國移動(dòng)5G消息與短信業(yè)務(wù)已全部上云,八個(gè)大區(qū)同廠商5G消息中心互備容災(zāi)。
5G消息中心各大區(qū)間容災(zāi)關(guān)系如下:華東南大區(qū)與華東北大區(qū)互備容災(zāi);西南大區(qū)與西北大區(qū)互備容災(zāi);華南大區(qū)與華中大區(qū)互備容災(zāi);華北大區(qū)與東北大區(qū)互備容災(zāi)。各5G消息中心容災(zāi)對應(yīng)關(guān)系如圖1所示。
圖1 5G消息中心容災(zāi)關(guān)系圖
大區(qū)之間做AA(active-active)互備容災(zāi),采用雙歸屬策略。正常狀態(tài)下各大區(qū)各自處理本大區(qū)業(yè)務(wù),而在容災(zāi)時(shí),則能迅速接管對方大區(qū)的全部業(yè)務(wù)。
目前江蘇移動(dòng)的5G短信一半承載在華東北資源池,一半承載在華東南資源池,如果華東南大區(qū)節(jié)點(diǎn)出現(xiàn)重大故障,其上承載的全部江蘇移動(dòng)5G短信業(yè)務(wù)將遷移到華東北資源池,這需要維護(hù)人員人工登錄網(wǎng)絡(luò)后實(shí)施手工切換來開展容災(zāi),完成全部業(yè)務(wù)的切換預(yù)計(jì)需要1個(gè)小時(shí),在切換期間會造成大量業(yè)務(wù)的丟失,造成公司收入的損失。
雙歸屬策略通過DNS查詢、options探測、內(nèi)部心跳機(jī)制,實(shí)現(xiàn)主用路徑發(fā)送,并支持備用路徑,達(dá)到容災(zāi)切換目的。而為避免大區(qū)內(nèi)大量業(yè)務(wù)的同時(shí)聯(lián)動(dòng)切換,將容災(zāi)粒度設(shè)置為按短信處理模塊、消息處理模塊、SIP接入模塊、MaaP平臺模塊分別切換,最終實(shí)現(xiàn)業(yè)務(wù)跨大區(qū)資源池的自動(dòng)和無損切換,對客戶的業(yè)務(wù)體驗(yàn)無任何影響。
短信模塊目前包括點(diǎn)對點(diǎn)短信、夢網(wǎng)短信、行業(yè)短信、互通短信等業(yè)務(wù)場景。
1.1.1 點(diǎn)對點(diǎn)短信業(yè)務(wù)
華東北1短信中心承擔(dān)蘇北點(diǎn)對點(diǎn)短信、消息轉(zhuǎn)短信業(yè)務(wù)。與WXLSTP1/2/3/4各有4條IP高速信令,與NJLSTP1/2/3/4各有4條IP高速信令,與NJHSTP1/2各開8條IP鏈路。共48條IP高速信令。
華東南2短信中心承擔(dān)蘇南點(diǎn)對點(diǎn)短信業(yè)務(wù)。與WXLSTP1/2/3/4各有4條IP高速信令,與NJLSTP1/2/3/4各有4條IP高速信令,與NJHSTP1/2各開8條IP鏈路。共48條IP高速信令。華東南、華東北短信中心信令連接拓?fù)淙鐖D2所示。
圖2 華東南、華東北短信中心信令連接拓?fù)鋱D
以蘇州點(diǎn)對點(diǎn)短信業(yè)務(wù)切換為例,蘇州短信中心的ID有:13800512500。如果華東南大區(qū)出現(xiàn)4-8級故障,需要干線維護(hù)人員手工修改南京HSTP1/2、南京LSTP1/2、南京LSTP3/4、無錫LSTP1/2、無錫LSTP3/4的路由數(shù)據(jù),將蘇州短信中心的ID(13800512500)從華東南2短信中心的信令點(diǎn)編碼(9-247-141)指向華東北1短信中心的信令點(diǎn)編碼(9-247-133)。
為了支撐點(diǎn)對點(diǎn)短信業(yè)務(wù)的無損切換,技術(shù)人員通過制作SCCP層主備信令點(diǎn)的方案來實(shí)現(xiàn)GT路由的自動(dòng)容災(zāi)切換。如果華東南大區(qū)出現(xiàn)4-8級故障,無需維護(hù)人員人工接入,業(yè)務(wù)自動(dòng)切換到華東北大區(qū)的短信中心,實(shí)現(xiàn)點(diǎn)對點(diǎn)短信業(yè)務(wù)的無損切換。
貝爾STP實(shí)施方案:創(chuàng)建SCCP層數(shù)據(jù)時(shí)將entityset定義主備兩條entity數(shù)據(jù),對應(yīng)優(yōu)先級為1和2,將GT指向該entityset,當(dāng)優(yōu)先級為1的entity出現(xiàn)信令點(diǎn)不可達(dá)時(shí),GT會自動(dòng)路由送往優(yōu)先級為2的entity的信令點(diǎn)進(jìn)行翻譯。
華為STP實(shí)施方案:創(chuàng)建SCPP尋址策略,在尋址策略中定義主備兩個(gè)信令點(diǎn)數(shù)據(jù),對應(yīng)優(yōu)先級為0和1。創(chuàng)建GT數(shù)據(jù)時(shí),采用多點(diǎn)翻譯模式索引至該尋址策略,當(dāng)優(yōu)先級為0的信令點(diǎn)不可達(dá)時(shí),GT會自動(dòng)路由送往優(yōu)先級為1的信令點(diǎn)進(jìn)行翻譯。
1.1.2 網(wǎng)關(guān)短信業(yè)務(wù)
網(wǎng)關(guān)短信業(yè)務(wù)包括全網(wǎng)夢網(wǎng)短信、省內(nèi)夢網(wǎng)短信、行業(yè)短信、互通短信業(yè)務(wù)。以全網(wǎng)夢網(wǎng)短信業(yè)務(wù)為例,該業(yè)務(wù)承載在華東北短信中心3。如果華東北大區(qū)出現(xiàn)4-8級故障,需要短信網(wǎng)關(guān)維護(hù)人員在全網(wǎng)夢網(wǎng)網(wǎng)關(guān)上手工修改路由指向,將原來需要指向華東北短信3的路由修改為指向華東南短信中心4。
為了支撐網(wǎng)關(guān)短信業(yè)務(wù)的無損切換,技術(shù)人員提出通過在網(wǎng)關(guān)設(shè)備下設(shè)置主備賬號的方式進(jìn)行網(wǎng)關(guān)自動(dòng)快速容災(zāi)。當(dāng)主用短信中心故障時(shí)(比如SNDS5GMC3),網(wǎng)關(guān)會自動(dòng)將業(yè)務(wù)切換至備用短信中心賬號(比如SNDS5GMC4)下發(fā)。目前現(xiàn)網(wǎng)所有的網(wǎng)關(guān)(全網(wǎng)夢網(wǎng)網(wǎng)關(guān)、省內(nèi)夢網(wǎng)網(wǎng)關(guān)、互通網(wǎng)關(guān)、行業(yè)網(wǎng)關(guān))都通過版本升級實(shí)現(xiàn)了該功能,并且網(wǎng)關(guān)下面都要求下掛主用短信中心賬號和備用短信中心賬號。
當(dāng)用戶歸屬大區(qū)消息模塊或文件服務(wù)器異常時(shí),主用大區(qū)SIP接入模塊以90秒為間隔探測主用大區(qū)消息模塊的異常。當(dāng)SIP接入模塊檢測到異常時(shí),將使消息模塊的鏈路與信令媒體的路由自動(dòng)切換到容災(zāi)大區(qū)消息模塊。同時(shí),域名解析系統(tǒng)將修改主用大區(qū)消息模塊域名與主用大區(qū)文件服務(wù)器域名指向容災(zāi)大區(qū)消息模塊IP與容災(zāi)大區(qū)文件服務(wù)器IP,并且在所有大區(qū)的MaaP模塊查詢域名解析結(jié)果時(shí),路由均指向到容災(zāi)大區(qū)的5G消息模塊,外部chatbot查詢域名解析則指向容災(zāi)大區(qū)的文件服務(wù)器。消息處理模塊容災(zāi)原理如圖3所示,消息處理模塊信令流程如圖4所示。
圖3 消息處理模塊容災(zāi)原理
圖4 消息處理模塊信令流程圖
當(dāng)SIP接入池內(nèi)其中一個(gè)SIP接入模塊故障時(shí),終端會根據(jù)本地策略自動(dòng)切換到接入池內(nèi)其他可用的接入模塊上,后續(xù)當(dāng)故障SIP接入模塊恢復(fù)正常后,待終端重新注冊時(shí)會再度切回到原來的SIP接入模塊上。SIP接入模塊容災(zāi)原理如圖5所示。
圖5 SIP接入模塊容災(zāi)原理圖
主用大區(qū)在MaaP平臺不可用情況下,將進(jìn)行MaaP容災(zāi)切換。承載網(wǎng)DNS將修改本大區(qū)MaaP域名指向?qū)?yīng)容災(zāi)大區(qū)的IP地址,同時(shí)文件服務(wù)器、用戶終端、chatbot與5G消息中心將根據(jù)DNS返回的地址指向容災(zāi)大區(qū)MaaP平臺。公網(wǎng)DNS分別修改本大區(qū)MaaP平臺提供給文件服務(wù)器、用戶終端、chatbot與5G消息中心的域名所指向的IP為容災(zāi)大區(qū)的MaaP平臺地址。MaaP平臺模塊容災(zāi)原理如圖6所示,MaaP平臺模塊容災(zāi)信令流程如圖7所示。
圖6 MaaP平臺模塊容災(zāi)原理圖
圖7 MaaP平臺模塊容災(zāi)信令流程圖
華東南可信資源池1&2均位于金華數(shù)據(jù)中心D01號樓202機(jī)房,采用中興的服務(wù)器和虛擬層、華為的TOR/EOR配對路由器。兩個(gè)資源池承載了江蘇移動(dòng)6套短信中心NFV網(wǎng)元,一套大區(qū)5G消息中心。
華東南短信中心、消息中心和華東北短信中心、消息中心一對一進(jìn)行容災(zāi)配置且互為主備?,F(xiàn)以華東南短信中心與消息中心進(jìn)行說明,其歸屬資源池、備用短信中心、業(yè)務(wù)屬性關(guān)系如表1所示。
表1 華東南短信中心與消息中心資源關(guān)系對應(yīng)表
5月26日凌晨關(guān)閉華東南大區(qū)中興資源池1&2的EOR配對路由器上行業(yè)務(wù)端口,模擬資源池故障。檢查統(tǒng)計(jì)MO起呼業(yè)務(wù)量,容災(zāi)前蘇南地市業(yè)務(wù)全部在2局承擔(dān),容災(zāi)開始后2局業(yè)務(wù)量降為0,容災(zāi)局點(diǎn)華東北1局MO業(yè)務(wù)量開始增加;容災(zāi)完成倒回后,1局業(yè)務(wù)量開始減少,2局業(yè)務(wù)量恢復(fù)至平時(shí)夜間正常水平。
檢查統(tǒng)計(jì)手機(jī)起呼MO成功率,容災(zāi)前蘇南地市業(yè)務(wù)在2局承擔(dān);容災(zāi)開始后2局成功率降為0,容災(zāi)局點(diǎn)1局MO成功率容災(zāi)開始后指標(biāo)顯示正常;容災(zāi)完成倒回后,1局業(yè)務(wù)量開始減少,MO成功率也恢復(fù)到正常值;2局業(yè)務(wù)量增加恢復(fù)至平時(shí)夜間正常水平,成功率也恢復(fù)正常。
華東北5G消息中心在0:23分左右接管華東南用戶,華東南用戶業(yè)務(wù)撥測正常、計(jì)費(fèi)正常,無異常告警,和預(yù)期一致。華東北5GMC統(tǒng)計(jì)的華東南四省NO業(yè)務(wù)量、NO成功率和同時(shí)段華東南指標(biāo)基本一致。
本文研究了5G消息中心各模塊跨大區(qū)的容災(zāi)方案,包括短信處理模塊、消息處理模塊、SIP接入模塊、MaaP接入模塊。通過華東南大區(qū)整體容災(zāi)演練的實(shí)踐,驗(yàn)證了容災(zāi)方案的可行性,并對后續(xù)其他云化業(yè)務(wù)平臺的容災(zāi)方案制定起到一定的借鑒作用。