陳俊明,張 潔,左 羅(1.南京中興新軟件有限責(zé)任公司,江蘇 南京 210012;2.移動網(wǎng)絡(luò)和移動多媒體技術(shù)國家重點實驗室,廣東 深圳 518055;.南京師范大學(xué)中北學(xué)院,江蘇 鎮(zhèn)江 21200)
近年來以5G、AI、云計算為代表的新技術(shù)迅猛發(fā)展,運營商逐步從主要服務(wù)于人轉(zhuǎn)向全面服務(wù)于整個社會。人與人通信的單一模式逐漸演化為人與人、人與物、物與物的全場景通信模式,業(yè)務(wù)場景更加復(fù)雜。業(yè)務(wù)場景的復(fù)雜性將帶來對SLA 的差異化需求以及與之配套的網(wǎng)絡(luò)管理的復(fù)雜性。2B 方面,5G 需應(yīng)用于自動駕駛、工業(yè)控制、水表電表的自動抄表、智慧園區(qū)、智慧醫(yī)療、智能交通、智慧教育等;2C 方面,5G 需應(yīng)用于云游戲、AR/VR等。
要支撐這些新業(yè)務(wù),運營商面臨如下的挑戰(zhàn)。
a)新業(yè)務(wù)開發(fā)速度的挑戰(zhàn):傳統(tǒng)方式下,由基礎(chǔ)設(shè)施直接提供業(yè)務(wù),相關(guān)能力豎井狀散落在各個具體的業(yè)務(wù)中,新業(yè)務(wù)開發(fā)周期長。
b)云網(wǎng)拉通的挑戰(zhàn):OTT 通過公有云、私有云、混合云、異構(gòu)云,為各行業(yè)客戶提供多環(huán)境、多形態(tài)、隨需部署的多樣化云服務(wù),給電信運營商的運營帶來極大的競爭壓力;同時很多業(yè)務(wù)的提供還需要將云和網(wǎng)打通,但目前云網(wǎng)協(xié)同尚在推進(jìn)中,業(yè)務(wù)的交付周期長、業(yè)務(wù)質(zhì)量保障方面仍存在不足。拉通IT、CT、DT、OT能力,提供一體化服務(wù),是電信業(yè)發(fā)展的必然。
c)運維的挑戰(zhàn):運營商的網(wǎng)絡(luò)很長一段時期內(nèi)都會是多制式(2G/3G、4G、5G)共存的環(huán)境,由此帶來了協(xié)同和互操作難度,同時網(wǎng)絡(luò)分層解耦架構(gòu)帶來故障定界定位困難,虛擬化/云化網(wǎng)絡(luò)的動態(tài)變化帶來資源統(tǒng)一調(diào)度和管理挑戰(zhàn)等。
AI 在特性挖掘、深度數(shù)據(jù)分析、策略動態(tài)生成等方面具備很大優(yōu)勢,將AI技術(shù)引入通信網(wǎng)絡(luò)可以助力電信運營商構(gòu)筑更加靈活、高效的信息基礎(chǔ)設(shè)施,從而進(jìn)行業(yè)務(wù)流量預(yù)測、設(shè)備的預(yù)防性維護(hù)和資源優(yōu)化分配,減少重復(fù)性人工操作,可以更快速地拉通云網(wǎng)業(yè)務(wù),提升新業(yè)務(wù)的開發(fā)速度。目前,運營商已在AI領(lǐng)域積極地開展實踐。
云網(wǎng)智能化可以基于基礎(chǔ)設(shè)施層、管控層、跨域三層網(wǎng)絡(luò)架構(gòu)實現(xiàn),可以將AI 能力模塊化設(shè)計,隨需植入云網(wǎng)基礎(chǔ)設(shè)施層、單域管控層和跨域運營層。頂層架構(gòu)如圖1所示。
圖1 運營商智能化整體架構(gòu)
運營商的AI能力打造首先體現(xiàn)在中臺打造上,AI中臺承擔(dān)著AI 能力“大腦”的作用,包括AI 模型的集中訓(xùn)練、全局推理和AI模型市場等功能。AI中臺管理著云網(wǎng)各層面的AI 模型,通過與管控智能引擎、基礎(chǔ)設(shè)施智能引擎的協(xié)作實現(xiàn)云網(wǎng)智能閉環(huán)。在智慧中臺內(nèi)部,AI 中臺將AI 能力提供給能力運營中心、業(yè)務(wù)中臺、數(shù)據(jù)中臺、技術(shù)中臺及安全中臺。在能力運營中心,可以根據(jù)用戶的喜好、調(diào)用行為給用戶推薦適合調(diào)用的能力;在業(yè)務(wù)中臺,可將AI 能力用到具體的業(yè)務(wù)中,進(jìn)行云網(wǎng)的端到端運維,CDN 中熱點視頻的邊緣推送,產(chǎn)品的質(zhì)檢、水質(zhì)的監(jiān)測、園區(qū)的安防等;在數(shù)據(jù)中臺中,可以使用AI 能力進(jìn)行數(shù)據(jù)質(zhì)量的檢查,對異常數(shù)據(jù)進(jìn)行識別,對缺失數(shù)據(jù)進(jìn)行補充回填;在技術(shù)中臺中,可以使用AI 能力進(jìn)行資源的調(diào)度,減少資源消耗;在安全中心中,可以使用AI 能力進(jìn)行惡意軟件的檢測,識別攻擊流量。AI 中臺需處理的數(shù)據(jù)量大,對算力要求高,對實時性要求相對低,需要集群部署。
運營商的AI能力隨需嵌入管控層,形成管控智能引擎,可以快速與現(xiàn)有的運維管控系統(tǒng)相結(jié)合,增強云網(wǎng)單域的管、控、析能力,實現(xiàn)單域的智能化,可應(yīng)用于云網(wǎng)單域告警分析、基站智能節(jié)能等場景。這些場景需處理的數(shù)據(jù)量中等,對算力的要求也適中,實時性要求相對較高,可以使用少量服務(wù)器進(jìn)行部署。
運營商的AI能力也可以嵌入基礎(chǔ)設(shè)施層,形成基礎(chǔ)設(shè)施智能引擎,可植入云網(wǎng)基礎(chǔ)設(shè)施(如基站)實現(xiàn)高實時智能策略,適用于無線動態(tài)頻譜分配、5GC電信云動態(tài)擴容等場景,這些場景需處理的數(shù)據(jù)量相對較小,對處理的實時性要求最高,可將AI 能力嵌入基礎(chǔ)設(shè)施進(jìn)行部署。
AI 中臺模型開發(fā)工具需從易用性角度出發(fā),支持基于AI開發(fā)工具低碼或無碼開發(fā),沉淀多樣可視化算子,通過簡單的拖拽完成從數(shù)據(jù)挖掘到模型生成的過程,通過比較不同模型ROC 曲線、F1 值等選擇最優(yōu)模型,利用交互式操作減少工具的使用難度,提升模型的開發(fā)效率。
在數(shù)據(jù)預(yù)處理方面,通過散點圖、折線圖、相關(guān)系數(shù)熱力圖、分類聚類雷達(dá)圖等方便快速發(fā)現(xiàn)數(shù)據(jù)規(guī)律,從而為特征工程、模型選擇提供幫助。在訓(xùn)練過程中通過模型損失值的變化實時顯示、實時中斷回滾、自動故障恢復(fù)及時調(diào)測程序,縮短模型的訓(xùn)練時間。
通過打造簡單易用的工具,讓更多的業(yè)務(wù)人員能夠利用AI 工具來解決業(yè)務(wù)問題,從而降低AI 的使用門檻。
在AI 中臺建設(shè)中,集團(tuán)公司負(fù)責(zé)AI 中臺集中建設(shè)、集約化建設(shè)AI 能力,構(gòu)建整個集團(tuán)公司內(nèi)的模型市場。
省分的AI 中臺建設(shè)分為2 種情況,一種是對于AI使用需求較少和沒有實時AI使用場景的省分,可以分權(quán)分域地使用公司的統(tǒng)一AI平臺中的部分資源;另一種是公司在省分建設(shè)拉遠(yuǎn)AI中臺。不論是哪種方式,省分都可以使用公司發(fā)布的模型在生產(chǎn)系統(tǒng)中進(jìn)行應(yīng)用,省分也可按需迭代優(yōu)化模型或者發(fā)展省分特色模型并貢獻(xiàn)給公司。集團(tuán)公司、省分在AI中臺的分工協(xié)同如圖2所示。
圖2 集團(tuán)公司、省分AI中臺分工協(xié)同
AI 能力貫通主要是通過將AI 模型部署到不同層級來實現(xiàn)。對于模型部署,AI 中臺訓(xùn)練完成的模型按需下發(fā)至網(wǎng)絡(luò)各層,被不同層的系統(tǒng)集成使用。集團(tuán)AI中臺可以向省分AI中臺按需下發(fā)通用業(yè)務(wù)模型,省分AI 中臺可以下發(fā)本地特色模型至管控/基礎(chǔ)設(shè)施智能引擎。
為了確保使用AI 后網(wǎng)絡(luò)的質(zhì)量還在合理范圍之內(nèi),需要對AI 模型執(zhí)行的結(jié)果設(shè)定正確率閾值,在模型推理正確率不能達(dá)到要求時,需要有非AI的方案作為備用方案。
AI 模型運行一段時間后推理正確率可能不能滿足要求,這其中可能有多種原因,如使用者行為的變化、業(yè)務(wù)配置的變化、數(shù)據(jù)的變化、業(yè)務(wù)軟件版本的變化、基礎(chǔ)設(shè)施的變化等,這些情況都需要進(jìn)行模型重訓(xùn)練。模型重訓(xùn)練分為在線訓(xùn)練及離線訓(xùn)練2 種情況,在線訓(xùn)練使用實時流數(shù)據(jù)進(jìn)行訓(xùn)練,適用于數(shù)據(jù)特征快速變化的場合,對算力資源的需求相對高;離線訓(xùn)練使用非實時數(shù)據(jù)進(jìn)行訓(xùn)練,適用于數(shù)據(jù)特征穩(wěn)定的場合,對算力資源的需求相對低。離線訓(xùn)練也需要定期進(jìn)行重訓(xùn)練以保證模型的正確率,在系統(tǒng)能夠監(jiān)控模型應(yīng)用正確率時,還可以設(shè)定模型應(yīng)用的正確率閾值,當(dāng)正確率低于某個閾值時觸發(fā)模型的重訓(xùn)練。當(dāng)然,對模型應(yīng)用正確率的監(jiān)控同樣適用于在線訓(xùn)練,在當(dāng)其正確率低于某個閾值時需要重新提取特征/選擇其他AI算法或回退到非AI處理方式。AI中臺需要考慮支持離線訓(xùn)練和在線訓(xùn)練2 種方式,具體場景,初期以離線訓(xùn)練為主,逐步過渡到在線訓(xùn)練方式。智能化能力貫通與重訓(xùn)練的結(jié)構(gòu)如圖3所示。
圖3 智能化能力貫通與重訓(xùn)練的結(jié)構(gòu)
AI 可以用于運營商的云和網(wǎng),可以用于賦能行業(yè)算法等;行業(yè)的算法比如自動駕駛算法、水質(zhì)監(jiān)控算法、水泥的下料口堵塞檢測算法、鋼鐵的淬火溫控算法等等,這些能力只憑運營商一己之力無法完全實現(xiàn),需要與合作伙伴共建。AI算法體系如圖4所示。
圖4 合作構(gòu)建算法體系
運營商在與合作伙伴共同建設(shè)AI能力過程中,不同模塊/系統(tǒng)的互聯(lián)互通不可避免,需要涉及到數(shù)據(jù)存儲接口、離線數(shù)據(jù)訪問接口、在線數(shù)據(jù)訪問接口、模型訓(xùn)練調(diào)用接口、模型發(fā)布接口、模型部署接口、模型訪問接口和智能命令接口。運營商可針對這些接口制定規(guī)范使得互聯(lián)互通有章可循,提升對接效率。圖5給出了互聯(lián)互通接口示意。
圖5 互聯(lián)互通接口
1.6.1 組織方面
需要匯集AI 和各領(lǐng)域業(yè)務(wù)專家持續(xù)打造公司AI能力中心,負(fù)責(zé)公司統(tǒng)一的AI 平臺建設(shè)、場景能力規(guī)劃、AI 模型的研發(fā)、AI 產(chǎn)品的開發(fā)和模型市場建設(shè)。AI 能力中心還需負(fù)責(zé)制定能力開放標(biāo)準(zhǔn),接口規(guī)范,以及協(xié)同省分與公司AI 能力。省分層面需要展開AI應(yīng)用創(chuàng)新試點,推動AI 模型成熟并復(fù)制推廣。圖6 給出了AI團(tuán)隊組建示意。
圖6 AI團(tuán)隊組建
除了集團(tuán)公司和省分兩級AI團(tuán)隊外,還需要將AI人員嵌入到業(yè)務(wù)開發(fā)團(tuán)隊中,便于消除AI人員與業(yè)務(wù)人員之間的隔閡,把握業(yè)務(wù)真實需求,采用最合適的AI算法來構(gòu)建模型,以及對AI模型的效果進(jìn)行準(zhǔn)確評判。
1.6.2 人才方面
需要儲備AI 算法專家、大數(shù)據(jù)專家。此外,AI/大數(shù)據(jù)專家需要具備一定的業(yè)務(wù)能力,業(yè)務(wù)專家需要具備一定的AI/大數(shù)據(jù)能力便于協(xié)同開展工作,相關(guān)能力可通過內(nèi)外部培訓(xùn)和實戰(zhàn)持續(xù)改進(jìn)。
1.6.3 考核方面
需要在考核中對人員工作內(nèi)容進(jìn)行調(diào)整,人員主要工作要適配AI和自動化的要求,要將經(jīng)驗固化為腳本,要搜集數(shù)據(jù)訓(xùn)練/重訓(xùn)練AI模型,在某個AI場景的應(yīng)用初期要對AI 處理的結(jié)果進(jìn)行人工抽查并修正。此外還要探索制定對應(yīng)的新業(yè)務(wù)維護(hù)和運營流程。
AI能力構(gòu)建存在一些挑戰(zhàn),這跟AI技術(shù)本身的發(fā)展現(xiàn)狀息息相關(guān),主要集中在數(shù)據(jù)標(biāo)注效率不高、安全隱私保護(hù)挑戰(zhàn)和模型可解釋性等方面。
1.7.1 數(shù)據(jù)標(biāo)注
AI 模型訓(xùn)練中有高達(dá)70%以上精力花在數(shù)據(jù)準(zhǔn)備和處理上,數(shù)據(jù)質(zhì)量差、數(shù)據(jù)打標(biāo)效率低是主要問題。應(yīng)對的辦法是組建標(biāo)注團(tuán)隊,進(jìn)行標(biāo)注眾籌,并采用機器自動標(biāo)注和人工檢查結(jié)合的方式,逐漸提高自動標(biāo)注水平。同時,充分利用現(xiàn)有帶標(biāo)數(shù)據(jù),如故障工單系統(tǒng)數(shù)據(jù)等。
1.7.2 安全性
AI 系統(tǒng)可能遭受各種攻擊,如閃避攻擊(在正常樣本上加入人眼難以察覺的微小擾動,以使AI模型出錯)、藥餌攻擊(污染訓(xùn)練數(shù)據(jù),使AI 模式出錯)、后門攻擊(篡改模型,加上了后門)和模型竊取攻擊(多次調(diào)用AI 推理識別接口以竊取AI 模型)。對于閃避攻擊,需要增強模型本身的健壯性;對于藥餌攻擊,需要控制對訓(xùn)練數(shù)據(jù)的采集、過濾數(shù)據(jù)、定期對模型進(jìn)行重訓(xùn)練甚至使用實時數(shù)據(jù)在線訓(xùn)練等一系列方法;對于后門攻擊,需要對AI 模型做適當(dāng)?shù)淖儞Q;對于模型竊取,可以對訓(xùn)練數(shù)據(jù)加密、加噪和模型加噪??偟膩碚f,運營商網(wǎng)絡(luò)運維和2B 服務(wù)場景隔離性相對更高、被攻擊的可能性相對小,對公眾運營的2C 場景受攻擊的可能性相對大。閃避攻擊、藥餌攻擊、后門攻擊都會影響AI 模型的準(zhǔn)確性,對藥餌攻擊、后門攻擊可以通過安全措施的加強來減緩甚至歸避,而閃避攻擊需要學(xué)界不斷地研究促進(jìn)AI算法本身的進(jìn)步。
1.7.3 隱私和數(shù)據(jù)治理
AI 模型訓(xùn)練過程中會涉及到大量的數(shù)據(jù),容易造成用戶的隱私泄露,而不準(zhǔn)確的數(shù)據(jù)可能造成偏見。為防止用戶的隱私泄露,需要遵守有關(guān)法規(guī)要求,如《個人信息保護(hù)法(草案)》、歐盟GDPR 等,進(jìn)行數(shù)據(jù)脫敏(加密、匿名化、差分隱私)、分級分類授權(quán)使用;需要構(gòu)建體系化安全系統(tǒng),記錄數(shù)據(jù)處理的全流程,加強數(shù)據(jù)訪問協(xié)議的管理,嚴(yán)格控制數(shù)據(jù)訪問和流動的條件,確保收集到的信息不被非法利用。對于數(shù)據(jù)不能出本地的情況,可引入聯(lián)邦學(xué)習(xí),在不占有數(shù)據(jù)的基礎(chǔ)上訓(xùn)練出AI 模型。對于AI 系統(tǒng)可能造成的歧視弱勢群體的情況,需剔除數(shù)據(jù)中錯誤、不準(zhǔn)確和有偏見的成分。
1.7.4 模型可解釋性
有些模型是通過算法直接從數(shù)據(jù)中創(chuàng)建,人們無法理解如何將變量組合在一起進(jìn)行預(yù)測。模型可解釋受關(guān)注的地方主要在用戶體驗方面,比如信息流推薦、商品推薦等。目前主要做法是將不可解釋的模型用可解釋的模型如決策樹等替代,但這種做法可能會造成模型精度下降,需謹(jǐn)慎考慮。模型可解釋性仍是業(yè)界難題,對于不可解釋模型建議充分測試并監(jiān)控模型推理結(jié)果。
需打造AI中臺的數(shù)據(jù)管理、模型訓(xùn)練、編譯優(yōu)化、模型管理和模型推理等全方位能力。AI 中臺從數(shù)據(jù)湖中獲取數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理和標(biāo)注,將數(shù)據(jù)送至模型訓(xùn)練模塊;由訓(xùn)練模塊進(jìn)行AI 模型特征工程、選擇合適的算法進(jìn)行模型的訓(xùn)練;訓(xùn)練完后進(jìn)行模型的評估,如果模型達(dá)不到期望的準(zhǔn)確率或消耗的資源過多,還需要進(jìn)行模型優(yōu)化(包括超參重新設(shè)置、模型壓縮),然后再重新進(jìn)行模型的訓(xùn)練,這當(dāng)中可能會涉及到重新理解業(yè)務(wù)需求,獲取其他的數(shù)據(jù),重新進(jìn)行數(shù)據(jù)標(biāo)注等不同的情況。在模型評估達(dá)到要求后,再將模型發(fā)布到模型市場,由應(yīng)用根據(jù)需求下載相應(yīng)的模型進(jìn)行部署,最后是使用模型進(jìn)行推理(見圖7)。
圖7 AI模型訓(xùn)練和使用流程
模型壓縮階段可以進(jìn)行剪枝、低比特量化、結(jié)構(gòu)壓縮等,以便使得模型能適合邊緣和終端等資源受限的場景使用。
模型部署階段可能涉及到云端部署、邊緣部署和設(shè)備部署的情況,需要具備協(xié)同部署能力。
運營商AI能力的演進(jìn)將是一個長期持續(xù)的過程,需結(jié)合運營商云網(wǎng)現(xiàn)狀、技術(shù)成熟度以及運營商云網(wǎng)演進(jìn)策略等分階段逐步推進(jìn)。
具體到未來2~3 年內(nèi),建議構(gòu)建并逐漸疊加AI 能力來滿足運營商自身一體化管控需求和行業(yè)需求。建議分階段發(fā)展如下AI中臺能力(具體可根據(jù)特定運營商現(xiàn)有AI能力情況做適當(dāng)調(diào)整)。
a)第1 階段:在基礎(chǔ)能力方面,構(gòu)建AI能力,具備機器學(xué)習(xí)、深度學(xué)習(xí)訓(xùn)練引擎,推理引擎,端到端支持?jǐn)?shù)據(jù)管理、訓(xùn)練、編譯優(yōu)化和推理等基礎(chǔ)AI功能;在模型方面,建議構(gòu)建部分通用AI 模型和電信領(lǐng)域AI 能力;在數(shù)據(jù)方面,建議與運營商內(nèi)部數(shù)據(jù)打通;在能力共享方面,建議構(gòu)建模型市場,內(nèi)部用戶可以申請及訪問AI 能力;在模型運行方面,建議可以做到基于容器/虛機、CPU/GPU運行模型。
b)第2 階段:在基礎(chǔ)能力方面,建議構(gòu)建強化學(xué)習(xí)和知識圖譜能力;在數(shù)據(jù)方面,建議與網(wǎng)絡(luò)數(shù)據(jù)打通;在模型方面,建議進(jìn)一步豐富通用AI 模型和電信領(lǐng)域AI 模型,并納入部分成熟行業(yè)AI 模型,開始應(yīng)用流數(shù)據(jù)更新迭代模型;在能力共享方面,具備可通過系統(tǒng)申請并訪問AI能力。
c)第3階段:在基礎(chǔ)能力方面,建議構(gòu)建安全可信AI 框架,具備云邊端AI 協(xié)同部署、AutoML、聯(lián)邦學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)能力;在數(shù)據(jù)方面,建議與行業(yè)第三方伙伴數(shù)據(jù)打通;在模型構(gòu)建方面,建議極大地豐富通用AI 模型、電信領(lǐng)域AI 模型和行業(yè)AI 模型,能滿足大部分場景使用AI 模型的要求;在能力共享方面,建議具備外部客戶、合作伙伴可申請及訪問AI 的能力;在模型運行方面,建議具備基于裸機運行容器、基于專用硬件FPGA/ASIC進(jìn)行模型推理的能力。
隨著運營商中臺戰(zhàn)略的貫徹和中臺智能化能力的不斷提升,AI 將不斷幫助運營商對內(nèi)降本增效,對外提升業(yè)務(wù)拓展能力,幫助運營商實現(xiàn)數(shù)字化轉(zhuǎn)型。