李寶華
人工智能研發(fā)運營體系:熱潮大模型背后的“基建工程”
隨著經(jīng)濟發(fā)展和科技融合不斷深入,人工智能(AI)發(fā)展迎來新一輪紅利,科技革命和產(chǎn)業(yè)升級處于進行時。近年來,AI工程化的研究熱度持續(xù)提升,其目的是幫助企業(yè)在數(shù)字化轉(zhuǎn)型過程中,更高效、大規(guī)模地利用AI創(chuàng)造業(yè)務(wù)價值。“人工智能研發(fā)運營體系”(后文稱:MLOps)作為AI工程化重要組成部分,其核心思想是解決AI生產(chǎn)過程中團隊協(xié)作難、管理亂、交付周期長等問題,最終實現(xiàn)高質(zhì)量、高效率、可持續(xù)的AI生產(chǎn)過程。目前,國內(nèi)外“MLOps”落地應(yīng)用正持續(xù)快速推進。
廈門深度賦智科技有限公司(簡稱“深度賦智”),于2019年7月成立廈門總部,后期在上海及深圳均設(shè)有分公司。吸引了來自于世界各地的頂尖人才,并且匯聚了業(yè)界頭部科技公司的資深研究員、架構(gòu)師。競賽上,斬獲了人工智能頂尖賽事NeurIPS的多個世界冠軍,戰(zhàn)勝了Google、微軟、阿里、騰訊、清華、南大等團隊;學(xué)術(shù)影響上,在多個AI領(lǐng)域頂會頂刊上發(fā)表了高影響力論文,公司2021年累計發(fā)表兩篇AutoML 領(lǐng)域前沿論文(該期刊是AI學(xué)術(shù)界的頂級期刊,2021年全球共發(fā)表313篇IEEE T-PAMI,其中國內(nèi)企業(yè)累計發(fā)表僅24篇)。
深度賦智在成立初期對市場的調(diào)研以及結(jié)合Gartner的調(diào)查數(shù)據(jù)發(fā)現(xiàn),目前只有53%的項目能夠從AI原型轉(zhuǎn)化為生產(chǎn)。AI生產(chǎn)轉(zhuǎn)化率低的主要原因在于模型全鏈路生命周期管理存在問題,包括跨團隊協(xié)作難度大、過程和資產(chǎn)管理欠缺、生產(chǎn)和交付周期長等。隨著智能技術(shù)的發(fā)展,AI應(yīng)用在業(yè)務(wù)研發(fā)中的占比逐漸升高,但AI模型訓(xùn)練的復(fù)雜性導(dǎo)致其開發(fā)慢、效率低,嚴重影響了業(yè)務(wù)的靈活性。主要的凸顯問題為以下三方面:
第一,跨團隊協(xié)作難度大。機器學(xué)習(xí)項目生命周期中涉及業(yè)務(wù)、數(shù)據(jù)、算法、研發(fā)、運維等多團隊,團隊間缺乏相同的技術(shù)和業(yè)務(wù)背景知識作為協(xié)作基礎(chǔ),從而帶來溝通屏障。同時每個團隊的協(xié)作工具不盡相同,從數(shù)據(jù)和算法轉(zhuǎn)化為推理服務(wù)的整個過程漫長而復(fù)雜,從而增大協(xié)作難度。
第二,過程和資產(chǎn)管理欠缺。模型生產(chǎn)過程無標準化管理,導(dǎo)致AI 資產(chǎn)的價值無法有效發(fā)揮。原因在于以下幾方面:一是生產(chǎn)過程冗長難管理,AI模型生產(chǎn)過程涉及的環(huán)境、流程復(fù)雜,各部門習(xí)慣于小作坊的生產(chǎn)模式,重復(fù)造輪子現(xiàn)象普遍;二是AI資產(chǎn)無集中共享機制,組織內(nèi)數(shù)據(jù)、特征、模型等碎片化AI資產(chǎn)無法共享使用,優(yōu)秀實踐經(jīng)驗難以沉淀。
第三,生產(chǎn)和交付周期長。機器學(xué)習(xí)模型生產(chǎn)和交付是一個漫長、復(fù)雜又易出錯的過程,且耗費的時間成本較高。據(jù)Algorithmia 報告顯示,38%的企業(yè)花費超過50%的時間在模型部署上。這一現(xiàn)象的主要原因有三:一是模型文件的生產(chǎn)需要經(jīng)過不斷重復(fù)的實驗和評估;二是模型服務(wù)需要通過編寫服務(wù)代碼和配置參數(shù),并達到業(yè)務(wù)需求后,方可部署上線;三是業(yè)務(wù)效果的保證需通過在線模型開展服務(wù)驗證和結(jié)果對比。
MLOps在國內(nèi)外得到了廣泛應(yīng)用,并在多個行業(yè)取得了實質(zhì)性效果。2015年至今,從業(yè)界意識到機器學(xué)習(xí)項目技術(shù)債給AI 生產(chǎn)上線帶來的潛在巨大影響伊始。2018年業(yè)內(nèi)人士逐漸開始密集討論大規(guī)模生產(chǎn)中機器學(xué)習(xí)生命周期集成化管理的重要性,MLOps這一概念被提出并逐步接受。2020年以來,產(chǎn)業(yè)焦點集中于AI大規(guī)??焖俾涞?,布局MLOps平臺或工具的需求日益迫切,推動組織數(shù)智化轉(zhuǎn)型成為產(chǎn)業(yè)界追逐的目標。2021年,Gartner將包括MLOps在內(nèi)的XOps列為2021 年十大數(shù)據(jù)和分析技術(shù)趨勢之一。此外,從2019年到2022年,Gartner連續(xù)4年將MLOps納入數(shù)據(jù)科學(xué)與機器學(xué)習(xí)技術(shù)成熟度曲線。
深度賦智:通過自研,解決關(guān)鍵技術(shù)受制于人的“卡脖子”問題
作為AI基礎(chǔ)設(shè)施之一,MLOps促進各團隊高效協(xié)作,提升業(yè)務(wù)價值產(chǎn)出。一般來說,實施MLOps需要遵循的原則包括自動化、持續(xù)性、版本化、可監(jiān)控、可測試、可追溯、可復(fù)現(xiàn)、可協(xié)作等。深度賦智通過構(gòu)建全自動人工智能研發(fā)運營中臺,為機器學(xué)習(xí)模型全生命周期建設(shè)標準化、自動化、可持續(xù)改進的過程管理體系,使組織規(guī)?;⒏哔|(zhì)量、高效率、可持續(xù)地生產(chǎn)及迭代機器學(xué)習(xí)模型,能有效緩解AI生產(chǎn)過程地各種管理問題,提升公司AI生產(chǎn)的轉(zhuǎn)化效率。
深度賦智致力于幫助每一家企業(yè)快速落地AI應(yīng)用、高效地管理公司AI資產(chǎn)。通過核心自研產(chǎn)品:深度賦智天機(ACT),為各行業(yè)的客戶提供全自動人工智能研發(fā)運營中臺(ACT)。本中臺涵蓋無代碼數(shù)據(jù)科學(xué)與機器學(xué)習(xí)系統(tǒng)(Full AutoML)和低代碼人工智能系統(tǒng)(Low-Code AI),覆蓋文本、圖像、視頻、語音、表格、時序、搜索、推薦等多模態(tài)任務(wù)訓(xùn)練及管理運營。
深度賦智天機的核心技術(shù)為:MetaAI引擎。深度賦智創(chuàng)新性地提出了一種新型的全自動機器學(xué)習(xí)框架,首次打破了現(xiàn)有自動機器學(xué)習(xí)中各搜索空間的獨立設(shè)計,并使用數(shù)據(jù)集知識錨點加進化算法來加速搜索,解決了在超大空間搜索最優(yōu)方案的設(shè)計難題。該框架實現(xiàn)了全流程自動化,極大降低了機器學(xué)習(xí)應(yīng)用門檻。其中MetaAI子系統(tǒng)模擬了人類AI工程師的學(xué)習(xí)過程,通過觀察已有任務(wù)的數(shù)據(jù)流形與策略效果以進行全自動的探索性優(yōu)化。經(jīng)過觀察,MetaAI可以很好地總結(jié)不同任務(wù)知識,將原本耗時數(shù)年的AI構(gòu)建過程縮短到最短數(shù)十秒。
高質(zhì)量發(fā)展:著力加強能源電力智慧數(shù)字化基礎(chǔ)能力建設(shè)
近年來,在“雙碳”目標下,智慧能源產(chǎn)業(yè)的發(fā)展將會為能源行業(yè)帶來了新機遇??萍紕?chuàng)新是各能源集團“十四五”實現(xiàn)高質(zhì)量發(fā)展的重要驅(qū)動力。深度賦智把握戰(zhàn)略主動,聚焦重點領(lǐng)域,加速核心合作,為能源集團在綜合智慧能源領(lǐng)域提供MLOps的創(chuàng)新力量。
深度賦智在2021年與新華發(fā)電(新華發(fā)電作為中核集團非核綠色能源戰(zhàn)略實施主體,肩負“綠色報國 創(chuàng)新共享”發(fā)展使命,兼具中央企業(yè)管理優(yōu)勢和水利部行業(yè)專業(yè)優(yōu)勢。業(yè)務(wù)涵蓋水電、新能源、綜合智慧能源三大板塊,形成了“源網(wǎng)荷儲用”多元化的產(chǎn)業(yè)協(xié)同發(fā)展布局)完成戰(zhàn)略協(xié)議的簽訂。雙方將聚焦碳中和以及電力數(shù)字化轉(zhuǎn)型,將充分發(fā)揮各自優(yōu)勢共同打造“AI+電力”解決方案,以此構(gòu)建能源互聯(lián)網(wǎng)新生態(tài),引領(lǐng)能源行業(yè)數(shù)字化轉(zhuǎn)型,推動綠色電力轉(zhuǎn)型,加快建設(shè)能源強國。
為更好貫徹中核集團及新華發(fā)電數(shù)字化轉(zhuǎn)型指導(dǎo)方針,2023年深度賦智與新華發(fā)電完成具體項目落地,整體將以新華發(fā)電數(shù)字化轉(zhuǎn)型路徑為戰(zhàn)略指引,全面建成全自動人工智能研發(fā)運營中臺(后續(xù)稱“智能應(yīng)龍”)?!爸悄軕?yīng)龍”將為新華發(fā)電實現(xiàn)“四個統(tǒng)一”的精細化人工智能資產(chǎn)管理模式。
人工智能資產(chǎn)統(tǒng)一沉淀。將新華發(fā)電AI基礎(chǔ)任務(wù)能力、數(shù)據(jù)資源、數(shù)字化資產(chǎn)進行統(tǒng)一沉淀,合入一起運營管理,促使AI資產(chǎn)能夠在各種場景下復(fù)用。
人工智能資產(chǎn)統(tǒng)一管理。為所有數(shù)字化資產(chǎn)之間的互通、互助、并行應(yīng)用提供基礎(chǔ)支持。所有組件實現(xiàn)微服務(wù)化,所有AI資產(chǎn)統(tǒng)一管理,并通過“智能應(yīng)龍”實現(xiàn)新華發(fā)電對多種智能化資源的自主可控,提升智能化應(yīng)用的安全性。
人工智能資產(chǎn)統(tǒng)一推廣?!爸悄軕?yīng)龍”可以對AI模型進行統(tǒng)一管理,然后針對于不同電站的實際需求進行統(tǒng)一推廣,在節(jié)省重復(fù)開發(fā)成本的同時,還能提升對于AI模型的監(jiān)控能力,做到實時更新。
人工智能資產(chǎn)統(tǒng)一開發(fā)?!爸悄軕?yīng)龍”能滿足快速組裝個性化AI應(yīng)用的能力,通過無代碼全自動AI任務(wù)開發(fā)系統(tǒng)可以快速生產(chǎn)基礎(chǔ)AI任務(wù),以及低代碼AI應(yīng)用開發(fā)服務(wù)系統(tǒng)可以進行靈活組裝、拼接,使新疆新華實現(xiàn)隨時、隨需及統(tǒng)一開發(fā)模式。
堅實的產(chǎn)業(yè)基礎(chǔ)之上才能實現(xiàn)產(chǎn)學(xué)各界萬花盛放
最后,眼下最火熱的AI應(yīng)用莫過于大模型(ChatGPT等)的應(yīng)用。預(yù)訓(xùn)練大模型正在推動一場AI新變革。而在關(guān)注這場變革之前,深度賦智認為更應(yīng)該關(guān)注根技術(shù)、基礎(chǔ)平臺的打造與建設(shè)。堅實的產(chǎn)業(yè)基礎(chǔ)之上,才能實現(xiàn)產(chǎn)學(xué)各界萬花盛放。AI大模型之變,應(yīng)該有強壯的根。深度賦智將大模型作為算法底座之一,結(jié)合具備無代碼數(shù)據(jù)科學(xué)與機器學(xué)習(xí)系統(tǒng)的深度賦智天機,可進一步降低業(yè)務(wù)子場景數(shù)據(jù)標注、子任務(wù)過多、離線流程繁瑣耦合等AI落地難點。搭載可支持業(yè)務(wù)線快速采集數(shù)據(jù)、自動訓(xùn)練建模、標準化評估、一鍵化部署的全自動人工智能研發(fā)運營中臺,大模型將極大減少子環(huán)節(jié)數(shù)量、提升建模效率,優(yōu)化建模質(zhì)量,提供更便捷的流程設(shè)計方式。
當(dāng)前我國積極發(fā)展數(shù)字經(jīng)濟,推動數(shù)字經(jīng)濟與實體經(jīng)濟深度融合,AI產(chǎn)業(yè)作為數(shù)字經(jīng)濟發(fā)展的核心引擎,正處于快速發(fā)展期。但從客觀評價,產(chǎn)品和技術(shù)依舊是企業(yè)發(fā)展的硬通貨,AI市場距離成熟還有一段距離。在陪伴產(chǎn)業(yè)發(fā)展的過程中,深度賦智將以“AI行業(yè)的‘水電煤”的身份與大家一同共建AI產(chǎn)業(yè)。