近年來,深度學習算法和技術已經(jīng)在學術界與工業(yè)界的眾多領域取得了諸多突破性進展。在計算機視覺領域,深度學習算法和技術在很多基準數(shù)據(jù)集都極大改善并提升了人物圖像理解的性能。然而,在涉及視頻監(jiān)控、安防、電子商務、群體行為分析等現(xiàn)實場景時,圖象/視頻理解的性能還是不盡如人意。有關問題還需不斷做出改進與完善,尋求更優(yōu)解決方案。
本團隊圍繞“面向無約束場景下的圖象/視頻深度理解”進行研究,逐漸形成了清晰的研究思路和完整的研究體系,并在多視角/跨年齡人臉建模與復雜多人場景細粒度語義理解等關鍵科學問題和實際應用領域取得了較大技術突破,相關研究成果在北京2022年冬奧會中進行了創(chuàng)新、轉(zhuǎn)化和應用,助力科技冬奧。
人臉建模與復雜場景理解研究的突破與創(chuàng)新
圍繞“無約束人物圖像深度理解”,團隊在多視角/跨年齡人臉建模與復雜多人場景細粒度語義理解等關鍵科學問題和實際應用領域取得了較大技術突破,在識別層、解析層、應用層均取得了一定創(chuàng)新。
在識別層,團隊重點解決了3個難題:
第一,針對多視角人臉建模與人臉樣本姿態(tài)均衡化,提出了首個三維驅(qū)動雙代理生成對抗網(wǎng)絡架構(gòu),開創(chuàng)性地融合來自數(shù)據(jù)分布的先驗知識與人臉的域知識,精確恢復出將三維人臉投影至二維圖像空間過程中所丟失的固有信息。
第二,針對人臉正面化與姿態(tài)魯棒表征學習,提出了首個雙路徑跨域?qū)咕W(wǎng)絡架構(gòu),開創(chuàng)性地融合無監(jiān)督跨域?qū)褂柧毰c一個基于動態(tài)卷積孿生判別器的“元學習”策略來恢復高保真度的正面人臉圖像并保持固有身份信息。
第三,針對人臉年輕化/老齡化隱式建模與年齡魯棒表征學習,提出了首個解耦表征學習與跨年齡人臉圖像生成網(wǎng)絡架構(gòu),首次避免了以往方法對成對訓練數(shù)據(jù)與測試樣本真實年齡標簽的需求,可實現(xiàn)連續(xù)的人臉年輕化/老齡化,生成的跨年齡人臉圖像兼具優(yōu)異的真實度與身份保持特性。
在解析層,團隊主要解決了3個難題:
第一,針對無約束條件下多人場景建模與多粒度多層次語義理解,提出了首個深度嵌套式對抗學習網(wǎng)絡架構(gòu),首次有效解決了實際復雜場景下多人交互、姿態(tài)各異與嚴重遮擋等難題,將實例級細粒度人物解析的準確率提升了18.9%,推理速度提升了10倍。此外,還構(gòu)建了一個新的大規(guī)?;鶞蕯?shù)據(jù)集,進一步推動無約束場景下人物圖像理解的研究進展。
第二,針對無約束條件下小樣本學習與泛化推理,提出了首個在線增量式學習網(wǎng)絡架構(gòu),大幅降低了圖像采集/清洗/標注工作開銷,助推人工智能走向“小數(shù)據(jù)大智能”,同時,引入一個群體-個體排斥與吸引損失函數(shù),能夠有效解決多人交互、姿態(tài)各異與嚴重遮擋等條件下的人物圖像理解問 題。
第三,針對無約束條件下解析結(jié)果與人物身體結(jié)構(gòu)一致性,提出了首個空間圖關系學習網(wǎng)絡架構(gòu),開創(chuàng)性地采用基于圖的生成對抗網(wǎng)絡對細粒度多人解析進行建模,確保解析推理結(jié)果與人物身體結(jié)構(gòu)相一致,極大提升了結(jié)果可解釋性、合理性、準確性。此外,還構(gòu)建了一個新的基準數(shù)據(jù)集,助推人物圖像理解的研究進展。
在應用層,針對實際場景中耦合的多種潛在挑戰(zhàn),進一步提出了可行與有效的解決方案,包括網(wǎng)絡架構(gòu)設計與全局優(yōu)化、魯棒表征學習、小樣本學習與泛化推理、人眼視線方向估計、去遮擋、屬性分析、多任務學習機理、跨數(shù)據(jù)集混合訓練策略等,開創(chuàng)性地從整體和全局角度迭代優(yōu)化、演進升級了無約束人物圖像智能理解分析的精度、泛化/遷移性和可解釋性。
成果創(chuàng)新與轉(zhuǎn)化——助力冬奧
面對北京2022年冬奧會,時間緊、任務重,難度高、挑戰(zhàn)多,團隊加班加點,按里程碑節(jié)點倒排計劃,集智攻關,致力于用科技創(chuàng)新服務并賦能冬奧,實現(xiàn)作為科技工作者的價值。團隊的研究成果針對冬奧會的創(chuàng)新、轉(zhuǎn)化和應用主要圍繞以下兩個方面。
一是復雜環(huán)境下的低慢小目標智能感知與監(jiān)管,主要采用特種光電設備,基于AI+視覺的多尺度目標檢測跟蹤識別技術,實現(xiàn)對冬奧會賽區(qū)及場館安全防范區(qū)域內(nèi)黑飛(非經(jīng)授權(quán))無人機的預警探測、監(jiān)視取證,并輔助反制系統(tǒng)進行管控和處置。團隊針對紅外無人機目標尺度多變、對比度較低、易受背景干擾等難題,提出了一種新型的跟蹤器算法模型框架,充分挖掘紅外視頻序列中的時空信息和目標運動特征,設計了局部跟蹤和全局檢測的自適應動態(tài)目標搜索機制,當目標狀態(tài)可靠時采用局部跟蹤,利用視頻時空連續(xù)性,有效抑制背景干擾;當目標狀態(tài)不可靠時(發(fā)生完全遮擋、從視野消失等)采用全局檢測,結(jié)合目標運動特征鎖定候選區(qū)域,提高目標再捕獲概率。
二是花樣滑冰AI輔助評分,即根據(jù)花樣滑冰評委和運動員使用需求、場景應用需求打造AI+3D動作捕捉解決方案。花樣滑冰比賽不僅規(guī)則復雜,而且評分難度較高。評委需在高速運動且變化繁復的動作中依據(jù)動作的類型、難度系數(shù)、完成情況、標準程度等給出精準的技術分,用AI技術來輔助評分難度也可見一斑。團隊采用高清高速攝像機,融合人體姿態(tài)估計、目標跟蹤算法、ReID算法、視頻動作識別等技術實現(xiàn)3D動作捕捉,可以克服高度、光線等復雜因素,捕捉運動員的細微動作,通過回放和分解動作,幫助裁判對動作細節(jié)進行判別。此外,該技術還可以在賽前為運動員提供定制方案,輔助運動員訓練。
研用結(jié)合,助推智能視覺感知成果應用落地
這次在冬奧會的應用實例是一次非常重要的礪煉,整個團隊都獲益匪淺。研用結(jié)合,科學研究就是要從實踐中來到實踐中去。除了服務冬奧會,團隊也在推進研究成果的轉(zhuǎn)化和多方面應用場景探索,助推相關研究開展和應用落地。
一是復雜環(huán)境下基于多光譜多模視頻目標融合感知,旨在充分利用多光譜多模數(shù)據(jù)的優(yōu)勢互補特性,實現(xiàn)復雜環(huán)境下的目標融合感知。團隊分別依托CCFA類國際會議、計算機視覺領域頂級會議CVPR 2020、ICCV 2021組織了第一屆、第二屆無人機目標跟蹤研討會和競賽,并即將依托ECCV 2022組織第三屆學術旗艦,助推相關領域前沿技術的發(fā)展和進步。08E62C2A-6DE9-4404-B157-458B3935F4F6
二是無約束人物圖像/視頻深度理解,旨在針對非配合條件下的實際安防、對抗場景及應用,實現(xiàn)以人為中心的智能視覺感知與理解。團隊在GitHub開源了無約束人臉識別(face.evoLVe)和細粒度多人解析(Multi-Human-Parsing)的部分數(shù)據(jù)、算法代碼及預訓練模型以促進相關學術研究和應用落地,分別已被同行star 2800/560余次,fork 680/100余次,其中,face.evoLVe已被百度飛槳(PaddlePaddle)平臺官方正式引入。
作者簡介
趙健 軍事科學院助理研究員,主要研究領域為人工智能、模式識別、計算機視覺。入選第六屆中國科協(xié)和北京市科協(xié)青年人才托舉工程,擔任VALSE SAC、CCF-CV/CSIG-BVD委員、CSIG/BSIG青工委委員、BSIG第七屆理事會理事、PaddlePaddle開發(fā)者技術專家、PRL/Electronics特刊客座編輯、中國人工智能大賽專家委員會委員、CICAI'21評獎委員會委員、ACM MM'21分論壇主席。擔任T-PAMI、NeurIPS(NeurIPS'18前30%最佳審稿人)、CVPR等本領域主流國際期刊/會議受邀審稿人。
目前,共主持/參與科技委項目3項(序1/3/5),主持國自然青年科學基金項目1項。近5年已受理國家專利5項(序1),發(fā)表高水平學術論文50余篇,單篇影響因子最高16.389。曾作為第一作者獲得PREMIA'19 Lee Hwee Kuan獎、ACM MM'18最佳學生論文獎,并多次獲得頂級會議國際競賽全球冠軍。
編輯后記:科技報國志
趙健說:“作為一名青年科技工作者,最重要的是把自己的研究方向、研究領域同國家、國防建設和發(fā)展的重大需求相結(jié)合,以國家關于新一代人工智能的發(fā)展規(guī)劃為牽引和方向,以努力做0到1的原創(chuàng)突破為目標和己任,守正創(chuàng)新、求真務實,踏踏實實解決好每個問題、做好每個課題、走好人生的每一步,堅持做‘頂天立地式的科研。同時,也照顧好家庭,家人的陪伴、支持和鼓勵永遠是前進路上不可或缺的原動力?!?/p>
2016年,趙健受中國留學基金委和國防科技大學公派,赴新加坡國立大學攻讀博士學位,師從馮佳時教授和新加坡工程院院士、AAAI/ACM/IEEE/IAPR Fellow顏水成教授,他說:“在新加坡求學期間最大的收獲是遇到了改變我人生的恩師,他們言傳身教、悉心栽培,一點點引導我對一些有意思的領域和問題產(chǎn)生濃厚的興趣,帶我入門、走進學術的殿堂,教會我如何做真正有價值的科學研究,掌握必備的技能,開闊眼界和思維。此外,也很慶幸遇到了很多優(yōu)秀的同學和朋友,見賢思齊,跟優(yōu)秀的人在一起會讓一個人更加優(yōu)秀。我的導師和同學們,我們彼此都結(jié)下了很深的情誼,并且一直都保持著聯(lián)系,我想這也是我一生的寶貴財富?!?019年他提前獲得博士學位,選擇回國參加工作。
“世界著名科學家、兩彈一星功勛獎章獲得者錢學森錢老一直是我的偶像,他當初在美國學成后參加工作,聲名大噪,事業(yè)發(fā)展一路順遂,但當?shù)弥鎳枰?,便毅然決然放棄優(yōu)厚待遇,克服萬難,選擇回國參加建設,為祖國和人民奉獻了自己寶貴的一生,對我國火箭、導彈和航天事業(yè)作出了開創(chuàng)性貢獻。現(xiàn)在各方面條件都好了,我們的國家正在實現(xiàn)中華民族偉大復興的道路上奮力前行,這就更加需要我們這一批新一代知識分子積極投身建設祖國的時代洪流,以國家利益為己任,有靈魂、有本事、有血性、有品德,堅持真理、堅守理想,踐行初心、擔當使命,用自己的所學所知所想為國家和國防建設作一點力所能及的貢獻,做一個真正對祖國有用的人。”趙健如是說。08E62C2A-6DE9-4404-B157-458B3935F4F6