鐘地秀,丁小波,蔡茂貞,彭 琨,吳灼豪
(中移互聯(lián)網(wǎng)有限公司云產(chǎn)品事業(yè)部,廣州 510000)
隨著增強(qiáng)移動(dòng)寬帶、低時(shí)延高可靠海量連接的5G 時(shí)代來臨,圖片、視頻、文本等個(gè)人數(shù)據(jù)也在不斷激增,個(gè)人數(shù)據(jù)的激增勢(shì)必讓個(gè)人網(wǎng)盤在未來成為強(qiáng)需求。據(jù)艾媒咨詢數(shù)據(jù)顯示,2020 年全球數(shù)據(jù)中心存儲(chǔ)容量將達(dá)到272 艾字節(jié),不斷擴(kuò)大的個(gè)人數(shù)據(jù)和云儲(chǔ)存需求加速了個(gè)人云服務(wù)市場(chǎng)的發(fā)展,預(yù)計(jì)2020 年中國(guó)個(gè)人云盤用戶規(guī)模有望超過4億人,未來個(gè)人網(wǎng)盤提供商的經(jīng)營(yíng)實(shí)力和服務(wù)能力將成為用戶關(guān)注的一大焦點(diǎn)。
國(guó)內(nèi)個(gè)人網(wǎng)盤行業(yè)始于PC 時(shí)代,最初以網(wǎng)絡(luò)文件存儲(chǔ)、備份的功能為主。隨著互聯(lián)網(wǎng)技術(shù)的興起和智能手機(jī)的普及,個(gè)人手機(jī)上的數(shù)據(jù)(特別是照片和視頻)激增,個(gè)人網(wǎng)盤產(chǎn)品也不斷進(jìn)化,照片和視頻的核心場(chǎng)景逐漸從個(gè)人網(wǎng)盤中獨(dú)立出來,從文件存儲(chǔ)分離出相冊(cè)產(chǎn)品。再到人工智能時(shí)代,大數(shù)據(jù)和圖像識(shí)別技術(shù)的引入為多媒體內(nèi)容的識(shí)別和分析帶來諸多便利,孵化出如智能相冊(cè)、智能P 圖和自動(dòng)視頻聚合等應(yīng)用。本文重點(diǎn)關(guān)注基于圖像識(shí)別的網(wǎng)盤智能相冊(cè)系統(tǒng)。
智能相冊(cè)基于AI 圖像識(shí)別技術(shù),為網(wǎng)盤用戶提供良好的照片管理服務(wù),包括人臉識(shí)別、物品分類以及場(chǎng)景理解、智能搜索等功能,通過理解圖片本身的視覺內(nèi)容幫助用戶進(jìn)行更多維度的分析管理。
(1)人臉識(shí)別。應(yīng)用人臉檢測(cè)、人臉特征提取及聚類技術(shù),自動(dòng)識(shí)別出相冊(cè)圖片中包含哪些人,并將人物按照身份分組呈現(xiàn)給用戶,便于用戶瀏覽與查找。
(2)物品分類。應(yīng)用物體檢測(cè)、物體分類技術(shù),自動(dòng)定位并識(shí)別出圖片中包含的主體位置和主體屬性標(biāo)簽,如貓、狗、花、火車等,并基于圖片屬性標(biāo)簽完成圖片分組展示。
(3)場(chǎng)景理解。應(yīng)用圖像識(shí)別技術(shù),分析圖片中出現(xiàn)的場(chǎng)景主題類別,如天空、海洋、草坪、婚禮等,以主題形式對(duì)用戶相冊(cè)進(jìn)行分類管理,便于用戶記錄生活軌跡及美好瞬間。
本文基于圖像識(shí)別及目標(biāo)檢測(cè)等技術(shù)實(shí)現(xiàn)網(wǎng)盤智能相冊(cè),實(shí)現(xiàn)的基本功能如圖1所示,針對(duì)用戶網(wǎng)盤相冊(cè)圖片集數(shù)據(jù),系統(tǒng)可根據(jù)圖片視覺內(nèi)容進(jìn)行自動(dòng)識(shí)別和自動(dòng)分組,最后形成以人物個(gè)體或其它內(nèi)容標(biāo)簽為單位的圖片集,從而便于用戶更加快速高效地瀏覽及查找目標(biāo)對(duì)象,實(shí)現(xiàn)智能高效管理相冊(cè)的目的。
圖1 智能相冊(cè)功能示意圖
為實(shí)現(xiàn)上述基本功能,本文設(shè)計(jì)的智能相冊(cè)系統(tǒng)架構(gòu)如圖2所示,整體架構(gòu)分為模型訓(xùn)練和服務(wù)應(yīng)用兩大部分,模型訓(xùn)練完成各類智能算法模型參數(shù)優(yōu)化訓(xùn)練,并為服務(wù)應(yīng)用模塊提供算法技術(shù)支撐,實(shí)現(xiàn)相冊(cè)智能分類業(yè)務(wù)。本文網(wǎng)盤智能相冊(cè)具備人臉識(shí)別、物品分類、場(chǎng)景理解三大智能算法能力,基于基礎(chǔ)算法能力可為網(wǎng)盤用戶提供人像聚類及事物分類兩大智能相冊(cè)業(yè)務(wù)服務(wù)。
圖2 智能相冊(cè)系統(tǒng)框架圖
模型訓(xùn)練是整個(gè)系統(tǒng)框架的核心部分,智能相冊(cè)業(yè)務(wù)應(yīng)用效果都依賴于模型訓(xùn)練的高準(zhǔn)確率,其基本組成部分如圖2 所示,包括用于模型優(yōu)化訓(xùn)練的圖片數(shù)據(jù)集、圖片數(shù)據(jù)預(yù)處理以及智能算法池三個(gè)模塊。本文智能相冊(cè)實(shí)現(xiàn)過程中需完成人臉識(shí)別、物體識(shí)別及場(chǎng)景理解三個(gè)模型訓(xùn)練優(yōu)化,具體詳情闡述如下。
為完成智能相冊(cè)算法模型訓(xùn)練,本文采用網(wǎng)絡(luò)爬蟲及開源數(shù)據(jù)融合方式獲取訓(xùn)練圖片集。圖片訓(xùn)練集獲取后進(jìn)行圖片清洗、篩選標(biāo)注等一系列工作,并可依據(jù)不同的訓(xùn)練任務(wù)執(zhí)行相應(yīng)的數(shù)據(jù)預(yù)處理操作。圖片數(shù)據(jù)預(yù)處理包括通用預(yù)處理方法及特定預(yù)處理方法兩類,通用預(yù)處理方法通常為視覺任務(wù)共用的圖像預(yù)處理手段,特定預(yù)處理可根據(jù)任務(wù)模型需求而設(shè)定。
通用預(yù)處理方法:三個(gè)任務(wù)均采取均值消除,值域歸一化預(yù)處理訓(xùn)練集數(shù)據(jù)。
特定預(yù)處理方法:采取數(shù)值標(biāo)準(zhǔn)化(normal?ize),并使用對(duì)比度、色調(diào)擴(kuò)增預(yù)處理人臉圖片集;采取數(shù)值標(biāo)準(zhǔn)化(normalize),并使用隨機(jī)剪裁、隨機(jī)旋轉(zhuǎn)擴(kuò)增預(yù)處理物體圖片集;針對(duì)場(chǎng)景圖片集,實(shí)驗(yàn)對(duì)比發(fā)現(xiàn)數(shù)值標(biāo)準(zhǔn)化方法對(duì)場(chǎng)景色彩影響較大,易造成大面積色彩相近的場(chǎng)景圖混淆錯(cuò)分,故本文不采用該方法預(yù)處理場(chǎng)景圖片,而是采用隨機(jī)灰度化來降低色彩對(duì)場(chǎng)景標(biāo)簽的影響,同時(shí)采取亮度、對(duì)比度調(diào)整擴(kuò)增場(chǎng)景圖片集。
2.1.1 人臉識(shí)別
人臉識(shí)別完成的任務(wù)是通過人物面部特征提取分析,實(shí)現(xiàn)人臉身份確認(rèn),本文系統(tǒng)中人臉識(shí)別流程主要由人臉檢測(cè)、人臉矯正和人臉特征比對(duì)三個(gè)部分完成。
(1)人臉檢測(cè)。人臉檢測(cè)完成從照片中檢測(cè)獲得人臉坐標(biāo)框以及人臉關(guān)鍵點(diǎn)坐標(biāo)的任務(wù),文 本 系 統(tǒng) 采 用 基 于 開 源WIDERFACE和LFPW數(shù)據(jù)集訓(xùn)練完成的MTCNN實(shí)現(xiàn)人臉框和人臉關(guān)鍵點(diǎn)生成工作,模型訓(xùn)練完成后在網(wǎng)絡(luò)爬蟲數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試結(jié)果如表1 所示。測(cè)試圖片數(shù)目為1000 張,包含總?cè)四様?shù)目為2503張,測(cè)試人臉圖片具備不同光照、膚色、表情及部分遮擋等多種形態(tài),模型作用于圖片預(yù)測(cè)輸出圖片中所有人臉框4個(gè)坐標(biāo)點(diǎn)以及臉部5個(gè)關(guān)鍵點(diǎn)坐標(biāo)。
表1 MTCNN人臉檢測(cè)結(jié)果
(2)人臉矯正。為獲得更佳的人臉識(shí)別效果,在人臉檢測(cè)后需要對(duì)部分人臉圖片進(jìn)行矯正,減小偏轉(zhuǎn)幅度過大的人臉傾斜角度。本文采用仿射變換完成人臉矯正,具體步驟如圖3左圖所示,通過調(diào)整人臉兩眼中心點(diǎn)連線的傾斜角度實(shí)現(xiàn)人臉旋轉(zhuǎn)角度矯正,矯正效果如圖3右圖所示。
圖3 人臉矯正方案(左)人臉矯正效果(右)
(3)人臉特征比對(duì)。人臉矯正完成后,應(yīng)用人臉特征提取模型獲取人臉區(qū)域特征作為該人臉身份的表示向量,通過對(duì)比兩張人臉的表示向量判定人臉是否為同一人,從而確認(rèn)人臉身份。本文采取insightface模型作為人臉特征提取模型,并應(yīng)用歐式距離度量人臉特征表示。模型訓(xùn)練集采用百度谷歌爬蟲獲得人物圖片集,包含1509 個(gè)人物ID,共94764 張圖片,模型主干網(wǎng)絡(luò)選擇Resnet50,損失函數(shù)采用基礎(chǔ)的softmax 損失,輸出人臉特征向量維度為512 維。模型訓(xùn)練收斂后采用微博爬蟲圖片集進(jìn)行測(cè)試,共包含1000 個(gè)微博人物ID,測(cè)試時(shí)隨機(jī)抽取3000 對(duì)相同人臉圖片及3000 對(duì)不同人臉圖片,測(cè)試結(jié)果如表2所示。
表2 人臉識(shí)別模型測(cè)試結(jié)果
2.1.2 物體識(shí)別
物體識(shí)別分辨出圖片中存在哪些物體,預(yù)測(cè)輸出圖片中包含的所有物體類別標(biāo)簽。本文物體識(shí)別應(yīng)用yolov5目標(biāo)檢測(cè)模型實(shí)現(xiàn),選擇日常生活中常見標(biāo)簽(見表3),訓(xùn)練圖片集由從開源coco數(shù)據(jù)集中抽取的部分標(biāo)簽樣本集以及網(wǎng)頁爬蟲獲取的部分圖片集組成,訓(xùn)練模型結(jié)構(gòu)選用yolov5l 模型,并載入release 預(yù)訓(xùn)練權(quán)重完成模型參數(shù)初始化。測(cè)試數(shù)據(jù)集由網(wǎng)頁爬蟲獲取,每類測(cè)試圖片為100張,測(cè)試僅計(jì)算物體識(shí)別結(jié)果,測(cè)試結(jié)果如表3所示。
表3 物體識(shí)別測(cè)試結(jié)果
續(xù)表3
2.1.3 場(chǎng)景理解
場(chǎng)景理解解析圖像所處的場(chǎng)景環(huán)境,如天空、草地等,與物體識(shí)別結(jié)合使用,完成網(wǎng)盤相冊(cè)事物分類服務(wù),為網(wǎng)盤用戶提供照片的智能自動(dòng)分組及管理。場(chǎng)景理解預(yù)測(cè)輸出圖片所屬場(chǎng)景類別標(biāo)簽,屬于圖片多標(biāo)簽識(shí)別任務(wù),本文采用經(jīng)典resNet50卷積模型完成場(chǎng)景分類任務(wù)。為實(shí)現(xiàn)場(chǎng)景多標(biāo)簽預(yù)測(cè),本文替換原resNet 模型中的softmax 激活分類層為sigmoid 激活,同時(shí)考慮到樣本不均衡問題,本文采用非對(duì)稱損失ASL 進(jìn)行分類模型優(yōu)化。場(chǎng)景標(biāo)簽選擇常見的26 類生活場(chǎng)景標(biāo)簽,通過網(wǎng)頁爬蟲獲得訓(xùn)練樣本集和測(cè)試樣本集,訓(xùn)練集每類圖片數(shù)目3000~5000 張,測(cè)試集圖片每類100 張,模型訓(xùn)練測(cè)試結(jié)果如表4所示。
表4 場(chǎng)景理解測(cè)試結(jié)果
網(wǎng)盤智能相冊(cè)基于人臉識(shí)別、物體識(shí)別及場(chǎng)景理解基礎(chǔ)算法技術(shù)形成人像聚類及事物聚類兩大類應(yīng)用,可以根據(jù)圖片標(biāo)簽屬性將相冊(cè)圖片進(jìn)行分組劃分,例如將相同人物照片劃分為同一組,將事物圖片聚合分為風(fēng)景、美食、建筑等類別,也可以將人物場(chǎng)景事件分為聚餐、運(yùn)動(dòng)、演出等類別。
2.2.1 人像聚類
基于人臉特征向量間歐式距離設(shè)置兩層閾值完成相同照片人臉聚合,第一層閾值用于進(jìn)行相似圖像的聚類組合,可存在一張圖片屬于多種聚類組合中;第二層閾值對(duì)于存在聚類組合的圖像進(jìn)行過濾與整合,輸出結(jié)果保證每張圖像只存在一種聚類組合。聚類流程如圖4 所示。人臉特征向量由人臉識(shí)別模型獲得,以特征向量間的歐式距離作為人臉相似度度量。
圖4 人像聚類方案(左)和人像聚類示例(右)
第一層閾值聚類:第一層閾值聚類組合將相似度大于所設(shè)定的第一閾值人臉圖片劃分為同一類別;
第一聚類結(jié)果合并:第一層聚類完成后對(duì)沒有聚類結(jié)果的圖片進(jìn)行過濾,并對(duì)存在共同人臉圖片的聚類組合進(jìn)行合并;
第二層閾值聚類:遍歷合并后的第一聚類結(jié)果,計(jì)算聚類結(jié)果類別中人臉平均相似度,并基于相似度對(duì)聚類結(jié)果進(jìn)行二重篩選。具體做法是,若一張圖片與類別中的其他圖片最小相似度和平均相似度都不符合設(shè)定的第二閾值,則將此圖片剔除出此類別的聚類結(jié)果。
2.2.2 事物聚類
通過圖片物體及場(chǎng)景輸出標(biāo)簽聚合形成網(wǎng)盤照片事物聚類應(yīng)用,為便于用戶瀏覽與查找,可根據(jù)圖片細(xì)分標(biāo)簽將圖片聚合為多個(gè)主題大類,如表5所示。
表5 事物聚類主題列表
可將物體標(biāo)簽與場(chǎng)景標(biāo)簽聚合為交通、動(dòng)物、美食、建筑等大類,實(shí)現(xiàn)網(wǎng)盤智能相冊(cè)事物圖片智能分組應(yīng)用,實(shí)現(xiàn)效果如圖5所示。
圖5 事物聚類示例
隨著5G 技術(shù)的發(fā)展及人們生活品質(zhì)的不斷提高,用戶對(duì)網(wǎng)盤存儲(chǔ)有了更高的要求,即要保證速度與容量,還要足夠智能。本文基于深度學(xué)習(xí)算法技術(shù)設(shè)計(jì)實(shí)現(xiàn)了網(wǎng)盤智能相冊(cè)系統(tǒng),包含模型訓(xùn)練及服務(wù)應(yīng)用兩大模塊,模型訓(xùn)練模塊訓(xùn)練輸出人臉識(shí)別、物體識(shí)別及場(chǎng)景理解系列算法模型用以支撐服務(wù)應(yīng)用模塊的網(wǎng)盤人像聚類及事物聚類業(yè)務(wù)應(yīng)用,該應(yīng)用服務(wù)可根據(jù)圖片視覺內(nèi)容進(jìn)行自動(dòng)識(shí)別和自動(dòng)分組,形成以人物個(gè)體或其它內(nèi)容主題為單位的圖片集,便于用戶更加快速、高效地瀏覽及查找網(wǎng)盤相冊(cè)圖片,實(shí)現(xiàn)智能高效的相冊(cè)管理。本系統(tǒng)架構(gòu)后續(xù)還可進(jìn)行擴(kuò)展以支撐更多網(wǎng)盤智能應(yīng)用,如擴(kuò)增智能算法池算法類型以支撐網(wǎng)盤文本、視頻智能分類處理,也可基于基礎(chǔ)算法模型擴(kuò)展服務(wù)應(yīng)用類型,如可實(shí)現(xiàn)基于人臉識(shí)別及事物識(shí)別的智能搜索應(yīng)用服務(wù)。