国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國(guó)名人人臉數(shù)據(jù)集①

2022-01-05 10:20:58杜潘飛李雄偉賈永杰
關(guān)鍵詞:人臉識(shí)別人臉年齡

杜潘飛, 李雄偉, 賈永杰

1(陸軍工程大學(xué) 石家莊校區(qū), 石家莊 050003)

2(中國(guó)人民解放軍 93498 部隊(duì), 保定 071000)

1 引言

隨著深度卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展, 近來(lái)有很多關(guān)于收集大尺度人臉識(shí)別數(shù)據(jù)集的工作, 總的來(lái)說(shuō)這些數(shù)據(jù)集大多是由其他國(guó)家的機(jī)構(gòu)收集的, 如YTF[1]、CACD2000[2]、SFC[3], 其中的人臉圖像大多都是國(guó)外的人臉, 國(guó)內(nèi)的一些機(jī)構(gòu)在實(shí)驗(yàn)室條件下采集的人臉圖像數(shù)量較少. 相關(guān)文獻(xiàn)表示人臉的面部特征包含有民族、年齡和性別等基本屬性, 其中民族屬性在人臉認(rèn)知過(guò)程中先于性別和年齡特征, 是判斷人臉的重要依據(jù), 人類學(xué)研究表明: 由于受到文化、遺傳、地域等諸多客觀因素的影響, 不同民族面部特征之間確實(shí)存在差異[4-9]. 在人臉識(shí)別的應(yīng)用中, 算法的性能嚴(yán)重地依賴于數(shù)據(jù), 而歐美國(guó)家的人臉特征和中國(guó)人的特征是有很大差異的, 為此我們?cè)诒疚闹刑岢鲆粋€(gè)新的數(shù)據(jù)集, 其中的人物全部都是中國(guó)人, 該數(shù)據(jù)集包含豐富的姿態(tài)、寬廣的年齡范圍.

本工作的主要貢獻(xiàn)有: 首先, 收集了一個(gè)尺度較大的國(guó)人人臉數(shù)據(jù)集, 命名為CCFace, 可以公開(kāi)使用. 第二, 介紹了一種半自動(dòng)化的數(shù)據(jù)集生成流程, 它極大地減少了手動(dòng)標(biāo)注的工作量, 這種方式為以后收集更大規(guī)模的人臉識(shí)別數(shù)據(jù)集提供了借鑒. 第三, 統(tǒng)計(jì)了這個(gè)數(shù)據(jù)集的關(guān)于性別、年齡、地域、民族等相關(guān)信息,并通過(guò)實(shí)驗(yàn)說(shuō)明了不同民族和地域的人臉特征具有獨(dú)特性, 本文涉及的代碼實(shí)現(xiàn)以及數(shù)據(jù)集下載地址為:https://github.com/xiayule518/CCFace.

2 相關(guān)工作

到目前為止, 在人臉識(shí)別中經(jīng)常使用的公開(kāi)數(shù)據(jù)集有很多, 它們中的大多數(shù)都是關(guān)注于人臉的姿態(tài)、年齡、光照、遮擋的多樣性, 很少關(guān)注于民族多樣性,在這部分中我們介紹一些相關(guān)的數(shù)據(jù)集, 并分析他們的優(yōu)缺點(diǎn).

CAS-PEAL數(shù)據(jù)集[10], 2004年由中國(guó)科學(xué)院發(fā)布的, 通過(guò)高清攝像機(jī)拍攝的它是在限制場(chǎng)景下多姿態(tài)、表情、配飾、光照的人臉圖像, 包含1040人物(595個(gè)男性、445個(gè)女性), 99 594張人圖像, 作為國(guó)內(nèi)較早的國(guó)人人臉圖像數(shù)據(jù)集, 其數(shù)據(jù)集規(guī)模較小, 由于一些版權(quán)因素的考慮, 其中只有一部分可以公開(kāi)使用,且是限制場(chǎng)景下收集的, 因此不適合現(xiàn)在流行的非限制場(chǎng)景下的人臉識(shí)別的模型訓(xùn)練使用.

Labeled Faces in the Wild (LFW) 數(shù)據(jù)集[11], 它于2007年發(fā)布, 是人臉識(shí)別中使用的最廣泛的數(shù)據(jù)集之一, 包含5749個(gè)人物, 13 000張圖像, 非限制場(chǎng)景下戶外的人臉圖像數(shù)據(jù), 由于所包含的圖像數(shù)量較少, 故主要作為人臉驗(yàn)證、識(shí)別的性能評(píng)價(jià)標(biāo)準(zhǔn).

CASIA-WebFace[12], 2014由溫森塞公司的Yi 和中國(guó)科學(xué)院的Lei 等人發(fā)布的大尺度人臉識(shí)別數(shù)據(jù)集,作者從IMDb網(wǎng)站上爬取的名人圖像, 通過(guò)一種半自動(dòng)的方法進(jìn)行了標(biāo)注. 其中包含10 575個(gè)不同的人物,共計(jì)494 414張人臉圖像, 每個(gè)人物的人臉圖像平均大約500個(gè), 但大多都是其他國(guó)家的人臉.

CelebA (CelebFaces Attribute)數(shù)據(jù)集[13], 2015年由香港中文大學(xué)發(fā)布的大型人臉屬性數(shù)據(jù)集, 其包含了共計(jì)202 599張亞洲名人圖像, 其中每張圖像由40種屬性注釋, 該數(shù)據(jù)集中的圖像覆蓋了大量的姿勢(shì)和背景, 可用于人臉屬性標(biāo)識(shí)訓(xùn)練、人臉檢測(cè)訓(xùn)練以及l(fā)andmark標(biāo)記等.

Glint360K[14], 2020年發(fā)布的全球最大最干凈的人臉公開(kāi)數(shù)據(jù)集, 包含360 232人物總計(jì)17 091 657張來(lái)自全世界的人臉圖像. 截止目前為止, 其類別數(shù)和圖片數(shù)目比主流訓(xùn)練集的總和還多, 通過(guò)采用空間FC訓(xùn)練策略, 在Glint360K上訓(xùn)練的基線模型可以很容易地獲得最先進(jìn)的性能. 該數(shù)據(jù)集的規(guī)模雖然較大, 但其中包含的人物多為國(guó)外人物, 其人臉特征和國(guó)人相差較大.

3 數(shù)據(jù)集構(gòu)建

在人臉識(shí)別的研究過(guò)程中, 快速且高質(zhì)量地構(gòu)建大尺度數(shù)據(jù)集是算法優(yōu)化的前提, 為此本文提出一種半自動(dòng)化的構(gòu)建方法, 在保證數(shù)據(jù)集質(zhì)量的同時(shí), 極大地降低時(shí)間成本. 數(shù)據(jù)集的構(gòu)建流程如圖1所示(其中帶陰影的模塊為自動(dòng)過(guò)程), 數(shù)據(jù)集的構(gòu)建過(guò)程主要包括人物圖像獲取、人物圖像過(guò)濾和人臉圖像標(biāo)注3個(gè)步驟.

圖1 數(shù)據(jù)集構(gòu)建流程

3.1 人物圖像獲取

數(shù)據(jù)集構(gòu)建的基礎(chǔ)是獲取包含指定人物人臉區(qū)域的圖像, 在這部分中詳細(xì)介紹如何從互聯(lián)網(wǎng)上獲取指定人物圖像, 主要包括: 確定人物名單和下載人物圖像.考慮到網(wǎng)絡(luò)圖片獲取的難易程度和隱私等問(wèn)題, 也為了盡可能多地獲取人物圖像, 本文選擇國(guó)內(nèi)網(wǎng)絡(luò)或電視中出鏡率較高的名人圖像作為獲取對(duì)象, 首先在搜索引擎中以“中國(guó)名人名單列表”為關(guān)鍵字獲取100位公眾人物名單, 之后以知識(shí)圖譜的搜索方式搜索于此有關(guān)聯(lián)的人物, 最后從其中確定了431個(gè)作為候選人物.

確定人物名單之后, 使用爬蟲的方法, 從互聯(lián)網(wǎng)上通過(guò)關(guān)鍵字搜索的方式獲取人物圖像, 并全部保存為jpg格式, 下載的每個(gè)人物的圖像分別放在該人物的文件夾下. 為加快的下載圖像速度, 在本文中使用多線程的方式(本實(shí)驗(yàn)中采用16線程), 下載過(guò)程中獲取的圖像中包含很多錯(cuò)誤圖像(例如下載錯(cuò)誤的、不能正常打開(kāi)的), 故在下載之后首先使用OpenCV過(guò)濾下載出錯(cuò)的圖像. 首次過(guò)濾之后, 共獲得498 048張人物圖像,這步獲取的人物圖像中可能包含一張或多張人臉圖像,也可能不包含候選人物的人臉圖像.

3.2 人物圖像過(guò)濾

人物圖像下載完成之后, 為過(guò)濾掉其中不包含候選人物的圖像以及明星人物圖像化妝過(guò)重而不能識(shí)別的問(wèn)題, 在ArcFace[15]提供的模型算法的基礎(chǔ)上, 對(duì)圖像進(jìn)行識(shí)別分類, 通過(guò)對(duì)人物圖像中的人臉進(jìn)行識(shí)別來(lái)移除其中不包含候選人物和妝容影響過(guò)大的圖像, 主要的流程為: 挑選特征人臉圖像, 使用人臉識(shí)別算法分類.

當(dāng)前人臉識(shí)別算法的基礎(chǔ)是構(gòu)建人臉特征庫(kù), 即對(duì)于所有候選人物通過(guò)從已下載的人物圖像中挑只包含選該人物清晰的、不同年齡的3~5張無(wú)狀或淡妝正臉圖像作為該人物特征. 在手工挑選所有人物的人臉特征圖像完成后, 通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò)提取種子圖像的特征, 生成512維的人臉特征向量, 并將其保存為bin格式文件, 所有特征向量便構(gòu)成人臉特征庫(kù), 以此作為識(shí)別過(guò)程中的搜索比較的對(duì)象.

為了將已下載的所有圖像按其所包含的候選人物人臉圖像移動(dòng)到對(duì)應(yīng)人物名稱的文件夾內(nèi), 我們使用人臉識(shí)別算法ArcFace來(lái)識(shí)別圖像中包含的人物. 在已經(jīng)構(gòu)建完成的候選人物人臉特征庫(kù)基礎(chǔ)上, 對(duì)于下載的每一張圖像, 執(zhí)行人臉檢測(cè)-向量特征化-識(shí)別的過(guò)程來(lái)和該人物挑選的特征向量做比較, 判斷該圖像中是否包含該人物的人臉圖像. 此步完成之后我們移除不包含候選人物的圖像, 此時(shí)共包含503 727張人物圖像.

3.3 人臉圖像標(biāo)注

對(duì)原始的人物圖像分類完成之后, 首先要檢測(cè)其中的人臉區(qū)域(一些圖像中可能含有多個(gè)人臉), 并將其保存為指定像素大小的本地圖片, 繼而完成人臉圖像的分類, 最后人工核對(duì)人臉圖像, 在完成這些工作之后, 便生成了可用于人臉識(shí)別的數(shù)據(jù)集.

為了獲取質(zhì)量較好的人臉區(qū)域圖像, 通過(guò)嘗試幾種人臉檢測(cè)算法, 最終決定在第3.2節(jié)生成的人物原始圖像基礎(chǔ)上, 使用MTCNN[16]提供的模型進(jìn)行人臉檢測(cè), 人臉檢測(cè)過(guò)程檢測(cè)到的人臉圖像中仍然可能存在混淆項(xiàng)(例如不屬于該人物的圖像), 故再次使用人臉識(shí)別算法對(duì)每個(gè)人物的人臉圖像作識(shí)別, 移除其中不屬于該人物的人臉圖像; 對(duì)于移除混淆項(xiàng)后仍然存在的重疊項(xiàng)和未成功識(shí)別的混淆項(xiàng), 采取人工刪除的方法來(lái)清洗每個(gè)人物的人臉圖像.

在完成所有的數(shù)據(jù)清洗工作之后, CCFace最終得到431個(gè)人物總計(jì)506 874張人臉圖像. 由于該數(shù)據(jù)集的尺度較大, 我們不能完全保證所有檢測(cè)到的人臉都被正確標(biāo)注, 數(shù)據(jù)集的質(zhì)量將由以下的實(shí)驗(yàn)說(shuō)明. 從數(shù)據(jù)集的構(gòu)建過(guò)程可以看出, 這種構(gòu)建方法需要人工操作的部分為人物名單挑選、特征人物圖像挑選與人臉標(biāo)注結(jié)果核對(duì), 這部分的工作量約占整個(gè)流程的30%左右, 比其它數(shù)據(jù)集構(gòu)建過(guò)程減少約30%~40%的工作量.

4 數(shù)據(jù)集統(tǒng)計(jì)分析

在人臉識(shí)別中, 多個(gè)因素會(huì)影響識(shí)別精度, 在前言部分介紹的當(dāng)前通用數(shù)據(jù)集都不同程度的考慮了光照、姿態(tài)和遮擋等因素的影響, 其它一些數(shù)據(jù)集(如IMDBFace[17]、CACD2000和Adience[18])研究了年齡、性別對(duì)精度的影響; NIST最新研究結(jié)果[19]表示面部識(shí)別的表現(xiàn)通常會(huì)因?yàn)槿说姆N族、性別或者年齡而產(chǎn)生差異. 因此在CCFace數(shù)據(jù)集收集的人臉圖像中不僅包含姿態(tài)、光照、遮擋多樣性, 而且也涵蓋了性別、年齡、地域和民族影響因子, 參考IMDBFace、CACD2000和Adience中的統(tǒng)計(jì)方法, 在本部分中我們主要對(duì)后4項(xiàng)影響因子做了相關(guān)的統(tǒng)計(jì). 為獲取人物屬性信息,本文在參考互聯(lián)網(wǎng)人物知識(shí)圖譜構(gòu)建的方法[20]的基礎(chǔ)上, 以人物中文名稱為關(guān)鍵字自動(dòng)從互聯(lián)網(wǎng)搜索該人物的相關(guān)信息.

4.1 性別

人臉是一種非常重要的生物特征, 具有結(jié)構(gòu)復(fù)雜、細(xì)節(jié)變化多等特點(diǎn), 同時(shí)也蘊(yùn)含了大量的信息, 比如性別、種族、年齡等, 而男性和女性的人臉特征相差較大, 故而在該部分中我們首先考慮性別因素. 在本數(shù)據(jù)集中共計(jì)431個(gè)人物實(shí)體, 其中男性185人, 女性246人; 男性人臉圖像193 090張, 女性人臉圖像313 784張, 其分布如圖2所示. 在目前的實(shí)際應(yīng)用中識(shí)別男性人臉上的表現(xiàn)要優(yōu)于女性人臉[21], 從圖2中可以看出男性和女性人數(shù)、人臉圖像數(shù)的比例約為4:6, 我們用增加女性人臉的數(shù)量來(lái)提升女性識(shí)別的性能.

圖2 性別分布

4.2 年齡

隨著年齡的增長(zhǎng), 人臉的特征也將會(huì)有較大改變,尤其是青少年, 因而年齡跨度在人臉識(shí)別中一直以來(lái)是一個(gè)技術(shù)難點(diǎn), 近些年來(lái)的一些文獻(xiàn)表示年齡因素對(duì)人臉識(shí)別的精度有較大的影響[22,23]. 在本數(shù)據(jù)集中我們收集了多個(gè)年齡段的人物, 并且每個(gè)人物的人臉圖像中包含了其各個(gè)年齡的照片, 故而在年齡方面CCFace具有豐富的多樣性, 人物的年齡跨度統(tǒng)計(jì)如表1所示.從表1可以看出20~60歲年齡段的人臉數(shù)占比超過(guò)90%, 這也與當(dāng)前實(shí)際應(yīng)用中使用人臉識(shí)別應(yīng)用該年齡段人數(shù)比例的實(shí)際情況基本相符.

表1 年齡段分布

4.3 地域

我國(guó)是一個(gè)地域遼闊人口眾多的國(guó)家, 目前可以分為7個(gè)行政區(qū), 早些年便存在對(duì)各行政區(qū)人臉特征的研究[24], 其研究表明中國(guó)人的人臉特征由于受到地理環(huán)境、氣候等因素的影響, 其所屬行政區(qū)的人的臉部特征存在明顯差別, 因而按行政區(qū)來(lái)說(shuō)明該數(shù)據(jù)集的多樣性也是合理的. 在本數(shù)據(jù)集中收集各個(gè)行政區(qū)的人物數(shù)量與人臉數(shù)量, 具體匯總?cè)绫?.

表2 地域分布

4.4 民族

我們國(guó)家是一個(gè)擁有56個(gè)民族的大家庭, 而不同民族的人臉特征也存在一定的差異性, 如: 膚色、臉型等. 在當(dāng)前人臉識(shí)別應(yīng)用中, 不同民族的識(shí)別精度也存在差異, 如在膚色較白的人臉上表現(xiàn)優(yōu)于膚色較深的人臉(11.8%~19.2%的錯(cuò)誤差別)[21], 當(dāng)前的人臉識(shí)別算法都是數(shù)據(jù)驅(qū)動(dòng)的, 數(shù)據(jù)的好壞和多少直接影響其識(shí)別性能, 故而本數(shù)據(jù)集中收集不同民族的人臉, 其數(shù)量統(tǒng)計(jì)如表3所示. 第六次全國(guó)人口普查報(bào)告顯示: 漢族占比91.6%、壯族占1.28%、藏族0.78%; 從表3中可以看出本數(shù)據(jù)集各民族比例與之大致相符.

表3 地域分布

5 實(shí)驗(yàn)分析

為說(shuō)明使用該方法構(gòu)建CCFace數(shù)據(jù)的質(zhì)量, 在本文中使用和本數(shù)據(jù)集尺度相當(dāng)?shù)腃ASIA-WebFace(以后簡(jiǎn)化記為WebFace)數(shù)據(jù)集分別訓(xùn)練多個(gè)人臉識(shí)別模型. LFW與CAS-PEAL分別作為國(guó)外、國(guó)內(nèi)人臉驗(yàn)證集來(lái)測(cè)試模型的精度. 對(duì)于數(shù)據(jù)預(yù)處理我們遵循SphereFace[25]與CosFace[26]的處理方式, 生成歸一化的112×112的人臉裁剪圖像. 由于計(jì)算資源的限制, 在本文中選擇CosineLoss[26]與Softmax作為損失函數(shù),ResNet50, ResNet-100[27]和MobileNetV1[28]作為主干網(wǎng)絡(luò), 分別記為CosFaceMobileV1 (CosineLoss+MobileNetV1)、Soft-maxMobileV1 (SoftMax+MobileNetV1)、CosFaceRes50 (CosineLoss+ResNet50)和CosFaceRes100 (Co-sineLoss+ResNet100). 在本文中所有的實(shí)驗(yàn)在Mxnet[29]上實(shí)現(xiàn), 設(shè)置batch_size為96,動(dòng)量為0.9, 權(quán)值衰減為0.0005, 初始的學(xué)習(xí)率為0.1,所有訓(xùn)練都在260 k次迭代后終止, 使用3×NVIDIA GeForce RTX 2028Ti (11 GB)的GPU完成訓(xùn)練.

5.1 WebFace實(shí)驗(yàn)結(jié)果

作為對(duì)比, 首先使用WebFace數(shù)據(jù)集訓(xùn)練以上列出的4個(gè)人臉識(shí)別模型, 模型最終性能如表4所示. 從表4中可以看到文中使用的4個(gè)人臉識(shí)別模型在使用WebFace作為訓(xùn)練集時(shí), 識(shí)別國(guó)外人臉的精度要高于國(guó)內(nèi)人臉的識(shí)別精度. CosFaceMobileV1, Softmax-MobileV1, CosFaceRes50, CosFaceRes100模型在LFW上的精度比在CAS-PEAL上的精度分別高3.3%,4.9%, 0.9%, 0.8%.

表4 WebFace結(jié)果 (%)

5.2 CCFace實(shí)驗(yàn)結(jié)果

之后以CCFace數(shù)據(jù)集訓(xùn)練相同的人臉識(shí)別模型,模型最終性能如表5所示. 從表5可以看出本文選擇的4個(gè)人臉識(shí)別模型在使用CCFace數(shù)據(jù)集作為訓(xùn)練集時(shí), 對(duì)國(guó)人人臉的識(shí)別精度要高于對(duì)國(guó)外人臉的識(shí)別精度. CosFaceMobileV1, SoftmaxMobileV1, Cos-FaceRes50, CosFaceRes100模型在CAS-PEAL上的精度比在LFW上的精度分別高0.2%, 0.9%, 1.1%, 1.5%.

表5 CCFace結(jié)果 (%)

5.3 實(shí)驗(yàn)結(jié)果分析

綜合表4、表5可以得到, 以CCFace為訓(xùn)練集訓(xùn)練的模型在LFW上同樣達(dá)到了較高的精度, 這說(shuō)明該數(shù)據(jù)集和當(dāng)前流行的人臉識(shí)別數(shù)據(jù)集一樣, 也可作為通用人臉識(shí)別應(yīng)用的訓(xùn)練集. 另外分別對(duì)比表4、表5的第3列可以發(fā)現(xiàn)CosFaceMobileV1, Softmax-MobileV1, CosFaceRes50, CosFaceRes100模型以CCFace為訓(xùn)練集時(shí), 在CAS-PEAL集上的驗(yàn)證精度比以WebFace為訓(xùn)練集的驗(yàn)證精度分別高0.7%, 3.8%,0.2%, 1.0%, 說(shuō)明CCFace比WebFace更適合作為國(guó)內(nèi)人臉識(shí)別應(yīng)用的數(shù)據(jù)集.

6 結(jié)論

本文提出一種半自動(dòng)構(gòu)建方法, 該方法減少了構(gòu)建人臉識(shí)別數(shù)據(jù)集的工作量, 通過(guò)該方法可以快速構(gòu)建一個(gè)高質(zhì)量人臉識(shí)別數(shù)據(jù)集, 并以此方法構(gòu)建一個(gè)人臉數(shù)據(jù)集, 命名為CCFace. 該數(shù)據(jù)集全部都是中國(guó)人的人臉圖像, 其不僅包含了姿態(tài)、光照、遮擋的多樣性, 也包含了年齡、地域、民族、化妝等多范圍跨度, 每個(gè)人物的人臉圖像平均包含1000多張的人臉圖像. 實(shí)驗(yàn)結(jié)果說(shuō)明該數(shù)據(jù)集相比于其它包含國(guó)外人物的數(shù)據(jù)集更適合我國(guó)人臉識(shí)別應(yīng)用的使用, 證明不同民族之間的人臉特征具有差異性. 下一步的工作內(nèi)容將詳細(xì)研究民族因素在人臉識(shí)別中的具體影響, 并進(jìn)一步增加數(shù)據(jù)集的人員數(shù)量.

猜你喜歡
人臉識(shí)別人臉年齡
變小的年齡
人臉識(shí)別 等
有特點(diǎn)的人臉
揭開(kāi)人臉識(shí)別的神秘面紗
三國(guó)漫——人臉解鎖
TOO YOUNG TO LOCK UP?
年齡歧視
算年齡
基于類獨(dú)立核稀疏表示的魯棒人臉識(shí)別
馬面部與人臉相似度驚人
济宁市| 万州区| 乌鲁木齐县| 六枝特区| 许昌县| 沈阳市| 房产| 宁陕县| 濮阳市| 迁安市| 宣城市| 萨嘎县| 外汇| 广灵县| 濮阳市| 当雄县| 宁南县| 丽江市| 化隆| 甘谷县| 曲周县| 奇台县| 安多县| 金沙县| 应用必备| 塘沽区| 高陵县| 上饶市| 长治县| 田林县| 治县。| 曲沃县| 拜泉县| 诸城市| 西吉县| 五大连池市| 锡林浩特市| 聂荣县| 云南省| 浪卡子县| 镇坪县|