呂相文, 田子, 呂東岳, 袁柳
(中國電子科學(xué)研究院, 北京 100041)
心率、呼吸率、血氧飽和度是衡量人體生理狀況的重要生理信號(hào)。當(dāng)前可信的高精度心率測(cè)量途徑、方法有心電圖(electrocardiogram, ECG)、脈搏血氧儀、光體積描記術(shù)(photoplethysmograph,PPG)[1]等,這些測(cè)量方法都需要傳感器與皮膚的直接接觸獲取信號(hào)數(shù)據(jù),方法適用場(chǎng)景的前提是受試人員需要全程配合,無法在工程應(yīng)用中廣泛適用。
近年來,非接觸式的生理指標(biāo)測(cè)量受到學(xué)術(shù)界廣泛關(guān)注。如采用超寬帶雷達(dá)[2]和激光多普勒測(cè)振[3]技術(shù)進(jìn)行的非接觸式生理指標(biāo)測(cè)量,當(dāng)前采用這些技術(shù)途徑的成本較高。為了高效、快捷、準(zhǔn)確地提取出生理信號(hào),研究者們尋求新的突破,并發(fā)現(xiàn)在毛細(xì)血管密布的人臉面部皮膚中顏色會(huì)隨著心臟收縮舒張而發(fā)生細(xì)微的周期性變化,這一變化可以被成像設(shè)備捕捉?;谶@一發(fā)現(xiàn),研究者提出了一種基于視頻成像的非接觸式心率測(cè)量技術(shù),也稱為遙測(cè)光電容積脈搏波描記法(remote photoplethysmography, rPPG)。利用相機(jī)拍攝的視頻來提取心率信息,該技術(shù)方法以其易用性、低成本、便捷性吸引了計(jì)算機(jī)視覺以及醫(yī)學(xué)工程領(lǐng)域內(nèi)眾多學(xué)者關(guān)注。
Verkruysse等[4]首次提出可以通過普通相機(jī)拍攝的視頻來提取心率。Poh等[5]延續(xù)這個(gè)思路,利用獨(dú)立成分分析法從視頻圖像的信號(hào)中分離計(jì)算得到脈搏波信號(hào)。隨后,Poh等[6]又通過改進(jìn)原有方法,在獨(dú)立成分分析(independent component analysis,ICA)的前后步驟中加入時(shí)間濾波,去除了線性分量和隨機(jī)噪聲,然后引入脈搏源信號(hào)選擇標(biāo)準(zhǔn)。上述方法都是一系列延續(xù)的研究工作,處于理論方法的驗(yàn)證階段,雖然實(shí)現(xiàn)了非接觸的心率測(cè)量,但對(duì)受試者以及周圍環(huán)境提出了一定的要求,如受試者需要靜止,環(huán)境光以及受試者的常規(guī)運(yùn)動(dòng)都會(huì)對(duì)測(cè)量結(jié)果造成影響,還無法實(shí)現(xiàn)工程應(yīng)用。接下來,針對(duì)工程應(yīng)用中遇到的問題,諸多學(xué)者開展研究,針對(duì)周圍光照對(duì)測(cè)量結(jié)果造成的影響,De Haan等[7]通過使用色度信號(hào)的線性組合來分析計(jì)算出脈搏信號(hào)。Balakrishnan等[8]在視頻圖像中測(cè)量每次心跳時(shí)血液流入的牛頓反應(yīng)引起的細(xì)微頭部運(yùn)動(dòng)(remote ballistocardiogram, rBCG),從而獲取心率信息。緊接著,Tulyakov等[9]提出基于矩陣填充從動(dòng)態(tài)選擇人臉區(qū)域中的最佳區(qū)域進(jìn)行心率估測(cè)。陳炎[10]提出一種基于加速度傳感器的PPG信號(hào)處理方法,從加速度信號(hào)中獲取運(yùn)動(dòng)偽跡的頻率,去除原始信號(hào)中運(yùn)動(dòng)偽跡,重構(gòu)PPG波形,該方法能夠有效去除PPG信號(hào)中的噪聲,提高心率檢測(cè)的準(zhǔn)確性,該方法在穿戴式設(shè)備的實(shí)時(shí)監(jiān)測(cè)有一定前景。Wang等[11]使用與膚色正交的投影平面來提取脈搏信號(hào)。隨后,越來越多的研究從光學(xué)模型和信號(hào)處理角度來進(jìn)行遠(yuǎn)程心率測(cè)量[12-15]。2021年開始,國內(nèi)學(xué)者更加關(guān)注rPPG方法應(yīng)用于真實(shí)場(chǎng)景中,而不是受限條件較多的實(shí)驗(yàn)環(huán)境,譚擁等[16]針對(duì)PPG信號(hào)易受運(yùn)動(dòng)影響,提出利用角速度對(duì)加速度進(jìn)行卡爾曼濾波修正作為輸入?yún)?shù),濾除信號(hào)偽影,降低測(cè)量誤差。秦睿星等[17]提出一種膚色正交平面算法的改進(jìn),對(duì)信號(hào)在頻率域上進(jìn)行頻域?yàn)V波處理,再送入算法進(jìn)行時(shí)域?yàn)V波,以此減少不同噪聲對(duì)信號(hào)質(zhì)量的影響,實(shí)現(xiàn)人臉運(yùn)動(dòng)狀態(tài)下心率的穩(wěn)定檢測(cè)。在2022年,學(xué)者們對(duì)rPPG的研究進(jìn)入細(xì)分的階段,Macwan等[18]提出一種基于廣義特征值分解(generalized eigenvalue decompositio,GEVD)的方法來估計(jì)rPPG的空間分布,用于應(yīng)對(duì)簡(jiǎn)單地從空間平均中提取面部信息所帶來的重要空間信息確實(shí)。
以上這些傳統(tǒng)的研究方法都處于相對(duì)穩(wěn)定的實(shí)驗(yàn)環(huán)境下,如何使其在復(fù)雜的工程場(chǎng)景中起作用,仍然是該研究領(lǐng)域一個(gè)具有挑戰(zhàn)性的問題。
近年來,一系列將深度學(xué)習(xí)的理論方法應(yīng)用于心率、脈搏等生理指標(biāo)的測(cè)量。Hsu等[19]嘗試使用深度學(xué)習(xí)框架進(jìn)行實(shí)時(shí)脈搏信號(hào)的估計(jì),研究人員開收集整理了一套脈搏數(shù)據(jù)庫,并用該庫來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。Qiu等[20]提出一種新的框架,將時(shí)空濾波和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過面部視頻測(cè)算心率。Spetlik等[21]提出一種卷積神經(jīng)網(wǎng)絡(luò)來測(cè)算面部圖像的心率,該兩階段網(wǎng)絡(luò)通過交替優(yōu)化進(jìn)行端到端訓(xùn)練,并在三個(gè)公開可用的數(shù)據(jù)集上進(jìn)行驗(yàn)證。上述方法是一系列將深度學(xué)習(xí)方法應(yīng)用到心率測(cè)量的理論驗(yàn)證,尚未考慮實(shí)際工程應(yīng)中的各種環(huán)境的影響。Chen等[22]提出一種深度卷積網(wǎng)絡(luò)不僅能對(duì)心率進(jìn)行測(cè)量,同時(shí)還可以對(duì)呼吸頻率測(cè)量,該方法在非均勻光照和運(yùn)動(dòng)下具有一定的魯棒性。Niu等[23]提出RyhthmNet,通過組合多個(gè)興趣區(qū)域(region of interest, ROI)數(shù)據(jù)融合成時(shí)空表示作為該網(wǎng)絡(luò)輸入進(jìn)行心率測(cè)算。Yu等[24-25]提出了PhysNet和rPPGNet用于脈搏測(cè)算。Yu等[26]在普通三維卷積網(wǎng)絡(luò)中引入時(shí)間差異信息,擴(kuò)充數(shù)據(jù)集后再用自定義聯(lián)合損失函數(shù)約束模型收斂。Schrumpf等[27]利用神經(jīng)網(wǎng)絡(luò)框架對(duì)連續(xù)的PPG信號(hào)分析,進(jìn)而對(duì)血壓預(yù)測(cè)進(jìn)行系統(tǒng)評(píng)估。Lokendra等[28]提出一種抗信號(hào)噪聲的rPPG網(wǎng)絡(luò)模型,針對(duì)面部動(dòng)作單位(action units,AUs)對(duì)信號(hào)進(jìn)行去噪處理,有效地減少了由面部表情所帶來的噪聲。針對(duì)周圍環(huán)境光線的變化,Jaiswal等[29]提出了一種融合RGB與多尺度Retinex(MSR)兩種顏色空間的算法,并融合生成時(shí)空?qǐng)D,進(jìn)而卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于將時(shí)空特征映射到相應(yīng)的心率值。Sun等[30]利用rPPG和深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型對(duì)心房顫動(dòng)進(jìn)行檢測(cè),顯著提高區(qū)分心房顫動(dòng)和非心房顫動(dòng)的精度,為未來的大規(guī)模篩查或監(jiān)控提供一種可行途徑。
對(duì)rPPG的最新研究進(jìn)展進(jìn)行了系統(tǒng)的綜述,主要貢獻(xiàn)有4個(gè)方面:①闡述傳統(tǒng)rPPG方法的原理;②論述目前具有代表性的rPPG方法的最新研究進(jìn)展和主要技術(shù)挑戰(zhàn);③比較基于深度學(xué)習(xí)和傳統(tǒng)rPPG心率測(cè)量的優(yōu)缺點(diǎn)以及在現(xiàn)實(shí)環(huán)境中的適用性;④討論rPPG心率測(cè)量未來研究方向。
隨著心臟收縮以及舒張的周期性運(yùn)動(dòng)會(huì)引起皮膚顏色的微小變化,原因是每次心跳過程中,皮膚下的血管會(huì)改變對(duì)光線的吸收反射特性。血液中因?yàn)楹醒t蛋白,因此相較于周圍其他組織如皮膚、肌肉等對(duì)光的吸收量更多。在心臟跳動(dòng)期間,皮膚下的毛細(xì)血管中血容量會(huì)發(fā)生周期性變化,血紅蛋白量也隨之發(fā)生周期變化。因此,心臟跳動(dòng)的周期可以通過測(cè)量皮膚組織對(duì)光反射強(qiáng)度的變化周期獲得。
依據(jù)文獻(xiàn)[40],假設(shè)光照亮度固定,則光譜組成也是確定不變,將一系列圖像的處理時(shí)間定義為T(s),在圖像中,興趣區(qū)域中的像素?cái)?shù)量為K,所以系列圖像中第k個(gè)像素的光線反射定義為
Ck(t)=I(t)[vs(t)+vd(t)+vn(t)],
1≤k≤K
(1)
式(1)中:t為第t秒,且1≤t≤T;Ck(t)為興趣區(qū)域中第k個(gè)像素的RGB平均值;I(t)為光照強(qiáng)度等級(jí);vs(t)為鏡面反射;vd(t)為漫反射;I(t)同時(shí)被vs(t)和vd(t)計(jì)算確定;vn(t)為視頻獲取時(shí)的噪聲參數(shù);vs(t)為皮膚表面鏡面反射成分。
vs(t)=us[s0+s(t)]
(2)
式(2)中:us為光源的單位向量;s0和s(t)分別為鏡面反射的靜止和隨時(shí)間的變化部分,其中變化部分主要是由運(yùn)動(dòng)引起的。
vd(t)為皮膚表面的漫反射,其依賴于血容量的變化,可表示為
vd(t)=udd0+upp(t)
(3)
式(3)中:ud為皮膚組織的單位顏色向量;d0為穩(wěn)態(tài)漫反射強(qiáng)度;up為脈動(dòng)強(qiáng)度;p(t)為真實(shí)脈搏波信號(hào)。
其物理模型抽象描述如下:①心臟周期性收縮舒張使動(dòng)脈血液流向全身;②流向全身的血液造成毛細(xì)血管中的血液容量呈周期性變化;③相機(jī)成像過程中將這種變化記錄下來;④分析包含較多毛細(xì)血管的視頻區(qū)域可以得到心率。
本節(jié)分類介紹了傳統(tǒng)的遙測(cè)心率估計(jì)方法。傳統(tǒng)方法的通用框架設(shè)計(jì)思路類似,個(gè)別方法主要區(qū)別在于圖像的預(yù)處理、信號(hào)提取的具體算法以及信號(hào)的后處理,其中信號(hào)的提取目前主要是包括基于盲源分離和基于建立模型計(jì)算兩種方法。圖1展示了基于rPPG的心率估計(jì)的通用算法框架,該算法由如下步驟組成。
(1)視頻采集。結(jié)合毛細(xì)血管的分布、運(yùn)動(dòng)干擾強(qiáng)度等問題,通常使用彩色攝像頭采集人臉視頻區(qū)域。
(2)提取RGB平均顏色通道。選取每一幀視頻圖像中與心跳相關(guān)的面部興趣區(qū)域,通常為臉頰或前額區(qū)域[41]。為增強(qiáng)信號(hào)穩(wěn)定性,計(jì)算興趣區(qū)域平均像素值來調(diào)控最終信號(hào)計(jì)算穩(wěn)定性:
(4)
式(4)中:ROI(t)為興趣區(qū)域;(i,j)為興趣區(qū)域中的具體位置;Ci,j(t)為時(shí)間t時(shí)(i,j)位置的顏色信號(hào);c0(t)為RGB平均顏色信號(hào)。
(3)顏色通道預(yù)處理。一般由濾波和歸一化組成,其目的是去除與脈搏信號(hào)之外的噪聲信號(hào),有去趨勢(shì)濾波、移動(dòng)平均濾波、帶通濾波等方法,歸一化是后續(xù)進(jìn)行盲源分離處理的必要前提,將c0(t)經(jīng)過去趨勢(shì)化或滑動(dòng)平均濾波后計(jì)算獲得的顏色信號(hào)c(t)。
c(t)=[r(t),g(t),b(t)]T
(5)
(4)脈搏波信號(hào)提取。對(duì)于預(yù)處理后的c(t)信號(hào)采用盲源分離或基于模型的算法提取脈搏波信號(hào),即
rPPG0(t)=wr(t)r(t)+wg(t)g(t)+
wb(t)b(t)
(6)
式(6)中:wr(t)、wg(t)、wb(t)為RGB通道的各個(gè)權(quán)重;r(t)、g(t)、b(t)分別為經(jīng)過趨勢(shì)化或滑動(dòng)平均濾波后的RGB三通道信號(hào)。提取方法一般為獨(dú)立成分分析、主成分分析、CHROM[7]、POS[11]等。
(5)后處理。該處理步驟不是必需的,如果在步驟4中以非線性方式(CHROM、POS等)提取脈搏波信號(hào),則需要對(duì)rPPG0(t)進(jìn)行后處理得到脈搏信號(hào),主要方式有帶通濾波、平均濾波、自適應(yīng)平均濾波等方法。
(6)心率計(jì)算。將提取的脈搏波信號(hào)轉(zhuǎn)換計(jì)算為心率,方法有心搏間隔法(interbeat intervals, IBI)、最大功率譜密度法(power spectral density, PSD)等。
圖1 基于rPPG的心率估計(jì)的傳統(tǒng)通用算法框架[4]Fig.1 General algorithm framework for rPPG-based heart rate estimation[4]
在顏色信號(hào)c(t)中,攜帶脈搏波信號(hào)的分量是未知的,利用盲源分離法(blind source separation,BSS)[42]能夠?qū)(t)分解成不同信號(hào),再根據(jù)最大頻譜值或最強(qiáng)周期性特征選出最接近脈搏波的信號(hào)?;诿ぴ捶蛛x的rPPG方法可表達(dá)為
Y(t)=Wc(t)
(7)
式(7)中:Y(t)為由脈沖和噪聲組成的分解源信號(hào);W為可以由主成分分析(principal component analysis,PCA)[43]或獨(dú)立成分分析估算的混合矩陣,得到Y(jié)(t)信號(hào)后,取最強(qiáng)的周期性信號(hào)作為脈搏波信號(hào)。
此外,PCA和ICA對(duì)W都有一定的影響,PCA使用RGB通道的協(xié)方差來估計(jì)W。而ICA則假設(shè)Y(t)中的分量是相對(duì)獨(dú)立的,只有當(dāng)c0(t)是一個(gè)長(zhǎng)信號(hào)時(shí)才能進(jìn)行統(tǒng)計(jì)測(cè)量。
盲源分離的關(guān)鍵在于尋找更好的分離算法使心率信號(hào)從原始信號(hào)中分離出來。但如果噪聲信號(hào)與心率信號(hào)頻率相接近(如運(yùn)動(dòng)頻率和心率頻率相接近),這種方案可能不能表現(xiàn)出很好的效果。
與基于盲源分離的方法不同的是,該方法對(duì)與源信號(hào)相關(guān)的顏色不做假設(shè),而是利用這些顏色向量來控制混合信號(hào)的分離?;谀P偷姆椒ㄓ蠧HROM、PBV(pulse blood-volume)[44-47]、POS 等。這些方法有一個(gè)共同的步驟:消除c(t)對(duì)平均皮膚反射顏色的依賴,如光源顏色和人體膚色。
PBV算法限制所有的顏色向脈搏波分量方向變化,然后從脈搏波分量中提取心率,PBV也是一種基于血容量脈沖的運(yùn)動(dòng)魯棒改進(jìn)方法。CHROM算法為了不受光照變化的影響,假設(shè)了一個(gè)標(biāo)準(zhǔn)化的膚色向量,這個(gè)向量能夠自動(dòng)白平衡圖像。而PBV算法使用預(yù)先定義的脈沖信號(hào)來平衡噪聲。POS方法類似于CHROM,在該算法中,通過一個(gè)臨時(shí)歸一化的RGB信號(hào)中建立了與膚色垂直的正交平面,利用不同的先驗(yàn)知識(shí)來減少顏色失真的順序。
以CHROM方法為例,該方法假定視頻連續(xù)幀中的人臉存一定的運(yùn)動(dòng)情況,運(yùn)動(dòng)對(duì)RGB三通道(R、G、B代表每個(gè)通道的時(shí)序信號(hào))中每個(gè)通道的影響是一樣的,由此引出兩個(gè)正交信號(hào)X、Y和S信號(hào)。
X=R-G
(8)
Y=0.5R+0.5G-B
(9)
(10)
通過計(jì)算得到的S信號(hào)即為心率信號(hào),此方法的優(yōu)勢(shì)在于,能夠加強(qiáng)原視頻中的顏色信號(hào),適用于顏色信號(hào)較為微弱的場(chǎng)景。
本質(zhì)上,不同的光源(或其他外界干擾)使產(chǎn)生脈沖的RGB信號(hào)發(fā)生變化,這使得固定的先驗(yàn)設(shè)置不可能是最優(yōu)的,基于模型的方法首先要消除脈搏信號(hào)之外對(duì)RGB信號(hào)產(chǎn)生影響的因素。
為了提高方法的可靠性及魯棒性,傳統(tǒng)方法趨向于越來越復(fù)雜的預(yù)處理步驟(人臉檢測(cè)和跟蹤、色彩空間轉(zhuǎn)換、信號(hào)分解和濾波等)和后處理步驟(帶通濾波、平均濾波、奇異值分解等)。
表1中詳細(xì)梳理了典型rPPG測(cè)量方法的前后預(yù)處理步驟及主要貢獻(xiàn)等關(guān)鍵信息。
表1 rPPG測(cè)量傳統(tǒng)方法對(duì)比研究Table 1 Typical researches of traditional rPPG methods
基于深度學(xué)習(xí)的非端到端測(cè)量方法需要采取多個(gè)特征提取的步驟,其中的特征提取可以是多個(gè)深層網(wǎng)絡(luò)分別訓(xùn)練的,也可以是使用傳統(tǒng)方法提取特征后再進(jìn)行訓(xùn)練,每個(gè)步驟結(jié)果好壞直接影響最終的算法表現(xiàn),但提高一個(gè)步驟的準(zhǔn)確度不一定在總體上提高準(zhǔn)確度,相對(duì)于端到端系統(tǒng),它可以直接分析各步驟對(duì)算法準(zhǔn)確率的影響,在算法提升方向性上更為明確。使用非端到端rPPG心率測(cè)量框架有[19]。端到端的好處在于不會(huì)有誤差積累,僅用一個(gè)模型、一個(gè)目標(biāo)函數(shù)可以規(guī)避多特征提取的固有缺陷。準(zhǔn)備訓(xùn)練數(shù)據(jù)集,輸入網(wǎng)絡(luò)后,等待模型收斂,端到端的網(wǎng)絡(luò)不需要加入其他額外的步驟,從原始數(shù)據(jù)的輸入到最終需要的計(jì)算結(jié)果的輸出,整個(gè)訓(xùn)練以及推理過程,都在網(wǎng)絡(luò)中進(jìn)行。使用基于深度學(xué)習(xí)的端到端rPPG心率測(cè)量框架有[21]。
基于深度學(xué)習(xí)的rPPG心率測(cè)量通常需要大量訓(xùn)練樣本,但目前還沒有為非接觸心率估計(jì)任務(wù)而建立的大型公共數(shù)據(jù)集。傳統(tǒng)基于rPPG方法需要對(duì)視頻進(jìn)行預(yù)先定義的復(fù)雜處理(嚴(yán)格的預(yù)處理步驟),如感興趣區(qū)域檢測(cè)、人臉跟蹤、色彩空間轉(zhuǎn)換、濾波等,到目前為止,在較穩(wěn)定的環(huán)境(MAHNOB-HCI數(shù)據(jù)集)中使用傳統(tǒng)方法[9]時(shí),MAE(平均絕對(duì)誤差)能達(dá)到4.96,但涉及頭部運(yùn)動(dòng)、面部表情變化(VIPL-HR數(shù)據(jù)集)時(shí)傳統(tǒng)方法效果不佳,MAE最好僅有11.53,如圖2所示,傳統(tǒng)方法比基于深度學(xué)習(xí)方法普遍誤差要大。理論上,當(dāng)數(shù)據(jù)量足夠大,深度學(xué)習(xí)所訓(xùn)練出的模型會(huì)有更好的魯棒性,即能夠適用于現(xiàn)實(shí)場(chǎng)景。但在實(shí)際訓(xùn)練中一些細(xì)微的差別(如人臉跟蹤時(shí)的丟幀,視頻與ECG信號(hào)未能對(duì)齊等)可能導(dǎo)致預(yù)測(cè)結(jié)果極大的不同。
傳統(tǒng)rPPG方法需要嚴(yán)格的預(yù)處理步驟,只保留了預(yù)先定義的感興趣區(qū)域,而感興趣區(qū)域之外的信息丟失,還有一個(gè)缺點(diǎn)是,大部分傳統(tǒng)rPPG方法無法進(jìn)行實(shí)時(shí)測(cè)量,傳統(tǒng)方法和基于深度學(xué)習(xí)方法都需要在短時(shí)間內(nèi)處理多幀圖像,前者由于預(yù)處理、后處理等復(fù)雜步驟只能達(dá)到“偽實(shí)時(shí)”測(cè)量,即當(dāng)前時(shí)刻測(cè)量的是前幾秒時(shí)的心率,但由于心率在短時(shí)間內(nèi)變化不大,這種“偽實(shí)時(shí)”測(cè)量也是可接受的。后者使用已經(jīng)訓(xùn)練好的模型處理多幀圖片通常能夠達(dá)到實(shí)時(shí)測(cè)量的效果。
表2、表3整理了多種深度學(xué)習(xí)方法在VIPL-HR和MAHNOB-HCI上的平均絕對(duì)誤差(MAE)、標(biāo)準(zhǔn)差(Std)、均方根誤差(RMSE)、錯(cuò)誤率百分比平均值(MER)和皮爾遜相關(guān)系數(shù)(r)5種測(cè)量指標(biāo)。每分鐘跳動(dòng)次數(shù)(beat per minute, bpm)為MAE、Std、RMSE測(cè)量結(jié)果。
圖2 傳統(tǒng)方法與深度學(xué)習(xí)方法在VIPL-HR上的比較Fig.2 Comparison of traditional methods and deep learning methods on VIPL-HR
表2 基于深度學(xué)習(xí)方法測(cè)量結(jié)果對(duì)比(VIPL-HR數(shù)據(jù))Table 2 Comparison of deep learning based rPPG methods(VIPL-HR)
表3 基于深度學(xué)習(xí)方法測(cè)量結(jié)果對(duì)比 (MAHNOB-HCI數(shù)據(jù))Table 3 Comparison of deep learning based rPPG methods(MAHNOB-HCI)
其中AutoHR在所有方法中結(jié)果最佳,該模型是端到端網(wǎng)絡(luò),使用三維原始RGB序列作為輸入,輸入尺寸比二維圖片大得多,且使用原始圖像作為輸入不會(huì)丟失與心率相關(guān)的重要信息。此外,AutoHR使用時(shí)間差異網(wǎng)絡(luò)結(jié)構(gòu)、混合損失函數(shù)、時(shí)空數(shù)據(jù)增強(qiáng)等策略來提高測(cè)量結(jié)果的魯棒性。RhythmNet[23]在VIPL-HR和Mahnob-HCI上都有較高的準(zhǔn)確性(Std分別為8.88和3.97),作為非端到端網(wǎng)絡(luò),該模型首先構(gòu)建基于物理先驗(yàn)的序列時(shí)空特征圖,弱化與心率信號(hào)無關(guān)的空間紋理信息(背景),強(qiáng)化與心率信號(hào)相關(guān)的時(shí)序周期信號(hào),然后用CNN學(xué)習(xí)心率表征,其優(yōu)勢(shì)在于借助先驗(yàn)信息來優(yōu)化深度學(xué)習(xí)的訓(xùn)練過程。
表4列出了具有代表性的基于深度學(xué)習(xí)的rPPG心率測(cè)量研究。但目前基于深度學(xué)習(xí)的rPPG心率測(cè)量對(duì)于工程應(yīng)用來說還不夠成熟,存在一定的缺陷。
(1)由于深度學(xué)習(xí)的方法對(duì)數(shù)據(jù)具有一定的依賴,因此數(shù)據(jù)樣本量不足導(dǎo)致實(shí)驗(yàn)結(jié)果遇到瓶頸,具有準(zhǔn)確心率標(biāo)簽的視頻數(shù)據(jù)量非常有限,無法像人臉識(shí)別那樣訓(xùn)練大量的樣本提高測(cè)量精度。
(2)數(shù)據(jù)樣本不具有普適性,數(shù)據(jù)集中大多為正常心率,大多樣本的心率為60~80 b/min,這使得以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法無法提取在非正常狀態(tài)的心率特征。
(3)視頻流與心電信號(hào)難以對(duì)齊,視頻流的頻率與心電信號(hào)的采樣率不一致,視頻流的幀率一般為25/30/60幀/s,即采樣率為25/30/60 Hz,心電信號(hào)的采樣率為256/512/1 000 Hz,采樣過程中可能會(huì)丟失與心率相關(guān)的重要信息,需要采用幀率更高的高速攝影機(jī)來完成視頻圖像采集來避免與新店信號(hào)對(duì)應(yīng)的視頻幀丟失問題。
傳統(tǒng)rPPG心率測(cè)量方法主要依賴手工設(shè)計(jì)的特征提取器,對(duì)每個(gè)步驟有專業(yè)知識(shí)理解,對(duì)應(yīng)還有基于經(jīng)驗(yàn)的調(diào)參過程,同時(shí)每個(gè)方法都是針對(duì)具體數(shù)據(jù),泛化能力及魯棒性相對(duì)較差。與之相比,基于深度學(xué)習(xí)的rPPG心率測(cè)量方法主要是由數(shù)據(jù)驅(qū)動(dòng)進(jìn)行特征提取,從大量樣本中學(xué)習(xí),得到深層、高階的特征表示,其對(duì)心率的測(cè)量更高效和準(zhǔn)確,所提取的抽象特征魯棒性更強(qiáng),泛化能力更好。以數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法是rPPG領(lǐng)域的研究趨勢(shì)。
敘述了rPPG領(lǐng)域的多種衍生方法,同時(shí)也對(duì)該領(lǐng)域做了一個(gè)分類:基于光學(xué)模型和信號(hào)處理的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。提供了兩種方法的模塊化框架,研究者們可以使用本文分類和框架作為改進(jìn)起點(diǎn)或者基于此框架設(shè)計(jì)適合特定需求的rPPG算法。
rPPG的研究進(jìn)展顯著,從引用文獻(xiàn)中可以看到,該方法的應(yīng)用場(chǎng)景已經(jīng)從單一、穩(wěn)定的實(shí)驗(yàn)驗(yàn)證場(chǎng)景逐漸發(fā)展為考慮真實(shí)環(huán)境的各種復(fù)雜場(chǎng)景,研究方法的趨勢(shì)逐漸從傳統(tǒng)方法轉(zhuǎn)為深度學(xué)習(xí)。但就本文的引用的結(jié)果來看,在動(dòng)態(tài)VIPL-HR數(shù)據(jù)集中測(cè)量顯示誤差較大,rPPG心率測(cè)量方法仍有提升空間。
表4 有代表性的基于深度學(xué)習(xí)的rPPG心率測(cè)量研究Table 4 Representative studies of deep learning based rPPG methods
研究的難點(diǎn)會(huì)在于圍繞rPPG心率測(cè)量方法所需要的一系列的支撐。
(1) rPPG算法需要進(jìn)一步適配視頻壓縮的場(chǎng)景。未壓縮的原始視頻圖像作為模型的輸入會(huì)提高算法結(jié)果的準(zhǔn)確度[48-49],但原始視頻圖像數(shù)據(jù)量較大[50],尤其是在為獲取更多的細(xì)節(jié)信息,使用高速攝影機(jī)采集的視頻圖像數(shù)據(jù)將進(jìn)一步加大模型計(jì)算的輸入數(shù)據(jù)量,對(duì)計(jì)算的硬件性能將提出較高的要求,這將限制該方法的應(yīng)用場(chǎng)景。另外,很多場(chǎng)景需要進(jìn)行實(shí)時(shí)心率測(cè)量[51],未壓縮的視頻圖像將很難應(yīng)用于模型的實(shí)時(shí)計(jì)算。
(2) 基于深度學(xué)習(xí)的rPPG研究數(shù)據(jù)量較少,如何在現(xiàn)有規(guī)模數(shù)據(jù)集的情況提高算法精度將成為難點(diǎn)。小樣本機(jī)器學(xué)習(xí)方法將有助于提高現(xiàn)有機(jī)器學(xué)習(xí)方法的精度。與機(jī)器學(xué)習(xí)應(yīng)用的其他領(lǐng)域相比,數(shù)據(jù)采樣難度大和限制條件多,rPPG領(lǐng)域的樣本數(shù)據(jù)量還比較小,引入小樣本機(jī)器學(xué)習(xí)方法將有助于盡快提高測(cè)量精度的方向之一。
從現(xiàn)有的研究進(jìn)展來看,未來rPPG心率測(cè)量會(huì)研究重點(diǎn)方向會(huì)延伸至各潛在的應(yīng)用領(lǐng)域,rPPG算法除了可以應(yīng)用于心率測(cè)量以外,也可以應(yīng)用于其他生理指標(biāo)的測(cè)量,如呼吸頻率[52-55]、心率變異[56-57]、血氧[58-59]、血壓[60]、心血管[61]、精神疲勞檢測(cè)[62]等,但是對(duì)于除心率以外的上述生理指標(biāo)測(cè)量精度有待進(jìn)一步提高。rPPG算法在常規(guī)的生理指標(biāo)的應(yīng)用將有利于該方法的研究與應(yīng)用推廣。