易 鑫,羅小剛,張承丹,侯長軍,霍丹群
(1.重慶醫(yī)科大學附屬第一醫(yī)院腫瘤科,重慶 400016;2.重慶大學生物工程學院,重慶 400044)
當前常見的惡性腫瘤中,肺癌的發(fā)病率以及致死率位居首位。據WHO報道,近十年來每年有約有130萬人死于肺癌,且該數字還在持續(xù)增加[1-2]。由于早期癥狀不明顯,大部分確診的肺癌患者往往已經處于中晚期,五年的生存率僅有15%。Tota等人在研究中認為如果肺癌患者在疾病早期能夠實現確診,其5年的生存率可以提高至50%以上[3]。因此,對于受工作環(huán)境、生活習慣等所影響的肺癌高危人群來說,肺癌的早期篩查起著至關重要的作用。當前肺癌的檢查方法主要包括:影像學檢查(如CT、MRI以及PET等),還有纖維支氣管、縱膈鏡檢及皮肺穿刺活檢等等。這些檢查方法或者價格昂貴,或者檢查過程繁瑣,可能還存在一定的侵入性損傷,不太適合用于大規(guī)模的肺癌早期篩查。1971年,Pauling L對不同分期肺癌患者的呼出氣體研究中,發(fā)現肺癌患者與健康人群的呼出氣體成分之間存在著顯著性差異[4]。研究表明肺癌患者呼出氣體中 VOCs(如乙醛、丙酮、芳香類化合物、碳氫類化合物等揮發(fā)性有機氣體)與病情密切相關,這些揮發(fā)性有機氣體與細胞組織的代謝狀況密切相關,可以作于生物標志物用于肺癌的早期篩查。根據該特點,許多研究團隊結合電子鼻技術[5-6]、氣質聯用技術[7]等投入到人體呼出氣體VOCs檢測研究中。Suslick等人在2000年時設計了一種由卟啉及卟啉衍生物組成的比色化學傳感器陣列[8]。鑒于卟啉傳感器陣列在VOCs氣體檢測中所展示來的響應速度快、高選擇性、高特異性[9]等特點,同時依托該陣列的氣體檢測技術存在著造價低廉,無侵入性等特點,對于肺癌早期篩查具有巨大的應用價值。
圖1 實驗檢測裝置示意圖
肺癌呼出氣體標志物檢測中,選擇合適的模式識別方法尤為重要。當前呼出氣體檢測研究中,主流的模式識別方法包括聚類分析、主成分分析(PCA)、人工神經網絡等等[10-11],如:Feng等人在使用聚類分析實現不同工業(yè)毒氣的分類[12],Suslick等人在基于聚類分析完成了不同氣味咖啡的分類[13],王海東等人采用聚類分析實現了乙肝病人和正常人群的正確區(qū)分[14],Hou[15]、Lei[16]以及Zhao[17]等人相繼在研究中利用聚類分析完成不同肺癌標志物定性分類,同時還通過PCA以及神經網絡實現了特定濃度肺癌標志物的定量分析等等。由此可見,聚類分析方法簡單、結果便捷,在呼出氣體檢測研究中應用最為廣泛,但是其在卟啉傳感陣列特征圖譜識別僅僅考慮傳感器單元的顏色差值,對于低濃度或者化學結構相似的氣體樣本容易產生錯誤的識別[10-11,18]。神經網絡結合PCA對高維數據進行降維處理,降低了神經網絡的復雜程度,提高了算法的運算速度[6,16]。這種聯用模式識別方法在呼出氣體檢測中也越來越受青睞,但是它在特征圖譜識別中忽略了傳感器單元的響應數目和位置信息,并且神經網絡對于訓練樣本的數據量也有非常高的要求[17]。針對當前所存在的問題,提出了一種綜合考慮傳感器單元的顏色差值、響應數目以及位置等信息的加權模板匹配識別方法。通過對苯、苯乙烯、丙酮等6種肺癌標志物氣體的特征圖譜數據進行識別測試,結果表明該模板匹配方法具有較高的識別率和較低的檢測限。研究還采集了20例肺癌患者和16例健康志愿者的呼出氣體樣本進行識別測試,結果顯示肺癌患者和健康志愿者的特征圖譜存在明顯差異,且該模板匹配方法能夠實現肺癌患者和健康志愿者的正確區(qū)分。
以卟啉傳感器陣列為核心的實驗裝置如圖1所示,卟啉傳感器陣列由36個具有非特性化學傳感器單元組成,尺寸約為25 mm×25 mm?;谶策斑策苌?、氧化還原劑等化學試劑優(yōu)秀的分子識別能力,傳感器陣列與目標分析物發(fā)生分子間相互作用時,會引起吸收光譜發(fā)生改變,并呈現出具有特異性的顏色特征圖譜[11]。氣體檢測時,配氣室根據需要所配置的一定濃度的目標氣體在氣泵的引導下進入反應氣室,并與卟啉傳感器陣列發(fā)生循環(huán)反應,此時上位機控制軟件則控制攝像頭抓取不同時間點陣列反應前后的圖像并獲取顏色差值特征圖譜完成數據分析。每次氣體分析前后,都需要使用氮氣清掃反應室和氣體管路,并將所有的廢氣存儲到廢氣罐中。
根據Phillips 等人[19-20]的研究結果,篩選出6種肺癌呼出氣體標志物(苯、苯乙烯、異戊二烯、正丁醇、庚醛、丙酮)。為了模擬實際肺癌患者呼出氣體的濃度范圍,通過專用的配氣儀利用99%的氮氣(重慶晉升公司生產)將所有氣體樣本分別稀釋得到50×10-9、150×10-9、250×10-9、350×10-9等4 個濃度水平,并使用氣相色譜儀對各濃度氣體樣本進行了定標。實驗還采集了36例人體實際呼出氣體樣本,其中20例氣體樣本來自重慶市腫瘤醫(yī)院的確診為肺癌,但沒有合并其他慢性疾病(如糖尿病、慢性腎功能不全和上呼吸道感染等)患者的呼出氣體樣本,另外16例氣體樣本來自無任何吸煙史的健康志愿者。
所有氣體樣本檢測實驗中,反應時間設置為6 min,同時在反應中分15個不同時刻抓取比色傳感器陣列的反應圖像(時間點分別為0.25 min、0.50 min、0.75 min、1.00 min、1.25 min、1.50 min、2.00 min、2.50 min、3.00 min、3.50 min、4.00 min、4.50 min、5.00 min、5.50 min、6.00 min等)。待目標氣體反應結束后,根據式(1)即可分別獲取將對應時間點陣列中某傳感器單元反應前后的顏色差值信息。
(1)
式中:R0、G0、B0分別為傳感器單元的初始顏色信息值,Rt、Gt、Bt為對應時間點的傳感器單元信息值。
由于3通道的RGB信息無法通過數值直觀展示傳感器單元的顏色變化,因此可以通過式(2)綜合表示傳感器單元的顏色變化,同時傳感器陣列的顏色變化也由1×108轉換成了1×36的特征向量數據。
(2)
以苯為例,綜合所有時間點的顏色差值信息即可獲得如圖2(a)所示的每個傳感器單元隨時間的顏色響應曲線。通過剔除顏色無響應或者波動異常的傳感器單元,最終可獲得圖2(b)的特征圖譜。
圖2 傳感器單元時間響應曲線和特征提取圖譜
由于卟啉傳感器陣列整體差別式交叉響應方式,針對不同的VOCs氣體,其會形成不同的顏色特征圖譜。不同氣體所形成的特征圖譜中,除了傳感器單元的顏色響應差值各異之外,響應數目以及響應位置也呈現明顯差異。通過如圖2所示,通過數據預處理獲得苯的模板特征圖譜,而模板匹配識別方法即通過計算目標分析物的特征圖譜與模板特征圖譜之間的匹配程度來實現不同氣體的分類。加權模板匹配則是根據模板特征圖譜的響應情況賦予不同位置傳感器單元不同的權值進行匹配程度計算,其計算公式如下:
(3)
式中:M(i,j)為待識別氣體所獲取特征圖譜中坐標為(i,j)傳感器單元的顏色響應值,N(i,j)則為模板特征圖譜對應位置的顏色響應值。根據特征圖譜中傳感器單元的響應特性可以分為敏感單元和非敏感單元。Ws為敏感單元的權重值,Wn為非敏感單元的權重值。經過大量實驗測試,當Ws=8/n,Wn=2/(36-n)(n值為模板特征圖譜中的敏感單元個數),該加權模板匹配識別效果最佳。
通過式(3)計算得出待識別圖譜與模板特征圖譜各傳感器單元的匹配程度后,通過式(4)可以得到兩種圖譜的整體匹配程度。
(4)
S值越接近0,則待分析圖譜與模板特征圖譜的匹配程度越好,S值越大,則圖譜之間差異越大。綜合分析當前所有的模板特征圖譜,即可獲得最佳匹配值Smin=min{S1,S2,…,Sn}。為了避免出現兩種圖譜差異明顯情況,設定閾值T。若Smin小于T值,則根據Smin確定待識別氣體樣本種類。若Smin大于T值,則在當前數據庫中氣體模板特征圖譜中無法實現待分析氣體樣本。最終該加權模板匹配識別流程圖如圖3所示。
圖3 加權模板匹配方法流程圖
實驗檢測裝置分別采集了6種肺癌呼出氣體標志物(苯、苯乙烯、異戊二烯、正丁醇、庚醛、丙酮)與卟啉傳感器陣列響應的特征圖譜數據,且每種氣體每種濃度分別進行了20次平行樣本實驗。
首先,分析這20次平行樣本實驗的特征圖譜數據,根據特征圖譜提取方法則可以分別獲得如圖4所示的苯、苯乙烯等6種肺癌呼出氣體標志物的模板特征圖譜。然后,以這些模板特征圖譜為基礎,采用加權模板匹配方法對所有氣體樣本的特征圖譜數據進行氣體識別。實驗中進行模板匹配時,a和b的取值通過模板特征圖譜確定,T值采用經驗值0.8。以苯和丙酮為例,其中5次平行試驗中的匹配值如表1所示。6種肺癌標志物氣體,20次平行樣本實驗,總共采集到120例待測氣體圖譜。所有待測圖譜通過加權模板匹配方法識別,其中的113例氣體樣本均能正確識別,識別正確率高達94.17%。
圖4 6種肺癌呼出氣體標志物模板特征圖譜
實際上,肺癌患者呼出氣體的濃度非常低,一般在ppb級水平。當前,限制呼出檢測技術的最主要問題,是對低濃度氣體的有效識別。因此,有必要測試加權模板匹配方法的最低檢測限。針對6種肺癌呼出氣體標志物,分別配置了50×10-9、150×10-9、250×10-9、350×10-9等4個濃度水平的氣體樣本,每個濃度的氣體樣本進行4次平行樣本檢測,對獲取的特征圖譜數據進行加權模板匹配識別,識別結果如圖5所示。
如圖5所示,在150×10-9、250×10-9、350×10-9濃度水平下,加權模板匹配都實現了6種肺癌呼出氣體標志物的正確識別。在50×10-9濃度水平下,苯、異戊二烯和庚醛測試樣本都能被正確識別,但是苯乙烯有兩例樣本錯誤的識別為苯和異戊二烯,正丁醇氣體中有一例被錯認為丙酮,丙酮氣體樣本中有一例被誤認為異戊二烯。對比不同濃度氣體樣本的識別結果,可以推斷加權模板匹配能夠正確識別實驗中150×10-9濃度水平以上的6種肺癌呼出氣體標志物。
表1 苯和丙酮識別結果
注:表1中S1,S2,S3,S4,S5,S6分別代表待測氣體圖譜與苯、丙酮、庚醛、正丁醇、異戊二烯、苯乙烯6種氣體模板特征圖譜的匹配程度。
注:識別結果1代表苯,2為苯乙烯,3為異戊二烯,4為正丁醇,5為丙酮,6為庚醛圖5 不同濃度氣體樣本識別結果
作為對比,實驗同時采用IBM公司的SPSS 22.0分析軟件對150×10-9濃度水平的氣體樣本所獲取的特征圖譜數據進行了層次聚類分析,最終的聚類結果如圖6所示。
如圖6所示的聚類樹狀圖,可以發(fā)現,在150×10-9濃度水平下,層次聚類分析大體將氣體樣本分成了6個大類,但是除了丙酮、苯兩種氣體樣本之外,聚類分析并沒有完全實現同種氣體樣本的正確聚類。對于相同條件的加權模板匹配方法卻實現了所有實驗氣體樣本的正確識別。因此,可以推斷加權模板匹配方法相比于常用的層次聚類分析方法具有更低的檢測限。
為了分析實際肺癌患者的特征圖譜,實驗還獲取了20例肺癌患者呼出氣體的特征圖譜數據。如圖7(a)所示,雖然20例肺癌患者所獲的特征圖譜上在傳感器響應單元數目存在一定的差異,但是總體上呈現出一定的規(guī)律性。這些差異有可能是由于患者的病情發(fā)展程度不同,實際呼出氣體的成分、濃度差異以及反應環(huán)境影響等造成的。綜合分析這20例肺癌患者特征圖譜的時間響應曲線,濾除“錯點”,最終獲得了如圖7(b)所示20例肺癌患者的模板特征圖譜。為了形成對比,實驗還采集了16例健康志愿者呼出氣體樣本特征圖譜數據,重復上述操作,可以獲得如圖7(c)所示這16例健康志愿者的模板特征圖譜實驗隨機抽取了5例肺癌患者和5例健康志愿者的呼出氣體樣本特征圖譜數據,采用加權模板匹配方法進行識別。如表2所示,10例測試樣本中,加權模板匹配方法能夠正確識別氣體樣本來源。
圖6 150×10-9濃度水平氣體樣本層次聚類樹狀圖
圖7
表2 肺癌患者和健康志愿者識別結果
當前,呼出氣體檢測技術中常用的模式識別方法包括聚類分析、主成分分析法以及人工神經網絡等。對于當前應用最為廣泛的聚類分析,AsKim R[11]等人表示其還存在著三大主要缺陷:首先,聚類分析更傾向于數據統計分析;其次隨著數據樣本的增加,所有的結果必須重新分析;最后聚類分析還非常容易受到噪聲信號的干擾。對于PCA和神經網絡來說,前者更適合于數據評估或者數據降維[6,11],后者具有強大的學習能力。兩者聯用在呼氣體檢測技術中已經展示了非常不錯的數據分析識別能力,但是其對訓練樣本量的要求和算法復雜度是實際工程應用中需要克服的問題[6,16-17]。它們在基于特征圖譜的肺癌標志物識別中都忽略了傳感器單元的響應數目和位置信息。針對當前模式識別方法所存在的缺陷,提出了加權模板匹配方法。實際肺癌標志物識別測試中,由于氣體樣本濃度水平非常低,卟啉傳感器陣列也容易受到反應環(huán)境、光源等影響產生“錯點”或者特征圖譜發(fā)散[10]等情況,因此加權模板匹配和聚類分析在不同濃度水平均出現了對于顏色信息相近、反應點數目差距不大等情況下氣體樣本的錯誤識別,但是加權模板匹配方法展示了更優(yōu)的檢測限。這是因為加權模板匹配綜合考慮了傳感器單元的顏色差值、響應數目以及位置信息,它能夠在一定程度上克服“錯點”等狀況,提高了對噪聲信號的抗干擾能力,實現更低濃度的肺癌呼出氣體識別。
對于人體實際呼出氣體樣本識別測試中,結合圖7(a)所示,可以發(fā)現肺癌患者的呼出氣體樣本特征圖譜存在一定的差異,這是由于患者的肺癌分期、呼出氣體樣本成分及濃度等原因造成。肺癌患者和健康志愿者氣體樣本識別測試中,雖然加權模板匹配都實現了氣體的正確區(qū)分,但是樣本2、4的匹配程度差異非常接近,且部分樣本的匹配值非常接近閾值T。造成這些情況的原因,除了個體差異、氣體成分各異以及濃度不均等原因,健康志愿者所產生的特征圖譜有一定程度的發(fā)散性也是造成這種現象的原因之一。實際上,可以發(fā)現陣列中某些的位置傳感器單元始終都產生了響應,而某些傳感器單元在氣體濃度達到一定水平后才會產生響應。因此,在后期研究中可以考慮根據傳感器單元對不同濃度氣體的敏感度賦予不同權值。
當然,研究中肺癌患者和健康志愿者呼出氣體樣本的數量較少,同時考慮到病人的個體差異以及呼出氣體濃度不均等影響,實驗中所獲取的模板特征圖譜并不代表最終肺癌患者的特征圖譜,還需要進行更多樣本數據的采集與分析。但是,通過研究結果可以發(fā)現肺癌患者與健康志愿者呼出氣體樣本的特征圖譜存在著明顯的差異,進一步證明了卟啉傳感器陣列在肺癌早期篩查的潛在應用價值。
針對當前卟啉傳感器陣列特征圖譜的識別方法所存在的僅考慮傳感器單元的顏色信息等問題,研究提出了一種加權模板匹配方法,該方法綜合了傳感器單元的顏色信息、響應數目和位置信息。通過不同肺癌標志物氣體識別測試以及肺癌患者和健康志愿者的呼出氣體樣本識別測試,證明該方法具有優(yōu)良的識別正確率(94.17%),較低的氣體濃度檢測限(150×10-9),能夠有效地區(qū)分肺癌患者和健康志愿者,對基于卟啉傳感器陣列的肺癌早期篩查技術具有重要的應用價值。