DOI:10.19850/j.cnki.2096-4706.2021.09.004
摘? 要:針對人工識別皮膚癌惡性腫瘤中不可避免的人為因素,以及效率低、設(shè)備要求高等問題,提出了一種基于EfficientNet網(wǎng)絡(luò)的新的皮膚癌識別與分類方法。首先,由于樣本數(shù)據(jù)量過小,通過數(shù)據(jù)預(yù)處理實現(xiàn)數(shù)據(jù)增強,從而防止訓(xùn)練模型出現(xiàn)過擬合的問題。然后將數(shù)據(jù)集在EfficientNet網(wǎng)絡(luò)模型上進(jìn)行訓(xùn)練,同時采用Adam調(diào)整學(xué)習(xí)率,進(jìn)而實現(xiàn)皮膚癌圖像的識別與分類。實驗結(jié)果表明,該模型的準(zhǔn)確率和查全率可分別達(dá)到90.78%和88.23%,在保證了準(zhǔn)確率和查全率的前提下,參數(shù)量大大減少,可有效提升臨床醫(yī)學(xué)診斷的效率。
關(guān)鍵詞:EfficientNet模型;Adam;皮膚癌識別
中圖分類號:TP391.4? ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)09-0013-03
Skin Cancer Identification and Classification Based on EfficientNet
ZHANG Jiaying
(College of Computer Science and Technology,Huaqiao University,Xiamen? 361021,China)
Abstract:A new method for skin cancer identification and classification based on the EfficientNet network is proposed,aiming at the inevitable human factors,low efficiency and high equipment requirements in the manual identification of skin cancer and malignant tumors. Firstly,since the sample data is too small,data enhancement is realized through data preprocessing,so as to prevent the problem of overfitting in the training model. Then,the data set is trained on its EfficientNet network model,with Adam adjusting the learning rate for skin cancer image identification and classification. The experimental results show that the accuracy and recall of the model can reach 90.78% and 88.23%,respectively. On the premise of ensuring the accuracy and recall,the number of parameters is greatly reduced,which can effectively improve the efficiency of clinical medical diagnosis.
Keywords:EfficientNet model;Adam;skin cancer identification
0? 引? 言
皮膚癌是最常見的癌癥類型,常見的皮膚癌有基底細(xì)胞癌(Basal Cell Carcinoma,BCC)、鱗狀細(xì)胞癌(Squamous Cell Carcinoma,SCC)、惡性黑色素瘤(Melanoma,ML)等[1]。2017年,僅美國新確診ML患者就有85 686人,其中8 056人因此死亡,ML患病率已在所有癌癥類型中排第六[2]。ML雖然只占所有皮膚癌的2%,但卻最易導(dǎo)致死亡,BCC是最常見的皮膚癌類型,發(fā)展速度慢但具有局部侵襲性,SCC約占20%至30%,僅次于BCC[3]。目前常用的皮膚癌檢測方法有皮膚活體組織檢查和病理組織學(xué)檢查,即使借助皮膚鏡圖像分析、共焦顯微鏡等可幫助醫(yī)生更好地診斷,診斷結(jié)果仍然會受到主觀因素的影響,不能保證診斷的準(zhǔn)確率[4]。況且這種診斷只適用于一小部分掌握特征識別技巧的專業(yè)人士,不具有普適性,因此不能夠幫助人們及時地識別出皮膚癌并且盡早地治療皮膚癌。
為了減少模型訓(xùn)練參數(shù),同時又能夠確保皮膚癌識別和分類的準(zhǔn)確率及查全率,本文利用EfficientNet模型實現(xiàn)皮膚癌的識別和分類,主要針對9種皮膚病癥,分別是BCC、SCC、ML、光化性角化?。ˋctinic Keratosis,AK)、良性皮膚纖維瘤(Dermatofibroma,DF)、色素痣(Nevus,NV)、色素性良性角化?。≒igmented Benign Keratosis,PBK)、脂溢性角化?。⊿eborrheic Keratosis,SK)、血管病變(Vascular Lesion,VL)。
1? 方法介紹
目前關(guān)于皮膚癌的研究主要是針對ML的識別,少有針對各種皮膚癌病癥的分類,識別方法多是采用卷積神經(jīng)網(wǎng)絡(luò)(CNN),Ameri[5]采用的是AlexNet模型,Codella1等[6]則是在CNN基礎(chǔ)上使用了稀疏編碼算法從而實現(xiàn)了無監(jiān)督學(xué)習(xí)。但是使用CNN實現(xiàn)皮膚癌的識別和分類,往往需要巨大的計算機資源才能達(dá)到較高的精度,顯然這與皮膚癌的識別普遍化背道而馳。Tan等[7]提出的EfficientNet模型,通過固定訓(xùn)練參數(shù),使得精確度在消耗更少資源的情況下得到提升,且模型具有較好的遷移效果[8],故本文采用EfficientNet模型對皮膚癌圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,并在EfficientNet模型的基礎(chǔ)上對數(shù)據(jù)進(jìn)行預(yù)處理,并采用Adam算法進(jìn)行學(xué)習(xí)率的調(diào)整,從而使得EfficientNet模型得到進(jìn)一步優(yōu)化。
1.1? 數(shù)據(jù)預(yù)處理
數(shù)據(jù)集的大小一定程度上影響著模型的準(zhǔn)確率,為了在已有的圖像數(shù)據(jù)集的基礎(chǔ)上擴大圖像數(shù)量,通常會采用裁剪、平移、翻轉(zhuǎn)、旋轉(zhuǎn)、調(diào)整飽和度及對比度的方式對圖像進(jìn)行處理[9]。
在皮膚病圖像數(shù)據(jù)集中,PBK圖像數(shù)量最多,占462張,而DF、SK圖像數(shù)量則較少,不足百張,故采用圖像增廣技術(shù)對數(shù)據(jù)進(jìn)行處理。將輸入數(shù)據(jù)集圖像進(jìn)行去中心化處理,同時利用標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化;設(shè)置隨機轉(zhuǎn)動的角度為45°,對圖像進(jìn)行旋轉(zhuǎn)處理,生成不同旋轉(zhuǎn)角度的圖像;對圖像進(jìn)行水平翻轉(zhuǎn)和豎直翻轉(zhuǎn);設(shè)置偏移比例為0.2,使圖像按照原圖像高度的20%進(jìn)行豎直偏移,按照原圖像寬度的20%進(jìn)行水平偏移。從而完成圖像數(shù)據(jù)的預(yù)處理工作。
1.2? 模型構(gòu)建
1.2.1? Efficientnet網(wǎng)絡(luò)
根據(jù)混合系數(shù)?取值的不同,有B0至B7共8種網(wǎng)絡(luò)模型,其中EfficientNet-B0為基準(zhǔn)網(wǎng)絡(luò),當(dāng)?=1時,找出三個比例系數(shù)α,β,γ的最佳組合,然后固定三個比例系數(shù),逐漸放大混合系數(shù)?,依次得到B1至B7網(wǎng)絡(luò)模型?;鶞?zhǔn)網(wǎng)絡(luò)EfficientNet-B0的結(jié)構(gòu)如表1所示。
EfficientNet通過平衡網(wǎng)絡(luò)的寬度、網(wǎng)絡(luò)的深度以及網(wǎng)絡(luò)的分辨率得到了更高的精度及效率。這正是皮膚癌識別與分類在臨床試驗中需要用到的,故本文采用EfficientNet-B6網(wǎng)絡(luò)模型對皮膚癌圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,以更少的參數(shù)量訓(xùn)練出精度更高的網(wǎng)絡(luò)模型。
1.2.2? Adaptive Moment Estimation
Adam優(yōu)化器是由OpenAI的Diederik Kingma和多倫多大學(xué)的Ba等提出的[10]。計算簡單且高效,對內(nèi)存需求也較少,幾乎適用于所有場景,尤其適用于大規(guī)模的數(shù)據(jù)及參數(shù)的場景,故采用Adam優(yōu)化器對模型進(jìn)行優(yōu)化。Adam算法綜合了Momentum算法和AdaDelta算法的特點,在兩算法的基礎(chǔ)上進(jìn)行了改進(jìn)。
2? 實驗
2.1? 實驗環(huán)境
本實驗采用Python編程語言,CPU處理器為Intel(R) Core(TM) i7-6700K CPU @ 4.00 GHz×8,GPU處理器為NVIDIA GeForce GTX 2080Ti,內(nèi)存(RAM)為16 GB,操作系統(tǒng)為64bit Windows 10專業(yè)版。
2.2? 實驗數(shù)據(jù)
數(shù)據(jù)集來自Kaggle提供的公開數(shù)據(jù)集,數(shù)據(jù)集中共有2 357張惡性和兩性腫瘤圖,包含了9類皮膚病癥圖像,分別是: BCC、SCC、ML、AK、DF、NV、色PBK、SK、VL。由國際皮膚影像協(xié)會(International Skin Imaging Collaboration,ISIC)提供并進(jìn)行準(zhǔn)確分類。
2.3? 參數(shù)設(shè)置
選用EfficientNet-B6網(wǎng)絡(luò)結(jié)構(gòu)可以使得整個模型的準(zhǔn)確率、查全率和效率達(dá)到最優(yōu)的效果,同時又不會過度地浪費計算資源,使得算法對設(shè)備的要求提高。經(jīng)多次實驗后,得到了本模型的最優(yōu)參數(shù)組合,設(shè)置圖像標(biāo)準(zhǔn)化大小Norm_size為512×512,批量大小Batch_size為128,初始學(xué)習(xí)率Init_learning_rate為0.001,共迭代epoch100次。
2.4? 實驗結(jié)果及分析
2.4.1? 準(zhǔn)確率和查全率
采用識別的準(zhǔn)確率(Accuracy)和查全率(Recall)來衡量模型的性能:
其中,TP(True Positive)為真正例的個數(shù),TN(True Negative)為真負(fù)例的個數(shù),F(xiàn)P(False Positive)為假正例的個數(shù),F(xiàn)N(False Negative)為假負(fù)例的個數(shù)。根據(jù)準(zhǔn)確率和查全率的計算方法可以得出,準(zhǔn)確率越高,模型識別越準(zhǔn)確,查全率越高,越能有效避免惡性腫瘤未被識別的情況,因此準(zhǔn)確率和查全率越高,模型的性能越好。本實驗最終準(zhǔn)確率和查全率可分別達(dá)到90.78%和88.23%。
2.4.2? 結(jié)果分析
數(shù)據(jù)集中的訓(xùn)練集和測試集已被分好,未進(jìn)行預(yù)處理前,訓(xùn)練集數(shù)據(jù)量為2 239,測試集數(shù)據(jù)量為118,為了更準(zhǔn)確地看出識別效果,在測試集上對每類皮膚病分別進(jìn)行訓(xùn)練,得到的訓(xùn)練結(jié)果如表2所示。
從表中可以看出,各類皮膚病訓(xùn)練準(zhǔn)確率均可達(dá)到85.5%以上,準(zhǔn)確率最高可達(dá)到95.3%,對于皮膚病DF、SK準(zhǔn)確率較低,一定程度上是由于DF、SK數(shù)據(jù)集的數(shù)量較低造成的,但總體所得準(zhǔn)確率較為理想。
在模型訓(xùn)練的過程中,可看出模型訓(xùn)練的參數(shù)量較其他深度學(xué)習(xí)網(wǎng)絡(luò)模型較小,與Resnet-50、Resnet-101對比可看出EfficientNet模型的優(yōu)越性,參數(shù)量對比數(shù)據(jù)如表3所示。
本實驗采用的是EfficientNet-B6模型,較Resnet-50、Resnet-101網(wǎng)絡(luò)模型參數(shù)量已經(jīng)顯著減少,而EfficientNet- B0模型參數(shù)量又會比EfficientNet-B6模型小許多,可見EfficientNet模型在參數(shù)量上的優(yōu)越性。
3? 結(jié)? 論
基于EfficientNet模型,本實驗進(jìn)行了皮膚癌的識別與分類,實現(xiàn)了BCC、SCC、ML、AK、DF、NV、PBK、SK、VL九類皮膚病的識別。方法的主要特點在于對圖像數(shù)據(jù)進(jìn)行了預(yù)處理,搭建了EfficientNet模型并利用Adam優(yōu)化器進(jìn)行學(xué)習(xí)率的調(diào)整。結(jié)果表明,本實驗方法可以使得數(shù)據(jù)集中9種皮膚病癥分類的準(zhǔn)確率和查全率得到提升,并大大減少了深度網(wǎng)絡(luò)模型訓(xùn)練的參數(shù)量。不足之處在于數(shù)據(jù)量不夠充足,且各類皮膚病的數(shù)據(jù)量分布嚴(yán)重不均。今后的工作將會進(jìn)一步改進(jìn)。
參考文獻(xiàn):
[1] 許美鳳,國雷達(dá),宋盼盼,等.多卷積神經(jīng)網(wǎng)絡(luò)模型融合的皮膚病識別方法 [J].西安交通大學(xué)學(xué)報,2019,53(11):125-130.
[2] Centers for Disease Control and Prevention. United States Cancer Statistics:Data Visualizations [DB/OL].[2021-02-24].https://gis.cdc.gov/Cancer/USCS/#/AtAGlance/.
[3] LINARES M A,ZAKARIA A,NIZRAN P. Skin cancer [J].Primary Care:Clinics in Office Practice,2015,42(4):645-659.
[4] KOLM I,HOFBAUER G,BRAUN R P. Early diagnosis of skin cancer [J].Therapeutische Umschau.Revue Therapeutique,2010,67(9):439-446.
[5] AMERI A. A Deep Learning Approach to Skin Cancer Detection in Dermoscopy Images [J].Journal of biomedical physics & engineering,2020,10(6):801-806.
[6] CODELLA N,CAI J J,ABEDINI M,et al. Deep Learning,Sparse Coding,and SVM for Melanoma Recognition in Dermoscopy Images [C]//Proceedings of the 6th International Workshop on Machine Learning in Medical Imaging-Volume 9352.Cham:Springer International Publishing,2015:118-126.
[7] TAN M X,LE Q V. EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks [J/OL].arXiv:1905.11946 [cs.LG].(2019-05-28).https://arxiv.org/abs/1905.11946v1.
[8] 張敏,趙雪青.基于EfficientNets的織物疵點圖像分類方法 [J].紡織高?;A(chǔ)科學(xué)學(xué)報,2020,33(4):64-70.
[9] 龔安,郭文婷.基于卷積神經(jīng)網(wǎng)絡(luò)的皮膚癌識別方法 [J].計算機技術(shù)與發(fā)展,2020,30(10):167-172.
[10] KINGMA D P,BA J. Adam:A Method for Stochastic Optimization [J/OL].arXiv:1412.6980 [cs.LG].https://arxiv.org/abs/1412.6980.
作者簡介:張嘉穎(2001—),女,漢族,山東棗莊人,本科在讀,研究方向:圖像處理、深度學(xué)習(xí)。
收稿日期:2021-04-13