羅光華
摘 要:對(duì)Softmax回歸分類模型,使用基于變形q階對(duì)數(shù)的NLq損失代替常用的交叉熵?fù)p失。通過實(shí)驗(yàn)證明,在使用較小的訓(xùn)練集時(shí),以NLq為損失的Softmax分類模型具有更高的正確率和更好的泛化能力。
關(guān)鍵詞:NLq損失;交叉熵;Softmax分類;加權(quán)
中圖分類號(hào): TP181 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)34-0228-02
Abstract:The NLq loss based on modified q-order logarithm is proposed . It is used to replace the CrossEntropy loss in softmax regression classification model. The experimental results show that the softmax classification model with NLq loss has higher accuracy and better generalization ability in smaller training sets.
Key words: NLq loss; CrossEntropy; Softmax classification;weighted
1 引言
在有監(jiān)督學(xué)習(xí)中,損失函數(shù)用來衡量預(yù)測(cè)值與真實(shí)值之間的差異,通過使損失代價(jià)函數(shù)最小化,到達(dá)優(yōu)化預(yù)測(cè)模型的目的。不同的損失函數(shù)會(huì)影響預(yù)測(cè)模型的參數(shù)值進(jìn)而影響預(yù)測(cè)正確率。交叉熵(CrossEntropy)損失是多分類任務(wù)中Softmax回歸分類的損失函數(shù),也是分類模型下的負(fù)對(duì)數(shù)似然損失,該損失基于最大似然估計(jì)法,主要在訓(xùn)練數(shù)據(jù)較大情形下表現(xiàn)良好,但在小數(shù)據(jù)集下則未必[1,2]。目前,使用變形q階對(duì)數(shù)進(jìn)行模型參數(shù)估計(jì)已經(jīng)被證明具有一定的穩(wěn)健性[3,4],因此可在此基礎(chǔ)上對(duì)交叉熵?fù)p失進(jìn)行擴(kuò)展,建立負(fù)q階似然損失函數(shù)(NLq)用于Softmax分類,并與使用傳統(tǒng)交叉熵?fù)p失的Softmax分類模型進(jìn)行比較分析。
2 使用交叉熵?fù)p失Softmax分類
4 實(shí)驗(yàn)與結(jié)果
實(shí)驗(yàn)選用了sklearn自帶的digits手寫字體數(shù)據(jù)集(MNIST簡化版本)進(jìn)行驗(yàn)證,該數(shù)據(jù)集僅包含1797個(gè)樣本,每個(gè)樣本為[8×8]像素的圖像以及一個(gè)0~9整數(shù)的標(biāo)簽,在實(shí)驗(yàn)中80%數(shù)據(jù)作為訓(xùn)練集,20%數(shù)據(jù)作為測(cè)試集。NLq與交叉熵?fù)p失模型的學(xué)習(xí)率均設(shè)為 0.01,其中NLq的超參數(shù)q設(shè)為0.75。訓(xùn)練集分別以10%、20%,......,100%進(jìn)行隨機(jī)抽樣,歸一化處理后進(jìn)行訓(xùn)練,在測(cè)試集上分別對(duì)比基于NLq與交叉熵的Softmax回歸分類在平均準(zhǔn)確率和標(biāo)準(zhǔn)差的差異,如圖2所示。
由圖2可以看出隨著訓(xùn)練樣本數(shù)所占比率變化,測(cè)試集上基于NLq的Softmax回歸分類的平均正確率幾乎都高于基于交叉熵的平均正確率,在多數(shù)時(shí)候也表現(xiàn)出較好的穩(wěn)健性,說明使用NLq損失代價(jià)函數(shù)確實(shí)能夠提高了Softmax回歸模型的預(yù)測(cè)泛化能力。
5 結(jié)論
研究在少樣本多分類任務(wù)中將Softmax分類模型的損失函數(shù)改進(jìn)為NLq損失函數(shù),并與交叉熵?fù)p失下的Softmax模型比較,實(shí)驗(yàn)證明改進(jìn)模型在正確率和泛化能力均有所提高。
參考文獻(xiàn):
[1] 王濟(jì)川,郭志剛.Logistic回歸模型 方法與應(yīng)用[M].北京:高等教育出版社,2001.
[2] 何秀麗,劉次華.Logistic回歸中的加權(quán)最小二乘估計(jì)[J].應(yīng)用數(shù)學(xué),2004,17(S1):144-147.
[3] Ferrari D,Yang Y H.Maximum L q -likelihood estimation[J].The Annals of Statistics,2010,38(2):753-783.
[4] Qin Y C,Priebe C E.Maximum lq-likelihood estimation via the expectation-maximization algorithm:a robust estimation of mixture models[J].Journal of the American Statistical Association,2013,108(503):914-928.
[5] 萬磊,佟鑫,盛明偉,等.Softmax分類器深度學(xué)習(xí)圖像分類方法應(yīng)用綜述[J].導(dǎo)航與控制,2019,18(6):1-9,47.
[6] 李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[7] Peter Harrington.機(jī)器學(xué)習(xí)實(shí)戰(zhàn)[M].李銳,譯.北京:人民郵電出版社,2013.
【通聯(lián)編輯:唐一東】