国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于膠囊網(wǎng)絡(luò)的可變維度膠囊的研究

2020-03-16 03:17:39任強(qiáng)何良華
電腦知識(shí)與技術(shù) 2020年2期
關(guān)鍵詞:圖像分類

任強(qiáng) 何良華

摘要:膠囊網(wǎng)絡(luò)是深度學(xué)習(xí)領(lǐng)域中最令人激動(dòng)的創(chuàng)新,它通過將特征堆疊成向量中來表示不同特征之間的相關(guān)關(guān)系,并使用了動(dòng)態(tài)路由算法計(jì)算相鄰膠囊層之間的耦合系數(shù)。但是原始的膠囊網(wǎng)絡(luò)中是存在缺點(diǎn)的,在原始的膠囊網(wǎng)絡(luò)中膠囊維度是固定,而膠囊維度的多少和其包含的信息量是有關(guān)的,固定維度的膠囊并不能很好闡述膠囊的概念和表述模型的良好。針對(duì)膠囊網(wǎng)絡(luò)這一缺點(diǎn),我們提出了可變維度的膠囊網(wǎng)絡(luò)這一想法,進(jìn)行了簡(jiǎn)單的改進(jìn)和初步的實(shí)驗(yàn)后,可變維度的膠囊在簡(jiǎn)單的數(shù)據(jù)集上取得了令人滿意的效果,但也在較復(fù)雜的數(shù)據(jù)集上得到較差的結(jié)果。我們分析了它的原因,并計(jì)劃為了對(duì)可變維度的膠囊網(wǎng)絡(luò)進(jìn)行進(jìn)一步的改進(jìn)。

關(guān)鍵詞:膠囊網(wǎng)絡(luò);可變維度膠囊;圖像分類

中圖分類號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2020)02-0204-02

1 概述

在過去的幾年中,深度學(xué)習(xí)在許多計(jì)算機(jī)視覺任務(wù)中取得了巨大的成就,特別是卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展給該領(lǐng)域帶來了最先進(jìn)的模型和算法。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元是標(biāo)量的,模型無法學(xué)習(xí)神經(jīng)元之間的復(fù)雜的位置等相關(guān)關(guān)系。但是在人的大腦中,神經(jīng)元通常會(huì)協(xié)同工作,而不是單獨(dú)工作。為了克服卷積神經(jīng)網(wǎng)絡(luò)的這一缺點(diǎn),Hitton提出了“膠囊”的概念[1],膠囊是一組神經(jīng)元的組合,它不僅表示特征(實(shí)體)存在的概率,而且也包含特征(實(shí)體)之間的位置關(guān)系。膠囊將經(jīng)過特征提取之后的特征圖中的標(biāo)量(神經(jīng)元)堆疊形成向量(膠囊)。在膠囊網(wǎng)絡(luò)中,模型不僅在訓(xùn)練時(shí)考慮了特征的屬性,而且考慮了特征之間的關(guān)系。

為了使得新提出的膠囊可以在模型中訓(xùn)練,不久后,Hitton提出了動(dòng)態(tài)路由算法[2]使“膠囊網(wǎng)絡(luò)”的想法得以實(shí)現(xiàn)。將神經(jīng)元堆疊成向量(膠囊)后,可通過動(dòng)態(tài)路由算法學(xué)習(xí)低層膠囊與高層膠囊之間的耦合系數(shù)[cij],通過耦合系數(shù)得到他們之間的映射關(guān)系,從而使得膠囊網(wǎng)絡(luò)的模型得以訓(xùn)練。新提出的膠囊網(wǎng)絡(luò)模型在MNIST[3]上實(shí)現(xiàn)了最先進(jìn)的性能,并且在識(shí)別高度重疊的數(shù)字方面比卷積神經(jīng)網(wǎng)絡(luò)有更好的效果。

在原始的膠囊網(wǎng)絡(luò)中,將低層上的所有膠囊與耦合系數(shù)[cij]相乘,得到高層上的膠囊。 新提出的膠囊網(wǎng)絡(luò)模型有一些缺點(diǎn)。 首先,在原始模型中,膠囊被分為32組,每組由8個(gè)不同的卷積核所提取的特征圖組成,因?yàn)橛糜谔崛√卣鞯木矸e核是不同的,所以每組的類型可以被認(rèn)為是不同的。其次,因?yàn)槊拷M膠囊的特征相關(guān)性不同,比如有的分組中不同卷積核的相關(guān)性較大,他們堆疊形成的膠囊就不能很好的體現(xiàn)特征的復(fù)雜性,將膠囊統(tǒng)一分為每組8個(gè)并不能很好地對(duì)模型進(jìn)行訓(xùn)練。最后將膠囊維度進(jìn)行人為分組相當(dāng)于對(duì)模型的搭建添加了人為噪音,不好很好的訓(xùn)練得到參數(shù)的最優(yōu)解。

為了解決以上提出的問題,本文對(duì)可變維度膠囊進(jìn)行了深入研究,提出了基于隨機(jī)數(shù)的膠囊維度劃分方法和基于方差的膠囊選擇方法。并在公開的圖像數(shù)據(jù)集MNIST、Fashion-MNIST[4]、CIFAR10[5]和SVHN[6]上進(jìn)行實(shí)驗(yàn)。

2 相關(guān)工作

膠囊網(wǎng)絡(luò)是Hitton提出的一種新的神經(jīng)網(wǎng)絡(luò)模型,旨在解決卷積神經(jīng)網(wǎng)絡(luò)的一些缺點(diǎn)。2017年,Hitton提出了膠囊網(wǎng)絡(luò)的原始結(jié)構(gòu),該結(jié)構(gòu)使用動(dòng)態(tài)路由算法來訓(xùn)練膠囊層之間的參數(shù),他們希望膠囊的輸出向量的長(zhǎng)度代表實(shí)體存在的概率。為了使膠囊更非線性,使用非線性擠壓功能來確保將較短的膠囊收縮至幾乎為零的長(zhǎng)度,將較長(zhǎng)的膠囊收縮至0~1之間的長(zhǎng)度。膠囊網(wǎng)絡(luò)的模型如圖1所示。

從圖1可以得出,圖像經(jīng)過ReLU Conv1卷積層提取特征后,由28[×]28[×]1變成了20[×]20[×]256,再經(jīng)過PrimaryCaps層提取特征形成6[×]6[×]256的特征圖,接著將256個(gè)特征圖分成32組,每組8個(gè)。這樣,在原始膠囊網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)膠囊的維度是8維。

膠囊的是一組神經(jīng)元的集合,所以膠囊的長(zhǎng)度可以看作膠囊中所含信息的多少。通過人為的設(shè)定參數(shù),將膠囊網(wǎng)絡(luò)中膠囊的維度設(shè)定為8維,針對(duì)不同的膠囊所包含的信息不同,統(tǒng)一設(shè)定為8維的膠囊并不能很好的表述模型。

3 可變維度膠囊

在原始膠囊網(wǎng)絡(luò)論文中,膠囊的維度是固定的(8維),膠囊維度的多少代表膠囊中所含信息的多少。不同的卷積核提取的特征圖,經(jīng)過堆疊形成膠囊后所代表的信息是不同的,用固定的膠囊維度代表不確定的信息量是不合適的,所以我們提出了可變維度的膠囊。

3.1 利用隨機(jī)數(shù)生成膠囊維度

在原始膠囊網(wǎng)絡(luò)中,256個(gè)特征圖被分為了32組,每組8個(gè)膠囊。我們?nèi)匀槐A裟z囊網(wǎng)絡(luò)特征提取和之后動(dòng)態(tài)路由的結(jié)構(gòu)不變。使用256個(gè)特征圖對(duì)膠囊進(jìn)行分組,不同的是,我們使用隨機(jī)數(shù)生成器,生成一系列隨機(jī)數(shù)[r1,r2,... ,rn]([r1+r2+... +rn=256]),[r1,r2,... ,rn]代表膠囊的不同維度分組,隨機(jī)數(shù)的生成如公式(1)所示。

公式(1)中的[random]()是一個(gè)隨機(jī)中生成器,產(chǎn)生1~16的隨機(jī)數(shù)整數(shù),且這些隨機(jī)數(shù)的和為256.

然后根據(jù)生成的隨機(jī)數(shù)[r1,r2,... ,rn]對(duì)膠囊對(duì)維度進(jìn)行劃分,劃分后對(duì)膠囊分為[n]組,每組分別為[r1,r2,... ,rn]個(gè),然后根據(jù)動(dòng)態(tài)路由算法求得耦合系數(shù)[cij],進(jìn)而根據(jù)低層膠囊和耦合系數(shù)[cij]得到高層膠囊。

3.2 選擇信息量最大的膠囊分組

通過3.1所述的方法,我們得到了由隨機(jī)數(shù)生成的膠囊維度的低層膠囊。隨機(jī)數(shù)的引入給膠囊的生成加入了一定的隨機(jī)性,可能產(chǎn)生更好的分組,也可能產(chǎn)生更差的分組,因此我們使用了三組隨機(jī)維度的膠囊。在一定的分布下,向量的方差越大,所包含的信息量就越大。因?yàn)榻?jīng)過特征提取后,特征圖的分布是相同的。在訓(xùn)練過程中,我們根據(jù)膠囊的方差選擇信息量更大的分組。

計(jì)算不同分組膠囊的方差總和,在每次訓(xùn)練的過程中,選擇方差最大的那個(gè)膠囊分組,它包含的信息量最大。在進(jìn)行訓(xùn)練時(shí),信息量越大,對(duì)分類結(jié)果的預(yù)測(cè)的時(shí)候產(chǎn)生的貢獻(xiàn)就越大,模型可以得到更好的性能。

4 實(shí)驗(yàn)

為了測(cè)試我們提出的可變維度膠囊對(duì)模型性能的影響,我們?cè)?個(gè)公開數(shù)據(jù)集MNIST、Fashion-MNIST、CIFAR10和SVHN上對(duì)模型的分類結(jié)果進(jìn)行了測(cè)試。對(duì)于數(shù)據(jù)集MNIST和Fashion-MNIST,我們使用和原始膠囊網(wǎng)絡(luò)一樣的數(shù)據(jù)預(yù)處理。對(duì)于數(shù)據(jù)集CIFAR-10,和SVHN,我們將圖像的大小調(diào)整為32[×]32[×]3,并在每個(gè)方向上最多填充2個(gè)像素,且填充為零,并且不使用其他數(shù)據(jù)增強(qiáng)/變形。除了膠囊維度的改變,我們使用和原始膠囊網(wǎng)絡(luò)一樣的網(wǎng)絡(luò)結(jié)構(gòu)。

我們使用pytorch[7]深度學(xué)習(xí)庫進(jìn)行實(shí)驗(yàn)開發(fā)。對(duì)于訓(xùn)練過程,我們使用了Adam[8]優(yōu)化器,其初始學(xué)習(xí)率為0.001,在每個(gè)時(shí)期之后降低了5%。我們將batchsize設(shè)置為128,每次訓(xùn)練128張圖像。 該模型在GTX-1080Ti上進(jìn)行了訓(xùn)練,每次實(shí)驗(yàn)訓(xùn)練了150輪。所有實(shí)驗(yàn)進(jìn)行了三次,并對(duì)結(jié)果取平均值。

從表1可以看出,可變維度的膠囊在數(shù)據(jù)集MNIST和Fashion-MNIST上取得了和原始固定膠囊維度相似甚至高一些的結(jié)果。但是在數(shù)據(jù)集CIFAR10和SVHN上卻取得了令人惋惜的結(jié)果。數(shù)據(jù)集MNIST和Fashion-MNIST是比較簡(jiǎn)單的圖像數(shù)據(jù)集,它的分辨率是28[×]28[×]1的灰度圖像,但是數(shù)據(jù)集CIFAR10和SVHN是32[×32×]3的彩色圖像,相較于MNIST類的數(shù)據(jù)集,特征更加復(fù)雜,參數(shù)也需要更多??勺兙S度膠囊雖然膠囊的維度是隨機(jī)的,但是也是在一定范圍內(nèi)隨機(jī),可能在這個(gè)范圍內(nèi)的膠囊維度對(duì)于復(fù)雜的數(shù)據(jù)集都不是很合適,所以采用了可變維度膠囊的模型,反而取得了較差的效果。

5 總結(jié)

在原始的膠囊網(wǎng)絡(luò)中膠囊維度是固定,而膠囊維度的多少和其包含的信息量是有關(guān)的,固定維度的膠囊并不能很好闡述膠囊的概念和表述模型的良好。針對(duì)膠囊網(wǎng)絡(luò)這一缺點(diǎn),我們提出了可變維度的膠囊網(wǎng)絡(luò)這一想法,進(jìn)行了簡(jiǎn)單的改進(jìn)和初步的實(shí)驗(yàn)后,可變維度的膠囊在簡(jiǎn)單的數(shù)據(jù)集上取得了令人滿意的效果,但也在較復(fù)雜的數(shù)據(jù)集上得到較差的結(jié)果。我們分析了它的原因,并計(jì)劃為了對(duì)可變維度的膠囊網(wǎng)絡(luò)進(jìn)行進(jìn)一步的改進(jìn)。

參考文獻(xiàn):

[1] Hinton G E,Krizhevsky A,Wang S D.Transforming auto-encoders[M]//Lecture Notes in Computer Science. Berlin, Heidelberg: Springer Berlin Heidelberg, 2011: 44-51.

[2] SABOUR S, FROSST N, HINTON G E. Dynamic Routing Between Capsules. Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 4-9 December 2017, Long Beach, CA, USA.

[3] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE, 1998,86(11):2278-2324.

[4] . XIAO H, RASUL K, VOLLGRAF R. Fashion-MNIST: a Novel Image Dataset for Benchmarking Machine Learning Algorithms. CoRR, 2017, abs/1708.07747.

[5] KRIZHEVSKY A, HINTON G, OTHERS. Learning multiple layers of features from tiny images. Citeseer, 2009.

[6] NETZER Y, WANG T, COATES A, et al Reading Digits in Natural Images with Unsupervised Feature Learning. Neural Information Processing Systems Workshop.

[7] PASZKE A, GROSS S, MASSA F, et al PyTorch: An Imperative Style, High-Performance Deep Learning Library. Advances in Neural Information Processing Systems 32Curran Associates, Inc., 2019: 8024-8035.

[8] KINGMA D P, BA J. Adam: A Method for Stochastic Optimization. 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, Conference Track Proceedings,2015.

【通聯(lián)編輯:梁書】

猜你喜歡
圖像分類
基于可變形卷積神經(jīng)網(wǎng)絡(luò)的圖像分類研究
基于SVM的粉末冶金零件的多類分類器的研究
高光譜圖像分類方法的研究
深度信念網(wǎng)絡(luò)應(yīng)用于圖像分類的可行性研究
基于p.d.f特征的分層稀疏表示在圖像分類中的應(yīng)用
基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分類技術(shù)研究與實(shí)現(xiàn)
基于數(shù)據(jù)挖掘的圖像分類算法
基于云計(jì)算的圖像分類算法
基于錨點(diǎn)建圖的半監(jiān)督分類在遙感圖像中的應(yīng)用
一種基于引導(dǎo)濾波和MNF的高光譜遙感圖像分類方法
称多县| 东兰县| 晋州市| 砚山县| 浙江省| 东兴市| 青神县| 横峰县| 乌审旗| 资源县| 玛纳斯县| 天长市| 黎川县| 阳朔县| 西乡县| 呼图壁县| 静海县| 扎赉特旗| 大安市| 陈巴尔虎旗| 吴堡县| 阳山县| 丰都县| 连云港市| 五家渠市| 龙州县| 阳曲县| 岳普湖县| 揭西县| 巍山| 安福县| 东光县| 界首市| 灵宝市| 奉节县| 小金县| 陇川县| 车致| 新乐市| 定边县| 新密市|