国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合CNN和Transformer的建筑風(fēng)格分類算法

2024-10-31 00:00劉東張榮福秦俊祥龔俊哲曹志彬
光學(xué)儀器 2024年5期

文章編號(hào):1005-5630(2024)05-0001-08 DOI:10.3969/j.issn.1005-5630.202308160108

摘要:建筑風(fēng)格的準(zhǔn)確分類對研究建筑文化和人類歷史文明具有重要意義。基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的模型由于其強(qiáng)大的特征提取能力,在建筑風(fēng)格分類領(lǐng)域取得了良好的效果。但是,目前大多數(shù)的CNN模型只提取了建筑的局部特征,而基于Transformer的模型在注意力機(jī)制的作用下,可以提取建筑的全局特征。為了提高建筑風(fēng)格分類的準(zhǔn)確性,提出了一種融合CNN和Transformer的建筑風(fēng)格分類方法,該網(wǎng)絡(luò)的核心部分為CT-Block結(jié)構(gòu)。該結(jié)構(gòu)在通道維度上分為CNN和Transformer兩個(gè)分支,特征分別通過這兩個(gè)通道之后再拼接起來。該結(jié)構(gòu)不僅能融合CNN提取的局部特征和Transformer提取的全局特征,而且還能減輕雙分支結(jié)構(gòu)帶來的模型變大,參數(shù)量增多的問題。在Architectural Style Dataset和WikiChurches數(shù)據(jù)集上,該算法的準(zhǔn)確率分別為79.83%和68.41%,優(yōu)于建筑風(fēng)格分類領(lǐng)域其他模型。

關(guān)鍵詞:建筑風(fēng)格分類;卷積神經(jīng)網(wǎng)絡(luò);Transformer模型;網(wǎng)絡(luò)融合;注意力機(jī)制中圖分類號(hào):TP 183文獻(xiàn)標(biāo)志碼:A

Architectural style classification algorithm fusing CNN and Transformer

LIU Dong,ZHANG Rongfu,QIN Junxiang,GONG Junzhe,CAO Zhibin

(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract:The accurate classification of architectural style is of great significance to the study of architectural culture and human history and civilization.Models based on convolutional neural network(CNN)has achieved good performance in the field of architectural style classification due to its powerful feature extraction ability.However,most current CNN models only extract the local features of architecture buildings.With the attention mechanism,a model based on Transformer can extract the globle features of architecture buildings.In order to improve the accuracy of architectural style classification,an architectural style classification method fusing CNN and Transformer is proposed.The core of the network is CT-Block structure.In terms of channel dimension,the structure is divided into two branches,CNN and Transformer,and the features pass through the two channels respectively and then concatenate together.This structure then concatenate together.This structure can not only fuse the local features extracted by CNN and the global features extracted by Transformer,but also alleviate the problem of model size and parameter number increase caused by the two-branch structure.The experimental results of Architectural Style Dataset and WikiChurches dataset were 79.83%and 68.41%respectively,which was better than other models in the field of architectural style classification.

Keywords:architectural style classification;convolutional neural network;Transformer model;network fusion;attention mechanism

引言

建筑風(fēng)格是建筑本身自帶的屬性,它通常代表著在某段時(shí)期的歷史文化,反映著當(dāng)時(shí)的時(shí)代背景和人文藝術(shù)。建筑作為人類創(chuàng)造的藝術(shù),包含一定的人文因素,宗教建筑更能體現(xiàn)這個(gè)特點(diǎn)。佛教建筑包括佛寺、佛塔和石窟,一般都是由主房、配房等組成的嚴(yán)格對稱的多院落結(jié)構(gòu)?;浇痰慕ㄖ饕辛_馬式、拜占庭式和哥特式3種風(fēng)格。而伊斯蘭教的建筑恢宏精致,具有比較明顯的特征,包括:圓形的穹頂、墻壁上的紋樣等。所以對建筑風(fēng)格進(jìn)行分類,有助于幫助人們了解當(dāng)?shù)氐娜宋谋尘啊=ㄖL(fēng)格也反映著時(shí)代背景。世界七大奇跡之一的埃及金字塔,不僅要耗費(fèi)大量的人力、物力,還要花費(fèi)非常久的時(shí)間設(shè)計(jì)建造,但卻作為了古埃及最高統(tǒng)治者法老的墳?zāi)?,這就反映了當(dāng)時(shí)統(tǒng)治階級(jí)對奴隸階級(jí)的剝削。因此,對建筑風(fēng)格進(jìn)行準(zhǔn)確的分類,不僅有助于人們了解建筑文明,也能更好地反映當(dāng)時(shí)的歷史文化信息。

近年來,建筑風(fēng)格分類的研究多借助機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)。在早期,學(xué)者們主要利用機(jī)器學(xué)習(xí)技術(shù)來實(shí)現(xiàn)分類任務(wù)。Zhang等[1]將基本的建筑構(gòu)件以塊的形式表示,通過對塊采用分層稀疏編碼進(jìn)行建模來表示空間關(guān)系。然而,一些外觀看起來完全不同的塊可能具有相近的特征空間,這導(dǎo)致了擁有豐富細(xì)節(jié)構(gòu)件的建筑分類不準(zhǔn)確的問題。Xu等[2]提出了一種基于可變形的組件模型(deformable part-based model,DPM),對全局和局部特征進(jìn)行建模,將建筑構(gòu)件草圖化,從而捕捉到了更多的細(xì)節(jié)特征,實(shí)現(xiàn)了更精細(xì)的分類。趙佩佩等[3]在DPM算法的基礎(chǔ)上,采用基于集成投影的二次分類算法并結(jié)合支持向量機(jī)(support vector machine,SVM),對建筑風(fēng)格進(jìn)行分類,降低了非建筑元素對分類結(jié)果的影響。

隨著深度學(xué)習(xí)的發(fā)展,建筑風(fēng)格分類領(lǐng)域廣泛采用了卷積神經(jīng)網(wǎng)絡(luò)。郭昆等[4]使用卷積神經(jīng)對建筑圖像進(jìn)行風(fēng)格分類,并確定了卷積神經(jīng)網(wǎng)絡(luò)的最佳層數(shù),但是分類效果較為粗糙。Wang等[5]設(shè)計(jì)了一個(gè)雙分支的網(wǎng)絡(luò)結(jié)構(gòu),不僅可以判斷輸入的圖片是否為哥特式建筑,還可以得出哥特式建筑來自哪個(gè)國家。但是該方法只能區(qū)分是不是哥特式這一種建筑風(fēng)格。Yi等[6]通過重新定義不同房屋風(fēng)格的特征元素,然后使用深度學(xué)習(xí)方法進(jìn)行分類,區(qū)分出了8種難以區(qū)分的房屋風(fēng)格,滿足了更細(xì)致的分類要求。

由于注意力機(jī)制在自然語言處理任務(wù)中表現(xiàn)突出,計(jì)算機(jī)視覺任務(wù)中也引入了注意力機(jī)制。這類工作主要分為兩類。一類是網(wǎng)絡(luò)只有注意力模塊組成。例如,Zhao等[7]提出了含有兩種注意力機(jī)制的SAN網(wǎng)絡(luò),Ramachandran等[8]將ResNet的空間卷積全部替換成自注意力機(jī)制等。這類模型雖然獲取了局部和全局的聯(lián)系,具有低復(fù)雜度的優(yōu)點(diǎn),但是通常需要龐大的數(shù)據(jù)量和強(qiáng)大的計(jì)算力作為支撐。另一類是同時(shí)使用注意力模塊和卷積神經(jīng)網(wǎng)絡(luò)。Wang等[9]將空間注意力機(jī)制與通道注意力機(jī)制結(jié)合并加入到卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)骨干網(wǎng)絡(luò)中,以提高網(wǎng)絡(luò)對建筑圖像紋理特征的提取能力,使網(wǎng)絡(luò)擁有關(guān)注不同建筑特征的空間位置信息的能力,從而提高分類準(zhǔn)確率。

近年來,CNN和Transformer[10]結(jié)合的方法也成為了計(jì)算機(jī)視覺領(lǐng)域關(guān)注的重點(diǎn)問題。Peng等[11]提出了Conformer,通過設(shè)計(jì)特征耦合單元(feature coupling unit,F(xiàn)CU),將CNN和Transformer并行連接起來,使得模型能夠融合不同分辨率下的全局特征和局部特征。雖然Conformer在許多任務(wù)上有不錯(cuò)的表現(xiàn),但是存在模型大,參數(shù)量多等缺點(diǎn)。Chen等[12]提出了Mobile-Former,在MobileNet[13]和Trasnformer兩個(gè)并行結(jié)構(gòu)之間設(shè)計(jì)了一個(gè)雙向連接橋,實(shí)現(xiàn)局部特征和全局特征雙向融合,從而融合了CNN和Transformer。該方法繼承了輕量級(jí)網(wǎng)絡(luò)MobileNet的優(yōu)點(diǎn),節(jié)省了一定的計(jì)算量,但是仍然屬于雙網(wǎng)絡(luò)分支結(jié)構(gòu),依然存在模型大,參數(shù)量多的缺點(diǎn)。

對建筑風(fēng)格分類是一項(xiàng)復(fù)雜且困難的工作。一方面,建筑風(fēng)格的形成是一個(gè)漸進(jìn)的過程,當(dāng)某個(gè)風(fēng)格傳播到其他地方時(shí),都會(huì)融合當(dāng)?shù)靥厣?。另一方面,由于設(shè)計(jì)師設(shè)計(jì)建筑時(shí)并不是與世隔絕的,他們或多或少會(huì)受到已經(jīng)存在的風(fēng)格特點(diǎn)的影響,所以建筑風(fēng)格之間存在相似之處是很常見的。例如,愛德華式建筑(圖1)包含巴克洛式穹頂和希臘復(fù)興式門窗立柱。因此,在不同建筑圖像中找出屬于相同風(fēng)格的建筑特征,以及突出單個(gè)建筑的風(fēng)格特征都是很有挑戰(zhàn)性的工作。

針對以上問題,本文提出一種融合CNN和Transformer的網(wǎng)絡(luò),使其具有CNN良好的提取局部特征的能力和Transformer聯(lián)系全局特征的能力。它能夠應(yīng)對不同場景下建筑風(fēng)格分類的任務(wù),并且同時(shí)緩解了由兩個(gè)網(wǎng)絡(luò)分支帶來的網(wǎng)絡(luò)模型大、參數(shù)量多的問題。

本文的主要?jiǎng)?chuàng)新點(diǎn)包括3個(gè)方面:(1)通過研究一種CNN和Transformer的融合方式,使得融合后的網(wǎng)絡(luò)兼具良好的提取特征的能力和聚焦重要區(qū)域的能力;(2)設(shè)計(jì)了融合模塊CT-Block,該模塊能使CNN提取的特征平緩地過渡到Transformer結(jié)構(gòu)中去,增加分類準(zhǔn)確率;(3)將三元組損失運(yùn)用到建筑風(fēng)格分類上,讓網(wǎng)絡(luò)能夠區(qū)分不同建筑風(fēng)格之間微小的差別,增強(qiáng)其分辨能力。

1建筑風(fēng)格分類網(wǎng)絡(luò)設(shè)計(jì)

自從深度學(xué)習(xí)網(wǎng)絡(luò)相比傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)在圖像分類任務(wù)比賽中以巨大的優(yōu)勢獲勝之后,大量深度學(xué)習(xí)技術(shù)被開發(fā)利用。以CNN為骨干的網(wǎng)絡(luò)在分類任務(wù)上都有著突出的表現(xiàn)。但是隨著研究的不斷深入,Transformer從自然語言處理領(lǐng)域被引入到計(jì)算機(jī)視覺領(lǐng)域。作為一種新的模型結(jié)構(gòu),Transformer在一些分類任務(wù)中的表現(xiàn)比以CNN為骨干的網(wǎng)絡(luò)要好。許多研究[14-16]也表明,以CNN為骨干的網(wǎng)絡(luò)在數(shù)據(jù)集規(guī)模不大,數(shù)據(jù)集不復(fù)雜的時(shí)候分類表現(xiàn)較好,而以Transformer為骨干的網(wǎng)絡(luò)在數(shù)據(jù)量很大且數(shù)據(jù)復(fù)雜的情況下分類表現(xiàn)更好。這是因?yàn)镃NN是用多層卷積提取特征,卷積有強(qiáng)大的局部特征提取能力;而Transformer的核心組件則是注意力機(jī)制,注意力機(jī)制不僅能提取全局特征而且能聚焦重點(diǎn),能夠使網(wǎng)絡(luò)對分類結(jié)果中貢獻(xiàn)較大的特征分配更大的權(quán)重。因此,本文研究如何融合兩種網(wǎng)絡(luò)框架,使新的網(wǎng)絡(luò)同時(shí)具備以上兩種優(yōu)點(diǎn),即在小規(guī)模數(shù)據(jù)集下表現(xiàn)出良好的特征提取能力和重要區(qū)域特征得到關(guān)注。

1.1網(wǎng)絡(luò)總體結(jié)構(gòu)

本文所提出的FCT-Net的總體框架如圖2所示。輸入的建筑風(fēng)格圖片先通過分塊(Stem Cell)操作,實(shí)現(xiàn)降采樣。通常Transformer在這一步會(huì)使用Patch Embedding,等效于和卷積核大小相同步幅的卷積,但是這種操作會(huì)丟失位置信息。所以本文使用了Stem Cell,即大小為7根7的卷積核加上重疊卷積,同時(shí)加入了位置編碼(positional encoding)。模型的主體部分為CT-Block,由CNN和Transformer共同組成。本文選用分類領(lǐng)域最常用的ResNet-50[17]作為CNN部分的骨干網(wǎng)絡(luò),多頭自注意力機(jī)制(multi-headself-attention,MHSA)作為Transformer的核心部分也被運(yùn)用在CT-Block中。考慮到Stem Cell為重疊卷積,降采樣能力不足,在4個(gè)CT-Block前分別加入了卷積核大小為2 2的Patch Embedding層。CT-Block中的CNN和Transformer共同處理圖片特征。最后,將得到的特征送入由全連接層組成的分類頭,得到分類結(jié)果。

1.2注意力機(jī)制

注意力機(jī)制是一種模擬人類注意力行為的方法。在CNN中,特征是以固定權(quán)重進(jìn)行傳遞和處理的,但是在現(xiàn)實(shí)中,人們處理信息時(shí)往往會(huì)根據(jù)不同情形賦予不同的注意力,這就是注意力機(jī)制的靈感來源。在神經(jīng)網(wǎng)絡(luò)中,注意力機(jī)制使模型動(dòng)態(tài)地針對不同特征分配不同權(quán)重。注意力機(jī)制模塊為Transformer網(wǎng)絡(luò)的核心組件,也是本文網(wǎng)絡(luò)結(jié)構(gòu)的重要組成部分。使用注意力機(jī)制不僅可以提取建筑的全局特征,而且還能讓模型對建筑結(jié)構(gòu)中貢獻(xiàn)較大部分賦予更大的權(quán)重。注意力機(jī)制分為加性注意力機(jī)制和乘性注意力機(jī)制,本文使用后者,其具體表達(dá)式為

式中:Q,K,V分別代表query,key,value;F是輸入注意力機(jī)制前的特征;A是注意力分?jǐn)?shù);d是向量Q,K,V的維度;“是注意力機(jī)制的結(jié)果。若Q、K、V三者相等,此時(shí)就是自注意力(self-attention,SA),本文就使用的是自注意力機(jī)制。式(1)將特征向量映射為query,key,value的線性變換,體現(xiàn)了特征由CNN結(jié)構(gòu)變換到Transformer結(jié)構(gòu)的過程。

1.3 CT-Block模塊

CT-Block為本文模型的主體部分,結(jié)合了CNN和Transformer兩者的優(yōu)點(diǎn)。Conformer和Mobile-Former都是雙分支的融合網(wǎng)絡(luò),CNN部分的特征和Transformer部分的特征經(jīng)過特定的模塊進(jìn)行交互。但是,通常這種網(wǎng)絡(luò)結(jié)構(gòu)模型大、參數(shù)多,對于小數(shù)據(jù)集來說并不友好,會(huì)導(dǎo)致訓(xùn)練時(shí)間變長,而且還有可能出現(xiàn)過擬合。CT-Block則很好地解決了這個(gè)問題。圖3為CT-Block的結(jié)構(gòu)圖,輸入的特征經(jīng)過卷積之后,在通道維度被分為兩組。兩組特征分別經(jīng)過卷積操作和注意力機(jī)制之后在通道維度進(jìn)行拼接。這種在通道維度對特征進(jìn)行處理的方法不僅實(shí)現(xiàn)了兩個(gè)網(wǎng)絡(luò)的融合,而且還節(jié)省了網(wǎng)絡(luò)參數(shù),提前將少部分特征送入到MHSA中,使得特征由CNN結(jié)構(gòu)更加平滑地過渡到Transformer結(jié)構(gòu)中。

M為MHSA的通道數(shù),為模型超參數(shù)。為突出本文模型與純CNN或者純Transformer的不同,將圖3中第一個(gè)Block中的M設(shè)置為0,即第一個(gè)Block為純CNN。并且將最后一個(gè)Block中的M設(shè)置為4N,N為通道數(shù),即最后一個(gè)Block為純Transformer。第2個(gè)和第3個(gè)Block中的M在面對不同數(shù)據(jù)集、不同訓(xùn)練方法時(shí)會(huì)不同。

1.4損失函數(shù)

針對部分不同建筑風(fēng)格之間差距過小導(dǎo)致分類準(zhǔn)確率較低的問題,本文采用了三元組損失函數(shù)[18]。三元組損失函數(shù)相比一般的損失函數(shù)可以通過增大類類之間的距離來增加網(wǎng)絡(luò)的判別能力。對建筑風(fēng)格特征f使用三元組損失函數(shù),即

式中,Dap=distance(fa;fp)表示建筑圖像a與對應(yīng)的正樣本p的特征fa與fp之間的歐式距離;Dan=distance(fa;fn)表示建筑圖像a與對應(yīng)的負(fù)樣本n的特征fa與fn之間的歐式距離;β表示正樣本與負(fù)樣本之間的最小距離。

同時(shí),為了輔助網(wǎng)絡(luò)訓(xùn)練,本文也使用了交叉熵?fù)p失函數(shù),即

Losse=yilog+(1-)log(1-)

式中:m表示建筑圖像總數(shù);yi表示建筑風(fēng)格圖像的預(yù)(圖像的真)測(實(shí))標(biāo)(標(biāo))簽。(簽);表示網(wǎng)絡(luò)輸出的建筑風(fēng)格

最終,損失函數(shù)由上述兩部分組成

Loss=λLosst+(1-λ)Losse(6)

式中,λ為系數(shù),本文設(shè)定為0.3。

2實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

2.1實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)使用的GPU為NVIDIA RTX 3 090,顯存24 GB,操作系統(tǒng)為Ubuntu 20.04,python版本為3.8,pytorch版本為1.11.0。

2.2數(shù)據(jù)集和數(shù)據(jù)預(yù)處理

本實(shí)驗(yàn)采用2個(gè)數(shù)據(jù)集來驗(yàn)證FCT-Net的有效性。數(shù)據(jù)集A為公開數(shù)據(jù)集Architectural Style Dataset。該數(shù)據(jù)集是Xu等[2]于2014年從維基百科上收集到的關(guān)于建筑風(fēng)格的圖像,有25個(gè)建筑風(fēng)格分類,共包含4 794張圖像。這也是建筑分格分類領(lǐng)域使用最多的數(shù)據(jù)集。數(shù)據(jù)集B為WikiChurches,是Barz等[19]于2021年制作的教堂建筑風(fēng)格的數(shù)據(jù)集,由9 485張教堂建筑圖像組成。圖片和樣式標(biāo)簽都來自維基百科。由于圖像尺寸大小不一,所以在實(shí)驗(yàn)前將圖像大小統(tǒng)一調(diào)整為224根224。同時(shí),為了避免訓(xùn)練時(shí)過擬合,除了使用常用的隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)數(shù)據(jù)增強(qiáng)方式,還使用了mixup[20]增強(qiáng)方式。訓(xùn)練集大小設(shè)置為數(shù)據(jù)集總數(shù)的80%,剩下的20%為測試數(shù)據(jù)。一共訓(xùn)練200個(gè)epoch,batch size設(shè)置為64。

2.3實(shí)驗(yàn)結(jié)果和分析

在Architectural Style Dataset上,設(shè)計(jì)兩種實(shí)驗(yàn):一種是使用數(shù)據(jù)集的全部數(shù)據(jù);另一種在該數(shù)據(jù)集中隨機(jī)選出40%的類別作為實(shí)驗(yàn)的數(shù)據(jù)集。同時(shí),由于建筑分類領(lǐng)域可參考的模型較少,為了確保對比實(shí)驗(yàn)的充分性,對比的模型也都來自不同的領(lǐng)域。在傳統(tǒng)CNN中,選擇ResNet-50和Inception-v3[21]作為參考對象;在Transformer模型中,選擇Vision Transformer(ViT)和Swin-Transformer[22]作為參考對象;在CNN和Transformer結(jié)合的模型中選擇Visformer[23]作為參考對象。同時(shí)也對比了建筑風(fēng)格分類相關(guān)領(lǐng)域的模型。

由表1可知,本文模型FCT-Net在整個(gè)Architectural Style Dataset數(shù)據(jù)集和含有40%類別的數(shù)據(jù)集上的準(zhǔn)確率分別是79.83%和83.09%。在含有40%類別的數(shù)據(jù)集上,F(xiàn)CT-Net比DCNN[6],MonuNet[24],ResNet-50,Inception-v3,ViT,Swin-Transformer,Visformer分別高出10.67%,11.89%,2.90%,15.94%,13.08%,7.73%和6.76%。

在含有100%類別的數(shù)據(jù)集上,F(xiàn)CT-Net比DCNN,MonuNet,ResNet-50,Inception-v3,ViT,Swin-Transformer,Visformer分別高出13.23%、17.90%、12.42%、19.77%、22.69%、14.55%、9.34%。而在小規(guī)模數(shù)據(jù)集上,卷積操

作提取特征的能力更強(qiáng),因此,ResNet-50在含有40%類別的數(shù)據(jù)集上的結(jié)果優(yōu)于除本文模型外的其他模型。

WikiChurches數(shù)據(jù)集為長尾分布,為避免不同建筑風(fēng)格類別的圖像數(shù)量差距過大出現(xiàn)極端情況,去掉了2個(gè)圖像數(shù)量最多和數(shù)量最少的種類。由于該數(shù)據(jù)集較新,所以選取常見的模型作為對比模型。由表2可知,F(xiàn)CT-Net在WikiChurches數(shù)據(jù)集上的表現(xiàn)優(yōu)于同類其他模型,驗(yàn)證了FCT-Net的泛化性能。

圖4為FCT-Net在實(shí)驗(yàn)數(shù)據(jù)集Architectural Style Dataset上部分結(jié)果的混淆矩陣,本文提出的模型在個(gè)別類上的分類準(zhǔn)確率高達(dá)100%,證明了本文模型在該實(shí)驗(yàn)數(shù)據(jù)集上的有效性。但是在一些類別上,F(xiàn)CT-Net的分類結(jié)果卻低于平均分類準(zhǔn)確率。經(jīng)過仔細(xì)對比發(fā)現(xiàn),分類準(zhǔn)確率較低的類別中的部分圖片與其它某些類別中的一些圖片,在視覺觀感上十分相似,從而難以區(qū)分,而模型缺少對圖像的細(xì)粒度分類能力,導(dǎo)致分類準(zhǔn)確率不高。

2.4消融實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證融合CNN和Transformer的方法的有效性,在2個(gè)數(shù)據(jù)集上做了對比實(shí)驗(yàn),分別對比了ResNet-50和MobileNet-V2(代表CNN模型)與ViT和Swin-Transformer(代表Transformer模型)。由表3可知,F(xiàn)CT-Net的表現(xiàn)優(yōu)于純CNN或者純Transformer的模型。

表4為在Architectural Style Dataset數(shù)據(jù)集上驗(yàn)證CT-Block有效性的實(shí)驗(yàn)結(jié)果。Net1的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為前3個(gè)Block是CNN結(jié)構(gòu),第4個(gè)Block是MHSA結(jié)構(gòu)。Net2的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置為第1個(gè)Block是CNN結(jié)構(gòu),后3個(gè)Block是MHSA結(jié)構(gòu)。由實(shí)驗(yàn)結(jié)果可知,含有過渡模塊CT-Block的網(wǎng)絡(luò)結(jié)構(gòu)的效果要比沒有過渡模塊的網(wǎng)絡(luò)結(jié)構(gòu)的效果好。

3結(jié)論

本文針對建筑風(fēng)格分類數(shù)據(jù)集小、建筑風(fēng)格特征相互融合難以分類等問題,提出融合了CNN和Transformer的FCT-Net。該網(wǎng)絡(luò)以CNN作為網(wǎng)絡(luò)的淺層部分,充分發(fā)揮卷積操作提取特征的能力;以注意力機(jī)制模塊作為網(wǎng)絡(luò)的深層部分,在提取特征的同時(shí),讓網(wǎng)絡(luò)關(guān)注重要區(qū)域,更好地解決含有相同特征的不同建筑風(fēng)格分類問題。并且,該網(wǎng)絡(luò)含有過渡模塊CT-Block,兼顧融合特征的同時(shí),減小模型大小,降低模型參數(shù)量,加快網(wǎng)絡(luò)訓(xùn)練,適應(yīng)小型建筑風(fēng)格分類數(shù)據(jù)集。同時(shí),為了進(jìn)一步提高網(wǎng)絡(luò)的區(qū)分能力,使用了三元組損失函數(shù)。實(shí)驗(yàn)結(jié)果表明,提出的FCT-Net模型在Architectural Style Dataset和WikiChurches數(shù)據(jù)集上達(dá)到了很好效果,但是在相似的建筑風(fēng)格圖片之間的分類準(zhǔn)確率仍有待改進(jìn)提高。

參考文獻(xiàn):

[1]ZHANG L M,SONG M L,LIU X,et al.Recognizing architecture styles by hierarchical sparse coding of blocklets[J].Information Sciences,2014,254d98e2c17fe6c42b84ef4faeb71ed44f8:141–154.

[2]XU Z,TAO D C,ZHANG Y,et al.Architectural style classification using multinomial latent logistic regression[C]//13th European Conference on Computer Vision–ECCV 2014.Zurich,Switzerland:Springer,2014:600–615.

[3]趙佩佩.基于集成投影及卷積神經(jīng)網(wǎng)cceda9fa359309bf2bb66902dc8f98b6絡(luò)的建筑風(fēng)格分類算法研究[D].西安:西安電子科技大學(xué),2015.

[4]郭昆.基于卷積神經(jīng)網(wǎng)絡(luò)的建筑風(fēng)格圖像分類的研究[D].武漢:武漢理工大學(xué),2017.

[5]WANG R,GU D H,WEN Z J,et al.Intra-class classification of architectural styles using visualization of CNN[C]//5th International Conference on Artificial Intelligence and Security.New York:Springer,2019:205–216.

[6]YI Y K,ZHANG Y H,MYUNG J.House stylerecognition using deep convolutional neural network[J].Automation in Construction,2020,118:103307.

[7]ZHAO H S,JIA J Y,KOLTUN V.Exploring self-attention for image recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle:IEEE,2020:10073–10082.

[8]RAMACHANDRAN P,PARMAR N,VASWANI A,et al.Stand-alone self-attention in vision models[C]//Proceedings of the 33rd International Conference on Neural Information Processing Systems.Vancouver:ACM,2019:7.

[9]WANG B,ZHANG S L,ZHANG J F,et al.Architectural style classification based on CNN and channel–spatial attention[J].Signal,Image and Video Processing,2023,17(1):99–107.

[10]ASHISH V,NOAM S,NIKI P,et al.Attention is all you need[C]//Annual Conference on Neural Information Processing Systems 2017.Long Beach:NIPS,2017:5998–6008.

[11]PENG Z L,HUANG W,GU S Z,et al.Conformer:Local features coupling global representations for visual recognition[C]//Proceedings of the 2021 IEEE/CVF International Conference on ComputerVision.Montreal:IEEE,2021:357–366.

[12]CHEN Y P,DAI X Y,CHEN D D,et al.Mobile-former:bridging mobilenet and transformer[C]//Proceedings of the 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New Orleans:IEEE,2022:5260–5269.

[13]SANDLER M,HOWARD A,ZHU M L,et al.MobileNetV2:Inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510–4520.

[14]CORDONNIER J B,LOUKAS A,JAGGI M.On the relationship between self-attention and convolutional layers[C]//8th International Conference on LearningRepresentations.Addis Ababa:ICLR,2019.

[15]SRINIVAS A,LIN T Y,PARMAR N,et al.Bottleneck transformers for visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.Nashville:IEEE,2021:16514–16524.

[16]TOUVRON H,CORD M,DOUZE M,et al.Training data-efficient image transformers&distillation through attention[C]//International conference on machine learning.PMLR,2021:10347–10357.

[17]HE K M,ZHANG X Y,REN S Q,et al.Deep residuallearning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770–778.

[18]SCHROFF F,KALENICHENKO D,PHILBIN J.FaceNet:a unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston:IEEE,2015:815–823.

[19]BARZ B,DENZLER J.Wikichurches:A fine-grained dataset of architectural styles with real-world challenges[J].arXiv preprint arXiv:,2108,06959:2021

[20]ZHANG H Y,CISSéM,DAUPHIN Y N,et al.mixup:Beyond empirical risk minimization[C]//6th International Conference on Learning Representations.Vancouver:ICLR,2018.

[21]SZEGEDY C,VANHOUCKE V,IOFFE S,et al.Rethinking the inception architecture for computer vision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:2818–2826.

[22]LIU Z,LIN Y T,CAO Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal:IEEE,2021:9992–10002.

[23]CHEN Z S,XIE L X,NIU J W,et al.Visformer:The vision-friendly transformer[C]//Proceedings of the IEEE/CVF International Conference on ComputerVision.Montreal:IEEE,2021:569–578.

[24]LAMAS A,TABIK S,CRUZ P,et al.MonuMAI:Dataset,deep learning pipeline and citizen science based app for monumental heritage taxonomy and classification[J].Neurocomputing,2021,420:266–280.

(編輯:李曉莉)