周宇航,馮宏偉,馮 筠,劉建妮
(1.西北大學 信息科學與技術(shù)學院, 陜西 西安 710127;2.西北大學 地質(zhì)學系/大陸動力學國家重點實驗室 陜西省早期生命與環(huán)境重點實驗室 西安市古生物信息學重點實驗室,陜西 西安 710069)
隨著三維技術(shù)的快速發(fā)展,三維對象在建筑設計、電影制作、三維游戲、醫(yī)療等領域都有著廣泛的應用,涌現(xiàn)了大量的三維模型檢索方法,這些方法可以分為兩類:基于模型的方法和基于視圖的方法?;谀P偷姆椒ㄊ禽^早期的方法,它直接從三維模型中提取特征,如屬于低層特征的幾何矩[1]、表面分布[2]、體積描述子[3]和屬于高層特征的骨架描述子[4],由于這類檢索方法需要大量的時間和計算復雜度來構(gòu)建三維模型,因此,基于模型的方法在實際應用中受到嚴重的限制。
如今,基于視圖的方法受到廣泛的關注,因為它可以利用一組二維圖像表示一個三維模型,將復雜的三維信息轉(zhuǎn)化為多個二維圖像進行處理,使得許多成熟的二維圖像處理方法能夠應用在三維模型處理上?;谝晥D的三維模型檢索方法重點在于特征提取,傳統(tǒng)的特征提取方法或是不具有尺度不變性和旋轉(zhuǎn)不變性,或是只能提取算法固定好的簡單特征,無法在不同領域廣泛應用。使用深度神經(jīng)網(wǎng)絡提取圖像特征要遠遠優(yōu)于傳統(tǒng)的特征提取方法,通過引入多層網(wǎng)絡結(jié)構(gòu)能夠?qū)D像進行逐步分析,提取有效特征。因此,基于深度學習的方法成為圖像處理領域的主流特征提取方法。
雖然深度學習的方法在數(shù)據(jù)驅(qū)動下發(fā)揮了重要作用,但在一些數(shù)據(jù)量較少或者數(shù)據(jù)質(zhì)量不高的情況下效果欠佳。如在古生物領域,化石數(shù)據(jù)年代久遠,在形成和挖掘時都會造成不同程度的損壞,而且化石形態(tài)主體與背景部分巖石相融合,難以區(qū)分,這就造成了古生物專家只能人工提取化石特征并復原古生物模型。由于人工提取的特征具有很強的主觀性,導致許多古生物學家對相同物種的三維模型多次建模,不僅使得古生物三維模型的復用率低,而且多次建模使時間成本和制造成本非常高。而現(xiàn)有的基于深度學習的三維模型檢索技術(shù)[5]無法有效提取化石圖像特征,也就使得檢索精度不高。因此,如果能有效提取古生物化石的特征,從而檢索已有的古生物三維模型,對其進行復用,將節(jié)約大量的開支。
通過對化石圖像的分析,結(jié)合計算機視覺領域的方法,本文提出一種古生物三維模型檢索框架,通過輸入化石圖像實現(xiàn)模型檢索。在基于視圖方法的基礎上,結(jié)合顯著性圖像分割網(wǎng)絡對化石圖像和三維模型多視圖投影主體分割,再從主體分割圖像中提取有效的特征進行匹配,為了得到更加精確的分割圖像,采用一個殘差結(jié)構(gòu)的U型網(wǎng)絡對主體邊緣進行細化。在自建的古生物數(shù)據(jù)集上,通過實驗驗證了本文方法的有效性。
基于視圖的三維模型檢索方法[6-7]不僅有效降低了三維模型的復雜性,并且可以借助優(yōu)秀的二維圖像處理算法實現(xiàn)三維模型的檢索,其關鍵是視圖的選擇和特征提取。
常見的傳統(tǒng)特征有尺度不變性(scale invariant feature transform,SIFT)[8]、傅里葉描述子[9]、Zernike moments[10]、方向梯度直方圖(histogram of oriented gradients,HOG)[11]。Yi等人利用幾何信息形狀描述子和fisher形狀描述子定義了一種新的深度形狀描述子,這種描述符傾向于最大化類間邊距,最小化類內(nèi)方差[12]。Hsieh等在三維模型檢索中采用了多種特征拼接和流形排序[13]。Zhao等人提取不同的視覺特征,并對多特征加權(quán)后融合實現(xiàn)三維模型檢索[14]。Shih等人提出了高程描述符(elevation descriptor,ED),該描述子從三維模型中反映了6個不同視角的空間信息,對平移、旋轉(zhuǎn)和伸縮具有較好的魯棒性[15]。Wang等人利用三維模型視圖集的尺度不變性,基于特定類數(shù)據(jù)和最大后驗(maximum a posterior, MAP)準則的帶類詞匯實現(xiàn)檢索[16]。
而隨著深度學習的普及,各種深度學習網(wǎng)絡被研究用于3D模型識別和檢索,如PointNet[17]、3D ShapeNet[18]、VoxNet[19]和RotationNet[20]。同時,基于視圖的三維模型檢索方法也有了較大的提升,Su等人提出了一種新穎的CNN網(wǎng)絡(multi-view convolutional neural networks,MVCNN),處理3D模型的多視圖,提取信息作為3D模型描述符,MVCNN的重點是在完全連接之前進行特征融合[5]。RotationNet[20]將視點標簽作為潛在變量,以對象的多視圖圖像作為輸入,預測其姿態(tài)和對象類別。Liu等人提出一種檢索框架,利用視覺和空間上下文共同實現(xiàn)代表性視圖的選擇和相似度量的計算[21]。Guo等人提出了一種由分類丟失和三重丟失共同監(jiān)督的深度嵌入網(wǎng)絡,將高維圖像空間映射到低維特征空間,減少輸入圖像的類內(nèi)變化,增加類間變化,該網(wǎng)絡可以保證在學習的特征空間中相似的圖像比不同的圖像更接近[22]。Uy等人提出了一種新的深度嵌入方法,通過利用位置相關的自我中心距離場學習不對稱關系[23]。Fu等人提出RISA-Net,旨在學習旋轉(zhuǎn)不變的3D形狀描述符,這些描述符能夠編碼細粒度的幾何信息和結(jié)構(gòu)信息,從而在細粒度3D對象檢索任務中獲得準確的結(jié)果[24]。Uy等人提出了一種聯(lián)合學習方式,可以同時訓練神經(jīng)變形模塊和檢索模塊使用的嵌入空間,使得網(wǎng)絡能夠?qū)W習變形感知嵌入空間,以便檢索到的模型在適當變形后更適合匹配目標[25]。Guo等人提出了一種用于自監(jiān)督表示學習的跨體系結(jié)構(gòu)對比學習(cross-architecture contrastive learning,CACL)框架,使得模型能夠從不同但有意義的對比中學習強表示[26]。
基于多視圖三維模型的表示,近年來也有許多方法[27-28]。Gao等人通過不同的相似性度量方法,系統(tǒng)地評估了深度學習特征在基于視圖的三維模型檢索中的性能,探索了多視圖深度學習網(wǎng)絡體系結(jié)構(gòu)中不同視圖之間潛在關系[29]。Su等將復雜的基于多視圖的相似性度量分解為多個基于單視圖的相似性度量并進行融合,提出了MVGM方法,避免了傳統(tǒng)高階圖的定義和計算難題[30]。Sfikas等人利用一組全景圖,包括空間分布圖、法線偏移圖和其梯度圖像的幅值表示三維模型[31]。Feng等人提出了一種GVCNN架構(gòu),在框架中添加了組模塊,將所有視圖劃分為不同的組,并根據(jù)不同組的權(quán)值將描述符融合為形狀描述符[32]。Hamdi等人引入了多視圖轉(zhuǎn)換網(wǎng)絡 (multi-view transformation network,MVTN),基于可微渲染的最新研究進展實現(xiàn)3D形狀識別的視點回歸,MVTN可以與任何用于3D形狀分類的多視圖網(wǎng)絡一起進行端到端的訓練[33]。
為了能夠有效提取具有復雜噪音的圖像特征,本文對圖像主體進行分割再進行特征提取。在圖像分割領域,一些具有優(yōu)異性能的網(wǎng)絡模型被相繼提出[34-39],這些模型具有較傳統(tǒng)方法[40-43]更為優(yōu)越的特征學習與表征能力,并且傳統(tǒng)的方法無法同時捕捉局部細節(jié)和全局上下文,缺乏高層次的語義信息,限制了它們在復雜場景中檢測整體顯著對象的能力。受到U型網(wǎng)絡結(jié)構(gòu)[44-46]的啟發(fā),本文以ResNet[46]為主干網(wǎng)絡,結(jié)合殘差跳躍的方式構(gòu)建殘差結(jié)構(gòu)的U型網(wǎng)絡,對圖像進行分割,同時為了細化邊緣,采用一個小的殘差連接的U型結(jié)構(gòu)對邊界的完整性進行補充。
本文提出一種基于多視圖和深度神經(jīng)網(wǎng)絡相結(jié)合的古生物三維模型檢索方法,由于古生物化石數(shù)據(jù)難以收集,無法采用數(shù)據(jù)驅(qū)動的方式進行模型訓練,因此,本文采用遷移學習[47]的思想進行模型遷移,整體算法框架如圖1所示。
圖1 算法框架圖Fig.1 Algorithm frame chart
首先,為模型庫中的三維模型進行多角度的二維投影,使之信息降維;然后,采用顯著性圖像提取網(wǎng)絡對得到的二維投影圖像進行邊緣細化,并對細化后的投影圖像提取特征,形成投影圖像特征數(shù)據(jù)庫。
對于輸入的化石圖像,由于在原始的二維化石圖像中,巖石部分和其他噪音對化石主體部分的影響十分嚴重,并且三維模型與其投影圖像都不具有色彩信息,因此,采用顯著性圖像提取的深度網(wǎng)絡進行主體提取。受U-Net[44]和SegNet[35]的啟發(fā),本文的顯著性圖像提取網(wǎng)絡在此基礎上進行修改來適應古生物數(shù)據(jù),采用DUTS圖像分割數(shù)據(jù)集對網(wǎng)絡進行訓練,并進行模型遷移以適應古生物圖像數(shù)據(jù)。
在特征提取部分,采用顯著圖像提取網(wǎng)絡提取1 024維的特征向量,再使用余弦距離度量方法進行圖像匹配,通過所得到的匹配原始輸入圖像的二維投影圖像,就能夠得到所匹配的三維模型。此外,在訓練時,對訓練數(shù)據(jù)進行平移、旋轉(zhuǎn)、縮放與對稱映射等預處理操作,以此使顯著圖像提取網(wǎng)絡學習到一定的平移不變性、旋轉(zhuǎn)不變性與尺度變換不變性[48]。
三維模型信息較多且復雜,直接對三維信息進行處理不僅會增加計算成本,也不適用于采用二維化石圖像對三維模型的檢索。因此,需要將三維模型轉(zhuǎn)換成便于處理的二維圖像,不僅使后續(xù)處理的對象更加簡單統(tǒng)一,而且能夠充分利用圖像處理領域中性能卓越的卷積神經(jīng)網(wǎng)絡。
在將三維模型轉(zhuǎn)換為二維圖像時,采用透視投影法將物體形狀投射到多個投影面上,從而得到各個視角的投影圖像。圖2展示了多視圖投影的設置,三維模型被一個正方體包圍,在正方體的6個面中心和8個頂點處設置攝像機,所有虛擬攝像機都指向三維模型的中心。對于每個三維模型,14個虛擬攝像機可以投射14個不同的視圖。這14張投影圖像包含三維模型的大部分特征,包括形狀、紋理和其他常見特征。利用這些信息,本文的方法可以準確判別不同的三維模型。
在透視投影計算中,式(1)說明了三維點云投影在二維平面的具體計算。其中:(Px,Py,Pz)是三維點云坐標;Aspect是投影平面的縱橫比;θ是相機視點與三維模型中心連線和世界坐標系y軸之間的夾角,用來調(diào)整攝像機的位置,隨著θ的改變,相機位置也在做相同的同心圓變化,以此來得到多角度透視投影。
(1)
圖2 三維模型多角度投影示意圖Fig.2 Schematic diagram of multi-angle projection of 3D model
古生物化石圖像背景復雜,噪音極多,存在由于模型邊緣部分點云的離散分布而造成投影圖像邊緣模糊問題。因此,本文采用顯著性圖像提取的方法對化石圖像和投影圖像進行處理,提取圖像的邊界和形狀信息,以達到更好的檢索結(jié)果。考慮到古生物圖像數(shù)據(jù)獲取難度大并且質(zhì)量較差,因此,采用遷移學習的思想進行數(shù)據(jù)遷移訓練,其網(wǎng)絡結(jié)構(gòu)如圖3所示。該網(wǎng)絡結(jié)構(gòu)的前部分采用一個粗估計的編碼器-解碼器網(wǎng)絡得到輸入圖像的粗分割特征圖,因為這類結(jié)構(gòu)能夠同時獲取高等級的全局信息和低等級的細節(jié)信息,后部分采用一個殘差修正模塊對分割特征圖進行細化得到最終結(jié)果。
分割網(wǎng)絡的編碼部分使用預訓練好的ResNet-50[46]中的bottleneck模塊對圖像的多尺度特征進行提取,然后,采用空洞卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[36]將高級語義信息傳遞到各個級別的解碼部分。從圖3可以看到,解碼部分的特征圖由編碼部分對應層的特征圖、解碼部分前一層經(jīng)過2倍上采樣之后的特征圖和空洞卷積池化金字塔不同比率的上采樣得到的特征圖相加而得到。其中,空洞卷積池化金字塔結(jié)構(gòu)如圖4所示,空洞卷積在不降低空間維度的前提下增大了相應的感受野指數(shù),從而提升分割網(wǎng)絡的性能,并使用不同空洞率的多個并行空洞卷積捕捉特征圖的多尺度信息。其中,一維卷積和圖像級的最大池化有效地克服了空洞卷積空洞率過大時退化為一維濾波器的問題。最后,將一維卷積、{6,12,18}空洞率的空洞卷積、最大池化所得到的特征圖按通道拼接經(jīng)過一維卷積得到空洞卷積池化金字塔的輸出。
圖3 顯著性圖像分割網(wǎng)絡Fig.3 Significance of image segmentation network
圖4 空洞卷積池化金字塔模塊結(jié)構(gòu)Fig.4 Module structure of atrous spatial pyramid pooling (ASPP)
在采用粗估計的編碼器-解碼器網(wǎng)絡得到的顯著圖像提取結(jié)果存在明顯的區(qū)域和邊界缺陷的問題,而在二維原圖搜索三維模型投影圖的框架中,其主要的特征都在其邊界和形狀上,因此,本文構(gòu)建了一個殘差修正模塊(residual refinement module, RRM)對邊界和形狀進行細化,其網(wǎng)絡結(jié)構(gòu)如圖5所示。該殘差優(yōu)化模塊利用殘差編碼器-解碼器架構(gòu),主要架構(gòu)包括一個輸入層、編碼器、殘差連接、解碼器和輸出層。和粗估計模塊不同,編碼器和解碼器有4個階段。編碼器每個階段只有一個卷積層,每一層有64個濾波器,大小是3×3,后面跟著一個批量歸一化層(batch normalization,BN)和一個非線性層(rectified linear unit,ReLU),并使用非重疊的最大池化(max pooling)層。解碼器與編碼器的結(jié)構(gòu)類似,是將編碼器最后的最大池化層替換為雙線性插值進行上采樣。這個殘差修正模塊的輸出就是模型最終的特征圖輸出。
圖5 殘差修正模塊結(jié)構(gòu)Fig.5 Residual refinement module structure
本文提出的框架基于python和PyTorch框架實現(xiàn)。三維模型多角度投影初始化角度為0°,投影平面長和寬都為512像素,近截面距離為5像素,在正方體面投影的遠截面距離為20像素,每次投影變換角度為90°,使得模型在正方體8個頂點和6個面都得以投影。顯著圖像提取和特征提取實驗都使用Adam優(yōu)化器進行,其權(quán)重衰減為5×10-4,初始學習率為5×10-5, 每20個epoch降低為原來的1/10。網(wǎng)絡共訓練了40個epoch。網(wǎng)絡的主干參數(shù)(ResNet-50[46])用ImageNet數(shù)據(jù)集[37]上預先訓練的相應模型初始化,其余的隨機初始化。消融實驗在DUTS數(shù)據(jù)集上進行。
本文使用以下兩部分數(shù)據(jù)集:一是常用于圖像分割領域的圖像數(shù)據(jù)集,包括DUTS、DUT-OMRON、ECSSD和SOD,其中,訓練采用DUTS數(shù)據(jù)集,其他數(shù)據(jù)集用于測試。訓練集和測試集都包含了常見的場景,用于顯著性檢測。另一部分數(shù)據(jù)集是用于古生物三維模型檢索,其中包括43個古生物模型,分別有8類,這些古生物模型都是在古生物學家的指導下制作的高質(zhì)量標準姿勢的模型;還使用了在網(wǎng)絡上收集到的高質(zhì)量現(xiàn)生生物的模型進行數(shù)據(jù)集擴充,包含76個三維模型,分別由14類組成,這部分模型共計119個,22類。
實驗平臺為NVIDIA Quadro RTX 4000 8GB顯卡,英特爾Core(TM)i9-9900K CPU @ 3.6GHz處理器,操作系統(tǒng)為64位Windows 10。
預訓練模型采用在ImageNet數(shù)據(jù)集上訓練好的ResNet-50模型,損失函數(shù)采用交叉熵函數(shù),顯著圖像提取網(wǎng)絡的初始化學習率為0.000 05;通過遷移學習的方式,使用DUTS數(shù)據(jù)集進行網(wǎng)絡訓練;在消融實驗上采用常用的MAE、F-measure、Dice、IOU等指標對顯著圖像分割進行評價。
本節(jié)證明網(wǎng)絡中加入的空洞卷積池化金字塔模塊結(jié)構(gòu)(ASPP)和殘差修正模塊(RRM)的有效性。對這兩個模塊進行消融實驗,并評估最大F值(max-F),平均絕對誤差(MAE),平均F值(mean-F),平均dice值(mean-Dice),平均IOU(mean-IOU)等指標。表1為消融實驗結(jié)果。
消融實驗對不同模塊進行測試,其主干網(wǎng)絡都是采用ResNet-50,表1中第1行展示了以采用特征金字塔(feature pyramid network,FPN)結(jié)構(gòu)的主干網(wǎng)絡為基線進行顯著圖像提取的結(jié)果,再搭配不同的模塊進行實驗,可以看到評價分割結(jié)果的指標都有不同程度的提升;表1中第2行展示了搭配空洞卷積池化金字塔模塊結(jié)構(gòu)(ASPP)融合的不同尺度的全局信息,使網(wǎng)絡能夠更關注突出目標的完整性,極大地提高了顯著性圖的質(zhì)量;表1中第3行展示了搭配的殘差優(yōu)化模塊(RRM)可以有效關注局部的邊界信息,從而對網(wǎng)絡產(chǎn)生性能增益;通過在基線中引入空洞卷積池化金字塔模塊和殘差優(yōu)化模塊(表1的最后一行),與上述兩種情況相比,在F-measure和MAE等多個評分上,其表現(xiàn)可以得到進一步提高,這說明空洞卷積池化金字塔模塊和殘差優(yōu)化模塊是兩個互補的模塊。利用它們使本文的方法具有很強的準確發(fā)現(xiàn)突出目標和細化細節(jié)的能力。圖6展示了采用粗估計的編碼器-解碼器網(wǎng)絡得到的部分結(jié)果,即未經(jīng)過殘差修正模塊細化的實驗結(jié)果,是消融實驗的定性結(jié)果展示。
表1 消融實驗Tab.1 Ablation experiments
圖6 顯著圖提取中間結(jié)果Fig.6 Significant graph extraction intermediate results
將本文方法分別與SRM[49]、PiCANet[50]、poolnet[51]等用于顯著圖像提取的網(wǎng)絡進行對比,并在4個廣泛應用于顯著圖像提取網(wǎng)絡的數(shù)據(jù)集上進行測試,在不同的數(shù)據(jù)集上測試網(wǎng)絡的泛化性能。從表2可以看到,本文的網(wǎng)絡在DUTS數(shù)據(jù)集測試下,表現(xiàn)了優(yōu)異的性能,同時在不同的數(shù)據(jù)集上,其泛化性能也比其他的分割網(wǎng)絡要好。
表2 評價結(jié)果Tab.2 Evaluation results
除表2之外,還展示了4個網(wǎng)絡在DUTS數(shù)據(jù)集上不同閾值下的F-measure曲線(見圖7)和PR(precision-recall)曲線(見圖8)。從圖7可以看到,在不同的閾值下,本文網(wǎng)絡的F-measure都高于其他的網(wǎng)絡結(jié)構(gòu),也就說明本文網(wǎng)絡的綜合性能要高于其他網(wǎng)絡。在圖8中,本文網(wǎng)絡的PR曲線相比對比方法的PR曲線更加突出,閾值在極端情況下,也就是當達到0.96以上時,poolnet的性能略高,但是在大多數(shù)情況下,本文的網(wǎng)絡有著更準確和完整的分割效果。
圖7 不同閾值下的F值Fig.7 F values under different thresholds
圖8 PR曲線 Fig.8 PR curve
圖9展示了定性評價結(jié)果,可以看到,圖9A展示了在DUTS數(shù)據(jù)集上的部分分割結(jié)果,本文的網(wǎng)絡在邊界和細節(jié)處提取的結(jié)果更為明顯和準確;圖9B展示了在古生物圖像上的部分分割結(jié)果,在古生物數(shù)據(jù)集上,本文的顯著圖像提取網(wǎng)絡也較為適用,邊界的局部性特征和全局的完整性特征都能夠得到非常好的處理。
圖9 部分顯著圖像分割結(jié)果展示Fig.9 Shows the significant image segmentation results
本文的網(wǎng)絡和實驗的最終目的是為了以化石圖像或者復原圖等自然圖像對三維模型進行檢索,使用自建的古生物三維模型數(shù)據(jù)集將本文方法和HOG-SIL[52]、CDMR[53]、BF-FGALIF[54]、SBR-VC NUM 100[55]、MVGM[30]進行實驗對比,采用以下幾個評分標準。
最近鄰準確度(nearest neighbor,NN)是準確查詢到的三維模型占查詢總數(shù)的比例,值越大表示檢索越有效。式(2)中TP表示查詢準確的三維模型個數(shù),SUM表示查詢模型總個數(shù)。
(2)
綜合評價指標(F-measure,F)是衡量查詢性能的一項指標,式(3)中β參數(shù)為1,表現(xiàn)出對查準率和查全率給予相同的權(quán)重比較。
(3)
為了讓排名越靠前的結(jié)果越能影響最后的檢索結(jié)果,采用折損累計增益(discounted cumulative gain,DCG)作為評價手段之一。其中,G(i)表示當前第i項的檢索結(jié)果與查詢目標同類時為1,否則為0,實驗中每個檢索按照相似度排序取前10個模型投影來計算每個檢索的折損累計增益。
(4)
用mAP(mean average precision)來衡量此算法在所有測試集上的總性能,式(5)展示了其計算方法。其中,K表示檢索的同類模型個數(shù),index(i)表示檢索模型在檢索排序列表中的位置,N表示總檢索數(shù)目。
(5)
采用以上幾個評價標準對本文方法和其他方法進行比較,結(jié)果如表3所示。其中:HOG-SIL[52]使用方向梯度直方圖(histograms of oriented gradient,HOG)特征來實現(xiàn)三維模型檢索;CDMR[53]是一種選擇性搜索的方法;BF-FGALIF[54]和SBR-VC NUM 100[55]是兩種基于草圖的粗粒度檢索方法;MVGM[30]方法是一種無監(jiān)督的三維模型多視圖檢索算法,使用在ImageNet數(shù)據(jù)集[37]上預訓練的AlexNet[56]提取視圖圖像特征。通過表3可以看出,在自建的古生物數(shù)據(jù)集上,本文方法在各項指標上都表現(xiàn)出優(yōu)異的性能,一方面是本文方法融合的深度神經(jīng)網(wǎng)絡對化石顯著圖像和投影顯著圖像的特征提取非常有效,能夠提取到有效的形狀特征,另一方面也說明,本文方法能夠有效適用于以化石等具有復雜背景和噪音的圖像檢索與其形狀相似的三維模型的任務。
表3 本文檢索方法與其他方法評價結(jié)果Tab.3 Evaluation results of retrieval methods in this paper and other methods
本文針對古生物信息學領域中古生物三維模型復用率低和古生物三維模型制造成本高兩個問題,提出了一種基于多視圖和顯著性圖像分割的古生物三維模型檢索方法。由于在地質(zhì)變遷過程中,化石形態(tài)可能會發(fā)生不同程度的變形,導致用來檢索的化石圖像質(zhì)量差,本文提出的方法通過對三維模型的多個角度進行投影來彌補這種影響,然后,利用顯著性圖像分割網(wǎng)絡進一步對圖像處理,以提高三維模型檢索的性能。實驗結(jié)果證明了本文方法對古生物化石數(shù)據(jù)和古生物三維模型匹配的有效性,并且在自建的數(shù)據(jù)集上具有較好的性能。
未來,將從以下兩個方面對本文的工作進行擴展和改進:
1)基于多視圖和顯著性分割網(wǎng)絡相結(jié)合的古生物三維模型檢索方法雖然對古生物數(shù)據(jù)有良好的適應性,但是多角度投影還是增加了算法的時間和空間復雜度,下一步可以嘗試在模型投影方面尋找最佳角度進行投影,從而減少算法的時間和空間消耗。
2)目前的各種類古生物數(shù)據(jù)量還不具備以一個數(shù)據(jù)驅(qū)動的方式進行模型檢索,因此,古生物數(shù)據(jù)集還需要進一步擴充。