国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種面向商品檢索的多尺度度量學習方法

2024-01-24 09:20:24行陽陽張索非吳曉富
計算機技術與發(fā)展 2024年1期
關鍵詞:粗粒度細粒度類別

行陽陽,張索非,宋 越,吳曉富,周 全

(1.南京郵電大學,江蘇 南京 210003;2.95958部隊,上海 200120)

0 引 言

隨著互聯網技術和電子商務的飛速發(fā)展,人們的購物方式逐漸從傳統(tǒng)的線下購物轉變?yōu)榫€上購物。為了充分滿足客戶海量、多樣化的網上購物需求,人工智能零售系統(tǒng)需要快速、自動地從圖像和視頻中識別出存貨單元(Stock Keeping Unit,SKU)級別的商品類別。與此同時,深度學習在計算機視覺領域取得了突破性進展,特別是在大型圖像分類任務方向如ImageNet。大規(guī)模商品識別是計算機視覺領域的一個新興課題。但是,許多SKU級商品都是細粒度的,并且它們在視覺上是相似的。如何正確并快速地通過深度神經網絡來進行快速識別仍面臨技術挑戰(zhàn)。

網上購物平臺上的商品種類繁多。如圖1所示,為了方便商品的管理,很多商品的子類別根據不同的用途或儲存方法被劃分在不同的父類別中。換句話說,一個父類別包含許多子類別。一種商品既屬于某個子類別,同時也屬于某個父類別。不同語義下的類別信息即商品圖像多尺度標簽信息。需要注意的是,商品的層級分類并不完全迎合商品的視覺相似性。不同父類別下的商品圖像也可能具有相似的外觀。例如,如圖1所示,以“護手霜”為父類別的第三行第四列商品與以“洗面奶”為父類別的第四行第二列商品外觀較為相似。造成這種現象的原因是商品并不是按照外觀進行分類。這種現象會給商品圖像的標簽帶來噪音并給檢索出正確的商品類別帶來技術挑戰(zhàn)。

此外,在商品識別任務中,手動標記標簽并收集所有類別商品圖像的數據集總是費時且昂貴的。首先,要在網上購物平臺上識別不同商品的數量可能是巨大的。對于每一類商品,需要數百張訓練圖像,通常從幾個不同的角度拍攝。其次,商品零售平臺需要定期上架新的商品類型,現有商品的外觀也會不時發(fā)生變化。在實際部署過程中,更新不斷增加的訓練圖像是一個棘手的問題。由于上述原因,如果沒有這些新商品類別的訓練樣本,傳統(tǒng)的圖像分類模型往往無法獲得令人滿意的性能。相比之下,度量學習方法更適合于商品檢索,因為它可以將輸入圖像嵌入到一個緊湊但有分辨能力的特征空間中。這種嵌入可以很容易地推廣到未知類別,而不需要任何額外的訓練成本。因此,將網絡購物平臺中的商品圖像識別問題轉化為大規(guī)模度量學習任務有利于問題的解決。目前,許多SKU級別的商品圖像數據集已經進行了公開。例如,AliProducts-Challenge[1]數據集包含近300萬張圖像,覆蓋5萬個SKU級商品類別;Products-10K[2]數據集包含近15萬張圖像,覆蓋1萬個SKU級商品類別。

綜上所述,商品檢索問題可以看作是一個多尺度度量學習問題。商品類別的標簽通常符合一種層級結構。許多公開可用的商品圖像數據集還包含多尺度的標簽信息,而不是只包含單尺度的標簽信息。利用多尺度標簽信息進行模型訓練,可以使得網絡充分挖掘商品圖像不同尺度特征的關系并更可能滿足不同尺度下的識別需求。

該文提出了一種充分利用商品圖像的多尺度監(jiān)督信息的MSML(Multi-Scale Metric Learning)模型。在大規(guī)模商品圖像檢索數據集上的實驗結果表明,該方法是有效的,與傳統(tǒng)的單尺度度量學習相比,顯著提高了識別的綜合性能。

1 相關工作

1.1 商品識別

在過去的十年中,深度學習在計算機視覺領域取得了巨大的成功。近年來,基于深度學習的商品識別得到了廣泛的研究,關于這一領域已經有了大量的工作。在文獻[3]中,作者提出了一個多任務級聯的卷積神經網絡(MTCD-CNN)進行商品圖像檢測并采用分層頻譜聚類進行層級的圖像分類。文獻[4]提出了一種對商品模型進行無標簽半監(jiān)督的商品識別方法。該方法基于Self-training訓練兩個目標檢測模型,提高了無標簽預測的準確性。文獻[5]報道了通過AlexNet學習到的特征被用于雜貨商品識別。該研究表明,深度學習方法在復雜場景下更有效。此外,文獻[6]提出了一種基于YOLOX模型的商品檢索算法。該算法采用輕量級網絡MobileNet-V2作為主干網并使用改進的相似度檢索方法進行推理,使得網絡在不增加檢索速度的情況下增加識別準確度。文獻[7]融合商品圖像的圖像特征和文本特征的識別算法,利用商品的圖像和文本進行多模態(tài)融合,提高了識別系統(tǒng)魯棒性。文獻[8]提出了一種融合金字塔池化策略并使用一種名為哈希網絡的SHN模型提高了模型對于圖像形變帶來的負面影響。

1.2 深度度量學習

深度度量學習(DML)廣泛應用于計算機視覺任務,包括人臉識別、行人重識別、車輛再識別和商品識別。通常,這些任務的目標是檢索與查詢圖像最相似的所有圖像。近年來,深度度量學習取得了顯著的進展。這些方法主要分為兩類,即成對樣本計算嵌入特征度量差異的方法和基于分類區(qū)分嵌入特征的方法?;跇颖緦Φ姆椒ㄔ谏疃惹度氲奶卣骺臻g中優(yōu)化樣本對之間的相似性,例如,Triplet Loss[9],N-pair Loss[10],Multi-Simi Loss[11]。相比之下,基于分類的方法通過在訓練集上訓練各種分類模型來學習嵌入,例如Cosface[12],ArcFace[13],NormSoftmax[14]和Proxy NCA[15]。最近的一項工作[16],考慮從統(tǒng)一的角度結合這兩種方法。通過對兩種損失進行加權,給出了一般的損失函數。與傳統(tǒng)的度量學習只利用單一尺度的監(jiān)督信息不同,該文提出的方法充分利用了多個語義尺度的監(jiān)督信息來對模型進行訓練。

2 基于多尺度度量學習的商品檢索

使用商品多個尺度的標簽信息用于度量學習模型的訓練即為多尺度度量學習。在多尺度度量學習中,會考慮商品圖像的多個尺度。例如,該文考慮了商品標簽的兩個尺度,即粗粒度的組別和細粒度的類別。組標簽和類標簽符合層次結構,其中一個組別包含多個類別。根據實際的應用場景,不妨假設類級別的任務是開集識別任務,組級別的任務是閉集識別任務。網絡設計的目標即同時完成組級分類任務和類級檢索任務,并使兩者盡可能沒有干擾。文中模型采用了三個分支網絡來滿足這兩個層次的識別需求。特別地,該方法利用協(xié)同注意力分支將組別級特征與類別級特征相結合,充分利用了圖像標簽的層次性信息。

2.1 總體方案

如圖2所示,所提網絡模型是一個以ResNet50作為骨干網的三個分支網絡。三個分支分別是粗粒度特征提取分支、細粒度特征提取分支和融合特征提取分支。粗粒度特征提取分支和細粒度特征提取分支分別對商品圖像進行粗粒度和細粒度特征的提取。融合特征提取分支則對另外兩個分支提取到的特征以一定方式進行融合形成新的融合特征并最終用于商品圖像的檢索。

圖2 所提出的MSML深度神經網絡模型架構

MSML可以采用任何用于圖像分類的深度網絡作為主干網,例如谷歌Inception和ResNet??紤]到ResNet50的競爭性能和相對簡潔的架構,該文主要采用ResNet50作為主干網。在文獻[17]的基礎上,去掉了ResNet的Stage4(包括框架中的Stage4a和Stage4b)中最后一個空間向下采樣操作,以增加特征圖的大小。

為了更好地提取粗粒度和細粒度級別的特征,MSML使用了Stage4a和Stage4b從骨干網將兩個級別所優(yōu)化的特征空間分開。Stage4a和Stage4b都是從原始ResNet中的Stage4復制而來,并在Stage3后面并行連接。Stage4a和Stage4b在結構上是相同的,但是在網絡訓練過程中網絡參數的更新是不同的。從Stage4a派生的分支用于粗粒度級別的特征提取并在經過全連接層用于商品組別的分類,從Stage4b派生出的分支用于細粒度級別特征的提取。對Stage4a和Stage4b的輸出進行GAP(Global Average Pooling)運算,可以得到兩個2 048維的特征向量。不同粒度的特征提取使用不同的分支網絡可以緩解粗粒度特征和細粒度特征在一個特征空間提取所造成的相互干擾。此外,利用協(xié)同注意模塊將粗粒度和細粒度特征相結合,充分利用了圖像標簽的層次信息。

圖3 協(xié)同注意力模塊結構示意圖

2.2 融合特征提取分支

融合特征提取分支使用協(xié)同注意力機制將粗粒度和細粒度特征進行融合形成新的融合特征。注意力模塊已被證明是多種機器學習場景下的有效機制[18],并廣泛應用于自然語言處理(NLP)、圖像處理(CV)、語音信號識別等各類機器學習任務中。注意力機制利用特征之間的相關性,迫使網絡更加關注有用的信息。

在商品圖像識別的情況下,對于同一個樣本,網絡在粗粒度級別和細粒度級別學習的特征應該是不同的。為了更好地使網絡挖掘到圖像的重要特征,該文使用一種協(xié)同注意機制,將粗粒度級別的特征引入細粒度級別的特征中,如圖3所示。這兩個協(xié)同注意模塊由一個空間注意力模塊(PAM)和一個通道注意模塊(CAM)組成。設Stage4a和Stage4b的輸出特征Xc,Xg∈RC×(H×W)為協(xié)同注意模塊的輸入特征,其中C,H,W分別為特征圖的通道數、高度和寬度。PAM將每個位置的特征Xg映射重塑到兩個低維子空間上,這些子空間是由核大小為1×1的二維卷積實現的。經過重塑降維操作最終得到查詢Q∈RC/r×S,鍵K∈RC/r×S。其中S=H×W為特征圖的空間大小,r為控制子空間維數的超參數。該文將遵從注意力機制一般的實驗配置,簡單的將其設置為8。與自注意模塊不同的是,協(xié)同注意中的值V并不是來自與鍵相同的特征圖,而是來自另一個特征圖。在所提出的模型中,直接將Stage4b的輸出Xc經過大小重排作為值V∈RC×S。那么Xc和Xg的經過空間注意力的輸出可以由查詢Q、鍵K和值V計算為:

Z'=attentionp(Xc,Xg)=Vσ(Ap)=Vσ(QTK)

(1)

其中,σ(·)為Softmax函數,Z'∈RC×(H×W)為PAM的輸出,Ap為位置權重矩陣,可以度量Xg不同位置特征之間的相關性。與PAM類似,同樣使用了通道注意力模塊(CAM),從通道角度賦予網絡關注關鍵信息的能力。CAM直接從PAM的輸出Z'中獲取鍵K和查詢Q。最終融合特征分支可表示為:

(2)

2.3 損失函數

在MSML中,最終的總損失是三個單獨損失的加權和,即:

(3)

在訓練階段,ResNet的Stage1,Stage2和Stage3會同時被這三個損失函數進行優(yōu)化,網絡的其余部分僅由相應的損失函數進行優(yōu)化。基于以上分析,任何分支的優(yōu)化都可以通過影響公共部分Stage1,Stage2和Stage3來影響其他分支的優(yōu)化。

3 實 驗

在本節(jié)中,設置了一些對比神經網絡模型與文中模型進行比較,并使用多個基于分類的損失函數來證明所提MSML模型的有效性。此外,文獻[17]商品識別的冠軍方案模型和文獻[19]基于自注意力模塊(S-A based)的圖像檢索方法將應用于商品檢索任務,并與文中模型進行了性能比較。

3.1 數據集

實驗所采用的數據集是來自公開數據集Products-10k[2],為便于實驗,進行了重新分割,最終形成新的商品檢索數據集MSML-Product。其中,源商品數據集Products-10k是一個基于商品識別應用場景的開放數據集。Product-10k包含在線零售平臺頻繁購買的10 000種商品,涵蓋時尚、3C、食品、保健及家居等所有品類。所有SKU級別的商品都被組織到一個層次結構中,總共有近19萬張圖片。在實際應用場景中,圖像數量的分布并不均衡。所有圖像都由生產專家團隊手動檢查和標記。

對Product-10k的所有圖像進行重新分布,使數據集符合一般圖像檢索數據集的形式。將處理后的數據集MSML-Product分為三組:訓練集、查詢集和待查詢集。查詢集和待查詢集用于測試模型,訓練集用于訓練模型。

MSML-Product中的每個圖像都有兩個標簽:類別和組別。這兩個標簽滿足一個層次結構,即一個組別包含多個類別。對于類別而言,MSML-Product保持開集設置,即訓練集和測試類別沒有交集。測試集中的類別對于網絡來說是全新的。對于組別而言,MSML-Product保持閉集設置,即測試的所有類別均已在訓練集出現過。MSML-Product數據集的詳細信息如表1所示。

表1 數據集類別分布和樣本數量

3.2 評價指標

實驗基于圖像檢索常用的三種評價指標,即累積匹配特征(Cumulative Matching Characteristics,CMC)、平均精度均值(mean Average Precision,mAP)和準確率。CMC表示在前k排序列表中存在真匹配的概率(如Rank-1表示第一位匹配正確的概率)。準確率(Precision)考慮在被模型判斷為真的樣例中,實際為真的樣例比例。本次實驗考慮將模型返回的前10個最相似的樣本去計算準確率,并記為Prec-10。相比之下,mAP同時考慮了檢索結果的精度和查全率。當一個查詢有多個正確匹配時(這是常見的情況),mAP強調識別所有正確匹配的能力,特別是那些困難的樣本。

3.3 實驗細節(jié)

該模型的訓練主要采用典型的度量學習方法并重點參考了行人重識別領域的相關技術。在訓練網絡之前,先從ImageNet加載預訓練的骨干網絡,用于權重參數初始化。需要注意的是圖2中主干網Stage4a和Stage4b參數初始化相同。它們都使用預訓練模型的Stage4作為初始化。訓練中采用標準的圖像增強方法,包括隨機水平翻轉、隨機裁剪、隨機擦除。每張圖像大小調整為224×224像素。訓練方面使用了Adam優(yōu)化器,其初始學習率為3.5e-5,并在30和50個epoch時將學習率縮小0.1倍,直到收斂。實驗在Intel E5-2680CPU 2.4 GHz的硬件環(huán)境下進行,4張NVIDIA Tesla P100 GPU。該模型每個批量包含16個細粒度類別在內的256個訓練樣本。對于損失函數權重參數kc,kg和kx,所提模型中先固定其中兩個權重參數,每隔0.2對另外一個權重進行每次增大或縮小0.2,直到取最優(yōu)值。經測試,權重參數最佳配置為1∶1∶1。所有的實驗其損失的權重均設置為1∶1∶1。

3.4 實驗結果

3.4.1 所提模型的消融實驗結果

為便于比較,實驗共設置了三種對照模型,以突出文中模型各個模塊的有效性。首先采用基線網絡作為第一個對照模型,然后在基線網絡的基礎上,在模型的基礎上逐個添加一些模塊,以構建其他模型。原始基線模型采用ResNet50骨干網將原始輸入圖像映射到特征空間。類別和組別共享一個Stage4提取特征。然后在ResNet50后直接連接兩個FC層,并使用兩個交叉熵損失函數進行優(yōu)化。

表2 與對照模型的實驗結果比較 %

與基線模型相比,第二個對照模型在GAP操作后只增加了一個BN層。第三個對照模型與第二個對照模型相比增加了Stage4復制操作。該模型通過使用Stage4a和Stage4b分離粗粒度和細粒度特征空間。所提模型可以通過在第二個對照模型中添加協(xié)同注意模塊來獲得。實驗將所提方法與所有對照方法進行了比較。為了充分證明所提模型的有效性,在已知組標簽的情況下也進行了類別檢索的相關實驗。在表2中列出了這些模型在Softmax損失函數優(yōu)化下的實驗結果。可以看出,在損失函數相同的情況下,所提方法的綜合性能最好。從第一個基線模型到所提模型,組別標簽未知時,mAP從36.6%上升到43.0%,組別標簽已知時,mAP從54.2%上升到57.9%。

對比對照模型的實驗結果,可以得出結論,Stage4的復制分離了粗粒度和細粒度級別的特征空間,緩解了不同尺度之間的沖突。此外,協(xié)同關注模塊融合了類級和組級的層級關系信息,提高了模型的性能。

3.4.2 與相關文獻方法對比實驗結果

除了與設計的對照模型比較外,實驗還包括與文獻[18]中最先進的(SOTA)模型與文獻[17]中基于自注意力機制的檢索模型的比較。SOTA模型是為了解決商品分類問題而設計的。該SOTA模型同樣采用ResNet作為骨干網,并使用一種特殊的池化操作——廣義均值(GeM)對ResNet輸出的特征圖進行池化。在池化之后,使用兩個BN和FC層分別對組和類進行分類。文獻[17]使用將主干網提取到的局部特征經過自注意力模塊得到局部融合特征并加在原來的局部特征之后得到最終融合特征進行圖像的檢索。

為了進一步驗證所提方法的有效性,實驗在每個模型上分別使用了不同的基于分類的損失函數,即Softmax損失,Cosface和Arcface。從表3可以看出,所提模型與文獻[18]中SOTA模型和文獻[17]中基于自注意力模塊的方法相比性能是最好的。在測試階段,SOTA模型最后一個FC層將被移除用于圖像檢索,與所提方法進行比較。實驗結果表明,在使用Softmax損失函數進行訓練時,所提模型和SOTA模型的性能都是最好的。在使用Softmax損失函數的情況下,無論組別標簽是否已知,所提模型總是表現最佳。

表3 與SOTA模型的實驗結果比較 %

此外,在檢測速度上,所提方法的檢索速度與文獻[18]與文獻[17]相差不大。所提方法的檢索速度為5.4e-4s/張,文獻[18]和文獻[17]的檢索速度分別為4.0e-4s/張和5.3e-4s/張??梢钥吹?所提方法在沒有顯著增加檢索時間的基礎上顯著提高了性能。

4 結束語

利用多尺度度量學習的方法,解決了大規(guī)模商品識別中使用有限類別的圖像識別新增類別商品圖像的問題。重點提出了一種充分利用商品圖像多尺度信息的MSML模型。在大規(guī)模商品圖像檢索數據集上的實驗結果表明,該方法是有效的,顯著提高了商品識別的綜合性能。

猜你喜歡
粗粒度細粒度類別
一種端到端的加密流量多分類粗粒度融合算法*
通信技術(2022年11期)2023-01-16 15:05:40
融合判別性與細粒度特征的抗遮擋紅外目標跟蹤算法
紅外技術(2022年11期)2022-11-25 03:20:40
細粒度的流計算執(zhí)行效率優(yōu)化方法
高技術通訊(2021年1期)2021-03-29 02:29:24
基于卷積神經網絡的粗粒度數據分布式算法
在線評論情感分析研究綜述
軟件導刊(2018年2期)2018-03-10 20:29:13
基于雙線性卷積網絡的細粒度圖像定位
支持細粒度權限控制且可搜索的PHR云服務系統(tǒng)
基于公共池自適應遷移策略的并行遺傳算法
服務類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
潜山县| 称多县| 通海县| 大庆市| 新泰市| 汨罗市| 蒙城县| 石阡县| 武胜县| 邓州市| 金湖县| 大埔区| 岳阳市| 滦南县| 噶尔县| 金坛市| 余干县| 县级市| 和硕县| 万安县| 三台县| 阿拉尔市| 手游| 大埔区| 涿州市| 柏乡县| 丹凤县| 达日县| 萨嘎县| 筠连县| 莆田市| 临潭县| 临沧市| 宁阳县| 芜湖县| 玛沁县| 阿拉善左旗| 沽源县| 慈溪市| 惠州市| 从江县|