卷積神經(jīng)網(wǎng)絡(luò)在圖像目標(biāo)檢測(cè)中的應(yīng)用

2024-01-09 02:58:32程卓

電視技術(shù) 2023年11期

程卓

（貴陽(yáng)職業(yè)技術(shù)學(xué)院，貴州貴陽(yáng) 550081）

0 引言

在當(dāng)前互聯(lián)網(wǎng)環(huán)境中，圖像和視頻數(shù)據(jù)的廣泛傳播推動(dòng)了搜索應(yīng)用和圖像識(shí)別算法的不斷發(fā)展。這些算法在圖像標(biāo)注、物體檢測(cè)和場(chǎng)景分類等領(lǐng)域取得了重大突破[1]。與此同時(shí)，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）在多個(gè)模式和圖像識(shí)別應(yīng)用中得到了高效的應(yīng)用，如手勢(shì)識(shí)別、人臉識(shí)別、物體分類和生成場(chǎng)景描述[2]。這些應(yīng)用的成功整合得益于深度學(xué)習(xí)算法的研究和豐富的開(kāi)源標(biāo)記數(shù)據(jù)集，如ImageNet、CIFAR 等[3]。

本文的核心目標(biāo)是分析不同類型的預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型在物體檢測(cè)方面的性能差異，將重點(diǎn)評(píng)估AlexNet、GoogleNet（Inception 模型）和ResNet50這3 種CNN 模型。對(duì)這3 種神經(jīng)網(wǎng)絡(luò)的圖像檢測(cè)性能進(jìn)行詳細(xì)評(píng)估和比較，以了解它們?cè)趫D像識(shí)別過(guò)程的能力。

1 評(píng)估方法

1.1 CNN 模型結(jié)構(gòu)

本文提到的3 個(gè)CNN 模型都包含以下幾個(gè)關(guān)鍵層次。這些層次在圖像目標(biāo)識(shí)別任務(wù)中扮演不同的角色。

輸入層（Input Layer）是每個(gè)CNN 的第一層，接受原始圖像數(shù)據(jù)，通常會(huì)對(duì)輸入圖像進(jìn)行大小調(diào)整，以滿足模型的輸入要求，通常是固定大小的圖像。

卷積層（Convolutional Layers）是CNN 的核心組件，充當(dāng)圖像的過(guò)濾器，用來(lái)提取圖像中的特征。通過(guò)卷積操作，卷積層會(huì)在圖像上滑動(dòng)一些濾波器（卷積核），從圖像中捕捉不同的特征，如邊緣、紋理等。卷積層的輸出通常稱為特征圖，表示圖像中不同位置的特征[4]。

池化層（Pooling Layers）通常緊隨卷積層之后，主要功能是減小特征圖的尺寸，同時(shí)保留重要信息。最常見(jiàn)的池化操作是最大池化，保留每個(gè)池化窗口中的最大值，從而保持最顯著的特征。

線性整流單元層（ReLU Layers）接在池化層之后，作用是將特征圖中的負(fù)值轉(zhuǎn)換為零，同時(shí)保持正值不變，有助于增加網(wǎng)絡(luò)的非線性性，使其能夠?qū)W習(xí)更復(fù)雜的特征和模式。

全連接層（Fully Connected Layers）是CNN 的最后一層，通常用于將高級(jí)特征翻譯成與類別標(biāo)簽相關(guān)的輸出。這一層將前面層提取的特征映射到類別的概率分布，通常使用softmax 函數(shù)來(lái)獲得預(yù)測(cè)概率。全連接層將網(wǎng)絡(luò)的輸出與特定的類別進(jìn)行匹配，以實(shí)現(xiàn)圖像目標(biāo)識(shí)別[5-6]。

1.2 評(píng)估方法步驟

3 個(gè)CNN 模型的性能評(píng)估具體執(zhí)行步驟如下。

第一，創(chuàng)建訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。首先，從超級(jí)類別的圖像數(shù)據(jù)中選擇一組圖像用于訓(xùn)練和測(cè)試。對(duì)于AlexNet，這些圖像通常被調(diào)整為（224，244）像素大小。對(duì)于GoogleNet 和ResNet50，圖像通常被調(diào)整為（227，227）像素大小。數(shù)據(jù)集隨后被劃分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集兩個(gè)部分。訓(xùn)練數(shù)據(jù)集用于模型的訓(xùn)練，驗(yàn)證數(shù)據(jù)集用于模型性能的評(píng)估。

第二，修改CNN 網(wǎng)絡(luò)。對(duì)于每個(gè)CNN 模型，需要根據(jù)任務(wù)的特定需求來(lái)修改模型的結(jié)構(gòu)。通常，最后兩層將被替換為全連接層和分類輸出層。全連接層的大小通常設(shè)置為與訓(xùn)練數(shù)據(jù)集中的類別數(shù)相同，以確保模型能夠進(jìn)行適當(dāng)?shù)姆诸??？赡苓€需要調(diào)整全連接層的學(xué)習(xí)率，以加快網(wǎng)絡(luò)訓(xùn)練的速度。

第三，訓(xùn)練網(wǎng)絡(luò)。在此步驟中，需要設(shè)置一些訓(xùn)練選項(xiàng)，包括學(xué)習(xí)率、批量大小以及用于驗(yàn)證網(wǎng)絡(luò)性能的驗(yàn)證數(shù)據(jù)。學(xué)習(xí)率用來(lái)控制權(quán)重更新的速度，批量大小指定一次性用于更新權(quán)重的訓(xùn)練樣本數(shù)量。驗(yàn)證數(shù)據(jù)用于定期評(píng)估網(wǎng)絡(luò)在不同訓(xùn)練周期中的性能。

第四，測(cè)試網(wǎng)絡(luò)的準(zhǔn)確性。使用已經(jīng)微調(diào)的CNN 模型對(duì)驗(yàn)證數(shù)據(jù)集中的圖像進(jìn)行分類。模型將對(duì)每個(gè)圖像進(jìn)行分類，并輸出類別標(biāo)簽的概率分布。然后，可以計(jì)算分類準(zhǔn)確度，即模型正確分類的圖像所占的比例。這個(gè)指標(biāo)用來(lái)評(píng)估模型的性能和精確度，以確定哪個(gè)模型在圖像分類任務(wù)中表現(xiàn)得更好。

2 對(duì)比測(cè)試

2.1 測(cè)試數(shù)據(jù)集

CIFAR-100 圖像數(shù)據(jù)集包含多個(gè)通用物體圖像的超類別，以及每個(gè)超類別的多個(gè)子類別。CIFAR-100 數(shù)據(jù)集共有100 個(gè)圖像類別，每個(gè)類別都有600 張圖像。這600 張圖像分為每個(gè)類別的500 張訓(xùn)練圖像和100 張測(cè)試圖像，總共有60 000張不同的圖像。

CIFAR-10 數(shù)據(jù)集包含32×32 像素的彩色圖像，分為10 個(gè)類別，每個(gè)類別有6 000 張圖像，總共有60 000 張圖像，包括50 000 張訓(xùn)練圖像和10 000張測(cè)試圖像。數(shù)據(jù)集分為5 個(gè)訓(xùn)練批次和1 個(gè)測(cè)試批次，每個(gè)批次包含10 000 張圖像。測(cè)試圖像是從每個(gè)類別中隨機(jī)選擇的。

為了進(jìn)行研究，需要從每個(gè)超類別中選擇一些通用類別用于網(wǎng)絡(luò)的訓(xùn)練。本文研究所選的超類別包括床、自行車、公共汽車、椅子、沙發(fā)、摩托車、有軌電車、桌子、火車和衣柜。這些類別將用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)，以便進(jìn)行后續(xù)的性能比較。

2.2 測(cè)試結(jié)果對(duì)比

性能分析是通過(guò)在CIFAR-100 和CIFAR-10數(shù)據(jù)集上測(cè)試每個(gè)CNN 網(wǎng)絡(luò)模型的圖像分類算法進(jìn)行的。表1 和表2 分別顯示了不同CNN 模型在CIFAR-100 和CIFAR-10 測(cè)試數(shù)據(jù)集上不同圖像類別的分類準(zhǔn)確性。這兩個(gè)表格列出了不同圖像類別以及每個(gè)CNN 模型在該類別上正確識(shí)別的圖像數(shù)量百分比。

表1 不同CNN 模型在CIFAR-100 測(cè)試數(shù)據(jù)集上的分類準(zhǔn)確率單位：%

表2 不同CNN 模型在CIFAR-10 測(cè)試數(shù)據(jù)集上的分類準(zhǔn)確率單位：%

表3 是3 個(gè)CNN 模型對(duì)自行車的預(yù)測(cè)結(jié)果，顯示了3 個(gè)網(wǎng)絡(luò)模型對(duì)自行車類的預(yù)測(cè)準(zhǔn)確性。從表3 可以看到，AlexNet 對(duì)自行車類的最高預(yù)測(cè)是摩托車，預(yù)測(cè)能力稍差。GoogleNet 在預(yù)測(cè)過(guò)程中表現(xiàn)最佳，ResNet 的預(yù)測(cè)結(jié)果性能居中。

表3 不同CNN 模型對(duì)CIFAR-100 數(shù)據(jù)集的自行車類別預(yù)測(cè)準(zhǔn)確度對(duì)比

表4 展示了不同CNN 模型對(duì)船類別的結(jié)果，其中每個(gè)網(wǎng)絡(luò)的預(yù)測(cè)標(biāo)簽和得分顯示了它們對(duì)對(duì)象的檢測(cè)準(zhǔn)確性。對(duì)于CIFAR-100 數(shù)據(jù)集的大多數(shù)類別，GoogleNet 通常提供了正確的標(biāo)簽和分類，而ResNet50 在CIFAR-100 類別識(shí)別中表現(xiàn)中等。然而，在CIFAR-10 數(shù)據(jù)集上，ResNet50 提供了最佳的分類結(jié)果。這可能是因?yàn)榇蠖鄶?shù)分類器是針對(duì)包含簡(jiǎn)單、細(xì)微特征的物體類別進(jìn)行訓(xùn)練的，因此網(wǎng)絡(luò)模型可能會(huì)在物體的外觀和屬性上產(chǎn)生混淆。

表4 不同CNN 模型對(duì)CIFAR-10 數(shù)據(jù)集的自行車類別預(yù)測(cè)準(zhǔn)確度對(duì)比

觀察所有表格結(jié)果可以看出，不同CNN 模型在不同類別圖像上的分類準(zhǔn)確性存在差異。本文使用以下方法來(lái)計(jì)算CNN 模型生成的輸入類別的概率分布。這種方法關(guān)注目標(biāo)識(shí)別過(guò)程中最有可能被識(shí)別出的前10 個(gè)類別。首先，基于圖像的概率分布，將每個(gè)圖像分為前10 個(gè)最有可能的類別之一。其次，計(jì)算每個(gè)圖像在每個(gè)目標(biāo)類別下被分類的次數(shù)。利用上述方法進(jìn)行計(jì)算獲得的結(jié)果如表5 所示。通過(guò)對(duì)比可以看出，GoogleNet 和ResNet50 網(wǎng)絡(luò)模型的性能要優(yōu)于AlexNet 模型。

表5 不同CNN 模型對(duì)CIFAR-10 數(shù)據(jù)集自行車類別的預(yù)測(cè)準(zhǔn)確度對(duì)比單位：%

3 結(jié)語(yǔ)

本文分析了3 種不同的CNN 模型在CIFAR-10和CIFAR-100 數(shù)據(jù)集上的預(yù)測(cè)準(zhǔn)確性，提供了詳細(xì)的預(yù)測(cè)分析方法，比較了這些網(wǎng)絡(luò)在不同類別物體上的預(yù)測(cè)性能。盡管在現(xiàn)實(shí)生活中，床、沙發(fā)和椅子等物體是不同且容易識(shí)別的，但經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)模型仍可能出現(xiàn)混淆和錯(cuò)誤結(jié)果，因此它們的準(zhǔn)確率有所不同。這些研究結(jié)果有助于深入了解CNN在圖像分類任務(wù)中的性能和適用性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡