国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于YOLOv5的室內(nèi)小物品識別定位關(guān)鍵算法研究

2024-05-19 14:36:42王映暉邱文惠劉廣臣
電腦知識與技術(shù) 2024年7期
關(guān)鍵詞:目標(biāo)檢測

王映暉 邱文惠 劉廣臣

摘要:對于盲人而言,室內(nèi)尋找水杯、毛巾、遙控器等物品是日常生活中必不可少的技能。由于他們無法依靠視覺來定位和識別物品,因此必須依賴其他感官或工具來進(jìn)行這項(xiàng)行動。針對盲人尋物困難的痛點(diǎn), 因此主要研究YOLOv5與訓(xùn)練個(gè)性化數(shù)據(jù)集、目標(biāo)檢測技術(shù)對室內(nèi)目標(biāo)進(jìn)行檢測和定位的理論和實(shí)現(xiàn),輔以Kaldi技術(shù)進(jìn)行語音交互,實(shí)現(xiàn)輔助視障人士智能化搜尋和識別室內(nèi)物品。基于YOLOv5訓(xùn)練個(gè)性化數(shù)據(jù)與特征提取,用于后期物體識別與定位提供數(shù)據(jù)支持。最后,基于YOLOv5目標(biāo)檢測算法與單目測距進(jìn)行目標(biāo)物體的識別與定位。實(shí)驗(yàn)結(jié)果表明該算法可以準(zhǔn)確地識別和定位小物品,實(shí)現(xiàn)了室內(nèi)導(dǎo)航的基本功能。

關(guān)鍵詞:YOLOv5;目標(biāo)檢測;Kaldi;語音交互;單目測距

中圖分類號:TP312? ? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2024)07-0015-03

開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID)

0 引言

根據(jù)世界衛(wèi)生組織2014年的統(tǒng)計(jì)數(shù)據(jù),全球有2.17億人患有中度至重度視力障礙,3 600萬人失明[1]。到2025年,這個(gè)數(shù)字可能會超過5.5億。我國是全世界盲人最多的國家之一,中國盲人群體數(shù)量龐大,占世界盲人總數(shù)的18%。隨著國家經(jīng)濟(jì)發(fā)展加快以及對殘障人士的關(guān)注支持力度加大,大多數(shù)盲人生活水平有大幅度提高。面對數(shù)量如此巨大的盲人群體,解決因視力障礙帶來的生活困難成了研究者共同關(guān)注的問題,然而各異的致盲原因和盲人群體的經(jīng)濟(jì)水平,使得生物技術(shù)無法完全解決盲人問題。而室內(nèi)小物品定位與識別導(dǎo)航技術(shù)大多需要在被定位物體上安裝標(biāo)簽或者終端設(shè)備,在一些特殊環(huán)境下存在著一定的局限性。

針對盲人導(dǎo)盲輔助設(shè)備的外觀設(shè)計(jì),基本分為三大類[2],分別是手杖類、穿戴類、移動類輔助工具,如斯坦福大學(xué)智能系統(tǒng)實(shí)驗(yàn)室的博士后帕特里克·斯萊德(Patrick Slade) 研發(fā)的基于超聲波傳感器的增強(qiáng)型手杖[3]、宛處好等人[4]研發(fā)的基于地圖定位與卷積神經(jīng)網(wǎng)絡(luò)的可穿戴智能導(dǎo)盲設(shè)備、李達(dá)等人[5]研制的導(dǎo)盲機(jī)器人。萬子樸等人[6]研究了一種基于RFID射頻識別的盲人尋物器;林會祺等人[7]研究了一種基于YOLOv3算法和超聲波測距的AI智能導(dǎo)盲眼鏡設(shè)計(jì);洪毅[8]研究了一種基于紅外線傳感器、超聲波傳感器、激光雷達(dá)的電子導(dǎo)盲車和一種基于Unity3D的聽覺空間感知導(dǎo)盲系統(tǒng);陳曉燕[9]研究了一種基于射頻識別技術(shù)來實(shí)現(xiàn)環(huán)境識別、局部導(dǎo)航以及通過SIM868模塊實(shí)現(xiàn)GPS定位且具有GPRS、GSM功能的導(dǎo)盲杖;吳濤[10]提出了一種基于邊緣的自動種子點(diǎn)深度圖像分割算法以通過自適應(yīng)的邊緣檢測算法找到圖像中的物體輪廓邊緣的圖像處理技術(shù)和基于RGB-D的室內(nèi)電子導(dǎo)盲系統(tǒng)研究。

本文提出YOLOv5及單目測距進(jìn)行目標(biāo)識別與定位,相比于以上幾種技術(shù),YOLOv5及單目測距進(jìn)行目標(biāo)識別與定位具有結(jié)構(gòu)簡單、適應(yīng)能力強(qiáng)等優(yōu)點(diǎn),YOLOv5通過攝像頭來獲取視覺信息,可以獲取更為豐富的室內(nèi)環(huán)境信息,且隨著圖像處理技術(shù)的深入發(fā)展,使得該項(xiàng)目具有更廣闊的發(fā)展平臺,該項(xiàng)目所提供的交互式信息輸入與輸出具有一定的創(chuàng)新性。

1 室內(nèi)小物品定位與識別算法設(shè)計(jì)

本課題圍繞在室內(nèi)生活相對靜止的環(huán)境中,對多目標(biāo)、小物品的識別及定位導(dǎo)航問題。課題內(nèi)研究思路框架如圖1所示:

1.1 語音信號輸入

要想使用Kaldi對語音數(shù)據(jù)進(jìn)行識別,通常需要將語音數(shù)據(jù)切割成較短的語音片段,以便于后續(xù)的特征提取和模型訓(xùn)練。在Kaldi中,語音建模是語音識別的核心部分,它將特征數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模,建立起音素、詞、句子等語音單位之間的映射關(guān)系。常用的建模方法包括隱馬爾可夫模型(HMM) 和深度神經(jīng)網(wǎng)絡(luò)(DNN) 等。

1.2 YOLOv5模型建立

要進(jìn)行模型訓(xùn)練首先要進(jìn)行圖像特征標(biāo)定,選擇利用labelimg進(jìn)行圖像特征標(biāo)定,對收集好的數(shù)據(jù)集進(jìn)行分類,分為訓(xùn)練集與驗(yàn)證集,以便進(jìn)一步利用YOLOv5訓(xùn)練圖像識別模型,通過對模型權(quán)重等參數(shù)的調(diào)整,進(jìn)行圖像識別模型的訓(xùn)練。

1.3 圖像識別與測距

用攝像頭采集圖片,將三維場景投影到攝像機(jī)二維像平面上,主要利用小孔成像模型求解,即任意點(diǎn)P1 在圖像中的投影位置P1'為光心O與 P1點(diǎn)的連線與圖像平面的交點(diǎn)。F為攝像頭的焦距,C為鏡頭光心。物體發(fā)出的光經(jīng)過相機(jī)的光心,然后成像于圖像傳感器或者也可以說是像平面上。如果設(shè)物體所在平面與相機(jī)平面的距離為D,目標(biāo)框?qū)嶋H寬度P1和P2之間的寬度為W,且W是已知量,攝像頭采集到圖像內(nèi)目標(biāo)的P1'和P2'寬度為P,根據(jù)公式可以求得距離D。目標(biāo)識別算法標(biāo)出了圖像區(qū)域的范圍以及矩形框的長寬,所以圖像中的距離P可以得到。W為實(shí)際圖片中的邊長,為已知量,攝像頭焦距F也已知,故可求出距離D。已知物體尺寸的單目視覺測距是指在已知物體信息的條件下,利用攝像頭獲得的目標(biāo)圖片得到深度信息[11]。

在眾多測距方式中,筆者選擇利用攝像頭進(jìn)行視頻測距,與前面介紹的幾種算法相比較,視頻測距最大的不同是被動式的測距。它不需要向被測物體發(fā)射任何信號或接收信號,只需要拍攝下包含所需要目標(biāo)的視頻或者圖片就可以根據(jù)需要對目標(biāo)進(jìn)行距離的測量。另外,由于圖像中往往包含的信息量很大,利用圖像處理技術(shù)識別并提取這些信息,能夠獲得更多的數(shù)據(jù)信息,可以提高判斷的精度。隨著圖像處理速度的提高和技術(shù)的不斷完善,視頻測距技術(shù)的應(yīng)用前景也越來越廣闊[12]。

要實(shí)現(xiàn)單目測距[13]需要定義兩個(gè)變量:分別是焦距、待測物品高度。然后再定義一個(gè)自定義函數(shù),用于進(jìn)行單目測距。這兩個(gè)函數(shù)都有一個(gè)參數(shù)h,表示檢測到的目標(biāo)高度,通過目標(biāo)高度、焦距和實(shí)際高度計(jì)算目標(biāo)與相機(jī)之間的距離。函數(shù)中使用英寸作為距離單位,最后將距離轉(zhuǎn)換為米作為距離單位并返回。

在圖像識別的過程中,在計(jì)算待測物品與攝像頭的距離之前,應(yīng)當(dāng)針對物品的置信度進(jìn)行篩選,即為識別精度,如公式(1) :

[D=F×WP]? ?(1)

式中:D為目標(biāo)到攝像機(jī)的距離;F為攝像機(jī)焦距;W為目標(biāo)的寬度或者高度;P為目標(biāo)在圖像中所占據(jù)的x方向像素(寬)或者y方向像素(高)。

確定好焦距與和待測物品高度(單位為英寸),經(jīng)過轉(zhuǎn)換,最終得到單位為米的距離。

1.4 語音信號輸出

在得到攝像頭距待測物品的距離之后,通過Python的pyttsx3庫,將數(shù)據(jù)轉(zhuǎn)化為文字信息,傳遞給語音合成引擎,然后引擎將文本轉(zhuǎn)換為音頻文件,并通過操作系統(tǒng)的音頻設(shè)備進(jìn)行播放,以此進(jìn)行對距離的語音播報(bào),并通過setProperty函數(shù)進(jìn)行語速與音量的設(shè)置。

1.5 模型評價(jià)標(biāo)準(zhǔn)與回測

平均精確度(mAP) 是目標(biāo)檢測中常用的評價(jià)指標(biāo)之一,象征著模型的推理的準(zhǔn)確程度。

精確度(Precision) 和召回率(Recall) 通常是一對矛盾的指標(biāo),精確度是指模型在檢測出的目標(biāo)中真正正確的比例,召回率是指模型在所有正確目標(biāo)中檢測到真正正確的比例。

錯誤率(Error Rate) 是指模型在目標(biāo)檢測過程中的錯誤率,包括漏檢和誤檢。

定位誤差(Localization Error) 是指模型檢測到的目標(biāo)位置與真實(shí)目標(biāo)位置之間的誤差。通常使用IoU(Intersection over Union) 作為定位誤差的度量,IoU是指檢測到的目標(biāo)框與真實(shí)目標(biāo)框的交集面積與并集面積之比。

處理速度(Inference Speed) 是指模型在實(shí)際應(yīng)用中的推理速度,包括模型的前向推理和后處理時(shí)間。

模型的回測(Retrospective Evaluation) 指的是在模型訓(xùn)練完畢后,使用之前保留的測試集或驗(yàn)證集數(shù)據(jù)對模型進(jìn)行評估的過程。

當(dāng)模型訓(xùn)練完畢后,可以使用測試集數(shù)據(jù)對模型進(jìn)行回測。通常,回測過程會使用之前保留的測試集數(shù)據(jù)輸入已經(jīng)訓(xùn)練好的模型中,獲取模型的檢測結(jié)果,并與真實(shí)標(biāo)簽進(jìn)行比較,計(jì)算模型在測試集上的性能指標(biāo),如平均精確度、精確度、召回率、錯誤率、定位誤差等。通過回測評估模型在未見過數(shù)據(jù)上的性能,可以更全面地了解模型的性能表現(xiàn),并對模型進(jìn)行調(diào)整和改進(jìn)。

2 算法實(shí)證研究

2.1 數(shù)據(jù)集來源與預(yù)處理

本文選用自主拍攝物品圖像,利用Labelimg自主標(biāo)注。

首先,需要準(zhǔn)備包含目標(biāo)檢測樣本的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集應(yīng)該包括目標(biāo)物體(水杯、手機(jī)等)的圖像以及相應(yīng)的標(biāo)注信息。

其次,將整個(gè)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集對模型進(jìn)行訓(xùn)練。本文采用的文件夾劃分,將數(shù)據(jù)集中的樣本按照存儲文件夾進(jìn)行劃分。比例根據(jù)數(shù)據(jù)量不同有所不同,本文按96%:2%:2%進(jìn)行劃分。在進(jìn)行數(shù)據(jù)集劃分時(shí),保持訓(xùn)練集和測試集的數(shù)據(jù)分布一致性。

2.2 實(shí)驗(yàn)結(jié)果

對模擬結(jié)果進(jìn)行分析,可以計(jì)算模型的準(zhǔn)確率、召回率等性能指標(biāo),也可以可視化輸出結(jié)果以便觀察。如果結(jié)果不夠理想,可以通過調(diào)整模型參數(shù)或者增加數(shù)據(jù)集的大小來改進(jìn)模型性能,也可以對檢測結(jié)果進(jìn)行后處理,包括非極大值抑制(NMS) 等處理方式,以去除重疊的檢測框并選擇置信度較高的檢測結(jié)果。

YOLOv5模型的推理速度相較于其訓(xùn)練速度較快,可以在實(shí)時(shí)或近實(shí)時(shí)的應(yīng)用場景中進(jìn)行目標(biāo)檢測和定位,在訓(xùn)練完成后,檢測物品的實(shí)例如圖4所示。

3 結(jié)論

本文提出一種基于YOLOv5模型識別生活中小物品與對其進(jìn)行單目測距的算法設(shè)計(jì)。由于YOLOv5深度學(xué)習(xí)模型高度的穩(wěn)定性和準(zhǔn)確性,較為適合用來進(jìn)行小目標(biāo)的檢測與識別。設(shè)備利用攝像頭采集圖像,YOLOv5模型配合攝像頭單目測距原理對用戶與物品之間的距離進(jìn)行判斷,設(shè)備同時(shí)將距離轉(zhuǎn)化為語音信號播報(bào)出來,實(shí)現(xiàn)實(shí)時(shí)提醒用戶距離待尋物品的距離,從而達(dá)到在無他人協(xié)助的前提下,實(shí)時(shí)指導(dǎo)盲人用戶尋找室內(nèi)小物品的需求,解決了傳統(tǒng)方式準(zhǔn)確率低、信息滯后的問題。

參考文獻(xiàn):

[1] 武曌晗,榮學(xué)文,范永.導(dǎo)盲機(jī)器人研究現(xiàn)狀綜述[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(14):1-13.

[2] BOURNE R R A,F(xiàn)LAXMAN S R,BRAITHWAITE T,et al.Magnitude,temporal trends,and projections of the global prevalence of blindness and distance and near vision impairment:a systematic review and meta-analysis[J].The Lancet Global Health,2017,5(9):e888-e897.

[3] Patrick Slade et al.Science Robotics 6[J].Issue 59,2021.

[4] 宛處好,陳雨濛,楊力川,等.一種可穿戴式智能導(dǎo)盲裝置:CN110623820A[P].2019-12-31.

[5] 李達(dá),付開磊,王兵雷,等.一種導(dǎo)盲機(jī)器人:[P].甘肅:CN206285242U, 2017- 06-30.

[6] 萬子樸,胡宸瑞哲,周煜然,等.一種基于RFID射頻識別的盲人尋物器:CN208000669U[P].2018-10-23.

[7] 林會祺,周義濤,翁名鍵,等.AI智能導(dǎo)盲眼鏡的設(shè)計(jì)與實(shí)現(xiàn)[J].信息與電腦(理論版),2021,33(6):171-173.

[8] 洪毅.電子導(dǎo)盲系統(tǒng)研究及應(yīng)用[D].廣州:廣東工業(yè)大學(xué),2021.

[9] 陳曉燕.基于RFID、GPS實(shí)現(xiàn)環(huán)境識別、路徑查看的導(dǎo)盲杖[D].保定:河北大學(xué),2019.

[10] 吳濤.基于RGB-D的室內(nèi)電子導(dǎo)盲系統(tǒng)研究[D].西安:西安科技大學(xué),2018.

[11] 王文勝,李繼旺,吳波,等.基于YOLOv5交通標(biāo)志識別的智能車設(shè)計(jì)[J].國外電子測量技術(shù),2021,40(10):158-164.

[12] 黎曉珊.《中國視頻社會化趨勢報(bào)告》發(fā)布[N].人民日報(bào), 2020-11-26.

[13] 王士明.基于計(jì)算機(jī)視覺的車輛單目測距系統(tǒng)研究[D].天津:天津大學(xué),2012.

【通聯(lián)編輯:唐一東】

猜你喜歡
目標(biāo)檢測
多視角目標(biāo)檢測與跟蹤技術(shù)的研究與實(shí)現(xiàn)
視頻中目標(biāo)檢測算法研究
軟件(2016年4期)2017-01-20 09:38:03
行為識別中的人體運(yùn)動目標(biāo)檢測方法
移動機(jī)器人圖像目標(biāo)識別
基于視頻監(jiān)控的運(yùn)動圖像檢測算法研究
基于背景建模法的運(yùn)動目標(biāo)檢測
基于P3電位的目標(biāo)檢測研究
科技視界(2016年4期)2016-02-22 13:09:19
智能視頻技術(shù)在電力系統(tǒng)領(lǐng)域的應(yīng)用
相關(guān)K分布雜波中擴(kuò)展目標(biāo)積累檢測性能分析
基于連通域標(biāo)記的目標(biāo)檢測算法設(shè)計(jì)與實(shí)現(xiàn)
汝南县| 贡嘎县| 东港市| 安义县| 龙泉市| 克拉玛依市| 景宁| 武平县| 环江| 临沂市| 仲巴县| 女性| 漾濞| 绍兴市| 武城县| 浏阳市| 始兴县| 松潘县| 恩平市| 松滋市| 公主岭市| 龙江县| 麦盖提县| 奎屯市| 惠水县| 蕲春县| 新巴尔虎右旗| 油尖旺区| 焦作市| 桃园市| 江西省| 南华县| 石城县| 靖西县| 木里| 土默特左旗| 祥云县| 黄陵县| 府谷县| 赤水市| 射洪县|