摘 要:針對(duì)標(biāo)注內(nèi)容煩瑣、耗時(shí)等問題,提出一種多模型融合投票預(yù)標(biāo)注方法。在預(yù)標(biāo)注過程中,將Cascade_RCNN、RetinaNet、CondLaneNet三個(gè)模型的檢測(cè)結(jié)果進(jìn)行融合,然后將各個(gè)模型生成的坐標(biāo)結(jié)果進(jìn)行提取、判斷、匹配、參數(shù)平均、排序等處理,得到最終的預(yù)標(biāo)注結(jié)果。在公開數(shù)據(jù)集以及自建數(shù)據(jù)集上進(jìn)行多次試驗(yàn)的結(jié)果表明,算法能夠提高預(yù)標(biāo)注精度,減少標(biāo)注過程中人工標(biāo)注工作量,具有較好的效果,驗(yàn)證了該方法的有效性。
關(guān)鍵詞:深度學(xué)習(xí);目標(biāo)檢測(cè);車道線檢測(cè);預(yù)標(biāo)注;模型融合
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)16-0034-05
Research on Pre-labelling Algorithm for Multi-model Fusion Voting
Abstract: Aiming at the two problems of cumbersome and time-consuming annotation content, a pre-labelling algorithm for multi-model fusion voting is proposed. In the pre-labelling process, the detection results of the three models of Cascade_RCNN, RetinaNet and CondLaneNet are fused, and then the coordinate results generated by each model are processed by extracting, judging, matching, averaging of parameters, sorting and so on, to obtain the final pre-labelling results. The results of multiple tests on the public datasets and the self-constructed datasets show that the algorithm is able to improve the accuracy of pre-labelling and reduce the manual labelling workload in the process of labelling, which has a better effect and verifies the effectiveness of the method.
Keywords: Deep Learning; target detection; laneline detection; pre-labelling; model fusion
0 引 言
隨著人工智能不斷發(fā)展,作為人工智能的上游基礎(chǔ)行業(yè),數(shù)據(jù)標(biāo)注也隨之完成了產(chǎn)業(yè)升級(jí)。用人工智能實(shí)現(xiàn)對(duì)數(shù)據(jù)標(biāo)注的反哺已經(jīng)成為行業(yè)發(fā)展的重要驅(qū)動(dòng)力。其中,預(yù)標(biāo)注技術(shù)在其中發(fā)揮著關(guān)鍵作用。
預(yù)標(biāo)注是指利用算法模型進(jìn)行標(biāo)注,即標(biāo)注為算法提供原料,算法反哺數(shù)據(jù)標(biāo)注。早期模型是在已標(biāo)注好的數(shù)據(jù)集上訓(xùn)練,當(dāng)模型達(dá)到一定準(zhǔn)確度后,便可以讓其開始對(duì)原始數(shù)據(jù)自動(dòng)標(biāo)注。但目前在數(shù)據(jù)集方面大多仍舊采用手動(dòng)逐個(gè)標(biāo)注的方式,如目標(biāo)檢測(cè)在車輛的應(yīng)用中盲區(qū)監(jiān)測(cè)預(yù)警、車道線預(yù)警等功能依賴大量數(shù)據(jù)集,以供模型訓(xùn)練;但由于路面的場(chǎng)景復(fù)雜,目標(biāo)檢測(cè)類別繁多,導(dǎo)致人工標(biāo)注效率較低,耗時(shí)耗人。
預(yù)識(shí)別技術(shù)是一種基于人工智能算法的訓(xùn)練模式。在預(yù)識(shí)別技術(shù)中,通過對(duì)目標(biāo)檢測(cè)模型進(jìn)行預(yù)先訓(xùn)練,訓(xùn)練完成的模型即可對(duì)原始圖像進(jìn)行預(yù)識(shí)別,從而有效減少了標(biāo)注工作量、提升了標(biāo)注作業(yè)效率。
與普通圖像預(yù)識(shí)別相比,PC端預(yù)識(shí)別算法對(duì)檢測(cè)精度的要求比檢測(cè)速度要高,故需要進(jìn)一步優(yōu)化精度能力。為進(jìn)一步提升數(shù)據(jù)預(yù)標(biāo)注功能的精度,本文開發(fā)設(shè)計(jì)了一種多模型融合投票預(yù)標(biāo)注算法。該算法將原有的圖像預(yù)識(shí)別功能進(jìn)一步優(yōu)化,將訓(xùn)練得到的融合模型封裝為Docker鏡像,然后利用融合模型對(duì)不同樣本進(jìn)行訓(xùn)練,再進(jìn)行測(cè)試。測(cè)試結(jié)果表明:該預(yù)識(shí)別算法在樣本較少的情況下仍然具有較高的準(zhǔn)確率,具有較好的穩(wěn)定性和可靠性。測(cè)試準(zhǔn)確率達(dá)到了90%以上。
1 相關(guān)工作
1.1 單階段目標(biāo)檢測(cè)
近幾年,目標(biāo)檢測(cè)領(lǐng)域中被廣泛使用的算法主要分為兩類:?jiǎn)坞A段法和兩階段法。兩階段法也叫“兩次迭代”。其步驟包括:第一步,輸入圖像首先經(jīng)過一個(gè)候選框生成網(wǎng)各。在該過程中,我們將候選框與它對(duì)應(yīng)的目標(biāo)關(guān)聯(lián)起來,并通過學(xué)習(xí)對(duì)其進(jìn)行分類。第二步,經(jīng)過一個(gè)分類網(wǎng)絡(luò)對(duì)候選框的內(nèi)容進(jìn)行分類。在單階段算法中,第一步與第二步是并行的,并不會(huì)在一次迭代中完成。因此,在第一步和第二步之間,存在著一個(gè)中間的“等待”期。在這個(gè)等待期內(nèi),輸入圖像只經(jīng)過一個(gè)網(wǎng)絡(luò)。在這期間,生成的結(jié)果同時(shí)包含了位置和類別信息。
而單階段法則將這兩個(gè)步驟進(jìn)行了并行處理。與兩階段法相比,單階段法精度更高,但是計(jì)算量更大,運(yùn)算量也更大,因此它的運(yùn)行速度較慢。
Redmon等[1]提出了YOLO單階段目標(biāo)檢測(cè)算法,其直接完成從特征到分類、回歸的預(yù)測(cè),分類和回歸使用同一個(gè)全連接層實(shí)現(xiàn)。Liu等[2]提出了SSD目標(biāo)檢測(cè)網(wǎng)絡(luò),SSD整個(gè)網(wǎng)絡(luò)是全卷積網(wǎng)絡(luò),即經(jīng)過VGG16進(jìn)行特征提取后,提取38×38、19×19、10×10、5×5、3×3、1×1共6層不同尺度特征用于分類和回歸。
RetinaNet是一種用于目標(biāo)檢測(cè)的深度學(xué)習(xí)網(wǎng)絡(luò),Lin等[3]提出單階段目標(biāo)檢測(cè)相比多階段目標(biāo)檢測(cè)算法性能較差的原因在于正負(fù)樣本的篩選不均衡。多階段目標(biāo)檢測(cè)過程中,通過選擇性搜索(Selective Search)、RPN等方式可以過濾掉大量的背景框,然后通過篩選正負(fù)樣本(如1:3)的方式進(jìn)行訓(xùn)練。但是單階段的目標(biāo)檢測(cè)算法無法過濾這些背景框,導(dǎo)致正負(fù)樣本嚴(yán)重不均衡。因此提出Focal loss在訓(xùn)練的時(shí)候自適應(yīng)調(diào)整損失權(quán)重,使得模型關(guān)注難樣本的訓(xùn)練,同時(shí)提出RetinaNet目標(biāo)檢測(cè)框架。
1.2 兩階段目標(biāo)檢測(cè)
在兩階段目標(biāo)檢測(cè)模型中,Girshick等[4]提出了RCNN目標(biāo)檢測(cè)算法,其思想是使用selective search提取2 000個(gè)左右的預(yù)選框,然后resize到統(tǒng)一的尺度(因?yàn)楹竺娼覨C分類)進(jìn)行CNN特征提取,最后用FC進(jìn)行分類。在2015年,Girshick[5]提出了Fast_RCNN算法,F(xiàn)ast_RCNN的RoI仍然是通過Selective Search的方式進(jìn)行搜索,其速度較慢。Faster_RCNN在Fast_RCNN的基礎(chǔ)上提出RPN(Region Proposal Network)自動(dòng)生成RoI,極大地提高了預(yù)選框生成的效率。
Cascade_RCNN是由Cai等[6]在2017年提出的基于Faster_RCNN進(jìn)行改進(jìn)的版本。Cascade_RCNN提出級(jí)聯(lián)多個(gè)檢測(cè)頭來解決這個(gè)問題,整體的流程為:級(jí)聯(lián)多個(gè)檢測(cè)頭,每個(gè)檢測(cè)頭的IoU呈現(xiàn)遞增的情況,比如0.5、0.6、0.7,并不是采用相同的閾值(區(qū)別于Iterative BBox)。低級(jí)檢測(cè)頭采用低IoU閾值可以提高召回率,避免目標(biāo)丟失;后續(xù)的高級(jí)檢測(cè)頭在前一階段的基礎(chǔ)之上提高閾值可以提高檢測(cè)精度。
1.3 車道線檢測(cè)
在車道線檢測(cè)模型中,存在多種檢測(cè)方法與模型,例如傳統(tǒng)圖像方法,傳統(tǒng)圖像方法通過邊緣檢測(cè)濾波等方式分割出車道線區(qū)域,然后結(jié)合霍夫變換、RANSAC等算法進(jìn)行車道線檢測(cè)。這類算法需要人工手動(dòng)去調(diào)濾波算子,根據(jù)算法所針對(duì)的街道場(chǎng)景特點(diǎn)手動(dòng)調(diào)節(jié)參數(shù)曲線,工作量大且魯棒性較差,當(dāng)行車環(huán)境出現(xiàn)明顯變化時(shí),車道線的檢測(cè)效果不佳。
基于深度學(xué)習(xí)的方法中基于檢測(cè)的方法通常采用自頂向下的方法來預(yù)測(cè)車道線,這類方法利用車道線在駕駛視角自近處向遠(yuǎn)處延伸的先驗(yàn)知識(shí),構(gòu)建車道線實(shí)例。基于Anchor的方法設(shè)計(jì)線型Anchor,并對(duì)采樣點(diǎn)與預(yù)定義Anchor的偏移量進(jìn)行回歸。應(yīng)用非極大值抑制(NMS)選擇置信度最高的車道線。Li等[7]提出了LineCNN,使用從圖像邊界以特定方向發(fā)出的直線射線作為一組Anchor;Tabelini等[8]提出了LaneATT,一種基于線性型Anchor的池化方法結(jié)合注意力機(jī)制來獲取更多的全局信息。Liu[9]等人提出了一種自上而下的車道線檢測(cè)框架CondLaneNet,它首先檢測(cè)車道實(shí)例,然后動(dòng)態(tài)預(yù)測(cè)每個(gè)實(shí)例的線形。
基于關(guān)鍵點(diǎn)和參數(shù)曲線的方法中,Qu[10]等人提出了對(duì)局部模式進(jìn)行建模,并以自下而上的方式實(shí)現(xiàn)對(duì)全局結(jié)構(gòu)的預(yù)測(cè)FOLOLane。Tabelini[11]等人提出了通過多項(xiàng)式曲線回歸,輸出表示圖像中每個(gè)車道線的多項(xiàng)式。并維持高效性的PolyLaneNet。
1.4 本文工作
本文擬采用一個(gè)單階段目標(biāo)檢測(cè)模型RetinaNet,一個(gè)兩階段目標(biāo)檢測(cè)模型Cascade_RCNN,以及一個(gè)車道線檢測(cè)模型CondLaneNet進(jìn)行融合,總體步驟為將單階段目標(biāo)檢測(cè)模型與兩階段目標(biāo)檢測(cè)模型(模型A、B)的預(yù)測(cè)結(jié)果進(jìn)行投票,再加入模型C的車道線檢測(cè)模型的結(jié)果,并確保融合模型的精度較單個(gè)模型預(yù)測(cè)精度提高,生成最終的預(yù)標(biāo)注結(jié)果并進(jìn)行測(cè)試。實(shí)現(xiàn)了較高精度的預(yù)標(biāo)注結(jié)果,模型融合流程如圖1所示。
2 算法設(shè)計(jì)實(shí)現(xiàn)
2.1 模型網(wǎng)絡(luò)框架
2.1.1 單階段目標(biāo)檢測(cè)模型RetinaNet
RetinaNet可以看成是一個(gè)RPN網(wǎng)絡(luò),經(jīng)過Backbone進(jìn)行特征提取之后,接FPN(Feature Pyramid Networks)然后進(jìn)行分類和回歸的檢測(cè)。
在FPN中,采用的特征是P3、P4、P5,然后在P5上面進(jìn)行一次卷積5得到P6、在P6上進(jìn)行一次卷積得到P7,最終特征為P3、5GJn5bCXTflM7UdRlh+XnQ==P4、P5、P6、P7,相對(duì)于圖像下采樣了8、16、32、64、128倍。其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
2.1.2 兩階段目標(biāo)檢測(cè)模型Cascade_RCNN
Cascade_RCNN整體流程為級(jí)聯(lián)多個(gè)檢測(cè)頭,每個(gè)檢測(cè)頭的IoU呈現(xiàn)遞增的情況,比如0.5、0.6、0.7,并不是采用相同的閾值。低級(jí)檢測(cè)頭采用低IoU閾值可以提高召回率,避免目標(biāo)丟失;后續(xù)的高級(jí)檢測(cè)頭在前一階段的基礎(chǔ)之上提高閾值可以提高檢測(cè)精度。其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
Cascade_RCN5N損失函數(shù)采用多個(gè)檢測(cè)頭的分類損失+回歸損失,與Faster_RCNN檢測(cè)頭的損失一樣。分類用Cross Entropy,回歸用Smooth L1 Loss。
2.1.3 車道線檢測(cè)模型CondLaneNet
CondLaneNet是一種自上而下的車道線檢測(cè)框架,它首先檢測(cè)車道實(shí)例,然后動(dòng)態(tài)預(yù)測(cè)每個(gè)實(shí)例的線形。自頂向下的設(shè)計(jì)能夠更好地利用車道線的先驗(yàn)知識(shí),提高檢測(cè)實(shí)時(shí)性,同時(shí)在處理嚴(yán)重遮擋等情況下能夠獲得連續(xù)的車道線檢測(cè)實(shí)例。但預(yù)設(shè)Anchor形狀會(huì)影響檢測(cè)的靈活性。CondLaneNet網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2.2 數(shù)據(jù)集構(gòu)建
為滿足預(yù)標(biāo)注準(zhǔn)確度及模型訓(xùn)練泛化性要求,本文選取數(shù)據(jù)集包含園區(qū)、高速、城市和港口等場(chǎng)景,共包含311 538幀數(shù)據(jù)。其中,高速和城市場(chǎng)景數(shù)據(jù)為公開數(shù)據(jù)集,包括BDD100K目標(biāo)檢測(cè)數(shù)據(jù)、Culane車道線數(shù)據(jù)以及自建園區(qū)和港口場(chǎng)景數(shù)據(jù)。
對(duì)所有數(shù)據(jù)集圖像中包含的道路物體、車道線、可行駛區(qū)域進(jìn)行標(biāo)注。數(shù)據(jù)集中,用于目標(biāo)檢測(cè)的標(biāo)簽有小汽車、卡車、工程車輛、交通燈、交通標(biāo)志、行人、自行車、電動(dòng)車、路障等數(shù)十萬個(gè)標(biāo)簽數(shù)據(jù);且有超過十萬個(gè)車道線檢測(cè)標(biāo)注數(shù)據(jù)。
根據(jù)不同場(chǎng)景將數(shù)據(jù)集按8:1:1的比例分為訓(xùn)練集、測(cè)試集以及驗(yàn)證集三部分。
2.3 目標(biāo)檢測(cè)模型融合
多模型融合通常有以下3種方法[12]。
2.3.1 直接平均法
直接平均不同模型產(chǎn)生的類別置信度得到最終預(yù)測(cè)結(jié)果,如式(1):
2.3.2 加權(quán)平均法
在直接平均法的基礎(chǔ)上加入權(quán)重來調(diào)節(jié)不同模型輸出間的重要程度,如式(2):
其中,wi對(duì)應(yīng)第i個(gè)模型的權(quán)重,且必須滿足:
實(shí)際使用中,權(quán)重wi的取值可以根據(jù)不同模型在驗(yàn)證集上各自單獨(dú)的準(zhǔn)確率而定。簡(jiǎn)單說:準(zhǔn)確率高點(diǎn)的權(quán)重高點(diǎn),準(zhǔn)確率低點(diǎn)權(quán)重就小點(diǎn)。
2.3.3 投票法
少數(shù)服從多數(shù),投票數(shù)最多的類別作為最終預(yù)測(cè)結(jié)果。投票法前,先將模型各自預(yù)測(cè)的置信度基于閾值轉(zhuǎn)換為相應(yīng)的類別,那么對(duì)于某次預(yù)測(cè),就有兩種情況:某個(gè)類別獲得一半以上模型投票,則將樣本標(biāo)記為該類別;沒有任何類別獲得一半以上投票,則拒絕預(yù)測(cè)。模型拒絕預(yù)測(cè)時(shí)一般采用相對(duì)多數(shù)投票法,即投票數(shù)最多的類別即作為最終預(yù)測(cè)結(jié)果。
本文在對(duì)兩個(gè)目標(biāo)檢測(cè)模型進(jìn)行融合時(shí),使用直接平均法作為融合方法,其邏輯為將兩個(gè)模型生成的預(yù)測(cè)結(jié)果(json文件)進(jìn)行提取、判斷、匹配、參數(shù)平均、排序等處理,將兩個(gè)預(yù)測(cè)結(jié)果融合為一個(gè)總的預(yù)測(cè)結(jié)果。且最后的融合結(jié)果比單個(gè)目標(biāo)檢測(cè)結(jié)果都要高,在模型融合后,對(duì)其精度進(jìn)行測(cè)試,與單個(gè)模型測(cè)試結(jié)果作對(duì)比,單一的RetinaNet模型精度與誤差、Cascade_RCNN模型精度與誤差以及融合后的模型精度與誤差如表1所示。
根據(jù)模型進(jìn)精度分析,單階段目標(biāo)檢測(cè)模型(RetinaNet)精度為91.30%,坐標(biāo)誤差與類別誤差分別為5.30%、1.10%,兩階段目標(biāo)檢測(cè)模型(Cascade_RCNN)精度為93.30%,坐標(biāo)誤差與類別誤差分別為5.30%、0.81%,而對(duì)兩個(gè)模型融合后,融合模型的精度達(dá)到94.56%,坐標(biāo)誤差與類別誤差降低到了4.04%、0.59%,相較于單個(gè)模型,融合模型的精度有較好的提升,另外,兩個(gè)模型融合后且坐標(biāo)誤差與類別誤差降低明顯。
2.4 多模型融合
完成兩個(gè)目標(biāo)檢測(cè)模型融合后,需要將融合模型與車道線檢測(cè)模型進(jìn)行最后整合,得到最終的圖像預(yù)標(biāo)注模型,其流程是將兩階段目標(biāo)檢測(cè)推理、單階段目標(biāo)檢測(cè)推理、車道線檢測(cè)模型推理過程封裝在一個(gè)鏡像中,通過一個(gè)主程序完成整合,具體整合流程如圖5所示。
3 實(shí)驗(yàn)分析
3.1 模型訓(xùn)練設(shè)置
為了提高目標(biāo)檢測(cè)的準(zhǔn)確率,本方法通過加載模型預(yù)訓(xùn)練權(quán)重進(jìn)行遷移學(xué)習(xí),調(diào)整學(xué)習(xí)率(Learning Rate, LR),訓(xùn)練輪次(Epoch)和一次訓(xùn)練所取樣本數(shù)(batch_size)尋找相對(duì)較優(yōu)參數(shù)。根據(jù)消融實(shí)驗(yàn)測(cè)試結(jié)果,較小的batch_size與較大的Epoch能夠提升部分精度,但過小的batch_size會(huì)導(dǎo)致訓(xùn)練過程中損失函數(shù)值震蕩,不利于模型收斂。在進(jìn)行多次訓(xùn)練過程中,通過不斷改變3個(gè)超參數(shù),進(jìn)行參數(shù)調(diào)優(yōu)處理,最后調(diào)整的3種模型訓(xùn)練的最優(yōu)參數(shù)如表2所示。
表中3種模型的學(xué)習(xí)率、訓(xùn)練樣本數(shù)、訓(xùn)練輪次均為多次測(cè)試后取最好效果的最優(yōu)參數(shù),以確保最優(yōu)的融合結(jié)果。
3.2 模型評(píng)價(jià)指標(biāo)
在2.3節(jié)模型融合中,已對(duì)單階段目標(biāo)檢測(cè)模型以及兩階段檢測(cè)模型分別評(píng)估,以及兩個(gè)模型的融合精度(Accuracy)評(píng)估,對(duì)每一個(gè)模型的檢測(cè)效果進(jìn)行評(píng)價(jià),對(duì)單階段、兩階段目標(biāo)檢測(cè)模型生成的預(yù)測(cè)結(jié)果與其原標(biāo)注結(jié)果進(jìn)行比對(duì)。
將車道線檢測(cè)模型放入模型精度評(píng)估代碼進(jìn)行判定,得到多次測(cè)試結(jié)果,對(duì)測(cè)試結(jié)果進(jìn)行記錄并計(jì)算其平均精度,如表3所示。
多次測(cè)試中,由于數(shù)據(jù)集的泛化性,即其中個(gè)別數(shù)據(jù)可能存在無目標(biāo)物、目標(biāo)物模糊不清、車道線復(fù)雜不清晰等原因,從而導(dǎo)致結(jié)果精度低于90%,故而后續(xù)需要進(jìn)一步改進(jìn)優(yōu)化算法。
在模型整合完成后,對(duì)整體功能預(yù)標(biāo)注功能進(jìn)行測(cè)試,在可視化平臺(tái)對(duì)測(cè)試圖像進(jìn)行標(biāo)注預(yù)識(shí)別可視化測(cè)試,測(cè)試結(jié)果如圖6所示。
經(jīng)過觀察模型整合完成后的預(yù)標(biāo)注測(cè)試結(jié)果,發(fā)現(xiàn)目標(biāo)檢測(cè)和車道線檢測(cè)方面的預(yù)標(biāo)注效果非常好。目標(biāo)框與待標(biāo)注的目標(biāo)物以及車道線的貼合度良好,同時(shí)類別分類準(zhǔn)確度也得到了顯著提升,相較于單一模型的預(yù)測(cè)結(jié)果明顯有所改善。
4 結(jié) 論
本文提出了一種多模型融合投票預(yù)標(biāo)注方法,該方法能夠通過將模型訓(xùn)練后生成的json結(jié)果進(jìn)行提取、判斷、匹配、參數(shù)平均、排序等處理,將Cascade_RCNN、RetinaNet、CondLaneNet三個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行融合,在公開數(shù)據(jù)集以及自建數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn),結(jié)果表明,本方法在對(duì)三個(gè)模型進(jìn)行融合后,預(yù)標(biāo)注精度得到顯著提升,預(yù)標(biāo)注最高精度達(dá)到94%,平均精度達(dá)到90%,該方法有效地減少了標(biāo)注過程中人工標(biāo)注工作量,在標(biāo)注工作中起到優(yōu)秀的輔助作用。
在分析測(cè)試結(jié)果后,發(fā)現(xiàn)數(shù)據(jù)集并不是每一張都有效,無目標(biāo)物或目標(biāo)物、車道線不清晰的冗余數(shù)據(jù)集降低了預(yù)標(biāo)注精度,后續(xù)需改進(jìn)算法使其能夠自動(dòng)拋棄冗余數(shù)據(jù)集或?qū)⑷哂鄶?shù)據(jù)集進(jìn)行標(biāo)記,以便人工審核時(shí)及時(shí)處理。
參考文獻(xiàn):
[1] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified, Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas:IEEE,2016:779-788.
[2] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [C]//Computer Vision - ECCV 2016.Amsterdam:Springer,2016:21-37.
[3] LIN T-Y,GOYAL P,GIRSHICK R,et al. Focal Loss for Dense Object Detection [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:2999-3007.
[4] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[5] GIRSHICK R. FAST R-CNN [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:1440-1448.
[6] CAI Z W,VASCONCELOS N. Cascade R-CNN: High Quality Object Detection and Instance Segmentation [J/OL].arXiv:1906.09756 [cs.CV].[2023-09-23].https://arxiv.org/abs/1906.09756.
[7] LI X,LI J,HU X L,et al. Line-CNN: End-to-End Traffic Line Detection With Line Proposal Unit [J].IEEE Transactions on Intelligent Transportation Systems,2020,21(1):248-258.
[8] TABELINI L,RODRIGO B,THIAGO M,et al. Keep your Eyes on the Lane: Real-time Attention-guided Lane Detection [J/OL].arXiv:2010.12035 [cs.CV].[2023-09-23].https://arxiv.org/abs/2010.12035.
[9] LIU L Z,CHEN X H,ZHU S Y,et al. CondLaneNet: a Top-to-down Lane Detection Framework Based on Conditional Convolution [J/OL]. arXiv:2105.05003 [cs.CV].[2023-09-26].https://arxiv.org/abs/2105.05003.
[10] QU Z,JIN H,ZHOU Y,et al. Focus on Local: Detecting Lane Marker from Bottom Up via Key Point [J/OL].arXiv:2105.13680 [cs.CV].[2023-09-26].https://arxiv.org/abs/2105.13680.
[11] TABELINI L,RODRIGO B,THIAGO M,et al. PolyLaneNet: Lane Estimation via Deep Polynomial Regression [J/OL].arXiv:2004.10924 [cs.CV].[2023-09-29].https://arxiv.org/abs/2004.10924.
[12] 魏秀參.解析深度學(xué)習(xí):卷積神經(jīng)網(wǎng)絡(luò)原理與視覺實(shí)踐 [M].北京:電子工業(yè)出版社,2018:143-149.