尹兆杰
(北京工業(yè)大學(xué),北京 100020)
隨著高速鐵路和城市軌道交通正在進(jìn)一步的走向智能化,越來(lái)越多的人工智能算法被用于出入口自動(dòng)人臉檢測(cè)和安防設(shè)施。深度學(xué)習(xí)技術(shù)是人工智能的核心,深度學(xué)習(xí)模型的訓(xùn)練以及應(yīng)用,需要大量?jī)?yōu)質(zhì)的標(biāo)簽數(shù)據(jù)。目前使用的標(biāo)注數(shù)據(jù)工作存在著人工成本耗費(fèi)過(guò)多的問(wèn)題。如何控制數(shù)據(jù)標(biāo)注的成本,是業(yè)界一直關(guān)心的問(wèn)題。提升標(biāo)注效率是控制標(biāo)注成本簡(jiǎn)單有效的方法,而數(shù)據(jù)標(biāo)注工具則是影響數(shù)據(jù)標(biāo)注效率的關(guān)鍵部分。
國(guó)內(nèi)外存在許多商業(yè)化數(shù)據(jù)標(biāo)注平臺(tái)以及開(kāi)源數(shù)據(jù)標(biāo)注工具,例如AMT、倍賽數(shù)據(jù)、labelImg等。這些數(shù)據(jù)標(biāo)注工具都存在一些問(wèn)題。一方面,開(kāi)源的標(biāo)注工具基本只支持單人標(biāo)注,對(duì)標(biāo)注質(zhì)量無(wú)法保證。商業(yè)化標(biāo)注工具設(shè)計(jì)的多人合作的標(biāo)注流程不合理,同一人長(zhǎng)時(shí)間從事同一密集勞動(dòng),標(biāo)注的效率和質(zhì)量均無(wú)法保證;另一方面,面對(duì)數(shù)據(jù)源為視頻時(shí),沒(méi)有利用視頻的特殊性,標(biāo)注效率低下。
根據(jù)上述數(shù)據(jù)標(biāo)注存在的問(wèn)題,以提高標(biāo)注效率為目標(biāo),設(shè)計(jì)并實(shí)現(xiàn)一個(gè)數(shù)據(jù)標(biāo)注系統(tǒng)。首先,完成標(biāo)注系統(tǒng)的總體架構(gòu)設(shè)計(jì);其次,針對(duì)現(xiàn)有標(biāo)注系統(tǒng)不支持多人標(biāo)注或者多人標(biāo)注流程不合理的問(wèn)題,完成多人協(xié)作標(biāo)注流程的設(shè)計(jì);最后,根據(jù)視頻的特殊性,完成推測(cè)標(biāo)注流程的設(shè)計(jì)。
本標(biāo)注系統(tǒng)采用前后端分離的B/S架構(gòu)。前端采用React作為客戶端,主要用于展示數(shù)據(jù),同時(shí)向標(biāo)注人員提供增、刪、改、查和標(biāo)注等交互功能;后端采用Flask作為服務(wù)端,負(fù)責(zé)向前端提供接口,完成部分業(yè)務(wù)邏輯,集成智能算法模型,并維護(hù)數(shù)據(jù)庫(kù)中的數(shù)據(jù);本系統(tǒng)采用經(jīng)典的關(guān)系型數(shù)據(jù)庫(kù)-MySQL,存儲(chǔ)標(biāo)注的數(shù)據(jù)集。系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。
圖1 系統(tǒng)架構(gòu)設(shè)計(jì)Fig.1 System architecture design diagram
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,產(chǎn)生不同類型且規(guī)模復(fù)雜的模型,對(duì)數(shù)據(jù)集也產(chǎn)生更高的要求,數(shù)據(jù)標(biāo)注人員的標(biāo)注工作量顯著提高?;趩稳藰?biāo)注的數(shù)據(jù)標(biāo)注系統(tǒng)存在著標(biāo)注數(shù)據(jù)集數(shù)量過(guò)多且效率低下的問(wèn)題。標(biāo)注人員長(zhǎng)時(shí)間從事重復(fù)操作,必然會(huì)在效率低下的同時(shí)出現(xiàn)錯(cuò)誤,無(wú)法保證標(biāo)注結(jié)果的正確性以及數(shù)據(jù)集的質(zhì)量。
為解決單人標(biāo)注大量數(shù)據(jù)以及單人重復(fù)操作兩個(gè)問(wèn)題,基于傳統(tǒng)的解決辦法,借鑒敏捷開(kāi)發(fā)和結(jié)對(duì)開(kāi)發(fā)的原理以及核心思想,設(shè)計(jì)了一種多人協(xié)作的標(biāo)注流程。不再詳細(xì)區(qū)分標(biāo)注人員和審核人員,一個(gè)標(biāo)注員既負(fù)責(zé)標(biāo)注也負(fù)責(zé)審核。通過(guò)將所有標(biāo)注人員兩兩分組,并將待標(biāo)注數(shù)據(jù)集進(jìn)行切分,將切分好的數(shù)據(jù)集分配給各組,由各組內(nèi)部進(jìn)行二次分配。每個(gè)組內(nèi),兩人同時(shí)標(biāo)注一組數(shù)據(jù),然后在標(biāo)注第二組數(shù)據(jù)前,交換審查雙方上一次的標(biāo)注結(jié)果。這樣既能解決單人標(biāo)注大量數(shù)據(jù)的問(wèn)題,也能消除同一人長(zhǎng)時(shí)間重復(fù)操作的隱患。多人協(xié)作標(biāo)注流程如圖2所示。
圖2 多人協(xié)作數(shù)據(jù)流程Fig.2 Multi-people collaboration data flow chart
從多人協(xié)作標(biāo)注的流程中可以看出,流轉(zhuǎn)的數(shù)據(jù)存在狀態(tài)標(biāo)記,為了更好的管理數(shù)據(jù),在本系統(tǒng)中,數(shù)據(jù)有待標(biāo)注、待審查、沖突、已審查4種狀態(tài)。關(guān)于數(shù)據(jù)在流轉(zhuǎn)中的狀態(tài)如圖3所示。
圖3 標(biāo)注數(shù)據(jù)狀態(tài)轉(zhuǎn)移Fig.3 State transition diagramof annotated data
通過(guò)對(duì)上述多人協(xié)作標(biāo)注的研究,設(shè)想通過(guò)標(biāo)注數(shù)據(jù)之間的關(guān)聯(lián)提高個(gè)人標(biāo)注效率。
視頻是一組能夠給人平滑連續(xù)的視覺(jué)效果畫面。當(dāng)初始數(shù)據(jù)源為視頻時(shí),需要對(duì)其進(jìn)行預(yù)處理,分割成一組幀序列,處理好的幀序列之間存在連續(xù)關(guān)系。在進(jìn)行單人標(biāo)注的時(shí)候,并沒(méi)有使用這種聯(lián)系,每一幀都被看成了獨(dú)立的一幀,每一幀都是人工標(biāo)注,標(biāo)注效率并不高。
因此提出一個(gè)思路,根據(jù)待標(biāo)注的幀序列之間的聯(lián)系,在不同幀的標(biāo)注框之間也建立起一種聯(lián)系。首先,標(biāo)注部分幀;其次,依據(jù)建立起的聯(lián)系推測(cè)出另外部分幀的標(biāo)注框;最后,人工進(jìn)行校準(zhǔn)。該思路的重點(diǎn)是選擇進(jìn)行推測(cè)的算法,正確的推測(cè)結(jié)果會(huì)顯著減少人工標(biāo)注量,從而提升標(biāo)注效率。
基于幀序列連續(xù)的特點(diǎn),提出一種推測(cè)方法。待標(biāo)注的幀序列之間連續(xù),推導(dǎo)出幀上面的所有待標(biāo)注物都連續(xù),進(jìn)一步推導(dǎo)出不同幀之間的同一待標(biāo)注物也連續(xù),得出結(jié)論,不同幀的同一標(biāo)注物的標(biāo)注框連續(xù)。對(duì)于連續(xù)變化的事物,假定變化均勻,可以使用均值法進(jìn)行推測(cè)。例如,有1、2、3三幀連續(xù)幀,只對(duì)1、3兩幀進(jìn)行標(biāo)注A,得出1、3兩幀的標(biāo)注結(jié)果,分別為A1(x1min,y1min,x1max,y1max)、A3(x3min,y3min,x3max,y3max)。根據(jù)1、3兩幀關(guān)于A的標(biāo)注結(jié)果,計(jì)算均值x2min=(x1min+x3min)/2、y2min=(y1min+y3min)/2、x2max=(x1max+x3max)/2、y2max=(y1max+y3max)/2。得出第2幀關(guān)于A的標(biāo)注結(jié)果A2=(x2min,y2min,x2max,y2max),將A2的位置標(biāo)注在第2幀。上述例子如圖4所示,虛線A1、A3是已標(biāo)注框,綠色A2框是根據(jù)A1、A3推測(cè)計(jì)算得到。
圖4 均值推測(cè)A2示意Fig.4 Schematic diagram of A2 mean value prediction
根據(jù)上面提出的猜測(cè)方法,對(duì)個(gè)人標(biāo)注流程進(jìn)行優(yōu)化,提出推測(cè)標(biāo)注法,標(biāo)注一部分內(nèi)容,預(yù)測(cè)標(biāo)注另一部分內(nèi)容。個(gè)人推測(cè)標(biāo)注法的標(biāo)注流程如圖5所示。推測(cè)標(biāo)注流程中要注意以下幾點(diǎn)。
圖5 推測(cè)標(biāo)注法流程Fig.5 The process of speculative annotation method
1)為所有的圖片分配圖片ID,最好包含視頻幀號(hào)信息,從圖片ID中能夠識(shí)別出哪些圖片是連續(xù)的,能夠觀察出連續(xù)關(guān)系。
2)數(shù)據(jù)集D=[d0,d1,d2,d3,…,dn],將數(shù)據(jù)集分為兩類,一類用來(lái)人工標(biāo)注,表示為D1=[d0,d2,d4,…,d2n];另一類數(shù)據(jù)集根據(jù)D1的標(biāo)注結(jié)果進(jìn)行推測(cè)標(biāo)注,推測(cè)標(biāo)注數(shù)據(jù)集表示為D2=[d1,d3,d5,…,d2n-1]。
3)標(biāo)注D1數(shù)據(jù)集中d1和d3兩張圖片中ID為person-1的標(biāo)注框,標(biāo)注框的值分別記為p1和p3,保存標(biāo)注框的值。
4)對(duì)于ID為person-1的標(biāo)注框,根據(jù)在d1、d3兩張圖片中的標(biāo)注結(jié)果,使用均值法計(jì)算d2圖片中標(biāo)注框的值p2=(p1+p3)/2,將計(jì)算出的p2標(biāo)注在d2上。
實(shí)驗(yàn)選擇15組標(biāo)注人員對(duì)4組數(shù)據(jù)集進(jìn)行單人標(biāo)注以及多人標(biāo)注,驗(yàn)證本文所提出方法是否可以提升標(biāo)注效率。
第1次標(biāo)注,組織15組標(biāo)注人員使用單人標(biāo)注流程對(duì)4組數(shù)據(jù)集進(jìn)行標(biāo)注。每組標(biāo)注人員中,一人進(jìn)行標(biāo)注,一人進(jìn)行審查。一組數(shù)據(jù)先進(jìn)行標(biāo)注,標(biāo)注完成后審查人員進(jìn)行審查。
第2次標(biāo)注,組織15組標(biāo)注人員使用多人協(xié)作標(biāo)注流程對(duì)4組數(shù)據(jù)集進(jìn)行標(biāo)注。每組標(biāo)注人員中,兩人同時(shí)進(jìn)行標(biāo)注,然后兩人互相審查對(duì)方數(shù)據(jù)。
分別記錄兩種標(biāo)注方式下每組標(biāo)注人員標(biāo)注的圖片數(shù)、目標(biāo)數(shù)以及時(shí)間(按照標(biāo)注時(shí)間與審核時(shí)間的總和計(jì)算),表示標(biāo)注任務(wù)完成的時(shí)間。數(shù)據(jù)記錄如表1所示。
表1 單人標(biāo)注流程的標(biāo)注數(shù)據(jù)Tab.1 Annotated data of single annotation process
將上述兩次標(biāo)注數(shù)據(jù)進(jìn)行整理,為了更加直觀地觀察兩種標(biāo)注方式的區(qū)別,將每組標(biāo)注人員在兩種標(biāo)注模式下的數(shù)據(jù)分別以折線圖和柱狀圖表示。
如圖6、7所示,橫坐標(biāo)為每個(gè)標(biāo)注小組標(biāo)注的總框數(shù),標(biāo)注小組標(biāo)注的總框數(shù)相差不大??v坐標(biāo)為標(biāo)注小組完成任務(wù)的時(shí)間。在標(biāo)注小組完成的總框數(shù)相差不大的情況下,多人協(xié)作完成的時(shí)間明顯少于單人標(biāo)注完成的時(shí)間。
圖6 兩種標(biāo)注方式下的數(shù)據(jù)折線Fig.6 Data line chart under two annotation methods
圖7 兩種標(biāo)注方式下的數(shù)據(jù)柱狀Fig.7 Data histogram under two annotation methods
為了排除每個(gè)小組標(biāo)注的總標(biāo)注框數(shù)量不同的干擾,對(duì)上述實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,計(jì)算每組每10 min的標(biāo)注框數(shù)量,如圖8 所示??梢悦黠@的看出,多人協(xié)作的效率更高。
圖8 每10 min標(biāo)注框數(shù)Fig.8 Annotated number of boxes per 10 minutes
實(shí)驗(yàn)選擇30名標(biāo)注人員對(duì)40張數(shù)據(jù)進(jìn)行個(gè)人標(biāo)注和推測(cè)標(biāo)注。
第1次標(biāo)注,組織30名標(biāo)注人員使用單人標(biāo)注流程對(duì)40張圖片進(jìn)行標(biāo)注。
第2次標(biāo)注,組織30名標(biāo)注人員使用推測(cè)標(biāo)注方法對(duì)40張圖片進(jìn)行標(biāo)注,按照上述實(shí)驗(yàn)要求將40張圖片進(jìn)行分組,奇數(shù)數(shù)據(jù)分為一組,偶數(shù)數(shù)據(jù)分為一組。每名標(biāo)注人員對(duì)奇數(shù)數(shù)據(jù)進(jìn)行標(biāo)注,然后根據(jù)標(biāo)注結(jié)果對(duì)偶數(shù)數(shù)據(jù)進(jìn)行推測(cè)標(biāo)注,標(biāo)注人員對(duì)推測(cè)標(biāo)注的結(jié)果進(jìn)行檢查修改。
記錄上述兩次標(biāo)注時(shí)標(biāo)注人員標(biāo)注的圖片數(shù)、目標(biāo)數(shù)以及時(shí)間,由于兩次標(biāo)注只是標(biāo)注流程和方法不同,審核仍然使用的是一人標(biāo)注一人審核的流程,審核時(shí)間相同,此處記錄的時(shí)間只是單純的標(biāo)注完成的時(shí)間。推測(cè)標(biāo)注流程下標(biāo)注完成的時(shí)間由3部分組成,分別是標(biāo)注時(shí)間、推測(cè)時(shí)間以及修改時(shí)間,如表2所示。
表2 兩種標(biāo)注方法的標(biāo)注數(shù)據(jù)Tab.2 Annotated data of two annotation methods
將上述兩次標(biāo)注數(shù)據(jù)進(jìn)行整理,為了更加直觀的觀察兩種標(biāo)注方式的區(qū)別,將每名標(biāo)注人員在兩種標(biāo)注方法下的數(shù)據(jù)分別以折線圖和柱狀圖表示。
如圖9,10所示,橫坐標(biāo)為每個(gè)標(biāo)注人員標(biāo)注的總框數(shù),標(biāo)注人員標(biāo)注的總框數(shù)相差不大。縱坐標(biāo)為標(biāo)注人員標(biāo)注完成的時(shí)間。在標(biāo)注人員標(biāo)注的總框數(shù)相差很小的情況下,推測(cè)標(biāo)注完成的時(shí)間顯著少于單人標(biāo)注完成的時(shí)間。
圖9 總框數(shù)-時(shí)間柱狀Fig.9 Total number of boxes - time histogram
圖10 總框數(shù)-時(shí)間折線Fig.10 Total number of boxes - time line chart
為了排除每個(gè)標(biāo)注人員總標(biāo)注框的數(shù)量不同的干擾,對(duì)上述實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理,計(jì)算每人每10 min的標(biāo)注框數(shù)量,如圖11所示。明顯看出,推測(cè)標(biāo)注時(shí)每10 min完成的標(biāo)注框比單人標(biāo)注更多,證明推測(cè)標(biāo)注的效率更高。
圖11 每人10 min標(biāo)注框數(shù)折線Fig.11 Line chart of annotatedbox number per 10 minutes
從標(biāo)注流程入手,研究多人協(xié)作標(biāo)注流程對(duì)標(biāo)注效率的影響,通過(guò)實(shí)驗(yàn),證明多人協(xié)作標(biāo)注可以提升標(biāo)注人員的標(biāo)注效率。多人協(xié)作標(biāo)注流程相比一人標(biāo)注、一人審核的傳統(tǒng)多人流程提高了63%的標(biāo)注效率。
研究推測(cè)標(biāo)注對(duì)標(biāo)注效率的影響,通過(guò)研究?jī)?nèi)容進(jìn)行實(shí)驗(yàn),得出結(jié)論。推測(cè)標(biāo)注可以提升標(biāo)注人員的標(biāo)注效率。推測(cè)標(biāo)注流程相比個(gè)人標(biāo)注流程可以提高25%的效率。