国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

候選框密度可變的YOLO網(wǎng)絡(luò)國際音標(biāo)字符識別方法

2019-08-27 02:26鄭伊齊冬蓮王震宇
計算機(jī)應(yīng)用 2019年6期
關(guān)鍵詞:深度學(xué)習(xí)

鄭伊 齊冬蓮 王震宇

摘 要:針對傳統(tǒng)方法對國際音標(biāo)(IPA)的字符特征提取存在的識別精度低、實(shí)效性差等問題,提出了一種候選框密度可變的YOLO網(wǎng)絡(luò)國際音標(biāo)字符識別方法。首先,以YOLO網(wǎng)絡(luò)為基礎(chǔ),結(jié)合國際音標(biāo)字符圖像X軸方向排列緊密、字符種類和形態(tài)多樣的特點(diǎn)來改變YOLO網(wǎng)絡(luò)中候選框的分布密度;然后,增加識別過程中候選框在X軸上的分布,同時減小Y軸方向上的密度,構(gòu)成YOLO-IPA網(wǎng)絡(luò)。對采集自《漢語方音字匯》的含有1360張、共72類國際音標(biāo)圖像的數(shù)據(jù)集進(jìn)行檢驗(yàn),實(shí)驗(yàn)結(jié)果表明:所提方法對尺寸較大的字符識別率達(dá)到93.72%,對尺寸較小的字符識別率達(dá)到89.31%,較傳統(tǒng)的字符識別算法,大幅提高了識別準(zhǔn)確性;同時,在實(shí)驗(yàn)環(huán)境下檢測速度小于1s,因而可滿足實(shí)時應(yīng)用的需求。

關(guān)鍵詞:國際音標(biāo);字符檢測與識別;YOLO網(wǎng)絡(luò);深度學(xué)習(xí)

中圖分類號: TP391.1

文獻(xiàn)標(biāo)志碼:A

Abstract: Aiming at the low recognition accuracy and poor practicability of the traditional character feature extraction methods to International Phonetic Alphabet (IPA), a You Only Look Once (YOLO) network character recognition method with variable candidate box density for IPA was proposed. Firstly, based on YOLO network and combined with three characteristics such as the characters of IPA are closely arranged on X-axis direction and have various types and forms, the distribution density of candidate box in YOLO network was changed. Then, with the distribution density of candidate box on the X-axis increased while the distribution density of candidate box on the Y-axis reduced, YOLO-IPA network was constructed. The proposed method was tested on the IPA dataset collected from Chinese Dialect Vocabulary with 1360 images of 72 categories. The experimental results show that, the proposed method has the recognition rate of 93.72% for large characters and 89.31% for small characters. Compared with the traditional character recognition algorithms, the proposed method greatly improves the recognition accuracy. Meanwhile, the detection speed was improved to less than 1s in the experimental environment. Therefore, the proposed method can meet the need of real-time application.

Key words: International Phonetic Alphabet (IPA); character detection and recognition; You Only Look Once (YOLO) network; deep learning

0 引言

國際語音字母表(International Phonetic Alphabet, IPA)是國際語音學(xué)會為世界各種語言提供的一套強(qiáng)大的語音標(biāo)注系統(tǒng),通過采用一種簡單的圖表方式對音標(biāo)符號進(jìn)行分類和命名,目前在國際語言學(xué)界以及語言教學(xué)領(lǐng)域得到廣泛應(yīng)用[1]。在我國各地方言和少數(shù)民族語言文字保護(hù)工作中,均需借助國際音標(biāo)進(jìn)行記錄,可以說國際音標(biāo)是記錄和傳承民族、地區(qū)文化最重要的載體。

目前,國際音標(biāo)有103個單獨(dú)字母,23個元音、72個輔音,已發(fā)展成為一種獨(dú)立復(fù)雜的符號系統(tǒng)[2]。但是,現(xiàn)存的字符識別系統(tǒng)還不能對國際音標(biāo)字符進(jìn)行高效且準(zhǔn)確的識別。

從語言學(xué)背景角度分析,其主要原因在于:首先,國際音標(biāo)是一種專門化的符號系統(tǒng),往往只有語言學(xué)家學(xué)習(xí)和使用,應(yīng)用環(huán)境相對封閉[3];其次,涉及國際音標(biāo)的著作較少,影響也小,所以缺乏專門的字符識別系統(tǒng)[4];再次,早期的國際音標(biāo)符號以拉丁字母為基礎(chǔ),音標(biāo)符號較少,借助已有的拉丁字母識別系統(tǒng),可實(shí)現(xiàn)部分國際音標(biāo)符號的識別[5]。然而,隨著數(shù)字化技術(shù)的出現(xiàn)、圖像設(shè)備的普及以及互聯(lián)網(wǎng)的迅速發(fā)展,越來越多的圖書文獻(xiàn)以圖像的形式出現(xiàn),這其中也包括以國際音標(biāo)為載體所記錄的文獻(xiàn)。為此,對于國際音標(biāo)字符識別的研究也逐步引起學(xué)者的關(guān)注。

從技術(shù)應(yīng)用角度分析,傳統(tǒng)的字符識別被當(dāng)作一個分類問題來解決,從字符圖像的獲取到結(jié)果的輸出,必須經(jīng)過5個步驟:圖像的獲取、字符圖像的預(yù)處理、字符的特征提取、字符的識別分類和識別結(jié)果[6]。其中,字符圖像的特征提取最為關(guān)鍵,決定著識別系統(tǒng)的準(zhǔn)確率和識別速度。目前,已有研究大多基于統(tǒng)計特征和結(jié)構(gòu)特征提取字符圖像的信息,如四邊碼特征、粗網(wǎng)格特征、梯度角度直方圖特征等[7]。但當(dāng)使用此類特征提取方法時,會產(chǎn)生相似字符區(qū)分度差、抗筆畫粘連干擾能力弱、局部字符特征描述不足等缺點(diǎn),導(dǎo)致后續(xù)分類器的應(yīng)用困難、識別準(zhǔn)確性下降、模型訓(xùn)練速度減慢,嚴(yán)重制約了國際音標(biāo)字符識別技術(shù)的應(yīng)用和發(fā)展。

隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的目標(biāo)檢測與定位識別方法得到了廣泛引用[8-10]。卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network, CNN)作為深度學(xué)習(xí)常用模型之一,在目標(biāo)檢測與識別方面發(fā)揮了舉足輕重的作用。Krizhevsky 等[11]利用卷積神經(jīng)網(wǎng)絡(luò)對LSVRC-2010 (Large Scale Visual Recognition Challenge-2010)和LSVRC-2012 (Large Scale Visual Recognition Challenge-2012)數(shù)據(jù)集的1.2×106張圖像進(jìn)行1000種以上的分類,獲得了當(dāng)時最高的分類準(zhǔn)確率?;谏疃葘W(xué)習(xí)的目標(biāo)檢測方法大致可以分為兩類:一類是基于區(qū)域提名(Region Proposal)的目標(biāo)檢測方法,如R-CNN(Region CNN)[12]、SPP-net(Spatial Pyramid Pooling net) [13]、Fast R-CNN(Fast R-CNN) [14]、Faster R-CNN(Faster R-CNN) [15]、R-FCN (Region-based Fully Convolutional Network) [16];另一類是無需區(qū)域提名,基于端到端(End-to-End)的目標(biāo)檢測方法,如YOLO (You Only Look Once) [17]、SSD(Single Shot multibox Detector)[18]等?;趨^(qū)域提名的方法在精度上占據(jù)優(yōu)勢,但端到端的方法在速度上的優(yōu)勢更加明顯。

YOLO是由Redmon等[17]于2016年提出的一種全新的端到端檢測算法,雖然YOLO也屬于CNN,但在檢測過程中模糊了候選區(qū)域生成、候選區(qū)域特征提取、特征輸入分類器驗(yàn)證的區(qū)別,直接快速地完成了檢測任務(wù),可滿足實(shí)時性檢測的需求。國際音標(biāo)圖像排列緊密,且字符的種類、形態(tài)多樣,綜合考慮檢測準(zhǔn)確性與檢測速度,本文提出了一種候選區(qū)域密度可變的YOLO國際音標(biāo)字符識別方法YOLO-IPA,結(jié)合國際音標(biāo)圖像特點(diǎn),合理分布候選框密度,提高檢測的準(zhǔn)確性,為音標(biāo)記錄文獻(xiàn)提供一種穩(wěn)定、高效、可實(shí)時應(yīng)用的字符識別方法。

1.1 目標(biāo)檢測

YOLO通過使用來自整個圖像的特征預(yù)測每個邊界框,同時可預(yù)測所有類的邊界框。如圖2所示,YOLO首先將輸入圖像劃分為S×S網(wǎng)格。如果目標(biāo)的中心落入網(wǎng)格單元,那么網(wǎng)格單元就負(fù)責(zé)檢測該目標(biāo)。每個網(wǎng)格要預(yù)測B個邊界框,而每個邊界框除了要回歸自身的位置之外,還要附帶預(yù)測所存在目標(biāo)的置信度,如式(1)所示:

1.2 目標(biāo)識別定位

每個邊界框均要預(yù)測(X,Y,W,H)和置信度等5個值,其中,X、Y為預(yù)測框中心相對于單元格邊界的偏移,W、H為預(yù)測框?qū)捀呦鄬τ谡鶊D像之比。同時,每個網(wǎng)絡(luò)將預(yù)測C個類別概率,即Pr(Classi|Object) ,該概率表示第i類物體中心落入該網(wǎng)格的概率。因此,對于輸入的每幅照片,最終網(wǎng)絡(luò)的輸出為S×S×(5×B+C)的一個向量。

2 YOLO-IPA網(wǎng)絡(luò)架構(gòu)

針對國際音標(biāo)字符的結(jié)構(gòu)特點(diǎn),YOLO-IPA首先以YOLO網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),采用目標(biāo)區(qū)域網(wǎng)絡(luò)(Region Proposal Network, RPN)并去除全連接層,使用錨箱來預(yù)測目標(biāo)框;通過在所有卷積層上添加批量歸一化處理,改善收斂效果,構(gòu)成YOLOv2網(wǎng)絡(luò)[19]。其次,針對國際音標(biāo)圖像中,音標(biāo)在X軸上排列較為密集的情況,如圖3所示,增加識別過程中候選框在X軸上的分布密度,同時減少Y軸方向上的數(shù)量,最終構(gòu)成YOLO-IPA網(wǎng)絡(luò),如圖4所示。

2.1 RPN

YOLO包含有全連接層,可直接預(yù)測邊界框的坐標(biāo)值,但Faster R-CNN僅用卷積層與RPN來預(yù)測錨箱的偏移值與置信度,而不是直接預(yù)測坐標(biāo)值。實(shí)際應(yīng)用中,通過預(yù)測偏移量而不是坐標(biāo)值更能夠簡化問題,降低神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度。因此,本文將使用RPN代替YOLO的全連接層,使用錨箱來預(yù)測邊界框。雖然使用錨箱會讓精確度有所下降,但可同時實(shí)現(xiàn)對不低于一千個框的預(yù)測,且大大提高了召回率。

2.2 批量歸一化

批量歸一化可以顯著改善收斂性能,而不需要其他形式的正則化。通過在YOLO所有卷積層中添加批量歸一化,mAP(mean Average Precision)可獲得超過2%的改進(jìn)效果,同時也有助于規(guī)范模型,而不會出現(xiàn)過度擬合[19]。因此,本文在YOLO網(wǎng)絡(luò)的基礎(chǔ)上增加了批量歸一化的方法。

2.3 X軸方向候選框擴(kuò)展

YOLO網(wǎng)絡(luò)首先將輸入圖像分成S×S網(wǎng)格,候選框?qū)⒃赬和Y軸上同等密度分布。對國際音標(biāo)字符進(jìn)行檢測時,如圖3所示,音標(biāo)字符在圖像中呈現(xiàn)出在X軸上緊密排列分布、Y軸上分布稀疏的特點(diǎn),原有的候選框分布規(guī)則將難以適用。針對這一問題,本文在此前建立網(wǎng)絡(luò)上增加AddBoxes層,增加候選框在X軸方向的密度,同時減小Y軸方向候選框密度,構(gòu)成YOLO-IPA網(wǎng)絡(luò)。

3 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文所設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)在國際音標(biāo)字符檢測與識別中的有效性,在PC上進(jìn)行了實(shí)驗(yàn)。PC的基本配置如下:CPU雙核2.8GHz,GPU采用單塊TitanX,12GB顯存,32GB內(nèi)存,Ubuntu 14.04操作系統(tǒng)。深度學(xué)習(xí)采用Caffe框架訓(xùn)練,訓(xùn)練時間共18h。

3.1 國際音標(biāo)字符訓(xùn)練集

本文使用的國際音標(biāo)字符樣本來自《漢語方音字匯》。該文獻(xiàn)收錄了20個漢語方言點(diǎn)的字音材料,基本上可以代表漢語的各大方言:北京、濟(jì)南、西安、太原、武漢、成都、合肥、揚(yáng)州(以上官話),蘇州、溫州(以上吳語),長沙、雙峰(以上湘語),南昌(贛語),梅縣(客家話),廣州、陽江(以上粵語),廈門、潮州、福州、建甌(以上閩語)。全書共收入3000個字目,按普通話音序排列,用國際音標(biāo)標(biāo)寫方言讀音,該書是漢語語音研究的重要參考書。將全書掃描,按書中表格截出音標(biāo)字符,國際音標(biāo)字符如圖3所示。

3.2 實(shí)驗(yàn)步驟

實(shí)驗(yàn)步驟如下:

1)訓(xùn)練算法。使用基于隨機(jī)梯度下降(SGD)法衍生的批量歸一化方法來訓(xùn)練數(shù)據(jù)。每次隨機(jī)讀取10幅圖像進(jìn)行訓(xùn)練,動量項(xiàng)為0.9,學(xué)習(xí)率為10-4,偏置學(xué)習(xí)率為2×10-4,權(quán)值衰減系數(shù)為5×10-4。前20層卷積層使用原YOLO網(wǎng)絡(luò)的參數(shù),卷積層轉(zhuǎn)化為RPN的卷積核參數(shù)用0來初始化,原網(wǎng)絡(luò)結(jié)構(gòu)中的dropout操作被保留在原來的位置。

2)微調(diào)。通過反向傳播算法微調(diào)所有層的參數(shù),在原YOLO網(wǎng)絡(luò)的基礎(chǔ)上對RPN進(jìn)行微調(diào),并遵循Fast R-CNN 中“image-centric”采樣策略進(jìn)行訓(xùn)練。

3)訓(xùn)練數(shù)據(jù)。收集了1360張、共72類國際音標(biāo)字符圖像,并人工標(biāo)定了訓(xùn)練與測試用的數(shù)據(jù)集。訓(xùn)練前沒有對字符圖像進(jìn)行任何處理,字符圖像的分辨率為300萬~2000萬像素。

3.3 結(jié)果分析

為驗(yàn)證本文提出的增加X軸方向候選框數(shù)量以提高檢測器性能的有效性,比較了YOLO-IPA與利用選擇性搜索(Selective Search,SS)和EB(Edge Boxes)兩種不同方法進(jìn)行可能性目標(biāo)區(qū)域定位,然后分別對可能性目標(biāo)區(qū)域進(jìn)行方向梯度直方圖(Histogram of Oriented Gradient, HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)特征提取,最后使用K-近鄰(K-Nearest Neighbors, KNN)、支持向量機(jī)(Support Vector Machine, SVM)、邏輯回歸Softmax分類器分別進(jìn)行實(shí)現(xiàn)識別的仿真結(jié)果。如表1所示,本文以、、s、k、五種字符為例給出了不同算法的識別精度對比,并以圖5為例給出了不同字符的識別結(jié)果。

從表1可知,6種方法中,YOLO-IPA均實(shí)現(xiàn)了最高精度,YOLOv2次之,而基于傳統(tǒng)特征提取的識別算法明顯差于深度學(xué)習(xí)方法。同時,由表1實(shí)驗(yàn)結(jié)果可以看出,YOLO-IPA方法識別精度與字符大小相關(guān),例如對于尺寸較大的字符(識別精度為93.72%)相比其他較小的字符,如s字符(識別精度為89.31%),具有更高的識別精度,但相比其他算法的識別精度已經(jīng)有了大幅提升。

4 結(jié)語

當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)廣泛應(yīng)用在目標(biāo)識別與檢測的研究中,本文采用一種改進(jìn)的YOLO目標(biāo)檢測架構(gòu)對國際音標(biāo)進(jìn)行定位和狀態(tài)識別。與傳統(tǒng)方法相比,該方法可以有效地對國際音標(biāo)字符進(jìn)行識別,但對較小尺寸的目標(biāo)識別準(zhǔn)確率還有待進(jìn)一步提高,這也是下一步的研究工作。

參考文獻(xiàn) (References)

[1] 燕海雄,江荻.國際音標(biāo)符號的分類、名稱、功能與Unicode編碼 [J].語言科學(xué),2007,6(6):82-91.(YAN H X, JIANG D. The classifications, functions, Chinese names of IPA symbols and their unicode [J]. Linguistic Sciences, 2007, 6(6): 82-91.)

[2] 呂佳,江荻.國際音標(biāo)擴(kuò)展表的分類、命名與功能[J].聽力學(xué)及言語疾病雜志,2013,21(6):665-668.(LYU J, JIANG D. The classification, nomenclature and function of extensions to the international phonetic alphabet [J]. Journal of Audiology and Speech Pathology, 2013, 21(6): 665-668.)

[3] 曹雨生,徐昂.微機(jī)國際音標(biāo)系統(tǒng)[J].民族語文,1990(1):74-79.(CAO Y S, XU A. The international phonetic alphabet system in microcomputer [J]. Minority Languages of China, 1990(1): 74-79.)

[4] 潘曉聲.國際音標(biāo)符號名稱的簡稱[J].民族語文,2012(5):56-61.(PAN X S. The name abbreviation of international phonetic alphabet symbols [J]. Minority Languages of China, 2012 (5): 56-61.)

[5] PADEFOGED H,石在.國際音標(biāo)的一些主要特征[J].齊齊哈爾師范學(xué)院學(xué)報(哲學(xué)社會科學(xué)版),1995(2):150-153.(PADEFOGED H, SHI Z. Some major features of the international phonetic alphabet [J]. Journal of Qiqihar University (Philosophy & Social Science Edition), 1995(2): 150-153.)

[6] 邱立松.國際音標(biāo)字符識別算法的研究[D].上海師范大學(xué),2015:2-3.(QIU L S. Study on the recognition algorithm of international phonetic alphabet characters [D]. Shanghai: Shanghai Normal University, 2015: 2-3.)

[7] 張玉葉,姜彬,李開端,等.一種結(jié)合結(jié)構(gòu)和統(tǒng)計特征的脫機(jī)數(shù)字識別方法[J].微型電腦應(yīng)用,2016,32(8):76-79.(ZHANG Y Y, JIANG B, LI K D, et al. An off-line handwritten numeral recognition method combined with the statistical characteristics and structural features [J]. Microcomputer Applications, 2016, 32(8): 76-79.)

[8] 陳東杰,張文生,楊陽.基于深度學(xué)習(xí)的高鐵接觸網(wǎng)定位器檢測與識別[J].中國科學(xué)技術(shù)大學(xué)學(xué)報,2017,47(4):320-327.(CHEN D J, ZHANG W S, YANG Y. Detection and recognition of high-speed railway catenary locator based on deep learning [J]. Journal of University of Science and Technology of China, 2017, 47(4): 320-327.)

[9] 白翔,楊明錕,石葆光,等.基于深度學(xué)習(xí)的場景文字檢測與識別[J].中國科學(xué):信息科學(xué),2018,48(5):531-544.(BAI X, YANG M K, SHI B G, et al. Deep learning for scene text detection and recognition [J]. SCIENTIA SINICA Informationis, 2018, 48(5): 531-544.)

[10] 鐘沖,徐光柱.結(jié)合前景檢測和深度學(xué)習(xí)的運(yùn)動行人檢測方法[J].計算機(jī)與數(shù)字工程,2016,44(12):2396-2399.(ZHONG C, XU G Z. Movement pedestrian detection method combined with foreground subtraction and deep learning [J]. Computer & Digital Engineering, 2016, 44(12): 2396-2399.)

[11] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.

[12] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2014: 580-587.

[13] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8691. Cham: Springer, 2014: 346-361.

[14] GIRSHICK R. Fast R-CNN [C] // ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1440-1448.

[15] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[16] DAI J F, LI Y, HE K M, et al. R-FCN: object detection via region-based fully convolutional networks [C] // NIPS 2016: Proceedings of the 30th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2016: 379-387.

[17] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 779-788.

[18] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.

[19] REDMON J, FARHADI A. YOLO9000: better, faster, stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 6517-6525.

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開放實(shí)驗(yàn)平臺構(gòu)建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學(xué)習(xí)的三級階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究