彭雨明++陳偉豪++麥定康++鐘樂臻
摘 要
為創(chuàng)建良好的電子商務(wù)發(fā)展環(huán)境,電商企業(yè)需規(guī)范化嚴(yán)格管理商品信息。自動對展示商品的圖片進(jìn)行字符檢測與識別能減少監(jiān)管的工作量和難度。因此研究小組構(gòu)建了對圖片自動進(jìn)行字符檢測與識別的系統(tǒng),設(shè)計了總體流程的解決方案。研究建立的識別模型和f-score評價模型在測試集上進(jìn)行了對比測試,結(jié)果說明本方法的各項指標(biāo)均優(yōu)于基準(zhǔn)方法。
【關(guān)鍵詞】字符識別 圖像二值化 邊緣檢測
用戶進(jìn)行網(wǎng)購時無法接觸商品實物,因此電商網(wǎng)站提供的商品信息是用戶做出購買決定的重要依據(jù)。由于電商提供的信息絕大部分不是以文本而是以圖片形式,從而增加電商網(wǎng)站監(jiān)管的工作量和監(jiān)管難度。本研究的目標(biāo)就是利用電商平臺提供的大量圖片數(shù)據(jù),采用級數(shù)實現(xiàn)對電商平臺圖片的文字識別。使得電子商務(wù)企業(yè)在商品推薦、售后服務(wù)、信息監(jiān)管等方面都達(dá)到較高的工作效率。
1 分析方法與過程
1.1 總體流程
如圖1所示。
1.2 具體步驟
1.2.1 圖像預(yù)處理
將每一個文字圖像分檢出來交給識別模塊識別,這一過程稱為圖像預(yù)處理。預(yù)處理是指在進(jìn)行文字識別之前的一些準(zhǔn)備工作,主要任務(wù)是測量文檔放置的傾斜角,對文檔進(jìn)行版面分析,對選出的文字域進(jìn)行排版確認(rèn),對橫、豎排版的文字行進(jìn)行切分,每一行的文字圖像的分離,標(biāo)點符號的判別等。
1.2.2 圖像處理
圖像處理定義為:為得到所期望的結(jié)果而對一個物體表示施加一定的操作。這是一個從圖像到圖像的過程,表現(xiàn)為一幅圖像轉(zhuǎn)化為另一幅經(jīng)過修改或完善的圖像,并且獲取圖像的特點,獲取更有價值的信息。
1.2.3 圖像的二值化
圖像的二值化處理是將灰度圖像上的點的灰度等級置為0或255,即將具有256個灰度等級的灰度圖通過適當(dāng)?shù)拈撝缔D(zhuǎn)化為仍然能夠反映圖像特征的二值圖像,這樣使得圖像呈現(xiàn)黑白分明的效果。
1.2.4 圖像增強
根據(jù)處理過程所處空間的不同,圖像增強處理方法可以分為基于空間域的增強和基于頻率域的增強兩大類??臻g去噪步驟通過減少圖像采集系統(tǒng)產(chǎn)生的偽跡來改善圖像的完整性。這個步驟一般能夠減少獲取圖像的小的空間改變。
1.2.5 邊緣檢測
一個邊緣可以定義為處于兩個區(qū)域之間的相互連接的像素集合。邊緣檢測在圖像處理領(lǐng)域有著很多關(guān)鍵的作用。應(yīng)用邊界地圖的眾多重要應(yīng)用中有些就是目標(biāo)檢測/識別。目標(biāo)識別有兩個等級,低級和高級。邊緣檢測在低級圖像處理中較之于高級處理中更重要。
1.3 深度學(xué)習(xí)
卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)是一種特殊的深度神經(jīng)網(wǎng)絡(luò)。其主要特性包含下面幾點:局部性,共享性以及平移不變性。體現(xiàn)到設(shè)計思想上來說,就是卷積神經(jīng)網(wǎng)絡(luò)中的局部感受野、權(quán)值共享,以及子采樣三個思想。
1.4 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方式與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)一致,都是使用梯度下降和反向傳播這兩個主要算法。
1.4.1 梯度下降
機器學(xué)習(xí)中模型預(yù)測結(jié)果與實際標(biāo)簽的差距的方程叫做代價函數(shù)。機器學(xué)習(xí)訓(xùn)練的目的是找到一系列的參數(shù),使得對于全部訓(xùn)練數(shù)據(jù)與類別,代價函數(shù)的值最小。對于訓(xùn)練數(shù)據(jù)有10000的模型,訓(xùn)練目的是使得所有10000數(shù)據(jù)的預(yù)測與實際差距最??;對于有10種類別的分類任務(wù),訓(xùn)練目的是讓所有類別的預(yù)測與實際差距最小。如圖2。
在圖2中,是一個包含兩個參數(shù)的代價函數(shù)。梯度下降算法首先隨機給兩個參數(shù)賦值,也就是在圖中找到一個初始點,然后梯度下降算法計算在這個初始點時兩個參數(shù)的梯度,也就是對應(yīng)到x 和y方向上的斜率, 并且讓初始點朝著梯度的反方向前進(jìn)。 前進(jìn)的幅度是通過一個學(xué)習(xí)因子alpha 給出的,假設(shè)當(dāng)前點的梯度是t,那么每次前進(jìn)的幅度s由下面的公式給出:s=t×alpha.
1.4.2 反向傳播
反向傳播算法是計算梯度下降算法中每次迭代中的梯度值的算法。在線性模型或者邏輯回歸模型中,梯度的計算較為簡單,而在神經(jīng)網(wǎng)絡(luò)模型中,尤其是深層神經(jīng)網(wǎng)絡(luò)中,由于結(jié)構(gòu)復(fù)雜,可以利用反向傳播算法,包括前向傳播計算殘差和反向傳播計算梯度。前向傳播過程中,每個神經(jīng)元節(jié)點會計算其所有連接的節(jié)點的加權(quán)和,然后對和疊加上一個非線性函數(shù)后輸出到下一層。依次不斷傳遞,最后在輸出層計算輸出結(jié)果和實際結(jié)果的殘差。
1.5 基于深度學(xué)習(xí)的字符識別算法實現(xiàn)
1.5.1 MSER算法識別
使用一個改良的 MSER 算法去進(jìn)行字符的檢測,MSER是一個連通區(qū)域算法。所以這些連體字無法以單個字符的形式被提取出來,也就無法用字符檢測過程去處理。 幸運的是,通過實驗發(fā)現(xiàn),大部分的連體字都可以被MSER算法以一個完整的區(qū)域提取出來。由于連體字和單個字符存在較大的差異性,因此我們不使用同一個檢測過程去檢測它們。
1.5.2 字符檢測
使用一個啟發(fā)式的規(guī)則去將 MSER 提取的區(qū)域劃分為兩類:單體字符和連體字符。一個簡單并且直觀的區(qū)別點就是兩者的寬高比,對于單體字符來講,寬高比的范圍一般是[0.5,2],而連體字符則一般含有2個以上的字符,寬高比一般大于3。于是我們可以使用一個比較區(qū)域?qū)捀弑群烷撝档囊?guī)則,如果大于這個閾值,則認(rèn)為其是連體字符,如果小于這個閾值,則認(rèn)為其是單體字符。本文中,這個閾值被設(shè)為3。在劃分結(jié)束以后,連體字符被保留下來留待后面的步驟處理。
1.5.3 區(qū)域整合
真字符區(qū)域隨后根據(jù)它們的相對位置和大小組合成文字行,使用啟發(fā)式規(guī)則去組合字符,但是做一些略微的調(diào)整。在原先的方法中,兩個字符矩形的尺寸的比較僅僅考慮了它們之間的寬度的比例。在本文的方法中,同時考慮字符之間的寬比和高度比。如果兩個字符矩形的高的比例的范圍是[0.5,2],同時它們的寬的比例的范圍落在[0.3,3]的話,這兩個字符矩形在尺寸上是相似的。
(1)組合方法。如果兩個字符矩形的中心點的垂直方向的距離不大于它們平均高度的 1.2/3,并且它們中心點的水平距離不大于它們兩個平均寬度的3倍,則這兩個字符矩形在位置上是相近的
(1)
(2)
當(dāng)兩個字符矩形同時滿足尺寸相似和位置相近時,它們屬于同一個類別。接著使用 Union Find 算法去把同一類的字符矩形進(jìn)行合并。由于在一個詞中若干個字符之間的距離可能是不定的,因此很難定義一個自適應(yīng)的值去適應(yīng)所有情況。本文選擇了3這個值作為水平距離的比例判斷閾值。這樣的選擇會導(dǎo)致一些詞會合到同一個類中,并且形成一個文字行,需要使用一個算法去將文字行切分成詞。
(2)切分方法。首先把圖片分為左右兩部分。然后從最左邊第一個開始,依次計算它與后面一個字符矩形的距離。如果發(fā)現(xiàn)某個距離極大于前一個(2.5倍)字符距離,則認(rèn)為發(fā)現(xiàn)了兩個字符之間的間隔,于是將字符組從這個間隔處劃分開。繼續(xù)這個過程直到最后一個字符。通過這種方式將一個文字行切分成若干組字符,以便用于文本檢測。
1.5.4 文本檢測
在最終結(jié)果輸出前,經(jīng)過組合與切分的單詞需要被識別為真正的文本。 該階段需要處理前面步驟中保存下來的連體字符。由于單詞與連體字符的相似性,它們可以用同一個模型去分類。在輸入預(yù)測前,將圖塊區(qū)域轉(zhuǎn)為寬 100,高 32 的尺寸輸入模型中處理。AlexNet模型的架構(gòu),使用GPU 訓(xùn)練所有的參數(shù)。
2 結(jié)果分析與對照
f-score評測:我們測試的是本方法在文字識別的效果。本文使用的是f-score評測,這個方法相比傳統(tǒng)的評價方法綜合考慮了多種識別效果的因素。傳統(tǒng)的識別評價方法可能只會看矩形框一對一的情況,而這個方法考慮到了識別方法中可能會出現(xiàn)的多次識別情況,圖片中的文字框的標(biāo)準(zhǔn)位置是由ground truth文件給出的。在進(jìn)行訓(xùn)練集中圖片測試時,可以使用 ground truth 進(jìn)行方法效果的比對。
字符識別方法的評價指標(biāo)由三個參數(shù)給出,分別是回歸率,正確率,以及綜合兩者的 FScore值?;貧w率代表著圖片中真實的文本框被檢索出的比例,正確率代表方法正確識別字符的比例。FScore 值綜合了回歸率與正確率的結(jié)果,它的計算公式如下:
(3)
FScore值受回歸率與正確率中兩者中較小的影響, 因此對兩個值進(jìn)行了權(quán)衡。 只有同時提高回歸率與正確率,才能獲得一個較好的結(jié)果。單一的提升某個,而忽視另一個,只會對 FScore 值的提升有負(fù)面效果。通過實驗結(jié)果可以看出,本模型還是能夠較好的解決字符檢測及識別的問題,最后的綜合識別效果,使用f-score方法進(jìn)行評價。在檢測集上的綜合評價指標(biāo)結(jié)果如下:
測試集的基準(zhǔn)方法的指標(biāo)是: Reccall, 35.07%; Precise, 60.95%; F-Score,44.52%。本方法的各項指標(biāo)是Reccall, 65.66%; Precise, 63.26%; F-Score, 64.44%。可以看出, 本方法的各項指標(biāo)全面優(yōu)于基準(zhǔn)方法。 同時,本方法的Recall 比基準(zhǔn)方法高了30%,證明了本方法的可靠性。最終的 F-Score值相比測試集的 baseline 提升了近 20%,說明了本方法的有效性。
3 結(jié)論
本文對京東等電商平臺提供的圖片數(shù)據(jù)進(jìn)行預(yù)處理,利用深度學(xué)習(xí)及MSER算法等方法建立多種數(shù)據(jù)挖掘模型,實現(xiàn)了對圖片字符的檢測分析,在較大程度上對圖片字符進(jìn)行識別,并且為集檢測與識別為一體的圖片文字識別系統(tǒng)提出了建設(shè)性的解決方案。有利于贏得消費者對商家的信任、增強顧客在購物時舒適度、減輕監(jiān)管部門售后服務(wù)以及信息監(jiān)管負(fù)擔(dān),對推動文字檢測及識別的性能提升及走向?qū)嵱没龀隽擞幸饬x的探索和嘗試。雖然本方法從一定程度上解決了圖像識別問題,但是本方法仍然還存在很多不足,如何提出一種集檢測與識別為一體的圖片字符識別方法,以便實現(xiàn)有識別反饋的檢測,融入檢測思想的識別,是以后研究的重點。
參考文獻(xiàn)
[1]蔣先剛.數(shù)字圖像模式識別工程軟件設(shè)計[M].北京:中國水利水電出版社,2008.
[2]白俊江,洪春勇.基于Sobel的邊緣檢測方法[J].電腦知識與技術(shù),2009,5(21).