曹慧靜
(傳音控股技術(shù)有限公司,上海 202106)
針對人工智能,訓(xùn)練數(shù)據(jù)量的大小和豐富性決定了其準(zhǔn)確性,因此數(shù)據(jù)集的構(gòu)建對識(shí)別的準(zhǔn)確性非常重要。針對印度市場用戶語言翻譯的問題,引入了選區(qū)翻譯功能(用戶在當(dāng)下使用的界面上可以選擇需要翻譯區(qū)域進(jìn)行翻譯)。根據(jù)用戶選中的內(nèi)容圖像識(shí)別成文字,再把文字翻譯成需要的目標(biāo)語言,用戶選中的區(qū)域內(nèi)容根據(jù)用戶的使用場景和用戶的偏好而不一樣。選區(qū)翻譯相比競品有其優(yōu)勢,能夠不中斷用戶當(dāng)前使用頁面的閱讀體驗(yàn),而把需要翻譯的內(nèi)容直接覆蓋在選中區(qū)域原文上,而不影響其他未選擇區(qū)域的閱讀,使得翻譯體驗(yàn)更加便捷。
OCR(Optical Character Recognition)是指對文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。亦即將圖像中的文字進(jìn)行識(shí)別,并以文本的形式返回。
OCR 識(shí)別應(yīng)用很多場景,例如OCR 視頻文字識(shí)別、人臉識(shí)別、身份證件識(shí)別、票據(jù)識(shí)別、車牌碼識(shí)別、銀行卡識(shí)別等等,在業(yè)界也屬于比較成熟的應(yīng)用;但是對于小語種OCR 識(shí)別能力應(yīng)用于翻譯場景有待繼續(xù)提升和挖掘。OCR整體識(shí)別的流程如圖1所示。
圖1 OCR 整體識(shí)別的流程
圖像預(yù)處理。通常是針對圖像的成像問題進(jìn)行修正。由于深度學(xué)習(xí)的發(fā)展,現(xiàn)在普遍使用基于CNN 神經(jīng)網(wǎng)絡(luò)的特征提取手段,得益于CNN 強(qiáng)大的學(xué)習(xí)能力,配合大量的數(shù)據(jù)可以增強(qiáng)特征提取的魯棒性。常見的預(yù)處理過程包括:幾何變換(透視、扭曲、旋轉(zhuǎn)等)、畸變校正、去除模糊、圖像增強(qiáng)和光線校正等。
文字檢測。即檢測文本的所在位置和范圍及其布局,框選出圖像中的文本區(qū)域,通常也包括版面分析和文字行檢測等。文字檢測主要解決的問題是哪里有文字,文字的范圍有多大。
文本識(shí)別。是在文本檢測的基礎(chǔ)上,對文本內(nèi)容進(jìn)行識(shí)別,將圖像中的文本信息轉(zhuǎn)化為文本信息。文字識(shí)別主要解決的問題是每個(gè)文字是什么,識(shí)別出的文本通常需要再次核對以保證其正確性,文本校正也被認(rèn)為屬于這一環(huán)節(jié)。
文字識(shí)別包括以下幾個(gè)步驟:特征提取和降維—分類器設(shè)計(jì)—訓(xùn)練—后處理;
根據(jù)用戶在手機(jī)終端真實(shí)的使用場景,不同用戶在不同界面用戶翻譯的需求是不一樣的,翻譯的頁面元素類別不一樣,翻譯的選區(qū)大小也會(huì)有差距,需要貼合用戶的真實(shí)使用場景構(gòu)造測試數(shù)據(jù)集。同時(shí)針對印度市場應(yīng)用和用戶的使用習(xí)慣;印度市場語言人口使用排行榜如下:印度語—孟加拉語—古吉拉特語—奧里亞—阿薩姆語—克什米爾語。印度手機(jī)銷售市場,受教育程度低,每四個(gè)人中就有一個(gè)文盲,無法順利完成閱讀和書寫,因?yàn)榛谑謾C(jī)目標(biāo)銷售市場的小語種和用戶真實(shí)使用的場景來準(zhǔn)備測試集至關(guān)重要,用戶場景基于以下幾個(gè)維度來分析:
圖像大?。焊鶕?jù)選區(qū)翻譯的用戶使用場景,選區(qū)翻譯的大小需要覆蓋幾種典型的不同比例的大小,例如:選區(qū)翻譯界面是手機(jī)界面全屏、是手機(jī)界面1/4、是手機(jī)界面1/2、是手機(jī)界面3/4、是手機(jī)界面1/3、是手機(jī)界面2/3、是手機(jī)界面1/5 等。
圖像元素分析:在手機(jī)終端上,不同的用戶使用場景,界面包含的元素是不一樣的,和APP 設(shè)計(jì)和內(nèi)容強(qiáng)相關(guān)。經(jīng)過在不同用戶場景下分析手機(jī)終端上界面元素,大體上分類以下幾類:純文本型、圖片型、視頻型、圖片型文字、純文本和圖片組合、純文本型和視頻型組合、純文本和圖片型文字組合等幾種場景。
圖像上文本內(nèi)容特征分析:經(jīng)過分析手機(jī)不同用戶場景,不同場景的文本,其文本內(nèi)容特征也有比較大差異。圖像上文本的內(nèi)容特征也影響文本提取的準(zhǔn)確性,因此測試集包含的文本內(nèi)容特征越豐富,其準(zhǔn)確性就越高。根據(jù)手機(jī)終端本文特征分析,測試集的文本特征應(yīng)包含以下集中特征:不同的標(biāo)點(diǎn)符號(: , .? ; / “”- & # ~ ...)、不同字體大小、字體加粗、項(xiàng)目符合、數(shù)字和文本的結(jié)合、金錢符號($)、不同語種混合(中英混合等)等等。
用戶場景APP 需求分析:根據(jù)用戶的選區(qū)翻譯需求,需要覆蓋不同的類型的應(yīng)用場景,滿足不同的翻譯訴求。手機(jī)終端上的APP 大致可以分為幾大類:新聞閱讀類APP,社交類APP,電子讀書類APP、視頻類APP、游戲類APP、購物類APP、銀行類APP,其中購物類APP、游戲類APP、銀行類APP 偏工具類使用,對翻譯的訴求理論上不是特別大,因此需要重點(diǎn)覆蓋新聞閱讀類APP、社交類APP、電子讀書類APP 都是偏沉浸式閱讀體驗(yàn)類APP,需要重點(diǎn)去覆蓋。
印度市場各類APP 基本與國內(nèi)市場相同,除了金融投資領(lǐng)域,各行各業(yè)基本都有相應(yīng)的互聯(lián)網(wǎng)服務(wù),印度市場APP 有自己獨(dú)立的本土化的APP。
閱讀類APP:Daily hunt、谷歌News、FK、Inshorts、Prime Video、Netfix、Linkin 等。 交流場景:Whatsapp、Facebook、Outlook、Uber、Mail 等。觀影場景:YouTUbe、Prime Video、Zee5、Hotstar、OOT 等。
根據(jù)上述分析后,手機(jī)終端OCR 文本識(shí)別再翻譯的算法模型測試集構(gòu)建方法如圖2所示。
圖2 印度手機(jī)終端OCR 測試集構(gòu)建方法
準(zhǔn)對不同的OCR 使用場景,評估維度會(huì)有差別,大體上分為以下兩種:字符準(zhǔn)確率、召回率和整行準(zhǔn)確率、召回率。
字符準(zhǔn)確率:即識(shí)別對的字符數(shù)占總識(shí)別出來字符數(shù)的比例,可以反映識(shí)別錯(cuò)和多識(shí)別的情況,缺點(diǎn)是無法反應(yīng)漏識(shí)別的情況。
字符識(shí)別召回率:即識(shí)別對的字符數(shù)占實(shí)際字符數(shù)的比例,可以反映識(shí)別錯(cuò)和漏識(shí)別的情況,但是沒辦法反應(yīng)多識(shí)別的情況,可以配套字符識(shí)別準(zhǔn)確率一起使用。
文本行定位為的準(zhǔn)確率和召回率:同字符識(shí)別的準(zhǔn)確率和召回率。主要反應(yīng)文本行定位的指標(biāo),是OCR 算法的重要指標(biāo);一個(gè)字段算一個(gè)整體,假如100 個(gè)字分為20 個(gè)字段,里面錯(cuò)了5 個(gè)字,分布在4 個(gè)字段里,那么識(shí)別率是16/20=80%。
針對用戶場景的測試集構(gòu)建之后,在手機(jī)終端閱讀類APP 上,為了更好體現(xiàn)OCR 文本識(shí)別后體可讀性,提出OCR 識(shí)別的句準(zhǔn)率統(tǒng)計(jì)方法,同時(shí)除了計(jì)算句準(zhǔn)率之外,為了更直觀看到OCR 句準(zhǔn)確率、OCR 識(shí)別性能以及錯(cuò)誤的情況。提出手機(jī)終端頁面OCR 識(shí)別評估模型如圖3所示。
圖3 OCR 算法屏幕模型
其中圖像識(shí)別性能影響手機(jī)終端頁面翻譯體驗(yàn)的時(shí)間,OCR 識(shí)別性能越好,基于OCR 應(yīng)用的印度等小語種翻譯速度越快,體驗(yàn)越好,因此圖像識(shí)別性能也是基于面向用戶手機(jī)終端OCR 模型質(zhì)量的關(guān)鍵指標(biāo)之一。
根據(jù)上一章節(jié)提出的OCR 評估模型,無法高效的通過人手動(dòng)統(tǒng)計(jì)方式來實(shí)現(xiàn),為了提高統(tǒng)計(jì)的效率和準(zhǔn)確性,需要開發(fā)一套OCR 評估模型的自動(dòng)化實(shí)現(xiàn)方案,如圖4所示。
圖4 OCR 評估模型自動(dòng)化實(shí)現(xiàn)方法
OCR 識(shí)別的關(guān)鍵指標(biāo)中圖像識(shí)別性能的計(jì)算方法,調(diào)用小語種OCR 模型后,根據(jù)開始讀取每一張圖片的時(shí)候,記錄每一張圖片開始讀取的時(shí)間,以及圖像文本識(shí)別完之后的時(shí)間,通過計(jì)算兩者的時(shí)間差即為每張圖片的文本識(shí)別性能。在同一手機(jī)上,圖像識(shí)別的時(shí)間的大小和圖像大小以及和含有的文本內(nèi)容數(shù)量強(qiáng)相關(guān)(圖像大小覆蓋在第3 章節(jié)介紹中有覆蓋到),圖像中包含的文本信息內(nèi)容越多,OCR 識(shí)別的時(shí)間就越長,反之。不同的手機(jī)上,OCR 識(shí)別性能還和手機(jī)芯片平臺(tái)強(qiáng)相關(guān),手機(jī)芯片性能越好,OCR 識(shí)別性能越好。
OCR 性能的關(guān)鍵性能指標(biāo)中句準(zhǔn)率/召回率體現(xiàn)文章中句子的準(zhǔn)確性,句子是文本中相對較小的單位,句準(zhǔn)率越高越能體現(xiàn)OCR 的模型和算法的優(yōu)劣,為了自動(dòng)化計(jì)算文本的句準(zhǔn)率需要準(zhǔn)備每一張圖像測試集對應(yīng)的文本集,OCR識(shí)別到的文本后通過標(biāo)點(diǎn)符號進(jìn)行切分統(tǒng)計(jì),通過逐一對比OCR 識(shí)別的文本和測試集對應(yīng)的文本集對比是否匹配,通過句準(zhǔn)率計(jì)算模型的平均準(zhǔn)確率是在60%左右。
同時(shí)為了測試和研發(fā)方便查看,把以上相關(guān)的測試結(jié)果通過自動(dòng)化寫到同一張Excel 表中統(tǒng)計(jì)顯示如圖5所示。
圖5 測試結(jié)果
對測試集中的每一個(gè)測試圖像中的句準(zhǔn)率和性能數(shù)據(jù)有了很好的對比和參考;通過該自動(dòng)化方法評估OCR 模型優(yōu)劣。
根據(jù)用戶場景來構(gòu)建測試集,對OCR 模型和算法的準(zhǔn)確率至關(guān)重要。沒有符合目標(biāo)用戶場景的測試數(shù)據(jù),無法度量模型和算法的優(yōu)劣,因此需要研究用戶場景中的用戶習(xí)慣和用戶的偏好,針對用戶場景的測試集才能更好地發(fā)現(xiàn)用戶場景的問題,提升用戶場景的體驗(yàn)。因此提出了基于手機(jī)終端用戶場景OCR 測試集的構(gòu)建的方法,如果是針對某單一用戶使用場景則需要去針對性地去根據(jù)用戶體驗(yàn)或者人因分析后再構(gòu)造該特定場景的測試集?;谠摐y試集提出了適合手機(jī)終端的OCR 識(shí)別的評估模型:基于用戶手機(jī)終端場景的測試集、更好體現(xiàn)句子可讀性的句準(zhǔn)率/召回率來度量準(zhǔn)確率、影響使用性能體驗(yàn)的OCR 圖像識(shí)別性能以及該OCR 評估模型自動(dòng)化實(shí)現(xiàn)。