徐 峰,涂 鵬,劉永春,方新君,任鴻鑫,王增朝,許德江 ,唐 偉
(1.中國(guó)鐵路上海局集團(tuán)有限公司 上海鐵路衛(wèi)生監(jiān)督所南京分所,江蘇 南京 210042;2.中國(guó)鐵路鄭州局集團(tuán)有限公司 鄭州鐵路衛(wèi)生監(jiān)督所,河南 鄭州 450000;3.中國(guó)鐵路濟(jì)南局集團(tuán)有限公司 濟(jì)南鐵路衛(wèi)生監(jiān)督所,山東 濟(jì)南 250000)
隨著人們食品安全意識(shí)的提高,廣大群眾對(duì)食品安全的要求越來(lái)越高,除了食品本身質(zhì)量安全要求外,人們也開(kāi)始對(duì)食品的產(chǎn)地、配料、營(yíng)養(yǎng)成分等信息給予更多的關(guān)注。食品標(biāo)簽作為食品包裝重要組成部分,記載了產(chǎn)品相關(guān)信息,是消費(fèi)者了解所購(gòu)買(mǎi)食品關(guān)鍵信息的主要途徑。通過(guò)探討自動(dòng)識(shí)別技術(shù)在食品標(biāo)識(shí)上的應(yīng)用,為食品標(biāo)識(shí)網(wǎng)絡(luò)識(shí)別提供技術(shù)支撐。
自動(dòng)識(shí)別技術(shù)是運(yùn)用一定的裝置,通過(guò)被識(shí)別物品和識(shí)別裝置之間近距離關(guān)聯(lián)活動(dòng),自動(dòng)獲取被識(shí)別物品相關(guān)信息,并提供給計(jì)算機(jī)后臺(tái)處理系統(tǒng)來(lái)完成相關(guān)后續(xù)處理的一種技術(shù)。近幾十年來(lái)自動(dòng)識(shí)別技術(shù)發(fā)展迅猛,逐步形成了包括條碼、磁條磁卡、IC卡、聲音識(shí)別、視覺(jué)識(shí)別、射頻識(shí)別(Radio Frequency Identi fi cation,RFID)、 光 學(xué) 字 符 識(shí) 別(Optical Character Recognition,OCR)等七大類(lèi)技術(shù)體系。食品標(biāo)識(shí)是指食品包裝上的文字、圖形、符號(hào)及一切說(shuō)明物的總稱(chēng),應(yīng)用在食品標(biāo)識(shí)上的識(shí)別技術(shù)主要有條碼技術(shù)、RFID技術(shù)和OCR技術(shù)。
條碼技術(shù)是在當(dāng)代信息技術(shù)基礎(chǔ)上產(chǎn)生和發(fā)展起來(lái)的一種符號(hào)自動(dòng)識(shí)別技術(shù),是實(shí)現(xiàn)POS系統(tǒng)、電子數(shù)據(jù)交換、電子商務(wù)、供應(yīng)鏈管理的技術(shù)基礎(chǔ),是物流管理現(xiàn)代化的重要技術(shù)手段[1]。目前,掃描食品標(biāo)簽條碼得到的信息有限,主要包括食品名稱(chēng)、中國(guó)物品編碼中心編碼和凈含量等,尚不能完整反映食品標(biāo)識(shí)所有內(nèi)容,利用條碼技術(shù)很難發(fā)現(xiàn)食品安全主要問(wèn)題。
RFID常稱(chēng)為電子標(biāo)簽、電子條碼等,其原理為由掃描器發(fā)射一組特定頻率的無(wú)線電波能量給接收器,用以驅(qū)動(dòng)接收器電路將內(nèi)部代碼送出,掃描器接收此代碼。RFID技術(shù)在食品安全領(lǐng)域方面的應(yīng)用已經(jīng)取得了較為成熟的經(jīng)驗(yàn),該技術(shù)應(yīng)用于食品跟蹤和追溯的文獻(xiàn)較多[2-4]。李海鋒等[5]發(fā)明了一種基于RFID技術(shù)的食品信息管理系統(tǒng),實(shí)現(xiàn)對(duì)食品安全的有效管理;航空部門(mén)以RFID技術(shù)為主要手段,結(jié)合條碼技術(shù)、集成網(wǎng)絡(luò)、移動(dòng)通信技術(shù)等建立中央數(shù)據(jù)庫(kù),實(shí)現(xiàn)了食品安全全程監(jiān)督管理[6-7]。
OCR是模式識(shí)別領(lǐng)域的一個(gè)重要分支,是指對(duì)輸入圖像進(jìn)行分析識(shí)別處理,獲取圖像中文字信息的過(guò)程,其涉及圖像處理、數(shù)字信號(hào)處理、模糊數(shù)學(xué)、計(jì)算機(jī)、中文信息處理、人工智能等多個(gè)學(xué)科。OCR技術(shù)誕生于上世紀(jì)50年代,經(jīng)過(guò)幾十年的不斷發(fā)展改進(jìn),各種OCR技術(shù)的研究取得了令人矚目的成果。目前,已經(jīng)被互聯(lián)網(wǎng)公司落地的相關(guān)應(yīng)用涉及識(shí)別菜單、快遞單、身份證、銀行卡、車(chē)牌、會(huì)議白板、廣告主干詞、試卷、單據(jù)、商品包裝袋等。在此,探討OCR技術(shù)在食品標(biāo)識(shí)識(shí)別領(lǐng)域的應(yīng)用。
OCR技術(shù)包括傳統(tǒng)OCR和場(chǎng)景文字識(shí)別(Scene Text Recognition,STR)技術(shù),傳統(tǒng)OCR指對(duì)輸入掃描文檔圖像進(jìn)行分析處理,識(shí)別出圖像中文字信息。STR指識(shí)別自然場(chǎng)景圖片中的文字信息,可以看成是傳統(tǒng)OCR技術(shù)的自然演進(jìn)與升級(jí)換代。
我國(guó)在OCR技術(shù)方面的研究起步較晚,20世紀(jì)70年代才開(kāi)始對(duì)數(shù)字、英文字母、符號(hào)及漢字識(shí)別技術(shù)進(jìn)行研究。1989年,我國(guó)推出了第一套中文OCR軟件,從此中文OCR正式走向市場(chǎng), 隨后又推出綜合集成漢字識(shí)別系統(tǒng),可以完成多文種(英、日、漢)印刷文本、手寫(xiě)漢字和手寫(xiě)數(shù)字的識(shí)別輸入。
近年來(lái),傳統(tǒng)OCR識(shí)別技術(shù)已經(jīng)達(dá)到較高水平。OCR產(chǎn)品可以自動(dòng)進(jìn)行版面分析、表格識(shí)別,實(shí)現(xiàn)混合文字、多字體、多字號(hào)、橫豎混排識(shí)別的強(qiáng)大功能。目前,市面上的OCR軟件有多種,有的優(yōu)秀軟件對(duì)印刷體文字識(shí)別率甚至接近100%。傳統(tǒng)OCR技術(shù)廣泛應(yīng)用于醫(yī)學(xué)文本圖像識(shí)別、身份證識(shí)別等多個(gè)領(lǐng)域[8-9]。在互聯(lián)網(wǎng)領(lǐng)域,人們對(duì)許多手機(jī)掃描翻譯小程序已運(yùn)用自如。
文本的檢測(cè)和識(shí)別是文本識(shí)別過(guò)程中缺一不可的2個(gè)具體步驟,文本檢測(cè)是識(shí)別的前提。相較于傳統(tǒng)OCR技術(shù),自然場(chǎng)景圖片中的文本檢測(cè)與識(shí)別面臨諸多挑戰(zhàn)。
2.2.1 自然場(chǎng)景文本檢測(cè)研究現(xiàn)狀
上世紀(jì)90年代中期,自然場(chǎng)景文本檢測(cè)的研究開(kāi)始見(jiàn)諸報(bào)道[10-11],目前已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門(mén)研究課題,特別是國(guó)際文檔分析與識(shí)別會(huì)議(ICDAR) 定期舉辦的各項(xiàng)技術(shù)競(jìng)賽推動(dòng)了該領(lǐng)域的發(fā)展,使自然場(chǎng)景文本檢測(cè)技術(shù)的難題和瓶頸不斷被突破。
自然場(chǎng)景文本檢測(cè)的特征提取有2種方法:手工提取和深度網(wǎng)絡(luò)提取,后者是基于深度學(xué)習(xí)的方法,始于2014年前后[12-14]。隨著Faster R-CNN算法的提出,相繼有很多基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法問(wèn)世[15-16],其對(duì)自然場(chǎng)景下文本的檢測(cè)率達(dá)到85%左右。近年來(lái),涌現(xiàn)出大量的基于深度學(xué)習(xí)的自然場(chǎng)景文本檢測(cè)方法[17-19]。
從自然場(chǎng)景文本檢測(cè)技術(shù)的處理對(duì)象看,逐步實(shí)現(xiàn)了從單一的英文、阿拉伯?dāng)?shù)字的文本檢測(cè)到多語(yǔ)種的文本檢測(cè)。從檢測(cè)文本對(duì)象的排列方向來(lái)看,相比之前研究水平文字為主[18],多方向及彎曲文字的檢測(cè)近年來(lái)受到更多的關(guān)注[19-22]。
2.2.2 自然場(chǎng)景文本識(shí)別研究現(xiàn)狀
自然場(chǎng)景中文本的識(shí)別與檢測(cè)緊密相關(guān),往往需要串聯(lián)在一起使用。一般先由檢測(cè)器檢測(cè)到文字的位置,在這些位置上識(shí)別出文字內(nèi)容。能夠同時(shí)檢測(cè)文字位置并對(duì)其進(jìn)行識(shí)別的方法被稱(chēng)作是端到端文字識(shí)別方法[23]。字符切割的難點(diǎn)主要在于漢字、英文及數(shù)字混排導(dǎo)致的復(fù)雜場(chǎng)景。國(guó)內(nèi)外學(xué)者對(duì)復(fù)雜場(chǎng)景下文字識(shí)別應(yīng)用的研究報(bào)道較多[24-27]。
近年來(lái),自然場(chǎng)景下的文字識(shí)別已成為一個(gè)充滿(mǎn)希望和挑戰(zhàn)的研究領(lǐng)域。我國(guó)在OCR領(lǐng)域的研究已處國(guó)際領(lǐng)先地位,2018年云從科技提出的Pixel-Anchor框架在ICDAR多個(gè)測(cè)試子集上斬獲第一[28];目前,該框架已廣泛應(yīng)用于證件票據(jù)識(shí)別系統(tǒng)和圖片廣告過(guò)濾系統(tǒng),每天處理近千萬(wàn)張圖片,準(zhǔn)確率達(dá)96%以上,識(shí)別時(shí)間降到“秒”級(jí)。
食品標(biāo)識(shí)識(shí)別屬于復(fù)雜場(chǎng)景下的字符識(shí)別,除了有漢字、英文、數(shù)字及常用符號(hào)混排外,字符可以有不同的大小、字體、顏色、亮度、對(duì)比度等;文本行可能有橫向、豎向、彎曲等式樣。食品標(biāo)識(shí)中的文字區(qū)域還可能會(huì)產(chǎn)生變形、殘缺、模糊等現(xiàn)象。食品標(biāo)識(shí)的背景極其多樣,例如,文字可出現(xiàn)在平面、曲面或折皺面上,文字區(qū)域附近可能有復(fù)雜的干擾紋理等;有的食品標(biāo)識(shí)還有營(yíng)養(yǎng)成分表等。
在食品識(shí)別領(lǐng)域,Kawano Y等[29]提出利用深度學(xué)習(xí)技術(shù)對(duì)食物圖像進(jìn)行分類(lèi)。MIT的電腦科學(xué)和人工智能實(shí)驗(yàn)室運(yùn)用深度學(xué)習(xí)的方法對(duì)社交網(wǎng)站上的食物圖片進(jìn)行分類(lèi),通過(guò)訓(xùn)練學(xué)習(xí)總結(jié)出人們的飲食偏好。藍(lán)天[30]設(shè)計(jì)出一個(gè)新的卷積神經(jīng)網(wǎng)絡(luò),利用新的跳躍卷積方式,實(shí)現(xiàn)了食品識(shí)別分類(lèi)、信息顯示和包裝文字識(shí)別功能。楊波[31]對(duì)商品包裝表面的文字檢測(cè)和識(shí)別進(jìn)行了研究。梁坤[32]針對(duì)打印在瓶體/瓶蓋表面的字符信息開(kāi)發(fā)了一套檢測(cè)軟件系統(tǒng),向?qū)嶋H應(yīng)用邁進(jìn)了一大步。
食品生產(chǎn)商利用計(jì)算機(jī)視覺(jué)技術(shù)完成生產(chǎn)過(guò)程中食品標(biāo)簽標(biāo)識(shí)的檢測(cè)。梅特勒-托利多研發(fā)了一種鑲板,用于替代360度標(biāo)簽檢測(cè)方法,該方法使用6個(gè)或更多攝像頭形成詳細(xì)的包裝平面圖像,通過(guò)軟件掃描獲得準(zhǔn)確信息和進(jìn)行精準(zhǔn)打印,以確保其生產(chǎn)線的每個(gè)產(chǎn)品均標(biāo)注有符合要求的標(biāo)簽。
隨著科技的發(fā)展,智能手機(jī)性能大大提升。目前部分文字識(shí)別手機(jī)小程序采用了人工智能原理,通過(guò)大數(shù)據(jù)分析、深度學(xué)習(xí),即便是遇到復(fù)雜場(chǎng)景下成像的圖片,也能輕松地將表格和文字準(zhǔn)確提取出來(lái),為人們的工作和生活帶來(lái)便利。
食品標(biāo)識(shí)識(shí)別技術(shù)沒(méi)有專(zhuān)門(mén)的軟件和小程序。用于文字識(shí)別的手機(jī)小程序有100多種,研究選擇了9種,包括圖片文字識(shí)別、傳圖識(shí)字、金鳴OCR表格文字識(shí)別程序、百度AI體驗(yàn)中心、傳圖識(shí)字AI(普通識(shí)別、精準(zhǔn)識(shí)別、手寫(xiě)識(shí)別)、迅捷文字識(shí)別和文字識(shí)別全能王。采用華為手機(jī)對(duì)9種識(shí)別方法分別識(shí)別20種食品標(biāo)識(shí)(平面和曲面標(biāo)識(shí)各10種)進(jìn)行比較,結(jié)果表明:百度AI體驗(yàn)中心和傳圖識(shí)字AI (精準(zhǔn)識(shí)別)對(duì)平面標(biāo)識(shí)的識(shí)別準(zhǔn)確率較高,對(duì)10種平面食品標(biāo)識(shí)營(yíng)養(yǎng)成分表識(shí)別字符數(shù)965個(gè)、識(shí)別率97.8%,其他內(nèi)容識(shí)別字符數(shù)1 987個(gè)、識(shí)別率98.0%;傳圖識(shí)字對(duì)曲面標(biāo)識(shí)的識(shí)別準(zhǔn)確率較高,對(duì)10種曲面食品標(biāo)識(shí)營(yíng)養(yǎng)成分表識(shí)別字符數(shù)712個(gè)、識(shí)別率88.2%,其他內(nèi)容識(shí)別字符數(shù)3 783個(gè)、識(shí)別率95.6%。文字識(shí)別手機(jī)小程序?qū)κ称窐?biāo)識(shí)識(shí)別比較如表1所示。
表1 文字識(shí)別手機(jī)小程序?qū)κ称窐?biāo)識(shí)識(shí)別比較
根據(jù)前述對(duì)國(guó)內(nèi)外文字識(shí)別技術(shù)的介紹,食品標(biāo)識(shí)識(shí)別屬于復(fù)雜場(chǎng)景下的字符識(shí)別。目前,場(chǎng)景文字識(shí)別應(yīng)用場(chǎng)景越來(lái)越多,如監(jiān)控識(shí)別車(chē)牌、智能導(dǎo)航識(shí)別路標(biāo)、無(wú)人駕駛技術(shù)等場(chǎng)景文字識(shí)別取得了巨大進(jìn)步[22]。但由于食品標(biāo)識(shí)涉及多語(yǔ)言、多方向及彎曲文字,背景復(fù)雜多變,食品標(biāo)識(shí)的識(shí)別仍面臨諸多挑戰(zhàn)。對(duì)食品標(biāo)識(shí)識(shí)別技術(shù)發(fā)展趨勢(shì)展望如下。
(1)3D技術(shù)實(shí)現(xiàn)食品標(biāo)識(shí)信息有效采集。對(duì)于同一食品有多版面標(biāo)識(shí)的,可以利用3D技術(shù)從各種角度同步檢測(cè)每個(gè)版面信息,將不同版面標(biāo)識(shí)信息圖像拼接到一起,形成整個(gè)包裝的平整圖像信息,最后輸出完整的食品標(biāo)識(shí)信息。
(2)單純OCR技術(shù)解決禁止性問(wèn)題。食品標(biāo)識(shí)識(shí)別過(guò)程中,應(yīng)建立統(tǒng)一格式的食品標(biāo)識(shí)模板。首先經(jīng)過(guò)OCR文字識(shí)別,然后通過(guò)自然語(yǔ)言處理(NLP)修正錯(cuò)誤詞語(yǔ),并將同一食品包裝不同圖片識(shí)別信息按品名、生產(chǎn)日期、保質(zhì)期、配料等進(jìn)行分類(lèi);找到對(duì)應(yīng)的預(yù)設(shè)模板,輸出格式化標(biāo)識(shí)信息,再與問(wèn)題庫(kù)對(duì)照,進(jìn)行精細(xì)識(shí)別,最終輸出初步評(píng)估結(jié)果。食品標(biāo)簽上自帶的條碼、二維碼或溯源標(biāo)識(shí)通過(guò)掃描應(yīng)自動(dòng)讀取識(shí)別相關(guān)信息并錄入。對(duì)于OCR技術(shù)難于識(shí)別的食品標(biāo)識(shí),建議手動(dòng)輸入或由生產(chǎn)廠家提供標(biāo)識(shí)電子模板。
(3)相關(guān)網(wǎng)站鏈接解決真實(shí)性問(wèn)題。與國(guó)家食品藥品監(jiān)督管理總局網(wǎng)站和相關(guān)網(wǎng)站建立鏈接,可以查詢(xún)食品生產(chǎn)許可情況,從而辨別食品生產(chǎn)廠家真?zhèn)?,也可?duì)全路站車(chē)預(yù)包裝食品標(biāo)識(shí)采集照片識(shí)別,發(fā)現(xiàn)生產(chǎn)許可存在問(wèn)題的廠家,下載其相關(guān)信息并建立相應(yīng)的問(wèn)題庫(kù),便于比對(duì)。與食品安全國(guó)家標(biāo)準(zhǔn)/地方標(biāo)準(zhǔn)建立鏈接,便于查詢(xún)引用標(biāo)準(zhǔn)的正確性。
(4)人工智能解決邏輯性問(wèn)題。將相應(yīng)算法和人工智能相結(jié)合,自動(dòng)識(shí)別食品標(biāo)識(shí)中存在的邏輯性問(wèn)題。食品強(qiáng)制性國(guó)家標(biāo)準(zhǔn)中涉及特別標(biāo)簽標(biāo)識(shí)的內(nèi)容應(yīng)屬邏輯性問(wèn)題。例如,引用GB 15266—2009 運(yùn)動(dòng)飲料標(biāo)準(zhǔn),應(yīng)標(biāo)注可溶性固形物、鈉、鉀的含量范圍,如不標(biāo)注則存在邏輯性問(wèn)題。
(5)建立完善食品標(biāo)簽標(biāo)識(shí)信息數(shù)據(jù)庫(kù)。與國(guó)家和各省市食品標(biāo)簽抽檢平臺(tái)建立鏈接;自動(dòng)保存已識(shí)別的食品標(biāo)識(shí),并對(duì)合格食品標(biāo)識(shí)和問(wèn)題食品標(biāo)識(shí)進(jìn)行分類(lèi),以便在今后食品標(biāo)識(shí)識(shí)別過(guò)程中,遇到同樣的食品標(biāo)識(shí)自動(dòng)提示。
食品標(biāo)識(shí)識(shí)別技術(shù)涉及計(jì)算機(jī)視覺(jué)與模式識(shí)別、自然語(yǔ)言處理等多個(gè)領(lǐng)域,是一個(gè)具有重要理論意義和實(shí)際應(yīng)用價(jià)值的新興研究課題,國(guó)內(nèi)外一些研究者對(duì)此均有涉獵。但食品標(biāo)識(shí)這種復(fù)雜場(chǎng)景文本識(shí)別面臨的諸多難題和挑戰(zhàn),使該技術(shù)與實(shí)際實(shí)用仍然有一定距離。通過(guò)對(duì)國(guó)內(nèi)外食品標(biāo)識(shí)識(shí)別技術(shù)的歸納整理和該技術(shù)未來(lái)發(fā)展方向的展望,相信隨著計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)等領(lǐng)域的發(fā)展,自然場(chǎng)景文本檢測(cè)與識(shí)別技術(shù)問(wèn)題將不斷被解決,食品標(biāo)識(shí)識(shí)別技術(shù)的應(yīng)用難題將得以攻克。