姜嘉佳
摘 要 OCR技術(shù)在圖書數(shù)字化加工過程中發(fā)揮了巨大作用,實(shí)現(xiàn)了報(bào)刊的電子化形態(tài),由于技術(shù)的限制,目前OCR技術(shù)的利用并不是最佳狀態(tài),在文字識(shí)別率過程中,會(huì)受到圖像外在因素影響如掃描參數(shù)、圖像質(zhì)量等,降低識(shí)別率,未來對(duì)OCR技術(shù)的研究升級(jí)還有待完善和提高。
關(guān)鍵詞 OCR技術(shù);數(shù)字化;掃描參數(shù);識(shí)別率
中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708(2019)235-0159-02
隨著數(shù)字化時(shí)代的趨勢,越來越多的圖書館致力于圖書的信息化建設(shè)來實(shí)現(xiàn)信息資源的整合,以保證圖書館的生存和發(fā)展。通過將館藏文獻(xiàn)如期刊、報(bào)紙、圖書等進(jìn)行數(shù)字化加工,形成電子資源數(shù)據(jù)庫,實(shí)現(xiàn)數(shù)字圖書館的功能。在圖書數(shù)字化加工領(lǐng)域,OCR技術(shù)發(fā)揮了作用,最大限度地降低了人工著錄時(shí)發(fā)生問題的概率,既節(jié)約成本,又提高效率。本文就以上海圖書館報(bào)刊數(shù)字化加工項(xiàng)目為例,探討OCR技術(shù)在報(bào)刊加工中的應(yīng)用及難點(diǎn)和解決方法。
1 OCR技術(shù)概念特點(diǎn)
何為OCR?OCR的全稱是Optical Character Recognition,意為光學(xué)字符識(shí)別,是指利用電子設(shè)備查看印刷體字符,以檢測亮暗方式來確定字符輪廓,通過字符識(shí)別方式將其轉(zhuǎn)換成計(jì)算機(jī)文字,整個(gè)過程分為圖像處理與文字識(shí)別兩大步驟。圖像處理,即對(duì)通過掃描儀存儲(chǔ)到計(jì)算機(jī)的圖像進(jìn)行預(yù)處理,處理工作包括圖片降噪、灰度值、二值化、傾斜矯正、文字切分等步驟。圖像預(yù)處理過后,后期將通過文字特征來識(shí)別提取文字。
2 我國OCR技術(shù)的發(fā)展現(xiàn)狀
OCR是由德國科學(xué)家Tausheck于1929年提出來的,隨后美國科學(xué)家Handel也提出了文字識(shí)別的想法,隨后世界各國就開始了文字識(shí)別的研究。我國OCR技術(shù)起步較晚,70年代初才開始研究數(shù)字、字母、符號(hào)的識(shí)別,90年代清華大學(xué)推出了首套中文OCR產(chǎn)品,這一成果標(biāo)志了國內(nèi)在OCR技術(shù)研究領(lǐng)域有了質(zhì)的飛躍。隨著技術(shù)不斷地推陳出新,目前國內(nèi)已有多家大型公司致力于OCR技術(shù)的研究發(fā)展,像漢王科技公司、點(diǎn)通數(shù)據(jù)公司、合合信息技術(shù)公司等。從單一的印刷體字體識(shí)別,到多字體簡繁混合、中英文混合識(shí)別,到現(xiàn)在各種識(shí)別系統(tǒng)的推出,OCR技術(shù)已經(jīng)逐漸成熟并融入了各行各業(yè)。
3 OCR技術(shù)的應(yīng)用及流程
為順應(yīng)數(shù)字化時(shí)代的潮流,上海圖書館致力于圖書的數(shù)字化加工工作,從最初的印刷月刊到網(wǎng)絡(luò)平臺(tái)一體化,每年數(shù)字化加工處理的期刊文獻(xiàn)達(dá)500萬條,創(chuàng)辦的《全國報(bào)刊索引》亦是知名信息服務(wù)品牌,提供期刊、報(bào)紙、特輯資源數(shù)據(jù)庫,包括《晚清期刊全文數(shù)據(jù)庫》、《字林洋行中英文報(bào)全文紙數(shù)據(jù)庫》、《現(xiàn)刊索引數(shù)據(jù)庫》等。
以《現(xiàn)刊索引數(shù)據(jù)庫》為例,建立一個(gè)索引篇名數(shù)據(jù)庫需要的信息包括期刊的期刊名、年卷期、題名、頁碼、作者、單位、分類號(hào)、主題詞、摘要等。假設(shè)人工著錄信息必須要大量的人力物力財(cái)力,且非常容易出錯(cuò),比如錄入錯(cuò)字,錯(cuò)行,甚至錯(cuò)篇等。使用OCR技術(shù)著錄信息,就可以大大節(jié)省時(shí)間和成本,以下是OCR技術(shù)在實(shí)際運(yùn)用中的大致流程,如圖1。
1)圖像掃描輸入。用掃描儀把期刊整本輸入進(jìn)計(jì)算機(jī),為確保存儲(chǔ)的圖像質(zhì)量及后續(xù)的識(shí)別工作,在掃描過程中,設(shè)備參數(shù)至關(guān)重要,包括色彩模式、分辨率、掃描閾值、亮度、對(duì)比度、保存格式等。2)圖像預(yù)處理。掃描的時(shí)候由于不同紙張的厚薄度、光滑度、印刷質(zhì)量等情況會(huì)出現(xiàn)圖像模糊、畸變、斷筆、粘連、傾斜等問題,所以需對(duì)其進(jìn)行預(yù)處理,可使用Photoshop或其他工具,處理包括降噪、灰度化、二值化、去黑邊、去底色等,如此一來可減少后期文字識(shí)別時(shí)遇到字跡模糊不清楚等問題。3)圖像版面分析。圖像版面分析即識(shí)別圖像的區(qū)域?qū)傩?,是橫排文字還是豎排文字,表格還是圖片、規(guī)則版面還是不規(guī)則版面等。4)文字切分。分為自動(dòng)切分與人工切分。自動(dòng)切分是計(jì)算機(jī)通過對(duì)圖像的初步識(shí)別,按照字符每一行的上界限、下界限、每個(gè)字符的左右邊界將文字自動(dòng)切割成獨(dú)立的個(gè)體。人工切分即在自動(dòng)切分的基礎(chǔ)上對(duì)完成切分的文字進(jìn)行校對(duì),在切割有誤的地方重新切分,保證單詞、詞組、句子的完整性。5)文字特征識(shí)別。因?yàn)槊總€(gè)文字都有其固定的特征,根據(jù)特征對(duì)文字進(jìn)行識(shí)別,通過特殊特征提取,如筆畫位置、交叉點(diǎn)數(shù)等結(jié)構(gòu)特征,就可以得到字符。6)文字比對(duì)識(shí)別。初步得到的字符通過對(duì)比文字?jǐn)?shù)據(jù)庫,可以得到文字。文字比對(duì)識(shí)別需人工干預(yù)進(jìn)行錯(cuò)字標(biāo)改。7)成品輸出保存。文字校對(duì)結(jié)束后,系統(tǒng)根據(jù)內(nèi)容自動(dòng)進(jìn)行格式排版,確認(rèn)無誤后,成品導(dǎo)出需要的文件格式,即完成了數(shù)字化工作。
整個(gè)數(shù)字化加工流程看似復(fù)雜繁瑣,實(shí)際用到OCR技術(shù)識(shí)別圖像只有零點(diǎn)幾秒,難點(diǎn)就在于前期的圖像處理與后期的校對(duì)處理,前期的圖像全文掃描與預(yù)處理工作,直接導(dǎo)致了整體的文字識(shí)別率。而后期的人工校對(duì)也是在識(shí)別率基本正確的情況進(jìn)行校對(duì)。
4 OCR技術(shù)的難點(diǎn)
雖然圖像的前期與后期工作較為繁瑣復(fù)雜,但比起傳統(tǒng)人工手動(dòng)文字錄入,OCR技術(shù)的使用在速度、準(zhǔn)確、便捷等方面略勝一籌,人會(huì)因?yàn)槠诘雀鞣N原因犯錯(cuò),但機(jī)器不會(huì),因此使用OCR技術(shù)加工整體消耗的人力物力都比人工著錄要少的多。盡管OCR技術(shù)很先進(jìn),在保證圖像掃描質(zhì)量的前提下,后續(xù)的文字識(shí)別過程仍會(huì)遇到下面幾種問題:
1)文字切分錯(cuò)字。在進(jìn)行文字自動(dòng)切分時(shí),部分固定詞組會(huì)因?yàn)榉中卸斐汕蟹皱e(cuò)誤。2)相近文字識(shí)別不出來。目前對(duì)于那些結(jié)構(gòu)特征相近的字,OCR技術(shù)仍不能完全分辨出來,如分和兮,人或入,藝和芝等。3)英文單詞識(shí)別困難。比起漢語,英文字母識(shí)別更困難,尤其是中文、英文和數(shù)字混合排列的時(shí)候,問題最為明顯,原因在于結(jié)構(gòu)大都比較相近,掃描的時(shí)候會(huì)由于光線問題造成識(shí)別混亂,如a和d,大寫i和小寫L,小寫L和1,G或6等。
5 提高識(shí)別率方法
1)選擇合適的數(shù)字掃描儀。一般從圖像傳感器性能、掃描分辨率大小、掃描適應(yīng)能力、操作便捷性幾方面考慮,針對(duì)不同的掃描資料選擇簡便的掃描儀。2)合理設(shè)置掃描儀參數(shù)。包括色彩模式、分辨率、黑白值、亮度、對(duì)比度等。對(duì)于常見的文檔資料,建議設(shè)置成黑白模式,或在特殊要求下選擇彩色模式;合理確定分辨率,選擇300dpi模式,除非有特殊情況,否則分辨率過高不僅會(huì)降低掃描速度、增加計(jì)算機(jī)存儲(chǔ),還會(huì)降低OCR識(shí)別;掃描后,如果字體顏色較淺或較粗,可以調(diào)節(jié)亮度和對(duì)比度。3)選擇圖像存儲(chǔ)格式。掃描結(jié)束后圖像的存儲(chǔ)需要保證分辨率不受影響、無損壓縮,且適應(yīng)主流圖像編輯軟件和識(shí)別軟件,建議選擇JPEG或Tiff格式。4)即時(shí)更新文字比對(duì)數(shù)據(jù)庫。對(duì)于可能出現(xiàn)的繁體字、象形字、外文字符,即時(shí)更新可避免識(shí)別率問題。5)人工校對(duì)的重要性。正是由于OCR技術(shù)的不夠完善,不能做到100%的正確識(shí)別,后期的人工校對(duì)是提高識(shí)別率的重要環(huán)節(jié),雖然人工校對(duì)費(fèi)時(shí),但相比于手工錄入,總體耗時(shí)與錯(cuò)誤率都要低很多。
6 結(jié)論
從技術(shù)角度出發(fā),OCR技術(shù)的出現(xiàn)到發(fā)展,給圖書數(shù)字化發(fā)展帶來了翻天覆地的變化,它改變了傳統(tǒng)紙質(zhì)媒介的概念,實(shí)現(xiàn)了文字識(shí)別功能,提高了資料加工的效率,為文獻(xiàn)的存檔、數(shù)據(jù)查詢開辟了新的篇章。使用OCR技術(shù)可以有效地提高工作效率,減少不必要的工作量。但是,OCR技術(shù)的識(shí)別率問題目前還是一個(gè)比較大的挑戰(zhàn),畢竟電腦不如人腦這么靈活,碰到圖像掃描模糊、相近文字、換行斷字、英文字符等識(shí)別率就會(huì)降低,如何降低錯(cuò)誤率或利用其他工具來提高識(shí)別率,是OCR技術(shù)未來發(fā)展的一個(gè)重要環(huán)節(jié)。
參考文獻(xiàn)
[1]錢炎.醫(yī)療保險(xiǎn)系統(tǒng)中信息處理關(guān)鍵技術(shù)研究[D].南京:南京航空航天大學(xué),2005.
[2]曾伊蕾,喻世俊,陶俊.基于OCR技術(shù)的圖像驗(yàn)證碼識(shí)別[J].軟件,2013,34(10):106-107,110.
[3]張志遠(yuǎn).復(fù)雜背景下文字增強(qiáng)算法研究與應(yīng)用[D].上海:上海交通大學(xué),2010.
[4]李冠藝.OCR技術(shù)在電子商務(wù)信息采集中的應(yīng)用研究[J].電腦與電信,2013(8):56-58.
[5]陶新宇.《全國報(bào)刊索引數(shù)據(jù)庫》芻議[J].現(xiàn)代情報(bào),2004(9):9-10.
[6]劉明英.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析[J].中國高新技術(shù)企業(yè),2017(5):55-56.
[7]蔡旸.JPEG靜態(tài)圖像壓縮算法的研究[D].武漢:武漢科技大學(xué),2009.
[8]郭軍.基于數(shù)字掃描儀性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2017(9):118-120.
[9]王玲麗.淺談OCR技術(shù)在圖書館文獻(xiàn)資源加工中的應(yīng)用——以上海圖書館近代文獻(xiàn)全文OCR數(shù)據(jù)制作項(xiàng)目為例[J].數(shù)字與縮微影像,2015(1):23-26.
[10]張肇玲.圖書資料檢索與信息化建設(shè)[J].人力資源管理,2018(4):396.