OCR技術(shù)在報(bào)刊加工中的應(yīng)用分析

2019-07-16 20:08:32姜嘉佳

科技傳播 2019年10期

姜嘉佳

摘要 OCR技術(shù)在圖書數(shù)字化加工過程中發(fā)揮了巨大作用，實(shí)現(xiàn)了報(bào)刊的電子化形態(tài)，由于技術(shù)的限制，目前OCR技術(shù)的利用并不是最佳狀態(tài)，在文字識(shí)別率過程中，會(huì)受到圖像外在因素影響如掃描參數(shù)、圖像質(zhì)量等，降低識(shí)別率，未來對(duì)OCR技術(shù)的研究升級(jí)還有待完善和提高。

關(guān)鍵詞 OCR技術(shù)；數(shù)字化；掃描參數(shù)；識(shí)別率

中圖分類號(hào) G2 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1674-6708（2019）235-0159-02

隨著數(shù)字化時(shí)代的趨勢，越來越多的圖書館致力于圖書的信息化建設(shè)來實(shí)現(xiàn)信息資源的整合，以保證圖書館的生存和發(fā)展。通過將館藏文獻(xiàn)如期刊、報(bào)紙、圖書等進(jìn)行數(shù)字化加工，形成電子資源數(shù)據(jù)庫，實(shí)現(xiàn)數(shù)字圖書館的功能。在圖書數(shù)字化加工領(lǐng)域，OCR技術(shù)發(fā)揮了作用，最大限度地降低了人工著錄時(shí)發(fā)生問題的概率，既節(jié)約成本，又提高效率。本文就以上海圖書館報(bào)刊數(shù)字化加工項(xiàng)目為例，探討OCR技術(shù)在報(bào)刊加工中的應(yīng)用及難點(diǎn)和解決方法。

1 OCR技術(shù)概念特點(diǎn)

何為OCR？OCR的全稱是Optical Character Recognition，意為光學(xué)字符識(shí)別，是指利用電子設(shè)備查看印刷體字符，以檢測亮暗方式來確定字符輪廓，通過字符識(shí)別方式將其轉(zhuǎn)換成計(jì)算機(jī)文字，整個(gè)過程分為圖像處理與文字識(shí)別兩大步驟。圖像處理，即對(duì)通過掃描儀存儲(chǔ)到計(jì)算機(jī)的圖像進(jìn)行預(yù)處理，處理工作包括圖片降噪、灰度值、二值化、傾斜矯正、文字切分等步驟。圖像預(yù)處理過后，后期將通過文字特征來識(shí)別提取文字。

2 我國OCR技術(shù)的發(fā)展現(xiàn)狀

OCR是由德國科學(xué)家Tausheck于1929年提出來的，隨后美國科學(xué)家Handel也提出了文字識(shí)別的想法，隨后世界各國就開始了文字識(shí)別的研究。我國OCR技術(shù)起步較晚，70年代初才開始研究數(shù)字、字母、符號(hào)的識(shí)別，90年代清華大學(xué)推出了首套中文OCR產(chǎn)品，這一成果標(biāo)志了國內(nèi)在OCR技術(shù)研究領(lǐng)域有了質(zhì)的飛躍。隨著技術(shù)不斷地推陳出新，目前國內(nèi)已有多家大型公司致力于OCR技術(shù)的研究發(fā)展，像漢王科技公司、點(diǎn)通數(shù)據(jù)公司、合合信息技術(shù)公司等。從單一的印刷體字體識(shí)別，到多字體簡繁混合、中英文混合識(shí)別，到現(xiàn)在各種識(shí)別系統(tǒng)的推出，OCR技術(shù)已經(jīng)逐漸成熟并融入了各行各業(yè)。

3 OCR技術(shù)的應(yīng)用及流程

為順應(yīng)數(shù)字化時(shí)代的潮流，上海圖書館致力于圖書的數(shù)字化加工工作，從最初的印刷月刊到網(wǎng)絡(luò)平臺(tái)一體化，每年數(shù)字化加工處理的期刊文獻(xiàn)達(dá)500萬條，創(chuàng)辦的《全國報(bào)刊索引》亦是知名信息服務(wù)品牌，提供期刊、報(bào)紙、特輯資源數(shù)據(jù)庫，包括《晚清期刊全文數(shù)據(jù)庫》、《字林洋行中英文報(bào)全文紙數(shù)據(jù)庫》、《現(xiàn)刊索引數(shù)據(jù)庫》等。

以《現(xiàn)刊索引數(shù)據(jù)庫》為例，建立一個(gè)索引篇名數(shù)據(jù)庫需要的信息包括期刊的期刊名、年卷期、題名、頁碼、作者、單位、分類號(hào)、主題詞、摘要等。假設(shè)人工著錄信息必須要大量的人力物力財(cái)力，且非常容易出錯(cuò)，比如錄入錯(cuò)字，錯(cuò)行，甚至錯(cuò)篇等。使用OCR技術(shù)著錄信息，就可以大大節(jié)省時(shí)間和成本，以下是OCR技術(shù)在實(shí)際運(yùn)用中的大致流程，如圖1。

1）圖像掃描輸入。用掃描儀把期刊整本輸入進(jìn)計(jì)算機(jī)，為確保存儲(chǔ)的圖像質(zhì)量及后續(xù)的識(shí)別工作，在掃描過程中，設(shè)備參數(shù)至關(guān)重要，包括色彩模式、分辨率、掃描閾值、亮度、對(duì)比度、保存格式等。2）圖像預(yù)處理。掃描的時(shí)候由于不同紙張的厚薄度、光滑度、印刷質(zhì)量等情況會(huì)出現(xiàn)圖像模糊、畸變、斷筆、粘連、傾斜等問題，所以需對(duì)其進(jìn)行預(yù)處理，可使用Photoshop或其他工具，處理包括降噪、灰度化、二值化、去黑邊、去底色等，如此一來可減少后期文字識(shí)別時(shí)遇到字跡模糊不清楚等問題。3）圖像版面分析。圖像版面分析即識(shí)別圖像的區(qū)域?qū)傩?，是橫排文字還是豎排文字，表格還是圖片、規(guī)則版面還是不規(guī)則版面等。4）文字切分。分為自動(dòng)切分與人工切分。自動(dòng)切分是計(jì)算機(jī)通過對(duì)圖像的初步識(shí)別，按照字符每一行的上界限、下界限、每個(gè)字符的左右邊界將文字自動(dòng)切割成獨(dú)立的個(gè)體。人工切分即在自動(dòng)切分的基礎(chǔ)上對(duì)完成切分的文字進(jìn)行校對(duì)，在切割有誤的地方重新切分，保證單詞、詞組、句子的完整性。5）文字特征識(shí)別。因?yàn)槊總€(gè)文字都有其固定的特征，根據(jù)特征對(duì)文字進(jìn)行識(shí)別，通過特殊特征提取，如筆畫位置、交叉點(diǎn)數(shù)等結(jié)構(gòu)特征，就可以得到字符。6）文字比對(duì)識(shí)別。初步得到的字符通過對(duì)比文字?jǐn)?shù)據(jù)庫，可以得到文字。文字比對(duì)識(shí)別需人工干預(yù)進(jìn)行錯(cuò)字標(biāo)改。7）成品輸出保存。文字校對(duì)結(jié)束后，系統(tǒng)根據(jù)內(nèi)容自動(dòng)進(jìn)行格式排版，確認(rèn)無誤后，成品導(dǎo)出需要的文件格式，即完成了數(shù)字化工作。

整個(gè)數(shù)字化加工流程看似復(fù)雜繁瑣，實(shí)際用到OCR技術(shù)識(shí)別圖像只有零點(diǎn)幾秒，難點(diǎn)就在于前期的圖像處理與后期的校對(duì)處理，前期的圖像全文掃描與預(yù)處理工作，直接導(dǎo)致了整體的文字識(shí)別率。而后期的人工校對(duì)也是在識(shí)別率基本正確的情況進(jìn)行校對(duì)。

4 OCR技術(shù)的難點(diǎn)

雖然圖像的前期與后期工作較為繁瑣復(fù)雜，但比起傳統(tǒng)人工手動(dòng)文字錄入，OCR技術(shù)的使用在速度、準(zhǔn)確、便捷等方面略勝一籌，人會(huì)因?yàn)槠诘雀鞣N原因犯錯(cuò)，但機(jī)器不會(huì)，因此使用OCR技術(shù)加工整體消耗的人力物力都比人工著錄要少的多。盡管OCR技術(shù)很先進(jìn)，在保證圖像掃描質(zhì)量的前提下，后續(xù)的文字識(shí)別過程仍會(huì)遇到下面幾種問題：

1）文字切分錯(cuò)字。在進(jìn)行文字自動(dòng)切分時(shí)，部分固定詞組會(huì)因?yàn)榉中卸斐汕蟹皱e(cuò)誤。2）相近文字識(shí)別不出來。目前對(duì)于那些結(jié)構(gòu)特征相近的字，OCR技術(shù)仍不能完全分辨出來，如分和兮，人或入，藝和芝等。3）英文單詞識(shí)別困難。比起漢語，英文字母識(shí)別更困難，尤其是中文、英文和數(shù)字混合排列的時(shí)候，問題最為明顯，原因在于結(jié)構(gòu)大都比較相近，掃描的時(shí)候會(huì)由于光線問題造成識(shí)別混亂，如a和d，大寫i和小寫L，小寫L和1，G或6等。

5 提高識(shí)別率方法

1）選擇合適的數(shù)字掃描儀。一般從圖像傳感器性能、掃描分辨率大小、掃描適應(yīng)能力、操作便捷性幾方面考慮，針對(duì)不同的掃描資料選擇簡便的掃描儀。2）合理設(shè)置掃描儀參數(shù)。包括色彩模式、分辨率、黑白值、亮度、對(duì)比度等。對(duì)于常見的文檔資料，建議設(shè)置成黑白模式，或在特殊要求下選擇彩色模式；合理確定分辨率，選擇300dpi模式，除非有特殊情況，否則分辨率過高不僅會(huì)降低掃描速度、增加計(jì)算機(jī)存儲(chǔ)，還會(huì)降低OCR識(shí)別；掃描后，如果字體顏色較淺或較粗，可以調(diào)節(jié)亮度和對(duì)比度。3）選擇圖像存儲(chǔ)格式。掃描結(jié)束后圖像的存儲(chǔ)需要保證分辨率不受影響、無損壓縮，且適應(yīng)主流圖像編輯軟件和識(shí)別軟件，建議選擇JPEG或Tiff格式。4）即時(shí)更新文字比對(duì)數(shù)據(jù)庫。對(duì)于可能出現(xiàn)的繁體字、象形字、外文字符，即時(shí)更新可避免識(shí)別率問題。5）人工校對(duì)的重要性。正是由于OCR技術(shù)的不夠完善，不能做到100%的正確識(shí)別，后期的人工校對(duì)是提高識(shí)別率的重要環(huán)節(jié)，雖然人工校對(duì)費(fèi)時(shí)，但相比于手工錄入，總體耗時(shí)與錯(cuò)誤率都要低很多。

6 結(jié)論

從技術(shù)角度出發(fā)，OCR技術(shù)的出現(xiàn)到發(fā)展，給圖書數(shù)字化發(fā)展帶來了翻天覆地的變化，它改變了傳統(tǒng)紙質(zhì)媒介的概念，實(shí)現(xiàn)了文字識(shí)別功能，提高了資料加工的效率，為文獻(xiàn)的存檔、數(shù)據(jù)查詢開辟了新的篇章。使用OCR技術(shù)可以有效地提高工作效率，減少不必要的工作量。但是，OCR技術(shù)的識(shí)別率問題目前還是一個(gè)比較大的挑戰(zhàn)，畢竟電腦不如人腦這么靈活，碰到圖像掃描模糊、相近文字、換行斷字、英文字符等識(shí)別率就會(huì)降低，如何降低錯(cuò)誤率或利用其他工具來提高識(shí)別率，是OCR技術(shù)未來發(fā)展的一個(gè)重要環(huán)節(jié)。

參考文獻(xiàn)

[1]錢炎.醫(yī)療保險(xiǎn)系統(tǒng)中信息處理關(guān)鍵技術(shù)研究[D].南京：南京航空航天大學(xué)，2005.

[2]曾伊蕾，喻世俊，陶俊.基于OCR技術(shù)的圖像驗(yàn)證碼識(shí)別[J].軟件，2013，34（10）：106-107，110.

[3]張志遠(yuǎn).復(fù)雜背景下文字增強(qiáng)算法研究與應(yīng)用[D].上海：上海交通大學(xué)，2010.

[4]李冠藝.OCR技術(shù)在電子商務(wù)信息采集中的應(yīng)用研究[J].電腦與電信，2013（8）：56-58.

[5]陶新宇.《全國報(bào)刊索引數(shù)據(jù)庫》芻議[J].現(xiàn)代情報(bào)，2004（9）：9-10.

[6]劉明英.檔案數(shù)字化過程中OCR技術(shù)的應(yīng)用分析[J].中國高新技術(shù)企業(yè)，2017（5）：55-56.

[7]蔡旸.JPEG靜態(tài)圖像壓縮算法的研究[D].武漢：武漢科技大學(xué)，2009.

[8]郭軍.基于數(shù)字掃描儀性能的文本型數(shù)字圖像OCR識(shí)別準(zhǔn)確度提高策略研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2017（9）：118-120.

[9]王玲麗.淺談OCR技術(shù)在圖書館文獻(xiàn)資源加工中的應(yīng)用——以上海圖書館近代文獻(xiàn)全文OCR數(shù)據(jù)制作項(xiàng)目為例[J].數(shù)字與縮微影像，2015（1）：23-26.

[10]張肇玲.圖書資料檢索與信息化建設(shè)[J].人力資源管理，2018（4）：396.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

OCR技術(shù)在報(bào)刊加工中的應(yīng)用分析