鄒懿雯
摘??要:在我們周邊的生活中,我們會發(fā)現(xiàn)書籍和文件中一些中英文和公式是以一種圖片的方式向我們呈現(xiàn)的。其實這只是一種圖文識別的方法,利用了PIL庫、pytesser庫和OpenCV庫來實現(xiàn)了中英文文字識別與圖片識別之間的轉(zhuǎn)換。在圖文識別的過程中,是先打開OpenCV庫進行圖片的處理,然后再利用pytesser進行圖片中文字的識別,最終成為Python語言。在近幾年的時間里,Python語言的語言利用范圍越來越廣泛。本文是為了介紹一種圖文識別方法——Python語言的圖文識別,未來將為人們進行文本編輯提供了捷徑。
關鍵詞:Python語言;圖文識別;中英文文字;文本編輯
隨著互聯(lián)網(wǎng)發(fā)展速度十分迅速,它為我們的日常生活提供了許多的便利,也提供了愈來愈多的網(wǎng)絡資源。OCR(optical?character?recognition)文字識別是指電子設備檢查紙上打印的文字,然后用圖文識別方法將圖片翻譯成計算機文字的過程。用戶可以通過手機的拍照或者選擇手機相冊圖片進行智能識別,識別出來的文字可以智能根據(jù)圖片文字段落進行排版,從而將圖片上的某些文字信息翻譯成計算機文字的過程。這個圖文識別的功能就是利用?Python?語言的資源庫,通過代碼的操作,就能夠達到圖文識別的功能[1]。我們也能在未來的生活中看到它的廣泛應用。
一、Python語言
于?1990?年Python?語言的設計發(fā)起人吉多·范羅蘇姆發(fā)布了?Python?的初始版。1989年的圣誕節(jié)期間,吉多他只是想為了打發(fā)圣誕節(jié)的無聊時間,想開發(fā)一個新型編程語言,為繼承ABC語言做鋪墊。Python作為該編程語言的名字,主要是取自英國20世紀70年代首播的電視喜劇《蒙提.派森的飛行馬戲團》。作為一種計算機程序設計動態(tài)類型的語言,設計初期是用于編寫自動化腳本,隨著版本的不斷更新?lián)Q代,越來越多的語言功能被用于大型項目的開發(fā)中。Python是一種編程腳本語言,可以應用于以下領域:Web?和?Internet開發(fā),科學計算和統(tǒng)計,人工智能,教育,桌面界面開發(fā),軟件開發(fā),后端開發(fā)[2]。自從20世紀90年代初這種計算機程序語言Python語言被開發(fā)出來,它已大范圍地應用于系統(tǒng)管理任務的處理和Web編程。Python語言的單一性、易閱讀和可延伸性,使得國內(nèi)外一些知名大學已經(jīng)開展了Python語言的相關程序設計課程。Python語言成為一門閱讀人群范圍越來越廣泛,并且成為最受歡迎的程序設計語言之一,那是因為Python語言在某些方面呈現(xiàn)出來的是明確簡單的形象。這個計算機程序語言的設計哲學是“優(yōu)美”、“明確”、“簡單”。讓代碼看起來有閱讀的興趣并且不復雜是發(fā)明者設計時最初的想法。在用戶無論是使用何種語言的字符號,能夠使編程代碼看起來簡潔。
二、Python語言的特點
(一)優(yōu)點:
簡單性:Python是一種代表思維簡單、操作性強的語言。都是給程序員留有足夠的想象空間的。
易操作:Python有十分簡單的說明,所以這個編程語言不難以理解。
執(zhí)行速度快:Python的標準庫和第三方庫都是用?C語言編寫的,執(zhí)行速度快。
免費、開源:Python是FLOSS(開放源碼軟件)之一。相當于說用戶可以沒有任何限制進行代碼的復制且發(fā)布。還可以閱讀源代碼,甚至將一些代碼進行篡改利用到新程序當中都是可以的。
高級計算機程序語言:在Python語言編寫程序的時候省了一步考慮最后考慮的問題
解釋性:在程序員在開發(fā)新的編程代碼時往往不會去使用C或C++寫的程序去編程,而選擇Python語言去進行編程工作。C或C++編程的這個過程在運行程序上就已經(jīng)變得繁瑣起來,且功能還不足以與Python語言相抗衡。因為Python語言在編寫程序上不需要去使用二進制的代碼,直接從原始代碼運行程序就可以了。Python語言在速度上和解釋性上就比其他程序語言勝出一籌了。在本質(zhì)上,Python語言就是字節(jié)編譯的計算機編程語言[3]。這正是它相較于其它者的有點。
可大幅度延伸:希望在操作速度上得到提升,可以不多延深Python語言的可能性。
可融性:為了程序員的編程工作,可以將Python與?C/C++相互結(jié)合在一起,從而向程序用戶提供腳本功能。
龐大的詞庫:Python標準庫加上第三方庫可以幫助處理各種與系統(tǒng)有關的操作工作。
(二)缺點:
限制輸出問題:Python語言在大部分時間程序無法連成一行,須在編寫程序時寫入一個.py文件。
局限性語法:在一定程度上,區(qū)分語句之間關系有著局限性。
速度慢:與其他編程語言相比,Python語言的運行速度會很慢。
三、Python語言的應用
在硬盤目錄下所保存等待掃描的文件,有文件名為圖1“數(shù)學.png”、圖2“英文.png”、圖3“符號.png”、圖4“詩詞.png”[4]。
通過Python語言的圖文識別結(jié)果如下:
結(jié)語
隨著網(wǎng)絡技術越來越強大,計算機的圖文識別功能已上線。Python?語言擁有強大的第三方腳本語言詞庫,Python有著極高的識別準確率在大部分時間里減少了圖文識別的錯誤率,用戶在文本編輯節(jié)約了大量時間?;仡欉@些過往,Python語言對于我們還是有著相當?shù)囊嫣帯N磥砩畹幕ヂ?lián)網(wǎng)與科技的相互結(jié)合,會為程序員的編寫程序生活上提供更加有利的方法。Python語言的不斷更新?lián)Q代會使代碼具備更加完美的功能。相信不久將來,Python語言應用范圍會越來越廣泛。
參考文獻
[1]??溫珍,基于Python語言的中文文本處理研究[J],南昌工程學院學報,2018,134(03):74-79
[2]??李澤,古超,龍政,基于Python的文本分析方法研究[J],電腦編程技巧與維護,2018,394(04):27-28+53
[3]??裘鍇.Python語言編程在計算機理論教學上的應用探索[J].納稅,2017(21):188.
[4]??張毅寧,基于Python語言的模式識別應用[J],鞍山師范學院學報,2016,96,(02):79-81+95