郝輝 哈力木拉提·買買提 喬薩礎(chǔ)拉 蘇佩佩
摘 要: 為了探究字符識別領(lǐng)域的研究現(xiàn)狀和發(fā)展趨勢,整理Web of Science中近20年以字符識別為主題的典型文獻作為研究對象,采用文獻計量分析方法,利用CiteSpace可視化分析工具繪制知識網(wǎng)絡(luò)圖譜,系統(tǒng)科學(xué)地分析字符識別領(lǐng)域的研究國家、研究機構(gòu)、研究熱點以及核心文獻,理清研究發(fā)展脈絡(luò)。研究發(fā)現(xiàn),字符識別的理論研究已經(jīng)相對成熟,研究內(nèi)容主要集中在算法或模型優(yōu)化,以提高字符識別在實際應(yīng)用中的識別準確率。通過上述工作,希望為我國研究人員了解字符識別的相關(guān)研究提供進一步的參考和幫助。
關(guān)鍵詞: 字符識別; 研究現(xiàn)狀; 發(fā)展趨勢; 文獻計量分析; 知識網(wǎng)絡(luò)圖譜; CiteSpace
中圖分類號: TN911?34; TP391.1 文獻標識碼: A 文章編號: 1004?373X(2018)22?0154?05
Abstract: The typical literatures in Web of Science with character recognition as the subject in recent 20 years are taken as the research objects to explore the research status and development trend of the character recognition field. The bibliometric analysis method and the CiteSpace visualization analysis tool are used to draw knowledge network maps, so as to systematically and scientifically analyze the research countries, research institutions, research hotspots and core literatures in the character recognition field, and clarify the development vein of the research. It is found that the theoretical research of character recognition has been relatively mature, and the research content is mainly focused on algorithm or model optimization, so as to improve the recognition accuracy rate of character recognition in actual applications, and hopefully provide further references and help for Chinese researchers to understand relevant researches of character recognition.
Keywords: character recognition; research status; development trend; bibliometric analysis; knowledge network map; CiteSpace
德國科學(xué)家Tausheck在1929年首先提出字符識別的概念,并申請專利[1]。但直到1960年左右,字符識別的相關(guān)研究才真正開始,距今已有近60年,但沒有從科學(xué)知識圖譜的角度對字符識別領(lǐng)域進行總結(jié)分析。出于上述原因,本文通過Web of Science檢索平臺,利用CiteSpace[2]數(shù)據(jù)可視化分析工具對檢索到的字符識別文獻數(shù)據(jù)進行分析,嘗試從宏觀角度分析并闡述以下三個方面:近20年字符識別領(lǐng)域的研究國家;近20年字符識別領(lǐng)域的研究機構(gòu);近20年字符識別領(lǐng)域的熱點演化。
本文的具體工作如下:說明數(shù)據(jù)來源和研究方法;對采集到的文獻數(shù)據(jù)進行描述分析;對結(jié)果進行討論和總結(jié)。力圖通過客觀形象的方法展示字符識別領(lǐng)域的現(xiàn)狀和趨勢,為國內(nèi)研究人員對字符識別領(lǐng)域的認知提供進一步的幫助和參考。
1.1 數(shù)據(jù)采集方式
文獻數(shù)據(jù)來自信息檢索平臺Web of Science的核心合集數(shù)據(jù)庫,檢索步驟如下:
1) 通過主題檢索的方式,在高級檢索中創(chuàng)建檢索式:TS=(“character recognition”);
2) 設(shè)定檢索索引:引文索引和SCI?EXPANDED (1999年至今);
3) 設(shè)定時間跨度:1999—2017年;
4) 研究領(lǐng)域限定在“computer science”;
5) 選擇文獻類型:期刊(ARTICLE)和會議論文(PROCEEDINGS PAPER)。共采集文獻數(shù)據(jù)1 127篇,包含作者、標題、摘要、關(guān)鍵詞、來源出版物以及該文獻所引用參考文獻等相關(guān)屬性信息。
1.2 研究方法
采用的研究方法是文獻計量分析,它可以利用數(shù)學(xué)、統(tǒng)計學(xué)的方法研究探討科學(xué)技術(shù)動態(tài)特征[3]。而利用CiteSpace可視化工具可以將文獻數(shù)據(jù)通過文獻計量學(xué)的方法轉(zhuǎn)化成網(wǎng)絡(luò)知識圖譜。網(wǎng)絡(luò)知識圖譜是以科學(xué)知識為計量研究對象,在特定空間特定時間范圍中顯示科學(xué)知識的發(fā)展進程與結(jié)構(gòu)關(guān)系,揭示學(xué)科知識之間的聯(lián)系及知識的進化規(guī)律[4],通過圖表的方式直觀展示宏觀角度的學(xué)科研究。通過對1 127篇字符識別文獻數(shù)據(jù)進行研究國家、研究機構(gòu)、關(guān)鍵詞、核心文獻統(tǒng)計分析,挖掘出字符識別領(lǐng)域潛藏的知識以及知識來源和發(fā)展規(guī)律,研究流程如圖1所示。
2.1 主要國家/地區(qū)分析
國家/地區(qū)之間會有不同的語言和文字,對國家/地區(qū)分析可以了解字符識別領(lǐng)域研究活動在全世界的分布范圍、主要研究的語種以及國家/地區(qū)在字符識別領(lǐng)域的影響力。圖2是1999—2017年在字符識別領(lǐng)域比較活躍的國家或地區(qū)發(fā)文數(shù)量分布。
如圖2所示,字符識別領(lǐng)域中主要研究的文字識別有:中文、英文、日文、印度文、韓文、法文、意大利文、西班牙文、德文、阿拉伯文。在該領(lǐng)域內(nèi)中國發(fā)文量最高,以243篇排名第一,其次美國150篇排名第二,日本(115篇)、印度(99篇)、韓國(62篇)、加拿大(57篇)、法國(57篇)等國家或地區(qū)緊隨其后。從國家或地區(qū)分布來看,亞洲地區(qū)國家數(shù)量明顯高于世界其他地區(qū),主要有中國、日本、印度、韓國、伊朗和沙特阿拉伯。根據(jù)首次發(fā)文年曲線可知,前11個國家在1999年就已經(jīng)發(fā)表相關(guān)研究文獻,西班牙、德國相繼在2000年和2001年發(fā)表了第一篇關(guān)于字符識別的研究文獻。值得注意的是,伊朗和沙特阿拉伯對字符識別的研究起步較晚,可以看出對于阿拉伯文字符識別兩國分別是在2005年和2007年開始的。
2.2 研究機構(gòu)分析
研究機構(gòu)是對特定領(lǐng)域或者特定學(xué)科進行專業(yè)研究的組織,其在特定領(lǐng)域具有一定的權(quán)威性和影響力。1999—2017年字符識別領(lǐng)域發(fā)表文獻量排名Top 10的研究機構(gòu)見表1。
如表1可知,表中研究機構(gòu)共來自5個國家,分別是中國5所,日本2所、加拿大1所、新加坡1所、印度1所。中國科學(xué)院(45篇)排名第一,東京農(nóng)工大學(xué)(19篇)排名第二,肯高迪亞大學(xué)(18篇)排名第三。其余新加坡國立大學(xué)(17篇),印度統(tǒng)計學(xué)院(16篇)等,中國的研究機構(gòu)在字符識別領(lǐng)域最活躍,其次是日本、加拿大、新加坡、印度的研究機構(gòu),其中日本的日立公司在字符識別領(lǐng)域發(fā)表文獻14篇。
1999—2017年字符識別領(lǐng)域研究機構(gòu)合作網(wǎng)絡(luò)圖譜見圖4,圖譜中的節(jié)點代表研究機構(gòu)。節(jié)點之間連線表示具有合作關(guān)系,粗連線表示研究機構(gòu)合作越密切。由圖4可知,機構(gòu)間的合作交流密切,例如:中國科學(xué)院與內(nèi)蒙古大學(xué)、加拿大蒙特利爾大學(xué)、東京農(nóng)工大學(xué)等有合作關(guān)系,日本日立公司與東京農(nóng)工大學(xué)、信州大學(xué)、韓國先進科技學(xué)院有合作;清華大學(xué)與北京郵電大學(xué)、貝爾格萊德大學(xué)、倫斯勒理工學(xué)院有合作;卡耐基梅隆大學(xué)與北京郵電大學(xué)、全南國立大學(xué)有合作;新加坡國立大學(xué)與巴黎第六大學(xué)、新加坡科技研究局、新加坡資訊通信研究院等。研究機構(gòu)間的合作并不局限于國內(nèi)機構(gòu),國際間的交流合作同樣頻繁密切。
2.3 熱點演化分析
關(guān)鍵詞直觀反映文獻的主題,對關(guān)鍵詞進行統(tǒng)計分析的方法稱為共詞分析。通過共詞分析方法,可以發(fā)現(xiàn)隱藏在真實詞匯關(guān)系網(wǎng)絡(luò)背后的復(fù)雜關(guān)系網(wǎng)絡(luò)[5],又稱為關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。詞頻、中心性和突現(xiàn)值是共現(xiàn)詞網(wǎng)絡(luò)的三個重要指標。詞頻是關(guān)鍵詞在某個時期出現(xiàn)的次數(shù),中心性是代表關(guān)鍵詞在共現(xiàn)網(wǎng)絡(luò)中的重要性,突現(xiàn)值是關(guān)鍵詞在某個時期波動程度的量化,突現(xiàn)值高的關(guān)鍵詞表明在某個時期內(nèi)增長速度快,關(guān)鍵詞詞頻分布和首次出現(xiàn)年份(1999—2017年)見表2。
根據(jù)表2關(guān)鍵詞詞頻分布及首次出現(xiàn)時間,字符識別領(lǐng)域近20年的發(fā)展大致可以分為三個階段:
1) 1999—2004年
表中有10/15個關(guān)鍵詞出現(xiàn)在這個時期且詞頻較高,表明此時字符識別領(lǐng)域比較活躍。其中“neural network”“HMM(Hidden Markov Model)”“Online”等,“SVM”“Face recognition”等具有較高突現(xiàn)值,表現(xiàn)出較強的爆發(fā)性,是這個時期的研究熱點,而且“Face recognition”的出現(xiàn),表示在人臉識別領(lǐng)域和字符識別領(lǐng)域出現(xiàn)交叉研究。“Algorithm”“Segmentation”“System”“Feature extraction”頻數(shù)高但突現(xiàn)值為0,說明在這個時期,主要關(guān)注點仍是傳統(tǒng)基于統(tǒng)計的識別方法,并逐漸開展應(yīng)用研究。
2) 2005—2012年
這個時期字符識別研究趨于平穩(wěn)。“Genetic algorithm”“Document analysis”“Text detection”,雖然頻數(shù)和中心性都較低,但具有較強突現(xiàn)性,說明模型優(yōu)化、文檔分析、文本檢測是這個時期的研究熱點。
3) 2013—2017年
2013年,“RNN(Recurrent Neural Networks)”的頻數(shù)為6,中心性為0.01,突現(xiàn)值為0,說明“RNN”并未受到研究者的重視,只是在阿拉伯文字符識別中有相關(guān)研究,例如:Ulhasan A等人利用BLSTM(Bidirectional Long Short?term Memory)對Urdu Nastaleeq文字進行識別,取得96.40%的識別率[6]。2016年的關(guān)鍵詞“CNN (Convolutional Neural Network)”的頻數(shù)雖然只有9次,但突現(xiàn)值是4.03,具有明顯的爆發(fā)性,將CNN用于字符識別成為這個時期的研究熱點。通過1999年和2017年兩篇關(guān)于神經(jīng)網(wǎng)絡(luò)用于手寫中文字符識別的文章,發(fā)現(xiàn)1999年ZHEN L和DAI R使用神經(jīng)網(wǎng)絡(luò)在手寫中文字符識別中獲得92%的識別率[7],而2017年XIAO X等人使用卷積神經(jīng)網(wǎng)絡(luò)在手寫中文字符識別中獲得97.27%的識別率[8]。
2.4 引用文獻分析
引用文獻分析是量化科研影響力和科技評價的有效工具[9],其中文獻的被引頻數(shù)是量化一篇文獻在該領(lǐng)域影響力和重要性的核心指標,是當(dāng)時研究者關(guān)注點的主要體現(xiàn)。通過引文分析,可以了解某個時期的研究現(xiàn)狀和發(fā)展趨勢,近五年字符識別領(lǐng)域被引文獻Top 10見表3。
統(tǒng)計發(fā)現(xiàn),Yu J等人的文章引用次數(shù)遠超表中其他作者,高達126次,文章中提出一種高階距離多視圖隨機學(xué)習(xí)(High?order Distance?based Multiview Stochastic Learning,HD?MSL)方法,通過超圖(hypergraph)獲取高階距離代替評估數(shù)據(jù)分布概率矩陣的每對距離,在圖像分類中取得很好的識別效果[10]。
此外,表3中文獻都和機器學(xué)習(xí)有關(guān),主要集中在手寫文字識別、場景文字識別以及神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法上,例如:Tian S等人在文章中提出兩種特征描述符:Co?HOG(Co?occurrence HOG)和ConvCo?HOG(Convolutional Co?HOG),用于場景字符識別,并在中文、英文、孟加拉文的場景字符數(shù)據(jù)集中取得優(yōu)秀的識別率[11];Naz S等人利用滑動窗口對文本行提取一組統(tǒng)計特征,結(jié)合MDLSTMRNN(Multi?dimensional Long Short Term Memory Recurrent Neural Network)和CTC(Connectionist Temporal Classification)模型,對Urdu?Nastaliq字符識別并獲得96.40%的識別率[12];Zhang X Y等人將方向特征圖譜(directional feature map)和CNN模型相結(jié)合,對手寫中文字符進行識別并獲得96.95%的識別率[13]。分析表明目前在字符識別領(lǐng)域,研究者主要關(guān)注深度學(xué)習(xí)方法在文字識別領(lǐng)域的應(yīng)用,通過深度學(xué)習(xí)方法提升復(fù)雜場景下字符識別的識別準確率。
通過文獻計量分析方法對字符識別領(lǐng)域近20年的1 127篇文獻數(shù)據(jù)進行系統(tǒng)科學(xué)的研究分析,揭示了字符識別領(lǐng)域從1999—2017年的研究現(xiàn)狀和發(fā)展趨勢,如表4所示。
通過研究分析,字符識別近20年的發(fā)展,各語種文字識別已經(jīng)取得豐碩成果,但對于具有粘連特性文字識別的研究仍然存在不足,例如:阿拉伯文字符識別,字符切分仍然是當(dāng)前研究熱點。此外復(fù)雜場景下的字符識別、文本檢測以及如何提升字符識別在實際應(yīng)用中的識別準確率仍然是當(dāng)前主要研究問題。
參考文獻
[1] MORI S, SUEN C Y, YAMAMOTO K. Historical review of OCR research and development [J]. Proceedings of the IEEE, 1992, 80(7): 1029?1058.
[2] 陳悅,陳超美,劉則淵,等.CiteSpace知識圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242?253.
CHEN Yue, CHEN Chaomei, LIU Zeyuan, et al. The methodology function of CiteSpace mapping knowledge domains [J]. Studies in science of science, 2015, 33(2): 242?253.
[3] 邱均平.文獻計量學(xué)[M].北京:科學(xué)技術(shù)文獻出版社,1988.
QIU Junping. Bibliometrics [M]. Beijing: Scientific and Technical Documentation Press, 1988.
[4] 陳悅,劉則淵.悄然興起的科學(xué)知識圖譜[J].科學(xué)學(xué)研究,2005,23(2):149?154.
CHEN Yue, LIU Zeyuan. The rise of mapping knowledge domain [J]. Studies in science of science, 2005, 23(2): 149?154.
[5] 范少萍,李迎迎,張志強.國內(nèi)外共詞分析研究的文獻計量分析[J].情報雜志,2013,32(9):104?109.
FAN Shaoping, LI Yingying, ZHANG Zhiqiang. A bibliometric analysis of the co?word analyses at home and abroad [J]. Journal of intelligence, 2013, 32(9): 104?109.
[6] UL?HASAN A, AHMED S B, RASHID F, et al. Offline printed Urdu Nastaleeq script recognition with bidirectional LSTM networks [C]// Proceedings of 12th International Conference on Document Analysis and Recognition. Washington: IEEE, 2013: 1061?1065.
[7] ZHEN L, DAI R. Off?line handwritten Chinese character recognition with nonlinear pre?classification [J]. Advances in multimodal interfaces, 2000, 1948: 473?479.
[8] XIAO X, JIN L, YANG Y, et al. Building fast and compact convolutional neural networks for offline handwritten Chinese character recognition [J]. Pattern recognition, 2017, 72: 72?81.
[9] 萬昊,譚宗穎,魯晶晶,等.2001—2014年引文分析領(lǐng)域發(fā)展演化綜述[J].圖書情報工作,2015,59(6):120?136.
WAN Hao, TAN Zongying, LU Jingjing, et al. Summary of the evolution of citation analysis research: 2001?2014 [J]. Library and information service, 2015, 59(6): 120?136.
[10] YU J, RUI Y, TANG Y Y, et al. High?order distance?based multiview stochastic learning in image classification [J]. IEEE transactions on cybernetics, 2014, 44(12): 2431?2442.
[11] TIAN S, BHATTACHARYA U, LU S, et al. Multilingual scene character recognition with co?occurrence of histogram of oriented gradients [J]. Pattern recognition, 2016, 51: 125?134.
[12] NAZ S, UMAR A I, AHMAD R, et al. Offline cursive Urdu?Nastaliq script recognition using multidimensional recurrent neural networks [J]. Neurocomputing, 2016, 177: 228?241.
[13] ZHANG X Y, BENGIO Y, LIU C L. Online and offline handwritten Chinese character recognition: a comprehensive study and new benchmark [J]. Pattern recognition, 2017, 61: 348?360.
[14] 李戰(zhàn)明,楊紅紅.車牌圖像特征提取及改進神經(jīng)網(wǎng)絡(luò)的識別算法研究[J].現(xiàn)代電子技術(shù),2016,39(16):102?104.
LI Zhanming, YANG Honghong. Research on feature extraction of license plate image and recognition algorithm based on improved neural network [J]. Modern electronics technique, 2016, 39(16): 102?104.
[15] CHEN C. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science & Technology, 2006, 57(3): 359?377.