字符识别研究现状和发展趋势计量分析

2018-11-13 05:31郝辉哈力木拉提·买买提乔萨础拉苏佩佩
现代电子技术 2018年22期
关键词:字符识别图谱领域

郝辉 哈力木拉提·买买提 乔萨础拉 苏佩佩

摘 要: 为了探究字符识别领域的研究现状和发展趋势,整理Web of Science中近20年以字符识别为主题的典型文献作为研究对象,采用文献计量分析方法,利用CiteSpace可视化分析工具绘制知识网络图谱,系统科学地分析字符识别领域的研究国家、研究机构、研究热点以及核心文献,理清研究发展脉络。研究发现,字符识别的理论研究已经相对成熟,研究内容主要集中在算法或模型优化,以提高字符识别在实际应用中的识别准确率。通过上述工作,希望为我国研究人员了解字符识别的相关研究提供进一步的参考和帮助。

关键词: 字符识别; 研究现状; 发展趋势; 文献计量分析; 知识网络图谱; CiteSpace

中图分类号: TN911?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2018)22?0154?05

Abstract: The typical literatures in Web of Science with character recognition as the subject in recent 20 years are taken as the research objects to explore the research status and development trend of the character recognition field. The bibliometric analysis method and the CiteSpace visualization analysis tool are used to draw knowledge network maps, so as to systematically and scientifically analyze the research countries, research institutions, research hotspots and core literatures in the character recognition field, and clarify the development vein of the research. It is found that the theoretical research of character recognition has been relatively mature, and the research content is mainly focused on algorithm or model optimization, so as to improve the recognition accuracy rate of character recognition in actual applications, and hopefully provide further references and help for Chinese researchers to understand relevant researches of character recognition.

Keywords: character recognition; research status; development trend; bibliometric analysis; knowledge network map; CiteSpace

0 引 言

德國科学家Tausheck在1929年首先提出字符识别的概念,并申请专利[1]。但直到1960年左右,字符识别的相关研究才真正开始,距今已有近60年,但没有从科学知识图谱的角度对字符识别领域进行总结分析。出于上述原因,本文通过Web of Science检索平台,利用CiteSpace[2]数据可视化分析工具对检索到的字符识别文献数据进行分析,尝试从宏观角度分析并阐述以下三个方面:近20年字符识别领域的研究国家;近20年字符识别领域的研究机构;近20年字符识别领域的热点演化。

本文的具体工作如下:说明数据来源和研究方法;对采集到的文献数据进行描述分析;对结果进行讨论和总结。力图通过客观形象的方法展示字符识别领域的现状和趋势,为国内研究人员对字符识别领域的认知提供进一步的帮助和参考。

1 数据采集和研究方法简介

1.1 数据采集方式

文献数据来自信息检索平台Web of Science的核心合集数据库,检索步骤如下:

1) 通过主题检索的方式,在高级检索中创建检索式:TS=(“character recognition”);

2) 设定检索索引:引文索引和SCI?EXPANDED (1999年至今);

3) 设定时间跨度:1999—2017年;

4) 研究领域限定在“computer science”;

5) 选择文献类型:期刊(ARTICLE)和会议论文(PROCEEDINGS PAPER)。共采集文献数据1 127篇,包含作者、标题、摘要、关键词、来源出版物以及该文献所引用参考文献等相关属性信息。

1.2 研究方法

采用的研究方法是文献计量分析,它可以利用数学、统计学的方法研究探讨科学技术动态特征[3]。而利用CiteSpace可视化工具可以将文献数据通过文献计量学的方法转化成网络知识图谱。网络知识图谱是以科学知识为计量研究对象,在特定空间特定时间范围中显示科学知识的发展进程与结构关系,揭示学科知识之间的联系及知识的进化规律[4],通过图表的方式直观展示宏观角度的学科研究。通过对1 127篇字符识别文献数据进行研究国家、研究机构、关键词、核心文献统计分析,挖掘出字符识别领域潜藏的知识以及知识来源和发展规律,研究流程如图1所示。

2 研究结果与分析

2.1 主要国家/地区分析

国家/地区之间会有不同的语言和文字,对国家/地区分析可以了解字符识别领域研究活动在全世界的分布范围、主要研究的语种以及国家/地区在字符识别领域的影响力。图2是1999—2017年在字符识别领域比较活跃的国家或地区发文数量分布。

如图2所示,字符识别领域中主要研究的文字识别有:中文、英文、日文、印度文、韩文、法文、意大利文、西班牙文、德文、阿拉伯文。在该领域内中国发文量最高,以243篇排名第一,其次美国150篇排名第二,日本(115篇)、印度(99篇)、韩国(62篇)、加拿大(57篇)、法国(57篇)等国家或地区紧随其后。从国家或地区分布来看,亚洲地区国家数量明显高于世界其他地区,主要有中国、日本、印度、韩国、伊朗和沙特阿拉伯。根据首次发文年曲线可知,前11个国家在1999年就已经发表相关研究文献,西班牙、德国相继在2000年和2001年发表了第一篇关于字符识别的研究文献。值得注意的是,伊朗和沙特阿拉伯对字符识别的研究起步较晚,可以看出对于阿拉伯文字符识别两国分别是在2005年和2007年开始的。

2.2 研究机构分析

研究机构是对特定领域或者特定学科进行专业研究的组织,其在特定领域具有一定的权威性和影响力。1999—2017年字符识别领域发表文献量排名Top 10的研究机构见表1。

如表1可知,表中研究机构共来自5个国家,分别是中国5所,日本2所、加拿大1所、新加坡1所、印度1所。中国科学院(45篇)排名第一,东京农工大学(19篇)排名第二,肯高迪亚大学(18篇)排名第三。其余新加坡国立大学(17篇),印度统计学院(16篇)等,中国的研究机构在字符识别领域最活跃,其次是日本、加拿大、新加坡、印度的研究机构,其中日本的日立公司在字符识别领域发表文献14篇。

1999—2017年字符识别领域研究机构合作网络图谱见图4,图谱中的节点代表研究机构。节点之间连线表示具有合作关系,粗连线表示研究机构合作越密切。由图4可知,机构间的合作交流密切,例如:中国科学院与内蒙古大学、加拿大蒙特利尔大学、东京农工大学等有合作关系,日本日立公司与东京农工大学、信州大学、韩国先进科技学院有合作;清华大学与北京邮电大学、贝尔格莱德大学、伦斯勒理工学院有合作;卡耐基梅隆大学与北京邮电大学、全南国立大学有合作;新加坡国立大学与巴黎第六大学、新加坡科技研究局、新加坡资讯通信研究院等。研究机构间的合作并不局限于国内机构,国际间的交流合作同样频繁密切。

2.3 热点演化分析

关键词直观反映文献的主题,对关键词进行统计分析的方法称为共词分析。通过共词分析方法,可以发现隐藏在真实词汇关系网络背后的复杂关系网络[5],又称为关键词共现网络。词频、中心性和突现值是共现词网络的三个重要指标。词频是关键词在某个时期出现的次数,中心性是代表关键词在共现网络中的重要性,突现值是关键词在某个时期波动程度的量化,突现值高的关键词表明在某个时期内增长速度快,关键词词频分布和首次出现年份(1999—2017年)见表2。

根据表2关键词词频分布及首次出现时间,字符识别领域近20年的发展大致可以分为三个阶段:

1) 1999—2004年

表中有10/15个关键词出现在这个时期且词频较高,表明此时字符识别领域比较活跃。其中“neural network”“HMM(Hidden Markov Model)”“Online”等,“SVM”“Face recognition”等具有较高突现值,表现出较强的爆发性,是这个时期的研究热点,而且“Face recognition”的出现,表示在人脸识别领域和字符识别领域出现交叉研究。“Algorithm”“Segmentation”“System”“Feature extraction”頻数高但突现值为0,说明在这个时期,主要关注点仍是传统基于统计的识别方法,并逐渐开展应用研究。

2) 2005—2012年

这个时期字符识别研究趋于平稳。“Genetic algorithm”“Document analysis”“Text detection”,虽然频数和中心性都较低,但具有较强突现性,说明模型优化、文档分析、文本检测是这个时期的研究热点。

3) 2013—2017年

2013年,“RNN(Recurrent Neural Networks)”的频数为6,中心性为0.01,突现值为0,说明“RNN”并未受到研究者的重视,只是在阿拉伯文字符识别中有相关研究,例如:Ulhasan A等人利用BLSTM(Bidirectional Long Short?term Memory)对Urdu Nastaleeq文字进行识别,取得96.40%的识别率[6]。2016年的关键词“CNN (Convolutional Neural Network)”的频数虽然只有9次,但突现值是4.03,具有明显的爆发性,将CNN用于字符识别成为这个时期的研究热点。通过1999年和2017年两篇关于神经网络用于手写中文字符识别的文章,发现1999年ZHEN L和DAI R使用神经网络在手写中文字符识别中获得92%的识别率[7],而2017年XIAO X等人使用卷积神经网络在手写中文字符识别中获得97.27%的识别率[8]。

2.4 引用文献分析

引用文献分析是量化科研影响力和科技评价的有效工具[9],其中文献的被引频数是量化一篇文献在该领域影响力和重要性的核心指标,是当时研究者关注点的主要体现。通过引文分析,可以了解某个时期的研究现状和发展趋势,近五年字符识别领域被引文献Top 10见表3。

统计发现,Yu J等人的文章引用次数远超表中其他作者,高达126次,文章中提出一种高阶距离多视图随机学习(High?order Distance?based Multiview Stochastic Learning,HD?MSL)方法,通过超图(hypergraph)获取高阶距离代替评估数据分布概率矩阵的每对距离,在图像分类中取得很好的识别效果[10]。

此外,表3中文献都和机器学习有关,主要集中在手写文字识别、场景文字识别以及神经网络学习方法上,例如:Tian S等人在文章中提出两种特征描述符:Co?HOG(Co?occurrence HOG)和ConvCo?HOG(Convolutional Co?HOG),用于场景字符识别,并在中文、英文、孟加拉文的场景字符数据集中取得优秀的识别率[11];Naz S等人利用滑动窗口对文本行提取一组统计特征,结合MDLSTMRNN(Multi?dimensional Long Short Term Memory Recurrent Neural Network)和CTC(Connectionist Temporal Classification)模型,对Urdu?Nastaliq字符识别并获得96.40%的识别率[12];Zhang X Y等人将方向特征图谱(directional feature map)和CNN模型相结合,对手写中文字符进行识别并获得96.95%的识别率[13]。分析表明目前在字符识别领域,研究者主要关注深度学习方法在文字识别领域的应用,通过深度学习方法提升复杂场景下字符识别的识别准确率。

通过文献计量分析方法对字符识别领域近20年的1 127篇文献数据进行系统科学的研究分析,揭示了字符识别领域从1999—2017年的研究现状和发展趋势,如表4所示。

3 结 语

通过研究分析,字符识别近20年的发展,各语种文字识别已经取得丰硕成果,但对于具有粘连特性文字识别的研究仍然存在不足,例如:阿拉伯文字符识别,字符切分仍然是当前研究热点。此外复杂场景下的字符识别、文本检测以及如何提升字符识别在实际应用中的识别准确率仍然是当前主要研究问题。

参考文献

[1] MORI S, SUEN C Y, YAMAMOTO K. Historical review of OCR research and development [J]. Proceedings of the IEEE, 1992, 80(7): 1029?1058.

[2] 陈悦,陈超美,刘则渊,等.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242?253.

CHEN Yue, CHEN Chaomei, LIU Zeyuan, et al. The methodology function of CiteSpace mapping knowledge domains [J]. Studies in science of science, 2015, 33(2): 242?253.

[3] 邱均平.文献计量学[M].北京:科学技术文献出版社,1988.

QIU Junping. Bibliometrics [M]. Beijing: Scientific and Technical Documentation Press, 1988.

[4] 陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149?154.

CHEN Yue, LIU Zeyuan. The rise of mapping knowledge domain [J]. Studies in science of science, 2005, 23(2): 149?154.

[5] 范少萍,李迎迎,张志强.国内外共词分析研究的文献计量分析[J].情报杂志,2013,32(9):104?109.

FAN Shaoping, LI Yingying, ZHANG Zhiqiang. A bibliometric analysis of the co?word analyses at home and abroad [J]. Journal of intelligence, 2013, 32(9): 104?109.

[6] UL?HASAN A, AHMED S B, RASHID F, et al. Offline printed Urdu Nastaleeq script recognition with bidirectional LSTM networks [C]// Proceedings of 12th International Conference on Document Analysis and Recognition. Washington: IEEE, 2013: 1061?1065.

[7] ZHEN L, DAI R. Off?line handwritten Chinese character recognition with nonlinear pre?classification [J]. Advances in multimodal interfaces, 2000, 1948: 473?479.

[8] XIAO X, JIN L, YANG Y, et al. Building fast and compact convolutional neural networks for offline handwritten Chinese character recognition [J]. Pattern recognition, 2017, 72: 72?81.

[9] 万昊,谭宗颖,鲁晶晶,等.2001—2014年引文分析领域发展演化综述[J].图书情报工作,2015,59(6):120?136.

WAN Hao, TAN Zongying, LU Jingjing, et al. Summary of the evolution of citation analysis research: 2001?2014 [J]. Library and information service, 2015, 59(6): 120?136.

[10] YU J, RUI Y, TANG Y Y, et al. High?order distance?based multiview stochastic learning in image classification [J]. IEEE transactions on cybernetics, 2014, 44(12): 2431?2442.

[11] TIAN S, BHATTACHARYA U, LU S, et al. Multilingual scene character recognition with co?occurrence of histogram of oriented gradients [J]. Pattern recognition, 2016, 51: 125?134.

[12] NAZ S, UMAR A I, AHMAD R, et al. Offline cursive Urdu?Nastaliq script recognition using multidimensional recurrent neural networks [J]. Neurocomputing, 2016, 177: 228?241.

[13] ZHANG X Y, BENGIO Y, LIU C L. Online and offline handwritten Chinese character recognition: a comprehensive study and new benchmark [J]. Pattern recognition, 2017, 61: 348?360.

[14] 李战明,杨红红.车牌图像特征提取及改进神经网络的识别算法研究[J].现代电子技术,2016,39(16):102?104.

LI Zhanming, YANG Honghong. Research on feature extraction of license plate image and recognition algorithm based on improved neural network [J]. Modern electronics technique, 2016, 39(16): 102?104.

[15] CHEN C. CiteSpace II: detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science & Technology, 2006, 57(3): 359?377.

猜你喜欢
字符识别图谱领域
绘一张成长图谱
领域·对峙
一种改进深度学习网络结构的英文字符识别
补肾强身片UPLC指纹图谱
仪表字符识别中的图像处理算法研究
主动对接你思维的知识图谱
基于CUDA和深度置信网络的手写字符识别
新常态下推动多层次多领域依法治理初探
机加工件点阵字符识别研究
肯定与质疑:“慕课”在基础教育领域的应用