最好的OCR文字识别软件: Abbyy FineReader

2014-09-27 17:19盘俊春

中国信息技术教育 2014年15期

盘俊春

老师们在日常教学中经常会碰到这样的问题，就是想把一张图片或一个PDF文件里的文字拿出来放到Word里编辑。当然想直接把文字复制到Word里是不行的，因为图片和PDF文件里的文字是无法复制的。这时候很多老师可能会选择一个字一个字敲进电脑，太麻烦了。是不是希望有一种东西能自动识别读取这些文字？怎么去做呢？笔者在试过很多方法后，得出的结论是：使用Abbyy FineReader软件来实现转化是最好的办法。下面就来介绍它的功能及使用方法。

● ABBYE FineReader的主要功能及特点

AbbyyFineReader是俄罗斯ABBYY公司研制成功的一款真正的专业OCR的软件！OCR（Optical Character Recognition，光学字符识别）技术，是指电子设备（如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别法将形状翻译成计算机文字的过程。

安装并打开软件（官方下载地址：http://www.abbyy.cn/），启动后显示任务窗口，在窗口的右上角选择文档语言，这里选择了简体中文。在任务窗口中有几个常用任务选项，包括Word、PDF、电子书和其他格式等文件操作（如图1）。

界面很简洁，菜单类似于普通的Windows菜单，如有“文件”、“编辑”等菜单命令，即使是新手，也能不费吹灰之力就使用该软件。

Abbyy FineReader的主要功能和特点为：①把静态纸文件和PDF文件转换成可管理的电子数据；②重建原生的多页文件格式；③支持轻松创建最流行格式的电子图书；④可以提供直观的工具扫描文件，并随时转换图像扫描、照片成为可编辑和可搜索的电子格式的PDF文件；⑤多国语言可以选择，能转换几乎所有打印的文档类型，包括书籍、杂志上的文章与复杂的布局、表格和电子表格，甚至能以准确的精度发传真。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例，来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

进入Abbyy FineReader软件，选择任务后会自动进入下一个界面，此时会自动弹出让使用者选择文件，如果没有选择文件，则可以在菜单栏中点击“打开”，然后选择需要转换的文件，注意在文件类型中选择相应的类型，这里应该选择PDF，默认的是图形文件，不更改的话最后得到的是乱码。

打开后可进行基本设置。在菜单栏中选择“工具”中的“选项”，弹出如图２的窗口。选项设置窗口中可以设置要保存的格式，里面有10种可选的格式，这里我们转成的是DOC或者DOCX，所以选择第一个。窗口里面还有读取模式等多项设置，这里就不再一一列举了。

2.文字识别

在所打开的PDF文件中，选择要转换的页面，当然也可以对全部页面或页面的部分内容进行转换。这里有两个窗口，一个是转换前的PDF图像页面，另一个是转换后的文本页面。单击PDF图像页面窗口的“读取”选项，进行OCR识别，就是让软件把图片中的文字读取出来（图片中文字越多，识别花费的时间越长），完成识别之后，就会在文本页面出现所转换的文本。其中的一些文字带有青色背景底色，这说明这些文字是有可能出现错误的，我们要对它们进行修正（如图３）。

3.文字修正

一般来讲，图片越清晰、对比越鲜明的时候，该软件对文字的识别率就越高。识别率与图片清晰度、文字大小、文字的端正程度、文字与底色的对比程度有关。Abbyy FineReader的识别率在所有OCR软件中是最好的，基本能在95%以上，当然不能保证100%。为保险起见，还是要人工核对一下识别的结果，尤其是格式特别复杂、有特殊文字和符号的地方很容易出错。当然如果使用者用肉眼都看不清楚或者不能分辨的文字，那该软件识别出来的可能性是不大的。

该软件的原理是使用扫描的文本字符与系统内置的字符形状、语言辞典进行比较，从而识别文字，只能扫描指定的语言，其他语言不能识别。所以如果错误率太高，则要更改使用的扫描语言。

单击文本页面窗口的“验证”选项，此时会弹出验证窗口（如图４）。在这个窗口中会有一些带有青色背景底色的不确定文字或字符，如果错误的话我们可以直接修改，若是正确则可点击“忽略”跳过。

完成修正后就可以保存所转换的文本了，有包括DOC/DOCX在内的10多种保存格式可以选择，一般选择为Word97-2003格式或DOCX格式，完成后就能在Word中进行文本编辑了。对于提取JPG、BMP等格式图片中的文字的方法与PDF格式操作大同小异，这里就不再说明。

另外，值得一提的是，如果图片较为模糊或摆放不正，会影响软件对图片文字的读取效果，此时使用者就需要用到工具栏中的“编辑图像”进行图像校正。点击“编辑图像”就会弹出图像编辑窗口（如图５）。使用者可以看到右侧有一排工具，用这些工具可以对图像的歪斜校正等多种参数进行编辑修正处理，这样会大大提高图片的识别率。

总的来说，Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件，它能给我们的教育教学带来极大的便捷。

endprint

● ABBYE FineReader的主要功能及特点

界面很简洁，菜单类似于普通的Windows菜单，如有“文件”、“编辑”等菜单命令，即使是新手，也能不费吹灰之力就使用该软件。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例，来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

2.文字识别

3.文字修正

总的来说，Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件，它能给我们的教育教学带来极大的便捷。

endprint

● ABBYE FineReader的主要功能及特点

界面很简洁，菜单类似于普通的Windows菜单，如有“文件”、“编辑”等菜单命令，即使是新手，也能不费吹灰之力就使用该软件。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例，来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

2.文字识别

3.文字修正

总的来说，Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件，它能给我们的教育教学带来极大的便捷。

endprint