最好的OCR文字识别软件: Abbyy FineReader

2014-09-27 17:19盘俊春
中国信息技术教育 2014年15期
关键词:识别率该软件页面

盘俊春

老师们在日常教学中经常会碰到这样的问题,就是想把一张图片或一个PDF文件里的文字拿出来放到Word里编辑。当然想直接把文字复制到Word里是不行的,因为图片和PDF文件里的文字是无法复制的。这时候很多老师可能会选择一个字一个字敲进电脑,太麻烦了。是不是希望有一种东西能自动识别读取这些文字?怎么去做呢?笔者在试过很多方法后,得出的结论是:使用Abbyy FineReader软件来实现转化是最好的办法。下面就来介绍它的功能及使用方法。

● ABBYE FineReader的主要功能及特点

AbbyyFineReader是俄罗斯ABBYY公司研制成功的一款真正的专业OCR的软件!OCR(Optical Character Recognition,光学字符识别)技术,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别法将形状翻译成计算机文字的过程。

安装并打开软件(官方下载地址:http://www.abbyy.cn/),启动后显示任务窗口,在窗口的右上角选择文档语言,这里选择了简体中文。在任务窗口中有几个常用任务选项,包括Word、PDF、电子书和其他格式等文件操作(如图1)。

界面很简洁,菜单类似于普通的Windows菜单,如有“文件”、“编辑”等菜单命令,即使是新手,也能不费吹灰之力就使用该软件。

Abbyy FineReader的主要功能和特点为:①把静态纸文件和PDF文件转换成可管理的电子数据;②重建原生的多页文件格式;③支持轻松创建最流行格式的电子图书;④可以提供直观的工具扫描文件,并随时转换图像扫描、照片成为可编辑和可搜索的电子格式的PDF文件;⑤多国语言可以选择,能转换几乎所有打印的文档类型,包括书籍、杂志上的文章与复杂的布局、表格和电子表格,甚至能以准确的精度发传真。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例,来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

进入Abbyy FineReader软件,选择任务后会自动进入下一个界面,此时会自动弹出让使用者选择文件,如果没有选择文件,则可以在菜单栏中点击“打开”,然后选择需要转换的文件,注意在文件类型中选择相应的类型,这里应该选择PDF,默认的是图形文件,不更改的话最后得到的是乱码。

打开后可进行基本设置。在菜单栏中选择“工具”中的“选项”,弹出如图2的窗口。选项设置窗口中可以设置要保存的格式,里面有10种可选的格式,这里我们转成的是DOC或者DOCX,所以选择第一个。窗口里面还有读取模式等多项设置,这里就不再一一列举了。

2.文字识别

在所打开的PDF文件中,选择要转换的页面,当然也可以对全部页面或页面的部分内容进行转换。这里有两个窗口,一个是转换前的PDF图像页面,另一个是转换后的文本页面。单击PDF图像页面窗口的“读取”选项,进行OCR识别,就是让软件把图片中的文字读取出来(图片中文字越多,识别花费的时间越长),完成识别之后,就会在文本页面出现所转换的文本。其中的一些文字带有青色背景底色,这说明这些文字是有可能出现错误的,我们要对它们进行修正(如图3)。

3.文字修正

一般来讲,图片越清晰、对比越鲜明的时候,该软件对文字的识别率就越高。识别率与图片清晰度、文字大小、文字的端正程度、文字与底色的对比程度有关。Abbyy FineReader的识别率在所有OCR软件中是最好的,基本能在95%以上,当然不能保证100%。为保险起见,还是要人工核对一下识别的结果,尤其是格式特别复杂、有特殊文字和符号的地方很容易出错。当然如果使用者用肉眼都看不清楚或者不能分辨的文字,那该软件识别出来的可能性是不大的。

该软件的原理是使用扫描的文本字符与系统内置的字符形状、语言辞典进行比较,从而识别文字,只能扫描指定的语言,其他语言不能识别。所以如果错误率太高,则要更改使用的扫描语言。

单击文本页面窗口的“验证”选项,此时会弹出验证窗口(如图4)。在这个窗口中会有一些带有青色背景底色的不确定文字或字符,如果错误的话我们可以直接修改,若是正确则可点击“忽略”跳过。

完成修正后就可以保存所转换的文本了,有包括DOC/DOCX在内的10多种保存格式可以选择,一般选择为Word97-2003格式或DOCX格式,完成后就能在Word中进行文本编辑了。对于提取JPG、BMP等格式图片中的文字的方法与PDF格式操作大同小异,这里就不再说明。

另外,值得一提的是,如果图片较为模糊或摆放不正,会影响软件对图片文字的读取效果,此时使用者就需要用到工具栏中的“编辑图像”进行图像校正。点击“编辑图像”就会弹出图像编辑窗口(如图5)。使用者可以看到右侧有一排工具,用这些工具可以对图像的歪斜校正等多种参数进行编辑修正处理,这样会大大提高图片的识别率。

总的来说,Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件,它能给我们的教育教学带来极大的便捷。

endprint

老师们在日常教学中经常会碰到这样的问题,就是想把一张图片或一个PDF文件里的文字拿出来放到Word里编辑。当然想直接把文字复制到Word里是不行的,因为图片和PDF文件里的文字是无法复制的。这时候很多老师可能会选择一个字一个字敲进电脑,太麻烦了。是不是希望有一种东西能自动识别读取这些文字?怎么去做呢?笔者在试过很多方法后,得出的结论是:使用Abbyy FineReader软件来实现转化是最好的办法。下面就来介绍它的功能及使用方法。

● ABBYE FineReader的主要功能及特点

AbbyyFineReader是俄罗斯ABBYY公司研制成功的一款真正的专业OCR的软件!OCR(Optical Character Recognition,光学字符识别)技术,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别法将形状翻译成计算机文字的过程。

安装并打开软件(官方下载地址:http://www.abbyy.cn/),启动后显示任务窗口,在窗口的右上角选择文档语言,这里选择了简体中文。在任务窗口中有几个常用任务选项,包括Word、PDF、电子书和其他格式等文件操作(如图1)。

界面很简洁,菜单类似于普通的Windows菜单,如有“文件”、“编辑”等菜单命令,即使是新手,也能不费吹灰之力就使用该软件。

Abbyy FineReader的主要功能和特点为:①把静态纸文件和PDF文件转换成可管理的电子数据;②重建原生的多页文件格式;③支持轻松创建最流行格式的电子图书;④可以提供直观的工具扫描文件,并随时转换图像扫描、照片成为可编辑和可搜索的电子格式的PDF文件;⑤多国语言可以选择,能转换几乎所有打印的文档类型,包括书籍、杂志上的文章与复杂的布局、表格和电子表格,甚至能以准确的精度发传真。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例,来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

进入Abbyy FineReader软件,选择任务后会自动进入下一个界面,此时会自动弹出让使用者选择文件,如果没有选择文件,则可以在菜单栏中点击“打开”,然后选择需要转换的文件,注意在文件类型中选择相应的类型,这里应该选择PDF,默认的是图形文件,不更改的话最后得到的是乱码。

打开后可进行基本设置。在菜单栏中选择“工具”中的“选项”,弹出如图2的窗口。选项设置窗口中可以设置要保存的格式,里面有10种可选的格式,这里我们转成的是DOC或者DOCX,所以选择第一个。窗口里面还有读取模式等多项设置,这里就不再一一列举了。

2.文字识别

在所打开的PDF文件中,选择要转换的页面,当然也可以对全部页面或页面的部分内容进行转换。这里有两个窗口,一个是转换前的PDF图像页面,另一个是转换后的文本页面。单击PDF图像页面窗口的“读取”选项,进行OCR识别,就是让软件把图片中的文字读取出来(图片中文字越多,识别花费的时间越长),完成识别之后,就会在文本页面出现所转换的文本。其中的一些文字带有青色背景底色,这说明这些文字是有可能出现错误的,我们要对它们进行修正(如图3)。

3.文字修正

一般来讲,图片越清晰、对比越鲜明的时候,该软件对文字的识别率就越高。识别率与图片清晰度、文字大小、文字的端正程度、文字与底色的对比程度有关。Abbyy FineReader的识别率在所有OCR软件中是最好的,基本能在95%以上,当然不能保证100%。为保险起见,还是要人工核对一下识别的结果,尤其是格式特别复杂、有特殊文字和符号的地方很容易出错。当然如果使用者用肉眼都看不清楚或者不能分辨的文字,那该软件识别出来的可能性是不大的。

该软件的原理是使用扫描的文本字符与系统内置的字符形状、语言辞典进行比较,从而识别文字,只能扫描指定的语言,其他语言不能识别。所以如果错误率太高,则要更改使用的扫描语言。

单击文本页面窗口的“验证”选项,此时会弹出验证窗口(如图4)。在这个窗口中会有一些带有青色背景底色的不确定文字或字符,如果错误的话我们可以直接修改,若是正确则可点击“忽略”跳过。

完成修正后就可以保存所转换的文本了,有包括DOC/DOCX在内的10多种保存格式可以选择,一般选择为Word97-2003格式或DOCX格式,完成后就能在Word中进行文本编辑了。对于提取JPG、BMP等格式图片中的文字的方法与PDF格式操作大同小异,这里就不再说明。

另外,值得一提的是,如果图片较为模糊或摆放不正,会影响软件对图片文字的读取效果,此时使用者就需要用到工具栏中的“编辑图像”进行图像校正。点击“编辑图像”就会弹出图像编辑窗口(如图5)。使用者可以看到右侧有一排工具,用这些工具可以对图像的歪斜校正等多种参数进行编辑修正处理,这样会大大提高图片的识别率。

总的来说,Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件,它能给我们的教育教学带来极大的便捷。

endprint

老师们在日常教学中经常会碰到这样的问题,就是想把一张图片或一个PDF文件里的文字拿出来放到Word里编辑。当然想直接把文字复制到Word里是不行的,因为图片和PDF文件里的文字是无法复制的。这时候很多老师可能会选择一个字一个字敲进电脑,太麻烦了。是不是希望有一种东西能自动识别读取这些文字?怎么去做呢?笔者在试过很多方法后,得出的结论是:使用Abbyy FineReader软件来实现转化是最好的办法。下面就来介绍它的功能及使用方法。

● ABBYE FineReader的主要功能及特点

AbbyyFineReader是俄罗斯ABBYY公司研制成功的一款真正的专业OCR的软件!OCR(Optical Character Recognition,光学字符识别)技术,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别法将形状翻译成计算机文字的过程。

安装并打开软件(官方下载地址:http://www.abbyy.cn/),启动后显示任务窗口,在窗口的右上角选择文档语言,这里选择了简体中文。在任务窗口中有几个常用任务选项,包括Word、PDF、电子书和其他格式等文件操作(如图1)。

界面很简洁,菜单类似于普通的Windows菜单,如有“文件”、“编辑”等菜单命令,即使是新手,也能不费吹灰之力就使用该软件。

Abbyy FineReader的主要功能和特点为:①把静态纸文件和PDF文件转换成可管理的电子数据;②重建原生的多页文件格式;③支持轻松创建最流行格式的电子图书;④可以提供直观的工具扫描文件,并随时转换图像扫描、照片成为可编辑和可搜索的电子格式的PDF文件;⑤多国语言可以选择,能转换几乎所有打印的文档类型,包括书籍、杂志上的文章与复杂的布局、表格和电子表格,甚至能以准确的精度发传真。

● Abbyy FineReader在教学中的应用

下面以把PDF中的文字转换成Word中的文字为例,来说说Abbyy FineReader软件的具体应用。

1.打开PDF文件并设置参数

进入Abbyy FineReader软件,选择任务后会自动进入下一个界面,此时会自动弹出让使用者选择文件,如果没有选择文件,则可以在菜单栏中点击“打开”,然后选择需要转换的文件,注意在文件类型中选择相应的类型,这里应该选择PDF,默认的是图形文件,不更改的话最后得到的是乱码。

打开后可进行基本设置。在菜单栏中选择“工具”中的“选项”,弹出如图2的窗口。选项设置窗口中可以设置要保存的格式,里面有10种可选的格式,这里我们转成的是DOC或者DOCX,所以选择第一个。窗口里面还有读取模式等多项设置,这里就不再一一列举了。

2.文字识别

在所打开的PDF文件中,选择要转换的页面,当然也可以对全部页面或页面的部分内容进行转换。这里有两个窗口,一个是转换前的PDF图像页面,另一个是转换后的文本页面。单击PDF图像页面窗口的“读取”选项,进行OCR识别,就是让软件把图片中的文字读取出来(图片中文字越多,识别花费的时间越长),完成识别之后,就会在文本页面出现所转换的文本。其中的一些文字带有青色背景底色,这说明这些文字是有可能出现错误的,我们要对它们进行修正(如图3)。

3.文字修正

一般来讲,图片越清晰、对比越鲜明的时候,该软件对文字的识别率就越高。识别率与图片清晰度、文字大小、文字的端正程度、文字与底色的对比程度有关。Abbyy FineReader的识别率在所有OCR软件中是最好的,基本能在95%以上,当然不能保证100%。为保险起见,还是要人工核对一下识别的结果,尤其是格式特别复杂、有特殊文字和符号的地方很容易出错。当然如果使用者用肉眼都看不清楚或者不能分辨的文字,那该软件识别出来的可能性是不大的。

该软件的原理是使用扫描的文本字符与系统内置的字符形状、语言辞典进行比较,从而识别文字,只能扫描指定的语言,其他语言不能识别。所以如果错误率太高,则要更改使用的扫描语言。

单击文本页面窗口的“验证”选项,此时会弹出验证窗口(如图4)。在这个窗口中会有一些带有青色背景底色的不确定文字或字符,如果错误的话我们可以直接修改,若是正确则可点击“忽略”跳过。

完成修正后就可以保存所转换的文本了,有包括DOC/DOCX在内的10多种保存格式可以选择,一般选择为Word97-2003格式或DOCX格式,完成后就能在Word中进行文本编辑了。对于提取JPG、BMP等格式图片中的文字的方法与PDF格式操作大同小异,这里就不再说明。

另外,值得一提的是,如果图片较为模糊或摆放不正,会影响软件对图片文字的读取效果,此时使用者就需要用到工具栏中的“编辑图像”进行图像校正。点击“编辑图像”就会弹出图像编辑窗口(如图5)。使用者可以看到右侧有一排工具,用这些工具可以对图像的歪斜校正等多种参数进行编辑修正处理,这样会大大提高图片的识别率。

总的来说,Abbyy FineReader软件不愧是最好的图片、PDF文字识别软件,它能给我们的教育教学带来极大的便捷。

endprint

猜你喜欢
识别率该软件页面
简单灵活 控制Windows 10更新更方便
答案
让Word同时拥有横向页和纵向页
遗留或损坏 软件卸载没商量
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别
人工智能现状和发展
驱动器页面文件大小的总数为何总是07
捉拿李鬼