中文期刊论文数据采集技术研究

2019-03-07 05:22李家辰张一凡旷远有张雪海沈沂亭

电脑知识与技术 2019年35期

李家辰张一凡旷远有张雪海沈沂亭

摘要：基于图像处理和版面分割等技术，提出一种可快速检索中文期刊论文得到题目、作者、摘要等结构化数据的方法。该方法可以对中文期刊论文的PDF文件或图像文件进行分析处理，自动形成一些结构化的图像块数据，最终转化为结构化的文字数据，以帮助用户准确地获取或检索论文信息。实验结果表明，本方法对中文期刊论文进行数据采集具有一定的有效性。

关键词：图像处理;版面分析;投影法;中文期刊

中图分类号：TP317 文献标识码：A

文章编号：1009-3044（2019）35-0188-02

1 概述

随着学术期刊与学术论文日趋增多，用户在学术期刊中准确快速提取出论文基本信息的需求也日益增强。目前的论文多以图像的形式储存，而文字形式是人们检索论文信息所需要的主要显示类型。而将图像信息转化成文字信息常采用OCR技术。OCR是指通过扫描、拍照等光学输入方式将印刷文字最终转化为可编辑的数字化信息[1]。在OCR识别之前，通常需要对文字版面进行分析。

版面分割是对版面内的图像、文本、表格等信息和位置关系所进行的自动分析、识别和理解的过程。最终是将图像分成若干个不相关的区域。由于这关系到文字识别的准确性和正确的数据采集顺序，版面分析在操作过程中是不可或缺的。本项目中选用的是边缘检测版面分析。基于边缘检测的分割方法试图通过检测不同区域的边缘来解决问题，通常不同的区域之间的边缘上灰度值的变化往往比较大，这是边缘检测方法得以实现的主要假设之一。[2]

因此，为获得期刊论文基本信息，需要先将通常储存的图像信息依次进行灰度二值化，灰度直方图生成，版面分析，再将得到的结构化图像块转换为文字信息，最后将所得到的基本信息数据呈现给用户。这样便能够更迅捷，更清晰地读取并判断出该论文是否为自己所需求的材料。仅需少量的人工步骤即可实现该效果，因此该方法更能满足用户对于信息检索、判断的需求。

2 论文基本信息的特征分析

2.1页眉的检测

页眉是位于文章首页上方，用直线分割的一片区域。一般地，在其中记录了出版时间，出版社名称，版号等信息。但相对于正文信息而言，页眉页脚具有独立性。在基于OCR和版面分析的一些应用中，需将页眉页脚和主体分离并单独处理。根据直线的所在位置和页面的最上端划出页眉范围，将整个版面一分为二。进一步根据灰度直方图分别分割页眉上的信息。

2.2论文题目、作者、关键词等的特征分析

通常情況下，论文题目位于首页的居中位置，是论文主题内容的体现，与之后的文章内容有明显间隔，字号相对较大，可依据此来进行投影得到论文题目范围之后进行文字识别。论文题目之后是作者，同样借助投影得到行间距，划分区域，进行文字识别，而在论文作者下的单位可以通过单位两边的括号作为特征标识来进行分割与处理。同理，关键词、DOI号等论文信息也可以以此确定其内容。识别后的字符通过ASCALL码值判断可区别其中英文，进而得到结果。

3 论文信息提取的算法

基于对论文所需信息的特征分析，给出整个论文信息提取的算法及流程。

3.1论文信息提取的算法流程

传入的PDF文件经过版面分析，得到论文有关信息的位置和属性。对有效信息区进行二维坐标下的行投影，确定并统计、提取特征值，再根据统计得来的特征值，进行孤立行分析，并依据判定的孤立行，对文本进行区域的分割，进而得到版面分析的分割结果。[3]根据区域上下边界寻找论文信息有关区域，通过分割线检测及分析区域特征，以此判断文本域为何种论文信息。判别算法流程如图2。

3.2图像处理

图像处理需先将RGB转灰度，再将图片进行灰度二值化处理。灰度直方图是基于二值化后的图像生成的表示灰度值分布的直方图。将每个像素点按照行或列的形式显示为一张横轴表示灰度值，纵轴为灰度出现次数的图像称为灰度直方图。灰度直方图直观地显示了文字在文章版面内的分布情况，在之后的版面分析中有了最直接的分析依据。

3.3投影法判别论文基本信息

将论文图像转灰后，灰度级范围为[O，L-1]的数字图像的直方图是离散函数h（rk）=nk，其中rk是笫k级灰度值nk是图像中灰度为rk的像素个数。在实践中，经常用乘积MN表示的图像像素的总数除它的每个分量来归一化直方图，通常M和N是图像的行和列的维数。因此，归一化后的直方图由p（rk）=nk/MN给出，其中k=0，1，…，L-1[4]。在得到直方图后，通过投影法得到每个所需区域的行高和行距。在这里举例介绍论文题目、作者、关键词的判别思路。

（1）论文题目区域的特征分析：

设LineHeight行高，PreSpace为当前块前行距，NextSpace为当前块后行距，isChinese与isEnglish的值可用来判断行内文本是否为纯英文。

● 单行论文题目判别：

通过大量的论文数据可知在得到论文投影数据后，论文题目通常情况下集中出现在都满足以下的条件的块中：

据此可以基本得到论文题目数据。

● 双行论文题目判别：

论文题目会占用双行，在这种情况下，不但满足单行论文题目的限制条件，而且通常会有的特征出现，同上处理并与第一行标题合并可以得到双行论文题目数据。得到论文题目文本后，将其在软件界面上进行显示与储存。

（2）论文作者、关键词等特征分析：

论文作者通常出现在论文题目下方，即满足条件论文作者行为论文题目下的首个中文行，且其字高必小于标题字高，对应作者位置必低于其对应标题位置，论文作者该行的前行距Rect.PreSpace大于通常的行间距。在查找到所需数据后，将其后数据通过OCR识别，并且可以通过isChinese与isEnglish值判断出论文作者的中英文形式，最终可将此块数据归类与储存。

同样，关键词等论文数据的所在位置一般固定。通过遍历论文首页投影图像，找到识别主体与论文正文之间的分割线，再查找到其确切位置，进行识别、获取文本即可。

4 实验结果

为了验证该程序的有效性，我们收集大量论文来进行识别实验，结果见表1：

5 结束语

本文提出一种分割论文并识别内容的方法，根据论文信息的特征提出了相关内容的约束条件，并通过大量测试验证，该方法可以识别较多格式标准的中文论文，但对于部分排版更加灵活的中英文论文仍无法做到准确识别，此问题还有待后续解决。

参考文献：

[1]李小锋.基于非文本图像优先的中文版面分析技术研究和应用[D].北京：北方工业大学，2010.

[2]许新征，丁世飞，史忠植，等.图像分割的新理论和新方法[J].电子学报，2010，38（2A）：76-82.

[3]王莉丽，陈晔，刘玲.基于投影轮廓分析的文本图像版面分割算法研究[J].数字技术与应用，2017（3）：164-165.

[4]Rafael C.Gonzalez Richard E.Woods.数字图像处理[M].北京：电子工业出版社，2011：72-76.

【通联编辑：唐一东】

收稿日期：2019-08-15

基金项目：本项目受北京市大学生科学研究与创业行动计划资助

作者简介：李家辰（2000-），男，河南济源人，学生，本科，主要研究方向为图像处理。