企业信用信息数据比对和整合的设计与实现

2011-02-05 06:37姜诣勋吴健雷耀麟
微型电脑应用 2011年1期
关键词:字段电子政务基准

姜诣勋,吴健,雷耀麟

0 引言

信息资源是当今社会经济活动中不可或缺的资源,已经得到越来越广泛的重视,电子政务信息系统建设的主要目标之一,是实现政务信息资源的共享。电子政务信息资源的共享模式分为3种:数据集中交换模式、点对点数据交换模式和基于服务的数据交换模式[1]。陕西省公共信用信息交换平台,是一个典型的采用数据集中模式的电子政务信息共享交换平台。其中数据集中交换模式,是将分散在业务部门的数据归集起来,建立一个统一的数据中心,对数据进行集中处理、存储、交换、应用和管理。这种模式的特点是数据集中度高、处理效率高、便于管理并可向终端用户提供更全面的信息共享服务[2]。许多垂直管理政府部门(如工商、税务、银行、海关等)的业务管理信息系统,都采用这种模式集中统一存储和共享数据,取得了十分显著的效果。这种模式的电子政务信息系统,对数据处理的质量要求非常高,这是因为数据从分散到集中再到应用必须经过采集、转换、清洗、加工、加载和交换等数据处理和交换过程,一个过程的数据处理质量得不到保证,数据中心的数据质量就难以得到保证,而信息的共享服务完全有赖于数据中心的数据。因此,在数据处理与共享中,往往需要多方协同,共同制定数据标准、交换规则和处理机制,以保证数据中心的数据质量[3]。

而由于政府部门信息化发展参差不齐等多种原因,平台在归集部门数据时会遇到较多的数据质量问题,如数据标准不统一、数据项缺失、数据不一致、数据记录之间无法或难以关联、错误或无效数据、数据重复等,这些问题给信用数据的归集和整合带来了很多困难[4]。

陕西省公共信用信息交换平台,处理包括企业信用信息和个人信用信息的交换,本文针对企业信用信息数据处理子系统中的数据比对模块的设计与实现进行讨论研究。企业信用信息在交换平台中要经过采集、清洗、比对、交换四个步骤,其中清洗指的是将采集到的信用信息进行标准化、增强化、完整化[5]。标准化主要是用来对待清洗字段进行形式上的格式化,达到和国标一致的目的。有对日期格式化、电话号码格式化、邮政编码格式化、传真号码格式化。增强化主要是用来对待清洗字段中有空值、不完整的字段进行增强。对于空值的待清洗字段要设置合适的值;对于不完整的字段要补充完整的信息;对于要添加额外说明的信息,要增加字段进行说明。完整化主要是用来对待清洗字段进行检测:字段数据类型、字段数据范围、字段位数等。字段数据类型检测主要是核实待清洗字段的类型合法性进行分析;字段数据范围检测主要是核实待清洗字段的范围合法性进行分析;字段位数检测主要是核实待清洗字段的位数合法性进行分析等。

所以本文讨论的用于进行数据比对的信息,都是以假设数据都是标准且完整为前提的。这样,数据比对模块就可以将设计重心放在如何基于动态的比对规则处理数据、如何保证不同部门即使数据质量不一,但仍然能匹配识别相同企业的数据、尽管有数据清洗为前提,如何处理错误数据、如何保证数据一致性等问题。

1 比对模块的框架

数据比对模块针对待比对数据库中数据,以比对基准库中的数据作为索引,完成工商、国税、地税、海关、质检5个部门的数据信息核对,并将比对结果进行标注,写入数据库进行存储,同时显示在系统界面上。模块框架如图1所示:

图1 企业信息数据比对模块框架图

比对模块框架主要分为界面模块、比对引擎、数据库模块三大模块,界面模块主要完成比对规则和流程的设置、待比对数据的显示、比对结果的显示、人工比对的处理,比对引擎具体按流程执行比对规则,产生比对结果,数据库模块处理所有对数据的访问和操作并存储比对过程中,产生的中间结果以及最终的比对结果数据。

2 比对流程的设计

根据项目需求,一期工程中有工商、国税、地税、质检、海关5个部门的数据需要比对整合。每个部门都提供若干张表的数据,这些数据中,有些字段是相同的,但大部分是不相同的。这时有两种比对设计思路,一种是每个后续部门的数据都依次与前面各部门的数据进行比对,这种思路准确性很高,但是系统运行效率很低,所以,经过对省信息中心提供的分部门企业信用指标和信用信息的国际规范进行的研究,决定采用建立基准信息的方式,即先由工商局与质监局整合的数据中提取关键字段作为基准,后续部门的数据和基准数据进行比对。这就要求提取的基准数据字段必须具有以下性质:

1.能够精确定位到某一企业,不允许出现两个个企业出现基准数据相同的情况。

2.所有部门都能提供这些字段,允许缺少少量字段。在实际情况中,一期工程外的部门或委办局的国家标准数据指标中都不缺少这些关键字段,但是仍然要考虑数据项缺失或者有错误的情况。

3.基准数据中的某些子集也要能够精确定位到某一企业。这是因为要考虑数据错误或缺失,在实际情况中,确实存在输入错误的信息。

由此,确定为采用企业名称、营业执照注册号、法定代表人、法定代表人身份证号、住所、组织机构代码这6个字段作为基准字段,其中组织机构代码以质监局的数据为准。将采集来的数据自动提取基准字段,填写入一张基准数据表,以备比对模块使用。所以比对流程对于同一企业的数据来说,是先接受来自工商局的数据,然后是质监局,接着才是其他部门。工商局数据比对流程如图2所示:

图2 工商局数据比对流程图

根据最新比对需求的变化,首先执行精确比对,在精确比对结果的基础上执行模糊比对流程,再在模糊比对的基础上,获得需人工比对的结果集,进行存储,后续处理。

精确比对流程

精确比对即为对所有基准数据的匹配,正式考虑到所有部门与委办局,都能提供所有基准数据字段这一客观事实,才需要进行如此严格的数据比对,另外,精确比对项是可以在系统设置中更改的,即管理用户可以选择不使用所有基准数据作为精确比对的规则,也就是说,精确比对其实也是一条比对规则,为用户可编辑的。精确比对成功后,将除基准表以外的表数据更新入库,而对于没有匹配上的数据,则要进行模糊比对的流程

模糊比对的流程

有些数据由于业务员的失误,数据录入时发生了错误,或者考虑到有部门没有提供所有基准字段,又或者当前数据是一条更新数据且更新的是基准字段(这种情况几乎不存在),在这些情况下,数据一定会进入模糊比对。模糊比对基于预设的比对规则,对数据再次进行数据匹配,规则由管理用户在页面模块设置,可以有多条,且规则具有优先级,为了提高效率,用户可以将最有可能匹配成功的规则获得最高优先级,但前提必须是这条规则能唯一定位到某一企业,如企业名称与组织机构代码完全匹配、企业名称与营业执照注册号完全匹配等。

模糊比对成功后的数据,不仅要更新入库,还要将差异信息写入差异信息表,差异信息将由本系统业务员人工分辨,计算机无法知道差异的原因是用户输入出错还是用户想更新这条信息。模糊比对失败后将进入最后一次排查比对。

排查比对的流程

排查比对是用于确认当前数据是否为一条新增数据,新增数据将会在排查比对中匹配不到结果,然后该条企业记录就会插入数据库,如若排查比对有结果匹配项,该条记录就被写入人工库,同时写入差异信息,将由本系统业务员人工处理。

其他部门的比对流程

其他部门数据的比对流程与工商局数据比对流程大致相同,但也有差异,比如某企业在其他部门的数据先于工商局的数据被本信用信息交换平台采集到,在排查比对失败后,不允许插入该企业记录,而是做标记后继续等待,等工商局与质检局的信息都入库后才允许更新入库。

3 数据库的设计

数据库结构的设计十分繁杂,本文只作文字描述,不将表结构一一列表呈现了。

1、本数据库设计规范,是针对企业信用信息业务数据部份的相关数据设计。

2、系统数据库表的设计,在逻辑上将按照部门前置数据库、中心前置数据库(即原始库)、待比对数据库、比对信息历史库、差异信息库、中转库、公共信用信息库、公共信用信息备份库、发布应用库、权限库、日志库、人工比对库几个部分来进行划分。

其中,中心前置库是数据采集后信息存放的位置,经过数据处理子系统的清洗模块,信用信息被存放在清洗待比对数据库中,当同一企业在所有部门和委办局的数据都到位后,整条记录将更新入中转库,中转库的数据最后发布到公共信用信息库的部分,不属于本文讨论的范畴。

在清洗待比对库中,有比对基准表、比对流程表、比对模糊规则表、委办局代码名称对照表、比对差异信息表。比对基准表维护基准字段;比对流程表不仅维护所有委办局的比对顺序,还记录所有数据表项在不同库中的命名;比对模糊规则表则是由规则号,规则字段来维护模糊比对的规则,如果有一条优先度为 2的标识企业名称和组织机构代码完全匹配的规则,那么在比对模糊规则表中将有两条数据,他们的规则号同为2。两个字段名指示2号规则对应的是哪两个基准字段作为本条模糊规则。比对差异信息表记录了在比对模块中出现的差异信息(在清洗模块中有清洗专用的差异信息表)。

4 操作界面模块

触发比对功能界面通过按钮事件或其他触发方式触发比对功能的执行。比对引擎相关界面包括:待比对数据加载界面---完成从待比对数据库中读取待比对的数据,并将其显示在界面上;比对结束分别显示比对结果,包括差异信息和一致信息;精确与模糊比对规则管理页面;比对流程管理页面。其中模糊比对规则管理如图3所示:

图3 模糊比对规则管理页面

5 结论

企业信用信息处理子系统,包括数据清洗和数据比对两个模块。经过数据采集的信用信息不能直接进行比对整合,而需要先经过字段的标准化、增强化、完整化处理。信用数据比对过程中,应该充分考虑到采集数据是新添企业信息还是增量企业信息,还可能是输入错误的信息。通过可制定化的比对规则模型,使数据处理系统具有更好的灵活性和准确性。

[1]贺德荣,蒋白纯.提高电子政务信息共享平台数据质量的对策与方法[J].电子政务,2010.07:67-76.

[2]王彩霞.电子政务信息资源共享模式分析[J].辽宁工程技术大学学报(社会科学版),2009,(02).

[3]毕建秀.企业基础信息共享与应用系统的设计与实现[D].山东:山东大学,2008.

[4]陈一方.电子政务中的应用集成与数据整合方法[J].计算机工程,2008,34(24):263-265.

[5]胡金柱,王小庆,王辉.基于J2EE的资源池数据访问模式在电子政务中的应用研究[J].计算机应用研究,2006,23(7):111-113.

猜你喜欢
字段电子政务基准
图书馆中文图书编目外包数据质量控制分析
论基于云的电子政务服务平台构建
下期要目
应如何确定行政处罚裁量基准
明基准讲方法保看齐
电子政务工程项目绩效评价研究
中国电子政务的“短板”
滑落还是攀爬
CNMARC304字段和314字段责任附注方式解析
无正题名文献著录方法评述