面向保险业的数据仓库模型分析与设计

2014-01-10 02:46吴菊华孙德福
技术经济与管理研究 2014年1期
关键词:数据仓库建模客户

吴菊华,曹 强,莫 赞,孙德福

(1.广东工业大学,广东 广州 510520; 2.装甲兵装备技术研究所,北京 100072)

一、引言

保险行业经过多年来的业务发展和信息系统建设,已建成包括承保系统、批改系统和理赔系统等在内的一系列信息系统,并积累了大量的历史数据。如何充分利用这些数据并将其转化为信息和知识,使得业务人员(包括管理者)能够充分掌握和利用这些信息进行辅助决策,进而转化成商机,一直是各保险公司所关注的问题。

商务智能是对商务信息的搜集、管理和分析的过程,目的是使企业的各级决策者获得知识和洞察力,促使他们做出对企业更有利的决策,从而以最短的时间发现商业机会并捕捉商业机遇。通过商务智能技术,用户可以更充分地了解他们的产品、服务和销售趋势。它提供了一个良好的方法,把分散的数据集成到一个数据仓库系统中,利用OLAP技术和数据挖掘技术来帮助公司对业务进行分析,寻求业务规律,并为领导层提供决策支持。因此,商务智能走进保险行业,已成为一种趋势和必然。

参考国内外银行、金融、通信等行业所积累的商务智能实施经验,可以看出国内保险行业对企业信息化的规划发展在加速地进行中,这使其业务系统架构得到不断地完善,与商务智能方案相关的硬件软件及数据规模都得到更高层次的匹配,为商务智能的实施奠定了良好的基础。但随着业务需求的不断变化和商务智能技术的发展,国内的保险行业需要对企业数据仓库系统的设计进行更深层次的探讨及落实。

数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。由于数据仓库系统涉及的业务用户众多,在进行数据模型设计的时候必须兼顾不同业务产品、不同业务部门、不同层次、不同级别用户的信息需求,因此有必要首先对数据仓库进行建模,基于企业的数据库设计数据仓库对于一个企业的战略规划具有重要意义。本文针对保险行业,以某人寿保险公司的客户信息共享(ECIF)项目为背景,分析了商务智能技术在保险行业的应用,划分了主题域并对该项目数据仓库进行建模和指标测试,对于保险行业数据仓库的构建具有一定参考价值。

二、保险业务系统

1.企业客户信息整合概述

国内保险企业竞争的核心要素有两个:产品与服务。但经过十几年的发展,保险公司之间的竞争越来越激烈,产品趋向于同质化,服务不再单一化,保险企业为了适应新的业务需求,夺取更多的市场份额,对自身的业务系统都有不同层次的改进。随着个人可支配收入的增长,个人对保险产品和服务多元化有了更高的要求,如何有效地利用已有客户资源和开发新的客户资源,成为了保险企业发展的重要问题。

ECIF是一个实时面向服务、提供全部客户信息集合的联机事务处理系统,它不仅可以提供客户的静态信息,也能够提供实时、一致、完整的信息到现有的业务系统及将要成立的应用系统上。它实现了跨业务系统的客户信息整合和客户归并识别,实现了对客户整合信息的共享,也可以让保险产品和服务渠道实现个性化。

2.保险业务系统特点

保险业务分析系统主要面向各分单位业务部门,为其提供统计分析和报表查询功能。所以在其保险业务系统中的数据特点主要有:数据来源多、数据种类混杂、数据质量差。

(1)数据来源多

在保险业务系统中,每天都有来自投保人上亿条新的数据记录产生;每个省、市的管理信息系统及财务管理信息系统,每天在使用过程中产生大量数据,所以数据的来源非常多。保险业务系统除了信息管理外,还有分析和决策功能,需要从上述原始的、现实的数据中得出很多分析型的数据,以及额外市场调查总结的数据,所以在对其进行特征描述时往往牵扯到上千个状态变量。然而传统的处理方法是多系统进行降维或简约化处理,这在一定程度上影响了最终结果的精度。

(2)数据种类混杂

保险业务系统本身是一个很复杂的业务系统,上层有公司领导,中间有车险、船舶险等事业部及总财务会计部和各个事业部的财务会计,下层又有基层员工及市场调查员等。最终为了达到保险业务系统最高赢利的目标,必须将不同职能,不同性质的上层、中层、下层控制管理得到的数据有机的结合起来,进行正确的处理和分析才能做到。

(3)数据质量差

在整个保险业务系统中,由于省、市各个下属的管理系统记录和采集的数据,最终都要汇总到总部。在此过程中就很容易出现不真实的数据、有误差的数据、无价值的数据还有数据缺失等现象。这些质量不太高的数据会产生很多不确定的因素,从而给决策者带来诸多不便。

三、数据仓库建模

数据仓库设计或建模主要包含四个核心步骤:需求分析、概念设计、逻辑设计和物理设计。关于数据仓库的设计,不同的学者已在概念层、逻辑层和物理层提出了许多不同的技术。企业客户信息整合是一个需要长时间规划与建设才能完成的项目,需要保险企业的核心系统以及各个业务系统的配合才能完成。由于客户信息整合涉及到很广泛的业务系统范围,又是整个保险企业的核心系统的基础,所以为了让ECIF的建设对现有的保险业务系统的工作的影响降到最低,该项目采取分期逐步实施建设的方式。

此次保险数据仓库的建模是以“实现客户信息的全方位共享与客户分群,为公司的业务提供决策信息支持”为目的而进行的商务智能设计分析。项目的数据仓库建模分为四部分:①需求分析,获取项目需求;②概念模型的设计,统筹整个项目的设计框架;③逻辑模型的设计,设计此项目的指标计算逻辑思想和逻辑关联;④物理模型的设计,实现概念模型的框架和逻辑模型的关联。

1.需求分析

需求分析是用户需求产生的,对系统服务或约束的描述,同时是以目标为导向。通常一个软件系统的功能需求阐述了系统需要做什么,非功能需求是针对一些可观察的质量属性系统的运行情况,如性能、可重用性和可靠性等。目前该项目保险公司主要存在以下问题:客户信息数据没有企业级的统一编号来标识客户,也没有完整一致的客户识别机制;不同系统只保留和使用本系统的客户信息,系统之间没有做到充分的客户信息共享;现有寿险系统中同一个客户在不同表格中存在不一致的版本,无法保证客户体验的一致性;在目前环境中,缺少完整的客户信息,无法形成对客户的整体评价;缺少统一的客户价值评判标准,缺少对客户风险等级进行有效评估的手段,因而无法实现差异化服务。鉴于以上问题,利用统一客户视图的方法,将各个系统的客户信息整合,形成统一的客户识别机制,将客户信息归并,形成客户资源的信息共享。整合该保险公司客户数据资源,建立客户关键数据信息的标准化,进行关键数据信息的数据清理动作,制定客户归并的规则,进行客户信息归并,为业务部门提供360度客户信息查询及客户清单的提取工作。为该保险公司实现客户信息的全方位共享与深度分析加工,为公司的业务拓展、业务运营、管理决策、客户服务提供强有力的信息支持。本项目客户归并方案是建立在相对优质的客户数据质量基础上,即数据的业务和技术属性满足数据标准的定义,对于不能满足的数据要素则按无效的数据处理,不参与归并。

2.概念模型设计

概念模型设计是为了给逻辑模型设计工作提供一个统筹的设计思路,并从业务逻辑上为后续的模型设计制定一个框架和为其提供指引。概念建模提供了对数据仓库流程和架构各方面的抽象,旨在获取实施问题的独立性。概念建模是建立具有恰当记录和满足用户需求数据库的基础。逻辑和物理建模的实体(或表)不能超出概念模型的范围之外,并且不能破坏概念模型的业务逻辑结构。

概念模型设计能界定保险决策支持设计的边界,并确定主要主题域及其内容。概念模型必须针对保险的业务需求及其业务之间的关系进行高度概况,把相关业务对象进行归类,对其业务进行划分主题。按照保险业务决策支持的设计需求,确定以下八大主题构成:①客户基本信息;②客户地址信息;③保险分析统计信息;④客户沟通信息;⑤关系信息;⑥产品关联信息;⑦财务、风险信息;⑧事件信息。

保险的模型设计必须保证其业务完整性,以确保保险业务上涵盖保险客户关系管理业务领域的各个环节,因此数据仓库概念模型设计必须保证业务完整性、数据集成性、可扩展性、数据可用性、标准与规范和性能,具体如图1所示。其中业务完整性是确保保险业务上涵盖保险客户关系管理业务领域的各个环节,如客户获取、接触、信息登记、产品与服务等,并考虑与主流保险模型框架结构兼容和面向业务的商务智能应用体系。数据仓库建模时必须要首先建立模型的标准与规范,包括建模基本规范、编码规则、业务对象类型、枚举类型标准、命名规范。数据可用性是整合所有源系统的数据后,需考虑数据的可用性和安全性得到保证,及其在未来数据增加的增量策略的实现,包括数据安全和存储策略、数据的生命周期和数据的可维护性。数据性能是整合多个源系统,数据量增大后,还必须保证其ETL的性能和其业务系统查询的性能。

图1 概念模型设计原则图

3.逻辑模型设计

逻辑设计依据概念架构在逻辑模型上创建一个对应的逻辑架构。逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。从概念模型八个主题域中分别选择了客户基本信息主题、保险分析统计信息主题和产品关联信息优先进行分析。这三个关键分析主题将其余的主题有机的关联在一起。基于保险ECIF系统的逻辑架构如图2所示。

图2 ECIF客户信息共享逻辑架构

此逻辑架构的构建思想是:首先从保险公司的生产数据仓库ECIF中抽取必要的数据库表构成I层数据;然后用I层数据结合客户信息系统CIF的数据来归并成中间数据层,中间层数据根据需求分析来取数做规整,划分指标,无汇总操作;然后在中间数据层的基础上进行指标计算,做聚合操作成为汇总数据层;再在汇总数据层数据基础上划分出5类子宽表:有效产品数据宽表、账户数据宽表、历史产品数据宽表、支出及贡献度宽表、复合指标宽表,以得出需求指标;最后,宽表汇总所有的客户分群基础数据,用来支持最后的查询和决策。为了实现上述功能汇总,逻辑设计必须有的一项重要功能是客户的识别与归并。在业务数据中,重复的客户在数据库中有各自的分开记录,有多个客户号,因此,为了完整保留业务系统的客户信息,在进行客户归并时只需要确定数据的有效性。归并只是生成与应用系统无关的客户归并号,因此对应用系统没有影响。归并客户号的客户数据的运用可以选择查询第一有效客户,也可以列出所有归并过的客户用于人工判断,这是进行客户分群的一个重要模块,对模型的影响主要在主键策略的制定问题上,因此设定的归并客户号均为主键。

4.物理模型设计

在数据仓库的物理模型设计中,主要解决数据的存储结构、数据的索引策略和数据的存储优化分配等。但在物理模型设计中,还必须充分考虑到决策分析的需要。“维度建模”是组织和配置数据的主要过程,Kimball提出的维度建模在数据仓库和商务智能应用中广为接受的一种方法,许多从业者和学者都意识到在商务智能工具中使用到的数据必须以简洁有效为基础,通过多维建模标准化将数据转换为由维度和事实表组成的多维模型已经得到了广泛应用。所以,在物理模型设计中采用了多维数据模型,数据以多维形式组织和存储,更加有利于OLAP和数据挖掘分析。

物理模型设计中,另外一个重要的功能是将逻辑模型设计中的客户归并号进行物理归并。把业务数据中的多个重复客户记录在CIF中物理归并为一个客户记录,需要实现CIF客户与业务系统客户的映射,客户归并时必须提供覆盖规则,也就是说客户属性的有效性原则必须非常明确,因此也有可能造成部分有效数据的丢失,CIF模型必须保留归并历史,否则很难实现数据回溯和再归并。成功进行物理归并后,客户数据的查询使用就更简洁和清晰。

通过归并客户号整合客户在不同源系统的数据,实现了不同信息系统的客户信息的全方位共享。在整合了不同信息系统的客户信息后,再设计一个中间层,中间层中设计的表的主要作用是从归并后的客户信息中获取数据,将一个表细分为几个小表,以利于后面的数据汇总计算,例如:将首年保费表“FYP表”细分为“FYP表-细到险种”和“FYP表-细到保单”。在进行了必要拆分后,再对拆分进行必要的指标汇总计算,汇总层的每一个指标都必须从保险业务中进行详细的了解,设计出字段算法,例如:计算意外伤害账户(主险)的APE情况,则必须从“FYP表-细到险种”的表中计算险种为意外伤害险种和该意外伤害险是主险的FYP的和。在汇总层的计算后,将其汇总的指标再进行关联划分出5类子宽表:有效产品数据宽表、账户数据款表、历史产品数据宽表、支出及贡献度宽表、复合指标宽表,以得出需求指标,求出所需指标的数据,最后将数据汇总到宽表,被报表直接引用。设计完ETL数据的逻辑关联后,还需设计其调度关联。因为有些表是引用不同层的表,所以如果要加载数据,必须先调度优先级高的数据表,设计出可并行运行的存储过程架构,再进行层层调度抽取数据,满足调度需求。

四、数据仓库指标测试

在客户信息整合共享项目中,通过UAT测试确保基于逻辑模型设计的数据仓库有效,并确保该保险项目的各个指标符合最终用户的使用需求,达到质量标准,能够正式投入生产使用。在测试过程中,基于项目前期所确定的功能和数据需求,解决测试所发现的系统错误、功能缺陷、理解差异等各个方面的问题,最大程度地使系统能够在计划的时间内达到需求,确保系统在投入正式运行后正确、可靠、平稳的运行,有效支持业务运作。

测试将验证指标正确性和指标数据正确性。其中指标定义正确性指的是确定本期项目指标定义是否按照项目需求已确认的指标定义;指标数据准确性是确定本期项目指标计算结果是否符合保险公司实际的业务结果。

根据本期项目的需求范围和项目实际开发情况,测试范围将涵盖本项目所实现的指标。由于本期项目涉及的指标有300余项,如果每个指标都需要详细UAT测试,需要很大的人力、时间、设备等资源。鉴于目前项目资源情况,建议按一定的优先顺序,选取某指标进行UAT测试。被选取进行UAT测试的指标,一般为重要性的指标,包含基本指标,特别是某些衍生指标的父指标;保险业务上经常使用的指标;报表、分析等经常使用的指标等。本次测试选取以下指

标作为UAT测试对象,如表1所示。

表1 UAT指标

本次测试主要以静态数据为基础,测试期间数据库中的数据不能擅自删除、更改、插入,如有需要删除、更改、插入操作,则需要经过测试组、业务组的影响评估,确定对测试结果无影响的,可指定相关人员进行相应操作,否则,任何人都不允许对测试数据做更改。为保证测试的可性行和准确性,UAT案例连接的数据源和测试环境的数据源是一致的,否则两边的结果将没有可比性,整个测试的正确性将无法得到保障。

测试结果初步得出结论,该保险项目的各个指标基本符合最终用户的使用需求,达到质量标准,符合指标上线运行使用。

五、结论

基于商务智能的保险决策支持设计是一项综合性技术和解决方案,它为保险企业进行全局范围的复杂数据分析,战略决策和趋势分析提供数据分析支持,项目的实施给该公司带来了很多变化:

第一,从公司内部业务环境上看,项目实施之前存在数据未统一管理、客户信息彼此间没有联系和信息缺乏全方位共享等问题,而在项目实施之后,加强了资源的有效整合,提高了公司运行效率。

第二,业务系统交互密集,导致数据量庞大且复杂度高,业务系统并不是单一地处理数据,在处理每一单承保信息时,就需要经过审计、反洗钱系统,向保监会上报等手续,当数据量很庞大时,信息的不准确性则会大大影响整体的工作。项目的实施支撑了不同业务系统的数据集成,不同业务系统客户信息的共享。

第三,项目实现了客户信息的全方位共享与深度分析加工,为企业的业务拓展、业务运营、管理决策、客户服务提供强有力的信息支持,通过ECIF平台整合公司客户数据资源。

文章主要分析了数据仓库的建模和指标测试,并且基于该模型设计的“基于ECIF实现客户信息共享”的项目已经在该保险公司正式上线使用,据使用后的反馈结果显示,该系统很好地解决了数据源孤立,信息分散利用率低的问题,系统运行速度和数据分析能力得到了极大的改进,在一定程度上提高了该保险公司的运作效率和业绩。该模型的建模原则和模型设计对于保险行业数据仓库应用具有一定的借鉴作用。

[1]Clark T D,Jones M C,Armstrong C P.The dynamic structure of management support systems:theory development,research focus and direction[J].Mis Quarterly,2007,31(3):579-615.

[2]Elbashir M Z,Collier P A,Sutton S G.The role of organizational absorptive capacity in strategic use of business intelligence to support integrated management control systems[J].The Accounting Review,2011,86(1):155-184.

[3]Ranjan J.Business intelligence:Concepts,components,techniques and benefits[J].Journal of Theoretical and Applied Information Technology,2009,9(1):60-70.

[4]Rouibah K,Ould-ali S.PUZZLE:a concept and prototype for linking business intelligence to business strategy[J].The Journal of Strategic Information Systems,2002,11(2):133-152.

[5]Zhenming X,Mia Z,Xiaodan J.Business intelligence-a case study in life insurance industry[C].Proceedings of the e-Business Engineering,2005 ICEBE 2005 IEEE International Conference,2005:12-18.

[6]Chaudhuri S,Dayal U,Narasayya V.An overview of business intelligence technology[J].Communications of the ACM,2011,54(8):88-98.

[7]陈鸿雁.商务智能在保险数据分析和决策支持中的设计与实现 [J].计算机系统应用,2010,19(11):139-142.

[8]Lahrmann G,Marx F,Winter R,et al.Business intelligence maturity:Development and evaluation of a theoretical model[C].Proceedings of the System Sciences(HICSS),Hawaii International Conference on.IEEE,2011.

[9]夏国恩,金炜东,张葛祥.商务智能在中国的现状和发展研究[J].科技进步与对策,2006,14(1):88-90.

[10]杨杉,何跃.数据仓库和数据挖掘技术在保险公司中的应用[J].计算机技术与发展,2011,21(6):157-160.

[11]马鸣,赵轶超.实时商务智能的框架及其技术分析 [J].计算机应用与软件,2009,26(10):130-132.

[12]Inmon W H.Building the data warehouse[M].J.Wiley,2002.

[13]Jindal R,Taneja S.Comparative study of data warehouse design approaches:a survey[J].International Journal of Database Management Systems,2012,4(1):33-45.

[14]Giorgini P,Rizzi S,Garzetti M.Goal-oriented requirement analysis for data warehouse design [C].Proceedings of the 8th ACM international workshop on Data warehousing and OLAP.ACM.

猜你喜欢
数据仓库建模客户
联想等效,拓展建模——以“带电小球在等效场中做圆周运动”为例
基于数据仓库的住房城乡建设信息系统整合研究
基于PSS/E的风电场建模与动态分析
不对称半桥变换器的建模与仿真
为什么你总是被客户拒绝?
如何有效跟进客户?
分布式存储系统在液晶面板制造数据仓库中的设计
探析电力系统调度中数据仓库技术的应用
做个不打扰客户的保镖
基于数据仓库的数据分析探索与实践