基于组合数据挖掘技术的信用评估模型研究

2012-07-13 02:29王梦菊胡晓旭

经济研究导刊 2012年23期

王梦菊　胡晓旭

摘要：组合数据挖掘技术正在成为研究的一个热点。组合方法是信用评估的一种新趋势，目标是提高模型的分类准确性。因此，介绍了信用评估的概念、信用评估指标体系建立的原则，以及常用信用评估方法的比较。最后，对目前信用评估模型中的组合方法进行了比较分析，为以何种角度构建组合信用评估模型提供了思路。

关键词：信用评估；数据挖掘；组合算法

中图分类：TP311.13文献标识码：A文章编号：1673-291X（2012）23-0129-02

一、信用评估的定义

信用评估是统计学和运筹学在金融和银行业中最成功的应用之一，也是最早开发的金融风险管理工具之一。信用评估通常定义为一种用于预测贷款申请者或现存借款人将发生违约或拖欠概率的统计或定量方法，广泛应用于消费信贷到商业贷款的各类信用分析中。信用评估的本质是模式识别——将企业或个体消费者按照其历史资料和相应的数据划分为履约（即“好”客户）和违约（即“坏”客户）两类。各种信用评估方法的思路在本质上是相同的，即运用数据挖掘技术、统计学和运筹学等方法，通过对消费者基本特征、信用记录、行为记录等大量数据进行系统的分析，挖掘数据中蕴含的行为模式、信用特征，获取历史信息和未来信用表现之间的关系，发展出预测性的模型，来综合评估消费者未来的某种信用表现即事先确认某些决定违约（与偿还款项相反的行为）概率的关键因素，然后将它们加以联合考虑或加权计算出一个数量化的分数。根据分数或一个关键点把潜在的客户分成“好”客户与“坏”客户两组，用于是否贷款的决策审批。信用评估成为是否发放贷款、贷款额度、产品定价、以及提高放贷机构赢利性和操作战略的决策支持工具。

二、信用评估指标体系建立的原则

评估指标体系的选择己经成为信用评级工作的首要问题，它关系着评估工作的成败。寻找一种较为科学的指标选取的方法是信用评估研究和探索的重点之一。为使指标的选取更为客观、可信，待选指标体系的确定必须在正确的指导原则下进行，本文归纳如下。

1.准确性原则。指标的选择、数据的选取、计算必须以公认的科学理论为依据。

2.全面性原则.。指标体系要全面反映贷款申请人的各方面特征，在考核过去表现的同时，更要预测未来的发展趋势，既要考虑评估对象的情况，还要研究社会经济环境及其发展的影响。信用风险的评估要覆盖贷款业务的每个行业及行业内的每一笔贷款业务。

3.可操作性原则。要求指标体系的设置避免过于繁琐，同时还要考虑指标体系所涉及指标的量化及数据获取的难易程度和可靠性。

4.独立性原则。确定评估指标在考虑全面性的基础上，要使采用的指标尽可能相互独立，指标间的独立性越好，评估的准确性越高。

5.可量化原则。为了克服主观评价所带来的不确定性和盲目性，评价要尽量做到以量化研究为主，同时定性评价与定量评估相结合。

6.灵活性原则。评价指标体系应具有足够的灵活性，以便各银行可根据自己的放贷方式和用途以及本地区的实际情况，对指标灵活进行运用。

7.公正性原则。信用评估指标体系的建立，要符合客观事实，能正确反映评估对象信用等级的真实面貌，指标体系和计算方法不能偏向评估对象或授信方的任何一方，评估机构和评估人员不能根据个人爱好，任意改变指标项目，计算方法和评估标准。

8.动态性原则。信用风险的评估不是简单静态的一次度量，而是连续动态的调整过程，因为随着贷款企业在生产环节中的每个过程都在动态发生变化，企业的经营成果也随着发生改变，变化中的财务和非财务数据就直接地影响到信用风险评估结果。因此，信用风险的评估是要不断地进行调整的，基于国内银行和企业的财务制度，建议一个季度进行动态调整一次。

三、基于数据挖掘技术的信用评估算法

David Durand（1941）从Fisher的一项试验中获得启示，意识到可以采用把整个客户群分为好与坏两种不同类别的方式来处理放贷问题。在随后的发展和演变过程中，个人信用评始终被看做是一个分类问题。到目前为止，主要的评估方法大致可以分为以下几类：经验式评判法、统计学方法、运筹学方法以及人工智能方法中的数据挖掘技术。

信用评估的本质是分类，因此，信用评估是数据挖掘技术非常重要的一个应用领域。数据挖掘从大量数据中提取或“挖掘”知识，用于信用评估，可对客户进行分类、聚类、关联规则发现、预测、偏差检测等；其中，多数用分类、关联规则发现和预测方法进行个人信用评估。目前，用于信用评估的分类算法主要包括判别分析、Logisitic回归、决策树、线性规划、神经网络、遗传算法、支持向量机等算法。

1.判别分析。是一种信用评估中使用最早的算法，其本质是一种线性回归，它通过对己知客户进行分类形成若干母体，然后根据这些母体的特征得出判别函数来判断对象属于哪个母体。由于判别分析的假定条件过于严格如要求解释变量呈多元正态分布，如果客户样本存在一定偏差性，则不是很适合使用该算法进行信用评估。

2.Logisitic回归。是线性回归的变形，通过采用极大似然估计的迭代方法，找到“最可能”系数的估计，适用于解释变量为定性指标的问题。该算法不受解释变量分布假设的严格限制是其优于判别分析之处，但评分的结果和判别分析的差别并不大。

3.线性规划。线性规划是一种运筹学的方法，采用最小绝对误差或最小化最大误差作为目标对客户进行分类。但许多学者通过研究比较之后认为该方法在信用评分领域的效果并不比统计方法优越，所以线性规划的实际应用并不多。

4.K近邻判别。K近邻判别是一种非参数统计方法，Chatterje等把这种方法引入信用评分领域，在申请者数据上选取一个矩阵来测量申请者的信用差距，其常用来解决概率密度函数的估计和分类问题，在应用中不受样本偏差的限制，但模型参数的选择有很大随机性，在信用评估中应用较少。

5.决策树法。是20世纪80 年代末提出的一种利用机器学习技术发展起来的符号方法，是一种非参数统计方法。决策树是一个类似流程图的树型结构，其中树的每个内部结点代表对一个属性（取值）的测试，其分支就代表测试的输出结果；这样，树的每个叶结点就代表一个类别。从决策树的根结点到叶结点的一条路径就形成了对相应对象的类别预测。决策树可以很容易转换为分类规则。基本决策树算法是一个贪心算法，采用自上而下、分而治之的递归方式来构造。构造决策树的经典算法有 ID3、C4.5。