数据挖掘在洗钱交易中的识别研究

2016-08-17 03:00郝建军翟岁兵甘霖
中国新通信 2016年14期
关键词:识别数据挖掘

郝建军 翟岁兵 甘霖

【摘要】 随着经济建设不断加快,洗钱交易成为世界性的犯罪行为。但是从现状来看,如何识别洗钱交易难度非常大,选择科学合理的识别方法非常关键,更是研究反洗钱的重要课题。本文阐述了交易信息的层次分析和数据结构,通过真实交易验证数据挖掘方法的有效性和可行性。

【关键词】 数据挖掘 洗钱交易 识别

一、前言

随着加强打击洗钱犯罪活动的力度,将金融机构推向了反洗钱工作前沿,更是反洗钱的主战场。而数据挖掘能够从海量信息中获取有价值线索,把数据挖掘和金融领域知识有效结合,识别洗钱交易是反洗钱研究中重要的基础性工作。因此,研究数据挖掘识别洗钱交易具有重要意义。

二、交易信息的层次分析和数据结构

要选择合理的识别洗钱交易,就必须要深刻理解与准确把握金融领域的背景知识。通过分析大量的交易信息,结合反洗钱的知识与实践经验,可疑把金融交易信息划分成四个层次,即为交易层、客户层、账户层以及机构层。交易层就是整个交易信息之基础,而交易层每一笔交易都包含了交易的主体、时间、账户以及交易性质等各种丰富信息。将账户作为主体,归并交易层信息,从而形成了账户层。各个账户中所包含交易层的信息不存在交集,并且每一个账户信息都是按照发生交易时间进行顺序排列。假如某个客户拥有多个账户,并且将许多账户信息纳入该客户名下,和其他的单一客户账户共同构成客户层;客户层里的账户大多按照交易性质进行区分,比如资本账户、结算账户以及经常账户,成为唯一客户。

而客户层中,例如客户均为一家机构,则合并成客户信息而形成了机构层。机构层中客户几乎都是按照机构组成进行区分,比如集团旗下的销售、生产、财务以及物流等各种子公司。机构内部犹如一棵树,所有机构层中机构信息形成了树林,各种信息加之互相间的交易关系形成了整个交易整体。

交易信息基本组成单位就是每笔交易记录,同一个交易账户交易记录就形成交易账户信息,同一主体关联账户信息组成了信息整体。

在交易中每一笔交易均相当一个数据点,基于记录的账户信息就依照时间序列形成一条数据链,关联账户的信息构成数据层,所有主体的信息就形成一个数据立方体。经过构建多维数据的立方体,就能够从概括层次上分析可疑交易信息。

三、数据挖掘识别洗钱交易

为了探究利用数据挖掘识别洗钱交易,本文就采用真实的外汇交易数据,然后结合层次分析,选定数据挖掘方法识别洗钱交易。

3.1 准备数据

本文验证案例中所用数据源是某企业2011年——2015年外汇账户的交易数据。针对企业的原始交易数据实施了数据预处理,在操作中就是结合了可疑交易行为的特征,将企业的代码当成ID,检查了交易数据的资金收付标志、企业代码以及交易金额等各种重要字段,填充了一些错误与缺失值的使用经验值或者背景资料,之后增加了一些分子字段,从而获取原始特征集。对外汇账户的交易数据进行预处理后如表1所示。

3.2 验证过程

首先要针对检测孤立点在洗钱交易中的重要性,要发挥出聚类算法在分析金融交易过程中具有的优势。分析聚类数据,将交易数据划分成6类,1,2,3,4类的账户主体数据上有明显行业特征,但是第5类所含企业具备了交易频繁、交易金融大以及现金交易少等各种特征,分析此类客户背景特征,就发现这一类中的账户主体大多规模大且属于进出口业务。而第6类包含了企业的资金交易不活跃,交易金额与交易次数都低于其他积累,通过分析就能够发现这类账户主体大多是一些经营不善的公司,而账户基本上都属于睡眠户,并且在第6类有53条数据是没有合理解释,只能够归并到异常交易的集合中去,聚类分析的结果如表2所示。

其次针对账户层面可疑特征,采用小波分析技术处理信息,然后结合背景信息选择小波函数,对交易时间序列实施时域与频域变换,建立适用在可疑洗钱交易挖掘小波模型,从而实现序列奇异性检测。对于外汇账户的信息,依据每一个账户煤炭交易信息形成的交易时间序列,运用Matlab7.1软件就能够对交易时间序列进行小波分析。并对交易数据的序列进行Haar 与bior3.3小波变换,采用多尺度进行综合分析判断,从不同细节的信号高频系数重新构建信号突变点位置,就能够准确定位出交易发生异常的区域,从交易账户中获取异常账户。

其三利用机构层面的交易来源、流向及性质或者用途的异常情形,运用数据挖掘技术对路径异常进行识别。分析交易主体和交易流向、编码间的链接,分析资金流向或者交易性质上存在异常现象,属于一种可疑交易。采用SAS8.0统计软件作为分析工具,分析数据挖掘模块具(EM)的信息,在SAS/EM 中调用其他相关节点和Link节点对数据进行链接分析,获取到链接分析的结果。

其四;通过多角度挖掘交易数据;采取不同的挖掘方法识别某方面特征具有绝对优势,由此获得多层次可疑的交易特征,将各类的可疑特征设置为输入属性,将各种可疑标识以集合属性形成新数据集,并把新的数据集作为判定可疑度的数据源,采用贝叶斯准则进行推理判断。

从而将多种可疑度转化成单一指标,由此可定出最佳洗钱的可疑度指标,得出可疑度的判定阀值,就能够给判定洗钱交易提供准确的参考。本文经过反洗钱的相关知识,就能够确定出可疑度的阀值是0.49。

参 考 文 献

[1]刘芳,伏峰.利用链接发现技术侦测可疑账号交易信息[J].计算机工程与科学,2012(6).

[2]杨胜刚.基于数据挖掘技术的人民币反洗钱系统设计[J].财经理

论与实践,2015(11).

[3]欧阳卫民.我国反洗钱若干重大问题[J].财经理论与实践,2016(3).

猜你喜欢
识别数据挖掘
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘综述
软件工程领域中的异常数据挖掘算法
法学意义上的弱者识别问题研究
基于R的医学大数据挖掘系统研究
论犯罪危险人格的识别
一本面向中高级读者的数据挖掘好书