基于岭回归的诈骗犯罪影响因素研究

2020-03-16 07:59赵云鹤
河北公安警察职业学院学报 2020年1期
关键词:共线性入学率回归系数

赵云鹤

(阜平县公安局,河北 保定 073200)

犯罪现象是社会突出矛盾的集中体现,随着社会主义现代化的进程,诈骗犯罪也非常突出显著起来。《中华人民共和国刑法》第二百六十六条规定,诈骗罪是指以非法占有为目的,用虚构事实或者隐瞒真相的方法,骗取数额较大的公私财物的行为。随着时代的发展和人民生活水平的提高,居民防骗意识大大增强,诈骗犯罪看似离我们很远,其实又却无时无刻在我们身边。从中国统计年鉴查询,2005年、2006年公安机关立案的诈骗案件数为330967起和355590起;2017年、2018年公安机关立案的诈骗案件数为1322918起和1469134起,诈骗犯罪不降反升。研究诈骗犯罪的影响因素,对于如何预防、打击诈骗,建设法治社会,依然有着极其重要的意义。

一、研究综述

很多文献从不同角度研究了如何防范打击诈骗犯罪。有文章认为中国正处在社会变革发展期,人们的思想观念、价值理念受到严重冲击,诱发了一些人的私欲引发了一部分人严重的个人利己主义思想,以自我为中心,不考虑自己实行行为后果,在社会生活中不择手段,坑蒙拐骗,无视社会道德与法律的约束[1]。有些文献还对中国ZG市公安局2015年4、5月的110诈骗接警数据进行统计分析,发现诈骗犯罪整体表现出与受教育水平、老龄化和人口城镇化水平等社会环境要素显著相关的特征,各类诈骗受害的影响因素又各不相同[2]。有文献[3]中对诈骗犯罪频发的原因进行了分析和探究,认为之所以出现这种现象,从受害人的角度来说是因为他们的没有较高的警惕心,轻信他人,有占便宜贪财的思想,同时缺乏防骗意识。文献中可以看出,我国电信诈骗高发,在诈骗犯罪中占有很大比重。我国电信类的诈骗案件在近十年每年都呈现出高达20%-30%增速,截止到2015年,我国公安部门共立案调查了59万件电信类诈骗案件,同比上升32.5%,共造成经济损失222亿元[4]。

根据中央统计局数据,如图1所示,2005年至2018年我国诈骗案件宏观数据波浪上升。我们将以我国2005年至2018年的公安机关立案的诈骗案件数为基础,利用科学研究方法,量化教育、收入、电信网络因素对诈骗犯罪的影响。

图1 我国诈骗案件立案统计数据

二、基于实际数据的诈骗犯罪因素影响分析

(一)研究分析方法的选择

诈骗犯罪在我国日常生活中还是普遍存在,其主要原因是我国处于社会主义初级阶段,社会发展不平衡不充分。近年来,我国社会经济飞速增长,随着市场经济的深入,自由贸易经济带来的直接影响是城乡居民收入分配平等、受教育不均衡的问题。一些弱势群体受利欲诱惑,丧失正确的人生观、价值观,开始不惜代价获取利益,甚至铤而走险走上犯罪道路。经济发展带来的是社会生产技术的提升,移动手机、互联网广泛普及,已经成为我们日常生活中不可或缺的部分。一种新信息技术从产生、发展到成熟,需要一段很长的过程,在发展完善的过程中总会出现漏洞,这就给犯罪嫌疑人创造了可乘之机,利用高科技手段的新型电信犯罪日益增多。根据以上影响因素选取变量建立回归预测模型,设Y为因变量,表示诈骗犯罪立案数,X1,X2,X3,X4,X5为自变量。

(1)X1表示城乡居民收入差距,X1=城镇居民人均可支配收入绝对数-农村居民人均纯收入绝对数的差值,衡量我国城乡居民收入贫富差距。

(2)X2表示移动电话用户数,衡量我国移动手机数量普及程度。

(3)X3表示互联网上网人数,衡量我国互联网用户数量发展程度。

(4)X4表示高中阶段毛入学率,X4=某学年度高中教育在校生数/学龄人口总数,衡量我国高中阶段教育发展水平。

(5)X5表示高等教育毛入学率,X5=某学年度高等教育在校生数/学龄人口总数,衡量我国高等教育阶段教育发展水平。

(以上数据来自中国统计年鉴、中国教育统计年鉴)。

关于对影响因素进行分析,笔者主要从预测方面上进行了分析和探究,其中主要用到了以下方法:自回归神经网络,滑动平均模型,多元线性回归,从上述影响因素看,这5个因素在不同程度的增长,因此,它们的增长具有相同方向性,即自变量数据序列存在多重共线性,若使用最小二乘法(OLS)估计模型的系数,不能客观反映自变量与因变量的相互关系[5]-[6]。岭回归是最小二乘法的改良,得到的系数估计估计精度更高,从而解决这种自变量数据共线性问题,对新的新数据做预测时的均方误差更小。

(二)岭回归基本原理

作为一种专门用来分析共线性数据的方法,岭回归这种有偏估计回归方法中对最小二乘估计法进行了改良,抛去了其原有的优势,为了尽力保持回归系数的稳定性,该方法降低了信息的合精度,从而使得所得到的回归系数更加真实可靠,在解决问题时更加精准有效。

多元回归的线性回归模型可表示如下:

在该式中,Y是因变量,X是独立变量,β是回归系数,ε是误差。

回归系数β按照最小二乘法的估计为:

若自变量存在多重共线,则矩阵XTX为奇异矩阵,矩阵特征值很小,从而引起矩阵XTX的逆阵对角线上的元素很大,造成参数估计极不稳定,数据发生微小变化就可能导致参数估计发生很大的变化,系数不能客观反映自变量对因变量的影响。

岭回归就是给矩阵XTX加上一个对角阵,使矩阵的特征值变大,将奇异矩阵尽可能转化为非奇异矩阵,提高参数估计的稳定性。得到的参数更能真实反映客观实际。

岭回归求解回归系数β方法为:

式中,k为岭回归参数,k∈[0,1],k越大,共线性对回归参数稳定性的影响越小,k=0,则变为最小二乘法估计,此时为无偏估计,k≠0,则为有偏估计,随着k的增大,预测的方差也随之增大,因此,k应既能足够消除共线对参数估计影响又尽可能要小,即k一般在岭轨迹变化趋于稳定时,尽可能选取较小的值。

因为每个自变量的数量级和量纲都不完全一样,因此在进行岭回归前,需要先对所有的自变量进行统一的标准处理,从而使得其具有相同的数量级和量纲,主要利用以下方法:

式中,sij为第j个的第i个原始数值;rij为第j个的第i个标准化数值;σj为第j个标准差。

设岭回归求得的标准化系数为β=[a1,a2,…,an]T,非标准化β0=[b1,b2,…,bn]T,则有:

因此,岭回归方程可表示为:

表1为2005年-2018年我国诈骗案件立案数、城乡居民收入差距、移动电话用户数、互联网上网人数、高中阶段毛入学率、高等教育毛入学率等因素,最近14年内,我国这6项指标均呈上升态势,诈骗案件立案数增幅为343.8914%,城乡居民收入差距增幅为458.3091%,移动电话用户数增幅298.0870%,互联网上网用户646.4054%,高中阶段毛入学率为16.3827%,高等教育毛入学率为129.0476%。城乡居民收入差距增长速度最快,高中阶段毛入学率最慢。从数据分布特点看,6个自变量都是同向变动,因此可能存在多重共线问题,运用岭回归是最好的研究方法。

由此,X=[X1,X2,X3,X4,X5],对 X 和 Y 进行线性回归,即:

(三)最小二乘法回归

把表1中所列举出的数据作为本次研究的样本数据,通过最小二乘法来得出回归系数β的估值,表2所展现的就是所得到的结果,其中相关系数R2=0.955。通过表2可以看出,得到的X1的系数不为正,这一结果数据不具有任何现实意义,因此在研究时,不适合使用最小二乘法来计算估取回归参数。

在进行共线性诊断时,想要判断样本的自变量的共线性是否存在,需要从以下几个方面入手:(1)比较自变量容忍度数值,结果否小于0.1;(2)比较膨胀系数数值,结果是否大于10;(3)比较条件指数数值,结果是否大于30;(4)比较特征值,结果是否大于10或接近0;(5)比较方差比例,结果是否大于0.5。通过对表2的相关数据进行分析可以得到,在这些自变量中有4个自变量的容忍度数值小于0.1,且4个自变量膨胀系数VIF均大于10,说明存在多重共线性。在表3中的共线性诊断结果可知,6维度特征值为0,4维度、5维度特征值接近于0;3至6维的条件指数大于30,自变量X4、X5、X6在不同维度下的方差比例存在大于0.5的现象。以上结果说明了在这五个自变量中,其中四个自变量存在程度较高的共线性。

(四)岭回归

在对回归系数进行估算时,采用岭回归法。首先通过SPSS工具对整体进行分析,然后把迭代步长拟定为0.01,从而确定最佳岭参数k的值。通过相关的计算和运行后,可以得到相关的岭回归迹线图,即下图2。

图2 岭迹图

通过图2可以看出,当k的值越来越大时,所有自变量的系数都将逐渐稳定,这时通过计算所得到的迭代寻优的结果为k=0.99,这个数值表明了最佳岭回归的参数等于0.99。表4所显示的就是岭回归参数的结果,通过表格可以看出其四个自变量的取值分别为a1=0.18,a2=0.166,a3=0.161,a4=0.109,a5=0.2,相关系数R2=0.9,模型的F检验值为14.386,此时显著性概率的数值为0.001,该数值大小低于显著水平,这表明该模型已经完成并通过了检验,模型具有有效性。但是相关系数的数值出现了较大幅度的降低,这表明岭回归在解决共线性的相关问题时,为了较好达到预期目标,不得不丢失了部分数据,导致预测信息的精度有所降低。

通过岭回归来估计得到标准化系数,所得到的数据值能够真实客观地反映出在整个系统中,各自变量对因变量的影响大小。在5个标准回归系数中,由于a5>a1>a2>a3>a4,因此,影响诈骗犯罪立案总量5个因素的重要性从大到小排序依次是:高等院校毛入学率、城镇居民收入差、移动电话用户数、互联网上网人数、高中阶段毛入学率。这与诈骗犯罪发案特征基本吻合。校园安全防范工作已经成为社会综管理的重要组成部分[7],广泛的校园安全教育有效提高学生对诈骗案件的认识,强化防范和自我保护意识。但由于高中和高等院校学业压力、学生理解能力及教育侧重点等多因素存在差异,高等院校学生与高中学生在防范能力上存在偏差。我国正处在经济高速发展阶段,由于农村劳动生产水平低,收入分配制度不完善,我国城乡居民人均收入差距逐渐拉大,据统计,2018年我国基尼系数为0.474,该数值表明,我国贫富差距较大,在市场经济的大潮冲击和诱惑下,部分人价值观念和社会心态方面出现种种困惑,产生好逸恶劳的心理,通过投机取巧诈骗以获取财富,同时通过拥有的财富来突显个人的社会地位[3]。当今社会,现代通信技术迅猛的发展,移动手机、互联网用户成为生活不可或缺的部分,在飞速发展的形势下,电信运营行业在经营、管理、技术等方面存在大量的问题和漏洞,同时用户群体庞大,给犯罪分子制造了可乘之机。电信运营部门过分重视商业利润价值,忽视社会责任感培养,对本行业自身业务工作管理不力,另一方面,行业内的管理机构对国家的法律法规执行不到位,助长了电信诈骗犯罪的高发。

表1 中国诈骗犯罪影响因素指标

根据表4的岭回归的非标准化系数为b1=14.046,b2=1.921,b3=3,b4=5458.785,b5=9365.235,可得到最终岭回归方程为:

Y=435689646+14.046X1+1.921X2+3X3+5458.785X4+9365.235X5

图3 诈骗案件立案预测曲线

三、对防范诈骗犯罪的建议

(一)解决城乡居民贫富差距,推动发展共同富裕

坚持中国特色社会主义经济制度不动摇,公有制为主体,多种所有制经济共同发展。鼓励引导支持非公有制经济发展,对中小企业给与政策倾斜,创造更好的营商环境,充分发挥地域优势,增加劳动收入。加快农业产业化速度,优化农村资源配置,推进城镇化发展速度,加速农村剩余劳动力转移,为农民创造更多的就业岗位,发挥地区产业优势,发展特色农业,推进农村区域经济快速发展。

表2 回归系数

表3 共线性诊断

表4 岭回归分析结果

(二)保障受教育机会,完善校园安全防范措施

建立全层次、全覆盖的教育资助体系,保障贫困、弱势群体子弟享有公平、公正的受教育权益和机会,让更多学生接受到高等教育。加强学生诈骗犯罪防范教育,贴近实际,采用多种方式向学生介绍诈骗的特点及防范措施,使学生在长期的潜移默化中不断提高自己的安全防范意识。

(三)完善部门监管,堵塞电信行业漏洞

电信运营部门完善行业制度,杜绝发生公民信息泄露问题。加大力度对电信行业诈骗多发部位进行防控,采用新技术、新方法,抵御网络黑客、网络攻击的入侵能力。国家职能部门强化责任意识,落实监管职责,对电信行业严格管理,及时发现、纠正行业违规问题,保障人民群众财产安全。各部门应当加强合作与交流,通信、银行、物流、公安、法院、检察建立联系协作机制。适当简化案件侦察办理程序,尽快查清案件事实,挽回受害人的经济损失,减小案件办案难度。

(四)增强社会群众防范意识

加强社会对于诈骗犯罪的防范意识,新闻媒体要充分发挥宣传职能,加强对诈骗犯罪的宣传力度,让居民了解、认识诈骗犯罪的危害。相关管理部门通过多种方式加强对诈骗的宣传,在日常生活中开展普法活动,使诈骗犯罪防范深入人心。社会各界共同努力,营造良好的社会防诈骗宣传氛围,共同打击诈骗犯罪,不给不法分子可乘之机。

四、结语

本文研究了诈骗案件立案数与城乡居民收入差距、移动电话用户数、互联网上网人数、高中阶段毛入学率、高等院校毛入学率等因素之间的关系,研究表明,对我国诈骗犯罪立案数影响最大的是高等院校毛入学率,最小的是高中阶段毛入学率。5个因素对诈骗案件立案数影响差距不大,是影响我国诈骗犯罪立案数增长的重要因素。

经济发展新常态、社会治安管理面临新格局、诈骗犯罪持续增长,给打击、管控犯罪带来新的挑战。从以上分析城乡居民收入差距、移动电话用户数、互联网上网人数、高中阶段毛入学率、高等院校毛入学率对诈骗犯罪立案数影响可见,教育问题对诈骗犯罪立案数影响最大,说明我国高中、高等教育普及率需要进一步提升。城乡居民存在较大差距,就必须想办法提高农村居民的收入,使农村较快富裕起来,要营造安全良好的移动、互联网管理格局,部门间交流合作,形成打击诈骗、严惩犯罪的新格局。

猜你喜欢
共线性入学率回归系数
2020年我国在校生2.89亿人
南瓜SWEET蛋白家族的全基因组鉴定与进化分析
银行不良贷款额影响因素分析
不完全多重共线性定义存在的问题及其修正建议
我国寿险需求影响因素的岭回归分析
从小学入学率和师生比看我国基础教育发展特点
基于生产函数模型的地区经济发展影响因素分析
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
电导法协同Logistic方程进行6种苹果砧木抗寒性的比较
全世界都在扩招