◆崔振浩 李真真 张愿 司晨雨
基于大数据的ToB客户精准营销方法研究
◆崔振浩 李真真 张愿 司晨雨
(中移在线营销服务中心 河南 450000)
在信息时代大数据的背景下,大数据已经和ToB客户营销相融合,同时ToB市场进入了快速发展期,为众多企业带来了更多的利润增长点。由于ToB用户数据信息较少,数据质量较差,加上大数据呈现出据海量和复杂的趋势,因此对客户的信息的隐藏价值很难提取,挖掘数据价值的难度和成本进一步加大。本文提出一种改进的GBDT+LR算法,对营销意向率较高的用户进行分类。用混沌粒子群的思想优化GBDT+LR算法初始参数选取,并且运用两个ToB外呼营销产品进行比较验证,实验表明,本文算法在评价指标方面有更高的得分。
ToB客户营销;粒子群算法;混沌理论;梯度提升树
随着社会的进步发展,大数据、云计算已经融入企业的经营发展中,带来了巨大的商业价值。同时企业之间的市场竞争更加严峻,企业在ToC市场空间趋于饱和的情况下寻求新的发展机遇,ToB类外呼营销为企业带来了新的利润增长点的同时也带来了新的风险点[1]。随着信息技术革新,企业面临着更加海量的数据,挖掘数据价值的难度和成本进一步加大,尤其是个性化数据收集更加困难,获取客户的成本也越来越高,因此,企业比任何时候都需要基于数据驱动的精准营销。面对海量数据,如何披沙沥金,开展精准营销,是企业客户迫切需要解决的难题[2]。
为增加ToB类精准营销的效率,国内学者韩高等人基于logistic回归算法筛选目标客户,提高了外呼效益并降低了被投诉风险。算法利用后退逐步法的线性回归算法,筛选外呼意向率高的用户,但是ToB 用户的特征信息比较少,logistic回归算法没有充分挖掘客户信息[3],同时算法本身的准确性存在一定的不足。在寻找算法最优解方面国外学者Malarvizhi K P等人,采用蚁群优化算法寻找车联网交通适配参数,一定程度上提高了分配系统的性能,但是存在蚁群陷入局部极最优解和收敛偏慢的不足[4]。
借鉴上述相关学者的研究,本文提出一种混沌粒子群改进GBDT+LR的算法,通过混沌理论的思想优化粒子群初始点的选择和寻找最优解的过程,对传统的GBDT+LR进行了改进。解决了分类算法初始参数的选取问题,提高了算法的整体效率。在四川和飞速和江苏企业宽带产品中进行算法比较,验证本文算法的有效性。
与ToC业务不同,ToB业务的主要受众是企业机构的客户群体,相较于C端用户而言,B端客户特点明显:(1)服务产品单价高,利润偏高,但客户购买率偏低;(2)客户数量远小于C端用户,全国有工商注册的法人机构量级为4103万;(3)整体上决策周期更长,且偏理性决策,因而,交易过程与服务周期较长。
其次,根据企业自身的经营发展状况和信息化程度等因素,企业客户需求呈现多样化、等级化的特点。因此对用户的区分的难度进一步加大。本文首先对数据进行融合提取,运用机器学习算法来区分购买意向较高用户和购买意向较低用户。流程如图1所示。
梯度提升树(Gradient Boosting Decision Tree)是Friedman 提出的一种分类效果比较好的Boosting算法[5]。基本思想是通过算法迭代生成新的弱学习器,然后经过公式计算不同弱学习器的权重累加得到一个强学习器,进而对数据进行预测。但不同的是GBDT要求弱学习器为CART模型,并且GBDT每个弱学习器训练的数据是前一个学习器预测结果的误差,在误差减小的梯度方向建立一个弱学习器,进行不断的迭代,从而通过线性组合基函数在训练中不断减小误差实现数据集的分类[6]。
图1 外呼营销数据处理流程图
算法的损失函数如下:
则最优解表示为:
对其进行扩展:
依据梯度下降计算学习率:
则:
在GBDT算法中,由M个弱学习器(决策树)组成。那么使用GBDT进行数据维度的扩展,认为每个样本在决策树落在决策树的每个叶子上就属于一个类别然后使用逻辑回归[7]进行数据预测,代入公式如下:
从而使用GBDT+LR对数据进行预测。
GBDT+LR虽然在准确率上有了明显的提升。但是模型运用了两个算法,参数的寻优过程中带来了很大的计算量,如上文中逻辑回归的学习率问题,GBDT算法中树的最大深度,分类特征数等,寻常的网格搜索已满足不了日益发展的生产的需要。粒子群优化算法有着强大的全局搜索能力,因此本文提出将两者结合构建GPSO-GBDT+LR模型用于客户精准营销。
算法中粒子的速度和位置参数计算如下:
实验证明,PSO算法在大多问题解中具有很好的效果,但是在处理复杂问题的情况下容易陷入局部最优解,并且初始粒子的选取对结果存在一定影响。因此本文对PSO算法进行改进,对种群引入拓扑结构的思想,提出混沌粒子群优化算法(GPSO),算法的评价指标得到了提高。
混沌搜索策略中的混沌代表的一种状态,属于拓扑变化。在系统中表现混乱和随机的一种现象,但是内部存在着有序的规则,可以增加上文算法的对最优解的全局搜索能力,同时混沌的运动性是固定规则,不含有任何随机的因素[9]。本采用混沌运动独特性的思想来提升随机优化算法的效率。
将得到的混沌向量利用下公式逆映射到原取值空间,其中代表区间上界,代表区间下界。
对群体最优解进行如上式混沌优化搜索。
本文算法GPSO优化GBDT+LR算法流程如下
Step 1:初始算法最大迭代次数和收敛精度,算法优化的GBDT+LR的人工设置的参数:学习率,最大数深度,学习器权重减系数等,混沌粒子群的种群规模等。
Step 2:根据(14),(15)混沌搜索初始化粒子群的速度和位置。
Step 3:粒子适应度计算。
Step 4:根据计算的粒子的适应度运用公式(12),(13),更新相关位置和速度。
Step 5:最优位置依据公式(14),(15)进行混沌优化。
Step 6:GBDT+LR参数是否优化满足迭代条件,若满足算法结束,不满足返回Step 3。
图2 GPSO优化GBDT+LR算法流程图
传统的GBDT+LR算法受初始参数的影响,并且GBDT算法运行时间长,传统的网格搜索法也达不到理想的程度。因此本文采用粒子群算法计算GBDT+LR算法的初始参数,同时为减小粒子群容易在复杂问题时陷入局部极值的不足,加入混沌理论思想,对粒子群的粒子初始选择和最优参数的寻找进行混沌优化搜索,算法的运行效率得到了进一步的加强。
本文在四川、江苏省份进行实验验证。推荐的产品分别为四川和飞速、江苏企业宽带。正负样本比例均为1:4。最大迭代次数80,惯性权重0.9,种群规模80,加速度系数为2,取5次实验结果的平均值。实验数据特征为工商数据集。包括经营时长、注册资金、行业门类、企业性质、ARPU、是否楼宇、企业类别。评价指标采用准确率、精确率、召回率、AUC,其中AUC公式如下:
算法阈值选取0.3。
表1 产品算法对比表
图3 和飞速AUC变化图
图4 企业宽带AUC变化图
可以看出本文算法在四个方面相对于逻辑回归算法均取得了更优的效果,对购买意向较高的用户有更高的命中率。AUC值取得了理想的效果,说明本文算法更容易区分客户之间的差异。证明本文算法通过对粒子群的粒子初始选择和最优参数的寻找过程进行混沌理论优化后,算法的整体效果得到了进一步的加强。
本文针对ToB类营销问题,和传统的GBDT+LR算法受初始参数的影响,提出了一种基于混沌粒子群优化GBDT+LR的算法。利用混沌算法的思想改进粒子群算法进而优化GBDT+LR初始参数的选取,提高了算法的准确率。采用四川和飞速与江苏企业宽带产品进行和逻辑回归算法验证对比,结果表明本文算法在各方面有更高的效果。
[1]杨锦慧. 呼叫中心在线营销运营管理与营销策略研究[D]. 北京邮电大学,2009.
[2]Maulana A E,Nurulfirdausi K. Permissive, Aggressive or Apathetic? Indonesian Telemarketing Customer[J]. Procedia - Social and Behavioral Sciences,2015(169):69-74.
[3]韩高,朱正键,刘思泳. 基于Logistic回归算法的外呼目标客户筛选方法[J]. 广东通信技术,2015(04):31-34.
[4] Malarvizhi K P,Devi G U,Gunasekaran M,et al. Ant colony optimization algorithm with Internet of Vehicles for Intelligent Traffic Control System[J]. Computer Networks,2018,144:154-162.
[5]Ding C,Cao X Y,Nass P.Applying gradient boosting decision trees to examine non-linear effects of the built environment on driving distance in Oslo[J].2018,110:107-117GBDT.
[6]Chang Y C,Chang K H,Wu g j.Application of eXtreme gradient boosting trees in the construction of credit risk assessment models for financial institutions[J]. Applied Soft Computing,2018,37:914-920.
[7]Ding C,Cao X Y,Nass P.Applying gradient boosting decision trees to examine non-linear effects of the built environment on driving distance in Oslo[J].2018(110):107-117.
[8]Alam S,Dobbie G,Rehman S U . Analysis of particle swarm optimization based hierarchical data clustering approaches[J]. Swarm and Evolutionary Computation,2015(25):36-51.
[9]Ravi V,Pradeepkumar D,Deb K . Financial time series prediction using hybrids of chaos theory, multi-layer perceptron and multi-objective evolutionary algorithms[J]. Swarm and Evolutionary Computation,2017(36):136-149.
[10]Klioutchnikov I,Sigova M,Beizerov N . Chaos Theory in Finance[J]. Procedia Computer Science,2017(119):368-375.