商圈消费者画像构建与潜在消费者挖掘方法

2021-08-28 02:08刘旭东陈志豪胡建村
电脑与电信 2021年6期
关键词:商圈通话画像

张 春 刘 超 刘旭东 陈志豪 江 勇 张 辉 周 辉 胡建村

(1.中移信息技术有限公司,黑龙江 哈尔滨 150000;2.哈尔滨工业大学经济与管理学院,黑龙江 哈尔滨 150000)

1 引言

商圈,即商业区域,是指商店以其所在地点为中心,沿着一定的方向和距离扩展,吸引顾客的辐射范围[1]。本文所研究的商圈更具体为商场及其邻近街区内的消费场所。商圈是各类线下商业活动集中活跃区域,但越来越多的消费者选择线上消费,商圈的客流日趋减少。截至2020年6月我国手机网民规模达到9.32亿,网民使用手机上网比例高达99.2%,网络购物消费者规模达到7.49亿[2]。传统的发传单及无差别短信推送的营销方式,无法掌握消费者信息,营销效率低下。如何掌握更多的消费者信息,识别商圈的忠诚消费者及潜在消费者,是线下商圈与线上购物平台争夺客流面临的关键问题。解决该问题,将有助于线下商圈的持续发展。

在大数据背景下,一种解决该问题的方式是通过自动数据收集和智能数据提取获取更多的消费者信息,创建消费者画像并标记出不同消费者的需求,为市场营销提供决策依据,获取商业的成功[3]。消费者画像,是针对消费者信息内容的整合,即信息的标签化,是通过分析消费者的社会属性、生活习惯以及消费行为特点等信息而抽象出的一种标签化的消费者模型[4]。利用大数据构建消费者画像进行消费者分析成为了营销的新手段[5],在民用航空的竞争[6]、供应链销售[7]、新产品的推广[8]、汽车的销售[9]等多领域中都进行了应用,取得了显著成效。但既有研究没有关注到线下商圈的营销,也没有为其设计构造消费者画像挖掘潜在消费者。

针对以上问题,本文研究联合中移信息技术有限公司,围绕哈尔滨市主城区内152个商圈及覆盖的基站,利用信令数据搜集2020年1月1日至2020年1月21日到访的400万消费者的信息。消费者信息经过匿名、清洗后,根据数据的特征建立了客户画像、社交关系画像、消费偏好画像的多维度画像体系。画像以消费者忠诚度指标为核心,划分了忠诚消费者和非忠诚消费者。本文利用逻辑回归对各个商圈忠诚消费者进行回归分析,构建不同商圈的核心客户簇特征,再结合随机森林方法,对各个商圈的非忠诚消费者进行分类及预测,识别潜在的消费者。经过结算与检验,本文建立的消费者画像与潜在消费者挖掘方法的识别准确度较高,能用于实际的营销活动中。

2 相关研究

近年来,围绕“大数据”,或利用新的数据源,或利用大数据处理分析技术,解决传统领域难以解决的问题的研究方兴未艾。如利用消费者的网页点击数据,根据矩阵计算分析竞争对手在美国航空市场中的表现[6];利用消费者在线评论,通过自然语言处理技术帮助企业测试新产品[8];利用微博等社交平台的用户数据,通过构建消费者画像,为汽车企业捕捉潜在消费者[9]等等,不一而足。注意到,这些“新数据源”都是与互联网相关的数据,但由于互联网自身局限与匿名化特征,搜集而来的数据维度不够广,真实程度存疑[10]。

当前有一种特殊的数据源,是由通信运营商提供的匿名化的消费者信令数据,以及与之相关的话单数据、客户资料等。信令数据是通信运营商用户与发射基站之间的数据,包含了用户当前的经纬数据、用户通信数据等。由于我国实行手机卡实名制且手机使用者数量庞大,其所产生的信令数据是当前包含用户数据规模最大、维度最广的数据源。既有研究中,利用信令数据识别用户的轨迹,帮助城市进行道路交通规划[11],识别不同兴趣点的消费者在画像特征上有明显差异[12],都取得了显著的成果。但限于数据的敏感性,利用该数据源进行的研究较少。

消费者画像,或称用户画像,是标签化的模型[13]。当前结合大数据,利用消费者画像进行目标客户挖掘的常用的算法有分类算法[14]、聚类算法[15]、因子模型[16]等。不同的算法具有不同的特点,需结合数据集特征进行选择[17]。需要特别注意的是,基于消费者画像的潜在/目标消费者识别,都是根据消费者画像特征的相似程度进行识别[18]。

综上,围绕着大数据的精准营销应用,既有的研究重点在于新的、规模大的数据源的利用。鲜有利用通信运营商的数据进行精准营销的研究,也鲜有围绕商圈的消费者画像识别的研究。既有的研究关于利用消费者画像识别潜在消费者的原理一致,但使用何种方法更好,因研究场景而异。

3 方法设计与画像构建

3.1 方法框架

本研究基于通讯运营商提供的涉及访商圈消费者的数据集建立消费者画像。具体地,基于信令数据进行忠诚度计算,建立客户画像;基于话单数据进行社交亲密度计算,建立社交关系画像;基于APP 使用数据进行消费倾向计算,建立消费偏好画像。再基于三种画像构建的多维画像体系,依据忠诚度将商圈的消费者划分为忠诚消费者、非忠诚消费者。进行随机采样后,进行逻辑回归计算得到各个商圈的核心消费者特征。再根据特征建立随机森林,将全部的非忠诚消费者进行分类,将作为正例输出的消费者识别为潜在消费者。

3.2 客户画像

客户画像用于反应客户对商场的关注度、忠诚度。本文设计核心客户忠诚度指标,在运营商数据基础上描述某商场核心消费者的质量,从而提高以核心消费者为基础的潜在消费者识别的准确度。本文提出了忠诚度计算及迭代方法,以同时考虑消费者对商场访问程度相对核心消费者群整体的水平和消费者对商场的历史访问情况。

消费者的周访问总时长为t,周访问次数为n,则每周访问平均时长λ可以表示为:

显然λ≥0,为了根据数据分布得到更合理的估计,对λ作如下对数变换得到周访问度λln:

对所有消费者计算周访问度λln,计算得到λln的均值μλ和标准差σλ,则消费者x的周访问时长得分scoret,x和周访问次数得分scoren,x的计算公式如下:

这里需要说明的是scoren,x的取值原则是考虑消费者一周内1次长时间访问近似等效于3次短时间访问对忠诚度产生的影响。本周忠诚度得分Lx与上周忠诚度得分之间的迭代计算关系为:

综上,客户画像构成如表1所示。

表1 客户画像属性表

3.3 社交关系画像

社交关系的亲密程度高的两消费者更可能有着相似的生活水平和消费习惯。本文定义社交亲密度属性衡量消费者间的社交亲密程度,社交亲密度指特定双方消费者之间的亲密程度,以多种通话记录属性作为衡量基础。由于主要属性如通话时长、通话次数与消费者职业、所处社会环境有较大关联,不适合给定同一标准,故使用局部排名作为衡量依据。此处先介绍单向属性的计算,即以双方消费者中的一方作为研究对象,研究其主叫时长、主要次数等影响。

下文以消费者A与消费者B为例,以消费者A为研究对象介绍算法。对于主叫时长属性,定义平均主叫时长降序排名rankduravg,即消费者A 主叫消费者B 的通话平均时长在消费者A 的所有主叫通话平均时长中的排名。考虑到A 和B可能因为工作关系有较长的通话时间,为了降低此类影响,综合考虑通话的闲忙时段,参与排名计算的矫正通话时长calling'与原始通话时长calling之间的关系如下:

其中,busy为忙时通话时长,called为被叫时长,即消费者B主叫消费者A的通话时长。对于主叫次数属性,定义主叫次数降序排名rankcnt,即消费者A主叫消费者B的通话次数在消费者A的所有主叫通话次数中的排名。

此外,考虑到社交关系较近即社交亲密度较高的消费者间应该有较高的通话频率。定义通话密度排名rankdense,实现为对一个月内A到B的通话记录,在A的对端通话中先根据通话天数降序排序,再根据通话最长间隔天数升序排名的最终排名。为避免其中某一属性因特殊情况有较大偏差影响整体排名,做调和平均处理,获得消费者B 在消费者A 视角下的单向排名rankcalling,其计算公式如下:

同理可获得消费者A 在消费者B 视角下的单向排名rankcalled。则消费者A与消费者B的亲密度intsocial定义为:

由上述公式可知,intsocial取值越大,消费者间亲密度越强。由于排名均为大于1 的正数,故亲密度intsocial的取值范围为(0,1],当且仅当双方均在对方的社交圈中取得最高排名时亲密度达到最大值。

社交关系画像单方画像描绘社交网络中消费者个人的显著性与影响力,除上述社交影响力外,还应考虑:1)消费者的通话强度得分,即通话时长对数化后相对对数分布均值偏移量scorecall,time;2)消费者的通话频率得分,即通话次数对数化后相对对数分布均值偏移量scorecall,stren。这两种指标的通用计算方式如下:

上述公式为通用公式,metriccall指消费者通话的衡量指标,具体为通话时长或通话频率,metriclncall为对数化通话指标,μlncall与σlncall分别为metriclncall分布的均值与标准差,则scorecall即为最终得分。

综上,建立的社会关系画像如表2所示。

表2 社交关系画像属性表

3.4 消费偏好画像

消费偏好画像反映消费者的线上购物APP 使用行为和线下商场访问行为的特征,消费偏好画像的数据周期为7天。

图1 消费者画像构建与潜在消费者挖掘方法流程框架

3.4.1 线上消费偏好

线上消费偏好识别专注于分析消费者的消费类APP 使用状态变化,除常规消费频次、强度统计外,还关注近期消费类APP使用情况的变化量,作为衡量消费者短期线上消费意图的重要因素。

线上购物情况主要考虑某消费者使用购物类APP 的强度相对目标消费者整体使用情况的水平,以及消费者近期购物APP使用强度的变化程度。

本文分析先对消费者对于不同购物类APP 的使用情况在全体消费者下的水平进行评估,得到scoreapp评分,以避免结果向单一大流量APP 偏斜。考虑到不同消费者有一定的APP 使用偏好,故对不同购物类APP 的使用水平,即所有的取scoreapp评分最大值作为该消费者的购物类APP 使用强度scoreshopping。相关计算公式如下:

其中,flowapp表示消费者使用某一APP产生的流量,uapp和σapp为的flowlnapp分布均值和标准差。

通过上述公式变换,消费者对某一APP 未产生使用流量,则使用强度评分为0;若产生流量,则使用强度评分区间为[1,5]。此外,设计近期线上购物倾向属性,描述消费者近期购物类APP 使用情况的变化量。定义近期线上购物倾向△scoreshopping为本周与上周的购物类APP 使用强度差值,计算公式如下:

由于△scoreshopping与消费者APP 使用流flowapp之间存在对数关系,故△scoreshopping的实际意义为本周与上周购物类APP的流量使用增长率。

3.4.2 线下消费偏好

线下购物意图分析模型专注于分析消费者访问商场的状态及其变化,除在客户画像中获得的常规消费频次、强度统计外,关注近期访问商场时长变化量incrvisit,time、强度变化量incrvisit,stren,作为衡量消费者短期线下消费意图的重要因素。

定义近期线下消费倾向属性,取值为线下商场访问时长变化率。定义近期线下活跃倾向属性,取值为较前一周的目标消费者活跃度变化率。其统一计算公式如下:

其中,visit为本周线下消费倾向属性或线下活跃倾向属性。以visit为本周线下消费倾向属性为例,visit'表示上周线下消费倾向属性,则incrvisit即为线下商场访问时长变化率。综上,建立的消费偏好画像如表3所示。

表3 消费偏好画像属性表

3.5 算法说明

3.5.1 Logistics Regression

根据已经得到多维消费者画像,也即每个样本的特征,一个直观的想法是计算出各个商圈的忠诚客户的在不同特征上的范围或系数,作为区分商圈与识别忠诚消费者的依据。基于这种想法,考虑使用线性分类机器学习算法,基于Spark 平台的候选算法有Logistics Regression(逻辑回归)及SVM 模型。本文使用逻辑回归,根据构建的忠诚消费者簇特征,对各个商圈的消费者进行划分。

3.5.2 Random Forest

Random Forest即随机森林算法,是一种由若干决策树通过bagging 方式构成的继承算法,在很多应用中都有不错的表现。随机森林具有过拟合风险低、支持并行、支持高纬度特征、训练速度快等特点。本文使用随机森林,根据各个商圈的逻辑回归结果,对各个商圈的非忠诚消费者进行分类及预测,识别出潜在消费者。

4 数据分析与计算结果

4.1 数据说明

本研究与中国移动通信集团合作,以哈尔滨市区为核心,自2020年1月1日至2020年1月21日,搜集了152个大型商场辐射的400万的消费者的信令数据、话单数据、APP使用数据,如图2所示。数据包括脱敏的消费者个人特征及消费者的移动数据与上网数据,具体包括消费者的年龄、消费者各个时段的经纬度及各个时段的通信与流量去向。

图2 信令数据覆盖的商圈

4.2 数据的相关分析

由于本研究的目的包括评价消费者社交影响力等,对消费者通话记录较为敏感,故需要过滤特殊职业如外卖、快递、客服等产生的高频通话记录。

图3 平均通话时长对数分布

图4 一分钟内通话次数对数分布

根据上述分析,在系统实现时,对于平均通话时长、一分钟内通话次数使用4σ过滤标准。为了提高识别准确度,本文进一步约束在该距离外的消费者样本同时满足通话次数分布在1σ距离外时,才作为离群点过滤。对于其余属性,使用3σ过滤标准,即认为该距离外的消费者样本为离群点,并过滤。

图5以购物类APP流量使用为例,统计了所有目标消费者在2020年1月1日至2020年1月7日的主要购物类APP中所使用的流量随时间的分布图。

图5 购物类APP不同时段流量分布图

由曲线可以看出,不同APP的流量使用在整体上均呈现晚上至睡前时间段达到高峰,而在白天尤其是工作时间段水平较低。这说明通过对消费者APP 使用的活跃时段可以在一定程度上描绘消费者的生活习惯。而从表4中可以看出,不同的购物类APP的流量使用存在较大差异,在进行APP使用强度统计时,需进行归一化处理。

表4 购物类APP人均流量使用统计

男性和女性有着天然的偏好差异,但从图6中可以明显看出,对于商圈涉及的消费者而言,不同性别的消费者的年龄分布极为相似,因此在构建商圈的消费者画像时,仅考虑年龄,而不进行性别区分,也是合理的。

图6 商圈消费者性别年龄分布图

4.3 计算结果与分析

样本数据的忠诚消费者类由忠诚度前60%的高质量核心客户组成,实际忠诚度阈值约为3.0。为了提升训练效率,本研究对总数据进行了随机采样,最终得到训练样本数据组成如表5所示。

表5 样本数据的组成

本文基于Spark框架spark-mllib模块实现分布式模型训练。将训练数据随机划分为80%的训练集和20%的测试集。模型的最大迭代次数为100次,误差容忍度为1e-6,采用L2 正则化。在采用L2 正则化的情况下,模型效果在较低程度上受正则化系数影响,经测试在正则化系数为0.5 的情况下达到局部最优效果。模型在测试集上取得的效果评价如表6所示。

表6 Logistic Regression模型评价

图8和图9展示了基分类器个数和最大树深度对模型效果的影响。基分类器模型数量对模型性能影响不明显,考虑到模型更关注召回率指标,故确定模型基分类器数量参数为40 个。由于运行环境资源限制,最多测试到最大树深为14层,为避免深度过大导致过拟合,确定模型最大树深度参数为14层。

图7 基分类器数量对模型的影响

图8 最大树深度对模型的影响

图9 预测标签结果组成

根据上述结果,模型最终在测试集上取得了94.1%的精确率,其他评价指标得分见表7。

表7 随机森林模型评价

4.4 识别效果与讨论

本研究最终采用随机森林分类预测算法模型作为识别潜在消费者算法。用该模型对全部约113万不属于忠诚消费者群的消费者进行预测,共得到正例64879人作为潜在消费者。预测结果的标签组成如图10所示。

图10 预测概率分布

注意到随机森林分类需要对概率阈值进行设置,默认为0.5,则不同阈值下的正例人数分布如图11 所示。可见随概率的增加区间内人数加速减少,在以识别潜在消费者人数最大为目标时,默认概率是最佳的选择。

图11 社交关系对识别结果的影响

既有研究认为社会关系接近的消费者相似度大,进而更有可能属于同一类人群。基于本研究构建的方法,社交关系对识别结果的影响如图12所示。结果显示,在识别出的潜在消费者中仅4%的消费者与其他潜在消费者有紧密的社交关系,也即任意一个潜在消费者,其关系紧密的朋友中有一个也为潜在消费者的概率低于0.05。社交关系对潜在消费者没有预测性。

图12 到访记录对识别结果的影响

同一商圈,相对于既有的忠诚消费者,识别出的潜在消费者虽然与既有消费者在画像上具有高相似度,但很有可能由于居住地点与该商圈相距过远等客观因素的约束,因而并不会去该商圈消费。根据识别结果,统计识别出的商圈潜在消费者有无到该商圈的历史到访记录,结果如图13所示。约38%的潜在消费者,有到访目标商圈的记录,即接近40%的潜在消费者没有客观条件约束。这意味着约4成的潜在消费者,能转化为忠诚消费者。

5 结语

大数据背景下,如何寻找到数据源,从新的视角解决传统场景中的难题是当前的研究热点。其中,利用大数据进行精准营销,被广泛证实是可行的。但如何获取数据源,并在处理分析中保证消费者的隐私,也是难点之一。本研究尝试与中国移动通信集团合作,获取匿名处理后的消费者信令数据、话单数据、APP 使用数据。通过对商圈到访消费者建立客户画像、社交关系、消费倾向的多维画像体系,帮助商圈识别忠诚消费者;并利用逻辑回归与随机森林方法,帮助商圈识别忠诚消费者的特征及识别潜在消费者。根据计算结果,本研究提出的消费者画像构建与潜在消费者识别方法准确度较高,潜在消费者识别准确度为94.1%。通过识别结果的讨论发现,基于通话记录构建的社交关系对识别潜在消费者帮助极低,潜在消费者之间的社交关系并不强;商圈约有38%的潜在消费者有到访记录,但超过半数的潜在消费者由于各种原因没有到访过该商圈。本研究的意义在于利于大数据突破了商圈传统的营销手段,能帮助商圈快速且准确地掌握忠诚消费者的画像特征,并找到一大批潜在的消费者,不仅提高了营销效率,还增加线下商圈面对线上购物平台的竞争力,同时丰富了利用大数据进行精准营销的研究。

本研究的特点在于使用了与既有研究不相同的数据集,并用于新领域;构建了多维度的消费者画像,用于精准营销。基于本文的研究成果,未来可以对识别效果的影响因素进行探索与规律验证,并讨论不同算法在识别潜在消费者的准确度方面的表现,进一步提升营销的准确度。

猜你喜欢
商圈通话画像
威猛的画像
微信上小额借款 请务必通话确认
打造世界级文旅窗口 构建千亿级黄金商圈
机器学习在商圈运用管理中的应用
画像
《戊戌元日与友人通话》
画像
商圈调查的方法与技巧
潜行与画像
3G视频通话技术获飞跃