用户偏好预测模型研究与用户画像标签应用

2020-03-16 02:31尹健康梁筱雨刘志陆梓祺

电子技术与软件工程 2020年24期

尹健康梁筱雨刘志陆梓祺

（1.四川省成都市烟草专卖局（公司）四川省成都市 610000 2.云南中烟工业有限责任公司营销中心云南省昆明市 650000）

1 第三方群体用户画像

1.1 用户画像

阿兰康博（Alan cooper）为了解决用户分类如何从抽象数据转化为可视化的形象数据的过程，提出了用户画像的工具。用户画像方式非常符合大数据与商业结合后的需求，能够将采集来的海量用户数据进行分类研究，在个性化推荐、精准营销、商业决策等领域被广泛应用[1]。

1.2 第三方群体用户画像

一般认为第三方群体用户一般是从网络社交平台衍生而来，通过与微博、微信、QQ、脸书、YouTube 等的商业化合作，将第三方用户与合作企业的数据在合理、合法、合规的前提下进行整合[2]。

2 用户画像标签类型概述

2.1 基础属性

某卷烟企业第三方群体平台中提取的基础数据包括：人口属性和人生状态、生活工作、活动范围等等。人口属性：性别、年龄、学历；人生状态：育儿、恋爱、怀孕、备孕、新婚；生活工作：工作习惯、交通出行、行业；活动范围：常住地、家乡[3]。如表1 所示。

2.2 移动通信设备属性

某卷烟企业第三方群体平台中提取的移动通信设备属性数据包括：品牌、机型、上市时间、设备价格、运营商。如表2 所示。

2.3 垂直行业

某卷烟企业第三方群体平台中提取的垂直行业属性数据包括：游戏：棋牌类、竞技类、休闲类；金融：借贷、投资理财、彩票、保险。如表3 所示。

2.4 财富属性

某卷烟企业第三方群体平台中提取的财富属性数据包括：房：租房、买房、潜在购房；车：潜在购车、维修保养、驾照考试、二手车、车险、租车。如表4 所示。

2.5 兴趣爱好

某卷烟企业第三方群体平台中提取的兴趣爱好属性数据包括：旅游、游戏、金融、教育、餐饮、医疗健康。如表5 所示。

3 基于用户画像的用户卷烟偏好预测算法模型

3.1 TF-IDF算法

所谓词频（term frequency）即在第三方群体所在平台，依法依规收集来的文档中某一个词语在其中产生的次数，一般被简称为TF。与此同时，为了便于计算，通过归一化处理后，词频也被解释为出现的频率。依据有关文献所述，词语的价值与其所在文档出现频率正向相关，与此同时，词语的价值与其所在语料库出现频率负向相关。在在第三方群体平台环境下，借助上述规律，词频往往被用来做为提取文本中有代表性的关键词的依据。

逆向文档频率在通用的语言环境中普遍统计相关词汇，得到的某个特定词语的普遍性价值，一般被简称为IDF。

上述两者被组合称为TF-IDF 方法。该方法通过量化的方式评估某个特定词语在文档中的价值（有时也会被拓展，用来评估某个特定文档在语料库中的价值）。

（1）计算TF。

表1：消费者画像标签类型中的基础属性

表2：消费者画像标签类型中的移动通信设备属性

表3：消费者画像标签类型中的垂直行业属性

如上公式所示，为计算TF 的基本依据，TFi,j代表的是某个词语ti在文档dj中的出现频率。与此同时，代表的是k 个词语在文档dj中出现的频次的累加值。

（2）计算IDF。

如上公式所示，为计算IDF 的基本依据，ti在文档dj中的逆向文档频率为IDFi。

（3）计算TF-IDF。

词语在某个特定文档的高频出现也可以带来高权重的文档区分能力。综合二者，将其结合在一起，即可得到高权重的TF-IDF 算法值。这样做的优势在于，通过计算可以将普通词语进行过滤，而保留了具有代表性的词语。

表5：消费者画像标签类型中的兴趣爱好属性

3.2 用户卷烟偏好预测算法模型

在第三方群体平台中，现在假设存在一个用户卷烟偏好分析群体对象，现在假设为以此来表达用户卷烟偏好分析群体对象相关的第三方群体的数量为n。同时假设基于TF-IDF 算法提取出来的第三方群体消费数据，将某卷烟企业的用户卷烟偏好分析群体对象的卷烟产品类别也为m 个，并表示为符合TF-IDF 算法用户画像要求的将用户卷烟偏好分析群体对象中的文档属性定义为Du，将用户卷烟偏好分析群体对象中的文本信息定义为Tu，将用户卷烟偏好分析群体对象中的用户交互行为定义为Iu。

在第三方群体平台中，用户卷烟偏好分析群体对象的基础属性、移动通信设备属性、垂直行业、财富属性、兴趣爱好等均被吸纳进来。以性别为例，男性用户对卷烟类产品有更为强烈的偏好。由上述用户画像标签类型概述可知，在第三方群体用户画像过程中，面临的数据基本性质为数值型、布尔型、字符型和时间型数据等。

3.2.1 字符型数据的用户卷烟偏好预测算法的计算模型

字符型数据依照TF-IDF 算法的提取方式，因此，在基础属性下，借助TF-DIF 算法计算出用户卷烟偏好分析群体对象中的权重，然后设计基于用户画像的用户卷烟偏好预测算法的计算模型如下。

其中，B(uj,ci)代表的是用户卷烟偏好分析群体对象中的用户uj是否具有ci权重，M 是uj所拥有的用户画像标签类型总数，w(ci)代表的是用户卷烟偏好分析群体对象中的权重。

3.2.2 布尔型数据的用户卷烟偏好预测算法的计算模型

布尔型数据依照高斯分布计算公式，来计算某卷烟公司的第三方群体的目标用户与某卷烟公司的第三方群体的训练用户之间的距离，然后设计基于用户画像的用户卷烟偏好预测算法的计算模型如下。

3.2.3 文本型数据的用户卷烟偏好预测算法的计算模型

文本型数据依照相似度计算公式，来计算某卷烟公司的第三方群体的目标用户与某卷烟公司的第三方群体的训练用户之间的距离，然后设计基于用户画像的用户卷烟偏好预测算法的计算模型如下。

其中，sim(T,Ti)为相似度计算方程，T 为TF-IDF 算法中的(TF-IDF)的值。

3.2.4 加权组合

如上述公式所示，PD(u,ci)为某卷烟公司在第三方群体平台中采集后数据的处理结果，也就是，基于用户画像的用户卷烟偏好预测算法的最终计算值。

各种类型数据的用户卷烟偏好预测算法组合在一起后，组合计算模型具体的计算过程如下。

输入：采集来的某卷烟公司的第三方群体用户文档属性数据。

输出：预测某卷烟公司的第三方群体用户卷烟偏好值。

第一步：构建某卷烟公司的第三方群体的用户画像。

第二步：计算某卷烟公司的第三方群体的相似度。

第三步：采用加权平均的方式，计算某卷烟公司的第三方群体的类别偏好值。

4 结束语

通过研究发现，在卷烟企业中，还没有一套成熟的用户偏好预测模型并且缺乏有效的用户画像标签分类方式。本文通过探索互联网精准营销的实现路径，结合某卷烟企业的精准营销实践，在合理、合法、合规基础上，搭建基于用户画像的用户卷烟偏好预测模型。本文提出了一种新的基于第三方群体的用户卷烟偏好预测模型，并且应用到卷烟企业的第三方群体平台，借助文档属性构建卷烟用户画像，并应用用户画像标签进行具体的分析。在本文提出的新算法中，借助TF-IDF 方法可以有效预测用户对卷烟的情感倾向。