区域用户价值模型研究与LBS数据应用

2020-03-16 02:31马宗泽赵涛刘海涛蒲雪松
电子技术与软件工程 2020年24期
关键词:生活型画像来源

马宗泽 赵涛 刘海涛 蒲雪松

(云南中烟工业有限责任公司营销中心 云南省昆明市 650000)

1 基于移动终端的LBS定位技术

LBS 又被称为移动位置服务,是一种依托于GPS、Wi-Fi、基站等定位技术,并结合移动终端内置的加速度计、陀螺仪和芯片等用户采集用户位置信息的新型技术,其英文通用表达方式为“Location Based Services”。

LBS 定位技术在时间和空间的商业化配置中起到了高价值信息提供方的角色,能够为企业提供精准营销数据,能够将散落在时空中的历史消费者关联起来,为企业提供物理空间中识别和跟踪的各种对象和库存。因此,本文的研究课题“区域用户价值模型研究与LBS 数据应用”是非常具有商业价值的。

2 用户群体画像的数据基础

人群画像标签的数据基础包括如以下标签:性别、年龄、学历、常住地省份、常住地城市、常住地区县、家乡地省份、家乡地城市、子女年龄、人生阶段、是否有车、消费水平、居住社区价格等级、居住社区房价、通勤方式、差旅常客、旅游距离、出国游、旅游目的地(中国、内地、境外)、到访偏好(购物、娱乐休闲、运动健身、汽车、医疗保健、酒店宾馆、教育学校、美食、基础设施)、APP 偏好(健康、出行、办公、娱乐、工具、摄影、教育、旅游、游戏、理财、生活、社交、系统、美化、视频、购物、通讯、阅读、音乐),手机品牌、手机价格。

3 区域内位置数据采集

3.1 定位数据采集

区域内位置数据采集包括基站定位、GPS 定位、WIFI 定位等方式。在移动终端GPS 芯片、加速度计、陀螺仪等功能模块的辅助下实现定位数据的采集。

以GPS 定位数据采集为例,借助定位芯片模块,LBS 定位可以实现出行时间、位置坐标、出行速度等数据的采集;在GPS 定位的辅助下,商业化的出行数据的定位精度一般在10-20m 之间,有的商业化软件可以提供3-5m 的定位精度服务。

3.2 标签数据采集

为了便于区域人群分析,标签数据采集的主要内容包括常驻人口结构数据、人群分布热力数据、人口居住地数据等等。这些数据往往都是与智慧城市相关联,依靠第三方进行提供的。与此同时,还需要采集小时级区域人群分布热力、人口城市级空间分布热力等相关数据。这些数据一般是通过APP 等提供的定位服务数据。在此类数据采集的过程中,需要依法依规在用户同意的前提下合理采集。

由于目前“人群画像”在智慧城市中的应用还没有一个完整的、成熟的、大众认可的案例,因此,现在的“人群画像”还在探索与可行性分析阶段。人群画像的基础就是白起数据的采集。在LBS数据的辅助下,人群行为科学、合法的采集首先就是一个难关。其次,如何在全周期内采集到完整的人群数据,并依靠智慧城市等相关平台进行空间数据的清洗也是比较困难的。此外,对于时空行为来说,可测度性毋庸置疑,但是它们的数据特征还具有异化特征。因此如何将人群行为与时空数据进行异化特征的匹配也还在探索阶段。综合上述三大难点,可以知道,标签数据的采集要充分认识到时空数据异化特征,并顾全人群行为异化特征,充分将标签数据采集,并集中表达在城市的空间效益之上。唯有如此,才能采集到有效的标签数据,进而进行人群画像。

表1:基于时间节奏的数据预处理

表2:基于时间节奏的数据预处理

4 基于区域用户画像并可用于评估用户价值的算法模型

时空行为本身包含了时间、空间、行为三个层次的内容。本文以2020年的一个选定的时间窗口(9月3日-12月3日),JY 企业APP 用户在WH 市的CBD 及周边地区的定位数据为依据,构建模型如下。

4.1 模型时间节奏数据预处理

时间节奏是指城市人群在时间维度下的明显行为变化的度量,如表1 所示。

在表1 中,需要说明的是,从时间上,本文将“居住行为”定义为夜间定位集中的地点活动时间大于6 小时。

4.2 模型空间维度数据预处理

从WH 市的实际情况出发,为了简化本文的讨论,本文将研究区域控制在WH 市CBD 及周边,并以CBD 为中心划分为四个区域(表2)。出于讨论的需要,将四个区的范围,以距离为依据进行细分:0-3km 为金融中心区,3-6km 为配套服务区、6-10km 为生活区、>10km 为运动休闲区,如表2 所示。

表3:行为模式数据预处理

表4:区域内人群谱系

4.3 模型行为模式数据预处理

在本文的实际数据中汇总发现,存在13 种较为典型的生活和工作方式,分别为家庭生活型、单一经济来源型、单一生活方式型、潮汐生活型、双份经济来源型(上午)、两点一线生活服务型、双份经济来源型、双份经济来源型(下午)、夜生活休闲型、双份经济来源型(中午)、单一经济来源型(上午)、夜班工作型、单一经济来源型(中午不休)等等,如表3 所示。

4.4 构建谱系

通过以上的数据预处理,为了便于对WH 市的人群画像,结合空间分布、时间节奏和行为三维度,本文将WH 市的人群画像谱系进行分解。金融中心区-足不出户-家庭生活型;近郊-足不出户-家庭生活型;配套服务区-足不出户-家庭生活型;远郊-朝九晚五-单一经济来源型;近郊-朝九晚五-单一经济来源型;近郊-早出晚归-单一经济来源型;远郊-早出晚归-两点一线型;配套服务区-朝九晚五-单一经济来源型;金融中心区-朝九晚五-单一经济来源型;金融中心区-足不出户-单一生活方式型;远郊-早归晚出-单一经济来源型;金融中心区-足不出户-单一经济来源型;配套服务区-早出晚归-单一经济来源型。从中不难看出,双份经济来源型、家庭生活型和单一经济来源型占比较多。

如表4 所示,人群谱系的构建可以对城市人群进行标签划分,进而实现人群在三维度上的画像,以有利于评估用户价值算法模型的构造。与此同时,通过谱系的刻画,WH 城市被何种人群使用,人群到底是趋于异化还是趋于同化,从业者的行为规律与职业规划等问题均可以得到印证。

4.5 评估用户价值算法模型

本次研究使用选用ST-DBSCAN 聚类算法进行WH 市LBS 数据停留点的识别,其中控制因素为时间和空间两个因素。

ST-DBSCAN 算法的逻辑如下:

(1)将距离阈值设置为S 米,最小时间定位M 秒;

(2)在时间序列中,依据距离阈值判断对轨迹点On 与下一个轨迹点On+1 是否满足阈值限制;

(3)将步骤(2)得到的所有轨迹点On 到On+m 依据经典DBSCAN 算法步骤进行聚类。

(4)从轨迹点On+m+1 开始,重复步骤(2)与步骤(3),遍历所有轨迹点,识别出所有的行为点。

5 结束语

在综合分析相关文献的基础上,本文发现“区域用户价值模型研究与LBS 数据应用”的相关研究还很薄弱,缺乏相关的理论探索。鉴于此,本文依据移动终端LBS 定位技术的特点,综合分析JY 企业APP 用户在WH 市的CBD 及周边地区的定位数据特征,提出了基于区域用户画像并可用于评估用户价值的算法模型,并解决了如何科学地评估用户价值的问题。

猜你喜欢
生活型画像来源
威猛的画像
将来吃鱼不用调刺啦
“00后”画像
画像
试论《说文》“丵”字的来源
宽阔水国家级自然保护区珙桐群落特征及演替趋势分析
潜行与画像
关于『座上客常满;樽中酒不空』的来源