基于手机时空数据的用户画像构建方法

2021-10-18 00:31汪洋姚伟娜沈广才杨明
电脑知识与技术 2021年26期
关键词:行为分析

汪洋 姚伟娜 沈广才 杨明

摘要:手机信号中包含实时定位时空信息,这些移动时空数据中包含了丰富的时空特征和行为信息,通过对时空数据进行分析和处理,可有效挖掘人类活动规律与行为特征,实现用户画像,为个性化推荐、突发事件预防、城市计算提供必要基础。本文提出了基于手机移动时空信息的用户画像框架,着重介绍了对于关键技术如停留点与停留区检测、重要位置识别、位置语义分析、用户行为分析等的实现方法,对系统中的隐私保护问题、数据精度与识别准确性等问题也给出了进一步的意见。

關键词:时空数据处理;停留点;停留点聚类;轨迹模式;重要地点识别;行为分析

中图分类号:TP18       文献标识码:A

文章编号:1009-3044(2021)26-0098-03

开放科学(资源服务)标识码(OSID):

1 引言

随着移动互联网、位置服务等技术的高速发展以及移动设备的普及,产生了海量的时空数据。在用户时空数据中包含了丰富的时空特征和行为信息,通过对时空数据语义的处理和分析,可以挖掘人类活动规律与行为特征、城市车辆移动特征、用户行为喜好特征等有用信息,对于提升社会工作效率、提前预测并防范突发事件有着关键作用。基于时空数据的用户画像已经在许多领域得到了应用,用户画像方法不仅应用于电子商务和内容推送领域,在人才评价、旅游服务[3]、在线评价[4]、社交[5]甚至于刑侦等多个领域发挥着重大作用。

移动通信网络能够定期或不定期地主动或被动地记录手机用户时间线的基站编号,手机等移动终端收集到的定位数据可以来自移动通信网络、Wi-Fi接入点位置信息等,记录了移动对象的位置、时间、速度和方向等行为特征。移动终端通过对不同基站下行导频信号(电信网内为测量或监控的目的而发送的信号)进行测量,得到不同基站下行导频的参考信号强度和到达时间。依据该测量结果以及基站的坐标,便能计算出移动终端所在的位置信息。此外,OTT 定位指基于App软件获取用户的位置信息,依托互联网应用向海量用户提供的定位服务。通过 LTE网络S1-U 接口(即基站与分组核心网之间的通讯接口)中的数据解析提取出用户位置服务的经纬度信息,并利用用户标识以及此时刻的MR(移动通信)数据进行关联,并利用特定算法实现MR(移动通信)数据更高精度的定位。

时空数据一般来都具有时空序列性、异频采样性、数据质量较差等的特点。汪倩等人对用户画像实现流程和用户画像应用进行了综述。用户画像实现除了简单通过统计数据的方法实现外,还常运用基于向量空间模型的方法、基于潜在Dirichlet 主题模型的方法、基于贝叶斯网络的方法、基于本体(Ontology)的方法、基于神经网络的方法等来建模。高强等人[7]对于轨迹数据预处理方法以及噪音滤波、轨迹压缩等方法进行了归纳和总结,介绍了目前轨迹数据处理中所使用的核心算法。

基于手机时空数据的用户画像构建方法是通过对用户所产生的移动时空数据进行深度挖掘和剖析,通过检测算法实现停留点的检测再对用户停留点语义进行理解和发掘并寻找用户停留点间语义联系,从而达到对用户潜在属性(交通工具、频繁模式、周期模式等行为分析)和行为模式的发掘。实现用户重要地点识别(家,单位,其他重要场所),实现推荐服务、位置服务和用户画像分析的应用。

2 画像构建框架和基本步骤

用户画像是通过借用已经分析出的用户日轨迹、重要停留点、用户个性化行为和行为规律等重要信息的分析,来实现对用户属性、偏好、行为和生活规律的分析,形成对用户的基础认识。要刻画一个人物画像,要了解其的生活规律,习惯,爱好,性格,而这些可以通过对用户停留点语义的分析实现。

基于时空数据的画像构建思想和框架如图1,基本步骤包括动时空数据预处理、停留点检测、停留区识别、重要位置识别与语义理解、用户行为分析等。保证数据的准确性、完整性、可信性和可解释性,是后续处理的基础。经过预处理的时空信息是按时间序列组成的位置序列,这些时空信息包含用户的运动和停留轨迹,其中的停留点具有丰富的信息,因此需要将时空数据中的停留点检测出来。用户的停留点并不局限一个点,有些停留点彼此靠近,形成停留区域,停留区不仅可合并停留点数目,减少处理信息,还能提高位置语义理解精确度。许多停留区如家、工作单位具有很明显的时空特征,很容易借助算法从停留区中识别出来。识别出的位置信息通常只是具体的地理位置信息,还需要结合地图或导航进行具体位置语义解析和翻译,通过语义信息分析可以获取用户的相关信息。在用户行为分析中,还可以借助时空数据中的时间信息获得用户的活动轨迹图,利用日期信息获得用户获得的频率和周期信息,利用合适的数据挖掘方法获得用户的行为信息,从而构建出用户画像。

3 关键步骤的处理与算法实现

3.1 数据预处理

数据预处理阶段主要完成对数据进行缺失值填补、噪点消除和分类提取。将缺失值以其他同类型的特定字符进行替代。

预处理后的数据主要包括用户编号、时间、经度、维度等有价值信息。并将数据按照用户和日期进行划分和提取,将同一用户同一天的数据单独提取和存储,以便于在停留点检测时不会因为数据的原因而无法达到预期效果。预处理后数据效果如图2。

3.2停留点检测算法

由于时空数据包含着该数据点采集的时间和数据点的经纬度信息等,所以我们可以通过对数据点间的距离和时间差的限制来实现停留点的检测和初步筛选。基本方法是通过定义一段时间内移动距离不超过特定值的点即为停留点。

停留点算法思想,参数含义以及参数设置及影响。

输入:预处理后的数据集,停留点时间限,停留点距离限

输出:停留点集合 sp={s}

i=0,pointNumber=len(G),sp_ID = 0

猜你喜欢
行为分析
基于远程教育的用户行为分析研究
基于K?均值与AGNES聚类算法的校园网行为分析系统研究
基于北斗卫星导航的罪犯行为分析方法
手机上网用户行为分析与研究
金融经济中的金融套利行为分析及若干研究
公开课与常态课学生学习心理和行为的表现分析
政府俘获行为过程分析及对抗策略