室内位置轨迹的聚类与可视化

2019-06-05 07:51袁德宝王炳灵周士强
测绘通报 2019年5期
关键词:邻域楼层商场

袁德宝,王炳灵,闫 瑜,周士强,梁 晨

(中国矿业大学(北京)地球科学与测绘工程学院,北京 100083)

如今,无线射频识别技术、蓝牙、无线局域网络等定位技术极速发展,满足室内位置高精度定位的要求,因而常用于室内定位[1]。

轨迹数据是人类移动行为的表征,能够映射出人的出行模式和社会属性等信息。如何有效挖掘轨迹数据蕴藏的人类活动规律一直是研究的热点。通过轨迹聚类发现行为相似的类簇,从而探究群体的移动模式是轨迹挖掘和深度应用常见的方法之一[2]。

室内移动对象轨迹数据分析采用相关算法对预处理后的对象轨迹数据进行聚类,提取对象轨迹数据中的相似性和异常性,有助于发现用户感兴趣的区域,完成用户个性化推荐服务[3]。室内移动对象轨迹数据分析也能够发掘物体移动方式的空间散布和时间特征,对于认识运动的形成机制,预测运动的未来发展具有重要的意义。

目前,许多著名的聚类算法如K-means、BIRCH、DBCSAN(density-based spatial clustering of applications with noise)、OPTICS、STING等[4]已被用于轨迹聚类。文献[5]首次将时间依赖关系引入轨迹分析中。文献[6]用场表达轨迹,通过格网内的轨迹密度划分出活跃区域。文献[5]对轨迹分段并将速度等要素引入轨迹段间的相似度计算。文献[7]用矢量线表达完整轨迹,通过历史数据建立回归模型,计算轨迹和模型间的相似性,进而聚类得到移动模式。文献[8]提出了路网空间下的基于密度的轨迹聚类方法。本文利用DBSCAN算法对某商场大厦的室内轨迹数据进行聚类分析,得到关于进入商场大厦的人员的习惯特征分析,同时对轨迹数据进行热度图可视化展示,以验证聚类分析结果。

1 基于DBSCAN聚类方法的室内轨迹分析

1.1 DBSCAN聚类算法

1996年,Martin Ester等提出了一种基于密度的空间聚类算法DBSCAN。该算法将具有高密度的区域划分为簇,并在具有噪声的数据中聚类成簇。DBSCAN算法以空间两点间的直线距离和最小点数为标准进行聚类的二维空间聚类方法,它可以通过计算点的密度将集合中的点分为核心点、边界点和噪声点,当二维空间中点密度超过一定阈值时,就认为这些点是一个集簇。在此基础上,对所有点进行空间聚类。

如图1所示,假定领域密度阈值(MinPts)为6,R为图中圆半径长度。则根据定义,图上点C在R邻域内共有7个邻点,大于MinPts,为核心点;点B在R邻域内共有5个邻点,小于MinPts,不是核心点,但其在核心点C的邻域范围内,是边界点;点N在R邻域内的邻点数为0,因此不是核心点,同时也不在核心点的邻域范围内,属于噪声点。其中,对象p的R领域是以对象p为中心、R为半径的空间,参数R>0,是用户指定每个对象的领域半径值;MinPts为对象R领域的对象数量;核心点为在领域半径R内含有超过MinPts数目的点;边界点为落在核心点的邻域内,且领域半径R内点的数量小于MinPts;噪音点定义为既不是核心点也不是边界点的点。聚类算法具体流程如图2所示。

1.2 聚类分析内容

1.2.1 数据采集

本文的数据源为某商场采集的1 d内基于手机WiFi信息的室内位置数据。对这些数据进行预处理,剔除由于手机WiFi信号的不稳定导致位置冗余的数据及逻辑上明显的错误数据,选用质量优良的有效轨迹454条。另外,本文使用的楼层数据共10层,其中地上8层,地下2层。

1.2.2 轨迹聚类分析

用户的停留点是用户轨迹最重要的特征之一,它隐含了丰富的空间结构信息和行为规律信息。对室内人员的停留点加以分析挖掘,能够得到极具价值的室内人员行为特征规律。本文选择DBSCAN算法作为提取轨迹停留点的基础算法。图3是对轨迹数据聚类后的结果。

1.2.3 聚类结果分析

1.2.3.1 DBSCAN聚类算法的结果分析

本文将DBSCAN聚类算法应用到室内人员轨迹分析中,对质量优良的454条有效轨迹提取的各楼层商铺进行聚类。图4仅展示了部分轨迹路径,箭头表示轨迹的方向。图中圆点表示轨迹聚类中心,聚类中心是由聚类效果图与楼层图层的对比及轨迹路径图获得的。

1.2.3.2 个人行为特征提取

通过对个人轨迹信息进行整理、数理统计,并结合人们的生活行为规律和商场店铺的性质,能够得到个体的行为特征规律。如对MAC地址为E84E844118D4的客户轨迹信息进行统计发现,该客户在9:01—13:52时间段,轨迹信号一直停留在商场6层的港丽餐厅,由此可以推断该人员是港丽餐厅的服务人员。对MAC地址为E88D28E33487的客户轨迹位置统计整理,表1为该客户在15:38—16:25时间段经过的店铺,由此可知该客户为女性,且消费水平处于较高程度。

表1 E88D28E33487客户途径商店

1.2.3.3 群体行为特征提取

运用DBSCAN算法,对选用质量优良的454条有效轨迹提取的各楼层位置信息进行批量分析,本文针对室内人员感兴趣的几个区域,对部分停留点信息进行数理统计与归纳,整理结果如表2和图5所示。

表2 各楼层热点区域出现频数

根据表2与图5中展示的统计数据信息,得到该商场室内人员群体行为特征规律如下:

(1) 商场6层的聚类中心较多,且6层大部分商铺属性为餐厅、甜点等类型。由此判断相比其他消费方面,人们对于吃饭方面的关注与消费是很高的。

(2) 地下2层人员来往程度较高,其中地下2层聚类中心有发型店和服装店,判断人员对于自己的容貌方面也是比较重视的。另外也反映出,这几处发型店与服装店服务态度及消费价格是公道合理的。

(3) 商场5层的聚类中心有手机广场和中国移动营业厅,说明客户购买手机、置办或更换手机套餐服务的频率是较高的。

(4) 商场8层比其他楼层人员来往得少,尽管也有较多的餐厅服务店,推断可能由于楼层太高或商店不出名等原因,人员更喜欢去方便、好评度高的地方就餐。

2 轨迹可视化展示

2.1 热度图

热度图是以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区,以显示不可点击区域发生的事。通过热度图可以简单地聚合大量数据,并使用一种渐进的色带表现,效果一般优于离散点的直接显示,可以很直观地展现空间数据的疏密程度或频率高低。

热度图是通过ArcGIS API for JavaScript实现的,其中,需要采用的数据是ArcGIS对某楼层图层的地图发布服务和渔网图采集到的该楼层各商店轨迹坐标信息数据。ArcGIS API for JavaScript首先定义一个map底图,引用楼层图层地图发布服务的URL地址,实现楼层数据在浏览器中的表达;然后定义一个heatmap,其中heatmap的data数据需要覆盖店铺且能代表店铺位置的渔网网格中心点坐标作为热点中心,渔网图采集的轨迹信息数目作为热点中心的count值;加载以后,在浏览器实现map与heatmap的叠加,展示热度图。

2.2 热度图展示

热度图通过多个热点中心(覆盖店铺且能代表店铺位置的渔网网格中心点)的颜色深浅来展现室内人员轨迹的密度情况,可以反映哪些商铺吸引了大多数访客的注意,直观地表达各楼层商店的人员轨迹密集情况,结合日常生活中人们的生活规律与兴趣及店铺相应的属性信息推测店铺的销售情况,获得个人、群体行为特征,为市场调查、研究等领域提供参考的依据。图6为实现的热度图展示。

3 结 语

本文基于当前已有的轨迹研究服务成果,利用DBSCAN聚类算法实现轨迹数据的聚类,并对聚类结果进行分析,得到群体行为特征信息;同时对室内位置信息进行热度图展示,进一步验证聚类结果。然而,由于DBSCAN算法自身的缺陷和本文数据预处理的不确定性,导致聚类结果与真实情况存在偏差,DBSCAN聚类只是考虑点与点之间的空间关系,而没有考虑点与点之间的时间关系,但在实际情况中,空间上相邻的点在时间上不一定相邻。如何获取更高质量的用户轨迹数据,并对其进行更加有效的处理分析,将是下一步的研究方向。

猜你喜欢
邻域楼层商场
基于混合变邻域的自动化滴灌轮灌分组算法
奶奶做的“楼层儿”
楼层
含例邻域逻辑的萨奎斯特对应理论
融合t-分布随机邻域嵌入与自动谱聚类的脑功能精细分区方法
脏物是如何被带出商场的
电梯的升与降
香港ifc商场 本季好FUN乐
香港ifc商场
邻域平均法对矢量图平滑处理