基于改进Apriori算法的大数据AR挖掘仿真

2023-09-04 14:36王仕佐
计算机仿真 2023年7期
关键词:项集数据处理数据挖掘

徐 强,王仕佐

(1. 贵州民族大学,贵州 贵阳 550025;2. 贵州大学,贵州 贵阳 550025)

1 引言

在大数据技术与互联网技术快速发展的背景下,各种类型的数据呈现出爆炸式的增长。以往普遍使用的基于Hadoop和关系数据库的数据关联规则挖掘方法虽然能够实现数据挖掘,但是现有方法普遍存在数据挖掘结果准确率不高的问题,并且由于用户对数据需求的不断提升,导致现有数据处理平台在为用户提供服务的过程中对信息的处理需要花费大量时间[1]。为此需要充分考虑数据特点与用户需求,设计能够适应数据发展特点的,用户满意度高的数据关联规则挖掘方法。

目前,旅游业已经迈入数字化、智慧化的全新时代[2]。全域旅游智慧化建设概念将旅游信息采集与宣传、系统开发、运营管理等功能结为一体[3],以数字信息化技术为核心提升区域旅游业智慧化水平,为区域旅游业的发展提供了一体化、智慧化、数字化的发展方向[4]。在上述背景下,会产生大量的游客数据、景点数据以及旅游区交通大数据等,因此,本文以旅游领域的数据为对象,为了解决上述传统方法存在的问题,提出一种基于改进Apriori算法的大数据关联规则挖掘方法,以良好的数据处理能力完善全域旅游服务功能。经实验验证,得出本文设计方法具有一定的应用价值。

2 基于改进Apriori算法的大数据关联规则挖掘方法

2.1 基于云计算技术的数据处理平台

2.1.1 平台架构设计

基于云计算技术的数据处理平台通过整合、更新地理区域、区域旅游等信息,借助开放接口体系与多终端门户为用户提供旅游数据处理服务。以MVC(Model View Controller)开发模式、B/S架构、SQL Server数据库、分布式文件系统为基础,利用C#、Java Script、HTML以及CSS等不同开发语言进行数据处理平台研发,将数据处理平台进行具体的层次划分,划分结果如图1所示。

图1 平台整体架构设计

1)作为基于云计算技术的数据处理平台的基础工程,基础设施层中包含网络支撑环境、数据库管理系统、服务器、中间件等用于平台基础建设的基础设施。

2)数据信息层的主要功能是汇总全域范围内的地理、景区、游客、商品、文化等信息,构建专题数据库、共享区数据库,为旅游大数据建设提供基础功能的同时,也为业务逻辑层与服务层提供数据支持。

3)业务逻辑层中主要提供组件服务,以及空间数据、数据接口和应用接口适配器等工具,为服务层应用开发提供基础。

4)服务层的主要功能是为游客、全域旅游产业发展以及政府监管提供信息化服务,其中,包含平台向用户提供的各种服务,如地图服务、虚拟游览、路径分析、电子购票、数据分析等功能模块。

5)展示层中既包含普遍使用的Web门户网站,同时考虑移动网络应用的大范围普及与便利性,还与移动客户端对接。

6)用户层中包含平台的主要使用者,如:游客、旅游景区、相关商户以及旅游管理部门等。

2.1.2 平台运作模式

基于云计算技术的数据处理平台以基础设施层和数据信息层的数据采集与数据存储[5]为基础,利用业务逻辑层内的数据引擎进行数据清洗[6]、数据挖掘和数据分析,通过应用接口连接服务层,通过展示层向用户层提供以数据分析结果为基础的旅游服务。其运作模式示意图如图2所示。

1)数据采集:数据采集主要是通过主动抓取与被动收集的形式,纵向采集旅游行业内旅游景区、酒店、导游、旅游经营机构等相关信息;横向采集旅游过程中气象、交通、通讯、住宿、安全保障等管理与服务信息;通过互联网采集游客相关信息,包括游客来源地、年龄等基础信息,游客对旅游景点的评价以及游客在景区内的消费偏好等。

2)数据存储:数据存储可分为关系数据库存储(专题数据库、共享区数据库)与分布式大数据存储。后者主要借助Hadoop分布式文件系统对采集得到的数据进行及时存储,然后通过数据引擎分析数据采集结果后,将分析结果存储在分布式大数据存储系统或关系数据库内。用于数据展示的旅游数据普遍存储在关系数据库内,有效缓解访问延迟导致的效率问题。

3)数据引擎主要由三部分组成,分别是数据清洗、数据挖掘和数据分析。数据清洗的主要作用是针对采集的原始数据实施降噪、标准化处理;数据挖掘利用基于云计算的Apriori数据挖掘算法深层次挖掘清洗后的旅游数据;结合旅游业务特点,分析数据,获取不同维度、不同来源的旅游数据统计分析结果。

4)应用接口:应用接口的主要功能是通过HTTP/HTTPS协议,利用XML标准数据格式进行平台各层间的数据交换,查询维度有差异的存储数据。

5)数据展示:数据展示即通过展示层向用户层展示旅游数据分析结果,然后基于旅游数据分析结果提供各项服务。

2.2 基于改进Apriori算法的大数据关联规则挖掘

作为数据挖掘领域内确定频繁项集的代表性算法,Apriori数据挖掘算法通过对数据集逐层迭代搜索的方式实现数据挖掘功能[7]。Apriori数据挖掘算法实现过程如下:

用Lk表示频繁项集,为确定Lk,需连接自身与全部的频繁项集得到候选项集Ck。假设Lk内包含随机项Im、In、Ii,Ii的第j项用Ii[j]表示。在利用字母顺序排列事务集D与全部项集内项的条件下,(k-1)项集的随机项Ii满足Ii[1]

(1)

通过Im、In连接可以得到

{Im[1],Im[2],…,Im[k-1],In[k-1]}

(2)

作为Lk的超集,Ck中的项并非全部为频繁项。扫描事务集,确定Ck内各候选项出现的频率,将其同最小支持度阈值比较,判断该候选项是否为频繁项,根据判断结果,剔除Ck中不频繁的候选项,最后形成最终的频繁项集,以该集合为基础形成一定的关联规则,该关联规则需要满足最小置信度阈值[8]。

由于Apriori算法在面向大量数据进行迭代搜索时,会形成数量庞大的频繁项集[9],因此,会消耗大量的网络空间,且由于过程复杂,导致处理时间较长,使该算法的应用性受到一定程度的限制[10]。根据云计算技术的并行执行特性,通过Map Reduce编程模型[11]优化Apriori数据挖掘算法,能够有效改善Apriori算法的应用限制。图3所示为通过Map Reduce编程模型优化Apriori数据挖掘算法生成频繁项的过程。

图3 Map Reduce优化Apriori算法生成频繁项流程

具体优化步骤如下:

1)利用Input Format划分D,将得到的N个格式为(TID,list)的数据块分配至M个节点独立运算,TID和list分别表示事务标识符和对应的项目。

3)在各节点上运行Combiner程序,在本地合并(Im,local_supp),并通过Hash程序配置r个不同的分区,分别分配给Slave节点运行Reduce程序,由此确定各数据块一致候选项集的支持度之和,即全局支持度。

5)持续迭代以上过程至算法结束。

得到Lk后,以行为单位将其中的数据划分为若干个数据块,生成键值对(line,li),line和li分别表示行偏移量和该行频繁项集内的项。利用Map程序扫描(line,li),基于相关函数确定各频繁项集对应的关联规则,利用Reduce函数规约Map程序输出的关联规则,在HDFS内存储关联规则。对比关联规则置信度、兴趣度和设定阈值,由此确定最终的关联规则,结合平台中各个功能层的作用,实现基于改进Apriori算法的大数据关联规则挖掘方法设计。

3 仿真验证

为了验证本文提出的基于改进Apriori算法的大数据关联规则挖掘方法的有效性,进行仿真验证。实验数据来自中国旅游与经济社会发展统计数据库,在该数据库中抽取不同时段、不同旅游区域的数据,共计8512条,为了保证实验结果的准确性,采用Matlab仿真软件对实验数据进行处理。

3.1 数据关联规则挖掘结果准确率

以数据关联规则挖掘结果准确率为实验指标,图4所示为不同并发人数条件下,基于Hadoop、关系数据库和改进Apriori算法的大数据关联规则挖掘方法的对比结果。

图4 数据关联规则挖掘结果准确率

由图4可知,本文方法的数据关联规则挖掘结果准确率始终高于基于Hadoop、关系数据库的数据关联规则挖掘方法,本文方法的挖掘结果准确率最高值达到了95%,由此可知本文方法对旅游数据的关联规则进行挖掘时,得到的挖掘结果更加可靠。

3.2 数据处理平台响应时间

在数据挖掘方法设计中,本文设计了一个数据处理平台,该平台以云计算技术为核心,因此,在测试过程中对本文设计平台的性能进行测试极其关键。为验证本文设计平台在响应时间方面的优势,在相同实验环境下,测试本文方法和对比方法的响应时间,结果如图5所示。

图5 响应时间对比

由图5可得,在相同实验环境下,基于Hadoop的数据挖掘方法的响应时间控制在1.8s以内,而基于关系数据库的数据挖掘方法的响应时间达到2.0s以上。相比较之下,本文方法的响应时间均未达到1.0s,由此可知本文平台提供的全域旅游服务功能响应时间与对比平台相比,具有明显的效率优势。这是由于本文设计平台借助业务逻辑层内的数据引擎对采集的原始数据进行数据清洗、数据挖掘与数据分析处理,实现数据降噪,提升了数据的标准化水平,降低了数据处理难度,进而提升了平台响应时间。

3.3 应用效果测试

在实验数据库中随机选取9个景区,对比采用本文方法设计的平台前、后各景区的游客人数/年,结果如图6所示。

图6 游览人数对比

由图6可得,应用对象采用本文设计平台后,各景区游览人数均有不同幅度的增长,由此说明本文平台可提升区域景区客流量。这是由于本文设计平台通过展示层向用户层提供以数据分析结果为基础的旅游服务,提升了服务质量,并为游客的出行提供了便利条件。

综合分析上述实验结果可知,本文方法在响应时间、数据挖掘准确率方面具有较好的应用性能,可以有效提升数据处理质量,进而提升旅游服务质量。

4 结束语

本文提出了一种基于改进Apriori算法的大数据关联规则挖掘方法,以旅游领域的数据为例,利用云计算技术处理旅游信息,提升区域旅游资源服务能力。经过实验验证可知,本文方法具有较快的响应速度,有效提升了传统方法的应用效果,并且本文方法能够得到较为准确的数据挖掘结果,为数据使用者提供可靠的数据。

猜你喜欢
项集数据处理数据挖掘
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
一种频繁核心项集的快速挖掘算法
基于GPGPU的离散数据挖掘研究
基于POS AV610与PPP的车辆导航数据处理
一种新的改进Apriori算法*