基于电商平台的大数据挖掘系统的设计研究

2023-12-29 02:54高寒

信息记录材料 2023年11期

高寒

（广州商学院广东广州 510000）

0 引言

伴随云计算与数据挖掘技术的发展，海量数据的存储与并行计算有了可能。利用Hadoop 框架与云计算等在海量电商数据与电商业务之间建立关联关系，通过分类分析、聚类分析及关联规则分析等深入分析方法来挖掘出海量电商数据背后存在的价值，再将其用于指导未来的电商平台行为如个性化推荐等，从而促进电商行业迅速健康发展。

1 关键技术

1.1 Hadoop 框架

Hadoop 作为一个分布式框架，提供MapReduce 计算模型，具有并行编程特点。 MapReduce 作为云计算核心计算模型，属于一种简化的编程模式，利用分布式计算来处理某一类问题，具体计算时该计算模型可以自行将问题分割为Map（映射）和Reduce（化简）方式，开发人员可通过编写简短的程序来处理海量数据。另外，Hadoop 框架还提供相应的分布式数据库与分布式文件系统，该分布式文件系统负责将数据部署或存储到各计算节点上［1］。科学利用Hadoop 框架及MapReduce 计算模型可以高效处理海量数据，同时将HBase 和HDFS 灵活地融入云计算框架可以很好地实现云计算的分布式存储及并行计算。

1.2 基于元计算的海量数据存储模型

通常电商平台数据来源众多，且数据量规模较大，具有海量数据的特性，由此本文结合云计算技术，设计基于云计算的数据存储模型（如图1 所示）。

图1 基于云计算的海量数据存储模型

图1 中的海量数据存储模型有存储节点机群和主服务控制机群两大部分，再配合HDFS、HBase 及MapReduce一同实现海量数据资源的读写与计算。其中HDFS 与HBase 主要负责将数据部署或存储在计算节点上；MapReduce 负责维护与调度数据并对海量数据进行并行计算，用户通常借助Hadoop 框架完成与存取节点的交互操作［2］。

2 电商平台大数据挖掘流程

2.1 挖掘流程

电商平台数据具有数据量大、潜在价值高等特点，对电商平台来说极为重要。利用大数据与云计算等技术在海量电商平台数据与电商日常业务之间建立关联，借助数据挖掘技术从整体上分析用户消费行为，有助于提升电商平台的核心竞争力进而获取更高的商业价值。与此同时大数据挖掘技术可以自主学习，使用机器学习与人工智能算法来整理、理解与学习数据内容，将对内容的理解与标记存储到知识数据库中以为后续学习提供基础，由此实现海量数据的深入分析与价值挖掘。电商数据挖掘的目的是从海量无关联电商数据中挖掘数据背后潜在的信息与价值，并科学合理使用这些有价值的信息来促进用户在电商平台的购买行为与浏览量［3］。电商平台海量数据挖掘流程见图2。

图2 电商平台数据挖掘流程图

电商数据挖掘的海量数据来源主要包括用户交易数据、用户互动数据、用户访问信息或行为、其他观察数据以及第三方平台数据等，这些电商数据简要分为非／半结构化数据与结构化数据两类，电商平台大数据挖掘的具体过程就是对海量无关联的结构化数据与非／半结构化数据进行分类分析、关联规则分析、聚类分析等，并根据分析结果而产生一系列的具有价值的行为，如基于分析结果的个性化推荐、基于分析结果的异常检测、基于分析结果的搜集与挖掘等。通常电商数据挖掘完整过程包含以下步骤：制定电商数据挖掘方向；整理归纳可能存在潜在价值的数据源；建立科学的数据挖掘模型；最后将数据挖掘模型集成到相应的各外部API 接口与电商平台管理后台。

2.2 数据采集

数据采集电商大数据挖掘系统的起点，该挖掘系统采用多种方式获得电商平台的各类用户数据，如应用程序编程接口（application programming interface ，API）接口、网络爬虫及日志文件等方式。通常情况下电商平台会对外提供各类API 接口，由此来获取各类用户数据；利用网络爬虫技术来模拟用户行为从而自动收集电商平台中的各类用户数据；也可以从电商平台记录的用户访问日志中获取各类数据信息，如用户的浏览记录、访问路径等。

2.3 数据预处理

电商大数据挖掘系统的核心与关键是数据处理环节，这一环节包括数据清洗、数据去重及转换等一系列操作，为后续的各种数据分析打下坚实基础。数据清洗指的是，当采集到的用户数据存在残缺不全或异常时，此时对数据进行的缺失数据补全、异常数据去除等操作；数据去重指的是，当采集的用户数据中存在大量重复的数据时，此时对数据进行重复数据去除操作；数据转换主要是数据采集完成后进行的维度降维或格式转换等操作，数据经过这一系列转换使后续的数据分析与挖掘工作更加方便、顺利。

2.4 数据分析与MapReduce 聚类分析

2.4.1 数据分析

数据分析指的是通过数据统计及可视化等过程，从而发现与挖掘数据深层的含义，常见的数据分析方式有统计分析、关系分析及可视化分析等。统计分析是对海量用户数据进行求和、求平均数及方差等基本的统计操作，从整体上把握用户数据的特征；关系分析包括聚类分析、关联分析等，通过聚类与关联分析建立起数据之间的聚类与关联关系；可视化分析是将数据之间的关系与分布以散点图、折线图、柱状图、Excel 表等图表形式清晰地呈现出来。

2.4.2 MapReduce 聚类分析

聚类分析将数据集划分成若干个簇，簇内的数据特征相类似，而簇与簇之间的数据有较大的特征差异。MapReduce 聚类分析是利用MapReduce 框架将完整数据集划分成许多小的数据块，并将这些数据块分配到若干计算节点进行计算，节点使用聚类算法来分析本地数据，分析完成后将结果输出，而后在Reduce 阶段中汇总各计算节点的输出结果，从而得到数据集最终的聚类结果。如使用MapReduce 聚类分析电商用户评论数据划分评论语句：在Map 阶段可以使用层次聚类方法将小数据块中评论语句层次聚类获得初始簇；在Reduce 阶段借助K-means 等聚类算法对整个评论数据集进行聚类分析，汇总各计算节点的簇，获得最终的簇。

具体步骤如下：（1）选取特征词。为了避免浪费性能，通常会从用户评论中选取代表语句全部含义的特征词，主要包括分词、去助词及去代词等预处理操作。在Mapper 中，先利用中文分词器对语句进行分词，然后再使用去助词器与去代词器对上述分词结果进行去助词、代词操作。如此可以去除评论语句中大量无用信息，有效提高聚类分析的效率与准确性，同时节省大量系统资源。（2）文本向量化表示。文本向量化表示即文本中特征词汇占语句向量的分量，可以通过编写Mapper 和Reducer 来实现。在Mapper 中，统计每个特征词在全部评论中出现的次数并记录；在Reducer 中，对同一特征词的出现次数进行累加，而后得到一个用户评论在该特征词上的分数，最后，对全部特征词的分数进行累加，进而得到用户评论的对应的向量化表示。（3）特征值权重。可以使用词频-逆文档频率（term frequency-inverse document frequency，TF-IDF）来计算特征值权重，TF 是词频，一般来说，特征词词频越高，表示其越重要。在Reducer 中，将用户评论语句的TF-IDF 值当作特征值权重，由此能够获得每个电商用户评论语句的特征向量与特征值权重。

3 电商平台大数据挖掘系统的设计

3.1 系统核心模块与业务流程

3.1.1 系统核心模块

从功能需求上，电商平台大数据挖掘系统的主要目的是对电商平台海量数据进行挖掘与分析从而为后续电商平台行为提供数据支撑。该大数据挖掘系统面向的用户是各大电商部门及相关工作人员：第一，需要有登录功能，用户登录成功后进入交互主界面；第二，需要具备数据存储功能，数据存储是大数据挖掘系统的基础与核心，第三，还要具有半结构化数据及非结构化数据等复杂结构数据的查询与统一存储的功能［4］。从非功能需求上，电商平台大数据挖掘系统应具备一定的可靠性、稳定性、易用性及可扩展性。

3.1.2 大数据挖掘系统业务流程

大数据挖掘系统的详细业务流程如图3 所示。

图3 电商平台大数据挖掘系统流程图

图3 所示具体流程为：第一，整理所有数据源。如电商平台数据、移动终端数据、社交网络数据及来自供应商的数据等；第二，数据收集与整理。对各外部API 接口或电商平台管理后台的数据进行采集，收集与整理相关的文件与消息、事件；第三，数据处理与组织。对结构化数据先过滤再进行实时分析。对数据进行过滤转化或抽取注解，在此基础上对电商数据进行关联分析；对半／非结构化数据，接收后进行分析，而后形成数据映射，如语言库、模型、索引等；第四，HDFS／HBase 存储。将清洗过滤、分析处理后的数据存储在HDFS 或HBase 中，从而形成数据仓库及企业级数据库等，由数据仓库或数据库完成元数据管理；第五，海量电商数据分析。数据分析层提供聚类分析、分类分析及关联规则分析等各种高级分析方法，海量电商数据经分析获得的分析结果可为可视化查询、预测模型及搜索引擎等奠定基础；第六，分析结果展示或数据应用。如面向用户的应用、面向商家的应用及面向电商平台的应用等［5］。

3.2 数据导入与分析

数据导入主要包含基本数据导入与日志数据收集，其中基本数据导入主要包括用户基本信息、用户订单信息、订单配送信息、用户评论及回复信息、用户收藏信息以及第三方平台数据等数据的导入。用户基本信息包含用户年龄、偏好、地域、配送方式、支付习惯以及登录时间等；用户订单信息可用于推测商品的需求和配送，还可经数据挖掘进一步分析消费者对商品的款式偏好、规格偏好及颜色偏好等，可为企业制定生产计划提供数据依据；订单配送信息可用于推测不同地区的配送量，优化库存与配送结构；用户评论与回复信息用于推测消费者对某一商品的更多具体偏好；用户收藏信息可预测用户一段时间内可能购买的商品；第三方平台数据涉及社交媒体数据、位置数据等，可用于推测用户喜好，分析用户活动范围与出行习惯，以为用户推荐附近商家等。日志数据搜集主要包含客户端数据采集与各计算节点的日志数据收集［6］。日志的处理与分析是通过对用户行为日志进行关联规则分析，获得用户偏好及访问习惯，从而在合适的时间为用户推送个性化商品等。

3.3 大数据挖掘系统设计

3.3.1 后端定时任务

综合使用CRON、PERL 及HEARTBEAT 技术来实现后端定时任务。考虑到数据的可靠处理，同时兼顾运行成本，该大数据挖掘系统使用数据库主从结构，使用两台或更多服务器来实现负载均衡，如此将数据处理负荷分散至多台服务器上。其中，PERL 适用于文本分析匹配，CRON可根据预先设置好的规则自动完成相应任务，HEARTBEAT 用于防范服务器宕机时可能发生的数据丢失的情况。

3.3.2 数据挖掘

为保证大数据挖掘系统前端工作不受数据挖掘工作的影响，增设专门用于数据挖掘的服务器，该服务器主要用于海量电商数据的行为模型分析、分类分析、语义分析、聚类分析、模式匹配分析以及关联规则分析等。同时对前端元数据，按照一定规则进行用户行为分析、时间序列分析或关联分析等，从而得到高精准度的数据［7］。

3.3.3 前端任务

在电商平台大数据挖掘系统的前端，用户可依照自己实际需求来生成不同的图表与报表，还可设定不同的条件来查询相对应的电商平台数据，另外，为了提高用户体验度，可以再加设一台缓存服务器，并完善数据库集群通信服务以保障服务器的安全稳定可靠运行。

3.3.4 同步电商接口

利用PERL 或超文本预处理器来定制生成各种类型的接口并将接口与其他平台相对接，该电商平台大数据挖掘系统除了具有数据分析、数据挖掘及生成报表的功能以外，还应与电商系统完成实时对接，为提高用户体验度及商品的转化购买力等提供精准的数据依据，与此同时大数据挖掘系统还要具备一定的扩展能力，为物流、电子邮件营销、仓储管理系统、客户关系管理、库存管理系统、客服中心等其他电商系统预留相应接口。

4 结语

综上所述，基于Hadoop 与云计算的海量电商数据的分析与挖掘，速度更快、结果更精准、实时性更好。综合应用Hadoop 框架、MapReduce 计算模型及云计算等技术的电商平台大数据挖掘系统更能满足信息时代下对数据分析与挖掘系统的更高安全系数、更加精细化等要求，电商平台科学利用大数据挖掘系统能更加准确掌握用户的兴趣焦点、行为特征及消费习惯，以此为依据调整市场策略，促进电商平台稳定健康发展。