大数据时代数据挖掘与分析应用实践
——评《数据挖掘概念与技术》

2021-12-04 13:05刘晓丹,张娜,王磊
科技管理研究 2021年20期
关键词:海量结构化数据挖掘

书名:《数据挖掘概念与技术》

作者:Jiawei Han,Micheline Kamber,Jian Pei

出版单位:机械工业出版社

ISBN:978-7-1113-9140-1

出版时间:2012 年8 月

定价:79 元

在大数据时代,“数据就是一切”。谁能够拥有更为全面、精准、及时的数据,无疑在社会经济文化发展中就占据了绝对的优势。在计算机及其应用技术和半导体技术的持续快速发展、广泛应用和渗透下,数据生产、搜集、储存的技术理论也不断更新,可以说,我们的生活、工作、学习就是处于汪洋的数据“大海”中,与此同时,我们仍然在借助新兴技术源源不断地生产、制造更多的数据。那么,我们应该如何充分、科学、巧妙应用“包裹”我们的海量数据呢?数据挖掘和分析应用可以告诉你答案。

《数据挖掘概念与技术(第三版)》作为数据挖掘领域里程碑式的经典著作,该书系统介绍数据挖掘基本概念和方法,并细致、深入阐述数据挖掘领域最新技术、发展。鉴于数据挖掘领域技术突破和应用实践需求,该书在前两版的基础上进一步优化了该书理论知识结构、脉络,扩充了数据预处理、分类和聚类、OLAP 和离群点检测、频繁模式挖掘相关理论知识,并进一步探讨挖掘网络、复杂数据类型、支持向量机等相关知识;在引入许多数据算法、实例的基础上,采用伪代码编写,便于师生应用于大规模数据挖掘项目。该书整体结构合理,条理清晰,资料翔实丰富、全面,可作为数据挖掘、数据分析等相关专业课程教学材料,也可作为本科、硕士数据挖掘研究导论资料。

参考《数据挖掘概念与技术》中关于数据发展、数据挖掘的阐述,不难发现,随着大数据相关技术不断发展,越来越多的人意识到拥有海量数据和拥有有效数据是截然不同的两个问题,尽管数据库技术让海量数据储存成为可能,但如何处理、分析数据成为掌握关键数据、有效数据的关键。在过去,我们获取“有效目标数据”的方式是:相关专家、学者将信息、知识数据依据一些约定俗成的规则和方法进行一系列处理,例如分析、筛选、分类等,然后再以图书、文献、资料等多种形式呈现在我们眼前。很明显,这些数据处理方法有很大缺陷,一方面,这些专家、学者以及知识工程师的知识水平、阅历、见识是有限的,因而通过传统数据筛选处理出来的数据信息可信度就会打折扣;另一方面,这种数据获取的方法耗时耗力,在现代经济文化产业高速发展的今天,在面对实现多个量级跃升的海量数据时就很难满足社会现实经济发展需要,例如科研开发、商业决策、产业调整。于是,面对海量、繁杂、发展的巨量数据库的数据挖掘技术应运而生。

大数据时代,信息数据的意义不在于“大”,而在于如何运用“数据”。时至今日,经过长期探索、开发,数据挖掘技术已经实现很大进展,仅分类算法就有遗传算法、决策树、神经网络、粗糙集以及模糊逻辑技术等,大数据采集也逐渐呈现自动化、全量采集、方式多样化等特点。同时,作为大数据应用的重要载体,无论是企业、机构还是个人,都可以以云计算为载体进行数据应用开发。在数据挖掘中,通过大量数据进行算法训练,建立可以准确预测未知数据类别的科学泛化模型,从而得出反映数据之间内在特性的关系模式,因而可以帮助人们更高效、更快速地处理数据。

在数据库中能够以二维表结构来实现逻辑表达的数据称为结构化数据,结构化数据是大数据挖掘应用中最为常见的数据类型。结构化数据往往用于记录规模较小、含义明确的数据,例如资产负债表、产品库存等数据。半结构化数据则用于记录网站流量、用户浏览时间等。最为复杂的是非结构化数据,非结构化数据也是大数据处理中难度最高的,例如多媒体类的图像和视音频等。谷歌、脸书等公司进行的“深度学习”相关技术研发就是对非结构化数据进行挖掘处理的成果。

大数据应用最为直接的方式是数据统计,即企业管理中的“商业智能系统”。随着数据挖掘技术的应用渗透和发展,数据报表已经从原先的以周、天为单位到以小时、分钟为单位的跨越,报表细分刻画能力也实现很大提升。以大数据为依托,充分挖掘用户个性化需求数据则可以为企业、网站服务提升提供有力保障。例如通过挖掘用户个性需求,建立用户需求针对性商品推荐模型,提升用户购买率,鼎鼎大名的亚马逊网站上近1/5 的成功交易额都得益于个性化推荐系统;个性化数据挖掘还能节约企业运营成本:通过分析用户多样化数据和消费明细,将用户分为不同的类型,并为不同用户群制定针对的促销方式。

猜你喜欢
海量结构化数据挖掘
一种傅里叶域海量数据高速谱聚类方法
改进支持向量机在特征数据挖掘中的智能应用
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
海量快递垃圾正在“围城”——“绿色快递”势在必行
“海量+”:大学生品格提升的浸润方——以高职艺术设计专业为例