如何理解《数据挖掘》课程的应用

2019-09-10 16:32宋万清
炎黄地理 2019年4期
关键词:决策支持关联规则数据挖掘

宋万清

摘 要:数据挖掘是当今大数据应用研究中的重要理论知识部分。如何理解数据挖掘算法中的工程应用背景,对理解讲授数据挖掘课程极其重要。本文诠释了理论算法与实际应用的关系,并对数据挖掘的应用领域做了相关介绍,开拓学生对课程的由浅入深的理解。

关键词:数据挖掘;决策支持;关联规则;发展趋势

1 在商务领域的应用

数据挖掘在商务领域的应用包括:库存及物流管理、数据库营销、客户群体划分、背景分析、交叉销售、客户流失性分析等。美国运通公司(American Express)有一个用于记录信用卡业务的数据库,数据量达到54亿字符,并仍在随着业务进展不断更新。运通公司对这些数据进行挖掘,在此基础上制定了“关联结算(Relation Ship Billing)优惠”的促销策略,即如果一个顾客在一个商店用运通卡购买一套时装,那么在同一个商店再买一双鞋,就可以得到比较大的折扣。这种策略取得了极大的成功,实现了商店销售量和运通卡使用率的双双增长。

农夫山泉通过定期采集纯进水的生产、运输、销售、财务等环节的场景数据,每月收到约3 TB的数据,其中不乏图像、视频、音频等非结构化数据,通过对这些数据的挖掘,实时制定生产、运输、销售的精准管理策略,取得了巨大的成功,近年销售额连续以30%~40%的速度增长。

亚马逊(Amazon)在业内率先使用了大数据、人工智能和云技术进行仓储物流的管理。创新性地推出预测性调拨、跨区域配送、跨国境配送等服务。京东的JIMI客服机器人通过大数据挖掘来判断用户需求,还具备一定的学习能力,在售前咨询方面,在部分品类上的回答满意度已经超过了人工客服;同时在采销系统上利用数据挖掘实现智能补货,效率提高近50%,通过用户和小区的需求画像实现智能推荐和C2B(Consumer to Business)。

2015年8月,阿里巴巴与苏宁战略合作,实现线上与线下联合,利用大数据、物联网、移动应用、金融支付等手段打造了O2O(Online to Offline)的新模式,充分发挥了阿里巴巴强大的线上体系和苏宁线下门店的互补优势。

2 在医疗和医学方面的应用

人体是一个复杂的系统,人的生老病死有着复杂的内在规律,尽管目前分子生物学和医学高度发展,人类对这些复杂规律的了解仍然是冰山一角。总部位于美国的Tute Genomics公司通过基因测序服务收集了大量的受试者基因和健康信息,建立了一个大型基因数据库,他们以云技术为依托,结合全世界的基因组学信息,解码患者基因信息,为基于基因组学的精密医疗提供相应数据与决策。

斯坦福大学医学院的Lloyd Minor教授与其同事们从不同资源中获取了大量数据,包括电子医疗记录、全基因组序列、保险和医药记录、可穿戴式传感器和社会环境数据,建立了一个名为“和你一样的病人”的数据库系统,通过数据挖掘,医生和研究人员可更好地预测个人患特定疾病的概率,有针对性地制定对早期检查和预防的方案。

大数据在医疗领域的另一个应用是利用电子病历数据库、互联网大数据、社交媒体数据以及卫生部门专有的各种病疫数据库实时开展公共卫生监测,包括流行病监测、传染病监测、慢性非传染性疾病及相关危险因素监测、出生缺陷监测、食品安全风险监测等。

3 在银行和保险行业的应用

风险管理是商业银行经营管理的重要内容,对互联网金融企业尤其如此。阿里巴巴旗下的浙江网商银行通过对海量客户数据的挖掘实现对贷款申请人的信用评估;芝麻信用通过海量的网络交易数据分析对用户进行信用评估和风险控制。

在保险行业,大数据挖掘分析将成为风险评估与定价的重要手段,如美国前进保险公司(Progressive)利用车联网设备,收集驾驶时间、地点、速度、急刹车等驾驶数据,来判断驾驶行为中存在的风险,设计“从用”的個性化UBI 车险产品;英国保险公司英杰华集团(Aviva)运用网络数据挖掘帮助该公司识别出申请者的潜在健康隐患及风险,为保费设定提供支持。

4 在社交媒体行业的应用

Facebook每天产生100亿条消息、45亿次“喜欢”按钮点击和3.5亿张新图片,通过对这些数据的挖掘分析可获得用户的位置、朋友、喜好等信息,Facebook一方面利用这些信息影响用户行为,如提供标注建议等,另一方面还向合作伙伴推出话题数据(Topic Data),这些话题数据可以向市场营销人员反应大众对于品牌、事件、活动和主题的反应,市场营销人员可以据此有选择地调整他们在该平台及其他渠道中的营销方式。

腾讯每天接入5千亿条数据,覆盖移动设备数达7.7亿台,通过对这些数据的挖掘分析可实现对用户的行为特点、偏好、消费能力等的精准定位,并以此为基础实现精准广告投放、精准移动推送、手机游戏精细化运营的业务。

YouTube是Google旗下的一个视频交流网站,是目前世界上最大的视频交流网站,在全球有超过10亿注册用户,每天收到用户上传的视频接近1 000万个,用户要从如此庞大的视频数据库中找到自己感兴趣的视频犹如大海捞针,为了增加用户体验,Google利用深度神经网络挖掘视频语义特征,改进搜索推荐算法,实现了目前世界上最强大的推荐系统。

5 结论

综上,数据挖掘涵盖多种理论和技术,成为一个热门的研究课题,这说明数据挖掘的理论、技术及应用都具有重要的意义,在未来还会涉及更多的领域。但数据挖掘作为一个分析方法和工具,还需要专业人员根据具体情况,结合相关行业的大环境以及国家的政策法规等进行综合分析后,才能得到正确及专业的数据挖掘信息。而在教学领域,对深入分析数据挖掘、应用数据挖掘技术将是我们未来努力的方向。

参考文献

[1][美]Jiawei Han,Micheline Kamber(译者:范明,孟小峰).数据挖掘概念与技术 [M],北京:机械工业出版社,2007-6-1.

[2]毛国君.数据挖掘原理与算法(第二版)[M].北京:清华大学出版社,2007-12-1.

[3][美]Pang-Ning Tan , [美]Michael Steinbach (译者: 范明 ,范宏).数据挖掘导论 [M].北京:人民邮电出版社,2010-12-10

[4][美]Jiawei Han ,[加]Micheline Kamber ,[加]Jian Pei .Data Mining,Concepts and Techniques [M].北京:机械工业出版社,2012-3.

[5][美] Michael Milton(译者:李芳).深入浅出数据分析 [M],北京:电子工业出版社,2011-4.

猜你喜欢
决策支持关联规则数据挖掘
数据挖掘综述
软件工程领域中的异常数据挖掘算法
商业智能分析模式在医保病人住院化管理当中的应用研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
基于R的医学大数据挖掘系统研究
秦山核电应急决策支持系统开发与研究
基于RFID的汽车零件销售策略支持模型
一本面向中高级读者的数据挖掘好书