基于物联网的数据挖掘

2018-01-01 13:16吴章光陈宝健吴为民
科学与财富 2017年30期
关键词:物联网数据挖掘

吴章光+陈宝健+吴为民

摘 要: 智慧城市让城市基础设施更智能、互联和有效,智能家居为居民提供了人性化的智能服务。物联网为智慧城市及智能家居建设提供了感知能力,物联网的数据收集、云计算及其上的智能决策为其提供了坚实的基础和可靠的保障。物联网针对不同的数据类型需要采用不同的技术进行分析,管理人员使用不同的物联网应用程序分析来自不同设备的数据,并整合相关数据,以便在智能家居应用程序中对可能的机器故障或紧急情况进行预测。数据挖掘技术需要解决实时数据处理技术、优化大数据及物联网数据的异质性处理。基于此,本文提出了基于物联网信息的数据挖掘新模式。

关键词: 物联网;数据挖掘;预测分析、

智能家居作为如今科技发展的重要方向之一,不仅能够给我们带来方便的生活,而且能够颠覆我们对于传统住宅的认知,越来越多的家庭都开始安装智能家居系统。智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效。对人力与社会资源和传统及现代设施的投资,促进可持续经济发展和高质量生活,同时通过提供参与治理的机会实现对自然资源的有效管理,这时一个城市就被称为智慧城市。物联网是智能家居与智慧城市网络能力的基础。物联网包括传感网、数据与内容、物品与传感器、用户与知识等。基于物联网信息的数据挖掘通过网络汇集感知对象和感知的单元,然后通过应用领域将实现更智慧的决策[1]。

一、物联网技术概述

物联网,就是基于实物的互联网,它与无线通信、智能移动设备、大数据、处理器、传感器等领域有紧密的联系。物联网和云计算为智慧城市或智能家居提供了核心技术应用。云计算通常在分布式环境中提供共享计算资源和数据。云计算依赖于跨越多个领域和地理区域的多个数据中心。智慧城市和数字城市在协作环境中检索信息并将其存储到云端。

物联网层结构是一种便于设计和开发物联网解决方案的架构,不仅可以收集和监控数据,而且可以实时响应,警报和通知临床决策支持。在物联网监控解决方案中,典型的设置包括智能传感器,微控制器,网络,普遍存在的设备和底层的软件服务。其中使用传感器,微控制器,MQTT和云计算来构建物联网。该架构的每个组件使用最有效的硬件和软件。每个组件都是可替换的,可以根据可用的替代方式进行替代。?该物联网模型由以下四个层组成[2]:

(1)感测层

底层是物理设备所在的感测层,它们彼此相连形成传感器网络层。感测层的设备有智能传感器,执行器,智能手机,家用电器等。物联网从智能传感器收集数字数据,从摄像机传输数据,从GPS设备收集交通路由信息。

(2)边缘计算层

在其上的层称为边缘计算层,边缘计算位于传感器网络的边缘,通过处理源附近的数据来优化云基础设施,它可以对数据进行预处理和过滤,以节省带宽和处理能力,只有优化处理后的数据才被传输到云,在那里存储,分析和可视化。在边缘计算层中,使用移动传感器网络、ZigBee、蓝牙等,通过微控制器连接传感器,允许发送和接收数据。微控制器将模拟信号转换为数字值,并控制所有设备和传感器。

(3)联络层

不同的物联网设备通过特殊类型的物联网协议连接,换句话说,机器对机器(M2M)是使用一种物联网协议来支持实时通信。流行的M2M协议包括MQ遥测传输(MQTT)和约束应用协议(CoAP)。MQTT被设计为一个非常轻量级的使用TCP的发布/订阅消息传输。它对于需要较小代码占用空间和/或网络带宽非常重要的远程位置的连接非常有用。CoAP是一种专门的Web传输协议,用于具有UDP协议的物联网中的约束节点和受限网络。

(4)应用云

云计算可以用于远程存储物联网数据,这扩展了物联网解决方案的范围,以更分布和更动态的方式处理真实世界的事情。可以使用专有需求设置云服务器。然而,诸如Pachube,Nimbits和ThingSpeak等软件包提供直接的API,微控制器可以使用这些软件来发布数据。数据存储在云上可以利用临床决策支持算法,检测异常,并建立触发器发送警告,警报或信息。这可以通过使用第三方服务或使用M2M协议来触发传感器的动作来实现。

二、基于物联网的数据挖掘技术

物联网从传感器,智能手机,可穿戴设备或其他启用互联网的设备收集大量数据,并将其存储在云端。要将数据转化为可利用的决策数据,必须使用合适的数据挖掘技术进行分析。例如,智能家居的传感器数据用于老年人或残疾人的安全监控或家庭自动化,或者分析交通数据以计算救护车的最佳路线。物联网数据通常是异构的,以高速和大批量生成,需要实时分析。数据可以是连续数字形成温度传感器,或从相机或文本流式传输数据,数据必须以适当的方式进行预处理和相关,以获得有意义的结果。因此,传统的数据挖掘技术不足以分析物联网生成的数据。

在不同的空间和时间分辨率下从复杂的感测环境中提取有用的信息是人工智能的一个具有挑战性的研究问题。为了检测物联网数据中的有效模式,需要使用合适的数据挖掘技术来分析数据。数据挖掘具有高度的域特异性。物联网平台在预测最佳流量路由或检测即将失败并需要维护的机器时可能会采用不同的方法,例如,一种预测维护应用程序,需要在发生故障之前检测机器故障,以便在生产中断之前进行更换,从温度,扭转或磨损等机器收集和分析传感器数据。家庭安全应用程序可能会使用移动侦测器和相机数据来检测可能的入侵者。两个系统都使用不同类型的数据,并对不同的事情进行预测。

此外,在分析物联网数据时,物联网的某些特性可能影响其数据分析:①热插拔物联网设备的应用,这意味着需要对新的数据源进行分析,并产生新的数据格式,例如,电子卫生保健应用程序可以测量血压和血糖水平,使用该解决方案的患者有一个新的健身追踪器,可以将健身数据添加到电子卫生保健解决方案中;②设备可能会停止发送数据,例如,一辆汽车正在进入隧道,并丢失GPS信号,或者传感器因为电池电量不足或无线通信中断而停止发送数据;③传感器或执行器可以是几种应用的一部分,例如,运动检测器可用于打开自动门并检测未经授权的入侵者,如果检测器发生故障,则会影响多个应用;④物联网应用程序可能必须在不同的情况下顯示不同的行为;例如,家庭安全系统必须能够在白天和黑夜之间进行区分,因为在白天很多人类活动被检测到,在晚上几乎没有。endprint

在物联网应用中,正常数据流量的偏差可能被解释为异常,物联网解决方案可能会发出虚假警报事件。用于物联网的数据挖掘技术需要能够适应动态环境或改变的数据流,以避免在每次添加或删除传感器时重新设计数据挖掘规则。机器学习技术非常适合处理数据流中的模糊性,并且可以在环境变化时快速适应。机器学习是人工智能的一个分支,旨在模拟计算机上的人类学习,而不需要明确编程。机器学习技术有几个有利于物联网的数据挖掘特点:①机器学习技术从历史数据中学习数据挖掘规则,无需开发人员手动编程;②机器学习方法可以继续学习新的规则,例如添加新的智能设备;③许多机器学习方案计算概率,这使得它们对数据流中的小变化是稳健的,例如,当设备停止发送数据并且还有其他发送数据时,概率仅稍微改变,并且不会发出假阳性。

三、基于物联网的数据挖掘架构

数据挖掘是高度迭代的,一些步骤可能会经历很多次。数据挖掘的主要步骤有:通常分为数据收集、数据预处理、数据挖掘和预测分析阶段[3]。

1、数据收集

物联网中的数据收集发生在设备或事务级别。智能传感器、智能手机或平板电脑测量与环境不同的价值,通常将其传输到物联网云平台进行分析和存储。

2、数据预处理

物联网设备会收集到大量数据,其中的数据格式并不全都适合于数据挖掘,将所有数据传输到云可能并不可行。因此,数据清理是获得良好效果的关键步骤。为了节省带宽和计算能力,只有一些观察点被传输到云,通常在边缘层将数据存储、预分析并进行预处理。

预处理步骤包括:①不同的传感器收集不同格式的数据,通过数据转换使之具有一致的数据格式并统一数据;②重复数据删除和异常值去除;③选择实体分辨率及相关性过滤是获得良好的物联网应用性能,例如,一个应用程序可能只需要行程的源和目标坐标,对于另一个应用程序,整个路由可能是相关的;④特征选择是重要的预处理步骤,并非所有数据对于特定的數据挖掘任务都是有用的,特征选择将意味着选择用作数据挖掘算法的输入的观测点。

3、机器学习技术

当数据分析规则太复杂或者分析规则太多时,我们就会采用了机器学习这一种数据挖掘技术。机器学习模仿人类学习,人类从经验中学习,机器学习技术从过去的历史数据中学习,对未来事件做出预测。例如,预测维护应用程序使用历史传感器数据来收集关于智能建筑物状态的信息,来预测空调系统或电梯是否将失效。机器学习分为监督,半监督和无监督学习。监督方法用于分类和回归,这种方法需要标记数据进行学习。典型的监督学习者包括贝叶斯模型,决策树感应,支持向量机(SVM)和人工神经网络(ANN)。如果不使用标记数据,则采用无监督方法,当少量标记数据和大量未标记数据时,使用半监督方法。为了对机器故障或患者出现症状进行预测,必须对数据进行分类,然后,机器学习技术将针对新的不可见的数据进行分析并测算,并测量目标机器的性能。

4、预测分析

在预测分析阶段,必须选择合适的数据挖掘方法,多个数据源集必须与预测问题相关,只有一个数据源的数据可能不足以进行有意义的预测,例如,在基于物联网的医疗保健解决方案中,单一的血液水平数据组可能不足以用于预测来确定患者是否患有症状,此类数据挖掘必须同时分析与运动相关的数据,以便对人的健康状态做出可靠的预测。数据挖掘相关分析技术有很多,常用的技术是时间序列分析。机器学习技术也可以用于相关和预测分析,许多机器学习技术计算概率,这种技术适合于易变的物联网环境。此外,数据挖掘生成报告的数据通常要求是可视化的。

四、基于物联网的数据挖掘面临的问题

物联网最大的挑战之一是缺乏使不同设备的互操作性和互联网连接困难的标准。为了实现标准化互联,已经有工作组建立了诸如消息队列遥测传输和高级消息队列协议的标准协议,这些轻量级的面向消息的中间件能够解决大量的数据转换问题。此外,许多智能设备的资源有限,带宽和电池寿命有限。移动网络覆盖也是一个问题,这对医疗保健物联网应用尤为重要。安全仍然是物联网的一个主要问题,因为许多设备的设计安全级别较低并容易受到网络攻击,当前通过加密和入侵防御机制确保安全方面仍具有挑战性[4]。隐私是一个主要的问题,特别是在收集了大量个人资料的物联网云。由于物联网设备的局限性和物联网数据挖掘所面临的其它问题,已有隐私保护数据挖掘技术在实际运用中通常不被采纳。

参考文献

[1] 刘思远. 数据挖掘在社区智能家居系统中的应用研究[J]. 电子科技大学学报,2016(2): 56-58.

[2] Ma J, Nguyen H, Mirza F, et al. TWO WAY ARCHITECTURE BETWEEN 物联网 SENSORS AND CLOUD COMPUTING FOR REMOTE HEALTH CARE MONITORING APPLICATIONS[J]. 2017.

[3] Wlodarczak P, Ally M, Soar J. Data mining in 物联网: data analysis for a new paradigm on the internet[C]//Proceedings of the International Conference on Web Intelligence. ACM, 2017: 1100-1103.

[4] 陈源泉.智慧城市中的大数据挖掘与应用[J].工程技术:引文版[J]. 2016(4):78-79.

作者简介:吴章光(1972- ),男,福建福清人,副教授,硕士;研究方向:电子商务,数据挖掘,系统设计与分析。

陈宝健(1963- ),男,讲师。吴为民(1970- ),男,副教授。endprint

猜你喜欢
物联网数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
基于高职院校物联网技术应用人才培养的思考分析
基于LABVIEW的温室管理系统的研究与设计
中国或成“物联网”领军者
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究