基于汇转控制技术的物联网信息识别

2014-07-02 01:17李莉张军李妍张栋
河北工业大学学报 2014年1期
关键词:增益数据挖掘联网

李莉,张军,李妍,张栋

(1.石家庄学院电气信息工程系,河北石家庄 050035;2.河北工业大学计算机科学与软件学院,天津 300401;3.河北工业大学研究生院,天津 300401)

基于汇转控制技术的物联网信息识别

李莉1,张军2,李妍2,张栋3

(1.石家庄学院电气信息工程系,河北石家庄 050035;2.河北工业大学计算机科学与软件学院,天津 300401;3.河北工业大学研究生院,天津 300401)

随着物联网规模的增大和应用种类的增多,物联网中的信息量呈现出海量增长的趋势,对这些信息进行识别和管理成为了当前物联网技术应用中必须解决的问题.应用可信信息汇转控制技术对物联网信息进行表达、量化、提取、共享和处理,使异构信息汇聚后实现信息共享.仿真测试的结果表明可信信息汇转控制算法的准确率和平均使用时间满足应用需求,为物联网信息的有效管理和数据处理提供了参考.

可信信息;物联网;汇转;控制;技术

随着科技发展的智能化和信息时代的发展,对虚拟网络中的设备、物品进行识别和管理受到人们的广泛关注[1].物联网(Internetof Things,IoT)是一种对互联网中的设备、物品和数据进行通信的虚拟网络.社会对物联网中设备、数据的识别、管理、共享和通信的需求日益增强[2].如何在信息产业化下实现物联网信息的控制,成为物联网的一个研究方面.通过对以上物联网中的关键技术和关键参数进行分析,采用汇转控制技术对物联网信息进行表达、量化、提取,经仿真实验证明了汇转控制技术对物联网信息识别和管理的有效性.研究对于加快物联网系统的开发进程、解决我国目前在物联网环境下应用中所存在的信息量大、难识别、难管理问题具有一定的实际意义.

1 物联网信息识别和管理

1.1 概述

1999年,美国麻省理工大学KevinAshton教授提出了物联网的概念.在随后的几年时间里,欧洲EpoSS在2005年发布“ITU欧洲互联网报告2005:物联网”报告,使物联网成为研究的热点,并于2008年5月发布了“2020年欧洲物联网规划”.2009年9月提出物联网发展路线图.2010年提出无线传感器网络(Wireless Sensor Networks,WSN)的概念,并将此网络与RFID进行相关研究.

2005年的报告阐述和规划了基于RFID的物联网技术,以及物联网在货物运输、智能家居、交通管理、销售管理、医药卫生等行业的应用前景.2009年对物联网进行了定义,对技术领域进行了规划,并将“物”进行扩充,可以指虚拟“物体”或传感器、执行器等.这时,WSN以及WSN中的信息互操作等内容成为人们关注的问题,业内人士认为,物联网将掀起全球的第3次信息产业革命[3].2009年,随着IBM提出“智慧地球”的概念,随后各国对物联网的关注逐渐提高.

1.2 物联网信息智能识别和管理

随着第3次信息产业革命的到来,物联网研究的侧重点从不同环境应用性能和数据通信转移到信息融合、语义互操作方面[4-5].物联网中“物”的种类很多,有传感器、执行器、虚拟物体、视频感知器、RFID射频卡等,物体所采集到的信息种类也很多,不同“物”的计算、处理、存储和传输能力也不同,这就提出了对物联网信息进行智能识别和管理[6-7].其中一个很大的难题是对这些信息进行表达、存储、检索、共享和处理.随着物联网应用种类、规模增大,将信息处理分为前台处理和后台处理两种,但前台和后台中都涉及到信息计算处理和信息存储,这成为信息处理的又一研究问题.

物联网“物体”的计算、存储与处理能力各异,“物体”种类从简单的到具有较强能力的.收集到的信息也各不相同,如何合理处理信息是物联网需研究的问题.对物联网而言,随着应用规模的增大和应用种类的增多,信息处理成为物联网迫切需要解决的问题,我们将可信信息汇转控制技术应用到信息计算处理和信息存储中,解决信息的表达、存储、检索、共享和处理.当前智能信息处理的研究主要集中在动态贝叶斯网络、扩展的卡尔曼滤波、D-S(Dempster-Shafer Theory)证据理论和粗集理论[8-9].这些都没有考虑物联网具有能量限制的特点,系统的计算开销没有得到很好的减小.随着数据传输量的增多,信息传输的功耗也会变大,需要将网络规模、信息传输、网络功耗有效的结合.基于动态贝叶斯网络的智能信息处理是从贝叶斯网络演变而来,动态贝叶斯网络在原有贝叶斯网络的基础上新增了时间轴.动态贝叶斯网络属于一个稍微复杂的动态空间模型,与之相似但较为简单的还有隐马尔科夫链和卡曼滤波模型.

2 信息泛化和概要描述

2.1 信息获取

在以物联网中“物”为载体的信息量中隐藏着许多可以为商业、科研等活动的决策提供所需要的知识.在对信息进行分类挖掘之前,建立一个描述已知数据集类别或概念的模型,对数据集合中的信息进行获取是信息处理的基础.

在进行分类之前,首先准备好挖掘数据.一般需要对数据进行以下预处理:数据清洗、相关分析、数据转换,这些处理帮助提高分类的准确性、效率和可扩展性.

对数据集中的噪声和异常数据,采用数据清洗帮助除去数据中的噪声,由于数据集中的许多属性与挖掘任务本身可能是无关的.这样能有效减少学习过程中学习相互矛盾的问题.见表1.

例如:记录货物运输信息时,以5个属性温度、湿度、通信、功耗、状态作为研究对象,此外有些属性也可能是冗余的.从数据分析和获取考虑,使无关属性在学习阶段消除,或在数据处理过程作为冗余属性.首先要对需要泛化到更高层次的数值进行转换,例如:属性“湿度”的数值就可以被泛化为3个离散区间,这里采用low、medium和high来表示.

2.2 信息表达

表1 系统数据库Tab.1 System Database

对获取到的信息采用属性值的方式进行表达,采用对获取的信息按照属性进行分类的方法,这样可以使对象分类的次数减少.对于生成每个结点时所采用的合适属性使用信息增益方法来确定.这里对获得的信息作为一个集合,统称为样本集.对集合中数据信息进行划分时,每一次划分都选择信息增益最大的属性作为划分的依据.将信息增益最大的属性称作当前测试分类值.通过每次划分对增益属性的选择,在分类过程中分类成功率大.分类后的样本中错乱和混合的属性减少.

在划分之前对得到的5个属性进行增益计算,按照信息增益的大小进行排列.选取中期最大的作为这次划分的测试分类值.分类后对所产生的结点进行相应属性的标记,将不同类数据分成不同集合,并以分支的形势进行表示.每一个分支表示不同的集合.

设D为一个包含d个数据样本的集合,集合的取值有m种.每种取值对应一个类属性值,所得到的类属性值为Vi,i{1,2,3…,m}.假设di为类属性值Vi中的个数,那么对于所获得的信息进行分类需要的信息量为

其中:Pi数据集合中的对象在类属性值Vi的概率;计算方式可以为di/D.而其中的log是以2为底的函数.

设一个属性A取n个不同的值{a1,a2,…an}.根据A可以将集合D划分为n个子集{D1,D2,…Dn},其中Dj包含了D集合中A属性为aj值的数据样本.若A这是作为本次划分的分类属性,设dij是子集合Dj中属于Vi类别的总数.用当前分类属性A作为划分依据,对数据集合划分所需要的信息熵计算如下

其中:d1j+…+dmj/d项是属于第j个子集的权值.对于子集中属性为A,并且取值等于aj的所有子集之和,除以集合D中的总数得到的.用E A来表示划分结果的好坏,所得到的值越大表示分类划分结果越不好,越小则效果越好.而对于一个给定子集Dj,它的信息熵为

这样根据当前分类属性(A)划分后得到的分类增益为

设Gain(A)为信息熵减少量.它是根据当前分类属性(A)的值进行集合划分所得到的.对每个属性计算信息增益,从计算结果中选择分类增益最大的属性作为当前测试分类属性.对集合D中的数据进行分类,并根据不同类别产生不同的分支结点,所产生的结点被标记为相应的属性,并根据这一属性的不同取值划分样本子集.

对于非类别属性,在信息增益超过类别属性,信息增益不能作为唯一的判断条件,需要对属性的权值进行重新计算,根据事后概率取最大原则,调整权值更新信息的增益.信息分类不是由类别属性的信息增益决定,而是由此次属性的权值决定.

定义1:设属性An为非类别属性,{p c1,c2,…cn}为出现概率,其中{c1,c2,…,cn}为n个不同的待确定的类,则权值q为:

2.3 信息量化和提取

对切割成若干分类的数据,需要进行信息的量化和提取,这里采用等价类进行划分,划分出的等价类就是一组分类;进一步分析每个分类所具备的特征,就可得到分类特征规则.这样的分析具有实际意义,例如:通过对大量状态数据分析,可得出各种状态数据及反应特征.

用一个四元组进行分类特征规则的描述,lw=<T,S,C,G>,其中T是一组对象(或事例)的有限集合,称为论域,设有n个对象,则T可表示为:T={t1,t2,,tn};S表示有限个属性的结合,设有m个属性,则S可表示为:S={s1,s2,,sm};C是属性的值域集,C可表示为:C={c1,c2,,cm},值域c1= {ci1,ci2,,cik};G是t和s的函数,cij=f ti,si.

假设集合T中有14个元素,即表中的14个记录;集合S中有5个元素,即表中的5个字段名,s1='rid';c21=f t2,s1='<00.

定义2:设D是一个数据库,P是总记录数,X是基于S'S'S的等价类,Sx是X的记录个数,则称P' =Sx/P是等价类X的分类支持度.

对于上例,做基于通信的划分,可分为:通信=no,即E1={r1,r2,r3,r4,r8,r12,r14};通信=yes,即E2={r5,r6,r7,r9,r10,r11,r13}两个分类,分类支持度分别为7和7.

在定义过程中关心的是分类支持度较大(大于一定阈值)的数据分类及它们中特征置信度较大的特征.可以把这样的分类特征定义为分类特征规则.

分类特征规则可描述为B Y│(Sx│St〕,其中B为类别;Y为特征;Sx为分类支持度;St为特征置信度.上例通信分类中,不通信的特征置信度为7/7,分类特征规则可表示为通信→不通信︱(7,7).

3 基于可信控制的信息处理

3.1 可信控制分类算法

对信息进行处理,采用基于属性的可信控制分类算法,根据用户数据挖掘请求挖掘关系数据库中定性描述.

设定系统有6种输入分别为:1)获得的信息数据库Dxin;2)采用数据挖掘命令;3)计算分类属性值;4)对计算的属性ai采用泛化处理,计算5个属性ai的属性泛化阈值;5)属性权值调整;6)数据分类操作.

输出的信息为Ff包含基于分类属性值集的分支集合.

算法描述如下:

首先get Dxin(数据挖掘命令,Dxin,属性泛化阈值);

其次scan 5个属性的属性阈值to计算不同属性的当前分类值;//获得每个属性不同值个数,当属性取多个值需进行分析,对属性进行消减

3.2 算法测试

针对以上提出的算法,在学习样本训练后,通过测试样本测试.测试的样本集合如下所示,例如一个冷链物流的数据库如表2.

对给定测试样本湿度进行分类所需要的信息为

计算属性的信息熵,当湿度为high时,

表2 测试情况库Tab.2 The testcase library

当湿度为medium时,

当湿度为low时,

则属性的信息增益

同理可得到温度的信息增益为0. 245;通信的信息增益为0. 3425;功耗的信息增益为0.048.这里通信的信息增益最大,首先根据通信的信息增益对数据进行分类,之后根据温度的信息增益进行分类.

当需要进行进一步划分时出现了异常数据,即当温度大于15°时不能根据功耗进行进一步分类,根据等价类事后概率最大的原则,重新调整属性的权重,根据功耗为fair时所计算的权重为0.033,根据功耗为high时所计算的权重为0.011,经比较取权重大的作为分类依据.

下面例出10次循环和20次循环后的因子效度,通过图可以看出经过多次循环后,因子的效度有显著增加,对分类的影响度也增加.见图1,图2.

应用上述算法,对系统数据库中信息进行数据挖掘,系统处理信息的准确率从73.6%增加到80.1%,查全率从76.2%增加到91.3%.见图3,图4.

图1 10次循环Fig.1 The 10 cycles

4 总结

图2 20次循环Fig.2 The 20 cycles

在信息计算处理和信息存储方面,对物联网中的信息进行信息获取、表达、量化、提取、推理.以现有信息处理方法研究为基础结合物联网中信息的特点,分析物联网信息识别和管理的关键技术和关键参数,采用数据挖掘、重新设置权重、因子效度分析结合的方法处理数据中的正常和异常数据,并用可信信息汇转控制分类算法进行相关仿真,仿真测试的结果表明可信信息汇转控制算法的准确率和平均使用时间满足应用需求,为物联网信息的有效管理和数据处理提供了参考.

图3 系统准确率Fig.3 The system precision

图4 系统查全率Fig.4 The system recall

[1]朱洪波,杨龙祥,于全.物联网的技术思想与应用策略研究[J].通信学报,2010,31(11):2-9.

[2]马爱民,胡玥明,王冠宇.物联网技术在工业自动化中的应用与研究[J].自动化技术与应用,2013,32(6):117-119.

[3]俞文彬,谢康林,张忠能.基于属性分类的数据挖掘方法[J].小型微型计算机系统,2000,21(3):305-308.

[4]全巧梅.云计算环境下WEB数据挖掘的研究[J].信息技术与信息化,2012(5):248-249.

[5]陈章良.基于数据挖掘的预测决策模型应用与研究[J].中国管理信息化,2009,12(1):57-59.

[6]刘志杰.物联网技术的研究综述[J].软件,2013,34(5):164-168.

[7]ZHandong,Z Lin.Internetof things:key technology,architectureand challenging problems[C]//IEEE international conferenceon computerscienceand autom ation engineering(CSAE),2011:507-512.

[8]Jia B,Yang Y,Sun Y,etal.An activeservicemodel for Internetof things[J].Journalof com putational information systems,2012,8(23):9865-9872.

[9]Kopetz H.Internetof Things[J].Real-time systems,2011(1):307-323.

[责任编辑 代俊秋]

The information identify of internetof things based on exchange control technology

LILi1,ZHANG Jun2,LIYan2,ZHANG Dong3

(1.Electrical and Information Engineering Department,Shijiazhuang Institute,Hebei Shijiazhuang 050035,China;2.School of Computer Science and Software,HebeiUniversity of Technology,Tianjin 300401,China;3.Graduate School,HebeiUniversity of Technology,Tianjin 300401,China)

W ith the expansion in scale and the app lication types of Internet of Things,information from the Internet of Things grow s enormously.To identify and manage well such information has become necessary in current Internet of Things technology application.In thispaper,the trusted information exchange control technology dealsw ith expression, quantification,extraction,sharing and processing about the Internetof Things information,w hich canachieve information sharingafteraggregation of theheterogeneous information.Simulationand testing resultsshow thattheaccuracy and average timeof trusted information exchange control algorithms is tomeet the application requirement,which provides a reference for theeffectivemanagementof Internetof Things information and data processing

trusted information;internetof things;exchange;control;technology

TN919.72

A

1007-2373(2014)01-0019-05

2013-09-26

河北省自然科学基金(12210318);河北省教育科学基金(13041904);河北省高等学校科学研究计划(QN 20132023);石家庄市科技基金(131130641A)

李莉(1979-),女(汉族),讲师,博士.

猜你喜欢
增益数据挖掘联网
“身联网”等五则
《物联网技术》简介
基于增益调度与光滑切换的倾转旋翼机最优控制
探讨人工智能与数据挖掘发展趋势
基于单片机的程控增益放大器设计
基于Multisim10和AD603的程控增益放大器仿真研究
抢占物联网
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
得MCU者得物联网天下