大数据与集群智能分析

2016-05-30 04:01陈凌子
大东方 2016年8期
关键词:数据挖掘集群动态

陈凌子

摘 要:群体智能(Swarm Intelligence)是一种在自然界生物群体所表现出的智能现象启发下提出的智能模式。基于当前大数据蓬勃发展的现实环境,本文在介绍群体智能模型的基础上,对大数据和集群智能两者间关系进行了进一步梳理,即集群智能是进行大数据分析的一个重要技术手段。

关键词:大数据;群体智能

1引言

人们在很早的时候就对自然界中存在的群集行为感兴趣, 如大雁在飞行时自动排成人字形, 蝙蝠在洞穴中快速飞行却可以互不碰撞等。对于这些现象的一种解释是, 群体中的每个个体都遵守一定的行为准则, 当它们按照这些准则相互作用时就会表现出上述的复杂行为。基于这一思想,Craig Reynolds 在1986 年提出一个仿真生物群体行为的模型BOID[1]。一个显著的标志是1999 年由牛津大学出版社出版的E Bonabeau 和M Dorigo 等人编写的一本专著《群体智能:从自然到人工系统》(“Swarm Intelligence :From Natural to Artificial System”),他认为简单智能体(agent)涌现出来的集体智能[ 2]。

2群体智能遵循的原则

Millonas M M 在1994 年提出群体智能应该遵循五条基本原则[3],一是邻近原则(Proximity Principle), 群体能够进行简单的空间和时间计算。计算可以理解为群体根据环境刺激所作出的行为反应,通常是为了最大化群体行为的效用。二是品质原则(Quality Principle), 群体能够响应环境中的品质因子,例如食物质量和居所安全性。三是多样性反应原则(Principle of Diverse Response),群体不应将自身资源限制在很小的范围内,而是应该广泛分布以应对环境的剧烈变化。四是稳定性原则(Stability Principle), 群体不应在每次环境变化时都改变自身的行为,因为改变需要消耗能量,而且未必有正收益。五是适应性原则(Adaptability Principle), 在值得投入能量改变行为时,群体能够在适当的时候改变自身的行为。

3大数据与群体智能

3.1传统数据分析中存在的问题

传统算法存在局限性。一是大规模问题,在日常的工作和生活中,人们对数据的收集越来越多,数据被储存在不同领域的管理系统中,成爆炸式增长。 二是高维问题,在高维空间中,数据集存在数据分布稀疏、噪声水平提高、属性维度高等特点,当维数达到一定高度时,传统意义上的数据距离和区域密度将会变得没有意义,数据集上的距离差将会逐渐缩小,甚至出现“距离趋零现象”。三是多目标问题,在应用于金融、工业、生产管理等相关领域时,往往有多个需要优化的目标。对于多目标优化问题,各个优化目标之间可能存在矛盾和制约,因此要寻找一组优先级别最高的解集来达到各目标之间的平衡。 四是动态问题。传统的数据挖掘技术只是针对静态的数据进行分析处理,而不能很好的动态的掌握信息的发展,动态数据挖掘是综合现在和未来于一体的知识提取过程。

3.2大数据挖掘的瓶颈

数据挖掘技术的发展存在一定的瓶颈。一是数据产生的速度和数量、应用的规模和范围在不断地扩大,因此产生了庞大的大规模数据集,原来的一些数据挖掘方法不能在短时间内挖掘到有用的信息、挖掘信息的质量下降甚至无法执行;二是数据挖掘研究对象的特征维数越来越高,产生了大量的具有冗余特征和噪声特征的高维小样本数据,直接进行数据挖掘容易造成维数灾难;三是在数据挖掘的过程中,现有的挖掘方法大多缺乏指导和控制的交互性;四是对各类算法和模型还没有形成正确的评估体系,难以对数据挖掘的实际项目起到指导作用。五是数据的复杂性。这种复杂性并不止源于数据的本身,更多体现在多源异构、多空间和多实体的交互动态性,难以用传统的方法从大量动态甚至无法辨识的数据中提取出有用的信息。

3.3集群智能在大数据挖掘瓶颈技术的突破

一是数据的某一个维度是对样本点某一方面特性的描述,在高维数据情况下,许多算法(比如聚类模型)失效。但局部敏感散列算法的应用能帮助寻找到高纬度空间的最近临界点。二是在大数据涉及的数据挖掘多目标优化问题中,粒子群算法和蚂蚁算法使用较多。比如利用小生境技术,同时在算法的运行过程中加入了精英集策略,提出了一种改进的多目标优化粒子群算法,这种改进方法有效地提高了算法的运行效率。三是数据的动态变化问题。大数据使用中,Web使用数据、实时交通信息。而集群智能方法已经被广泛应用于静态和动态优化问题中迭代策略的改进蚁群算法,从而改善了基本蚁群算法在动态优化中的性能。

3.4大数据与集群智能之间关系

经过我们查阅资料和小组成员之间进行讨论,我们得出了大数据和集群智能之间的关系: 大数据是柴,获取数据背后的价值是砍柴,而数据挖掘中对集群智能的使用则是砍柴刀。因此,两者间本质上上是目标和工具的关系。

参考文献:

[1] Eberhart, Russell C. Swarm intelligence =[M]. 人民邮电出版社,2009.

[2] Dorigo M, Stützle T. The Ant Colony Optimization Metaheuristic: Algorithms, Applications, and Advances[M]// Handbook of Metaheuristics. Springer US, 2003:250-285.

[3]Millonas M M, Dykman M I. Transport and current reversal in stochastically driven ratchets[J]. Physics Letters A, 1994, 185(1): 65-69.

(作者单位:长沙民政职业技术学院)

猜你喜欢
数据挖掘集群动态
国内动态
国内动态
国内动态
探讨人工智能与数据挖掘发展趋势
动态
海上小型无人机集群的反制装备需求与应对之策研究
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
基于并行计算的大数据挖掘在电网中的应用
勤快又呆萌的集群机器人