大数据分析在企业信息化建设中的研究与应用

2020-11-20 02:13李东远方
中国信息化 2020年11期
关键词:海量模型分析

李东 远方

大数据分析在很多的领域都起到了非常重要的作用,数据的来源多种多样,数据的产生和数据的提取涉及到各种不同的应用系统、信息平台以及传感器等软件和硬件。大数据是海量数据的组合,将这些海量的数据通过有效的、准确的方式进行利用,是当前大数据研究的一个重要方向。本文首先对大数据、大数据分析以及传统数据分析的区别等方面进行了阐述,其次对大数据分析的相关技术进行了研究,最后对大数据分析的应用进行了研究。随着信息化社会的不断发展,以网络为介质,各种应用系统、信息平台以及传感器等软件和硬件每时每刻都在生产着数据,这些海量的数据中存在着大量有价值的信息,如何从海量的数据中提取到企业所需要的、有价值的数据信息,是大数据分析主要解决的问题。

一、大数据

(一)大数据定义

大数据是一种数据量非常庞大的数据集,通过人工的方式无法进行相关的数据分析和运算,数据通过某种方式能够结合成各种数据结构,这些数据结构能够为一些涉及大数据分析的机构或企业提供相应的数据参考和数据分析的依据。大数据中所说的大是相对而言的,这个大和过去我们所能涉及到的数据来说是非常庞大的,但在未来大数据所规模还会发生本质的变化和飞跃。大数据的特性主要包括规模性(Volume)、多样性(Variety)、高速性(Velocity)和价值性(Value)4方面。大数据中对于某一小部分数据的价值是不稳定和不确定的,但是从海量的数据中提取到的数据会产生出很大的价值。

(二)大数据分析定义

大数据的含义并不是侧重于数据量的庞大,它的重点主要是实现对这些海量的数据信息进行相应的研究、分析以及运算等操作,经过处理以后这些数据中所隐藏的、分散的有用信息才能被提取出来。随着社会信息化技术的发展,各领域、企业的研究和发展中对大数据的依赖越来越高,同时也会产生出大量的数据,在这种情况下,大数据涉及到的4大特性也发生了巨大的变化,对于这些数据是否有价值,取决于对数据的分析方法是否合理,大数据的分析方法主要包括5部分。

1.可视化分析

大数据的分析在各种领域中都有可能涉及到,使用该技术的人员比较广泛,对于所有的人群而言,可视化分析作为最基础的大数据分析方法,需要被所有的人群掌握。在可视化分析中,数据能够以图形的方式为用户展示出其所具有的特性,通过对这些特性进行相应的对比,用户能够得到数据中存在的一些关联特性。

2.数据挖掘算法

大数据分析的核心是数据挖掘,数据挖掘涉及到的算法类别众多,一般都是在对数据的类型和格式进行分析的基础上,深入的研究数据集中的内部结构,通过各种运算的方式从海量数据中提取有价值的数据信息。大数据分析中的数据量一般都非常的庞大,通过数据挖掘的方式能够在很短的时间内完成对数据的分析处理,大大提高数据的可用性。

3.预测性分析

预测性分析在数据分析技术中有着非常重要的作用,该分析方法是在数据挖掘技术的基础中,提取出有一定联系的数据,这些数据类型可以是不同的,根据数据类型的要求完成相应模型的建设,同时再将一些新的数据引入其中,最终来完成对未来一些事情的预测。

4.语义引擎

大数据分析和互联网技术是分不开的,通过互联网相关技术能够将用户在互聯网中的一些操作提取出来,根据操作中的一些关键信息来对用户潜在消费进行预测,再根据预测的结果来对用户发送相应的信息,这样的技术在产品营销中有着非常重要的作用。

5.数据质量和数据管理

对于大数据分析结果的准确性和有效性很大的原因在于数据源的质量和对数据的管理,在科学研究和领域数据分析中,高质量的数据源经过高效的数据管理分析,能够提取出更加真实有效的数据信息。

(三)大数据分析与传统数据分析的区别

大数据是海量数据的组合,将这些海量的数量通过有效的、准确的方式利用起来,是目前研究的热门方向。通过数据的产生的历程能够将数据分为数的产生、数据的形成以及大数据的产生三大阶段,随着信息化技术的不断发展,各种数据处理软件的产生让数据的提取和处理比过去的传统的方式更加的简单快捷。

对于数据处理,传统的方法虽然受到数据库存储容量的限制,但数据在处理中涉及到了提取、转换以及加载和完整过程,也就是说,传统数据在存储到数据仓库前已经过了数据清洗,经过清洗后这些数据能够被模型系统所理解。它的缺点是数据集比较有限,在进行数据分析时,涉及到的数据范围相对有限。对于大数据分析中涉及到很多的非结构化数据,这样的数据传统模式下不易进行捕捉,使得大数据分析有着很高的挑战性。

传统的数据分析过程中,首先对数据与数据的关系进行建立,然后要对数据模型进行制定,最后才是对数据的收集以及分析工作。大数据的数据源的格式涉及到图片、视频、网页、文件、无线射频识别码等多种多样的非结构化形式存在,这些数据和常规的结构化数据完全不同。大数据分析一般情况下通过动态建模的方式进行分析,首先对实时的数据进行相应的建模工作,在建模过程中实时的将检测到的数据添补进来,逐步扩大建模范围,这样的过程具有很强的实时性。

在大数据分析中,越来越多的半结构以及非结构化的数据通过各种渠道产生,这样的情况下数据源中的数据无法确定是否都是完整的和准确的。类似于对人口的统计,若要在某地区完成一次人口数量的绝对准确的统计是很难实现的,因为在统计的过程中,人口是存在流入和流出的,人口数量存在实时的变化。

和传统数据分析进行相应的比较时,大数据分析涉及到的数据源广泛,所采用的分析方法和分析模式都有很大的区别,但是所采用的思维方法和传统分析的思维方法是大同小异的,主要的区别在于数据源存在差异,所以需要通过不同的方法进行相应的处理。

二、大数据分析技术研究

(一)云存储技术

随着信息技术的发展和应用,大数据的类型在增多,数据也在迅速的增长,大数据的存储也成为一个重要的技术因素,存储方式会对数据分析以及存储成本能够产生很大的影响。因此,对数据存储的需求也需要进行深入的研究。云存储技术和大数据的结合能够实现数据的高效存储,云存储主要对用户提供一种在线的存储模式,所有的用户不用在担心和关注存储容量的大小、存储设备的类型以及数据存储的位置,只需要根据存储空间等按需付费。

本文中研究的云存储技术是云平台中分布式的存储架构。所有的分布式存储以及数据管理都是围绕着数据中心进行的,根据角度的不同对数据中心进行划分,能够将数据中心划分为以交换机为中心的结构、以服务器为中心的结构和混合结构三种。从系统建设角度看,由于历史遗留存储信息系统的缘故,云存储的数据中心架构主要由传统的数据中心的优化、基于云计算的数据中心或两者并存三种形态出现。基于云计算的数据存储中心是云存储服务的核心,如图1所示,在并行编程模型的调度分割下,通过并行数据库和分布式文件系统来完成对结构化以及非结构化数据的存储工作,同时通过云服务相关的协议,并以云服务涉及到的相关接口通道来完成对用户数据资源的计算服务。

(二)提升数据可用性

数据分析中存在大量的、有着复杂结构的数据,这些数据的来源多种多样,数据的产生和数据的提取涉及到各种不同的应用系统、信息平台以及传感器等软件和硬件。在项目中涉及到大数据分析,首先要对相关数据进行海量收集,数据作为数据分析的基础,分析是一个简单的过程,但对数据进行预分析这个过程是一个比较复杂的过程。本文中研究的数据可用性主要是针对数据预分析中涉及到的相关问题,也就是要对数据一致性、准确性及时效性等进行研究。

从基础理论、算法和工程技术各层面提出了大数据可用性领域严峻的挑战性研究问题,对大数据可用性的理论与技术研究进行了重要的探索。另外,大数据分析的前提必须要保障数据的质量,从流程、技术和管理视角讨论了大数据时代如何确保数据质量问题。经过研究分析,当前大数据的主要来源涉及到web数据、应用系统数据、传感器数据以及科研数据等。所有的数据还需要针对详细的业务或者研究的需求,把各种不同类型的数据进行有效处理,在处理的过程中,数据会实时的动态的变化,这时也需要在处理的过程中对数据进行相应的增减,所有的操作都要符合数据的数据一致性、准确性以及时效性的要求。对数据可用性的把握要落实在数据可用性的理论和技术两个方面。

(三)优化数据分析模型

在数据分析系统领域中,主要涉及到数据库、模型库以及知识库三大部分,这三部分之间相互关联,同时也存在很大的差异。在数据分析系统中已经建设有知识库和模型库后,再对库中的数据进行分析,分析所得到的结果有首重要的意义,一是能够把分析结果重新的导入知识库中,将这些结果数据转为数据储备,二是能够根据这些数据来丰富模型库,三部分的关系如图2所示。

模型库子系统中主要涉及到模型库以及模型库管理系统两部分,通过名称就能够理解到,模型库中涉及到很多的数据模型,根据模型的复杂程度分为简单模型和复杂模型,根据模型结构能够分为单一模型和组合模型。模型的种类比较多,能够是基于传统的数理统计的数学模型,也可以是基于人工神经网络、遗传进化计算和模糊系统的计算智能模型。系统决策的整个过程能够按照实际需求复杂程度来确定采用单个模型还是广义模型进行分析。根据大数据分析的具体过程进行判断,数据非常的多并且結构也非常的复杂,通过将简单的以及组合的模型进行分析,在短期内也很难完成对数据的分析。所以,对大数据分析的整个过程中,对模型库的优化主要从两处来实现,一是完善当前所采用的模型的实际参数,使得模型能够进一步的符合数据分析的需求;另一个是通过增加模型数量,将模型间进行合理的组合来完成数据分析任务。

(四)资源的弹性调度

根据大数据产生的特性进行分析,能够把大数据分析的需求分为周期性需求和非周期性需求两种,周期性需求是在某个特定的时间点重复出现,所以,能够将数据处理资源提前准备好,保障数据分析的需求。非周期性需求没有固定的时间周期,很多事情都是突发的,这种情况就要对资源进行弹性的进行分配,通过以上能够看出,云计算资源管理的效率是大数据分析的一个重要因素。云计算平台是基础虚拟化技术的一种网络服务模式,通过网络能够为用户提供各种硬件服务、软件服务等。在云服务中,计算资源也是以服务的形式提供给用户的,用户只需要关心在云服务中的服务质量和酿成。通过云服务体系,能够高效的、合理的完成对大数据的周期性以及非周期性的数据分析。

大数据随着社会生产会不断的增多,特别是通过社交网络以及各种应用平台能够产生大量的数据,这些网络中的数据的产生有很大的差异,并且存在很大的不确定因素,结合云计算技术可以对大数据进行合理的规划管理,通过MapReduce模型能够批量的完成数据分割,通过云计算服务质量协议,能够大大提高服务质量。

三、大数据分析应用

当前,我国已经成为一个工业化向信息化进行转型的大国,工业化为核心的生产经营主要涉及到大生产、大物流以及大零售。所有的服务模式都是以消费者为核心,通过消费者来促进和改善服务模式。利用大数据技术通过相关关系来分析这些海量的数据,评估产品或者服务是否令人满意,从而预判消费者是否会为其他类似的产品买单,最终决定这款产品或者服务是否应该继续推向市场。这种决策流程的缩短与数据化处理,真正地把消费者置于整个产品和服务决策的中心地位。

大数据技术的产生和快速发展,能够帮助各大企业从消费者的心理层面去获取消费信息,实现企业精准营销。随着网络以及相关技术的发展,消费者们能够足不出户,通过网络平台进行网上购物,在网络上收集消费者的购物数据信息,相对于去实体店进行逐个的调研,会更加的容易并且准确,并且数据收集的成本也比较低。对于企业来说,对收集到的数据信息进行分类和分析,这个过程是一个非常复杂的过程,该过程主要是为了在海量的消费数据信息中能够提取到对商业决策有指引性的数据信息。企业需要能够通过这些数据分析的技术去提高自身的营销能力和发展方向,同时也要不断的提升自身的制造水平,满足广大消费者的需求。

四、结论

大数据分析已经不是一个概念,它已经真实的被广泛应用到大数据管理和分析当中,如今已经存在各种样的大数据分析技术及方法,但随着社会的不断发展,数据不断增长和数据结构不断更新,大数据分析技术也会不断的更新。

作者单位:国网河南省电力公司

猜你喜欢
海量模型分析
自制空间站模型
分析:是谁要过节
回头潮
模型小览(二)
圆周运动与解题模型
一个图形所蕴含的“海量”巧题
从教材中突围,走课内海量阅读之路
离散型随机变量分布列的两法则和三模型
Hadoop构建的银行海量数据存储系统研究
吃饭谁买单