基于一种文件缓冲方式操作大数据量数据研究

2021-06-16 05:29郑士芹
电子制作 2021年4期
关键词:数据量数据管理结构化

郑士芹

(北京信息职业技术学院,北京,100081)

0 引言

大数据作为人们普遍认知的概念,带给整个社会发展一种前所未有的便利。当前大数据的发展速度取决于人类对于数据需求的一种反应,人类需求量越大,对数据处理速度的要求也越高,随着信息技术的高速发展,人类通过不断的探索,对数据的收集和处理有了前所未有的进步,也研究出了多种高效的方式来存储和读取数据,来更好地满足人们和社会的需要。一般来说,其常用的方式如下:一是表缓冲,将大数据中记录数据进行集中读取,存储至内存后再对数据进行集中处理;二是行缓冲,将大数据中所需要的数据进行逐一读取并立即处理,再存储至内存中。但通过现有研究发现上述方法存在一定不足,因此本文针对大数据的特点和一种文件缓冲方式的数据处理方式进行阐述。

1 大数据量数据特点

当前,大数据技术正在引导着这个社会的发展,从大数据的发展情况来讲,可从数据本身和数据处理两个方面来进行理解,将大数据分为狭义和广义之分,狭义的大数据仅仅从字面理解,表征为数据的规模和形式,表征计量至少为PB、EB和ZB的数据规模,包括结构和非结构化数据,对于大数据量数据我们通过两个方面进行理解,在横向方面表征为数据量的大小,在这一角度来说,大数据是表示广泛的数据量,表征为数据过多,规模巨大。在纵向方面进行理解表征为结构化数据,可分为结构和非结构化数据,表示为数据的多样性和不确定性。而广义的大数据不但包含数据的规模和形式,还要将数据的处理方式纳入其中。

根据在前文中对于大数据的历史发展和大数据时代背景所述,对于大数据的实质涵义我们有了更深的理解。因此,对数据进行合理的分类显得尤为重要,将有价值的数据资源进行累计,而将不重要的数据进行驱替,可大大减少数据库服务所带来的高额成本,避免出现由于不必要的资源占用有限的数据库空间,造成资源的浪费,导致系统出现缓慢的情况。不论从哪种角度出发,大数据的核心研究是数据的积累和处理,基于此项目的,高效的处理方式的研究将成为行业发展的关键。

2 大型关系数据库适应领域及技术原理

随着信息化建设的不断发展,大型关系数据库在各行各业中得到深度的推广和应用,定制功能和专项服务使得这一技术更好的在各个领域中发挥着不可或缺的力量,进而使得用户数量和业务不断提升,导致人们对数字信息化服务需求不断上升,大数据量数据也不断上升。进而引发的结果导致在数据的采集、响应的速度、计算的速度和存储能力方面出现了一定的压力。在以上所述的方面中,数据模块的研发者通常对数据模型关系、数据的表现方式、数据的管理、编写的方法、数据的存储位置以及数据的存储大小采用文件缓冲方式进行结构设计。2001年,高德纳咨询公司将大数据进行归纳总结为巨量、速度和多样性,由此可以看出,早在大数据发展之初,人们早已意识到数据的数量之大。

在大数据提供了丰富数据的同时,人们对于数据响应的要求也越来越高,这也为数据存储方式提出了更为苛刻的要求,不再仅仅满足存储数量的同时,还对反应速度有了一定的要求。这也就要求国内外学者在对大数据量数据处理方式的研究上提出了更高的挑战,以满足人们对于数据反应时间控制在可接受的范围之内,通过对大数据量数据的处理方式和存储方式进行同时扩展,达到在高速增长的数据量的同时保证响应的目的。另外,大数据可应用于不同的服务对象,来自设备的大量数据进行实时分析成为重要的需要,不同的用户在数据仓库方面存在多维分析处理的问题。

大数据管理架构如图1所示,通过对大数据管理架构分析来可进一步了解大数据存储的方式和处理技术。在图1左侧可以看到,原始数据通过数据抽取和预处理,将用户需要数据进行必要的分析处理后的数据从原始文件中进行抽取提供给用户,对于大数据中频繁使用的数据进行分析处理,将这些必要的数据抽取至上一层数据库中以便更快的分析和供用户使用,达到提高效率的目的。图1右侧则表示为由上向下的存储方式,在响应各行各业大数据的应用中,需提供大量的数据支持,进行存储和处理,在自上而下的过程中内存数据库中的数据进行抽取并分析处理,然后将超过分析时间的数据下移至磁盘存储引擎以便更好地对历史数据进行访问和分析,当数据量超过存储量时,将多余的数据量转存至底层存储系统中。在当前这种存储结构下,分析数据所采用的是顺序访问的分析方法,内存数据库成为高性能存储和处理引擎从而保证将导入的数据进行快速的分析和处理,以满足所需。

图1 大数据管理架构

如图2所示,表现出数据库是一个数据共享访问平台,包含完整的用户信息管理、用户访问权限、数据管理等,为结构化数据的处理提供了良好的基础,但缺乏对非结构化数据的管理和处理能力,数据存储没有进行有效的分类,因此针对数据库的自身特点,分析数据量的大小、访问的频率、数据增长的速度、数据的流向等特点,对数据进行及时有效的分类,进而根据数据的不同设计所对应的存储方式和处理方式,可更快地提高访问效率。

图2 数据共享访问顺序图

3 操作大数据量数据分析应用

大数据的有效应用暴露出了对于传统数据库分析和管理方式在某些领域存在的种种问题,如缺少针对行业所存在问题所提出的针对性的数据处理方式,缺少对大规模数据量的计算保障,缺少对于用户需求的灵活选取等问题。针对在数据处理方面出现的问题,在对所获取的数据进行挖掘和关联分析的时候采用文件缓冲的方式进行数据量的数据研究,其基本操作过程是,先将所需要处理的数据库中的记录进行读取存储在临时文件中,通过将所存储的数据库在临时文件中进行合理的处理,处理结束后将临时文件进行删除,将有效的数据进行逐一记录至内存中。通过采用计算机对文件缓冲方式进行数据处理,其部分程序如下:

通过此方法,在数据挖掘和处理上取得了良好的效果,主要是由于在整个数据处理过程中,需要多次进行计算,仅仅只要读取数据而不会对数据进行更改、删除和插入等操作。

4 结论

大数据作为当前时代发展的重要趋势之一,对于数据库的管理以及大数据量数据的处理方式的研究尤为重要。针对当前大数据的发展中所提出的问题,本文所采用的处理方法也达到了一定的优化效果,希望为后期大数据量数据处理研究方面提供一定的经验参考。

猜你喜欢
数据量数据管理结构化
企业级BOM数据管理概要
顾丽英:小学数学结构化教学的实践探索
借助问题情境,让结构化教学真实发生
定制化汽车制造的数据管理分析
航发叶片工艺文件数据管理技术研究
深度学习的单元结构化教学实践与思考
高刷新率不容易显示器需求与接口标准带宽
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
AMAC
数据挖掘在学生成绩数据管理中的应用研究