神软大数据平台在政务领域的应用

2017-06-05 13:50
软件和集成电路 2017年5期
关键词:检索虚拟化数据库

大约在十年前,大数据刚刚提出来,那时候BAT、谷歌、Twitter这样的大型互联网企业,都有一个很实际的需求,就是他的用户数超过了1亿,数据量也非常庞大,那时候就提出了大数据。十年过去了,大数据推广到现在,已经深入到各个领域。我们的思路就要过渡到现在解决实际应用的问题,也就是数据多变化、价值密度低、数据的准确率低等问题,需要在实际应用当中提升数据的准确率,才能更好地服务社会大众。

我们神舟软件是中国连续多年的百强企业,强项就是做产品:第一个强项就是做工业大数据所需要的工业信息化产品,从CAD画图到三维造型,再到数字加工的一整套体系,形成了一整套的产品链。第二个强项就是做数据库处理。神舟软件是以做自主产品为基础和核心的企业。这些年,我们从数据处理方面接触到政务应用。我们可以看到,政务已经提到云上来了,很多的数据分析处理能力欠缺,相比支线分析,关联分析可能做得相对少一些,比如要画一个人物的画像,除了看他的社保数据,我们还要看他的交通数据、金融数据等,这样才能画出整个人物画像。

现在大数据应用最多的还是垂直行业,这些年我们也做过垂直行业,也有融合分析,这是我们发展的重点。另外,现在专业领域的大数据跟移动互联网结合得比较多,大部分基于移动端提供服务。大数据如果达到TB级以上,就需要分布式的技术,也就是大数据的组合技术。另外云的管理、数据挖掘分析能力、大数据的人才、大数据的产品都要跟得上。

从产品现状来看,首先我们在采集方面是比较齐全的,采集之后还做分析、检索等,这样分析就更具体了。因为我们是做通用产品,会接触更多的领域,包括我们做航天发射的时候,计算发射的整个轨迹时,要实时地画出来;做工业信息化的时候需要智能地生产。这都是实时性比较高的产品。

我们产品都很有特色。在计算资源,即存储网络和IP网络上,我们的特色在于应用虚拟化;在做数据治理上,我们是从分析需求角度分析数据,在梳理完数据以后,要衡量用哪些手段和工具去分析和处理数据,再建模型、做方法库,这些是数据治理的要素,我们围绕着这几个要素去构建产品线。我们在构建数据处理平台各个层次的产品线时,这些产品需要装在云服务端,在我们的虚拟化平台上,可以很好地实现本地不留数据的处理方式,我们用户可以用本地不留数据的方式来处理业务,还要对前端提供查询服务,同时提供准确、严密的授权。同时我们的资产平台也能管理用户的数据资产。通过这几个环节,我们构建了一个基本完整的大数据的处理平台。

一些大的用户需要完整的平台,有的用户只需要一部分平台来构建行业性的应用。我们这个平台的特点:第一,我们以自有产品为主,并与经典的信息化基本一致,都采用标准的社科语句,能够实现大数据分析。我们提供的接口使大数据的开发和管理更加简便。在上下游的产业链上,我们从硬件、虚拟化、上层的分析到资产管理,形成了一套全生态的整体方案。另外,我们这个平台可以支撑TB级的系统。我们的采集平台有各种类型的采集工具:数据库方面,既有通用数据库,也有变形式数据库;在检索方面,我们在解决TB级系统时,需要快速地检索、分析,传统的方式就不能满足要求,我们有自己专利的产品,能够解决我们在PB级数据量的快速检索和分析;在文本类的分析上,我们神软智汇大数据产品是分布式的,通过类似于集群的提交模式,可以把文本任务分解到底层的存储上执行,然后获取结果,返回到上层应用;在数据模型上,很多企业会用IBM的数据挖掘产品,我们自研的产品目前积累的数据模型比SPSS(统计产品与服务解决方案)还要多,SPSS标准的模型是20多个,我们现在积累了40多个。

我们国家级的重大工程,其中一个工程每天涉及数据条数是2.3万亿条,存储10天,就是23万亿的存储量。2.3万亿是个什么概念,“双十一”期间淘宝的交易量是1亿笔交易,产生的数据大概在60~70亿条,而我们的系统每天是2.3万亿,相当于是淘宝的几百倍。在这么大的数据下,用我们的分布式系统实现了及时地分析和查询管理,我们还做了很多这样的国家级工程。另外,我们也做了电信、金融的数据分析。我们跟清华合作车联网,通过一些实时数据分析,实现节能和智能调度。我们给新闻出版总署做了文本分析的大数据平台,它的所有报刊都能够智能地画像、分析。在农业领域涉及大量的数据类型,不光是本身的农产品价格,还有自己从300多个小的批发市场采集,另外通过协调数据、交换数据、购买数据的方式,以及融合本地的氣侯数据、气象数据,林业数据、水产数据,将各种各样的数据汇集在一起,形成一个价格的分析平台。这样的多数据融合,就涉及国家政策方面的协调,在系统做完之后,可以体会到,现在政府对数据还没有完全开放。没有完整的立法,就做不到完全开放,加之各个部门有自己的服务范围,同时又有数据安全、管理权限的问题。

猜你喜欢
检索虚拟化数据库
CNKI检索模式结合关键词选取在检索中的应用探讨
通过实际案例谈如何利用外文库检索提高检索效率
瑞典专利数据库的检索技巧
英国知识产权局商标数据库信息检索
数据库
数据库
数据库
数据库
浅谈虚拟化工作原理
用户怎样选择虚拟化解决方案