“大小”数据之争,到底哪个更有价值?

2019-08-06 09:21
软件和集成电路 2019年6期
关键词:价值企业

究竟是大数据更加重要,还是小数据更有价值?对此,中钢集团信息管理部总经理李红和昆仑数据首席数据科学家田春华给出了各自的见解。

在过去几年,“大数据”一词炙手可热,很多企业、用户都对大数据十分感兴趣。但是在实际应用当中,我们看到大数据应用的状况似乎并不如想象中的普遍。

世界著名品牌营销专家马丁·林斯特龙指出,大数据虽然连接了千万个数据点,可以准确地产生相互关系,但是当人类按照自己的习惯行动时,大数据分析通常不会十分准确。所以,在大数据之外,挖掘用户需求的同时,更重要的是通过对一个小群体的亲身观察和对小数据的常识判断,捕捉到这个社会群体所体现出的文化欲望,满足这些用户的需求。

那么究竟是大数据更加重要,还是小数据更有价值?对此,中钢集团信息管理部总经理李红和昆仑数据首席数据科学家田春华进行了讨论。

Q:您认为大数据更有价值,还是小数据更实用?

李红:我认为不能武断地说大数据、小数据谁更有价值,因为两者不是对等的概念,应该说大数据有大数据的价值,小数据有小数据的价值,取决于数据的应用。

田春华:我支持的数据是大数据和小数据的融合,因为“数”是载体,“聚”才是我们的目的。

Q:究竟什么是大数据、什么是小数据,两位专家如何定义?

李红:我曾经在行业工作了十几年,一直从事统计工作,由于我个人的工作经历,我对数据比较敏感。

我认为小数据一般是指传统上对数据的使用,在过去由于受技术、资源的限制,我们在采取小数据时有明确的目的,对小数据的用途赋予了很明确的要求。在取得数据时,数据本身就被赋予了很多信息和知识内涵,否则我们就会浪费资源。

大数据和小数据是不对等的,因为现在技术进步了,我们可以简单而又方便地应用大量数据,所以人们给数据定义了四个V(多样化、体量大、速度快、价值高)。大数据的概念是什么?是将原生态、原始的数据经过一系列的清洗、打标签、标识、建模等手段,使原始数据产生价值。所以,在四个V中,才会有价值高这个概念。

无论是小数据还是大数据,我们都要理解各自的用途。为了满足对现象的描述,对经济发展概念的理解,我们花了大量的精力,对小数据进行指标设置、标准的界定,然后对数据反映的情况进行分析和甄别,这是小数据的应用。

在传统应用中哪些是小数据?小数据包括了GDP、销售率、成本核算等这些大量的传统数据。

大数据的用途非常广泛,主要聚焦在互联网和电商企业,大数据在这些企业中体量十分庞大,并且有很多维度,还可以实时动态更新。当拥有这些数据后,我们就可以通过分析提高自身的能力。

比如通过大数据,可以进行用户画像、精准营销、预测性维护,这些能力是小数据达不到的。

所以,我的观点就是,大数据和小数据不是对等的概念,大数据和小数据各有价值,取决于在不同的领域有不同的用途。

田春华:不能从内、外这样的角度来区分大数据和小数据,从学术上来讲,大数据也不是一个严格的学术名词。

谈到大数据,很多人混淆了数据的两个层面:

1.大数据技术。

2.大数据思维。

从数据技术的角度来说就是四个V。目前,大家总会强调数据量的问题。比如Google在早期解决的数据问题非常简单。他们在面对海量数据时,利用高性价比的方式来代替昂贵的存储介质、商用服务器等,因为大量搜索低价值密度的数据,虽然数据量大,但是价值密度比较低。这时如果再用昂贵的存储介质,银行、电信等行业就无法支撑下去。

最早互联网行业发展大数据的动机很简单,就是为了降低成本。所以,如果用普通的机器来做,就带来了一个新的问题,各类机器的差异性较大,而且机器的计算是单节点,性能较低,怎样组成一个可靠性强、吞吐量大的高级节点计算,这就需要大数据技术,包括如何解决计算中的瓶颈问题,这是大数据技术的起因。

数据思维就是如何依靠数字化转型,来帮助企业审视企业自身的业务,支持企业转型和发展。

但是大数据就要体现全面性。我们接触最多的是石油行业,在过去,小数据覆盖了很多专业领域,包括管理性维护、施工系统等,而这些系统都可以反馈数据,但是各个数据都没有打通。

通过数据梳理后,数据虽然打通了,但是却无法运行。这不仅仅是运维的问题,也可能是施工的问题。所以,在以前,小数据或者是专业数据是割裂的。在大数据时代,每个企业做的第一件事就是把數据打通,建立全生命周期的数据管理体系,从建设期到移交期,再到运维期。但是这还不能称为大数据,应该称为数据思维。

对于制造行业,在整个生产环节中,如果通过数据关联,我们可以把生产过程的全息画像描绘出来再进行分析,可能会发现原来在工艺或者是传统制造之外的东西,这是数据思维或者是大数据思维带来的一些新的东西。

主要的区别在于数据的利用方面,就是如何利用数据。

大数据、小数据二者的区别是相对的。小数据的价值密度高,大数据的价值密度低。另外从统计的角度来讲,我们从来没遇见过大数据,因为人们的好奇心永远超过数据量。对于数据科学家来说,总是感觉数据不够。因为我们的兴趣是呈指数增长的,而数据量是线性或者是多项式增长,所以我们的增长速度远远超过数据。

Q:为什么在大数据时代,我们又重新提起小数据?现在的小数据跟之前的小数据有什么不同?

李红:目前,大数据通过互联网的发展,越来越受到各界追捧,很多人认为一切都可以利用大数据来解决。但实际上并不是这样,为什么不能忽视小数据?什么才是数据的价值?

1.数据来源。

2.数据加工。

3.数据使用。

应当从这三个方面来看二者的区别。

从数字来源看,互联网企业强调数据一定来源于最原始、最本源的状态。就像矿石一样,埋在地下,只有挖出来它才有价值。所以,现在大量的机器数据、行为数据等,都可以变成数据。

而小数据则不同,为了获得知识,我们要定位自己的需求、有较强的目的性,才能保证付出较小的代价。因为在庞大的数据量面前,我们就没有足够的力量和能力进行处理了,所以在获取的过程中就会出现取舍,因为取舍,就会忽视很多事物的本质,数据量就会变小。

只有赋予了数据的定义、内涵、算法,我们所获取的数据才会变得有价值。但是小数据和大数据的区别就是,小数据舍弃了很多有价值的东西。

从数据来源的角度来说,小数据是人类社会、经济社会活动的基础。不能只依靠挖掘大数据,小数据也可以支撑我们对事物进行经济分析。

从加工的角度来说,大数据的加工很简单。现在的算法有很多,比如要识别一个东西,必须通过算法、算力和数据的不断迭代,才能精确识别,才能确认大数据是否存在价值。

有些BAT的专家曾经讲过,尽管手里有数据,也不知道怎么用。比如人工智能需要通过数据建模不断迭代,才能体现识别能力。这是大数据的加工方法。

小数据的加工方法相对简单,通过统计、汇总、建模,也可以通过数据展示来处理小数据。我们现在所看到的图表、报表、简单图形等都非常直观,它们能够让我们很容易地知道我们想达到的目的,验证我们预测的目标和结果。

相比之下,通过大数据我们很容易获得更深层次的东西。因为有数据,我们通过加工、建模,可以把一些显性的数据利用起来。小数据只能用一些能看得到的显性数据,而大数据可以发现更深层次的东西。从数据加工来说,小数据加工简单、直观,大数据需要通过复杂的处理。

从数据的最终使用角度来看,在过去,小数据要支撑我们的各种决策,直到现在也如此。举个例子,从人力资源理论来讲,一般的物理情况下,一个人能管控七个人,因为人的手、目测距离有限。那么七个人以上怎么办?如果一个大公司有几千、几万人,一个企业在全世界都有部署,那么依靠传统的人力资源管理方式就行不通了。所以,这种情况下利用小数据进行决策更加有效。

我们为什么用大数据?为什么大数据发展这么迅速?区块链、人工智能都是大数据自然发展而来的一种技术,这就说明大数据发挥了更大的价值。大数据的产生能够在将来提升人类对科学的第四范式,在过去,我们通常凭借经验和推理做出决策,而现在通过数据就能发现问题。

所以,從这个角度来说,小数据从采集、加工到最后的处理和分析过程中都具有价值,社会的经济活动还是需要小数据。但是大数据开辟了新的天地,提高了我们的认识和认知能力,所以大数据的价值确实是非常值得期待的。但是不能因为大数据,就忽视了小数据。

Q:现在大数据非常火,但是小数据如何切入?

田春华:我们在做大数据分析时,其实还是需要小数据的支撑,但需要的是具有代表性的小数据,当利用小数据后再迁移到大数据进行大规模验证,包括挖掘我们认识之外的东西,在大数据上是否能看到一些我们原来理解之外的东西?或者是看到一些目前解释不了的东西?解释不了的东西有可能存在规律,有可能是我们的测量手段或者是当前的数据采集方式有问题。

其实我们一直按照从小数据到大数据的迭代方式,先利用小数据,再应用大数据,从大数据的应用中再回到小数据反复迭代,然后再提升,这样才能使大数据成功落地,而不是只谈大数据不顾小数据。

如果脱离了小数据来谈大数据,对于企业来说具有很大的风险。

主持人:而且可能也会给企业带来一些不好的效果。小数据见效更快,对于企业来说,小数据的直接价值更大。

田春华:不只是对企业,对我们分析师来说,小数据或者是少量的数据更容易参透。其实很多事情和工程问题一样,讲究二八定律,人类把握80%的问题,而剩下的20%的问题交给统计或者智能进行挖掘,来解决20%的未知因素。

Q:在咱们日常的工作当中,是不是小数据应用得更多一些?

李红:对,国家统计局有一个国民经济行业分类。为什么要分类?我们的社会充满数据,如何有条理、有规矩、有序地应用数据?还需要人为地把这些数据进行归类、识别、分析。所以,为了解决好效率和质量的问题,我们需要大量的小数据。

就像日常出行选择交通方式时,如果距离非常近,最好骑自行车,这样的话效率很高。如果开车的话,需要启动、停车,效率反而降低。所以,不能因为大数据的价值高,就忽视了小数据。

Q:能否以小数据的应用为例,谈谈如何将其与大数据结合为企业解决问题?

田春华:我举个例子:

我们帮金风科技(一家世界领先的风电设备制造商)做载荷仿真时,遇到的问题就是要加速仿真过程,因为工矿比较多,有一千多个工矿要仿真。所以,最初始的诉求也很简单,通过智能化、小数据,把琐碎的过程自动化,还有解决计算时间较长的问题,另外,产生的仿真文件特别多,需要把用的结果自动抽出来。

这本身是一个很好的自动化小数据,但是中间用了一些大数据计划,其实更多是利用传统的小数据。

用完之后,我们隐约意识到,一旦能把载荷仿真智能化之后,从业务上带来的价值不仅仅是在企业内部提升了载荷仿真团队的工作效率,而且极大地改善了认证的阶段。过去我们通常写二三百页的文档作为报告,而认证机构把它还原到计算机中的过程则需要一周的时间。如果能把这些计算自动化,把计算结果、计算过程、原始资料都提交给认证机构,认证机构也省去了验证的过程,我们也省去了写企业几百页报告的麻烦。

后来我们更意识到了,这对企业整个的研发来说,就是协同研发、协同设计。过去,叶片厂商和塔架厂商都把自己设计好的文件提交到金风的研发团队,研发团队再整合起来进行仿真,之后如果发现某些环节需要调整,再返回给各厂商。

在实现了自动化之后,每个人可以独立地提交文件,可以和别人现有的方法进行整合,然后马上就会出具结果,这样就使整个研发过程变成了一个并行的研发。

我们从最早非常小的一个点,慢慢走到需要用大数据来进行支撑。这是我们和业务部门都没有想到的,事实证明一旦某个生产环节得到了加速,所带来的是业务模式的转变,而业务模式所对应的大数据后台技术的要求是不一样的。在企业内部用安全、认证没有问题,但对外我们还要建模性加密,包括各种引擎的分析模型分享等。

我们过去做过很多大部件的工程诊断,研发部门有很多经验模型,并且全部都验证,大家对模型的应用非常有自信。

但当我们部署了大数据平台之后,发现以往的经验应用到风机厂,几乎没有一个模型是准确的。这也是我们为什么后来应用在小数据上做的模型,到大数据上去验证,当验证完成后,再回头修改小数据。通过这种大数据、小数据迭代的方式,金风已经成功做出上百的模型,可以应用在全球范围内的风机。

小数据为我们打下了很好的基础,已经八九不离十,剩余10%的间隙用大数据去弥补。如果没有那80%、90%小数据的支撑,只依靠挖掘大数据,很难保证其精准度。因为样本不均衡,在工业中越严重的故障样本量越小,我们没有足够的样本来训练一个可靠的模型。这就是为什么我们做出小数据之后,再用大数据去验证反而见效更快。

Q:那么在传统企业中,是否也碰到过上述情况?

李红:在传统企业中我们也遇到了这种问题。因为大数据被理解为一种技术,它是一种新的思维、新的能力,传统企业和互联网企业是不一样的,我们在技术和思維能力之间还存在差距。

简单说,我们在与CIO这个群体交流时发现,大家都苦于企业没有需求,不确定业务部门能否做一些大数据研究案例,以及业务部门不知道为什么做大数据。而职能部门也无法改善管理,因为职能部门也不知道怎么做大数据。

问题出在哪里?互联网企业已经实现了技术和能力的匹配,物联网企业要想知道做什么,就要去搜集数据。那么在传统企业中,大数据如何能发挥价值?在需求端、业务端、应用端他们还很难说出为什么要用大数据,用大数据干什么?大数据从哪里来?他们正被这种问题困扰着。

所以,目前大数据所落地的传统企业都是一些很具体的实战型企业,比如生产厂商。我们最近看到华伦集团率先在水电、火电设备上和具体的生产场景中,利用大数据进行突破。

目前,大数据在传统企业里面一定要找到具体的应用场景和目标,要解决数据从哪儿来,什么是大数据,大数据能做什么等问题。因为传统企业必须见到效果了,或者是感觉到了大数据的价值,才会发展大数据。

所以,大数据在传统企业的推进中要有一个过程。从技术发展的角度来说,我们从消费互联网过渡到产业互联网和工业互联网阶段,应该说大数据刚刚起步,无论是从理论上、应用上还是价值上来说,都是刚刚开始。

尽管现在依然是技术人员在技术层面上谈大数据,实际上,一旦传统企业应用了大数据,传统企业转型升级、创新发展、弯道超车都有很大可能,所以大数据的未来是非常好的。

Q:最后请两位专家用一分钟的时间总结一下大数据和小数据的关系。

田春华:我认为数据技术和业务不是割裂的关系,无论是大数据还是小数据,我们在以数字化转型或是数字化业务的视角去审视和推进整个数据建设时,都应当遵循三点:

1.有明确的业务规划或者是业务场景。

2.要对当前整个行业环境包括企业的数据基础进行摸底,当我们要发展大数据时,当前的数据基础能不能支持现有的场景。

业务驱动还是要寻找业务场景,一方面是业务部门的努力,另一方面大数据公司也应努力地寻找业务场景、业务驱动,以合适的方式将可行的数据、高价值的信息及时推给相应的人。

3.从数据的角度审视我们的业务和问题,从而完善我们的业务。当通过数据分析发现问题后,反过来改善业务流程,形成业务和数据的闭环。

李红:我们要重视小数据的利用价值,因为小数据事关我们的日常生活和工作,但是我们要大力推进大数据的应用发展,因为它关系到我们的产业升级、动能转化、经济转型和强国建设。所以,大数据决定我们的命运和未来。

数据本无大小,但运用数据的立场却分大小。

猜你喜欢
价值企业
企业不诚信怎么办?
商业企业品牌信用认证企业认证组织
2018上海企业100强
一粒米的价值
“给”的价值
2016,中国企业500强发布
一块石头的价值
新申请企业一经受理便预披露
新申请企业一经受理便预披露
小黑羊的价值