大数据谬误

2015-06-02 13:48编译/郭旦旦
董事会 2015年4期
关键词:谬误游戏规则噪声

编译/郭旦旦

数据分析与“大数据”似乎誓要彻底改变市场。如今,大多数公司都坐拥“成吨”的数据:财务数据、移动数据、交易数据、客户研究数据、行为数据、社交媒体数据等。再加上新的分析技术与计算机、即时互联网资源,产生了能够颠覆游戏规则的强有力工具。然而,分析“大数据”所能产生的作用有些被夸大了。事实上,“驯服”大数据仍然是一件麻烦而且费力的事情。有些时候,对大数据天花乱坠的宣传导致虚假的预期,以为很容易就能利用大数据做这做那,最终反而得不偿失。

面对大数据,我们应该保持清醒的认识,尤其是对以下最常见的谬误:

1.大数据就是数据量大。大数据不是“大”,而是多元:大量、高频、实时、来源广泛。它们往往呈现颗粒状,可以是个人的交易数据——某张信用卡在特定加油站支付了一笔汽油费。大数据不是一座山,而是一场沙尘暴,大量细小的沙粒直欲迷人眼。

2.你应该马上引用大数据。不积硅步无以至千里。分析大数据亦是如此。一开始,必须把精力集中在某一特定目标上,在囤积数据前,想清楚自己想用这些数据做什么。

3.数据越颗粒状越好。是不是实时的、颗粒状的数据一定更有用?并不尽然。一场足球赛的第一个四分之一场不足以让我们预测整场比赛的输赢。实时数据有时候太过接近作出决策、决定的时间,不足以作为判断的依据。有时候,我们不得不把思考的时间范畴放远一些。

事实上,大数据往往充斥着大量的噪声;频率越高、范围越小,噪声越大。譬如,以分钟计的数据就比以周计的数据噪声更大,一个镇的数据噪声就比一个国家的大。精密度与精确度的概念是不同的。在分析大数据时,必须运用有效的方法剔除出噪声。

4.大数据就是“好数据”。数据也有好坏之分。质量差的数据会有很多偏差与遗漏,最终导致分析判断失误。数据信息中存在很多被贴错标签的图片与视频,也有青少年随便撰写的文字,必须有一个智能的模型能够辨别出大数据中质量好的数据作为分析判断的依据。要分析大数据,首先必须明确分析范畴,在此框架内辨别哪些大数据在分析中必须用到,而哪些应该丢弃。

归根究底,大数据与电脑、手机一样,是一种工具,而且还是令人敬畏、可以改变游戏规则的工具。不过,最重要的是,要给大数据套上缰绳,才能驾驭之,并为自己所用。

猜你喜欢
谬误游戏规则噪声
“白噪声”助眠,是科学还是忽悠?
对于经济的谬误,“空头”便是一种正义
漫画
要减少暴露在噪声中吗?
游戏规则
游泳
有些噪声能让你深睡眠
一种基于小波包变换的双模噪声中信号检测
趣味数独等2则
谬误与真理之门