大数据质疑述评

2015-01-22 21:03于英香
档案管理 2015年1期
关键词:质疑治理风险

于英香

摘  要:近两年大数据之热蔓延至媒体、学界、政府与企业,有人追捧之,有人质疑之。质疑观点主要有概念炒作论、功能夸大论、伦理悖论、风险论以及治理障碍论等。面对质疑,我们应理性对待,既不否认其创新性、先进性与前瞻性,又要避免大数据发展中的极端倾向,努力构建一个大数据治理体系,使大数据发展过程中的负功能向正功能转化。

关键词:大数据;炒作;质疑;风险;治理

Abstract: Nearly two years, Big Data spread to the media, academia, government and enterprise, some fans, some questions. The viewpoint about doubting: hyping on concept, the function exaggerated, ethical paradox, risking and governance obstacles, etc. Facing the doubting, we should treat it rationally , neither deny its innovative, advanced and forward-looking, nor avoid extreme trends in the development of Big Data, make the effort to build a Big Data governance system, make the negative function to the positive function in the development of Big Data.

Keywords:Big Data;Doubt;Risk;GovernanceSystem

1  炙手可热的大数据

时下,有关“大数据时代”、“大数据浪潮”、“大数据革命”的报道充斥于媒体,学术期刊上的大数据论文爆炸性增长,“大数据”研究炙手可热。

大数据之热更热在政府与企业。政府之热,表现为在西方发达国家政府大数据计划带动下我国政府的紧密跟进。2012年3月,美国政府宣布了2亿美元的“大数据研究与发展计划”,对大数据的研究上升为国家意志;[1] 2013年,欧盟委员会推出了建设100Gbps高速网络的项目,该项目旨在应对大数据“爆炸”。[2]我国地方政府也出台了各种扶持大数据的计划,如,上海市政府制定了《上海推进大数据研究与发展三年行动计划(2013年~2015年)》,广东省制定了《广东省实施大数据战略工作方案》等。企业之热,表现为大数据跟风现象愈演愈烈,各种企业、公司都宣称要进军和抢占大数据领域。然而,在这一片繁荣景象与大数据研究热涌的背后,有很多人对其提出了质疑,甚至是尖锐的批判。

2   大数据质疑综述

对大数据的质疑有概念与理论层面的,也有实践方面的;有技术层面的,也有伦理方面的,本文将以质疑观点为线索进行梳理。

2.1  大数据只是时髦的技术热词——大数据概念炒作论。一个事物的“热”与“火”往往与“炒作”分不开。2013年夏季,达沃斯论坛上还专门举办了一场关于“大数据概念是否被过度炒作”的辩论会,可见“炒作论”并非空穴来风。对大数据的溢美之词有“21世纪的新石油”、“宝贵的战略资源”、“重大的时代转型”等。对此,IT界很多人士不以为然,他们对近乎神话的大数据提出了质疑,认为大数据只不过是“新瓶装旧酒”,“换汤不换药”。

炒作论者认为对大数据的阐释存在着偷换概念的嫌疑。持此观点的主要依据是大数据的并行计算技术如MapReduce、Hadoop等并没有嵌入多少新内容,或者为并行计算带来本质的飞跃,因为在此之前,很多企业已经在对数据进行大规模并行计算了;大数据的分析工具如数据挖掘技术、图数据库等也都是BI用过的旧有技术,只是巧妙地把这笔账都记在了大数据上。[3]

2.2  大数据不是万能的——大数据功能夸大论。大数据到底是什么,“仁者见仁,智者见智”,但在大数据概念还处于“雾里看花”,似是而非的时候,一些人就将大数据推向了神坛,似乎是大数据无所不能,将大数据功能一味夸大。学界与业界质疑其功能夸大论的观点主要有三:

一是大数据技术不是万能的,人文精神更为重要。该观点认为,尽管大数据时代催生出了一些新的技术,但是技术只是工具。事实上,在如今的信息化和全球化时代,技术的功能达到了前所未有的顶峰,关于技术崇拜和技术唯上的质疑从来也没停止过。大数据也是一样,大数据技术再先进,功能再强大,也是人类通过程序设计使其为人类服务的,不能超越人的主观能动性,人类也不可能变成机器的奴隶。因此,完全依赖大数据是对人的主观能动性的最大讽刺。“正确认识事物的是非和利害,遵循人文精神是更为重要的前提。缺少这个前提,‘大数据不仅毫无用处,而且可能会为谬论提供支持。”[4]

二是大数据并不大,“全数据”只是神话。英国大数据学家维克托·迈尔-舍恩伯格所提出的“全数据而不是样本”的观点将大数据的“大”引向“超大”与“最大”。然而,理论上的“全数据”是不可能实现的,尽管互联网与各种社交媒体每时每刻都提供巨量的数据,但是这些数据有可能掺杂着大量冗余的、混乱的、虚假的甚至是有害的内容,价值密度较低。大数据号称要“拥抱混乱”,但数据分析不可能不经过筛选而维持其完全原始的状态,真正需要的数据可能被更多混乱的海量“大”数据所掩盖和淹没,因此,“全数据”只是一种理想状态。

三是大数据决策或预测有缺憾,不能完全依靠大数据推出客观规律。维克托·迈尔-舍恩伯格认为,“人通过探求‘是什么而不是‘为什么,相关关系帮助我们更好地了解了这个世界”。[5]这个观点解构和颠覆了我们长期以来对科学原理的探寻,似乎一切都应听从大数据科学家们的猜测。事实上,大数据分析出来的事物变化规律或者说是相关关系,只能说相对于“小数据”(过去的抽样分析)要准确一些,并不会比人类长期实践探索得到的经验更准确。因为,规律是不断变化的,再“大”的数据也不能完全准确地推出客观规律。更为重要的是,不是你想得到多大数据就能得到多大,对于一些社会问题大数据的收集,有些“沉默”的群体(弱势群体)可能不会提供任何数据。曾利用大数据成功预测了2012年美国总统选举结果的专家 Nate Silver警告说,企业决策者应该对大数据应用保持谨慎,否则很可能导致一些错误的决策。

2.3  大数据分析有违社会公平——大数据分析的伦理悖论。EDventure Holding公司董事长埃丝特·戴森(Esther  Dyson)认为,大数据的个性化定制有悖公平,引发社会政治难题。她反问道,民主国家的每名公民都有投票权,那么每人得到的福利是否应该相同?大数据如果能够预测个体结果,那么个人责任和集体任务究竟是什么?她认为,这种不公平现象在教育等领域将变得尤为严重,比如我们根据大数据个性化定制所得到的学生的潜能区别对待这些学生,但如果帮助了某些孩子“发展潜能”,是否会因此限制其他人的潜能?[6]

无独有偶,凯特·克劳福德认为,数据在生成或采集的过程并不都是平等的。大数据由于其所号称的“大”而使得其比小数据似乎更具有客观性,由于数据分析可以在整体水平上进行,似乎可以避免对少数或者弱势群体的歧视。然而,由于大数据能够做出有关群体不同行为方式的论断,其使用通常恰恰就是为了实现一个目的——即把不同的个体归入不同的群体中。[7]这样原本等级森严的社会阶层将会分化得更加严重,社会不公正现象愈加明显,社会矛盾日趋激化。

尽管大数据分析是基于理性的数据而不是感性的直觉和经验,但是人的权利、尊严、平等和自由是大数据分析的基础,当我们利用大数据分析某些社会问题时,仍然要考虑社会伦理与社会公平。

2.4  大数据存在着安全与信任隐忧——大数据风险论。技术的进步与安全一直是一对矛盾,然而,大数据分析却面临着除了传统的物理安全、网络安全、数据安全等之外的新的隐私保护和信任安全等问题。例如无处不在、无所不能的数据化——“一切皆可量化”,意味着只要你想,就可以从任何事物汲取你所想要的任何信息,甚至包括很多我们认为和“数据”关系不大的事情,比如一个人所处的位置,一个人坐在汽车座椅上的姿势与受力趋势,等等,都是可以被监控、被数据化的。风险论者认为大数据存在着诸多风险,如技术风险、决策风险、安全风险、信任风险等,其中安全风险与信任风险尤为突出。

安全风险中最突出的就是大数据中隐含的个人隐私的暴露。尽管许多大数据的提供者尽力消除数据中的个人信息,但还是可以从大量的公共数据集中推断出个人隐私,如出售给大数据分析公司的医疗、旅行、位置等数据都有可能追查到个人身份,更令人担忧的是,这些隐含了很多个人隐私的大数据信息将因被黑客或泄露者觊觎而变得风险陡增。“数据的安全性及给个人隐私带来的威胁,让本是机会的‘大数据,也同时成为了‘大风险。”[8]

信任风险和安全风险有相似之处,都是涉及个人隐私的暴露,但二者不完全相同。安全风险的着重点在于信息或隐私可能被非法窃取或利用,而信任风险中最突出的问题则是公众可能在不知情的情况下,被“监视”、被“预测”。大数据推崇的数据获取中包括诸多侵犯他人隐私权、生存权和精神健康权的文字、声音与图像,大数据标榜的是完全让数据来说话,做决策的是机器而不是人。然而,大数据有关预测的功能会使得一个当下正常的人被预测为将来可能犯罪,从而使得其人身自由被监控,如果让这种预测合法化,公众会感觉一直有个“第三只眼”在监视着自己,不信任感如影随形。

另外,大数据之中可能会隐藏着的一个人的习惯、价值观,甚至人生痕迹和人生规律(事实上,从社交媒体就很容易获得),如果这些涉及个人隐私的信息在公众不知情的情况下被大数据使用者和开发者不恰当地使用,就有可能给具体人生或公共利益带来侵扰或损害;如果一个人的人生受到数据独裁行为的干扰,那么其在大数据方面的权利将受到侵害。[9]

2.5  大数据增加了治理难度——大数据治理障碍论。大数据治理有广义与狭义之分,狭义的大数据治理是基于在大数据处理的过程中,CDO 们面临的一些问题,如数据散落在不同的系统中,哪些数据是可信的?数据是否面临更大的风险?如何从海量数据中获得洞察? [10]大数据治理就是要确保数据本身可用性和可靠性。而广义上的大数据治理则指向数据政策、数据所有权、数据监控、数据标准以及指导方针,甚至包括“社会治理、国家治理和全球治理水平的提升”。[11]大数据治理将会涉及相应的法律法规。

因此,有专家认为大数据加大了数据治理、确保数据质量和访问控制方面的难度,因为它既涉及 IT 技术,又与业务部门密切相关,是一个复杂的系统工程。埃森哲的Michael 说:“共享整个企业的数据未必是件容易的事,很难让整个企业共同来解决这个问题。”[12]

对大数据的质疑还有诸如大数据生态环境问题、政府大数据开放的可行性问题,等等,限于篇幅,本文不再赘述。

3   大数据质疑之思考

大数据作为一个炙手可热的新生事物,受到质疑是正常的现象,面对质疑,我们应理性对待,并努力消解质疑,使其“负功能”向“正功能”转化。

3.1  理性对待大数据的炒作与功能夸大。面对大数据的炒作与功能夸大现象,我们应持宽容和理解的态度,因为“这是所有新兴创新技术在产生发展之初都必须经历的过程”。[13]事实上,所有的技术和产业的发展都有泡沫化的过程,如平板电脑、云计算技术等,然而,泡沫破灭的过程也正是这项技术落地的过程。因此,我们须静待其经历泡沫化,之后才会迎来光明与高峰。

毋庸置疑,大数据具有创新性、先进性与前瞻性,如CDO概念的创新。CIO是数字化时代的一个标志性概念,而CDO(Chief Data Officer,首席数据官)则是大数据时代诞生的一个新型的管理者,其主要职责是根据企业的业务需求、选择数据库以及数据抽取、转换和分析等工具,进行相关的数据挖掘、数据处理和分析,并且根据数据分析的结果战略性地对企业未来的业务发展和运营提供相应的建议和意见。CDO已经进入企业最高决策层,一般是直接向CEO进行汇报,目前阿里巴巴已经任命了这一职位,预示着数据科学家在机构特别是企业中的特殊地位。又如,大数据对科学研究方法论与研究范式的冲击与挑战,值得肯定。图灵奖得主Jim Gray 2007年在美国科学研究委员会发表演讲,指出科学研究已经从几千年前的凭经验、几百年前的注重理论、几十年前的计算模拟,进入了第四阶段——数据探索阶段,[14]即科学研究的第四范式。大数据时代对传统研究方法中的先有假设再收集数据的否定,提出的用全样本代替抽样、相关分析代替因果分析等新的研究方法论思想以及从以计算为中心转变到以数据处理为中心的数据思维对开拓我们的研究思路具有积极意义。

3.2  构建大数据治理体系。如何有效地治理大数据,使其在发挥为机构服务“正功能”的同时,不要产生一些类似于安全、信任与伦理方面的“负功能”。解决这些问题是一个长期的过程,需要构建一个全面的大数据治理体系。该体系包括战略、规划等宏观领域,制度、组织、流程等中观领域,软硬件平台、标准、法规、技术等微观领域,并且围绕着治理中出现的困难、问题和障碍设计具体的解决方案,这个过程需要技术专家、数据分析专家、业务人员以及管理人员的协同合作,这对于档案大数据的建设同样重要。

另外,大数据时代,随着数据的增多,传统的数据保护方法已无法满足应对大数据面临的威胁,对原有规范的修修补补也不足以抑制大数据带来的风险,因此,我们需要全新的制度规范,而不是修改原有规范的适用范围,舍恩伯格提出大数据时代应该进行一场管理规范的变革。[15]

大数据热潮会慢慢趋于平静,走向稳步爬升的光明期和实质生产的高峰期。然而,无论它有多“大”,也难以穷尽千姿百态的大千世界,我们在享受、利用大数据给我们带来的惊喜与便利的同时,需要保持理性的态度,既要避免完全否定大数据的倾向,又要警醒大数据发展中的炒作与空谈。

*本文受国家社会科学基金项目“‘区域—国家电子文件管理整合模型构建与实证研究”(编号:11BTQ039)资助。

参考文献:

[1]CCF大数据专家委员会.大数据热点问题与2013年发展趋势分析[EB/OL].[2012-11-30].http://www.doc88.com/p-1485951966144.html.

[2] 邹铮编译.欧盟委员会计划建设100Gbps高速以太网[EB/OL].[2013-07-08].http://news.cnw.com.cn/news-international/htm2013/20130708_274654.shtml.

[3]吴勇毅.大数据热涌背后的冷思考[J].信息与电脑,2012(11):26.

[4]刘建明.“大数据”不是万能的[N].北京日报,2013-05-06(18).

[5] [15][英]维克托·迈尔-舍恩伯格.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013(1):83, 219.

[6]埃丝特·戴森(Esther  Dyson).大数据利弊之辩[J].中国经济报告,2013(6):24.

[7]凯特·克劳福德.对大数据的再思考[EB/OL].[2013-05-09].美国《外交政策》杂志网站.

[8]郑志励.喜忧参半大数据[J].中国图书评论,2013(8):40.

[9][11]付玉辉.大数据传播:技术、文化和治理[J].中国传媒科技,2013(3):62,61.

[10]许继楠,郭涛.大数据时代更需要数据治理[N].中国计算机报,2011-11-14(15).

[12]沈建苗编译.大数据应用:理想照进现实[N].计算机世界,2012-08-06(20).

[13]马梅若,方滨兴.大数据不能包治百病[J].中国经济和信息化,2013(8):48.

[14]俞立平.大数据与大数据经济学[J].中国软科学,2013(7):183.

(作者单位:上海大学图书情报档案系  来稿日期:2014-10-02)

猜你喜欢
质疑治理风险
和谐的课堂应充盈学生的声音
对《老人与海鸥》的一点质疑
治理背景下我国少数民族传统体育运动会的发展
浅析网络舆情治理
中国经济转型的结构性特征、风险与效率提升路径
互联网金融的风险分析与管理
企业纳税筹划风险及防范措施