企业大数据应用构成要素及其风险分析

2015-11-17 07:25李继玲李宝林刘新蕊
关键词:数据源数据安全数据处理

李继玲,李宝林,刘新蕊

(1.西北政法大学 商学院,陕西 西安 710122;2.西华师范大学 计算机学院,四川 南充 637009)

大数据对企业而言是亟待开发的宝贵资源,数据中所蕴藏的无限信息金矿若以先进的分析技术加以利用,将转化为极具价值的商业洞察力,能够帮助企业从中获得可以利用的商业情报,执行实时风险管理,保证企业在关键市场的竞争中赢得胜利.

近年业界对于大数据概念、应用案例、应用价值、技术体系等方面有较多研究探索.文献[1]梳理了大数据的10 个重要概念,总结了大数据的典型商业应用案例,指出大数据应用给企业带来了若干问题.文献[2]认为互联网企业具有较好的信息化能力并拥有数据优势;同时提出大数据规模化应用面临数据源不完整、数据安全和隐私问题.文献[3]重点阐述了大数据应用的技术系统,涵盖云计算及并行计算模型、数据库、大数据获取和分析技术等.文献[4]阐述了大数据潜在的安全威胁,提出大数据安全风险来源于云计算服务商以及远程数据应用者对未授权内容的越权操作.文献[5]分析了传统产业大数据应用的问题与发展环境,认为作为国家经济基石的传统产业仍基本游离在大数据应用之外,急需从技术和商业模式上进行探索和突破.

上述文献主要聚焦于大数据本身的相关分析,有助于读者了解业界大数据发展的总体状态、大数据主要应用场景和价值、行业应用状态.但相关内容较为分散,缺少企业信息生命周期维度对大数据应用构成要素的系统阐述,风险分析局限在数据安全方面.本文将结合企业信息生命周期的流程和角色,系统阐述企业大数据应用平台构成要素,并从风险评估和识别的角度对大数据应用风险进行探讨.

1 信息生命周期视角的企业大数据应用

1.1 企业信息生命周期的不同阶段

为了区分信息生命周期的不同阶段,这里引入数据、信息和知识三个不同术语.由于数据源的多样性,原始数据(包括直接采集的数据或者从第三方合作伙伴集成的数据)中包含了许多虚假数据,或者格式错误的无效的数据,这些虚假数据和无效数据如果参与分析,会给分析结果引入误差,甚至得出错误分析结论.因而需要通过数据处理过滤掉这些虚假或无效数据,这些经过处理得到的有效数据称之为信息.信息经过大数据分析平台分析后,得到的有规律、有因果关系分析结果和趋势,我们称这些分析结果和趋势为知识.只有知识才能最终支撑企业进行业务决策.

业务场景和需求是大数据应用的源头,企业的业务需求决定了所要选取的数据集.业务、数据、信息和知识的关系如图1 所示.

图1 业务、数据、信息、知识之间的关系Fig.1 The relationship among business, data, information and knowledge

1.2 企业应用大数据后决策角色、流程的变化

CIO(Chef Information Officer)是企业信息系统的决策者,也是大数据平台的建设和使用者,CIO 根据企业的总体商业策略,制定并落实对应的信息系统策略.但传统企业环境中,数据来源十分有限,同时缺少高效的数据处理和分析平台,使得数据无法有效发挥价值,CIO 在企业商业决策中只是支撑者的角色,无法真正参与到企业的商业决策中.

大数据时代进一步催生了数据科学家的角色.数据科学家在CIO 的领导下,需要深入理解企业业务场景和需求,同时需要了解大数据平台的技术能力,从而可以对业务进行建模,确定有效数据源,并针对性的选取大数据技术平台启动业务分析.海量数据经过大数据平台分析后形成的知识进而作为企业商务决策的重要输入.上述循环过程如图2 所示.

图2 企业大数据应用的角色和工作流程Fig.2 The role and workflow of enterprise data applications

2 信息生命周期视角的企业大数据应用构成要素

信息生命周期视角的企业大数据应用构成要素包括业务平台、分析平台、数据源和管理平台四部分构成,如图3 所示.

2.1 大数据业务平台

大数据业务平台是大数据应用的源头,因为业务场景决定了“我分析的目的是什么”的问题;同时也是大数据应用的终点,大数据平台产生的知识需要作用于企业商务决策才能最终发挥价值.

大数据平台的分析结果(即知识)可以直接作为企业决策输入,也可能进一步作为企业已有BI(Business Intelligence)应用系统输入.知识如何进一步应用以产生最大商业价值,不同企业可以根据具体情况进行具体选择.新的商业模式也会在大数据应用的过程产生.

图3 企业大数据应用平台的构成要素Fig.3 Elements of the enterprise big data application platform

2.2 大数据分析平台

分析平台包括数据处理、数据存储和数据分析三个部分.业务建模决定了分析平台的不同技术选择.

2.2.1 数据处理

大数据时代产生数据的设备、媒介及渠道如此众多,由此产生许许多多的大数据源.这些海量数据源中包含了许多无效数据,如残缺数据、错误数据、重复数据等[6].企业首先需要根据自身的业务建模选择相应的数据源,然后利用ETL(提取、转换、加载[7])、数据清洗等技术从相应的数据源中抽取有效数据.企业在采集、处理以及应用这些大数据的过程中,积累了大量的客户个人信息,为了不使企业在利用大数据时发生侵权行为,需要运用技术手段对采集的数据去隐私,如用虚拟ID 代替真实姓名,为特定数据创建定制屏蔽等措施.

2.2.2 数据存储

大数据的存储需要大容量的存储系统,这里所说的“大容量”通常可达到PB 级的数据规模,因此,海量数据存储系统也一定要有相应等级的扩展能力才能匹配实时的海量数据存储.另外由于大数据类型的多样性及流转的实时性,大数据存储需要异构化、分级的存储平台,从而满足企业结构化、半结构化和非结构化等异构数据的存储需求,并能实时按照数据访问的热度分配不同类型的存储介质(如磁带、普通磁盘、SSD、磁盘)以降低存储成本.

2.2.3 数据分析

大数据分析是指对海量数据进行分析,分析挖掘大数据中蕴藏的有价值的知识.企业需要根据自己特定的业务模型选择对应的大数据分析平台、匹配的计算模型、计算算法,以及不同的分析工具.当前大规模并行分析平台可以选择开源的Hadoop 平台,以及独立第三方公司如Cloudera、EMC、Hortonworks 等提供的产品;计算模型有不同的分类,如批量计算模型、实时流处理模型;计算算法也有不同的种类,如分类算法、聚类算法、统计算法、关联算法;不同领域有不同的分析工具,如日志分析工具、图像处理分析工具等.

2.2.4 数据源

企业的数据源由两部分组成:内部数据源和外部数据源.企业内部数据源来自于企业信息系统,如ERP系统、合同管理系统等.企业外部的数据源来自于两个方面,一方面来自于多种设备和媒介,如互联网、移动互联网、车联网、物联网、GPS、医学影像、安全监控、金融网、电信网等组成的复杂网络;另一方面来自于第三方数据集成,如淘宝平台数据集成.

2.3 大数据管理平台

企业大数据应用管理平台主要包括三方面内容,其一是数据安全管理,包括数据安全存储、数据传输加密、授权访问控制、隐私保护等;其二是隐私保护,企业在应用大数据时需要遵从相关管理和法律规定,如知情权、披露权及报备管理制度;最后是大数据复合型人才的培养,企业需要培养既懂企业业务又懂得数据分析技术和法律知识的复合型人才,才能合理、高效、合法地把大数据分析结果应用于企业商业中进行智慧决策.

3 企业大数据应用风险分析

大数据管理是从业务平台视角提出任务指引,在管理平台的支撑协调下,依次从数据源递进到数据分析、数据存储和数据处理,完成大数据应用的全流程,期间每一个环节的非完整、非客观、非真实都会严重影大数据的应用价值,亦即存在全流程的失真风险,需要针对各环节来解析信息生命周期的不同管理风险.

3.1 数据源选择风险

企业如何从海量数据中过滤有效数据,并处理好不同数据源之间的复杂关系,是企业大数据应用的巨大考验.企业需要从源头上防止不良数据对商业环境的侵蚀及其带来的巨大的管理风险.

企业大数据大部分来自于企业外部,这些数据鱼龙混杂,包含了众多残缺数据、错误数据和重复数据.多年来,企业一直在努力清理有缺陷的数据文件.另外,由于数据来源的多样性、庞大性和复杂性特点,数据之间的关系也日益复杂化,企业需要处理的数据不是简单的精确关系、因果关系,而是混杂性和相关关系.

3.2 复杂、实时、多样化的大数据处理风险

大数据环境下需要存储和分析挖掘的数据量庞大、复杂,并且很看重数据处理的高效性和可用性.

企业传统数据处理方法表现在:其一,传统的数据采集来源单一,存储和分析的数据量也相对较小,因而大多采用关系型数据库和并行数据仓库处理.根据CAP 理论,传统数据存储方式难以保证其可用性和扩展性.其二,传统的数据处理方法是以处理器为中心,而大数据环境下,需要采取以数据为中心的模式,以减少数据移动带来的开销.因此,传统的数据处理方法,已经不能适应大数据的需求.

大数据环境下,企业需要新的技术来适应大数据处理的量和处理速度,特别是对海量的结构化、半结构化及非结构化数据的混合处理.

3.3 海量、实时、非结构化的数据存储风险

传统企业存储规划以GB 为单位,而我们正处于PB 级时代,且EB 级时代即将到来.如此巨大的数据存储给企业存储容量及存储技术带来巨大风险.

首先,企业存储容量面临巨大危机.在2014年TechTarget 中国区采购意向调查中,对企业全部介质中存储的数据量进行了询问.一半以上受访企业表示,需要管理的数据总量在1 到100TB 之间,数据总量100 到200TB 之间的企业在两成左右.由此可见,大数据对存储容量的需求已经远远超出企业现有的存储能力.

其次,企业的存储技术面临极大挑战.据统计现在非结构化数据占到数据总量的85%左右,而传统的数据库技术无法对这些数据进行有效存储.从数据存储特性看,包括备份、恢复、快照、迁移、复制、远程复制、重复数据删除、归档、加密解密等诸多特性.上述每一项存储特性都需要有新的技术、方法、技能和管理来解决.

3.4 兼顾业务与能力的数据分析平台选择风险

企业如何在大数据人才普遍不足的情况下,基于业务需求合理选择大数据平台供应商,也是企业面临的重大挑战.企业选择大数据平台时首先应该判断什么是企业真正的业务需求,清楚地了解供应商的产品是否能够满足这些需求;其次需要估量清楚内部可用技能,数据将从哪里来,分析行为需要多快完成,哪些内容需要与新平台整合;最后还要参考备选供应商的能力、成功案例等,谨慎选择供应商.目前大数据分析平台供应商包括开源的Hadoop,以及独立第三方公司如Cloudera、EMC、Hortonworks、IBM、华为等公司提供的不同产品.

3.5 数据安全管理及隐私保护风险

数据是企业和客户的核心机密,然而企业当前数据安全管理的意识和手段普遍不足.对于终端由个人灵活掌控的今天,企业必须采取更完善的措施如加密信息存储和传输、区分角色的访问控制、严格的审计制度,从各个环节把关加强信息安全管理,实现信息生命周期的有效保护,从根本上解决数据安全的问题.

另外,当前部分企业的大数据收集和利用,已经与互联网用户对于隐私问题的关注,以及政府监管部门的政策形成了冲突[8].目前我国尚无专门的法律对个人信息数据的收集、使用、披露等行为进行规范,立法分散,不成体系.企业必须关注并积极参与国家隐私方面的立法工作,避免大数据应用违背国家法律法规.

3.6 大数据管理复合型人才缺位的风险

越来越多的企业管理者意识到了“大数据”时代的人才挑战[9],比如,国内现在懂得在Hadoop 上进行开发的专业技术人员非常少,而一些金融行业的用户虽然很想现在就部署大数据解决方案,但是苦于找不到既懂数据分析技术,又懂得金融业务的专业人才.由此可见,企业要最大化利用大数据带来的价值,需要既懂得相关大数据技术,又熟悉企业业务的复合型人才,企业呼唤数据科学家.

4 企业大数据应用风险防范的一些建议

4.1 充分认识大数据应用的风险

企业更多注意到大数据应用的重要性,但对大数据应用的风险认识还比较欠缺[10].企业需要系统理解数据源选择、数据处理、数据存储、数据分析平台选择、数据安全管理和隐私保护,以及大数据复合型人才等六个方面的具体风险,才能避免人云亦云,确保大数据价值的有效发挥.企业需要进一步了解不同风险所带来的危害,提前通过业务、技术、人才多方面积累进行有效的风险防范控制,结合企业实际业务需求,全面评估大数据应用带来的潜在价值和可能的各种风险,实事求是地开展大数据应用实践.

4.2 在应用中快速培养大数据复合型人才

传统企业中,各个业务体系彼此独立;同时IT 部门在企业中属于支撑角色,没有参与到业务决策中,因而业务人才、IT 技术人才和法律人才只服务于对应部门,人才结构单一,缺少互动.大数据时代数据价值凸显,业务决策离不开IT 部门的数据处理及分析,同时数据处理进一步受到法律法规的约束,因而单一角色很难形成正确的决策.

因此,企业迫切需要培养精通业务、大数据平台能力以及数据安全管理法律法规的大数据复合型人才,充分发挥数据价值,有效支撑业务决策,同时充分识别和规避风险.

4.3 以数据模型标准化促进数据共享

大数据时代,数据成为企业的核心资产.但每个企业掌握的数据都不够全面,数据孤岛普遍存在.以政府部门为例,当前公安、医疗、金融等领域还无法形成全国联网共享,极大限制了数据价值的发挥.另外,各个企业的业务模型、数据模型没有统一标准,数据共享缺乏基础.大数据价值的发挥依托于数据的全面性,因而数据共享的程度决定了大数据能够发挥的价值大小,长远看数据共享是必要趋势.

考虑到当前每个企业都不希望暴露自己的数据资产,因而具体的共享模式可以逐步探索,可以先从知识共享开始,逐步推进到信息共享和数据共享.考虑到数据共享的最终趋势,当前建议尽早通过产业联盟等方式,推动同一行业数据模型的标准化,确保不同企业的数据描述语言具备共通性,为真正的数据共享及立法奠定基础.

4.4 推动数据安全管理,隐私保护方面的立法

大数据系统本身的安全性需要同时注意技术、管理制度和法律制度的不断完善,防止信息被损坏、篡改、泄露或被窃,保护公民和国家的信息安全.

当前要尽快制定“信息公开法”以适应大数据时代的到来.现在很多机构和企业拥有大量客户信息,应当既鼓励面向群体、服务社会的数据挖掘,又要防止侵犯个体隐私;既提倡数据共享,又要防止数据被滥用,达到“既保护数据安全,又不阻碍企业大数据应用创新”的双重目的,2012年底全国人大通过的加强网络信息保护的决定是一个良好开始.

5 结束语

大数据是新一代信息技术的集中反映,是一个应用驱动性很强、具有无穷潜力和价值的新兴产业领域.但目前其标准和产业格局尚未形成,因此企业一方面要重视大数据的开发利用,系统认识大数据应用的不同构成要素;另一方面也要防范大数据带来的风险,只有这样企业才能最大化利用大数据带来的商业价值.

[1] 胡雄伟,张宝林,李抵飞.大数据研究与应用综述(上)[J].标准和信息化. 2013,(9):29 -34.

[2] 吴韶鸿.信息通信企业大数据应用部署研究[J]. 电信网技术. 2013,(7):18 -21.

[3] 窦万春.大数据应用的技术体系及潜在问题[J]. 中兴通信技术. 2013,19(4):1 -15.

[4] 何廷润.当前大数据应用发展的局限性分析[J]. 移动通信. 2014,(13):29 -32.

[5] 闫 智,詹 静.大数据应用模式及安全风险分析[J]. 计算机与现代化. 2014,(8):58 -61.

[6] 李建中,刘显敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147 -1162.

[7] 刘 雷,杜鹏程,贺俊铭,等.大数据存储技术[J].计算机软件及应用,2014,(7):18 -21.

[8] 孟小峰,慈 祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146 -169.

[9] 邬贺铨.大数据时代的机遇与挑战[J].求是,2013,(4):47 -49.

[10] BILL FRANKS.驾驭大数据[M].黄海译,北京:人民邮电出版社.2013.

猜你喜欢
数据源数据安全数据处理
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
云计算中基于用户隐私的数据安全保护方法
建立激励相容机制保护数据安全
Web 大数据系统数据源选择*
基于不同网络数据源的期刊评价研究
大数据云计算环境下的数据安全
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
基于真值发现的冲突数据源质量评价算法
大数据安全搜索与共享