基于DataOps的运营商大数据平台探索

2022-03-15 07:17肖文彬李雨霏张湛梅
信息通信技术与政策 2022年2期
关键词:租户数据服务运维

肖文彬 李雨霏 张湛梅

(1.中国移动通信集团广东有限公司,广州 510000;2.中国信息通信研究院云计算与大数据研究所,北京 100191)

0 引言

党的十九届四中全会首次将“数据”增列为一种生产要素,数据要素所引发的生产要素变革,正在重塑企业的生产方式和商业模式,如何充分发挥数据要素的价值是数字经济时代下企业关注的焦点。对于通信运营商而言,其数据具有规模大、来源广、准确度高等特点,作为基础通信数据赋能多行业数字化发展,对数据质量水平和数据生产效率提出了更高要求。DataOps通过引入敏捷交付、智能治理、资源运营的理念与方法,指导企业建立生产级的大数据中心,加快数据开发流程,提升数据应用效率,构建数据资产价值闭环。

1 DataOps与大数据平台的发展现状

1.1 DataOps的演进

DataOps强调数据团队的敏捷协作和持续提升。Lenny Liebmann[1]首次提出DataOps的概念,他认为DataOps是优化数据科学和运营团队之间协作的一系列实践集。2018年,Gartner将DataOps列入了Data Management(数据管理)的技术成熟度曲线,Gartner认为DataOps是一种协作数据管理实践,专注于改善整个组织中数据管理者和数据消费者之间数据流的通信、集成和自动化[2]。中国信息通信研究院在《大数据白皮书(2021)》[3]中将DataOps定义为数据管理的升级,强调构建从数据生产端到数据消费端的数据流,实现静态数据管理与动态数据流的融合,而这一融合过程通过“开发治理一体化”实现。

DataOps是对DevOps在数据领域的延伸。DevOps是IT领域的概念,强调IT建设和软件开发的敏捷性、协作性,并通过构建软件开发的价值流、提高软件开发的自动化水平实现。DataOps借鉴了DevOps理念中敏捷快速、持续集成的关键点,强调通过调整文化、流程和使用的工具,在安全合规的前提下,快速提升业务价值,同时将持续迭代数据架构,不断强化组织的数据思维。

1.2 大数据平台的发展现状

大数据技术体系的核心是面向海量数据的存储、计算、处理等基础技术。从20世纪70年代的关系型数据库到20世纪80年代末专门面向数据分析决策的数据仓库,从2000年初的面向非结构化数据的NoSQL数据库、分布式存储计算架构到移动互联网时代下的数据湖、云原生数据仓库,大数据技术体系逐步成熟,以支持海量异构数据的实时性处理要求。

随着数据量的爆发式增长、企业数字化转型的驱动,大数据平台从基本的面向海量数据的存储、处理、分析等需求延展到相关的管理、流通、安全等其他需求,逐渐形成了一整套大数据平台体系,成为企业数据能力建设的基础设置。伴随着技术体系的完善,大数据平台开始向降低成本、快速交付的方向发展。

2 DataOps对于运营商大数据平台的必要性

2.1 运营商大数据平台面临的挑战

工业和信息化部发布的《“十四五”信息通信行业发展规划》[4]提出深化大数据融合应用创新,推进大数据与云计算、人工智能、区块链等技术的深度整合应用,加快企业数字化改造升级和数据开放合作,加速推进数据价值化。此外,预计到“十四五”末[4],每万人拥有5G基站数达到26 个,是2020年的5.2 倍,通信网络终端连接数将超45 亿个,5G用户普及率将超过56%,这将推动物联网的广泛应用,带来用户数量和数据规模的激增,催生丰富的数据应用场景。

然而传统的运营商大数据平台在支撑企业数字化转型、持续释放数据价值的过程中仍存在不少挑战,主要集中在数据生产、数据服务、数据运营三个方面。

(1)数据开发敏捷性不足:数据端到端开发暂未实现完全的自动化,在需求分析、数据设计、数据开发、数据测试、数据上线、数据运维等环节存在大量人工操作,导致人力资源成本加大,难以满足数据需求方交付时效性要求。

(2)数据服务复用性薄弱:在传统的数据服务模式下,数据服务相对松散,缺少统一的数据服务目录管理,导致数据服务共享、复用难。此外,数据服务标准不统一,难以面向全域实现开放共享。

(3)数据资产运营体系不完善:由于缺少对数据资产的价值评估,不利于数据资产上线后的良性持续迭代,“数据资产上线—价值评估—持续迭代”的闭环运营能力不足。

2.2 DataOps应用于运营商大数据平台的方法

面对数据交付效率不高、数据运营体系不完善等问题,通过引入DataOps打破传统交付和运营之间的隔阂,加速数据交付效率,提高数据质量,以适应飞速发展的客户需求和市场变化。在此基础上,DataOps覆盖集成、开发、测试、运营的数据全生命周期,同时关注数据资产价值的实现,从原始数据需求到开发交付和持续运营,通过数据价值反馈到流程上改进优化,从而形成数据价值驱动的全生命周期闭环管理,构筑企业数字化转型的核心竞争力。

基于DataOps的敏捷大数据平台,围绕在线化、编排化、自动化及智能化等能力建设,将显著提高数据生产效率,并持续改进流程,使企业更加灵活、动态、自组织地生产和提供数据服务,与合作伙伴深度协助实现生态构建及价值共创。随着数字经济的快速发展,以“DataOps”为核心优势的大数据平台建设将为企业持续创造数据增量价值,提高企业对市场变化的响应效率,并使他们能够更快地应对数字化挑战。

3 基于DataOps的运营商大数据平台架构

基于DataOps方法打造一套成熟稳定的从数据开发、运维到运营的工具,可以满足差异化的多重管理与生产要求,并依托一线业务需求与客户现状特征,打造敏捷大数据平台,能有效桥接前后台并调和节奏、赋能前台敏捷迭代、快速响应市场和客户(见图1)。

图1 基于DataOps的敏捷大数据平台

3.1 敏捷交付中心

敏捷交付中心主要是通过在数据全链路引入DataOps管理机制,为数据从生产端到消费端流转效率的提升提供技术支持(见图2)。一是明确数据链路及核心环节,覆盖数据集成、开发、 测试、部署、运维等;二是从自动化建模技术、可视化开发等方面降低数据全流程运转的技术门槛,并通过汇聚和共享多源异构数据,满足持续增加的数据规模和日益复杂的数据格式需求;三是构建自动化测试、自动化部署工具和平台,持续推进数据一站式运维和智能诊断,提高数据需求的交付速度和产品服务的稳定性。

图2 敏捷交付中心

3.1.1 数据集成

针对各类结构化的报表数据和属性类数据、非结构化的文本图片、各类的视频语音的流式数据等多源异构数据的汇聚问题,构建多源异构数据汇聚功能,通过一体化数据采集框架,采用内置通用采集方法与开发式插件的方式,适用于多种数据源、异构数据格式的数据采集,使用环形无锁缓冲队列等技术实现数据多链路处理,数据并行装载与分发,最终实现异构数据源的配置化统一接入。

同时,为解决数据集成时实时数据回填效率较低、海量实时数据运算性能不高等问题,构建实时离线一体化架构,可以通过采用吞吐量高低延迟的Flink计算引擎、Redis与Hbase高速缓存数据、二分法算法进行号码特征的快速填充、二级数据缓存提升规则匹配速度等举措进行运算优化,形成跨集群实时计算技术架构,有效解决在海量实时数据运算中出现的瓶颈。

3.1.2 数据开发

引入DataOps敏捷开发理念,通过自动化建模技术、可视化开发等能力,提供基于PaaS、自助分析等工具的数据集成、开发、分析、服务开放等全流程一体化敏捷开发,推动数据应用的快速交付与持续迭代,实现数据要素的敏捷开发及交付。

基于数据挖掘模型开发周期较长的问题,建设自动化建模能力,包括数据模型及应用设计、开发、测试、调度、运维统一管理等。通过全流程界面化配置工具,依托数据统一闭环归集机制,自动化收集正负样本反哺模型迭代训练,操作简便,迭代高效,实现了大数据敏捷AI建模,有效降低AI建模开发门槛,缩短AI建模周期,大幅提高大数据价值挖掘效率。

同时,针对代码开发能力不足、代码开发周期长等问题,进一步升级PaaS平台的数据开发能力。数据可视化开发流程采用直观、可视的方式,支撑全平台租户的数据自主式开发、可视化分析,从布局设计、数据源配置到组件配置及开发效果全过程均可查看,所见即所得。支持模版引用、一键生成调度,保证开发过程的可修正性,提高开发“事中”可控性,提升数据开发整体效能。

3.1.3 数据测试/部署

针对传统数据测试/部署过程存在的整体测试周期较长、测试自动化程度不足、部署效率低下等问题,平台通过引入持续集成、持续部署敏捷理念,构建自动化测试、自动化部署工具和平台,大大的提高数据需求的交付速度和产品服务的稳定性。

在数据测试方面,通过建设持续集成、自动化测试工具,在源代码变更后自动检测、拉取、构建应用,并辅以参数化,实现代码自动化集成和测试。可在数据生产的每个阶段对输入、输出和业务逻辑进行自动化测试,包括数据口径、表格式、表属性等,以快速检查数据准确性及错误,确保数据质量稳定一致。同时通过自动化测试,帮助租户快速跑通程序,验证结果,节约测试时间,提高数据测试效率。

在数据部署方面,搭建自动化构建、自动化部署一体化工具平台,支持以相同的配置模式对从测试环境到生产环境的多种不同环境进行自动化部署和配置,提升各环境的一致性,并降低手工操作时间和成本。一次配置多次复用,缩短部署耗时,提高部署效率,通过程序自动化操作,一键实现自动从测试环境中获取模型、代码和配置,迁移至正式环境,以增量迭代的方式进行设计、开发、测试和上线,节约从测试环境到正式环境的部署工作和测试工作。

3.1.4 数据运维

面向平台运维者和租户运维者,建立智能运维中心,提供一站式运维监控与智能运维诊断功能,支撑平台各个层面运行情况统一监控,并通过跨系统的数据分析和挖掘,实现问题的快速定位和预判,从而提升运维效率、降低运营成本,提升数据的业务连续性支撑能力。

一站式运维监控平台以数据作业为出发点,辅助租户进行任务的诊断与优化,对涉及的资源层、服务层、数据层和应用层等对象进行统一监控,支持从平台、租户、服务、系统等维度对运维实时数据、历史数据进行统计分析,支撑运维报表、资源评估、性能评价等分析和管理需要。针对监控发现的异常程序,支持程序的启停、更新、修改等操作,实现发现问题、分析问题、解决问题的一站闭环管理。

智能运维诊断,支持对数据作业异常运行情况的自动诊断能力,通过将常用排查流程固化到系统,实现问题一键自动诊断,降低运维门槛、提高问题处理效率。同时建设智能根因分析和诊断能力,进一步通过算法自动进行数据作业之间、数据作业与系统和服务之间的相关性分析,支撑异常告警的根因诊断,降低对运维人员经验依赖,辅助运维人员能更快速定位和处理问题。

3.2 智能治理中心

坚持以数据驱动为导向,在贯彻DCMM标准的基础上,在数据标准、数据安全、数据质量等方面引入AI等技术,实现智能自动治理。在敏捷交付的同时保障数据要素的高质量交付,确保数据作为关键生产要素的可信、可靠,有效为企业内部及全行业赋能为培育发展数据要素市场打下了坚实基础。

3.2.1 数据标准

在数据标准方面,通过基于人工智能技术的数据标准管理工具,加速运营商数据的标准化和统一性进程,完善适应自身的数据标准体系(包含业务术语、参考数据和主数据标准、数据元、指标数据),实现异构系统间的数据共享和互联互通,推进企业级“数据语言”统一。平台利用人工智能技术,提炼总结具有普适性的数据分析规则,构建标准词汇库,分析数据词性、句式、语义,智能标记数据分类,建立语义关系,自动绑定数据标准,在数据上线、变更、下线、开放、授权全流程推动数据标准的规范化,有序推进公司数据标准管理工作。

3.2.2 数据安全

在数据安全方面,基于平台的数据安全管理工具,实现数据安全风险的自动监测、自动学习和自动优化,提高数据安全已知/未知风险的识别效率与精准度,保证数据安全风险保持在可控的范围内,防止数据泄露。

数据安全风险自动化监测模块利用机器学习算法从后端数据库进行数据挖掘、分析与提取相关的数据,结合各租户的历史数据,建立数据安全风险模型库、数据安全风险基线指标库及租户动态风险基线。监测各租户使用数据的安全风险,例如数据降级、数据未脱敏、数据篡改、数据分类与安全等级不对称等,同时进行智能识别、分析、评估与判定租户使用数据的行为与“租户动态风险基线”的偏差,若租户对数据的操作存在偏差,系统将自动弹出安全预警信息并同步产生告警日志记录,保证风险得到及时的响应与处置。

3.2.3 数据质量

在数据质量方面,基于平台的数据质量管理模块,围绕从数据接入、加工、应用等关键环节开展数据质量自动化监控,保障大数据平台的数据可用、可信、可靠。针对数据异常检测,通过机器学习对监控对象的指标的历史数据进行模型训练,训练后的时序数据分为“周期型、平稳型、非周期型”三大类,自动预测未来的变化周期和趋势,根据算法动态计算和输出准确性更高的阈值区间,提高告警精准度,避免漏报和误报。

同时为解决数据口径难以回溯、线下人工比对口径耗时长、信息缺漏等问题,建设数据台账管理工具,利用NLP技术,分析数据口径定义、时间戳、变更信息等,智能标记口径血缘关系,并按照时间先后方式展现口径轨迹图,实现数据口径的历史记录管理和智能回溯,减少人工稽核,助力数据质量高效感知—反馈—改善。

3.3 资产运营中心

3.3.1 统一服务目录

为进一步解决能力建设松散化,能力没有归拢分类,缺少服务目录等问题,构建面向企业全景的数据服务统一目录,建立目录索引通道,用以支撑数据服务的统一归集、编目和管理,形成方便检索、快速发布和可管可控的平台服务层,为用户提供更快捷、可追溯、更精准、更实时的数据服务,高效满足企业内外部用户大数据应用服务,注智赋能业务运营。

数据服务统一目录聚合算力服务、API服务、AI服务并统筹管理,以目录的方式清晰展示各目录下能够提供的数据服务类型、数据服务内容,并根据业务的变化或管理要求进行目录的更新、维护和发布。用户登录统一的数据门户后可查询所需数据资源和服务、提出数据权限申请,方便租户在遵循数据安全管理的原则下,高效地获取数据信息,进一步提升各租户计算资源、数据服务、AI能力的共享效率和便利性。

3.3.2 自助数据开放

平台改变“需求方单一依赖平台开发者开发数据”的传统模式,面向不同角色、不同特点的使用者,结合能力输出形态特点,提供“积木”组装的服务模式和租户入驻开发模式,实现全行业客户的自主式开发、自助式分析,支撑数据能力的快速交付、敏捷迭代,持续释放数据要素价值。

“积木”组装的服务模式,通过开放API、文件等形态的基础原子能力和标准封装能力,实现原子化、标准化的数据服务自助敏捷组装大数据应用,满足全行业数据服务差异化需求,灵活覆盖行业客户需求全场景。

租户入驻开发模式,基于自助分析、自助取数、PaaS自助开发等功能和组件,开放平台资源、开发环境、数据模型等,使得使用者可以从自身需求出发,快速查找数据模型,申请所需数据,灵活适配业务需求,完成数据开发的全套流程,实现一站式自助数据开放。

3.3.3 数据资产运营

平台构建基于运营者视角的数据资产统一视图,以业务需求为导向,通过数据资产、工具资产等能力以货架的形式进行分类展示,全域、立体呈现公司的数据资产结构,实现数据资产的“可视化”。资产运营视图便捷支撑前端对各类服务的快速检索、订阅与推送、生命周期管理等功能,助力数据生产力的快速形成,加快应用生产与交付速度,敏捷释放数据生产要素价值。

同时,数据平台借鉴互联网公司生态运营体系,以数据类型、数据纵深度、数据价值、数据使用量、资源使用、技术复杂度等多维度信息作为数据资产价值评估的因子,构建数据价值量化体系为形成可落地的、便于操作及运营的基于移动运营商为基础的计量计费体系提供基础,量化数据资产的使用效率,规范平台各租户的使用行为,提升平台服务高效精细化运营能力。

在数据运营机制方面,平台从用户运营、租户运营、数据运营三个维度入手,形成常态化循环迭代的运营机制,促进数据资产螺旋式迭代优化,提高数据赋能水平,构筑企业数字化转型的核心竞争力。用户运营以多渠道数据资产价值统一反馈机制,高效协同数据资产运营,为平台功能、数据资产迭代优化提供依据。租户运营基于PaaS平台开展租户的健康度监控,并持续通过租户资源调优、任务调度优化等措施,提升数据资产资源最优化。数据运营通过主动下沉推广数据能力和基于数据价值评估的反向沉淀,优化和完善现有数据资产,适应业务发展需要,促进数据资产的更新迭代。

4 结束语

数据作为数字经济的关键要素在此之前已得到行业广泛共识,越来越多的企业把数据作为战略资产,以数据运营提升企业竞争力。本文基于DataOps的理念构建敏捷大数据平台,打造一整套成熟稳定的数据开发、交付、运维到运营工具,实现数据能力的敏捷迭代、市场和客户的快速响应,实现数据价值最大化。数字化转型正从流程优先走向数据优先,数据洞察导向与业务敏捷反应将是企业数据域能力建设的核心动力。

猜你喜欢
租户数据服务运维
大数据时代高校图书馆数据服务的困境及优化路径
地理空间大数据服务自然资源调查监测的方向分析
高速公路智能运维平台
基于数据中台的数据服务建设规范研究
日本租房歧视跟种族有关
多租户SaaS应用系统关键技术分析
多租户管理技术在运营管理系统的应用研究
基于GPS的电力运维轨迹定位系统
IT运维管理系统的设计及应用
一种基于安全标记的多租户访问控制方法