7月22日,由企业网d1net举办的全国cio大会盛大召开。本届大会主题为“数字化升级转型新场景”。主要分享交流cio在数字化工作中的经验和困惑,帮助全国各地的cio们更好地应对后疫情时代的数字化转型,传授以多种it手段赋能新业务并实现降本增效实战经验,内容涵盖基础架构、信息安全、协同办公、数据、新技术(ai,低代码等)等众多领域。大会同期评选和颁发“2022全国优秀cio个人奖”。
以下是现场速记。
腾讯云大数据专家 史汉发
史汉发:今天给大家分享的主题是“释放数据潜能,驱动业务增长——wedata数据治理介绍及内部实践”。
今天将从四方面进行介绍:
1.数据治理挑战
2.腾讯内部数据治理实践
3.wedata数据治理平台能力
4.行业案例
数据治理挑战
随着公司信息化程度的发展,会采购各种信息管理系统,我们的数据就会分布在各个存储系统中,会带来哪些挑战?
1.数据信息分散,业务系统就会不统一,数据资产不明确。
2.元数据信息不全,每个都需要业务接口人维护、补充业务信息。
3.数据质量差。上游更改一张表,需要靠人肉判别等类似问题。
4.维护困难。当数据有问题时,往往事后才会发现、才会知道。
5.无法审计和度量。这么多人去使用数据,如何保障企业数据的安全。
通过腾讯内部的实践和服务的客户,抽象为以下几个层次的需求,企业在数字化不同阶段,对数据治理所关心的核心需求也不同。如:时效性,我们关心的是数据产出的及时性,向上需要数据的质量,数据需要有保障,准确性、完整性、有效性。有了数据质量之后,必须要数据可用,这时候数据需要易查找、好理解。数据安全,这么多人使用数据,如何进行数据脱敏、敏感数据识别、合规性要求,最后当企业数字化越来越加深时,就会关心数据存储和对应使用成本的优化和控制。
腾讯内部也经历过这五个层次,一开始最底层层次时效性、安全性是基层能力,随着业务发展之后,我们就越来越向上关注安全和成本。
基于这些需求层次,看一下腾讯内部如何进行实践的。
关键词:eb级别、千万级,目前在腾讯内部有数千名数据分析师需要支撑qq、微信、腾讯游戏等数万个业务场景,在这些业务场景里做这些业务加工时,每天数据存储会达到eb的级别,而且数据量在很大幅度不断增加,包括现场做的一些视频号直播等数据都会有很大数据存储量的增加,每天会有千万级的任务进行计算,其背后都是数据计算和存储的成本能力。腾讯内部通过数据治理,每年可能会为腾讯节省很多成本。
在这么多业务情况下,腾讯内部如何把数据治理保证落地实施的呢?腾讯内部有这么多业务,从qq、微信、微信支付、王者荣耀等,这么多bg有这么多业务,涉及的领域这么复杂,公司内部首先提供了组织的支撑,协同不同bg建立了oteam,共同建设全集团大数据统一的标准。我们建立了一个统一数据接入层,oteam会负责数据治理标准的实施、制定和落地。
有了组织的保障,内部如何进行落地呢?主要三方面:标准先行、工具协同、评测量化。腾讯内部制定了一系列标准规范,如元数据管理规范,除了企业级规范,也会向业界提供一些通用内部的能力,如和国家信通院一起参与制定一些数据治理管理规范的白皮书,有了标准,会有一套大数据治理平台来进行工具协同。通过数仓分层,各个bg内部数仓表的命名规范,在工具协同过程中,会根据命名规范进行校验,为数据开发工程师提供有力的保障。完成工具协同以后,最后数据开发师在这个平台上进行大数据体系的开发以后,需要有一个评测量化标准,这时候会对各个数据开发工程师建立规范的技术企业级的评测标准以后进行实施。
如图,从元数据管理规范、数据治理管理规范、数据共享、数据模型、数据运营等一系列企业级管理规范标准,中间层会提供一站式数据治理平台,下面会有通用的大数据平台到数据资产、资产的生产、数仓建模、资产评估、资产运营,最后会建立一套企业级的评测体系,这些评测体系覆盖了元数据的成熟度、数据安全的成熟度、数据管理的成熟度,这些成熟度的评测反过来会约束数据开发者在这个平台实施过程中的数据治理的落地,比如数据成熟度评估很大程度上依赖于中间一层的资产分,当资产分达不到标准时,我们就会反过来通过平台、工具协同来限制数据开发者在这个平台的使用,比如会限制数据开发任务的提交和使用的资源等等,来进一步保障元数据治理符合整体规范的。
标准先行,如何进行标准制定?以资产健康分为例,从规范侧维度建立多维度评测标准,每个标准之内会对这些标准各个维度进行打分,比如数据规范体系里,按照大数据数仓分层,依次建立各个数据建表标准和一站式大数据平台进行协同。
如何进行资产监控?基于数仓分层做质量监控,比如入库仓,会对业务主件外键是否唯一进行评测,周期性数据波动是否过大/特殊类。数据层,根据汇聚逻辑做平衡值的监控。维度表、事实结果层,根据主外键是否一致,维度增加/减少,增加一些质量保障。最后这些数据加工完成以后,会输出给bi报表层、应用层,会增加一些像逻辑校验、多标志键平衡观点等方面,这是质量监控实践。
在资产评级方面,会建立一套对每个资产进行评级的标准,目前腾讯内部主要是建立五层关系,如第一级,这个表在6个月内都没有数据更新,会认为是停运的表。如果数据6月内没有数据访问且没有上下游依赖,这时候会认为是僵尸表。如果数据低访问,访问频次大与1次,会有普通表,下面有一些访问频次高、使用温度高的,会有主干表和核心表。
之后可以进行成本优化,结合一站式大数据治理平台,会收集任务基础信息,包括运行状态、任务依赖关系、计算资源的资源消耗,有了这些基本的信息以后,我们就会进一步对任务进行标签处理,比如任务30日成功次数、失败次数、运行时长、子任务数量等。形成一个红黑榜,给用户看在资产治理方面排名情况。
基于这些红黑榜,有效地约束数据开发者在对开发任务进行数据的治理。内部业务线经过成本治理优化,每年累计能够节省546个计算单元,每年节省千万级以上。
wedata数据治理平台能力
比如弹性emr、云数仓、数据湖计算系统,在上层wedata层,我们提供全链路数据建模到数据集成、数据开发、数据运维的数据开发能力,也会提供数据治理、数据运营、数据质量、成本运算的数据一体化运营。整个wedata体系在大数据基座和上层数据应用产出方面起到了承上启下的串联。
结合五个层次需求分别介绍wedata如何实现的。
时效性,wedata提供了统一的元数据,从普通的关系型数据到大数据存储,甚至外部业务系统,提供各种能力,提供多种采集方式,包括实时hook采集和离线周期采集、业务元数据主动上报。提供在线目录数据能力和 ap数据湖分析能力。
数据质量,这一模块是保证五个需求层次中的质量。提供了可视化配置,用户可以直接在平台上进行配置数据监控、规则模板、运维管理。平台方面提供了一些丰富的模板,包括53种官方模板,来提供常见功能件,提供字段级别、表级别的质量校验。最后还会提供全维度规则,包括让用户进行事中检测何时候检测。事中检测是指质量任务可以跟我们整个大数据平台调度任务密切配合的,当质量检测不通过时,会阻断质量任务下游运行,而避免让数据质量问题发散。最后通过这些规则和配置,每天运行情况,汇总出一个数据质量报告,来评判这个表的综合质量情况,包括不同维度的质量情况,来进行当前表的健康度情况的评判。
平台中如何进行可视化一站式完成用户在数据质量的配置,用户只需要选择对应的规则模板,配置对应的监控,包括etl的周期监控或离线的周期监控,最后对质量进行运维以后,基于运维的结果,展示整个数据质量结果的分析。
如何保证数据的可用性?wedata层面提供了数据运营的模块,主要从以下几个维度,如数据法一发现、数据查找、数据探查、血缘分析、脱敏分析、元数据详情几个维度,全面展示数据情况。
全局检索层面,用户只需要在这里根据表名、表字段、血缘信息可以全局一键检索出当前标的情况。数据探查和血缘分析、影响方面,当要改一张表时,对表增加一个字段或删除资产质量分比较低的表时,如何确定这个表对下游会产生哪些影响,这时候就用到数据血缘的模块,根据血缘可以看出这张表会对哪些业务或哪些任务产生影响,进而做出判断。
随着公司数字化程度越来越深,对安全的需求越来越密切。wedata层,从数据保护、数据分级、数据安全加固和数据审计四个维度提供数据安全能力。这方面主要包括在数据保护层面提供了数据加密、数据脱敏、数据水印方面,基本做到数据可用而不可见。数据分级提供数据分类的分级、敏感数据定义和敏感数据分布情况。安全加固提供了安全策略、权限策略、数据打标策略,事后合规审计、日志监控能力。
成本,结合一站式大数据开发能力和前面用户从开始建模以后,到把数据集成汇聚到大数据平台,会进行数据开发,最终通过数据服务展示出去时,这个全链路都是有数据各种成本的。这里我们会结合全链路数据开发能力,收集全链路里各个节点的一些数据资源的消耗和成本的消耗,最后提供给用户当前每个用户数据存储成本、运行成本、服务调用成本,有了这些成本能力,我们结合内部实践,通过bi报表,呈现出每个人可以清晰地看到这个人在这个平台、在公司内部大数据资源消耗是什么样的,基于这些消耗,同时也会提供一些红黑榜,约束数据开发者如何尽快在我们平台上对数据进行治理的落地。
行业案例
案例1,某商业银行情况,这个商业银行之前在内部使用时数据开发和调度工作分散非常严重,数据质量很低,大数据组件运维非常复杂,缺乏统一有效运维中心。通过接入wedata平台,统一对接了1.8万家数据任务,统一落标1000个标准项,统一管控19000张数据表。
案例2,在工业领域,物联网检测时,一些设备会产生各种数据需要采集,通过接入wedata平台以后,实时采集物联网的数据,进行数据分析,最后工程设备实现可视化监控,进行运维。
在企业化、数字化不同阶段,对企业数字化的要求不同。腾讯内部如何进行落地呢?首先有组织的支撑,然后标准先行、工具协同,再到评测量化。
谢谢大家!