国信证券数据治理负责人左银康在“国信证券数据治理生态化应用实践”的主题演讲中介绍了数据治理的行业现状和挑战,以及国信证券在数据标准、数据质量、元数据等领域的数据治理应用实践。
数据治理的必要性和目标
证券行业数据治理的必要性和工作目标包括监管合规、风险可控和内部经营管理三个方面。
第一,运营合规。
证券行业的数据治理,与法律法规以及监管要求的发展趋势密不可分。
2016年证监会在《证券公司全面风险管理规范》中明确提出证券公司应当建立健全数据治理和质量控制机制等数据治理相关要求,这是行业内首次提出数据治理要求。
2018年12月证监会发布了《证券基金经营机构信息技术管理办法》,明确要求证券基金公司应结合企业发展战略,建立全面科学有效的数据治理组织架构和管理机制。同时发布了《证券期货业数据分类分级指引》,对证券行业的数据资产和数据模型进行了进一步规范。
因此证券行业数据治理的第一个目标是建立符合法律法规和行业监管的数据运营管理体系。
第二,风险可控。
证券行业数据量巨大,数据使用和交换的场景复杂,数据敏感度和价值都非常高,建立覆盖数据全生命周期的风险管控机制,保障数据在产生、传输、存储、使用、备份和销毁各个阶段的安全、准确、及时非常关键。
第三,价值实现。
证券行业在各个领域都需要广泛的数据支撑。例如:在经营分析方面,需要通过业绩报表进行业绩考核和业绩督导;在营销服务方面,需要借助一些渠道引流和智能营销的数据进行拓客和展业;在投资研究领域,需要基于大量数据进行量化分析和资产配置。
证券行业数据治理的四大问题与挑战
数据治理的落地需要从管控走向服务,与各个业务、开发流程相结合,实现数据治理的场景化和服务化,目前多数证券公司已经建立了数据治理的组织架构和制度体系。
来自证券业协会的数据治理调研数据显示,目前8成以上的证券公司建立了数据治理的组织架构,7成以上的证券公司形成了数据治理的制度体系和治理流程,发布了相应的管理办法和细则。
但是,证券行业在数据治理平台、实施路径和人才培养(专职岗位)等方面存在较大差异,大多数证券公司处于尝试和摸索的阶段,正在围绕数据标准建设、数据质量建设、元数据建设等方面进行探索,在落地的过程中存在一些问题和挑战。
首先,在数据标准方面,大多数证券公司已经制定了相应的数据标准的管理规范,发布了基础数据标准和指标数据标准,但是这些数据标准往往缺乏应用场景,业务和技术人员可能没有主动维护的驱动力或者需求,造成数据标准过时或者不准确,丧失了数据标准的权威性,导致标准无法继续施行。
第二,在元数据管控方面,由于证券公司有一些外购系统或合作开发的系统,使元数据变更管控很难完全覆盖,必须对元数据的管控流程提出要求,进行元数据的版本管理和元数据的评审,结合一些开发管理工具来加强管控能力。
第三,在数据质量方面,传统的数据质量管理是从技术人员的角度出发,建立数据质量的监测规则,难以支持业务人员从业务视角提前监控和发现数据质量问题,与此同时数据质量的覆盖率和有效性也有待提升。
第四,在人员配置方面,由于行业中的数据治理人才紧缺,很多企业通过开发人员转型或兼职的方式推动数据治理工作,导致很多数据治理工作流于形式,效果不理想。
国信证券数据治理应用四大实践策略
针对上述困境和挑战,国信证券通过持续的探索和实践取得了一些初步成效。
第一,在组织架构方面,设置数据治理专职岗位,支撑数据治理在数据标准、数据质量,元数据安全等各领域的流程运营。
第二,在数据标准方面,为了解决数据标准缺乏维护场景、标准维护不够及时的难点,将数据标准与数据中台以及前端的数据应用(例如报表平台)相结合,支撑数据标准的落标和推广。
第三,在数据质量方面,探索和建立统一的数据质量检核引擎,通过数据质量检核的可配置化,提升数据质量检核规则的配置效率和覆盖率。
第四,在元数据方面,在元数据的变更管理中引入预发布库,从而做到元数据的全流程管控,提升元数据的规范性以及有效性。
一、将数据标准与数据中台、数据应用融合
数据标准涉及三大平台:数据服务平台、数据管控平台和数据应用平台。
其中,数据管控平台管理国信证券内部所有的基础数据标准和指标数据标准,采集各个应用系统以及报表平台的元数据;数据服务平台通过集成各个数仓以及数据应用系统,提供数据api接口服务;数据应用平台面向业务人员以及分支机构展示不同的数据报表。
国信证券基于融合打通的理念将这三大平台的数据标准打通,将数据标准融合到企业数据中台,跨平台实现数据标准的对外输出和统一。破解了数据口径不清晰、不同人员理解不一致,以及数据标准、数据治理成果缺乏应用和推广的痛点。
二、建立统一的数据质量检核引擎 提升质量检核规则配置效率
在业务规则复杂多样、数据源对象差异大的需求背景下,为了实现数据检核的低代码甚至无代码,支持自主配置数据质量监控,国信证券基于四个方面设计了统一数据质量检核引擎。
1)检核对象的可配置化
检核对象指建立每一条检核规则时,都会指定相应的数据库以及数据库中的表和字段来对其进行监控,这样的表格字段往往需要技术人员写sql进行数据库查询,才能得知具体的表格字段。为此,国信证券将各关键系统的表格字段梳理成数据模型,以勾选配置化的方式在前端展现,从而实现低代码化配置,即使是业务人员也可以自己通过勾选每一张报表进行配置。
2)检核常量的可配置化
检核常量指每一条检核规则,特别是数据类的质量检核规则,例如同比波动超过20%会被认为是异常的,这个20%是一个常量,以往需要技术人员写sql置换。如今,在国信证券的检核引擎界面,每一个检核常量都可以由业务人员通过手工输入直接进行修改。
3)检核规则的可配置化
检核规则其实非常复杂,既有单表检核、跨表检核,也有跨库检核。国信证券针对这些检核规则配置了单表、跨表、跨库等一些通用的检核规则模板,目前已经梳理并上线了十余个模板,对应300余条检核规则,实现每日的运行监控。
4)执行计划的可配置化
执行计划是指检核对象、检核常量以及检核规则等配置完成后,检测任务在何时执行?调度频率是多久等等。在数据质量检核引擎界面,业务人员可以通过勾选的方式,实现执行计划的调度配置。
通过数据质量检核规则的可配置和检核任务的可配置,实现了统一部署,定期检核,并且可以出具相应的数据质量检核报告,形成数据质量管理的闭环。
三、元数据变更管理中引入预发布库 实现全流程管控
在元数据管理方面,国信证券在数据管控平台引入了预发布库模块,实现了元数据的全流程管控,并且可以在线上发送影响通知。
数据管控平台的第一个模块是元数据采集与版本管理模块,采集国信证券各业务系统、数仓和数据集市、资讯信息以及应用日志等元数据,进行版本管理。第二个模块是元数据管理流程,从需求收集到上线流程中,嵌入数据标准的规范性评审环节来管控元数据。
与此同时,国信证券引入了预发布库管理模块,各个系统在上线前进行元数据评审时,会同时审核其预发布库,如果检核到预发库和生产库不一致,将进行比对,从而分析具体变更,然后基于血缘关系解析模块解析元数据来源和影响,在有变更时通知关联方。
数据管控平台实现了元数据变更的自动化管理,变更前可以及时通知下游,避免了上游变动下游未及时变更造成的生产事故。数据管控平台的管理流程已与数据模型管理、数据标准管理以及数据质量管理相融合,并在元数据输出与应用的过程中进行数据标准的评审,通过数据质量检核实现元数据的监控与告警。例如,当系统中的元数据未在预发布库变更却直接在生产库变更的情况,会通过监控告警,告知系统负责人以及下游。
四、设置数据治理专职岗位 保障和支持各项流程运营
国信证券在数据治理工作小组下设立四类专职岗位,包括:数据治理岗,数据标准管理岗,数据质量管理岗和元数据管理岗。
数据治理岗主要负责数据治理体系建设,完善并推动组织、制度、流程与考核的落地。
数据标准管理岗负责基础数据标准和指标数据标准的管理,以及数据标准的落标检查。
数据质量岗负责对接公司各个业务线进行具体的数据问题整改,进行质量监督。
元数据管理岗负责开展元数据采集和元数据评审,梳理公司的数据资产。