9月23日,由企业网d1net、信众智(cio智力输出及社交平台)和中国企业数字化联盟共同主办的2023北京部委央企及大型企业cio年会(秋季)在京顺利闭幕。本次大会汇聚了央国企部委及大中型企业cio、信息主管以及数字化一线厂商,以“数字化转型”为主题,围绕大模型、多元算力、国产化智慧办公、rpa、低代码、数据资产管理、数字资产保值增值、数字安全和数据安全治理,央国企数字化转型场景、转型探索与实践等热门议题展开深入探讨。
普元信创凯发在线的解决方案部总经理 曹宗伟 在本次大会上分享的主题为“大型企业数据资产管理体系建设与应用实践”。以下是现场速记。
普元信创凯发在线的解决方案部总经理 曹宗伟
曹宗伟:各位专家,各位领导,大家上午好。非常荣幸有机会给大家做大型企业数据资产管理体系建设和管理的分享。
在分享之前首先介绍普元公司,普元是国内始终致力于变革企业软件生产方式的企业。因为普元在2000年左右,我们大老板写了一本书《软件的中国机会》,它的核心理念是什么?因为中国软件大约从2000年开始的,但是国外的软件大概走了将近100年的时间,中国从改革开放这几十年以来唯一不变的是变化。我们能够去适应各种各样的变化,所以会比国外的公司能够有适应变化的能力。这是中国的软件机会。
普元从03年正式成立,是最早做低代码的厂商。普元的低代码在银行里做的最多,像工行、建行全行使用普元的低代码。06年左右普元开始做soa,2012年开始普元开始做数据治理、数据资产管理相关内容,2019年普元在科创板上市。普元产品线分为三大块:第一块是低代码,前面将近20年时间是非常重要的产品。第二块是信创中间件,信创中间件中会覆盖全栈的信创中间件。第三块是数据相关的产品,包括数据中台、数据资产管理、数据治理等内容。
简单介绍低代码在数字化转型里的场景,低代码在数字化转型里解决的问题是打通数字化转型最后一公里的问题。我们做了很多央行央企,他们在用低代码时解决的是什么问题?数字化转型是企业整体数字化转型,并不是说只有比较有钱的部门做数字化转型。像很多银行不能老盯着北上广的网点,应该盯着西部很多省,那些三四线转型成功才是整体的数字化转型成功。这时候他们的业务怎么办,他们没多少预算,需求又比较多,以前没有厂商去理会,这些场景现在都是通过低代码的方式去解决的。
普元在低代码领域也取得了很多的荣誉,因为我今天不是介绍低代码,我只是稍微带一下就可以了。
第二块是普元的信创中间件的产品,普元从成立之初就一直做国产化的信创中间件。在这里普元的产品可以覆盖到ibm、甲骨文全栈的信创中间件产品,包括工作流、大文件传输、消息等中间件产品,我们有十几款中间件产品,可以ibm和甲骨文公司做全量的替换,我们并且在很多的企业有了非常好的实践,这是信创中间件。
第三部分的产品主要是数据类的产品,也是我今天重点解决的。因为数据类的产品解决的问题是,主要是为了解决数据价值的问题。普元在这里提供像数据中台、数据资产管理等各种各样的产品,另外一方面紧随时代步伐,包括ai大模型出来之后,在ai大模型和数据之间的结合能够让ai大模型帮助我们做数据治理,帮助我们做数据清洗,在这方面也做了很多尝试和案例。
在数据方面,同时我们也参与了国家标准,比如国家的数据治理标准,参与了很多的行业标准,地方标准,比如参与了像上海市的公共数据中台等等地标的制定。我们参与标准,另外我们有发明专利,有几十项关于数据的发明专利。
在数据方面,普元的数据治理会有白皮书,普元的数据治理在央国企里市场占有率第一。第二个普元数据资产管理在gather2023年发布的向里普元和阿里云、华为是数据资产管理标杆厂商,普元得到了业界的认可。
接下来跟大家分享我们在数据资产管理方面的实践。
首先来看国家最近几年的政策,从国家大数据发展来说,分为三个时期,从16年之前是导入时期,16到19年落地时期,19年之后是深化时期。因为国家发的这些政策里面,特别是今年的8月份财政部发的政策,财政部发文要求数据资源要入表,这意味着我们数据资源可以作为无形资产入到我们企业的资产里面。在这个事情上,银行业是最先开始做准备的。比如像光大银行做这个事情的时候,它是准备把自己的数据资产拨了1千亿,等着数据资源入表政策,从2014年开始实施了,马上就可以入到表里,相当于企业数据资产增值1000亿,这个1000亿是它自己估的,银行基本都做好这个准备了。
第二个是最近的一些趋势里,如果在网上搜一下就能看到,很多企业把数据资源作为抵押已经贷出来钱了,很多企业贷出来的都是千万级别的,拿几张表做抵押就能贷出千万的钱,这是数据作为生产要素最新的变化。所以在央国企里,我们最近遇到很多央国企都是做这样的事情,我们要对数据资产做估值,数据资产要落到报表里,要让我们资产增值,做这个事情。
对数据资产实施的关键步骤或者方法,它主要有五个字:识、规、优、用、盘。识是对数据资产的识别,这里到底有哪些数据资产,怎么识别,怎么梳理它?规主要是规划和规范这些内容。优是对数据怎么去做治理,怎么做优化的过程。用是我们数据资产到底怎么去使用?最后还有盘,盘点。盘点之后,我们怎么能够记到我们会计报表中?是这样的过程。
在这个过程中,最难的就是识。为什么是识?因为我们见过太多的企业,他们将近20年的业务系统建设,将近20年数据的积累,基本上都是有上百个业务系统,可能几十万张表,几百万个字段,这很正常,这几百万个字段要想完全梳理清楚非常具有挑战,我们做很多银行数据梳理时,我们说能不能分期梳理?不要一次性梳理清楚,回复说不行,因为每个字段都是钱,需要理解每个表每个字段的含义,这是一不,这是识。
识的难点是什么?我们去做数据资产梳理的时候,最难的就是我们的表名和字段名都是汉语标音首字母简写,没有注释,我们要理解。虽然建了数据湖,把所有数据集中到一起,但是还是不能理解它。包括这里的数据确权、数据认责,我们拿表告诉业务部门,这张表是你负责的,业务部门绝对不认,否则认了就是我的责任了。这种时候我们能不能有一种方法去梳理数据资产?真正理解表和字的含义。
在很多金融包括一些银行或者保险公司做的事情,他们做数据资产数据的时候,都是能不能把我的应用,一个黑盒的应用照一下就能照清楚里面的脉络,然后把它数据库的表字段联系起来,通过这种方式做数据认责和确权。
把一个应用拆成200、300个功能,每个功能有它的界面,每个界面有它的表单,下拉框里有选项,采集过来进行关联。再把界面发的请求,将表也关联起来。通过这些知识图谱,通过表可以找到它的界面,它的表单,它的字典项。通过这种方式,我们大部分人都能理解这个表的含义,我们就能把数据梳理工作变得非常容易的事情。
所以这是基于工具,把一个应用像照x光机一样,我们理解每张表每个字段的含义。同时能够帮助我们做数据确权,我们给业务部门做数据确权时,拿着表单,业务部门无法否认是它录入审核的,这个界面关联的表就该你负责,这是做数据认责和数据确权。
这是在银行里有750万个字段,把每个字段全部梳理清楚,因为这里要做估值的,每个字段都是钱,如果是按照光大银行那种方式的话,每个字段的价值还很高,这700多万字段有可能价值几百亿,是这样的估值方式。所以要把每个字段梳理清楚,这是我们做数据识别。
同时在识别时还要用到ai能力,比如我们去建识别的专用模型,通过ai模型通过nlp做理解帮我们去梳理概念模型建立数据标准,这也是我们做识别非常重要的一些方法和手段。
识别完之后我们第二步做规,首先是做规划第二步是规范。包括体系怎么建设,举例南方电网,正好我们做过南网包括广东省包括下面的广州市,所以它的整个规划我们做过打通,我们做过很多银行里面包括很多央企里面,比如东方航空我们帮它做了三期数据治理,也都做过整体规划,包括规章制度。规章制度也非常重要,它特别是对我们企业信息化人员非常有效的保护。万一我们数据出了问题,这个时候如果没有规章制度就是我们的责任,如果有规章制度,按照规章制度做事情,责任就是另外一回事儿,对我们是保护。另外还有一些标准规范等等,包括组织岗位这方面的规划。
接下来我们还要做优,优化的地方核心就是做数据治理。数据治理在这里面分了三个阶段第一个阶段是在企业里面它的数据没有治理,没有治理的阶段是领导想要什么报表,想要什么指标从数据里抓过来看就可以了。到第二个阶段做集中治理,我们经历很多集中治理的阶段,并且发现很多问题。比如在做一个银行,他们做管理驾驶舱,界面很漂亮,但是数不对。比如大客户存款余额,和其他统计口径出来的数据相差几千亿,领导怎么做决策?要给大客户做政策,结果数不对。为什么相差几千亿?比如大客户数据是从各个省报上来的还有会计一个口径,各个省报上来是不同的口径。比如北京市存款1个亿算大客户,到别的地方存款5000万算大客户。有的做了管理驾驶舱,直接就报管理驾驶舱的数据,发现里面存的是万元为单位,业务系统存的是元单位,技术员不一样,一看数据直接相加,没有数据标准,没有数据质量管理、链路管理,这些差异就来了,虽然界面做得很漂亮,但是数不对,第二个阶段是做统一的阶段。
第三个阶段是做协同治理,因为我们央国企大部分都是大型企业,下属可能几百家、上千家公司,我们经常问一个公司领导下属有几家公司?说不清楚,因为算法不一样,这个时候我们去做数据治理,它是一个协同治理的,它是每一个公司都需要治理,每个部门都要治理的,是协同治理的阶段。因为我们的数据是分散的,我们业务系统是分散的,最终数据目录、数据服务我们希望是统一的,所以这个地方叫做协同治理。包括我们在城市里面做的也是一样的,一个大型城市里也是数据分散,但是企业要统一,数据服务、数据目录、数据共享、数据开放要统一,所以要做协同治理。现在我们基本做数据治理都到第三个阶段的情况。
举一个小的例子,我们ai大模型在数据治理方面的应用。比如做数据查重包括异常数据的处理,这个时候怎么查的?我们是把每一项数据的每个字段,比如物料查重,物料名称、规格都要变成矢量数据,照片也要变成矢量数据,然后根据矢量数据,根据每个字段不同因子算综合的治理,然后才知道这两个物料是否相似。我们遇到很多企业想采购物料时,明明仓库里有很多同型号材料,但采购时不知道,出现了重复采购,类似这样的场景都是通过ai帮助。
ai帮助时,为什么我们以前提ai提得少,现在提得多?讲具体案例就知道了。比如电阻是一个规格,二分之一欧和0.5欧,如果从以前算法,二分之一和0.5,0.5和0.6距离更近,二分之一和0.5不是一个东西,有了大模型之后,并且大模型的问题是如果你去问讯飞和百度的大模型它都会告诉你二分之一欧和0.5欧不是一个东西,如果问chatgdp它会告诉你是一个东西,因为它会推理,百度和讯飞推理都会差一些。我们训练专有模型来解决单位转化、物料型号的问题,通过这种方式我们去帮助用户去做这些数据治理的落地,这些是普元比较擅长的。
最后我们还有数据治理的用,用要解决的是什么问题?解决的是更好、更快、更准,在这里我们做的核心是打通几个流:信息流、数据流、管理流。信息流解决什么问题?比如不同部门之间要用数据的时候,大家是怎么沟通的?估计开线下会议两个月不一定解决问题,因为你不知道数据是谁负责的,找不到数据在哪。在信息流打通的是什么?上海市大数据中心打通的是把所有数据信息放在一个界面展现,节省了大量的信息互相沟通的过程。
还有数据流,打通数据流和管理流。比如让业务部门参与,怎么参与?只有把流程推送待办到oa系统里才能参与,否则不会登录到数据平台上参与,所以这个地方我们定了数据标准,做了权限审批都要推送一堆流程,这时才能打通管理流,最终达到的效果是1515模式,1天5天15天。我们现在很多企业要成立数科公司,我们要有更先进的it建设方式取代其他的it建设方式。
在上海大数据集团他们做的是什么?上海大数据集团将数据都收编了,1515做了两年,各个委办局领导都愿意收编,因为他提出来的需求一天就能响应(如果数据经过治理),如果没有经过数据治理,5天就能给,如果数据在委办局需要采集15天就可以了,你提小的数据应用最迟15天就做完了,对于委办局怎么建设的?他们是今年提需求验证立项明年才给你。最后只用上海大数据中心了,上海大数据中心的主任后来又出来做上海大数据集团的总裁,又开始推这种模式,也是去替代落后的it建设模式。
同时在用的时候还有对ai的应用,我们在这里把企业的数据资源,首先企业的数据不能放到任何模型里,不管是大模型、专用模型,哪怕是做大模型私有化处理,这也不行,因为他们会有很多的漏洞。只要把数据放到大模型上马上就有人问谁谁谁的工资是多少等,这些问题会想办法绕到。只能把企业数据资产目录放到大模型上,但是数据还存在我们的数据平台上。这个资源目录能帮我们干什么?比如我们创建数据模型能建模,去做业务系统生成,但最终还是要访问数据库。
我们在这里做了很多基于我们产品的支撑以及很多业务上的尝试,比如我们在银行里面,我举个例子,我们用低代码生成了再加上ai、数据模型生成很多应用,比如银行他们放贷的时候,放贷其实是最辛苦的,今天一个养猪的过来为它放贷,明天养鱼的过来之后怎么评估要不要放,放多少?不知道,都是凭个人经验加上私下里的交易,他希望把这些东西全部做成数字化应用。怎么做成数字化应用?大模型的知识带来的这些东西,很快就是用ai 大模型 数据资产去生成应用,这就很快了,这个对它的价值就很大,它相对来讲对各个行业甚至各个中小包括农业、工业对各种行业的放贷的评估做了很多大量创新的应用。
最后还有盘,在国网某个市做的数据资产盘点。这个盘它可以把我们的数据资产形成链路,然后跟我们财务系统打通,把数据资产的价值同步到财务系统的报表里面,要能够真正形成企业的无形资产,主要是无形资产和存货。
最后再介绍我们在某银行的案例,因为银行里面它做的是几个阶段,第一个是做业务数据化,第二个是数据资产化、第三个是资产产品化、第四个阶段是做产品业务化。在我们数字化转型里,这个阶段的要求,大部分是做数据资产,之后还有一个要求是数据资产之后要变成产品,最后增值,最后是产品还要做成业务化。
比如这里做了一个体系,包括两类资产,包括静态的和服务的资产,包括两个机制,最终形成数据资产的报表。最后还帮助银行里面他们做这块的数据应用,这块数据应用是他们数据资产增值最多的。就是真正对外服务卖钱的数据应用,比如做企信宝的应用,企业转账信息、流水信息都在银行里,我给你做企业增信,这个很容易,这块是数据资产增值最多的内容。
我今天分享的内容就到这里,非常感谢!