5月10日,由企业网d1net举办的2023全国cio大会盛大召开。本届大会以“企业承压,it怎么干?”为主题,汇集300 企业cio及it高管,旨在搭建cio与同行交流的高质量交流和社交平台,通过观点与思想的激烈碰撞,可落地的实战干货分享,帮助cio用户群化解困惑和焦虑,助力广大cio找准数字化机遇、少走弯路,应对数字化转型过程中的诸多挑战。主论坛外,另设新安全、数据赋能、新技术增效三个分论坛。包括cio中年职业危机应对也是本次大会的议题之一。
以下是现场速记。
创邻科技cto&联合创始人 周研
周研:大家好,我是创邻科技的周研,很荣幸有机会和大家分享。最近两天听下来,前面很多嘉宾都有提到数据之间的关联和连接,今天我的分享就和这个事情紧密相关,主题是“galaxybase图技术赋能企业增益数据资产价值”,分为几个部分:图技术和数据资产价值的关系,galaxybase企业级图平台,最后是一些客户成功案例的分享。
我们生活在日益紧密联系的世界,internet带来信息连通,iot带来设备连通,微博微信抖音快手这些app带来人际关系连通。随着社会数智化程度的不断加深,数据量呈爆发式增长,数据之间的关系显得日益复杂,企业数字化进程中,原始的数据分析和管理没有办法满足海量数据转化为高价值数据资产需求,没有数据之间的关联分析,数据或将毫无意义,关注并挖掘数据背后的关系成为实现数据价值的关键所在。这里是指数据连接的connectivity而不是统计相关性的corelation。
关联关系是无处不在的,因为世界万物是普遍联系的,社交网络的应用可以有精准营销、好友推荐、舆情追踪等等,金融行业有信用卡反欺诈、资金流向识别,零售行业可以有用户360画像、商品实时推荐、反薅羊毛,电力行业有电网调度仿真、故障分析,电信行业可以做电信防骚扰、防诈骗,政府可以做道路规划、智能交通和疫情精准防控,制造业可以做供应链管理、物流优化、产品溯源,网络安全可以做攻击溯源、调用链分析。
我们在做关联分析的时候会碰到一些难题,数据规模非常大,考虑社交网络场景无论是微博、twitter这些规模的社交网络,里面自然人的实体都是10亿级别,人和人之间的关注关系就是数百亿的规模。如果考虑到网络中的发帖、评论、回帖这些实体的情况,可能实体数额都会达到上百亿,关系数额也会达到上千亿。我们也会很多时序数据和日志数据的引入,包括交易数据,带着时间戳的数据进来,使得关系的规模更加扩大,很多场景都可以达到万亿的关系,所以要处理的数据规模是非常大的。
我们需要在这里进行非常深度的关联跳数分析,我自己是一个中心,我的朋友对我来说就是一跳的连接,朋友的朋友就是两跳的连接。社交网络的分析场景通常需要分析四到六跳的深度关系,而在反欺诈这样的场景有了更多的设备、ip、cookie的实体进来,大概需要分析六到十跳的深度,电网领域因为电力传导,链路可以非常长,需要分析三十跳甚至五十跳这样的深度,如何进行高效分析就是一个问题。关联分析的实时要求又非常高,没有实时性的要求,可以进行离线计算,但这些实时的场景下,更多的场景如果能够更加实时地拿到结果就能够有效地提升对用户的价值。我们如果要做反洗钱或者反诈骗,等到案发以后过了一周或者一个月,再靠其它的离线分析手段拿到结果,只能作为一个事后的追溯,没有办法在事中进行干预。如果能够知道实时转帐是有一个洗钱风险或者资金违规交易风险,可以在转帐的过程中实行干预。
为了能够很好地解决这样的一些关联分析的问题,所以我们需要这样的图技术。什么是图?这里的图是指图论中的graph,不是图片或者图像,而是以图论为基础理论,以点和边为核心逻辑描述现实世界中的实体和关系的数据结构,这样的数据结构为核心作为存储单元的数据库就叫做图数据库。通过图来表达现实场景的问题是非常明晰的,一图胜千言万语。
美国中情局抓捕本拉登的案例中的节点包括黑帮组织、个人和枪支的关系,中间还有金钱的流动,可以分析网络中心流向的各种位置。
图的价值会有更直观的模型全面地展示,我们用关系型数据库进行建模会先做一个er图,根据实体1:1或者1:n的关系有不同的方式拆成各种表。er图本身就是entity relationship,而在图数据库中可以直接进行表达,不需要二维表的现在进行转化,所以是更自然地描绘世界本身实体关系状况的方式。图模型表达的数据模型可以更加简洁,沟通效率更加提升。
我们如果写sql语句会有非常复杂的意义,如果需要表达三到五跳的关键,每一跳需要单独表达,三到五跳可能需要三个交易,也会非常复杂,图数据库会有专门的基于关联的表达查询,就是用圆跨号表示一个点,方跨号表示一个边,中间的箭头表示关联方式,可以把查询语言写得非常简洁,也是提升开发效率。
当然,最关键的就是查询效率有指数性的提升。我们做过这样一个对比,数据集并没有很大,7万个点,50万个边,就是谁信任谁,在这上面进行两跳的查询,关系型数据库加上索引的话还是比较快的,三跳就会明显变慢,四跳就更慢了,五跳跑一个小时都跑不出来结果。我们的图数据库就可以在非常短的时间内跟跳数增加的幅度很慢,无论是多深的跳数都可以很快达到返回,也是很多开发约定禁止三张表以上的交易关联。数据规模大、数据维度多、实时要求高、关联跳数深的场景都是图数据库的适用系统。
图数据库也是我们数智升级的关键底层基础设施,因为大数据的价值就在于关联关系和数据规律的发掘和应用,而图数据库能够高效地存储和处理数据之间的关系。预计到2025年,全球数据总量要比2021年增长超过80倍,数据价值也是备受重视,由先前少量的孤立数据价值挖掘转向海量全量数据的价值挖掘。可以看到零散的n个数据价值是n,根据梅特卡夫定律,一个网络的价值正比于网络节点数量的平方,所以当这些数据关联起来,体现的价值就能够是n平方。我们如果又有m个已经关联的部分数据,价值就是m乘以n平方,要是能够把这些割裂的局部关联数据,无论是企业内部的跨部门还是行业内部跨组织的数据统一起来,数据价值就能够乘以m乘以n层级以后的平方,每次的关联都会带来数据价值大幅度增长。
gartner说过,对于数据化企业的能力来说,图分析能力是唯一且最有效的相对竞争优势,而到2025年全球80%的企业都将使用图技术支撑智能商业决策。这是各种类型数据库的流行度增长图,上面的数据是相对变化关系,所以关系型数据库虽然体量很大,其实流行度相对变化关系是比较平稳的,图数据库是远超其它类型的数据库类型,流行度相对变化关系也是在逐年稳步增长的。
我国《“十四五”软件和信息技术服务业发展规划》明确强调,加速分布式数据库产品研发和应用,突破分布式数理和任务调度架构,大规模并行图处理关键技术,推动高性能数据库在金融、电信、能源等重点行业关键业务系统应用,这里特别提到分布式数据处理和大规模并行图处理,这是创邻科技拥有的核心知识产权。
galaxybase企业级图平台,介绍一下图技术的发展阶段,早期graph1.0时代单机小规模原生图其实相当于设计一种基于单机的,但比较好地处理图数据的数据库,主要存储的是参考数据,也就是静态数据,知识图谱、产业图谱、股权关系,通常都是单机就能够承载的图数据。
随着数据量越来越大,单机系统没有办法满足这样的要求就会出现随着数据量爆炸式增长,需要能够在分布式系统上处理图数据的系统,就像genesis graph,底层存储是hive或者现有的分布式可扩展的数据存储,然后上面进行一层图语义的架构,实现图的点边模型和查询结构,大概主要支持的是交易类型的数据,数据规模在1-1000亿之间,资金流向图谱、申请图谱、消费图谱等等数据。主要的问题是依赖第三方大数据现有的存储组件,并不是直接为图数据存储结构设计的。数据规模到达一定上限以后,性能问题还是比较明显的。
galaxybase为代表的原生和分布式图存储结构,既具备原生图的高效存储和查询性能,也具备分布式系统的横向扩展性,能够实现分布式大规模图数据的高效读写查询,处理事件和行为数据高达百亿到万亿级别的数据,包括日志、iot、连接、网络攻击,这些数据能够很好地处理。
按照数据库的存储类型可以分为三类,作为图数据库,最核心的就是看查询性能,解决的就是关系库中多表效应的问题。如果关系库多表效应需要对查询进行提速,势必是离不开使用索引。数据量非常巨大的情况下,使用索引也不能很好地解决这个问题。
可能我的朋友只有一个,只要查一个邻居,但过的索引却是全局的索引,如果要建立索引必须在这个朋友表上建立全局的索引,可能有百亿甚至千亿这么大,但邻居却只有一个,所以这就是效率的来源。图数据库核心需要实现的就是免索引连接,不使用索引的方式直接找到一个关联的邻居点,由此划分不同的存储类型。最简单的就是完全没有使用免索引连接,这也是一种时间方式,有些多模或者其它形态的存储,使用特殊的索引结构,实现应用层图语义的表达。好处肯定是跟现有关系库的融合度更高,但其实查询性能是比较低的,跟我们直接使用关系库多表效应差不多的性能。
我们也可以依赖于第三方的存储组件,会有一个排序特性,利用这样的排序特性再加上很好地设计点边id,可以实现近似的免索引连接特性,依赖于第三方的组件,自己的compaction操作,可能对图数据库就不太可控,生产过程中也会有由于不断大批量插入,底层第三方组件会跟不上compaction,不能实现很好地优化。完全原生的结构就是从数据存储层采用原生的点边数据存储方式,然后梳理到业务层就是一致的体现,也就是说业务里面需要做哪些关联查询的优化,可以直接下推到最底层的分布式存储,可以统一下推进行性能提升,galaxybase实现的就是完全不依赖于第三方存储组件的全部纯原生的存储结构。
这些就是我们的整体架构图,中间就是图数据库的核心,分为三层:存储层、计算层、接口层。刚才讲过存储层是原生分布式图存储,分布式的图查询引擎,在这之上实现分布式图计算引擎,单机优化算法和分布式优化算法。图算法的特性根据数据量的不同,应该选择不同的图算法,数据量比较小的时候肯定是单机执行效率更高,但数据量比较大并且有更多分布式算力可以投入进来,我们又需要分布式算法,所以对单机和分布式算法分别进行优化。我们提供自定义优化函数服务,可以根据业务需求自己实现自定义的算法和函数。
图中这些就是面向企业管理的用户权限管理、集群监控管理、多图管理等等,也是面向企业级的运维和管理做的很多产品化的工作。
我们是一个完全底层的存储和计算100%自主知识产权的高性能国产的图平台,所以我们对国产cpu和国产操作系统也是做了非常好的适配,主流国产cpu操作系统都有这样的适配认证证书。数据源也是接入现在所有主流的数据,无论是实时的流式导入进来还是现有的关系库的数据批量导入,或者大数据库系统hive,我们都是可以能够很好地支持。在此之上构建图智能中台,可以做数据etl、数据图模型的构建、可视化的查询,包括图算法的工作流编排、特征计算以及和机器学习的结合等等。在此之上就是各行各业的凯发在线的解决方案,包括企业图谱、反欺诈、资金流向分析、舆论分析,这些都是各个具体业务场景的凯发在线的解决方案。
我们核心业务价值:图存储的特点是速度快、高扩展、支持完全分布式架构、动态在线扩容,并且支持实时计算。图计算的维度支持实时计算,内置丰富的分布式算法,不需要etl进行实时图分析,很好的可视化交互技术中台,安全自主可控,所有内核源码都是自研,不依赖于第三方开源组件。
ldbcsmb测试也是一个benchmark,关联数据测试委员会属于非营利的国际组织,提供图数据库上的性能测试,这里也是第三方audit报告,去年打破世界纪录,相比之前的记录吞吐量提升了70%,平均查询性能有6倍以上的提升,95分位查询性能有72倍提升。数据处理规模也有打破世界纪录,交易图谱实现5万亿bn规模的超大图分布式存储,涵盖超过1000万的超级节点,六跳平均查询,耗时6.7秒,使用50台机器的集群就完成了这样的大图存储。
我们也有丰富的图算法知识,支持现在所有主流类型的算法,包括七大类57种图算法,社区检视、相似度、预测算法、模式匹配算法、节点嵌入算法,可以到深度学习框架进一步学习。这些算法大部分支持分布式优化,也是信通院图计算平台首家完成评测的厂商。
我们也有可视化界面,就是图智能分析中台,可以和地图的图层进行结合展示,包括时序关系,就是时间轴的场景下图的演化过程,随着时间轴的图的点边关系可以动态变化。
我们还是安全自主可控的,完全自主研发的图数据库,也是完全符合国内现在的信创要求,获得去年中国信创产业拳头奖的最佳数据库品牌,也和主流的国产操作系统和cpu进行双向的认证证书。
最后分享一下我们的案例:
iot移动图谱讲的是设备和连接设备的热点之间的关系,通俗来讲设备可能是手机,热点可能是wifi,通过这样的连接关系能够解决什么问题?现在跟我的手机同时同地点的其它手机在两小时之前有哪些跟我同时同地点,或者一个月以前都有哪些跟我共同出现过,可以分析设备之间的相关性。
现在有些场景比如公安的破案,或者疫情绿码红码其实就是根据设备时间的贡献共同出现,按照这种连接关系进行分析。因为这种连接关系有时序性质,今天连接这个东西一个小时走了,后来又来,带来时间戳以后就会让这个数据规模非常大,达到1500亿点位,725亿属性/小时,也是节省很多硬件成本。
反信用卡欺诈也是通过网络关系抓到明显的特征,实现多维指标计算,保障风控效率提升,同时也会提升客户的升级体验。之前系统需要3-5分钟,换成我们的技术1秒钟以内就可以做到,大大提升信用卡审批的实时性。
国有头部银行的云平台相当于行内所有图的相关应用,要有一个统一的平台管理,类似于在行内私有云上面进行dbaas服务,所有内容都在我们平台完成,实现多租户资源隔离,申请分配,节点申请和控制的功能。
相比传统的企业关系图谱,这里可能增加更多的动态数据,可以实现交易流水、开户数据,把这些数据加入进来以后能够直观地展示客户的各种关联关系,极大地提升送审效率,实时监控量化客户关联方风险和网络风险,扩大业务风险观察视角。
我们知道现在很多公司用微服务,微服务数量非常多,可能有几十万,调用关系和依赖关系非常复杂,针对一个服务进行升级的时候需要确定影响情况是很困难的事情。微服务之间的调用关系就是天然的网络关系,能够很好地用图表示。大型互联网公司也是通过图数据库实现对全部门所有微服务的统一管理和监控,实现自动监控、告警、进行分析优化,极大地降低运维人员的工作量,提高微服务的稳定性。
电网天生就是一张图,每个电力设备都是一个节点,设备和设备之间的电线就是一条边,天生就是网络结构,所以我们在这里做到数字孪生的实现,就是每个物理世界中的设备或者电线在数字世界中都是点或者边一一对应。采用这套系统可以做电网检修,包括故障分析,尤其是一个地方断电以后选用新的线路,如果原先靠人工研判花的时间比较长,通过网络分析计算能够提升原先的方案3-5倍的速度,节省下来的效果就是极大地缩短停电时间,其实也是产生极大的社会价值。
我们的标杆客户分为各个行业都有很多应用,因为关联关系是无处不在的,任何行业的数据要想深度挖掘关联都能够产生巨大的价值,所以我们有金融行业的用户、能源行业的用户、互联网的标杆用户、政府和高校以及各行各业的标杆用户。
因为我们其实是底层的数据库和图平台软件,真正在行业中产生业务价值是需要有更多对行业业务有深度了解的凯发在线的合作伙伴,所以我们也有一个非常大的生态系统,战略发展伙伴、云凯发在线的合作伙伴、凯发在线的解决方案凯发在线的合作伙伴,提供我们在各个场景下对行业、对业务有更深了解和定制的应用系统凯发在线的解决方案。
galaxybase的目标就是释放数据互联力量,增益数据资产价值,谢谢大家!