7月23日,由企业网d1net举办的全国cio大会·新技术专场在海南博鳌召开。本届大会主题为“数字化升级转型新场景”。主要分享交流cio在数字化工作中的经验和困惑,帮助全国各地的cio们更好地应对后疫情时代的数字化转型,传授以多种it手段赋能新业务并实现降本增效实战经验,内容涵盖基础架构、信息安全、协同办公、数据、新技术(ai,低代码等)等众多领域。大会同期评选和颁发“2022全国优秀cio个人奖”。
以下是现场速记。
pingcap 技术总监 翟雷
翟雷:首先做一个简单的自我介绍,我是来自pingcap的翟雷,目前负责整个区域的技术工作。正式开讲之前,我想简单地向大家介绍一下pingcap。可能各位听了我的名字就会问我们是不是一个外企,我们其实是一个标准的中国公司,2015年成立,目前大约有七百号人。我们只做一款产品,就是tidb。目前我们企业服务的用户数量已经超过两千多家,相信在场的朋友的有些企业应该也在使用tidb产品。今天我分享的主题就是“tidb赋能数字化场景创新”,主要有三个部分:目前我们在数字化场景创新过程中遇到的挑战和问题,tidb在数字化场景创新的过程中能够给大家提供哪些服务、带来哪些凯发在线的技术支持,最后通过一些案例进行简单的分享,看一看这些案例是不是能够起到抛砖引玉的作用,为大家带来一些启发。
我们在服务企业用户的过程中积累了大量的经验,也踩过无数的坑。试想一下,我们的日常工作或者处理技术问题的过程中有没有遇到过类似的场景?比如tidb也有服务很多金融客户,信用卡场景中经常有遇到查询的帐单很慢。我们在上海疫情期间线上购物或者团购的时候,外卖的业务出现了爆发式的增长,后台的数据库经常出现我宕机了,服务不能持续进行的情况。目前在互联网消费非常蓬勃发展的时代,快递行业经常遇到数据增长速度非常快,需要察看快递某个单号状态的变更,这个时候我们也是有同样的体感,比如快递不知道在哪里。saas服务其实是未来云时代一个非常重要的业务形态,我们也经常会遇到多租户的问题,怎样进行租户资源隔离,实现每个租户在技术资源或者计算资源架构完全的独立性,这也是我们经常遇到的问题。
带着这些问题,我们看一看tidb在企业场景创新中的一些变革。
刚才我们都有提到很多问题,遇到这些问题,无非是从两个方面着手:技术架构和业务架构,我们需要进行一些变革。变革其实是最痛苦的,因为是革命。目前在数字化场景创新中有三种情况:要在场景创新进行变革,就是指我们要把沉淀的数据价值充分挖掘出来,在此过程中提供很强的数据算力、数据价值,推动我们商业模式的创新。数据价值的创新,其实我们在企业里沉淀了大量的数据,怎么才能做到可用和有用,而且数据能够做到被大家广泛使用,不是一些僵尸数据,这一点也非常重要。底层技术架构的创新,我们这里有三个原则:简洁、弹性、融合。
针对这些变革,我们探讨一下背后的逻辑。
数字化场景创新的变革后,我们认为实时性是非常重要的支撑。刚才上午也有嘉宾提到很重要的一点,叫做业务的敏捷性,敏捷是目前非常流行的一个词。业务敏捷的背后有一个非常重要的因素,就是数据要能够保证实时性。为什么数据的实时性如此重要?相信很多客户或者在场的cio经常会遇到一些挑战,就是业务扩张很快,数据计算和展现影响我的业务决策,比如现在想要实时察看业务报表,能够在“双十一”这样的大促销节日里实时统计每个快递点流转的速度。作为银行的风控部门,需要能够做一些实时的风控,这些都是影响业务决策的因素。我们的应用迭代很慢,客户体验很差。之前说要做微服务改造,把独立的单体应用换成微服务架构。之前的独立应用或者单体应用牵一发而动全身,改成微服务架构后,敏捷发布、产品迭代的速度就会非常快。
这些是在场景创新中的三个实时性的要求。
接下来就是价值创新,比如卡夫卡、h-base、mpp计算引擎clickhouse和gp,这些都是传统的技术栈。出了一个报表、做一些实时分析,基于左边的技术栈可行吗?实际上还要打一个大大的问好,通常的做法是etl,数据同步到大数据平台,或者tp数据同步到ap数据库里面,跑批完成以后生成报表,然后展示给我们的用户和决策者,时效性就会非常差。技术要求也非常高,因为企业里的部门或者组织非常庞大,这样的组织里有多个部门,为了完成一项工作需要协同、需要同步,其实跨部门的沟通成本,要把多个技术团队的资源整合到一起的成本就会非常高。我们知道每年企业都会大量采用各种各样的服务器和硬件资源,当这些硬件资源堆到一起,其实每年企业的硬件成本都是非常高的。
有没有一款数据产品能够解决刚才我们所说的业务问题、技术问题,或者痛点呢?介绍一下我们的主打产品tidb,2015年到现在为止,我们已经迭代了六个大的版本,现在主推的版本是6.0,产品已经服务将近2000家企业,而且是覆盖全球各种各样的行业,从政府到金融再到运营商,包括大量的互联网客户,包括一些传统的制造业都非常多。我们这里沉淀了大量的场景,也有打磨我们的产品。我们服务企业的过程中也组建了一支强大的凯发在线的技术支持服务团队、凯发在线的解决方案团队。不管是产品能力、业务方向,包括人员的组织,我们已经成为一个标准的企业级分布式数据库产品。
这里还有提到一个非常前沿的概念,叫做h-type,最近google也有提到这个概念。我们可以骄傲地说,h-type是pingcap在业内第一家提出来的。我们是一家做融合型数据库的公司,一款数据库产品可以支持标准tp,也可以做实时ap分析。为什么pingcap有这样的能力?围绕刚才提到的三个技术变革方向为大家逐一展示。
场景的创新能力:刚才提到tidb产品目前已经在2000多家全球客户的生产环境使用,那么在这样的背景下和过程中,我们沉淀了大量case,而且在这样的循环,我们把自己的产品打磨得非常精细、非常成熟,我们在场景创新积累了大量的case。
数据价值的创新:tidb是一款融合型数据库,既可以做tp也可以做ap,可以和企业的大数据技术栈,hive、h-base和hadoop相关的开源技术组件无缝对接。我们将自己的数据库产品和企业里面的大数据产品的技术栈做完美的融合,可以实现数据价值的创新能力。
架构的创新:下午会议刚开始的时候有一个简短的视频播放,里面重点讲的就是pingcap这个产品。我们的创始人提到一个非常重要的概念,就是企业创立的第一天起就有提出云原生的概念。我们的产品不仅可以部署在云上,不管是国内的阿里云还是海外的aws或者google gcp和微软的azure都可以部署。我们也有支持线下私有云的部署,如果企业有构建私有云的能力,我们也支持做云下部署,没有这种私有云的能力,哪怕就是几台简单的x86服务器也可以部署tidb。因此,tidb在基础架构创新方面是走在时代前沿的。
回到tidb本身,我们在数字化场景创新中提供的技术能力可以归结为四点:
善于处理海量数据。分布式数据库就有一个天然的优势,可以解决单一数据库容量的上限问题。现在企业大量使用mysql或者oracle这种单一数据库,但如果当数据量达到一定瓶颈,能够做的事情就是扩展硬盘,再去多买几个内存条,但这个过程是非常痛苦的,势必要停机停服务。用了tidb以后完全没有这些烦恼,计算和存储出现瓶颈的话,我们只需要做线性的水平横向扩展,这个问题就可以轻而易举地解决。处理海量数据的问题上,tidb有着天然的优势,这也是分布式数据库强大生命力的源泉。
实时,刚才主持人提到算力,未来云计算、大数据和ai,背后都是很强的算力。分布式数据库可以有大规模的并行计算能力,可以充分发挥多个节点同时计算的优势。举个最简单的例子,比如一条普通的sql发到tidb数据库就可以分布到多个节点同时计算,所以tidb的分析能力可以是吊打mysql和oracle这种传统的单机型数据库。未来如果各位现场的cio朋友有些ap的需求是单一数据库和传统的oracle搞不定的,建议大家使用tidb尝试。
敏捷。刚才我也介绍过,敏捷是现在我们业务发展过程中非常流行的一个词。我们特别强调要快速、要迭代,因为有一句话叫做“天下武功,唯快不破”,tidb在处理敏捷业务的时候有天然的优势,我们和现在传统的微服务架构有非常好的融合。
再提一个非常非常关键的词,叫做chaos mesh,这是目前pingcap非常流行或者混沌测试领域非常著名的框架,配合敏捷的业务开展同时出现的产品。我们有多个微服务,微服务的调用和稳定性都是人肉覆盖不到的。我们要模拟一个磁盘的抖动,模拟一个网络的延迟,模拟一个内存的升高,这种情况下用chaos mesh产品就可以非常容易地做到。
最后一个特点就是创新,未来的基础设施肯定是云的时代,相信大部分同事都有坐高铁的体验,高铁就是交通的基础设施。我们都有一个共识,未来it的基础设施就是云,所以我们的数据库产品从第一天起就是拥抱云的。未来大家如果有些上云的需求,不管是国内还是国外的云,tidb都可以和这些产品完美兼容。
结合刚才我们提到的问题,包括产品的能力,我们做了一个梳理,这张图是经典的架构图,也是很多用户使用tidb非常普适的一个技术架构。这些是我们经常使用的产品组件,都是关系型的单机数据库,包括比较流行的流式处理框架。这些单机数据库的数据,我们可以实时汇聚到tidb。这里有提供各种各样的同步工具,而且和业内的数据同步工具完美兼容和融合。我们将数据汇聚到tidb以后就可以做到实时反馈,不管是做实时报表还是和实时业务融合,我们都可以做实时的风控,包括用户行为分析、客户画像、银行里做信贷风控模型的实时计算,最终实现数据实时变现。为什么tidb有这样的能力?因为我们是在tp和ap两种能力都有相当强优势的产品。
说了这么多,在场的朋友可能会问我们做了哪些重要的客户?哪些用户在使用tidb?目前我们在全球的用户数量已经超过2000多家,这是一个非常庞大的数字,再看国内都有哪些案例可以跟大家分享。
中国平安是目前国内金融机构中最大的一个集团,可能有的人说是不是宇宙第一大行?工行最大,其实从金融属性来说平安是最大的,因为他们是全牌照,银行到保险到证券到投资,就是全牌照的金融机构。中国平安内部所有基于互联网化的应用,也就是to c的应用,包括平安的寿险、平安的财险、平安e钱包、平安普惠等等金融机构大量地在使用tidb这款产品,实现目前在互联网化或者移动化、敏捷化的大背景下的数据实时服务能力。
另一个例子中通快递,大家都有购物的习惯,每天都会收到好几个快递,“双十一”会有很多快递,中通快递是目前国内最大的快递公司,也是全球最大的快递公司。目前中通快递每天处理的快递数量大约是大几千万件,“双十一”每天处理的单件数量大约是100亿件以上。这里我提一个负责重要的经济价值,没有使用tidb之前,所有快递状态的变化,收发派到签几个状态的变更是在x-data实现的,但当“双十一”来临他们撑不住了,市场上选择大量的调研,最终选择tidb支撑中通快递在“双十一”的业务流量和快递报表的处理。目前我们已经在中通完美地支撑连续四年的“双十一”活动,2019年开始直到现在。大家可以看一看中通今年发的财报,因为他们是一家上市公司,每个单据使用tidb以后节约的经济价值大概是在0.02-0.03元,可能这是一个很微小的数字,但是每天处理的单据都是几千件,这个经济效益是非常非常可观的。
除了中通快递之外,我们也有做很多其它的快递,比如极兔快递、中通快运,包括德邦也在使用tidb这个产品。
微众银行是腾讯系的一个互联网银行,也是在互联网银行蓬勃发展的阶段迸发出来的一个非常非常有活力的银行。依托腾讯、依托微信这样一个天然的数据流量。微众银行是业内非常讲究开放、讲究创新的互联网银行。大家都一直在使用微信,微信后面有一个十二宫格,也有一个非常有名的产品叫做微利贷,每天可能产生利息,逾期以后会有罚息处理,每天晚上的跑批动作都是在tidb里面完成。我们在这里做的场景非常多,图中展示的场景是微众银行的实时风控场景,依托tidb有多元数据汇聚的能力、实时快速便捷的查询能力这两个特点实现的。
因为商务关系,我们没有办法把客户的实际名字放到ppt,但大家看这个颜色应该就知道,这个企业就是麦当劳。目前我们在无论是线下还是线上,哪怕是通过饿了么、美团等等渠道,每买的汉堡、可乐和薯条,从你登录、下单到使用积分、使用卡券,包括支付那个动作完成,后台一整套完整的流程全是tidb承载。如果说tidb的性能、稳定性稍微有点抖动的话,我们全国人民是吃不上麦当劳的,这是毫不夸张的一句话。为什么tidb能够做到这样的企业,能够给麦当劳提供这么强大的技术支撑?其实也是应用了刚才提到的几点。麦当劳是一个非常讲究敏捷的企业,大家都知道餐饮行业的利润非常薄,人工成本、门店成本、运输成本、原材料成本都会抠得非常非常细。我们的产品在支撑麦当劳所有业务的时候给麦当劳的cio、cfo都有留下非常非常深刻的印象。我们从服务开始到现在支撑度过好几个促销节,包括各种各样的活动。
销售易就是刚才提到的六个场景之一,所谓的saas服务。一个重要的特点就是多租户能力,为了使得多租户之间的资源隔离、计算资源不受干扰,tidb有着天然的多业务融合的能力,可以做到各个租户之间业务彼此互不干扰、互不影响,可以做到tp和ap同时进行,ap和tp资源的隔离,这些是销售易经过大量的市场调研、产品选型以后选择tidb一个非常重要的原因。
由于时间关系,分享的案例就这么多。我们来想一个问题,客户选择tidb的时候,或者这么多用户使用tidb,背后的原因是什么?其实我们内部也有两个分享,因为tidb是一家做原生分布式数据库的厂商,客户选择数据库的时候无非考虑两点:开源和多云。
为什么强调开源?这里引用国内××银行科技部老总的话,“我选择了tidb,选择了一款开源的数据库,我就具备自己掌控这款产品技术的能力,所以tidb是我自己的产品,我有自我掌控能力”。
另外就是多云,现在上一套it系统不像之前需要自建机房或者租个机房,哪怕买几台硬件服务器承载业务,现在都已经变了。我们的第一想法是能不能在阿里云或者其它的公有云使用tidb,或者能不能将云上云下结合,围绕数据安全和系统稳定性等等各个因素考虑。
我们认为开源和多云是未来非常重要的趋势,这里也打一个小小的广告,今年6月tidb登录阿里云的新选商城,未来大家选择tidb的话完全可以在阿里云上购买。我们会议刚开始那几天还有一个六折的活动,可以基于阿里云部署和使用tidb。大家完全不必担心使用的过程中遇到问题怎么办,有没有人做凯发在线的技术支持和保障,阿里云目前tidb的数据服务都有pingcap原厂技术工程师提供技术支撑和辅导。
刚才介绍过,我们公司七百多号人只做一款产品,而且这个产品是面向全球用户使用的。我们一直在思考,一款产品、一家数据库公司能够生存、能够壮大发展,背后的真正原因是什么?我们总结出来一个词就是开放,围绕开放有三个非常核心的概念:
我们要用先进的技术理念和规模化的应用场景打磨数据库产品,昨天才展台也有朋友来问,你们的数据库是你们自己从里到外写的吗?你们的设计理念是从哪里来的?tidb的设计理念和灵感来自于google的两篇论文spannr和f1,所以工程界做了实践。
刚才提到的开源,相信企业里面有很多做开发运维的同学,他们也喜欢去钻研新的技术和新的产品,pingcap这个产品5.0在发布的时候,我们做过一个统计,参与5.0开发的人是1200多人,但当时我们公司的技术研发同学一共不到500个人,也就是说有很多外界的同仁帮助我们的产品贡献自己的代码。这个产品有来自高校的、企业的,比如微众银行、美团、知乎、华东的浦发银行,包括海外的一些人,瑞士、俄罗斯、美国的人帮助我们贡献代码。
生态创新和合作共赢,其实我们发展的过程中也有很多生态凯发在线的合作伙伴跟我们配合,比如金融、制造业领域都有很多合作领域跟我们形成比较好的、可落地可执行的凯发在线的解决方案。
多云和开源给我们带来的最大价值是什么?就是两点:开放和便捷,核心词就不一一展开了。
最后总结一下:一旦用户选择tidb和pingcap,能够给大家带来哪些实实在在的价值和能力?就是完整的企业级服务能力,我们收敛了几个观点:我们是全新的新一代h-type数据库,不是为了交易、为了分析使用一个库,没有必要,因为我们有两个引擎,一个列存,一个行存,二者之间的数据可以实现实时数据同步和转换,而且这对我们的应用是完全透明的。我们可以简化客户数据的技术栈,刚才有一个技术架构图,引用h-base、gp、clickhouse,但使用tidb的话完全可以取代这样的技术栈。然后是开源,使用开源的技术产品才能做到真正的自我掌控能力。有真实场景的打磨,因为我们是开源的数据库公司,产品推向市场的时候有很多社区的用户在做尝试和使用,我们也信奉一句话,好的数据库产品不是开发出来的,而是用户使用出来的。大量的用户在使用,使得我们产品迭代的速度和进化的速度非常快。
社区与开放,我们的社区有两个,一个是开发者社区,围绕tidb产品,如果在座的朋友有些开发能力的话可以参与到这个产品的开发,另一个是自己的用户社区,大量的社区用户使用tidb产品。我们有自己的社区网站,也在运营这样的社区。到目前为止,tidb使用过程中的问题70%-80%都是社区用户自治的,遇到一个oracle的问题可能会找oracle的工程师解决,但是tidb的问题基本上可以做到社区自治,实现开放的社区运营能力。最后就是可以做云原生、云中立,使用tidb数据库没有必要担心会不会被某个云厂商绑定,不会遇到这样的问题。
感谢各位的聆听!