aigc虽然已经取得了令人瞩目的成就,但是仍然面临着一些挑战。比如在技术层面,需要不断提升模型的性能和能力,以适应更复杂、更多样、更高质量等特点的内容生成需求。在数据层面,还需要不断地获取和利用更多、更好、更新等特点的数据资源,以支持模型的学习和生成。
aigc发展中的存储挑战
由于生成式ai的主要应用场景涵盖文本生成、语音生成、图片生成、视频生成、代码生成、虚拟人生成等,在每种应用的背后是基于行业上下游对数据进行采集、标注、训练、推理、归档,其特征是数据量大、多元数据类型复杂、服务协议多样、性能要求苛刻、要求服务持续在线。所以生成式ai对数据存储提出了诸多挑战。
具体来说,在异构数据的融合方面,生成式ai训练模型的数据呈现来源多、格式多的多源异构现状,传统存储面向单一数据类型设计,需要以搬移数据的方式实现多协议访问,存储成为应用平台的关键瓶颈。在模型训练过程中,频繁的从数据集取token,每个token一般4字节,实时高并发小io性能需要极低的延迟;存储模型checkpoint时,为checkpoint数据可快速写入,需要高带宽,这就带来了持续的低延迟与高带宽的要求。同时,越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
积极应对aigc时代的存储挑战
浪潮信息作为最早布局aigc大模型的企业之一,早在2021年9月就发布了中文语言大模型“源1.0”。今年年初,浪潮信息表示,公司在aigc赛道已从底层计算能力、中间层大模型算法能力和上层行业应用方面进行布局和待续研发投入,未来将会持续发布aigc的支撑产品。公司在人工智能服务器领域的市占率位居全球ai服务器市场第一,在中国市场份额已连续五年保持50%以上,相关ai产品对于内容生成的全流程计算能力需求都可满足。
在近日举办的《浪潮信息存储aigc数据应用创新论坛》上,浪潮发布了生成式ai存储凯发在线的解决方案,围绕“新存储之道”的理念,持续打造平台型存储产品,应对智能时代、aigc时代的存储挑战。
生成式ai存储凯发在线的解决方案四大特点
浪潮信息生成式ai存储凯发在线的解决方案拥有极致融合、极致性能、极致节能,和热温冷冰四级全生命周期存储管理四大特点。
首先在极致融合方面。浪潮信息首席架构师叶毓睿表示,ai的整个生命周期包含了四个阶段,从数据整理,到ai的训练,再到ai的推理,最后是数据的归档。不同的阶段对数据的性能,延时方面的挑战是不一样的。所以浪潮信息存储提出了“融合存储”,也就是一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景以文件、对象、大数据以及视频的存储方式进行并行访问。用一套存储实现多模态场景应用,应用间数据实现实时共享,同时节省了大量的存储空间。
在性能方面,aigc场景数据类型多样化,文件大小不一且数量多,读写频繁,对存储系统的100gb级带宽、100万级iops需求成了常态。浪潮信息在软件方面,通过数控分离架构减少东西向数据量的转发,通过gds、rmda技术缩短i/o路径,通过spdk、缓存零拷贝技术减少i/o路径上的数据拷贝,以及基于自研nvme ssd开发的盘控协同技术,减少i/o访问ssd盘的次数,使存储性能得到进一步释放。在硬件方面,优化io路径通道,均衡io路径,最大化发挥硬件性能,全闪单节点带宽超过50gb/s,iops超过50万;创新性的引入双控全闪节点,带宽超过100gb/s,iops超过100万,真正使系统达到了tb级带宽、千万级iops、eb级带宽。
在节能方面,浪潮信息最新发布的g7硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式,液液式等完善的端到端凯发在线的解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现pue<1.1。
在全生命周期管理方面,浪潮生成式ai存储方案采用闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,且实现了资源的互通和数据全生命周期的管理。基于数据的热度识别,自动释放在线存储空间,可以将海量数据自动归档到光盘库,降低长期存储成本;实现冷数据的分钟级快速回调,满足0~4级应用的存储需求。四种介质、四类存储节点,提供热温冷冰自动流转,满足各类应用的灵活配置需求,通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。
往往会带来复杂的运维,浪潮分布式存储产品线总经理姜乐果表示,浪潮信息存储inview融合智能存储管理平台,在监控运维方面,支持一个界面同时管理存储/交换机/主机/应用。在数据管理方面,支持集成数据的迁移、容灾、备份、归档。在健康预测方面,可以智能预测容量、性能、故障、寿命。可以通过一套管理软件,去管理所有的存储系统。inview融合智能存储管理平台可以根据整个性能容量的趋势,判断是否需要升级、扩容,提前判断盘的健康状态。
为ai独角兽公司提供高性能低延时的数据读取保障
某ai独角兽公司计划发布5000亿参数量的nlp语言类大模型,为了极致的提升计算效率,采用了计算网络和存储网络分离的设计,计算网络采用高速ib、存储网络选择了roce,并对于存储提出了明确要求:不小于3.5pb的高速存储,性能要求带宽300gb,iops 350万以上。
客户从专业性、开发成本、周期及运维等方面进行全面评估后,选择浪潮信息as13000分布式全闪存储集群,支持高性能roce组网和gpu直通存储功能,为算力集群提供高性能低延时的数据读取保障。同时随着业务的上线,进行了两次在线存储扩容,具有非常好的灵活性和容量性能线性扩展能力。
抢占aigc时代先机
gartner预测,到2023年将有20%的内容被生成式ai所创建;到2025 年人工智能生成数据占比将达到10%。据分析师预测,到2032年,生成式人工智能市场规模将达到2,000亿美元,占据人工智能支出总额的约20%,比目前的5%高出许多。
此次生成式ai存储凯发在线的解决方案的发布,使得浪潮信息在aigc方面拥有了更加领先的能力,将为企业提供更加高效、更加智能的凯发在线的技术支持,满足未来客户多样化的需求。