企业构建生成式ai应用必须具备三大数据基座能力 -凯发在线

责任编辑：shjiaz |来源：企业网d1net 2024-05-15 09:11:39 原创文章企业网d1net

数据是推动生成式ai技术创新的核心动力。在数据驱动的新时代，企业需要重新思考数据的作用和管理方式。在近日举办的亚马逊云科技数据基座媒体沟通会上，亚马逊云科技大中华区产品部总经理陈晓建深入探讨了生成式ai时代，企业应如何构建强大的数据基座以实现技术革新和业务增长。

陈晓建强调，"企业需要的是懂业务、懂用户的生成式ai应用，而打造这样的应用必须从数据做起。" 亚马逊云科技凭借领先的云计算技术，正在助力各行各业构建这样的数据基座。

他详细介绍了亚马逊云科技助力各行业企业构建数据基座的三大核心能力。

能力一、利用现有数据提高模型微调或预训练质量

一是优秀的数据处理能力，快速提高模型微调和预训练质量。借助亚马逊云科技高效的数据存储、数据清洗和数据治理工具，企业可以快速提高模型的训练质量。

生成式ai应用在数据存储方面的需求体现在两个方面：一是能够承载海量数据，二是存储性能必须快速响应计算资源。亚马逊云科技amazon s3和amazon fsx for lustre提供了高效的数据存储凯发在线的解决方案。amazon s3拥有超过200万亿个对象和平均每秒超过1亿个请求的处理能力，支持广泛的数据协议，不仅能够轻松应对各种数据类型，还支持智能分层以降低训练成本。专门构建的amazon fsx for lustre提供亚毫秒级延迟和高吞吐性能，能够显著加快模型优化的速度，据悉lg ai research已用其加速模型训练，开发了自己的基础模型 exaone，在简化基础设施管理和提升gpu扩展效率的同时，将成本降低了35%。

在数据清洗方面，亚马逊云科技的amazon emr serverless和amazon glue为企业提供了高效凯发在线的解决方案，可助力企业轻松完成数据清理、去重和分词操作，专注于生成式ai创新。amazon emr serverless的无服务器架构能够预置、配置和动态扩展计算和存储资源，满足不断变化的需求，性能比开源方案快两倍以上。amazon glue则可快速集成数据，连接不同数据源，提供可视化创作体验和无服务器执行引擎，助力开发者快速完成微调或预训练模型的数据准备工作。

数据治理方面，amazon datazone让企业能够跨组织边界大规模地发现、共享和管理数据，不但能够为多源多模态数据进行有效编目和治理，而且还提供简单易用的统一数据管理平台和工具，从而为用户解锁所有数据的潜能。

能力二、将现有数据快速结合模型产生独特价值

生成式ai基础模型自身的局限性在于缺乏垂直行业的专业知识，且缺乏时效性，将数据与模型结合，有效利用检索增强生成(rag)技术是破解上述问题的关键。rag技术的关键是向量嵌入(vector embeddings)，旨在通过一系列操作，将元素数据中的内容关联问题简化为token元素间的距离计算问题。向量存储是rag场景的核心组件，理想的向量存储凯发在线的解决方案是将向量搜索的数据与原始数据进行统一存储，以确保无缝集成、避免添加新的组件、降低额外成本，并且无需数据迁移，将向量检索和现有数据关联时也会有更快的体验。

亚马逊云科技已在八种数据存储中添加了向量搜索功能，为客户在构建生成式ai应用程序时提供更大的灵活性。图数据库擅长处理复杂关联，在社交网络、推荐系统、欺诈检测和知识图谱等领域已被广泛应用。知识图谱和基础模型各有所长，两者结合可以获得更精确专业的信息以减少幻觉，也可以对不准确的回答进行溯源和纠偏。亚马逊云科技专门构建了图数据库amazon neptune，并配备了分析数据库引擎，使图数据分析速度提升80倍，通过内置算法可在数秒内分析数百亿个连接。此外，将图和向量数据一直存储，还能实现更快的向量搜索。

能力三、有效处理新数据，助力生成式ai应用快速迭代

对生成式ai应用而言，基础模型的频繁调用导致了响应的延迟，与之前数据库调用的毫秒级或微秒级响应时间时相比，基础模型的调用时长通常是秒级。此外，每次调用基础模型也会增加成本。许多企业反映，终端用户的大部分问题是类似甚至重复的。因此可以通过将之前问答生成的新数据存入缓存，当类似问题时可以直接通过缓存给出回答，以提高响应速度，，不调用模型也可以节约重复调用带来的成本。

作为一个支持向量搜索的高速缓存，amazon memory db内存数据库能够存储数百万个向量，只需要几毫秒的响应时间，能够以99%的召回率实现每秒百万次的查询性能。这显著减少了模型的调用频率和成本，非常适用于欺诈检测和实时聊天机器人等实时场景。无服务器具备诸多优势：如减少繁重复杂的运维工作，让企业集中精力于ai代码创新，闲时收缩资源以实现高性价比，还能够在需要时快速扩展消除性能瓶颈。亚马逊云科技通过提供无服务器数据库服务和amazon opensearch serverless用于向量搜索，省去了企业配置和运维opensearch的复杂性(如安全隔离、故障处理等)，减少运维成本，消除性能瓶颈，使企业能够专注于生成式ai业务创新，以快速占领市场。

据悉，amazon music通过分析用户和歌曲特征并将其转换为向量，提高了推荐的精准度。利用amazon opensearch，amazon music已对超过1亿首歌曲进行了向量编码和索引，为全球用户提供实时音乐推荐。如今，amazon music在amazon opensearch中管理着10.5亿个向量，能够处理每秒高达7,100次的查询峰值，有效支撑其推荐系统。

小结

陈晓建总结，生成式ai不仅需要强大的基础模型，还必须具备出色的数据能力。

首先，数据存储、数据清洗和数据治理等底层能力是构建坚实基础的关键。

其次，将数据与模型有效结合至关重要，通过rag技术、微调、持续预训练等方法，可以整合企业的私有数据和基础模型。

最后，在生成式ai的应用中，借助amazon memorydb和无服务器数据库服务能够减轻工作负担，降低复杂性，加速业务创新。

通过以上三大核心数据能力，亚马逊云科技不仅在全球范围内支持企业构建强健的数据基座，而且确保在保护用户业务和数据安全的前提下，加速企业业务的增长和创新。

他强调：生成式ai是一个飞轮结构的循环过程，需要利用多种有效的云服务，打造坚实的数据基础，才能实现正向循环。通过与基础模型结合，企业可以构建独特的生成式ai应用，满足客户需求。新数据的生成将进一步提高模型的准确性，助力微调和持续预训练，使模型更具行业智慧，为用户提供更好的体验。最终，数据和模型的协同将推动企业持续成功，实现从数据到创新的正向循环。

关键字：凯发在线凯发在线凯发在线