在 chatgpt 引爆科技圈之后,openai 又出大招,重磅推出多模态预训练大模型 gpt-4,号称史上最先进的 ai 系统。微软更是将 gpt-4 全面接入 office 全家桶,人人都可以用人工智能自动生成文档、电子邮件、演示文稿。
其实,不管是chatgpt ,还是gpt-4,其背后都依赖大模型。据悉,ai 模型的参数量已经在短短几年内从最初的数亿扩张到千亿,甚至万亿规模。那么这些大模型的背后涉及了哪些技术?给我们带来了哪些启发?又面临哪些挑战?是否可以赋能某些行业?围绕这些问题,中国移动大数据总架构师,北京大学博士后段云峰教授,在日前召开的“2023北京部委央企及大型企业cio年会(春季)”大会上,对大模型技术和chatgpt 的应用和展望进行了深入浅出的阐述。
中国移动大数据总架构师,北京大学博士后段云峰教授
大模型和chatgpt是什么?
段云峰教授首先从大模型的基础理论知识开始讲起。ai大模型就是foundation model(基础模型),指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。谷歌于2018年10月发布的bert模型是最为典型的基础模型,它利用bookscorpus和英文维基百科里纯文字的部分,无须标注数据,用设计的两个自监督任务来做训练,训练好的模型通过微调在11个下游任务上实现最佳性能。
从参数规模上看,ai 大模型先后经历了预训练模型、大规模预训练模型、超大规模预训练模型三个阶段,参数量实现了从亿级到百万亿级的突破。从模态支持上看, ai 大模型从支持图片、图像、文本、语音单一模态下的单一任务,逐渐发展为支持多种模态下的多种任务。
openai在2020年5月发布的gpt-3则是一个自回归语言模型,具有1750亿参数,在互联网文本数据上训练得到的这一基础模型,可以使用提示的例子完成各式各样的任务,这类模型正在成为主流的ai范式。
chatgpt就是openai在2022年11月30日发布的人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。
gpt发展史
基于文本预训练的gpt-1,gpt-2,gpt-3三代模型都采用以transformer为核心结构的模型,主要的不同在于参数方面。而chatgpt则在此基础上,增加了人工强化学习的反馈(rlhf)。
具体来说,gpt-1是在无标注的文本语料中进行生成式预训练,然后进行判别式微调,在具体的任务场景上获得能力的提升。gpt-2相对于gpt-1,模型结构并没有做大的调整,只是使用了更多参数的模型和更多的训练数据。gpt-2的诞生说明当一个大型语言模型在足够大的多样化数据集上进行无监督训练,就能在很多领域数据集上执行任务。
基于上述结论,gpt-3加大了参数的量,拥有1750亿。gpt-3除了能完成常见的nlp任务外,研究者意外发现gpt-3在写sql,javascript等语言的代码时,可以进行简单的数学运算。gpt-3的基本训练方法,包括模型,数据,训练都类似于gpt-2。
由此可见gpt系列模型的演进主要是参数的增大、数据量及其多样性的增加。这个预测和实验结果,带来了良好的效果,但仍然达不到使用的预期,于是,研究者又在此基础上,利用人工反馈的强化学习方法来对体系进行优化。
3月14日发布的gpt-4又有了很大的突破,除了性能提升之外,gpt-4还增添了一项新功能,识别图像。这个新功能表示gpt-4已经实现图像和文字同时处理的多模态能力,有专家预测,未来会出现文字、图像、音频和视频等所有数据统一处理的新变革。
不光是性能提升和图像识别,gpt-4的整个训练和运行都有一项技术作为支持,这个技术就是数据标记化(token)。token的原理如下:用户的问题输入,无论是文字还是图像,首先会被转化为一个向量,然后以token的形式输入到chatgpt的神经网络中。该网络对输入进行一系列的计算和转换后,生成token,并形成相应的输出向量,输出向量被转化成文本,用以回答用户的提问。所以,token就是用户输入和gpt接收之间的一种介质。
chatgpt使用来自人类反馈的强化学习进行训练,这种方法通过人类干预来增强机器学习以获得更好的效果。在训练过程中,人类训练者扮演着用户和人工智能助手的角色,并通过近端策略优化算法进行微调。
“2023年一月末,chatgpt的月活用户已突破1亿,成为史上增长最快的消费者应用。截止2023年1月,美国89%的大学生都是用chatgpt做作业。” 段云峰教授表示。
chatgpt将影响哪些行业?
作为生成式 ai 的特定实现,chatgpt将对诸多行业带来深刻影响。
resumebuilder.com调查了1000名计划使用或已经使用chatgpt的企业领导人,发现近半数企业部署了chatgpt,部分企业还表示已经开始用chatgpt取代员工。关于chatgpt的用途,企业高管们表示,其中66%用于写代码,58%用于文案和内容创作,57%用于客户支持,52%用于写会议摘要和其它文档。在招聘过程中,使用 chatgpt的企业还有77%用它撰写工作职位描述、66%用它起草面试申请书,65%用它撰写回应求职书。大部分企业领导人对 chatgpt的表现印象深刻,55%的人认为工作质量“出色”,34%的人认为“非常好”。几乎所有使用chatgpt的公司表示节省了资金,48%表示节省逾50,000 美元,11%表示节省逾100,000 美元。这些企业中93%还计划扩大对chatgpt的使用。
段云峰教授在演讲中还提到了chatgpt对战争的影响,他表示,在参与认知作战、引导舆论走向,辅助军事决策、提升作战效率,自主编写程序代码、实施网络攻防战等方面,人工智能将改变21世纪的战争形态。
近日,创新工场董事长兼首席执行官、创新工场人工智能工程院院长李开复指出,ai 2.0将会带来平台式的变革,改写用户的入口和界面,诞生全新平台,催生新一代ai 2.0应用的研发和商业化。总的来说,ai 2.0将是提升21世纪整体社会生产力最为重要的赋能技术。
点燃算力基础设施需求
在chatgpt热度不减的背后,人工智能内容自动生成技术所需要的算力需求也水涨船高。数据显示,chatgpt的总算力消耗约为3640pf-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500p的数据中心才能支撑运行。据段云锋介绍,2020年5月,微软在azure上为openai搭建了独立的超级计算机系统,包含28.5万个cpu核和1万张gpu卡(当时为v100)。英伟达在2021年4月,使用1024张80g显存的a100卡训练1750亿参数的gpt-3模型,需要训练34天。段云峰教授指出,算力网络是一种根据业务需求,在云、网、边之间按需分配和灵活调度计算资源、存储资源以及网络资源的新型信息基础设施。由此可见,chatgpt用户数快速增长,从应用到算力,将点燃基础设施需求。chatgpt引领ai发展大潮,背后需要算力的快速提升,算力行业的发展已经是大势所趋,ai服务器、ai芯片等领域将迎来重要的发展机遇。
为什么所有公开的对 gpt-3 的复现都失败了?
这里的 “失败”,是指训练得出模型有接近gpt-3或者更大的参数量,但仍无法与gpt-3原始文献中报告的性能所匹配。在这一标准下,gpt-3和palm是 “成功” 的,但这两个模型都不是公开的。而所有的公开模型(例如:opt-175b 和 bloom-176b)都在一定程度上 “失败” 了。
值得注意的是,假如能够多次尝试各种不同的训练设置,开源社区可能最终可以复现 gpt-3。但截至目前,训练另一个版本opt-175b 的开销仍然太过高昂--对于如此大规模的模型,一次训练就将需要在约1000 个80g a100 gpu上花费至少2个月的时间(数据来自于opt的原始文献)。
关于复现失败的原因,段云锋表示大致可以从预训练数据和训练策略两个方面来看。
首先在预训练数据方面,gpt-3在共计300b的token上进行训练,其中 60% 来自经过筛选的common crawl,其它则来自:webtext2(用于训练 gpt-2 的语料库),books1,books2 和维基百科。opt-175b所使用的pile语料库声称有着更好的多样性,但bloom 采用的roots语料库则有太多的已经存在的学术数据集,缺乏common crawl数据所包含的多样性,这可能导致bloom性能更差。作为对比,gpt-3来自common crawl语料的占比要高得多,且来自广泛领域,这也可能是gpt-3能够作为首个通用聊天机器人 chatgpt的基础模型的原因之一。
训练策略包括训练框架、训练持续时间、模型架构/训练设置、训练过程中的修改。在训练非常大的模型时,它们被用于获得更好的稳定性和收敛性。一个参数量大于175b的模型往往需要zero式的数据并行(分布式的优化器)和模型并行(包括张量并行、流水线并行,有时还包括序列并行)。opt使用了relu激活函数,而palm使用swiglu激活函数,gpt-3和bloom使用gelu,它通常使得训练的llm的性能更好。
chatgpt将在五类任务中大放异彩
段云峰教授认为可以在以下五类任务中使用gpt-3.5或chatgpt。首先是创造性和复杂的任务:包括代码(代码补全、自然语言指令生成代码、代码翻译、bug 修复)、文本摘要、翻译、创造性写作(例如写故事、文章、邮件、报告,以及写作的改进等)。第二类是只有少数标注或者没有标注数据的任务。正如原始的gpt-3文献所说,gpt-3是为了那些 “昂贵标注” 的任务设计的。在这种情况下,用极少量标注数据微调一个更小的模型通常不可能达到gpt-3在零样本(zero-shot)、单样本(ont-shot)或少样本(few-shot)的情况下的表现。第三类是分布外泛化(out-of-distribution, ood)。给定一些训练数据,传统的微调可能会过拟合训练集并且有较差的分布外泛化能力;而少样本的上下文学习(in-context learning)能够有更好的分布外泛化性。例如,带有提示的 palm 能够在对抗自然语言推断任务(adversarial natural language inference,anli)上超越经过微调的 sota 模型,而它在正常的语言推断任务上可能仍然劣于微调的 sota。第四类是需要处理多种任务的能力,而非关注特定任务上的卓越表现。聊天机器人就是这样一种场景。第五类是那些检索不可行的知识密集型任务。
大模型未来将有效帮助优化传统数据分析模型,从机器学习升级深度学习,带动“从nlp改良客户服务”、“数字人改变营销和服务”等新蓝海。同时,maas(模型即服务)将成为可能。此外,他认为元宇宙与生成式模型相辅相成、技术互相促进,那些能够以元宇宙为线上化服务入口的行业,将在元宇宙中进行场景融合,而chatgpt能助力元宇宙场景生成与智能交互,这将改写电商营销模式。
结语
当然,打造大模型并非易事,需要消耗庞大的数据、算力、算法等各种软硬件资源。段云峰教授指出:大模型尚缺乏统一的评价标准和模块化流程,创新力度不足,落地应用缓慢。此外,结构化数据如何用大模型、如何积累非结构化数据、大模型如何驱动组织变革、大模型能否驱动企业“自动驾驶”等等都是需要思考的问题。
关于企业网d1net(www.d1net.com):
国内主流的to b it门户,同时在运营国内最大的甲方cio专家库和智力输出及社交平台-信众智(www.cioall.com)。同时运营18个it行业公众号(微信搜索d1net即可关注)。