★中国自动化学会专家咨询工作委员会 孙柏林
1 什么是大模型
大模型是指具有庞大规模和复杂结构的人工智能模型,它们具有数以亿计的参数和深层次的神经网络架构。这些模型通过海量数据的学习和深度神经网络的优化,在各种任务上取得了令人瞩目的成果。这些模型使用大量的多媒体数据资源作为输入,并通过复杂的数学运算和优化算法来完成大规模的训练,以学习和理解到输入数据的模式和特征。这些模式和特征最终通过大模型中庞大的参数进行表征,以获得与输入数据和模型设计相匹配的能力,最终实现更复杂、更广泛的任务,如语音识别、自然语言处理、计算机视觉等。
追寻大模型的起源,应该从那篇《Attention is All You Need》开始,大模型的发展大致走上了两条路:
一条路是舍弃Decoder部分,仅仅使用Encoder作为编码器的预训练模型,其最出名的代表就是Bert家族。这些模型开始尝试应用“无监督预训练”的方式来更好地利用相较其他数据而言更容易获得的大规模的自然语言数据,而“无监督”的方式就是Masked Language Model(MLM),通过Mask掉句子中的部分单词,让模型学习使用上下文去预测被Mask丢掉的单词的能力。
另一条路,则是Bert的进路没能突破Scale Law,而这一点则由当下大模型的主力军,即通过舍弃Encoder部分而基于Decoder部分的GPT家族真正做到了。GPT家族的成功来源于一个研究人员惊异的发现:“扩大语言模型的规模可以显著提高零样本(zero-shot)与小样本(few-shot)学习的能力”,这一点与基于微调的Bert家族有很大的区别,也是当下大规模语言模型神奇能力的来源。而从GPT-3开始,当下的ChatGPT、GPT-4、Bard以及PaLM、LLaMA百家争鸣,带来了当下的大模型盛世。
从模型发展来看,人工智能经历了机器学习模型、深度学习模型、预训练模型和大规模预训练模型四个阶段。
归根结底,大模型的神奇能力是来源于GPT么?答案是否定的。GPT家族几乎每一次能力的跃迁,都在预训练数据的数量、质量、多样性等方面做出了重要的提升。大模型的训练数据包括书籍、文章、网站信息、代码信息等,这些数据输入到大模型中的目的,实质在于全面准确地反映“人类”这个东西,并通过告诉大模型单词、语法、句法和语义的信息,让模型获得识别上下文并生成连贯响应的能力,以捕捉人类的知识、语言、文化等方面。
一般而言,面对许多NLP的任务,我们可以从数据标注信息的角度将其分类为零样本、少样本与多样本。无疑,零样本的任务LLMs是最合适的方法,几乎没有例外,大模型在零样本任务上遥遥领先于其他的模型。同时,小样本任务也十分适合大模型的应用,通过为大模型展示“问题-答案”的模式,可以增强大模型的表现性能,这种方式我们一般也称为上下文学习(In-Context Learning)。而多样本任务尽管大模型也可以去覆盖,但是微调可能仍然是最好的方法,当然在一些如隐私、计算等约束条件下,大模型仍然有用武之地。
同时,微调的模型很有可能会面对训练数据与测试数据分布变化的问题,微调的模型在OOD数据上一般表现都非常差。而相应的,LLMs由于并没有一个显式的拟合过程,因此表现要好许多。典型的ChatGPT基于人类反馈的强化学习(RLHF)在大部分分布外的分类与翻译任务中都表现优异,在专为OOD评估设计的医学诊断数据集DDXPlus上也表现出色。
从目前来看,不可能出现一家AI大模型一统天下的情况,因为AI大模型是否能够得到广泛使用,一方面要看技术能力,另一方面则要看应用场景和流量格局。
AI大模型百花齐放只是一个阶段性现象。在演变的过程中,各家企业和机构会逐渐找到自己的定位,走向细分市场。
百度创始人、董事长兼首席执行官李彦宏曾在演讲中分析了大模型在技术方面的演进:大模型之所以会改变人工智能,原因就在于大算力、大模型、大数据,导致了智能涌现。他解释了何为“智能涌现”:过去的人工智能是想让机器学会什么技能,就教它什么技能。大模型导致智能涌现后,以前没教过的技能,机器也会了。同时他还表示,人工智能发生了方向性改变,从辨别式AI走向生成式AI。回到大模型本身的应用上,李彦宏在演讲中表示,大模型会重新定义营销和客服。“道理很简单,就是谁拥有最佳的跟客户沟通的方式,谁就会拥有这个客户。”
当下,大模型密集发布,各大厂商纷纷加码人工智能,这样的大模型“狂”潮还会持续多久,发展方向是什么?针对业界关注的热点问题,《人民邮电》报记者采访了北京邮电大学经济管理学院教授曾剑秋,他认为大模型带来的颠覆性创新可以总结为:规模大、速度快、场景全。
首先,参数规模上,从GPT-1的1.17亿参数到GPT-3的1750亿参数,大模型的参数规模动辄上千亿,能够从海量数据和知识中学习,在不同领域和场景中“轻松”完成任务。
其次,得益于信息基础设施稳步推进带来的算力提升,大模型能够在短时间内响应用户并提供归纳整理后的内容,从聊天机器人转变为数字助手。
其次,得益于信息基础设施稳步推进带来的算力提升,大模型能够在短时间内响应用户并提供归纳整理后的内容,从聊天机器人转变为数字助手。
曾剑秋还认为,大模型是建立在网络能力、数据能力和计算能力三者之上的创新应用。大模型需要在多个设备之间进行数据传输和参数同步,而坚实的网络基础为大模型提供了高效、稳定、可扩展的训练和部署环境。数据能力对于大模型的训练和应用至关重要,因为大模型需要从海量数据中学习和捕获知识以提升泛化能力。在计算能力方面,大模型需要海量的计算资源来执行复杂运算和存储巨量参数,需要使用高性能、低功耗、高度并行的计算设备和系统(如GPU)。可以说,算力是大模型训练和人工智能发展的基础设施。
曾剑秋谈道,这三种能力是大模型发展、人工智能产业进步和信息技术创新应用的“沃土”。入局大模型的门槛主要包括基础门槛、训练门槛和应用门槛。基础门槛包括网络能力和数据处理能力,需要具备大模型训练计算所需的高性能服务器、GPU设备、高速网络等。训练门槛是指大模型的“成长”迭代需要不断训练,需要提供符合一定标准的高质量训练数据,因而需要花费时间和计算资源来对数据进行清洗和预处理,从而保障数据的质量和准确性。应用门槛是指大模型的落地需要与垂直行业需求深度融合,同时,对于企业来说需要权衡收益与研发成本。基于公有数据的大模型是通用底座,很难满足专业场景的特定需求。
曾剑秋谈到,如何打通大模型技术和产业应用的“最后一公里”,找到计算资源和产业应用效果之间的平衡,是需要关注的重点课题。大模型“热”需要“冷”思考,要超前布局也要理性发展。曾剑秋表示,盲目跟风研发大模型不可取,当热潮退去,留下的注定是推动人工智能技术革新、深耕垂直行业应用的数智实干家。同时,曾剑秋建议建立国家级的基础大模型平台,加强智算中心、超算中心等算力资源统筹,加强跨数据中心算力协同能力,从战略高度着手,培育大模型发展基础,构筑人工智能发展优势。
当前通用与行业大模型研发呈爆发式增长。大模型对当前产业发展将起到怎样的作用?
中国移动集团级首席科学家、IEEE Fellow冯俊兰认为:
一是大模型带来了人工智能技术范式的变革。正如牛顿定律之于物理学的意义一样,大模型开启了人工智能的“大一统时代”。
二是大模型带来了人工智能研发模式的转变,包括三个趋势:第一,研发团队由小到大,需要以企业为主体的创新模式。大模型的打造是一个集大算力、大数据、算法和应用于一体的系统工程,需要算法和工程兼备的专家型人才,具有高投入、高门槛和长周期特性,企业在大模型研发上更具优势,这将催生以企业为主体的产学研合作的创新模式。第二,研发路径由分方向、分领域到分层。传统模型是面向特定场景、特定任务训练得到的,而大模型是面向多种任务的通用模型。第三,大模型训练推理需要将各要素统筹考虑,包括底层计算芯片、框架、算法、理论等在内,进行端到端优化。
三是大模型还将催生人工智能新的业务赋能模式。
四是大模型也将引发产业范式的变化,形成新的产业生态结构,推动人工智能产业链分工更清晰,整个生态的研发效率得到显著提升,产业链更加成熟。
2 大模型的分类
AI大模型根据不同维度有不同的分类方式,如根据任务类型可分为监督学习模型、无监督学习模型和强化学习模型;根据模型结构可分为DNN深度神经网络、CNN卷积神经网络、RNN循环神经网络;根据模型规模可分为大规模模型和中小规模模型。下面我们重点从模型数据类型、模型工作模式和模型开发模式来分析AI大模型的分类。
(1)按模型数据的媒体类型,AI大模型可以分为语言模型(Language Models)、图像模型(Image Models)以及多模态模型(Multimodal Models);
(2)根据模型工作方式,AI大模型可以分为生成模型(GenerativeModels)和强化学习模型(Reinforcement Learning Models);
(3)根据模型开发模式,AI大模型可以分为开源大模型(Open Source Models)和在线大模型(Online Models)。
上述对AI大模型的分类只是一些常见的示例,实际上,大模型的分类可以更加细分,根据具体任务和应用领域的需求而定。
3 AI大模型的特点
AI大模型的特点如下:
一是大量的参数:大模型通常具有庞大的参数规模,这些参数可以存储模型的知识和经验。更多的参数意味着模型具有更强大的学习能力和表示能力,能够更好地捕捉数据中的复杂模式和特征,以便进行推理和预测。
二是上下文理解和生成:大模型能够理解和生成更具上下文和语义的内容,并通过注意力机制、上下文编码器等关键技术来学习和训练大量的语言、图像等输入数据,可以从复杂的真实场景中提取有用的信息。
三是强大的泛化能力:大模型通过在大规模数据上进行训练,具有强大的泛化能力。它们从大量的数据中学习到广泛的特征和模式,并且能够在未学习过、未见过的数据上也同样表现良好。对未学知识的泛化能力也是评估大模型的重要指标。
四是计算资源需求大:大模型对于数据和计算资源的需求非常大,需要强大的计算资源来进行参数优化和推理,这需要具备出色的并行计算能力的GPU、TPU处理器集群,这使得训练和使用这些模型成为一项具有挑战性的任务。
五是迁移学习能力:大模型在一个或多个领域上进行预训练,并能够将学到的知识迁移到新任务或新领域中。这种迁移学习能力使得模型在新任务上的学习速度更快,同时也提高了模型在未知领域中的性能。
六是预训练与微调:大模型可以采用预训练和微调两阶段策略。在预训练阶段,模型通过大规模无标签数据进行学习,学习到一种通用表示。在微调阶段,模型使用有标签数据对模型进行细化训练,以适应具体的任务和领域。这种在大规模数据上进行预训练,再在具体任务上进行微调,能够让大模型适应不同的应用场景。
七是多领域应用:大模型应用领域广泛,能够解决多种任务,如自然语言处理、计算机视觉、语音识别等。大模型不仅在单一模态领域中有很强的表现,也能够进行跨模态的任务处理。
4 大模型应用案例
当前人工智能领域涌现出了许多强大的AI大模型,下面列举了一些目前备受瞩目的AI大模型:
(1)OpenAI GPT大模型组
ChatGPT是OpenAI于2022年11月发布,它在自然语言的理解和生成上的卓越表现使得其在短短两个月的时间用户突破1亿大关。它是基于GPT(Generative Pre-trained Transformer)架构开发的大型语言模型,为对话式交互提供了更好的支持和响应,并在社交对话、问题回答和一般性对话等场景中表现优秀。
(2)Google PaLM&PaLM 2大模型组
PaLM(Pretraining and Fine-tuning Language Model)是在2020年由Google Research团队发布的一种用于自然语言处理任务的预训练和微调模型,它的第二个版本,最新的大型语言模型PaLM 2于2023年5月在Google I/O开发者大会上推出。它支持谷歌AI聊天机器人Bard,并凭借改进的数学、逻辑和推理技能,可以帮助生成、解释和调试20多种编程语言的代码。且为了满足更多的使用场景,PaLM2提供了4个模型:Gecko、Otter、Bison、Unicorn,其中最小的Gecko模型可以在移动端运行,并计划在下一代Android系统中集成。
(3)百度文心大模型组
百度于2023年3月正式发布了AI大模型文心一言。这个基于百度智能云技术构建的大模型被广泛集成到百度的所有业务中,并且提供了多样化的大模型API服务,可通过零代码调用大模型能力,自由探索大模型技术如何满足用户需求。随后百度还推出了文心NLP大模型、文心CV大模型、文心跨模态大模型、文心生物计算大模型、文心行业大模型。
(4)讯飞星火认知大模型
科大讯飞于2023年5月正式发布了星火认知大模型,其具有7大核心能力,即文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力。
(5)阿里通义大模型
阿里通义大模型覆盖语言、听觉、多模态等领域,致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开”,并分别在2023年4月和6月推出了通义千问和通义听悟。
(6)清华开源大模型ChatGLM
GLM-130B是清华智谱AI开源项目,其目的是训练出开源开放的高精度千亿中英双语模型,能够让更多研发者用上千亿参数模型。在2023年3月,清华开源了更精简的低门槛大模型ChatGLM-6B,这是一个具有62亿参数的中英文双语语言模型。在6月份,清华推出了二代开源模型ChatGLM2-6B,它具有更强大的性能、更长的上下文、更高效的推理(推理速度提升42%)和更开放的开源协议。
以上这些大模型只是当前众多AI大模型中的一小部分,随着技术的不断进步和研究的不断推进,我们可以期待更多更强大的AI大模型的涌现。
5 小结
尽管存在着诸多问题和挑战,但AI大模型的蓬勃发展已经势不可当。大模型必然是未来很长一段时间内我们工作生活的一部分,而对于这样一个与我们生活高度同频互动的“大家伙”,除了性能、效率、成本等问题外,大规模语言模型的安全问题几乎是其面对的所有挑战之中的重中之重。例如,机器幻觉是大模型目前还没有极佳解决方案的主要问题,大模型输出的有偏差或有害的幻觉将会对使用者造成严重后果。同时,随着LLMs的“公信度”越来越高,用户可能会过度依赖LLMs并相信它们能够提供准确的信息,这点可以预见的趋势增加了大模型的安全风险。
除了误导性信息外,由于LLMs生成文本的高质量和低成本,它有可能被利用为进行仇恨、歧视、暴力、造谣等攻击的工具。据报道,三星员工使用ChatGPT处理工作时意外泄露了最新程序的源代码属性、与硬件有关的内部会议记录等绝密数据。
目前大模型主要面临的挑战可以被归类如下:
实践验证:当前针对大模型的评估数据集往往是更像“玩具”的学术数据集,这些数据集无法完全反映现实世界中形形色色的问题与挑战,因此亟需实际的数据集在多样化、复杂的现实问题上对模型进行评估,确保模型可以应对现实世界的挑战。
模型对齐:大模型的强大也引出了另一个问题:模型应该与人类的价值观选择进行对齐,确保模型行为符合预期,不会“强化”不良结果。作为一个高级的复杂系统,如果不认真处理这种道德问题,有可能会为人类酝酿一场灾难。
安全隐患:大模型的研究要进一步强调安全问题、消除安全隐患,这需要具体的研究以确保大模型的安全研发,并需要更多地做好模型的可解释性、监督管理工作。安全问题应该是模型开发的重要组成部分,而非锦上添花可有可无的装饰。
模型未来:模型的性能还会随着模型规模的增加而增长吗?这个问题估计OpenAI也难以回答,我们对于大模型的神奇现象的了解仍然十分有限,针对大模型原理性的见解仍然十分珍贵。
作者简介:
孙柏林(1936-),男,湖北黄陂人,军事科学院研究员,少将军衔,我国自动控制系统与军事系统工程专家,中国自动化学会专家咨询工作委员会名誉主任。
参考文献:
[1] 齐旭. 大模型叩响工业大门[N]. 中国电子报, 2023.
[2] 赵熠如. "百模大战"来了AI大模型市场百花齐放[N]. 中国商报, 2023.
[3] 卢岳. AI教育大模型落地词典笔[N]. 消费日报, 2023.
[4] 杨子怡, 谭心琪. 大模型产业应用将成未来焦点[N]. 人民邮电, 2023.
[5] 罗锦钊, 孙玉龙, 钱增志, 等. 人工智能大模型综述及展望[J]. 无线电工程, 2023.
摘自《自动化博览》2023年10月刊