主题
大模型是什么
2020—2022年,在新冠疫情肆虐全球的阴霾日子里,人工智能创新的步伐完全没有停止。美国人工智能研究公司OpenAI异军突起:
2020年4月发布神经网络Jukebox;
2020年5月发布GPT-3,模型参数量为1750亿;
2020年6月开放人工智能应用程序接口;
2021年1月发布连接文本和图像神经网络CLIP;
2021年1月发布从文本创建图像神经网络DALL-E;
2022年11月,正式推出对话交互式的ChatGPT。相比GPT-3,ChatGPT引入了基于人类反馈的强化学习(RLHF)技术以及奖励机制。
2017年和2018年,谷歌发布LaMDA、BERT和PaLM-E。
2023年,Facebook的母公司Meta推出LLaMA,并在博客上免费公开LLM——OPT-175B。
在中国,AI大模型的主要代表是百度的文心一言、阿里的通义千问和华为的盘古。
ChatGPT系统名称中“GPT”代表“ Generative Pretrained Transformer”
利用Transformer 结构进行预训练的语言生成模型。
ChatGPT的核心能力来源于OpenAI公司研发的GPT-2语言模型,这是一个包含超过10亿个参数的大规模神经网络,专为生成文本内容而设计。
GPT模型可以预测语句或文本中最有可能出现的下一词或词组。
ChatGPT的历史可以追溯到2015年。
他由OpenAI开发的一款人工智能对话模型。
OpenAI是一家总部位于美国加州的人工智能研究公司,旨在研究和开发人工智能技术,推动人工智能在各个领域的应用。
ChatGPT证明了通过一个具有高水平结构复杂性和大量参数的大模型(foundation model,又称为“基础模型”)可以实现深度学习。
大模型是大语言模型(LLM),也是多模态模型,或者是生成式预训练转换模型。
GPT是大模型的一种形态,引发了人工智能生成内容(AIGC)技术的质变。
在机器学习中,模型是核心概念。模型通常是一个函数或者一组函数,可以是线性函数、非线性函数、决策树、神经网络等各种形式。
模型的本质就是对这个函数映射的描述和抽象,通过对模型进行训练和优化,可以得到更加准确和有效的函数映射。
建立模型的目的是希望从数据中找出一些规律和模式,并用这些规律和模式预测未来的结果。
模型的复杂度可以理解为模型所包含的参数数量和复杂度,复杂度越高,模型越容易过拟合。
大语言模型通过在大规模语料库上进行训练来学习语言的统计规律,在训练时通常通过大量的文本数据进行自监督学习,从而能够自动学习语法、句法、语义等多层次的语言规律。
这些模型的共同特征是:需要在大规模数据集上进行训练,基于大量的计算资源进行优化和调整。
大模型通常用于解决复杂的NLP、计算机视觉和语音识别等任务。
这些任务通常需要处理大量的输入数据,并从中提取复杂的特征和模式。
借助大模型,深度学习算法可以更好地处理这些任务,提高模型的准确性和性能。
三个重要的里程碑 第一个里程碑:机器学习(ML),是一种基于算法和模型的自动化过程,包括监督学习和无监督学习两种形式。
第二个里程碑:深度学习(DL)。深度学习是机器学习的一个分支。所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。
深度学习是建立在计算机神经网络理论和机器学习理论上的科学。它使用建立在复杂的网络结构上的多处理层,结合非线性转换方法,对复杂数据模型进行抽象,从而识别图像、声音和文本。
在深度学习的历史上,CNN和循环神经网络(RNN)曾经是两种经典模型。
第三个里程碑:人工智能内容生成大模型。
从2018年开始大模型迅速流行,预训练语言模型(PLM)及其“预训练—微调”方法已成为NLP任务的主流范式。
大模型利用大规模无标注数据通过自监督学习预训练语言大模型,得到基础模型,再利用下游任务的有标注数据进行有监督学习微调(instruction tuning)模型参数,实现下游任务的适配。
据谷歌、斯坦福和DeepMind联合发表的《大语言模型的涌现能力》(Emergent Abilities of Large Language Models):“许多新的能力在中小模型上线性放大规模都得不到线性的增长,模型规模必须呈指数级增长并超过某个临界点,新技能才会突飞猛进。”
为了让具有多层表示的神经网络学会复杂事物,创造了一个初始化网络的方法,即预训练(pre-trained)。
在GPT中,P代表经过预训练(pre-trained),T代表Transformer,G代表生成性的(generative)。
实际上,是生成模型为神经网络提供了更好的预训练方法。
现在的大模型都是以人工神经网络为基础的算法数学模型。
其基本原理依然是罗森布拉特的智能机。这种人工智能网络是一个复杂系统,通过分布式并行和调整内部大量节点之间相互连接的信息。
通过预训练不断调整和优化模型参数,使得模型的预测结果尽可能接近实际结果。
在预训练的过程中,不是依赖于手工编写的语法规则或句法规则,而是通过学习到的语言模式和统计规律进行预训练,生成更加符合特定需求和目标的文本输出。
大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术手段,其本质是一个多步推理的过程。
通过让大语言模型将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。还可以这样理解,“思维链”相当于是大模型当中的数据,AI以思维链为数据,再来做微调和反馈,从而形成AI能力。
大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本输入输出的形式,但是大模型实际接收和学习的数据并不是传统文本,因为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所谓向量化的文本,就是模型对自然语言的压缩和总结。
大模型具有不断成长的泛化(generalization)功能,是指大模型可以应用(泛化)到其他场景,这一能力也是模型的核心。
大语言模型通过大量的数据训练,掌握了语言的潜在模式和规律,从而在面对新的、未见过的语言表达时具有一定的泛化能力。
在新的场景下,针对新的输入信息,大模型能做出判断和预测。
Transformer
如果说神经网络是大模型的“大脑”,那么Transformer就是大模型的“心脏”。
2017年6月,谷歌团队的阿希什·瓦斯瓦尼(Ashish Vaswani,?—)等人发表论文:Attention Is All You Need,系统提出了Transformer的原理、构建和大模型算法。
此文的开创性的思想,颠覆了以往序列建模和RNN等思路,开启了预训练大模型的时代。
Transformer是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。Transformer包括以下基本特征:(1)由编码组件(encoder)和解码组件(decoder)两个部分组成;
(2)采用神经网络处理序列数据,神经网络被用来将一种类型的数据转换为另一种类型的数据,在训练期间,神经网络的隐藏层(位于输入和输出之间的层)以最能代表输入数据类型特征的方式调整其参数,并将其映射到输出;
(3)拥有的训练数据和参数越多,它就越有能力在较长文本序列中保持连贯性和一致性;
(4)标记和嵌入——输入文本必须经过处理并转换为统一格式,然后才能输入到Transformer;
(5)实现并行处理整个序列,从而可以将顺序深度学习模型的速度和容量扩展到前所未有的速度;
(6)引入“注意机制”,可以在正向和反向的非常长的文本序列中跟踪单词之间的关系,包括自注意力机制(self-attention)和多头注意力机制(multi-head attention)——其中的多头注意力机制中有多个自注意力机制,可以捕获单词之间多种维度上的相关系数注意力评分(attention score),摒弃了递归和卷积;
(7)训练和反馈——在训练期间,Transformer提供了非常大的配对示例语料库(例如,英语句子及其相应的法语翻译),编码器模块接收并处理完整的输入字符串,尝试建立编码的注意向量和预期结果之间的映射。
在摩尔定律之困下,只有三项选择:延缓摩尔,扩展摩尔,超越摩尔。
GPT-4可以利用思维链推理和逐步思考,有效证明了其心智理论性能。
ChatGPT掀起的AI风暴还未平息,多模态GPT-4、百度文心和阿里通义又带来了新的浪潮。
英伟达公司的首席执行官黄仁勋认为“我们正处在AI的iPhone时刻”,也有人将ChatGPT Plugins比作苹果应用商店,生成式大模型被认为将像移动互联网一样开启一个新的时代。
“嗯,我是在计算每一个字的条件概率。
当文本里已经出现‘怎么给朗朗过十岁生日?可’了,在这个前提条件下,我又算出来下一个字是‘以’的概率最大。
不断预测下一个字,整段话就出来了。
看起来步骤多,但都是在重复做类似的一件事,反倒简单。”
语言模型被编程用于预测下一个字……其实动物,包括我们在内,也只是被编程用来生产和繁衍,而许许多多复杂和美好的东西正是来自于此。 ——山姆·阿尔特曼(Sam Altman), OpenAI首席执行官
人工智能模型的工作分为训练(training)和推理(inference)两个阶段,在跟人类聊天时,模型处于推理阶段,此时其不再调整自己的参数,而是根据已经学习到的知识来进行预测和响应,以帮助人类完成各种各样的任务
人工智能系统会执行以下步骤的工作: 1.接收输入:接收人类的输入,通常是一句话或一段文字。多模态大模型还可以接收图片作为输入。
2.处理输入:将输入的文本编码成数字向量,以便计算机理解和处理。 在把输入的内容传送到大模型做推理之前,系统会先对输入进行检测和预筛,针对不合规、不合法或不符合道德的有害问题,直接拒绝回答;针对特定的、不该随意发挥的问题,直接给出官方标准回答。
3.进行推理:模型会基于输入的文本使用已经训练好的神经网络模型和它在之前的对话中所学到的知识来进行推理,找到最有可能的响应。