什么是 GPT (生成式预训练变换器)?

什么是 GPT (生成式预训练变换器)?

作者

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

什么是 GPT (生成式预训练变换器)?

GPT (生成式预训练变换器) 是一个大语言模型 (LLM) 系列,基于转换器深度学习架构设计。这些基础模型由 OpenAI 开发,为 ChatGPT 和其他能够模拟人类创建输出的生成式 AI 应用程序提供支持。

AI 研究公司 OpenAI 于 2018 年推出了首款 GPT 模型,名为 GPT-1。自那时起,他们已经发布了 GPT 系列 AI 模型的多项进展。最新的 GPT 模型是 GPT-4,于 2023 年初发布。2024 年 5 月,OpenAI 宣布推出多语言和多模态 GPT-4o1,能够实时处理音频、视觉和文本输入。

GPT 作为基础模型,后续经过微调,能够广泛适配下游各类具体任务。除了基于文本的应用程序之外,GPT 还为人工智能 (AI) 应用程序提供支持,以通过计算机视觉生成和分析图像、编写代码、处理数据等。这些应用程序通过应用程序编程接口 (API) 连接到 GPT,从而支持其来回传递数据。

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。

立即订阅

为什么 GPT 很重要?

GPT 模型的转换器架构加速了生成式 AI 的发展,这种神经网络类型于 2017 年在谷歌大脑团队编著的论文《你只需要关注》2 中提出。自那时起,GPT 和 BERT 等转换器模型推动了生成式 AI 的许多显著发展,其中 OpenAI 的 ChatGPT 聊天机器人占据了中心位置。

除 OpenAI 外,其他公司也发布了自己的生成式 AI 模型,包括 Anthropic 的 Claude、Inflection 的 Pi 和 Google 的 Gemini(旧称 Bard)。同时,OpenAI 为 Microsoft 的 Copilot AI 服务提供支持。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

转到视频集

GPT 用例

GPT 等转换器模型的灵活性使其适用于各种用例。GPT 能够提供类似人类的文本生成能力,因此 GPT 广泛适用于以下领域:

聊天机器人和语音助手内容创建和文本生成语言翻译内容摘要和转换数据分析编码医疗保健

聊天机器人和语音助手

由 GPT 支持的聊天机器人比标准的自动化客户服务选项感觉更像人类。通过 API,组织可以将 GPT 与语音应用程序链接起来,以创建能够响应较复杂的语句并提供对话式问答服务的语音助手。

内容创建和文本生成

借助有效的提示,GPT 模型可以生成各种文本内容,从简短的社交媒体文案到完整的博客文章和电子邮件。此外,作者可以使用 GPT 概述或构思他们之后自己编写的内容,从而简化内容创建工作流程。

使用 GPT 直接生成内容以供发布可能会引发知识产权问题 – 这是使用 GPT 的主要风险之一。

语言翻译

由 GPT 支持的应用程序可以实时翻译书面和音频源的语言。在现场演示3 中,GPT-4o 展示了自行实时翻译的能力。

内容摘要和内容转换

GPT 可以处理和汇总冗长的文档,例如法律声明或商业报告。GPT 还可以按照用户指定的样式重写内容。例如,用户可以提供季度报告作为输入数据,然后要求 GPT 用要点进行巧妙总结。

数据分析

GPT 可以将大量数据处理成易于理解的洞察分析。通过 API,其他应用程序可以使用 GPT 创建图表、图形和其他类型的数据可视化。将内部数据输入 GPT 的组织可能面临网络安全漏洞或违反数据保护法规的挑战。

编码

GPT 模型可以学习编程语言并生成代码片段。与要求其从头开始构建完整应用程序相比,用户将 GPT 视为编码助手时通常会获得更好的结果。所有 GPT 生成的内容(包括代码)都应在使用前经过审查,以帮助确保准确性和合理使用。

医疗保健

2024 年 2 月,美国国家医学图书馆发布了一篇论文,概述了 GPT 在医疗保健领域的潜在应用。其中包括为偏远地区的患者提供一致的访问权限以及个性化的护理选项。不过,论文中也提到了一系列弊端,例如隐私问题和知识局限性。

GPT 是如何工作的?

GPT 模型的工作原理是分析输入序列,并应用复杂的数学预测最可能的输出。它利用概率,根据前面的所有单词识别句子中可能出现的最佳下一个单词。作为一种深度学习 AI 技术,GPT 利用自然语言处理 (NLP) 来理解用户提示,并生成相关的类似人类的响应。

当用户输入基于文本的提示时,GPT 根据训练数据创建最可能的响应,该训练数据包含数十亿个公开可用的文本数据源,涵盖著名的文学作品和开源代码等。

庞大的训练数据集是 GPT 能够模拟人类语言理解能力的原因。大规模 GPT 模型将深度学习应用于处理上下文,并从训练数据中的相关文本中提取信息来预测最佳响应。

GPT 模型的强大之处在于两个关键方面:

生成式预训练,它可以训练模型检测未标记数据中的模式,然后将这些模式应用于新输入。

转换器架构,它使模型能够并行处理输入序列的所有部分。

生成式预训练

生成式预训练是指在未标记的数据上训练大语言模型,指导模型识别各种数据,并锻炼其创建准确预测的能力的过程。GPT 通过将预训练数据的模式和结构应用于用户输入来生成新数据。

生成式预训练是一种无监督学习形式,即将未标记的数据馈送至模型中,并迫使模型自行理解这些数据。通过学习检测未标记数据集中的模式,机器学习模型在接触到新输入(例如 ChatGPT 中的用户提示)时能够得出类似的结论。

GPT 模型经过数十亿甚至数万亿个参数的训练:参数是指模型在训练过程中不断改进的内部变量,这些变量决定模型的行为方式。虽然 OpenAI 尚未透露有关 GPT-4 的具体细节,但据估计,该模型包含大约 1.8 万亿个参数4,相较 GPT-3.5 增加了十倍以上。

变压器模型

转换器模型是一种专门用于自然语言处理的神经网络:识别基于文本的输入中的意图和含义。它们可以动态处理输入,并专注于最重要的单词,无论这些单词位于句子的哪个位置。

GPT 模型理解语言的方式与人类不同。相反,它们将单词处理成离散单元,称为词元,将一些单词分解为多个词元。通过一次评估所有词元,转换器擅长建立长程依赖关系:即远距离词元之间的关系。GPT 依靠对长程依赖关系的理解,根据上下文处理输入。

转换器模型通过两个模块(编码器和解码器)处理数据,同时使用自注意力机制建立依赖关系。

自注意力机制

自注意力机制是转换器的标志性特性,使它们能够一次处理整个输入序列。无论转换器身在何处,它都可以将自己的“注意力”引导到输入序列中最重要的词元上。

相比之下,较旧的循环神经网络 (RNN) 和卷积神经网络 (CNN) 则按顺序或分层方式评估输入数据。自注意力让 GPT 能够处理上下文,并使用自然语言进行详细回复,而不是仅仅猜测句子中的下一个单词。

编码器

编码是指将词元映射到虚拟三维向量空间的过程。在三维空间中就近编码的词元被视为在意义上更为相似。输入序列的这种数学向量化称为嵌入。

转换器网络中的编码器模块为每个嵌入分配一个权重,用于决定它的相对重要性。同时,位置编码器捕获语义,使 GPT 模型能够区分单词相同但单词顺序不同的分组,例如,“The egg came before the chicken”与“The chicken came before the egg”。

解码器

解码器根据编码器准备的嵌入信息,预测统计学上最可能的响应。自注意力机制允许解码器识别输入序列中最重要的部分,而高级算法确定最有可能正确的输出。

GPT 的历史

自 2018 年 GPT 发布以来,OpenAI 一直处于生成式 AI 讨论的前沿。除了他们的旗舰产品 ChatGPT,该公司还追求使用 DALL-E 生成图像以及通过 Sora 生成视频。

GPT-1,2018 年

OpenAI 发布首款 GPT 模型。它的性能在当时令人印象深刻,为后来的发展提供了概念验证。GPT-1 能够以类似人类的方式回答问题,并对文本生成提示做出响应,凸显了它在聊天机器人和内容创作方面的未来用例。

相对而言,GPT-1 容易产生幻觉或臆想,可能会把不正确的信息说成是事实。它的回答表明,OpenAI 尚未磨练 GPT 识别长程依赖关系和字符串以及准确的长格式回复的能力。

GPT-2,2019

OpenAI 的下一个模型拥有 15 亿个参数,从而增强其性能。在保持较长响应的一致性方面,GPT-2 较其前代产品更成功,这表明长程依赖关系检测更为成熟。

GPT-2 是分阶段发布的,在完整版之前推出了几个容量有限的模型。OpenAI 在一份声明5 中解释说,分阶段发布是为了减少潜在的滥用和其他道德问题。OpenAI 列举了如何使用该模型在网上冒充他人、生成误导性新闻以及自动化实施网络欺凌和网络钓鱼内容。

尽管 OpenAI 首席执行官 (CEO) Sam Altman 一再公开呼吁政府对 AI 进行监管,但该公司私下也曾游说减少《欧盟 AI 法案》的限制6。该法案的最终草案于 2024 年 6 月获得欧洲议会批准,似乎与该公司的建议一致。

GPT-3,2020 年

GPT-3 拥有 1750 亿个参数(较其前代产品多一百多倍),成为当时最大的大语言模型 LLM 之一。其性能远远超越了同系列的早期型号。ChatGPT 的免费版本仍然由 GPT-3.5(GPT-3 的最新版本)提供支持。

虽然 GPT-3 的性能体现了它的额外功率和尺寸,但训练需求也飙升。训练这种大语言模型所需的计算和能源资源引起了人们对碳足迹和水足迹的关注7。为此,OpenAI 开发了新颖的训练方法,旨在提高训练过程的效率。

GPT-4,2023 年

GPT 的当前版本是 OpenAI 迄今为止功能最强大的版本,在内容质量和避免偏见方面均优于前代产品。它支持 ChatGPT 的高级版本,与由 GPT-3.5 驱动的免费版服务相比,它为订阅者提供更强大的功能和性能。

然而,它也是 GPT 系列中资源最密集的模型,据估计,每日运营成本为 700,000 美元8。随着 大语言模型 LLM 的不断发展,关于成本与潜在收益的争论仍然存在。Goldman 于 2024 年 6 月9 发布了一份报告,其中重点关注与训练和维护模型成本上升相比,生成式 AI 潜在有限的用例。

GPT-4 Turbo 是该模型的当前迭代,数据截止日期为 2023 年 4 月。这意味着训练数据或知识库不涵盖该时间点之后发布的任何在线内容。

GPT-4o,2024 年

GPT-4o 于 2024 年 5 月发布,提供多种语言版本,支持多种非英语语言的内容。它也是多模态的工具,能够处理图像、音频和视频提示,同时生成文本、图像和音频内容作为响应。OpenAI 表示,与 GPT-4 Turbo 相比,GPT-4o 的价格便宜 50%,文本生成速度提高一倍10。

GPT 风险

虽然 GPT 和其他生成式 AI 模型受到了媒体的广泛赞誉,但它们的使用并非没有风险。寻求将 GPT 纳入工作流程的组织和个人应了解潜在风险,包括:

数据隐私和机密性

侵犯知识产权和所有权冲突

输出不准确

模型偏差

数据隐私和机密性

输入 GPT 中的任何数据都可以在处理其他查询时使用,并且可以由 OpenAI 用于训练其他模型。这不仅对机密数据构成安全风险,而且还使组织面临违反数据保护合同和法律义务的风险。

侵犯知识产权和所有权冲突

OpenAI 使用受版权保护的材料训练模型。尽管公司辩称这项选择是合理使用,但还是面临了法律诉讼,包括《纽约时报》11 于 2023 年 12 月提起的诉讼。AI 生成的输出可能包含受版权保护的内容,如果事先未经人工审查和编辑,其使用可能违反版权限制。

OpenAI 还受到了批评与指责,因为其 ChatGPT 中的声音被指使用或模仿演员斯嘉丽·约翰逊12。斯嘉丽·约翰逊曾在 2013 年电影《她》中饰演一个未来人工智能的化身。此后,OpenAI 已停止在其产品中使用该特定声音。

输出不准确

GPT 生成的输出不能保证事实正确性。生成式 AI 模型受到 AI 幻觉或虚构的影响,此时它们的算法会检测数据中不存在的模式。虚构导致模型生成不准确的内容,而这些内容会被当作可靠的事实呈现给用户。Hicks 等人在 2024 年的一篇论文中详细探讨了这种与 ChatGPT 相关的趋势13。

模型偏差

模型偏差是基于训练数据的模型预测与现实世界中发生的事情之间的差异。GPT 经过大量互联网数据的训练,而且由于这些内容是由人为创建,因此可能包含歧视性观点 – 有时是故意为之,通常不是。随着 AI 融入警务、医疗保健和日常生活的其他领域,AI 偏见可能对现实世界产生影响。