站内搜索

ChatGPT 的技术原理、运行模式及未来前景

  美国人工智能实验室OpenAI开发的人工智能聊天机器人应用ChatGPT引发广泛热议,被认为是继互联网、智能手机之后,带给人类的第三次革命性产品。互联网开辟了“空间革命”,智能手机的出现带来“时间革命”,ChatGPT的横空出世有望形成“思维革命”,通过替代人类进行创作、创意、解答、咨询、翻译和客服等改变人类思考和处理问题的方式方法,由此重塑各行业生态乃至整个世界。

  埃龙·马斯克称ChatGPT将颠覆世界;微软公司以数百亿美元投资ChatGPT,并计划将其整合到微软的Office办公软件和Bing搜索引擎之中;部分高校和学术机构开展了关于用ChatGPT写论文是否合规的大讨论;还有部分咨询公司开始担忧是否会被其替代。2023年,ChatGPT的应用热情被点燃,应用场景不断快速拓展。

一、ChatGPT 的运行模式

  2022 年 11 月上线的 ChatGPT 是由美国人工智能实验室 OpenAI 开发的人工智能聊天机器人应用,上线不到一周用户就突破 100 万,两个月时间吸引活跃用户过亿,打破了抖音 9 个月吸引用户过亿的记录,成为历史上用户增长速度最快的应用程序。

  回顾ChatGPT的发展历程可知,OpenAI自GPT1.0开始,就将大型语言模型(LLM,Large Language Model)视为通往通用人工智能(AGI,Artificial general intelligence)的必由之路。具体而言,在OpenAI看来,未来的AGI应拥有一个与任务无关的超大型 LLM,可以从海量的数据中学习各种知识,LLM 以生成一切的方式解决各种各样的实际问题。除此之外,AGI 能够听懂人类的命令,便于人类使用。

(一)幕后:大型语言模型

  ChatGPT 的“无比强大”的能力主要得益于其依托的大型语言模型。尽管 ChatGPT 加入人工标注数据,但量级只有数万,这一规模的数据量和训练与GPT-3.5模型使用的几千亿级别的数据量相比几乎可以忽略不计,基本不会对提升GPT-3.5的基础能力发挥作用。因此,ChatGPT 的强大功能主要源自隐藏其背后的“巨无霸”模型——LLM。

  对于LLM的发展理念,可以将其理解为“构建一个任务无关的超大型LLM,让它从海量数据中学习各种知识”。图1展示了大型语言模型LLM。第一,这一LLM模型的规模必然是巨大的,有能力开发出该模型或改动该模型参数的机构较少。对于任务需求方而言,无论是无数的中小机构还是个人,即使有能力把大型语言模型开源出来,也无力部署这一模型,更逞论用微调(Fine-tuning)技术模式修改模型参数。因此,追求不修正模型参数,即能让任务需求方顺利完成任务的方式,应该采取提示词(Prompt)模式完成任务,而非微调模式。模型制作方将 LLM 作为公用基础设施服务,以基础设施即服务(IaaS, Infrastructure as a Service)的模式运行。与此同时,作为服务提供方,要考虑千变万化的用户需求,LLM 模型开发方追求让 LLM 完成尽可能多类型的任务,这成为大型语言模型追求走向通用人工智能的现实因素。

  第二,LLM应具备强大的自主学习能力。假设人类向其灌输世界上所有能够获得的文本或图片等不同类型的数据,LLM应自动学习其中蕴含的知识点,学习过程无需人的介入就能灵活应用所学知识解决实际问题。数据是海量的,要吸收所有知识,就需要足够多的模型参数存储知识,因此,这一模型必然会是“巨无霸”式的模型。

  ChatGPT是否向GPT-3.5模型注入新知识?答案是注入了,这些知识包含在揭秘ChatGPT时提到的“几万人工标注”的数据中,但注入的不是世界知识,而是人类偏好知识。所谓“人类偏好”,包含两方面含义。一是人类表达任务的习惯说法。例如,人们习惯性表达:“把下面句子翻译成日语”,以此表达机器翻译的需求,但LLM并非人类,它如何理解这句话的含义?人类要想办法让LLM理解这句命令的含义,并正确执行。因此,ChatGPT通过人工标注数据的方式向GPT-3.5注入这类知识,方便LLM理解人的命令,这是其

  “了解人类意图”的关键。二是对于什么是好的回答,什么是不好的回答,人类有自己的标准。例如,比较详细的回答是好的,带有歧视性内容的回答是不好的,诸如此类。但这是人类自身对回答质量好坏的偏好。人工标注通过打分模型(RewardModel)将这类信息反馈至LLM数据库。总体而言,ChatGPT将人类偏好知识注入GPT-3.5,以此获得能够听得懂人类语言、自身拥有判断标准的 LLM。

  就具体过程而言,首先,创建人类偏好数据。随机挑选部分问题,并由标注人员给出高质量回答,形成“人类表达-任务结果”的标注数据,反馈至模型,让其学习——这批数据数量仅有数万,并通过提示词(Prompt)模式进行,即模型参数不发生变化。其次,训练一个反馈模型。随机挑选部分问题,由原始模型输出答案,再由标注人员基于“人类偏好标准”(例如,相关性、信息丰富程度、答案有害、负面情感等),对原始模型的答案进行排序。最后,利用标注好的“人类偏好”数据,训练一个打分模型,这一打分模型会对原始模型的结果进行打分,告诉他什么答案分高,什么答案分低。

……………………

二、ChatGPT 的关键技术

  有研究发现,ChatGPT在自然语言处理的系列任务方面,例如,文本理解与生成、对话问答、机器翻译和程序代码生成等都有较大进步。从技术层面讲,得益于近几年深度神经网络、大型语言模型研究的不断发展,即海量数据加之巨大的算力催生这样一个大型语言模型的落地应用。换言之,ChatGPT背后的关键技术离不开大模型算法、大数据和大算力。

(一)算法

  ChatGPT由GPT-3.5模型提供支持,GPT(GenerativePre-trainedTransformer,生成式预训练转换模型)是一种基于互联网可用数据训练的文本生成深度学习模型。在算法方面,该模型使用“利用人类反馈强化学习(RLHF)”的训练方式,包括人类提问机器回答、机器提问人类回答,并不断迭代,让模型逐渐具有对生成答案的评判能力。RLHF的训练过程可以分解为三个步骤。

1. 预训练语言模型

  选取经典的预训练语言模型作为初始模型。在预训练模型出现之前,深度学习不够成功的原因主要在于两方面:一方面,匹配给某一具体任务的训练数据总量不够多。随着模型容量的增加,对训练数据的需求随之攀升,否则即使达到理想深度,也无法取得预期任务效果,进而成为自然语言处理领域无法逾越的难题;另一个方面,深度学习的特征抽取能力不够强。换言之,即使有再多的数据也无济于事,因为模型不能有效吸收数据中蕴含的知识。这两方面原因阻碍了深度学习在自然语言处理领域的突围。GPT预训练模型的出现,无论是从学术研究角度审视,还是从场景应用角度观察,都代表自然语言处理领域的技术飞跃,并带来整个领域研究范式的转换。

2. 打分模型的训练

  基于初始语言模型产出的数据训练打分模型(RM,RewardModel)。打分模型的目标是评估模型的输出在人类看来是否表现得不错。即输入[提示(Prompt),模型生成的文本],输出一个评估文本质量的标记数字。用于训练打分模型的提示词(Prompt)数据一般源自预先富集的数据集,ChatGPT的Prompt数据主要是调用GPTAPI的用户。上述提示词会被放进初始语言模型(第一阶段的模型)中生成文本。可以将打分模型视为判别式的语言模型,从预训练语言模型出发,对[x=[prompt,模型回答],y=人类满意度]构成的标注语料进行微调;也可以随机初始化,在语料基础上直接进行训练。

……………………

  ChatGPT 的技术原理、运行模式及未来前景 PDF 完整版下载(文字可复制):

https://www.aliyundrive.com/s/6W1LdSxkJ9B 提取码: m3c9
Copyright © XiakeShu.com 版权所有 | 备案号:浙ICP备11004787号-12