站内搜索

ChatGPT 技术架构分析、语料体系及训练算法与模型

  【目的】梳理分析ChatGPT相关的语料、算法与模型,为同行业研究提供体系化的参考借鉴。【方法】通过系统梳理GPT-3发布至今的相关文献与资料,刻画ChatGPT技术的整体架构,并解释与分析其背后的模型、算法与原理。【结果】通过文献调研,根据现有资料还原了支撑ChatGPT功能的技术细节,梳理了ChatGPT技术的整体架构,解释了ChatGPT整体技术构成。按照ChatGPT的语料体系、预训练算法与模型、微调算法与模型三个层次分析ChatGPT各技术组件的算法原理与模型组成。【局限】本文调研ChatGPT相关的文献难免存在遗漏,且对部分技术内容的解读还不够深入,一些由笔者推断的内容甚至可能存在错误。【结论】ChatGPT技术应用的突破,是语料、模型、算法,通过迭代训练不断积累的结果,也是各类算法模型有效组合与集成的结果。

  [Objective] Review and analyze the corpus, algorithms and models related to ChatGPT, and provide a systematic reference for peer research. [Methods] This paper systematically reviewed the relevant literature and materials since the release of GPT-3. We depict the overall architecture of ChatGPT technology, and explain and analyze the models, algorithms, and principles behind it. [Results] This paper restores the technical details that support ChatGPT functionality based on limited information through literature research. Rationalizing the overall technical architecture diagram of ChatGPT and explaining each technical component of it. The algorithmic principles and model composition of each technical component of ChatGPT is analyzed at three levels: the corpus system, the pre-training algorithm and model, and the fine-tuning algorithm and model. [Limitations] The investigation of the literature related to ChatGPT inevitably has omissions, and the interpretation of some technical contents is not deep enough. Some contents inferred by the authors may be incorrect. [Conclusions] The breakthrough in the application of ChatGPT technology is the result of continuous accumulation through iterative training of corpora, models and algorithms, as well as the effective combination and integration of various algorithmic models.

一、引言

  ChatGPT[1]是由OpenAI公司研发的对话系统,能够通过理解和学习人类的语言进行对话,自推出后不仅在学术界与产业界得到广泛关注,也推动了人工智能生成技术(Artificial Intelligence Generate Content,AIGC)的快速发展与市场应用。

  ChatGPT可以从5个方面来把握:(1)对外表现是一个聊天机器人:能够通过学习和理解人类语言与人进行对话,具有依据对话的上下文环境回答问题的能力,就像人一样与人类进行聊天交流;(2)本质是AIGC:能够在学习人类语言和相关领域知识的基础之上,具备智能化的内容创作能力,从而自动生成特定的内容;(3)关键基础是生成式预训练的转换器(Generative Pre-trained Transformer,GPT):以生成式的自监督学习为基础,从TB级训练数据中学习隐含的语言规律和模式,训练出千亿级别参数量的大规模语言模型;(4)核心技术是InstructGPT:采用基于人类反馈的强化学习(Reinforcement Learning with Human Feedback,RLHF),让人工智能模型的产出和人类的常识、认知、需求、价值观保持一致;(5)与前期类似产品相比,主要特点是编造事实大幅下降,生成的毒内容更少:在一定程度上解决了传统语言模型在复杂多领域的知识利用、演绎推理、欺骗性反应等方面的缺陷,使回答更具有用性和真实性。

  OpenAI官方在arXiv与GitHub中公开了ChatGPT模型相关的技术内容,很多学者根据开源信息,从不同的角度对ChatGPT技术进行解析。本文在这些研究基础上,广泛收集相关资料,从中理出ChatGPT的技术架构,揭示其主要组成、关键技术及主要原理,对于理解ChatGPT所表现出的各项能力有一定的意义。

  本文尝试从技术的整体架构、实施的数据基础、核心的模型算法三个方面进行探讨性分析,为同行业研究提供体系化的参考借鉴。本文部分内容是在当前公开资料的基础上,笔者根据自身的理解、分析和推断得到,难以避免与未公开的实际情况存在偏差,不足之处还请各位同行予以理解。

二、ChatGPT技术的整体架构分析

  根据收集到的资料,本文整理形成ChatGPT技术的整体架构,如图1所示。作为基于Transformer的人工智能应用,ChatGPT主体架构遵从“语料体系+预训练+微调”的基本模式。可以从ChatGPT的语料体系、预训练算法与模型、微调算法与模型三个层次解析ChatGPT的主体架构和主要组件。

  (1)语料体系是语言模型的基础。语料体系包括预训练语料与微调语料两个部分,其中预训练语料包括OpenAI从书籍、杂志、百科、论坛等渠道收集,并初步清理后形成的海量无标注文本数据;微调语料包括从开源代码库爬取、专家标注、用户提交等方式收集和加工的高质量有标注文本数据。这些文本数据为ChatGPT学习知识与利用知识,提供了坚实的语料基础。

  (2)预训练算法与模型实现预训练大规模语言模型。在大规模训练语料的基础上,OpenAI研发了1750亿参数量的GPT-3预训练大模型,该模型具备了自然语言理解、自然语言生成与上下文学习(In-Context Learning)的能力,能够针对特定场景,根据人类提示,输出高质量的结果。在此基础上,采用对比预训练(Contrastive Pre-Training, CPT)技术,捕捉文本片段、代码片段的语义相似性与相关性特征,生成更加准确的文本、代码向量,以支持后续微调任务。

  (3)微调算法与模型实现面向实际的人工智能应用。在预训练技术与GPT-3模型的基础上,OpenAI进一步研发了Codex模型,赋予GPT-3模型代码生成和代码理解的能力;研发了Insert&Edit模型,赋予GPT-3模型根据对话的上下文插入与修改生成内容的能力;研发了InstructGPT模型,赋予GPT-3模型响应人类指令进而生成更合理答案的能力。

………………

   ChatGPT技术的整体架构分析、语料体系及训练算法与模型 PDF 完整版下载(文字可复制):

https://www.aliyundrive.com/s/Cx3TsjKKHoT 提取码: jx36
Copyright © XiakeShu.com 版权所有 | 备案号:浙ICP备11004787号-12