当前位置: 首页 > news >正文

人工智能大模型之ChatGPT原理解析

前言

  • 近几个月ChatGPT爆火出圈,一路狂飙;它功能十分强大,不仅能回答各种各样的问题,还可以信写作,给程序找bug…
  • 我经过一段时间的深度使用后,十分汗颜,"智障对话"体验相比,它是如此的丝滑流畅
  • 作为一名技术人,情不自禁的对它的原理产生了十分浓厚的兴趣;于是花费了一些时间去研究其实现技术原理,在此与大家分享

ChatGPT基本信息&原理

ChatGPT基本信息

  • 研发公司:OpenAI

  • 创立年份:2015年

  • 创立人:马斯克、Sam Altman及其他投资者

  • 目标:造福全人类的AI技术

  • GPT(Generative Pre-trained Transformer):生成式预训练语言模型

  • GPT作用:问答,生成文章等

  • 模型发展史
    在这里插入图片描述

  • 参数量(单位:亿)
    在这里插入图片描述

  • 预训练数据量(单位:GB)
    在这里插入图片描述

原理解析

训练过程总览

在这里插入图片描述

训练过程详解

训练监督策略模型

作为技术人员都知道,一直有两个难题困扰我们:

  • 让机器理解人类通用指令下的意图
  • 生成内容是否是高质量

ChatGPT如何解难题?

  • 数据集中随机抽取问题,由人类标注人员给出高质量答案,得到多轮对话的数据,然后用这些人工标注好的数据来微调 GPT模型;由于数据来源于网上海量数据,通过监督学习可以让模型生成出更加符合我们预期的答案
    在这里插入图片描述

训练奖励模型(RM)

  • 叠加效应:通过人工标注训练数据,来训练回报模型,从而使模型不断地自我迭代完善;
  • 具体如下:
    • 在上一步微调后,在数据集中随机抽取问题,使用第一阶段生成的模型,对于每个问题,生成多个不同的回答
    • 人类标注者对输出结果从好到差排序
    • 用这个排序结果数据来训练奖励模型
    • RM模型接受一个输入,给出评价回答质量的分数,从而使ChatGPT从命令驱动转向意图驱动,引导ChatGPT输出符合人类预期的内容。

强化学习来优化策略(PPO)

  • 使用PPO强化模型优化奖励模型
  • 具体步骤如下:
    • 利用上段训练好的奖励模型,靠奖励打分来更新预训练模型参数
    • 在数据集中随机抽取问题,使用PPO模型生成回答,并用上一阶段训练好的RM模型给出质量分数
    • 将回报分数依次传递,从而产生策略梯度,通过强化学习的方式来更新PPO模型参数
    • 不断迭代,从而训练出更高质量的模型

更多原理内容解析

背景

ChatGPT还有很多精湛的原理,值得我们每个人去认真的学习,从而不断的丰富自己知识体系;该领域还有几个关键点因文章篇幅有限等原因未能将其他的关键点解析在此强烈为大家推荐一个学习直播

思考题

  • 国内生成式人工智能还有哪些前沿研究成果?
  • 跨模态、异构数据爆发式增长,如何高效处理?
  • 大型语言模型未来的优化趋势是怎样的?
  • 牵动多个应用领域的底层视觉技术有哪些优化空间?

更多详细内容

希望热爱学习的读者朋友带着以上思考题,"CSIG企业行"的精彩直播去寻找答案

活动相关内容:

  • 主题:“图文智能处理与多场景应用技术展望”

  • 目标:聚焦图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等热门话题,

  • 嘉宾:特邀来自上海交大、复旦、厦门大学、中科大的顶尖学府的学者与合合信息技术团队一道,以直播的形式分享文档处理实践经验及NLP发展趋势,探讨ChatGPT在未来的落地潜能

  • 活动组织方:该活动由中国图象图形协会 (CSIG) 主办 ,合合信息、CSIG文档图像分析与识别专业委员 会联合承办

  • 时间:3⽉18日 14:00

  • 直播预约入口在这里插入图片描述

  • 活动内容
    在这里插入图片描述

活动干货多多,全程亮点,欢迎大家关注!

总结

  • 当前阶段ChatGPT已经大大的降低了很多行业的门槛,可以辅助专业人士大大提高效率,它很有可能成为改变世界的一项技术
  • 我们每个人都应该学习ChatGPT,它的解决问题方式完全符合大数据思维,生活在当今的信息社会,有了大数据思维会让我们如虎添翼
  • GPT-4在3月15日发布,多模态一个模型,支持了强大的识图能力,回答准确性提升明显,从发布的时间来看,迭代速度越来越快,我们要积极拥抱它,将其作为我们生活和工作的重要伙伴,让它为我们生活带来更多的便利和快乐,同时我们也要充分了解人工智能这项技术,掌握它的优点和不足,不断提高自己的技能和素质,让我们能够更好的应对未来的挑战
http://www.lryc.cn/news/43435.html

相关文章:

  • 傅里叶谱方法-傅里叶谱方法的原理、快速傅里叶变换及其Matlab程序实现
  • 11万字数字政府智慧政务大数据建设平台(大数据底座、数据治理)
  • Node.js学习笔记——Node.js模块化
  • 【洛谷刷题】蓝桥杯专题突破-广度优先搜索-bfs(12)
  • 【数据结构】堆(堆的实现 堆向下调整算法 堆的创建 堆的插入 堆的删除 堆的代码实现 堆的应用)
  • JDBC数据库驱动的下载与安装与连接
  • 如何更改 PDF 背景颜色?
  • room数据库使用以及增加表的使用
  • WiFi-交互过程分析
  • 基于ZYNQ+linux+xenomai 的多轴运动控制平台关键技术研发-测试系统搭建(四)
  • 初识操作系统
  • #详细介绍!!!线程池
  • 【嵌入式Linux学习笔记】基于Linux官方库的标准外设驱动
  • 网络爬虫抓包工具
  • 蓝桥杯倒计时 | 倒计时17天
  • 【Spring Cloud Alibaba】7.Sentinel熔断器仪表盘监控
  • 个人博客系统项目测试报告
  • flutter安装自用笔记
  • tomcat线程池以及在SpringBoot中的启动过程
  • 第十四届中国大学生创新创业大赛
  • LeetCode:322. 零钱兑换——动态规划从案例入门
  • 【lwIP(第四章)】网络接口
  • Vue3 pinia入门篇(一)
  • python面向对象编程解释
  • ARM(IMX6U)嵌入式软件裸机开发之环境搭建与配置
  • Java文件复制多种方法
  • Java语言-----封装、继承、抽象、多态、接口
  • 基于深度学习的瓶子检测软件(UI界面+YOLOv5+训练数据集)
  • 仿网易云小程序(一)
  • 【C++】vector模拟实现及其应用