当前位置: 首页 > news >正文

Training language models to follow instructions with human feedback

Abstract

使语言模型变得更大并不意味着它们本身就能更好地遵循用户的意图。模型的输出结果可能存在以下问题

  • 不真实
  • 有毒
  • 对用户没有帮助

即这些模型没有和用户 “对齐”(aligned)

在给定的 Prompt 分布上,1.3B 的 InstructGPT 的输出比 175B GPT-3 的输出更好(尽管参数量相差 100 多倍)。

1 Introduction

语言建模的目标:predicting the next token on a webpage from the internet

期望的目标: follow the user’s instructions helpfully and safely (Radford et al., 2019; Brown et al., 2020; Fedus et al., 2021; Rae et al., 2021; Thoppilan et al., 2022)

因此我们说语言模型的的目标 没有对齐 (misaligned)

用户意图包含两类:

http://www.lryc.cn/news/330324.html

相关文章:

  • Netty核心原理剖析与RPC实践11-15
  • 3.5网安学习第三阶段第五周回顾(个人学习记录使用)
  • kali常用命令功能简介记录
  • 低噪声、轨至轨运算放大器芯片—— D721、D722、D724,适合用于音频领域
  • 【统计】什么事 R 方
  • Maplesoft Maple 2024(数学科学计算)mac/win
  • 实战 | YOLOv8自定义数据集训练实现手势识别 (标注+训练+预测 保姆级教程--含数据集)
  • 从零学算法2810
  • Vue——案例01(查询用户)
  • 【数据结构】线性表
  • 983. 最低票价 C++
  • 紫光展锐P7885核心板详细参数介绍_5G安卓智能模块开发方案
  • Keil MDK 5.37 及之后版本 安装 AC5(ARMCC) 编译器详细步骤
  • 速盾:cdn配置ssl
  • 代码随想录算法训练营 Day41 动态规划3
  • 面试题:反推B+树高度
  • 瑞吉外卖实战学习--11、分类管理的列表分页查询
  • 网络安全新视角:数据可视化的力量
  • Aurora8b10b(2)上板验证
  • 每天五分钟计算机视觉:使用神经网络完成人脸的特征点检测
  • 表白墙项目(JAVA实现)
  • openGauss 高级分析函数支持
  • 【Java面试题系列】基础篇
  • Ubuntu 23.04 安装es
  • gradle 7.0 + 配置
  • vue3的ref和reactive对比
  • 是否应该升级到ChatGPT 4.0?深度对比ChatGPT 3.5与4.0的差异
  • C++刷题篇——04找等值元素
  • 2024年最新服装erp软件排名!(建议收藏)
  • Radash一款JavaScript最新的实用工具库,Lodash的平替!