当前位置: 首页 > news >正文

Anthropic LLM论文阅读笔记

  • 研究时间:与Instrcut GPT同期的工作,虽然其比ChatGPT发布更晚,但是其实完成的时间比ChatGPT更早。
  • 与ChatGPT的应用区别:该模型比ChatGPT回答我不知道的概率更高。
  • 将强化学习用于大语言模型(RLHF):发现这种方法可以提升几乎在所有NLP任务上的性能。随着参数的增加,效果也越来越好。如果模型经过了强化学习的辅助,效果会进一步提升;如果经过了有用性的训练,模型会有更大的提升;但是如果经过了有害性的训练,模型的有用性会下降,非有害性会提升。
  • 模型不断更新:每个星期用一个新的奖励函数和强化学习目标进行训练,相当于一个在线学习。
  • 模型实现了有用性和无害性:让模型分别在两组表示有用性和无害性的数据集上进行学习。这两个特性其实是相矛盾的,尽管将两个数据集放在一起训练问题也不大,但是仍然需要后续的改进来进行优化。
  • 数据标注:数据标注阶段,每次让模型生成两个回答,让标注工人选择他们觉得更好的回答。
  • RLHF对不同规格的模型的效果:如果模型本身的规模较小,经过RLHF后Zero-shot条件下的模型准确度会下降;但是这个问题在模型规模变大后解决掉。
  • 数据类型:采用的是多轮对话数据,而非常规的QA(单轮)数据,因此和ChatGPT的方式是类似的。
  • 比较不同模型的效果:通过Elo分数进行比较,通过Elo分数计算两个模型中的获胜率。获胜率越高,模型效果越好。
  • 模型精确度与数据量的关系:随着数据量的指数级提升,模型的精确度呈现一个线性的提升。
  • 模型精确度和对话轮数的关系:总体趋势是,对话轮数变多时,模型的精确度会下降。
http://www.lryc.cn/news/242463.html

相关文章:

  • docker启动容器失败,然后查看日志,docker logs查看容器出现报错:
  • 【开源】基于Vue.js的网上药店系统
  • App 设计工具
  • 毅速:3D打印随形透气钢为解决模具困气提供了新助力
  • 某软件商店app抓包分析与sign加密算法实现
  • 万界星空科技QMS质量管理系统功能
  • 杨传辉:从一体化架构,到一体化产品,为关键业务负载打造一体化数据库
  • oracle “ORA-25153:临时表空间为空”
  • 游览器缓存讲解
  • 中国天然径流量格点数据集CNRD v1.0(1961-2018)
  • JoyT的科研之旅第一周——科研工具学习及论文阅读收获
  • expo 初始化指定SDK版本项目
  • js进阶笔记之作用域
  • 【汉诺塔 —— (经典分治递归)】
  • APP运营常用的ChatGPT通用提示词模板
  • 医学检验(LIS)管理系统源码,LIS源码,云LIS系统源码
  • RabbitMQ 安装(在docker容器中安装)
  • 机器学习入门
  • HarmonyOS ArkTS 保存应用数据(十)
  • 【JavaEE】Spring更简单的存储和获取对象(类注解、方法注解、属性注入、Setter注入、构造方法注入)
  • linux上的通用拍照程序
  • 代码随想录-刷题第七天
  • C# 获取图像、字体等对象大小的数据结构SizeF
  • 「 系统设计 」 为什么要做架构分层?
  • 4:kotlin 方法(Functions)
  • Pycharm run 输出界面控制一行能够输出的元素个数
  • C++初级项目webserver项目流程介绍(2)
  • SIPp mac和debian用法可能略有差别
  • echarts的横向柱状图文字省略,鼠标移入显示内容 vue3
  • laravel8安装多应用多模块(笔记三)