当前位置: 首页 > news >正文

『大模型笔记』评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释

评估大型语言模型的指标:ELO评分,BLEU,困惑度和交叉熵介绍以及举例解释

文章目录

  • 一. ELO Rating
    • 大模型的elo得分如何理解
      • 1. Elo评分的基本原理
      • 2. 示例说明
      • 3. 大模型中的Elo得分
      • 总结
    • 3个模型之间如何比较计算,给出示例进行解释
      • 1. 基本原理扩展到三方
      • 2. 示例计算
      • 第一场: A A A对战 B B B
      • 第二场: A A A对战 C C C
      • 第三场: B B B对战 C C C
      • 3. 最终 Elo 得分
      • 4. 总结
    • ELO评分的局限性
  • 二. BLEU (Bilingual Evaluation Understudy,双语评估替代)
      • **BLEU计算步骤概述**
      • **详细解释**
        • **1. n-gram匹配**
        • **2. 计算精确度(Precision)**
        • **3. 平均精确度(Precision Average)**
        • **4. 长度惩罚(Brevity Penalty, BP)**
        • **5. BLEU得分计算**
      • **示例**
      • **总结**
  • 三. 困惑度(Perplexity)
      • **困惑度(Perplexity)的详细解释**
      • **1. 困惑度的定义**
        • **公式中的符号解释**:
      • **2. 困惑度的直观理解**
      • **3. 计算困惑度的步骤**
      • **4. 困惑度的意义**
      • **5. 总结**
  • 四. 交叉熵(Cross Entropy)
      • **交叉熵(Cross Entropy)详细解释**
      • **1. 交叉熵的定义公式**
      • **2. 交叉熵的作用**
      • **3. 示例计算**
      • **4. 在语言模型中的应用**
      • **5. 优化目标:最小化交叉熵**
      • **6. 交叉熵与困惑度的关系**
      • **总结**
  • 三. 参考文献

  • ELO Rating, BLEU, Perplexity and Cross Entropy
  • ELO评分提供了一种动态和相对的LLM性能衡量标准,允许在模型进行训练和微调时进行持续评估和排名。聊天机器人领域使用ELO评分来促进LLM对战,并维护最有效模型的排行榜。

在这里插入图片描述

一. ELO Rating

大模型的elo得分如何理解

Elo得分是一个用于评估棋手或参与者相对能力的评分系统,最初由匈牙利裔美国人阿尔帕德·厄尔&#x

http://www.lryc.cn/news/510470.html

相关文章:

  • 深度解析:Maven 和 Gradle 的使用比较及常见仓库推荐
  • SQLite本地数据库的简介和适用场景——集成SpringBoot的图文说明
  • 管理面板Ajenti的在Windows10下Ubuntu24.04/Ubuntu22.04里的安装
  • 在Python如何用Type创建类
  • Android学习19 -- NDK4--共享内存(TODO)
  • 《Cocos Creator游戏实战》非固定摇杆实现原理
  • RabbitMQ工作模式(详解 工作模式:简单队列、工作队列、公平分发以及消息应答和消息持久化)
  • 【VScode】第三方GPT编程工具-CodeMoss安装教程
  • 在JavaScript中,let 和 const有什么不同
  • Mysq学习-Mysql查询(4)
  • 安装torch-geometric库
  • Java数组深入解析:定义、操作、常见问题与高频练习
  • Docker-构建自己的Web-Linux系统-镜像webtop:ubuntu-kde
  • 【C语言练习(17)—输出杨辉三角形】
  • SpringMVC学习(二)——RESTful API、拦截器、异常处理、数据类型转换
  • React 第二十节 useRef 用途使用技巧注意事项详解
  • VIVO Java开发面试题及参考答案
  • C# Winfrom chart图 实例练习
  • iOS从Matter的设备认证证书中获取VID和PID
  • 带着国标充电器出国怎么办? 适配器模式(Adapter Pattern)
  • 破解海外业务困局:新加坡服务器托管与跨境组网策略
  • Mybatis-Plus快速入门
  • Chrome被360导航篡改了怎么改回来?
  • Coding(Jenkinsfile)+ Docker 自动化部署 Springboot —— 图文细节和一些注意事项说明
  • docker django uwsgi 报错记录
  • 数据分析思维(五):分析方法——假设检验分析方法
  • 【ES6复习笔记】集合Set(13)
  • 基础爬虫案例实战
  • 深度学习工作:从追求 SoTA 到揭示新现象
  • 学习记录—正则表达式-基本语法