当前位置: 首页 > news >正文

大语言模型困惑度:衡量AI语言能力的核心指标

LLM 的困惑度(Perplexity,简称 PPL)是衡量大语言模型**“语言理解能力”和“预测准确性”** 的核心指标

简单说,困惑度越低,说明模型对文本的“理解越到位”,预测下一个词的能力越强。

用“猜词游戏”理解困惑度

可以把困惑度类比成一个“猜词游戏”:
假设让模型读一句话,比如“我今天想吃____”,然后让它猜横线处的词(可能是“饭”“火锅”“面条”等)。

  • 如果模型能精准猜到“饭”(概率 90%),说明它对这句话的上下文理解很准,“困惑度低”;
  • 如果模型觉得“饭”“火锅”“面条”“电影”(甚至不相关的词)都有可能(每个词概率都很低),说明它没吃透上下文,“困惑度高”。

本质:困惑度是模型对“已知文本”的“平均惊讶程度”——文本越符合模型的预期(预测越准),困惑度越低。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

http://www.lryc.cn/news/600878.html

相关文章:

  • Windows Server容器化应用的资源限制设置
  • 小白成长之路-部署Zabbix7(二)
  • Word文档试卷处理新方案:答案提取与格式化一键完成
  • MongoDB数据库高并发商业实践优化·运行优化之不可使用root账户进行MongoDB运行-优雅草卓伊凡
  • python面向对象编程详解
  • Django+celery异步:拿来即用,可移植性高
  • go-admin 构建arm镜像
  • (LeetCode 面试经典 150 题) 20. 有效的括号 (栈)
  • Ubuntu 18.04安装Fast-Lio2教程
  • MySQL进阶学习与初阶复习第三天
  • Windows11下和Vmware中的Ubuntu22.04设置samba服务遇到的一个问题- valid users和guest设置冲突
  • 单元测试、系统测试、集成测试知识详解
  • 深入解析命名管道:原理、实现与进程间通信应用
  • 大型微服务项目:听书——12 数据一致性自定义starter封装缓存操作
  • 2025年全国青少年信息素养大赛Scratch算法创意实践挑战赛 小低组 初赛 真题
  • Fast_Lio 修改激光雷达话题
  • C++核心编程学习--对象特性--对象模型和this指针
  • 在C#中判断两个列表数据是否相同
  • 服务器:数字世界的隐形引擎
  • C++ - 仿 RabbitMQ 实现消息队列--服务端核心模块实现(四)
  • 「iOS」————继承链与对象的结构
  • 数据结构 二叉树(3)---层序遍历二叉树
  • 系统性提升大模型回复准确率:从 RAG 到多层 Chunk 策略
  • 机器学习特征工程:特征选择及在医学影像领域的应用
  • 【AI】联网模式
  • odoo代码分析(二)
  • idea中无法删除模块,只能remove?
  • 建筑施工场景下漏检率↓76%!陌讯多模态融合算法在工程安全监控的落地实践
  • 三防平板搭载2D扫描头:工业数据采集的革新利器
  • python—————knn算法