当前位置：首页 > news >正文

Truncation Sampling as Language Model Desmoothing

news 2025/6/27 23:29:31

本文是LLM系列文章，针对《Truncation Sampling as Language Model Desmoothing》的翻译。

截断采样作为语言模型的去平滑性

摘要
1 引言
2 背景
3 截断作为去平滑性
4 方法
5 实验与结果
6 相关工作
7 结论
8 不足

摘要

来自神经语言模型的长文本样本可能质量较差。截断采样算法（如top-p或top-k）通过在每一步将一些单词的概率设置为零来解决这一问题。这项工作为截断的目的提供了框架，并为此目的提供了一种改进的算法。我们建议将神经语言模型视为真实分布和平滑分布的混合体，以避免无限的困惑。在这种情况下，截断算法的目的是执行去平滑，估计真实分布的支持子集。找到一个好的子集至关重要：我们表明，top-p不必要地截断了高概率单词，例如，对于以Donald开头的文档，导致它截断了除Trump之外的所有单词。我们引入了 $\eta$ 采样，它在熵相关概率阈值以下截断单词。与以前的算法相比， $\eta$ 采样根据人类生成了更可信的长英文文档，更善于打破重复，并且在一组测试分布上表现得更合理。

1 引言

2 背景

3 截断作为去平滑性

4 方法

5 实验与结果

6 相关工作

7 结论

我们已经将这类截断采样算法定义为执行去平滑，这一见解引出了如何进行截断以恢复训练分布的原则，一种新的截断采样算法，以及显示现有算法缺陷的评估。我们发现top-p解码过度截断下熵分布的趋势特别令人惊讶。我们的目标是获得这些见解和我们使用的评估，以推动进一步的研究，了解和改进我们如何从神经语言模型中生成。