当前位置：首页 > news >正文

【电商搜索】文档的信息论生成聚类

news 2025/6/26 9:19:55

【电商搜索】文档的信息论生成聚类

本文提出了一种基于信息论的生成聚类（Generative Clustering, GC）方法，用于对文档集合进行聚类。该方法不直接对原始文档进行聚类，而是利用大型语言模型（LLMs）生成的文本来代表原始文档，从而进行聚类。这种方法的核心在于利用LLMs提供的概率分布，通过KL散度在信息论层面严格定义文档间的相似性。实验结果表明，GC方法在多个数据集上取得了优于现有聚类方法的性能，尤其在生成式文档检索（Generative Document Retrieval, GDR）应用中，显著提高了检索准确率。

研究背景

文档聚类是数据科学中的一个基础问题，传统方法依赖于文档的表示，如词袋模型、TF-IDF和主题模型等。随着文本表示学习技术的进步，尤其是BERT等预训练模型的出现，聚类性能得到了显著提升。然而，这些方法可能无法完全捕捉文本中的深层知识，因为它们受限于固定的向量输出。相比之下，生成式模型如GPT-4能够通过自回归文本来处理复杂推理，但其在聚类中的应用尚未充分探索。

技术挑战

在文档聚类领域，挑战主要来自于如何有效地表示文档以捕捉其深层语义信息，并在此基础上进行有效的聚类。传统方法如词袋模型在表示时忽略了文档中的复杂依赖关系，而基于深度学习的嵌入方法虽然能够捕捉上下文信息，但仍然受限于固定长度的向量输出。此外，如何精确地评估文档间相似性也是一个技术难题。

如何破局

本文提出的GC方法通过以下步骤解决上述挑战：

生成式聚类：使用LLMs生成文本来代表原始文档，从而在更丰富的表示空间中捕捉文档信息。
信息论聚类：基于LLMs生成的文本，通过KL散度严格定义文档间的相似性，并进行聚类。
重要性采样：提出一种新的聚类算法，使用重要性采样来估计KL散度，从而在无限维空间中进行聚类。

技术应用

实验设置包括在四个文档聚类数据集上的评估，以及在生成式文档检索中的应用。GC方法在所有数据集上均取得了优于现有方法的性能，尤其在MS Marco Lite数据集上，GC方法在检索准确率上取得了高达36%的改进。这表明GC方法不仅在聚类任务上有效，也能显著提升相关应用的性能。
在这里插入图片描述

主要相关工作与参考文献

相关工作主要涉及文档聚类、生成式语言模型和信息论聚类。文档聚类方面，传统方法依赖于文档的向量表示，而近期的研究开始探索预训练模型在聚类中的应用。生成式语言模型方面，研究者们探索了GPT等模型在文本生成任务中的应用，但将其用于聚类任务的研究还相对较少。信息论聚类方面，研究者们使用KL散度等度量作为优化目标，但这些方法在连续空间中需要密度估计，限制了其应用范围。本文提出的GC方法在这些领域提供了新的视角和解决方案。