当前位置：首页 > news >正文

自然语言处理（NLP）中的迁移学习

news 2025/6/28 20:23:08

Transfer Learning in NLP

迁移学习（Transfer Learning）无疑是目前深度学习中的新热点（相对而言）。在计算机视觉领域，它已经应用了一段时间，人们使用经过训练的模型从庞大的ImageNet数据集中学习特征，然后针对较小的数据针对不同的任务对其进行进一步的训练。但是，在NLP中，迁移学习主要限于使用预训练的单词嵌入（这大大改善了基线）。最近，研究人员正在努力将整个模型从一项任务转移到另一项任务，这就是本文的主题。

Sebastian Ruder和Jeremy Howard也许是第一个通过其提出的ULMFiT方法，在NLP中的应用了迁移学习方法，该方法超越了所有最新的文本分类技术。

紧接着，OpenAI 在几个NLP任务上扩大了他们的想法，并超越了SOTA。

在2018年NAACL上，获得最佳论文奖的是介绍ELMo的论文，该论文是一种新的词嵌入技术，与ULMFiT背后的思想非常相似，该技术来自位于UWash的AllenAI和 Luke Zettlemoyer小组的研究人员。

在本文中，我将讨论所有这些新工作以及它们之间的相互关系。让我们从Ruder和Howard的引领潮流的架构开始。

用于文本分类的通用语言模型微调

《Universal Language Model Fine-Tuning for Text Classification》

用于文本分类（或任何其他受监督的NLP任务）的大多数数据集都非常小。这使得训练深度神经网络非常困难，因为深度神经网络倾向于过度拟合这些小的训练数据，并且在实践中不能很好地概括。

在计算机视觉领域，在庞大的ImageNet语料库上对任何模型进行预训练，是近些年的趋势。这比随机初始化好得多，因为该模型可以学习一般的图像特征，然后可以将其用于任何视觉任务（例如字幕或检测）。

Howard和Ruder从这个想法中得到启发，提出了一个bi-LSTM模型，该模型在一般的语言建模（LM）任务上进行训练，然后在文本分类上进行微调。原则上讲，这会很好地执行，因为该模型将能够使用从生成式预训练中获得的语言语义知识。理想地，可以从任何源任务（source task）S到目标任务（target task）T进行此迁移。作者使用LM作为源任务，因为：