18.3 全量微调:数据预处理之清洗与准备
全量微调:数据预处理之清洗与准备
在大语言模型微调领域,数据堪称决定模型性能的“命门”,其重要性远超模型架构本身。研究明确指出,数据质量对模型性能的影响力高达70%,而模型架构仅占30%。因此,在全量微调流程里,数据预处理中的清洗与准备环节,无疑是重中之重,直接关乎微调后模型在特定任务上的表现优劣。这里,我们以经典的YelpReviewFull数据集为例,深入探讨数据清洗与准备的全过程。
一、YelpReviewFull数据集概述
YelpReviewFull数据集源自Yelp Dataset Challenge 2015,是用于情感分析和文本分类任务的优质语料库。它囊括700,000条记录,其中650,000条作为训练样本,50,000条用作测试样本 。该数据集主要包含两个关键字段:
- text:评论的文本内容,涵盖用户对各类商家丰富且真实的评价,从餐厅菜品口味、服务质量,到酒店住宿体验、景点游玩感受等,为模型学习多样化语言表达与情感倾向提供充足素材。
- label:评论对应的情感标签,取值范围从1到5,1代表负面评价,5表示正面评价,中间值对应不同程度的中性或偏积极/消极情感,为模型训练提供明确的分类目标。
二、数据清洗
(一)缺失值处理
在YelpReviewFull数据集中,若出现“text”字段缺失,由于文本内容是模型学习情感倾向的核心,缺失则无法提供有效信息,可直接删除该样