当前位置：首页 > news >正文

对“预训练”的理解

news 2025/9/6 22:16:33

预训练有什么用

传统的机器学习是偏数学的，对数据的量不做过多要求，而深度学习的项目通常是有大量的数据可供使用。

在平常的任务或者项目中，我们可能并没有大量数据，只有少量数据，在这时我们就可以通过“借用”有大数据支持的模型的参数，作为基准，这样就能提高效率和准确率。因为他们神经网络的浅层是相似的，也就是说，在任务相似的情况下，可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。

预训练可以节省训练时间，和成本。

预训练是什么

通过一个已训练好的模型A，去完成一个小数据量的任务B，前提，任务A和任务B极其相似。

分两步

冻结：浅层参数不变
微调：浅层参数会跟着训练而改变

预训练怎么用

fairseq、transformers库

http://www.lryc.cn/news/545576.html

相关文章：

论文阅读：CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?

Stable Diffusion（SD）系列模型及关联算法深度解析

FPGA开发，使用Deepseek V3还是R1（3）：系统级与RTL级

logback日志输出配置范例

【开源免费】基于SpringBoot+Vue.JS酒店管理系统（JAVA毕业设计）

Unity中动态切换光照贴图LightProbe的方法

linux(2)用户管理

在鸿蒙HarmonyOS手机上安装hap应用

MacBook Pro使用FFmpeg捕获摄像头与麦克风推流音视频

工程化与框架系列（8）--持续集成实践

Python核心技术，Django学习基础入门教程（附环境安装包）

【Qt-信号与槽】connect函数的用法

计算机毕业设计SpringBoot+Vue.js景区民宿预约系统(源码+文档+PPT+讲解)

服务流程设计和服务或端口重定向及其websocket等应用示例

16. LangChain实战项目2——易速鲜花内部问答系统

一文了解Conda使用

AI辅助学习vue第十四章

chromadb向量数据库使用（1）

CSS—text文本、font字体、列表list、表格table、表单input、下拉菜单select

关于大型语言模型的结构修剪

PostgreSQL 生产环境升级指南：pg_upgrade 快速完成版本升级！

Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调

JAVA面试常见题_基础部分_mybatis面试题

RISC-V汇编学习（一）—— 基础认识

【Delphi】如何解决使用webView2时主界面置顶，而导致网页选择文件对话框被覆盖问题

基于POI的Excel下拉框自动搜索，包括数据验证的单列删除

基金 word--＞pdf图片模糊的解决方法

React底层原理详解

Word 插入图片会到文字底下解决方案

基于DeepSeek 的图生文最新算法 VLM-R1