当前位置: 首页 > news >正文

对“预训练”的理解

预训练有什么用

传统的机器学习是偏数学的,对数据的量不做过多要求,而深度学习的项目通常是有大量的数据可供使用。

在平常的任务或者项目中,我们可能并没有大量数据,只有少量数据,在这时我们就可以通过“借用”有大数据支持的模型的参数,作为基准,这样就能提高效率和准确率。因为他们神经网络的浅层是相似的,也就是说,在任务相似的情况下,可以用已有的模型即“预训练”好的模型参数实现小数据量的模型训练。

预训练可以节省训练时间,和成本。

预训练是什么

通过一个已训练好的模型A,去完成一个小数据量的任务B,前提,任务A和任务B极其相似。

分两步

  • 冻结:浅层参数不变

  • 微调:浅层参数会跟着训练而改变

预训练怎么用

fairseq、transformers库

http://www.lryc.cn/news/545576.html

相关文章:

  • 论文阅读:CAN GENERATIVE LARGE LANGUAGE MODELS PERFORM ASR ERROR CORRECTION?
  • Stable Diffusion(SD)系列模型及关联算法深度解析
  • FPGA开发,使用Deepseek V3还是R1(3):系统级与RTL级
  • logback日志输出配置范例
  • 【开源免费】基于SpringBoot+Vue.JS酒店管理系统(JAVA毕业设计)
  • Unity中动态切换光照贴图LightProbe的方法
  • linux(2)用户管理
  • 在鸿蒙HarmonyOS手机上安装hap应用
  • MacBook Pro使用FFmpeg捕获摄像头与麦克风推流音视频
  • 工程化与框架系列(8)--持续集成实践
  • Python核心技术,Django学习基础入门教程(附环境安装包)
  • 【Qt-信号与槽】connect函数的用法
  • 计算机毕业设计SpringBoot+Vue.js景区民宿预约系统(源码+文档+PPT+讲解)
  • 服务流程设计和服务或端口重定向及其websocket等应用示例
  • 16. LangChain实战项目2——易速鲜花内部问答系统
  • 一文了解Conda使用
  • AI辅助学习vue第十四章
  • chromadb向量数据库使用 (1)
  • CSS—text文本、font字体、列表list、表格table、表单input、下拉菜单select
  • 关于大型语言模型的结构修剪
  • PostgreSQL 生产环境升级指南:pg_upgrade 快速完成版本升级!
  • Ubuntu2204下使用NVIDIA GeForce RTX 4090进行DeepSeek-R1-Distill-Llama-8B模型微调
  • JAVA面试常见题_基础部分_mybatis面试题
  • RISC-V汇编学习(一)—— 基础认识
  • 【Delphi】如何解决使用webView2时主界面置顶,而导致网页选择文件对话框被覆盖问题
  • 基于POI的Excel下拉框自动搜索,包括数据验证的单列删除
  • 基金 word-->pdf图片模糊的解决方法
  • React底层原理详解
  • Word 插入图片会到文字底下解决方案
  • 基于DeepSeek 的图生文最新算法 VLM-R1