当前位置: 首页 > news >正文

chatGLM2-6B模型LoRA微调数据集实现大模型的分类任务

【TOC】

1.chatglm介绍

ChatGLM 模型是由清华大学开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于 General Language Model(GLM)架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署。

ChatGLM 具备以下特点:

充分的中英双语预训练:ChatGLM 在 1:1 比例的中英语料上训练了 1T 的 token 量,兼具双语能力。
优化的模型架构和大小:修正了二维 RoPE 位置编码实现。6B(62 亿)的参数大小,也使得研究者和个人开发者自己微调和部署 ChatGLM 成为可能。
较低的部署门槛:FP16 半精度下,ChatGLM 需要至少 13 GB 的显存进行推理,结合模型量化技术,这一需求可以进一步降低到 10GB(INT8) 和 6GB(INT4),使得 ChatGLM 可以部署在消费级显卡上。
更长的序列长度:ChatGLM 序列长度达 2048,支持更长对话和应用。
ChatGLM 微调介绍
模型微调主要分为 Full Fine-Tune 和 PEFT(Performance-Efficient Fine-Tune),前者模型全部参数都会进行更新,训练时间较长,训练资源较大;而后者会冻结大部分参数、微调训练网络结构,常见的方式是 LoRA 和 P-Tuning v2。对于 ChatGLM 来说,选择 P-Tuning v2 进行模型微调,其网络结构如下:在 Transformers 的所有层均增加 Prompt/Prefix。</

http://www.lryc.cn/news/192201.html

相关文章:

  • Elasticsearch6实践
  • 云原生Kubernetes:K8S集群版本升级(v1.20.6 - v1.20.15)
  • 毅速丨3D打印随形水路模具日常如何保养
  • 尚品甄选2023全新SpringBoot+SpringCloud企业级微服务项目
  • 204、RabbitMQ 之 使用 topic 类型的 Exchange 实现通配符路由
  • qq视频录制教程,让你的视频更加精彩
  • (滑动窗口) 76. 最小覆盖子串 ——【Leetcode每日一题】
  • grep批量筛选指定目录下的所有日志并写入文件内
  • JVM第三讲:JVM 基础-字节码的增强技术详解
  • JWT前后端分离在项目中的应用
  • 系统架构师备考倒计时23天(每日知识点)Redis篇
  • WIN11系统设置重启与睡眠唤醒后自动拨号
  • 【【萌新的SOC学习之AXI-DMA环路测试】】
  • Lua教程
  • 《Node.js+Express+MongoDB+Vue.js全栈开发实战》简介
  • 多输入多输出 | MATLAB实现CNN-BiGRU-Attention卷积神经网络-双向门控循环单元结合SE注意力机制的多输入多输出预测
  • 阿里云r7服务器内存型CPU采用
  • Godot2D角色导航-自动寻路教程(Godot设置导航代理的目标位置)
  • R语言实现向量自回归和误差修正模型——附实战代码
  • 原理:用UE5制作一个2D游戏
  • 【ARM 嵌入式 编译系列 11.3 -- GCC attribute packed noreturn constructor 介绍】
  • 主从Reactor高并发服务器
  • 文心一言Plugin实战来了,测试开发旅游攻略助手
  • 微服务13-Seata的四种分布式事务模式
  • C结构体内定义结构体,不能直接赋值。
  • PHP遇见错误了看不懂?这些错误提示你必须搞懂
  • 微信小程序备案流程操作详解
  • 【100天精通Python】Day70:Python可视化_绘制不同类型的雷达图,示例+代码
  • KY258 日期累加
  • 基于CodeFormer实现图片模糊变清晰,去除马赛克等效果