稳定扩散模型The Illustrated Stable Diffusion图示化讲解 | Jay讲解Stable Diffusion |
Transformer图示化讲解 | Jay讲解 Attention is all you need(Transformer) |
ChatGPT深度体验记录,期待GPT-4(测试各领域知识,正常聊天,写代码,写诗歌,模拟人格,机器翻译,语法改错等) | 2022.12.1号发布的ChatGPT体验记录 |
模型量化技术 | LLM大模型中常见的模型量化技术介绍 |
看注解逐行学习ChatGLM2-6B大模型 | 学习大模型源码 |
逐行代码学习ChatGLM2-6B大模型SFT微调(通过prompt ptune实现) | 学习大模型微调源码 |
KBQA知识总结 | 基于知识图谱的问答(KBQA)介绍 |
从零开始的知识图谱生活 | GitHub上一个知识图谱项目,适合入门学习知识图谱。是一个入门知识图谱过程中的学习笔记,算是半教程类的,指引初学者对知识图谱的各个任务有一个初步的认识。 |
大模型训练为什么用A100不用4090 | 关于大模型训练的事情 |
大模型优化之KV Cache | 推理阶段时KVcache的作用 |
大模型实战教程 | 大模型实战教程,配套教程和代码 |
大模型训练时常见GPU的对比 | 大模型训练时常见GPU的对比 |
不得不会的32个Linux命令 | 常见linux命令 |
手把手带你实战HuggingFace Transformers | b站传送门,动手学习NLP和LLM非常好的地方 |
1B(10亿)的token大概需要多少磁盘空间存储 | 算token数 |
Slurm集群上单节点8卡全量微调大模型笔记 | Slurm集群上单节点8卡全量微调大模型笔记 |
大模型加载的参数介绍及推荐表 | 大模型加载的参数介绍及推荐表,temperature、top_k、top_p、num_beams、num_beam_groups、do_sample等 |
大模型:常见的文字表情包(可以直接加到微调数据里) | 大模型:常见的文字表情包(可以直接加到微调数据里) |
LLM模型评测代码实践 | LLM模型评测代码实践 |
DeepSpeed使用指南(简略版) | 简单介绍DeepSpeed使用指南(简略版) |
DeepSpeed使用指南(资深版) | LLM-分布式训练工具(一):DeepSpeed【微软】【大模型分布式训练工具,实现ZeRO并行训练算法】【zero3配置将模型参数切分后分配到不同的显卡中,突破单张显卡容量不足以加载模型参数的限制】 |
Huggingface 镜像站 | Huggingface 镜像站 |
DPO原理 | DPO原理 |