当前位置: 首页 > news >正文

DeepSeek-coder 微调训练记录

简介

微调过程不再细说, 参考link进行即可. 主要是数据集.
在这里插入图片描述

1.3b模型微调训练占用资源信息

在这里插入图片描述
top信息

评估

根据DeepSeek-coder的Evaluation试进行对微调后的模型进行评估. 其中的评估库主要是evol-teacher和human-eval.

新建一个eval_ins.sh文件, 填入以下内容

LANG="python"
OUPUT_DIR="output"
MODEL="deepseek-coder-1.3b-instruct"CUDA_VISIBLE_DEVICES=0,1 python eval_instruct.py \--model "deepseek-ai/$MODEL" \  # 修改路径为微调保存的模型路径--output_path "$OUPUT_DIR/${LANG}.$MODEL.jsonl" \--language $LANG \--temp_dir $OUPUT_DIR

随后启动bash eval_ins.sh

model /home/stlinpeiyang/lpy22/LLM/DeepSeek-Coder/finetune/output/checkpoint-14500
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.
load tokenizer <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'> from /home/stlinpeiyang/lpy22/LLM/DeepSeek-Coder/finetune/output/checkpoint-14500 over.
Read 164 examples for evaluation over.
Generating:   1%|| 2/164 [07:10<10:00:15, 222.32s/it]Failed to extract code block with error `list index out of range`:
>>> Task: Python/2
>>> Output:
def truncate_number(number: float) -> float:""" Given a positive floating point number, it can be decomposed intoand integer part (largest integer smaller than given number) and decimals(leftover part always smaller than 1).Return the decimal part of the number.>>> truncate_number(3.5)0.5"""integer_part = int(number)decimal_part = number - integer_partreturn decimal_partGenerating:   6%|██▋                                          | 10/164 [28:04<7:23:26, 172.77s/it]

耗时很久.

http://www.lryc.cn/news/323779.html

相关文章:

  • 【Android】【Bluetooth Stack】蓝牙音乐协议分析之音频控制与信息加载(超详细)
  • ChatGPT无法登录,提示我们检测到可疑的登录行为?如何解决?
  • 程序员表白
  • CSS的使用与方法
  • (保姆级)离线安装mongoDB集群
  • 面试笔记——MySQL(主从同步原理、分库分表)
  • 面试题2.0
  • 【剑指offer】53. 最小的k个数(java选手)(优先队列+快排+快速选择)
  • 带有GUI界面的电机故障诊断(MSCNN-BILSTM-ATTENTION模型,TensorFlow框架,有中文注释,带有六种结果可视化)
  • 【技术栈】Spring Cache 简化 Redis 缓存使用
  • 解决wrap_socket() got an unexpected keyword argument ‘ciphers‘
  • 【力扣hot100】128.最长连续序列
  • css的text-shadow详解
  • Qt 利用共享内存实现一次只能启动一个程序(单实例运行)
  • 【生活知识-茶叶】
  • [AIGC] 在Spring Boot中指定请求体格式
  • 4核16G服务器租用优惠价格,26.52元1个月,半年149元
  • 2024 Mazing 3 中文版新功能介绍Windows and macOS
  • npm设置淘宝镜像
  • 现代卷积神经网络
  • 【wubuntu】披着Win11皮肤主题的Ubuntu系统
  • Kubernetes自动化配置部署
  • 2024年奥莱利科技趋势报告解析
  • 算法打卡Day14
  • Android Kotlin版封装EventBus
  • VUE父子组件的传参问题
  • 四、C#希尔排序算法
  • 华为认证网络工程师的市场需求大吗?
  • Pytorch:nn.Upsample() 和nn.ConvTranspose2d()
  • 百度交易中台之系统对账篇