当前位置: 首页 > news >正文

基于AutoDL云计算平台+LLaMA-Factory训练平台微调本地大模型

1. 注册与认证

  • 访问AutoDL官网:前往 AutoDL官网。

  • 注册账号:完成注册流程。

  • 实名认证:按照要求完成实名认证,以确保账号的合规性。


2. 选择GPU资源

  • 进入算力市场:在官网首页点击“算力市场”菜单。

  • 挑选GPU:根据需求选择合适的GPU资源,例如NVIDIA RTX 4090等。

  • 查看配置:确保所选GPU资源的性能满足训练需求。


3. 创建实例

  • 配置实例:点击所选GPU进入“创建实例”页面。

  • 选择镜像:选取包含深度学习环境的镜像,避免后续手动配置训练环境。

  • 完成创建:配置完成后,启动实例。


4. 初始化环境

  • 进入JupyterLab:实例启动后,通过平台的JupyterLab快捷工具进入。

  • 打开终端:在JupyterLab界面点击“终端”。


5. 配置网络加速(可选)

在终端中输入以下代码进行学术资源加速:

source /etc/network_turbo

6. 克隆LLaMA-Factory项目

  • 克隆项目代码

    git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git

    --depth 1 参数用于浅拷贝,仅获取最新代码,节省时间和空间)


7. 创建并激活虚拟环境

  • 创建虚拟环境

    conda create -n llama_factory python=3.10
  • 初始化conda

    source /root/miniconda3/etc/profile.d/conda.sh
  • 激活环境

    conda activate llama_factory

8. 安装依赖

  • 进入项目目录

    cd LLaMA-Factory
  • 安装所需库

    pip install -r requirements.txt
  • 安装扩展依赖

    pip install -e ".[torch,metrics]"
  • 安装ModelScope库

    pip install modelscope -U

9. 下载预训练模型

  • 新建Python文件,用于下载预训练模型。以下是一个示例代码:

    from modelscope import snapshot_downloadmodel_path = "Qwen/Qwen-7B-Chat"  # 阿里通义千问7B-chat模型
    cache_path = "/root/autodl-tmp"   # 模型缓存路径snapshot_download(model_path, cache_dir=cache_path)
  • 运行下载脚本

    python download.py

10. 启动微调平台UI界面

在终端中输入以下代码,使用GPU开启微调平台的UI界面:

CUDA_VISIBLE_DEVICES=0 python src/webui.py &

11. 微调模型

  • 进入WebUI界面:通过浏览器访问微调平台的UI界面。(可提前下载SSH工具代理到本地端口https://autodl-public.ks3-cn-beijing.ksyuncs.com/tool/AutoDL-SSH-Tools.zip)

  • 选择模型:在WebUI中选择已下载的预训练模型(如通义千问7B-chat)。

  • 配置微调参数:根据需求设置微调的超参数(如学习率、批次大小、训练轮数等)。

  • 开始微调:点击“开始微调”按钮,启动微调过程。


12. 测试与验证

  • 加载微调后的模型:在WebUI中加载微调后的模型。

  • 进行对话测试:通过输入测试问题,验证模型的对话能力是否满足预期。


13. 保存与导出

  • 保存微调模型:将微调后的模型保存到指定路径。

  • 导出模型:根据需要导出模型文件,用于后续部署或进一步优化。

http://www.lryc.cn/news/525556.html

相关文章:

  • strdup 函数
  • 2.9/Q2,Charls最新文章解读!
  • 【未完成】springboot项目实现扫码登录相关逻辑
  • html、js、css实现爱心效果
  • 【前端】Hexo 建站指南
  • OpenStack基础架构
  • 1905电影网中国地区电影数据分析(一) - 数据采集、清洗与存储
  • IPhone16 Plus 设备详情
  • 埃氏算法C++实现: 快速输出质数( 素数 )
  • 后端的config包中的常用配置
  • 基于亿坊PHP框架构建物联网解决方案的优势分析!
  • IoTDB结合Mybatis使用示例(增删查改自定义sql等)
  • skynet 源码阅读 -- 启动主流程
  • OpenCV:高通滤波之索贝尔、沙尔和拉普拉斯
  • UDP 广播组播点播的区别及联系
  • STM32补充——IAP
  • Jetson Xavier NX (ARM) 使用 PyTorch 安装 Open3D-ML 指南
  • 【C++高并发服务器WebServer】-1:Linux中父子进程fork创建及关系、GDB多进程调试
  • C语言数组详解:从基础到进阶的全面解析
  • docker的前世今生
  • python实现施瓦茨-克里斯托费尔【全网首个】根据用户输入推测函数
  • c语言中的数组(上)
  • Unity3D仿星露谷物语开发25之创建时钟界面
  • 数据结构测试题1
  • android wifi AsyncChannel(WifiManager和WifiP2pManager)
  • 【Image Captioning】DynRefer
  • Midjourney基础-常用修饰词+权重的用法大全
  • 没有屋檐的房子-023粪堆旁边的舞蹈
  • 基于Docker的Kafka分布式集群
  • 【博客之星】年度总结:在云影与墨香中探寻成长的足迹