当前位置: 首页 > news >正文

llama-factory 系列教程 (五),SFT 微调后的模型,结合langchain进行推理

背景

微调了一个 glm4-9B的大模型。微调后得到Lora权重,部署成vllm 的API,然后通过langchain接入完成相关任务的推理。

关于SFT 微调模型的部分就不做介绍了,大家可以参考前面的文章,将自己的数据集 在 Llamafactory 的 dataset_info.json 里进行注册。

llamafactory-cli webui
通过可视化界面进行微调,或者拿到预览的命令,在命令行中运行。

llamafactory API 部署模型

使用 llamafactory 训练模型,再使用llamafactory 部署API 简单又省事,就是慢了一点,但很方便。

如果你想追求极致的推理速度,建议你阅读这篇文章:llama-factory SFT 系列教程 (四),lora sft 微调后,使用vllm加速推理

运行下述代码,完成API部署:

CUDA_VISIBLE_DEVICES=0 API_PORT=8000 llamafactory-cli api \--model_name_or_path /home/root/.cache/modelscope/hub/ZhipuAI/glm-4-9b-chat \--adapter_name_or_path ./saves/GLM-4-9B-Chat/lora/train_2024-07-30-15-53-random-500 \--template glm4 \--finetuning_type lora \--infer_backend vllm \--vllm_enforce_eager

adapter_name_or_path:lora 插件地址;
建议使用vllm进行部署,huggingface 容易报错。

langchain

from datasets import load_dataset
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage, SystemMessage
from langchain_core.output_parsers import StrOutputParserparser = StrOutputParser()
port = 8000
model = ChatOpenAI(api_key="0",base_url="http://localhost:{}/v1".format(os.environ.get("API_PORT", 8000)),temperature=0
)

加载本地的json 文件,作为推理用的数据集:

valid_dataset = load_dataset("json",data_files="../valid.json"
)["train"]
preds = []
for item in tqdm(valid_dataset):# 修改 messages, 填入自己的数据即可messages = [SystemMessage(content=item['instruction']),HumanMessage(content=item['input']),]chain = model | parserpred = chain.invoke(messages).strip()preds.append(pred)

如上述所示,即可轻松实现利用 langchain 结合训练后的模型,完成推理任务。

参考资料

  • 非常建议阅读: LLaMA-Factory QuickStart. https://zhuanlan.zhihu.com/p/695287607
    因为 llamfactory github 的官方文档写的太简短了,上述知乎的文档写的很细。
http://www.lryc.cn/news/410754.html

相关文章:

  • hive 中编写生成连续月sql
  • 前端开发实用的网站合集
  • 蓄势赋能 数智化转型掌舵人百望云杨正道荣膺“先锋人物”
  • (七)前端javascript中的函数式编程技巧2
  • LeetCode热题 翻转二叉树、二叉树最大深度、二叉树中序遍历
  • DNS查询服务器的基本流程以及https的加密过程
  • 后台管理系统(springboot+vue3+mysql)
  • Android经典面试题之Kotlin中 if 和 let的区别
  • python inf是什么意思
  • Cursor搭配cmake实现C++程序的编译、运行和调试
  • C#-了解ORM框架SqlSugar并快速使用(附工具)
  • 巴黎奥运会 为啥这么抠?
  • Python日期和时间处理库之pendulum使用详解
  • 如何通过 CloudCanal 实现从 Kafka 到 AutoMQ 的数据迁移
  • 详解Qt 之QPainterPath
  • 深入理解Apache Kylin:从概念到实践
  • vue3框架Arco Design输入邮箱选择后缀
  • 制作镜像
  • Kylin系列(二)进阶
  • Maven实战.依赖(依赖范围、传递性依赖、依赖调解、可选依赖等)
  • 关于React17的setState
  • 2024华为OD机试真题-英文输入法Python-C卷D卷-100分
  • magento2 安装win环境和linux环境
  • 【城市数据集】世界城市数据库和访问门户工具WUDAPT
  • 网络爬虫必备工具:代理IP科普指南
  • JMeter接口测试-5.JMeter高级使用
  • 网络安全大模型开源项目有哪些?
  • 【赠书第18期】人工智能B2B落地实战:基于云和Python的商用解决方案
  • 《昇思25天学习打卡营第24天》
  • KeePass密码管理工具部署