当前位置: 首页 > news >正文

ChainForge:衡量Prompt性能和模型稳健性的GUI工具包

ChainForge是一个用于构建评估逻辑来衡量模型选择,提示模板和执行生成过程的GUI工具包。ChainForge可以安装在本地,也可以从chrome浏览器运行。

ChainForge可以通过聊天节点对多个对话可以使用不同的llm并行运行。可以对聊天消息进行模板化,并且可以在此过程中为每个节点更新和更改底层LLM。

聊天节点对于会话接口的生成审计非常重要。可以检查每个节点以检测提示漂移,LLM漂移等。

下图显示了如何通过表格数据输入来定义预期响应或真值响应。

下面的文本字段节点用七个容器。提示符以文本字段为前提;其次是聊天节点。在聊天节点中,可以使用以前使用的LLM,也可以定义新的LLM。

对于每个聊天节点,可以定义一个检查节点来查看LLM响应。

响应选择器有一个分组列表或表的选项,可以在下面看到所引用的每个模型的输出。

下面的LLM Scorer,通过使用评分提示来使用单个模型对其他LLM回答进行评分,

 Respond with ‘true’ if the text is positive, and respond with ‘false’ if the text is negative.

总之,ChainForge是一个用于对大型语言模型(LLM)提示进行测试的开源可视化编程环境,用于分析和评估LLM响应,功能包括:快速有效地同时查询多个LLM,测试提示的想法和变化;比较不同提示排列和模型的响应质量,选择最适合你的用例的提示和模型。

官网的DEMO在这里:

https://avoid.overfit.cn/post/f43da49cc8794b969fe9cf1251acfbdc

http://www.lryc.cn/news/185009.html

相关文章:

  • 队列--二叉树层序遍历
  • Ceph入门到精通-Linux内核网络参数优化小结
  • AWK语言第二版 2.6个人库 2.7小结
  • 8年经验之谈 —— Web ui自动化测试框架总结!
  • Kafka在企业级应用中的实践
  • 使用企业订货系统后的效果|软件定制开发|APP小程序搭建
  • STL关联式容器set,multiset,pair,map
  • MFC文本输出学习
  • Python 数据分析与挖掘(一)
  • 【问题证明】矩阵方程化为特征值方程求得的特征值为什么是全部特征值?不会丢解吗?
  • 虹科干货 | 不是吧,Redis Enterprise也能当向量数据库来用?
  • 汽车驾驶 - 四梁六柱是什么
  • CI522 13.56MHZ电动车NFC测试资料
  • 【微信小程序开发】一文学会使用CSS样式布局与美化
  • 漏刻有时物联网环境态势感知大数据(设备列表、动态折线图)
  • 【力扣】单调栈:901. 股票价格跨度
  • 4_使用预训练模型 微调训练CIFAR10
  • 机器学习笔记(一)
  • 学习在原地打转的原因与解决 如何步步为营 一日千里快速进步 考研工程计算 1万小时=416.666666667 天
  • 194、SpringBoot --- 下载和安装 Erlang 、 RabbitMQ
  • 机器学习7:pytorch的逻辑回归
  • Java应用程序中如何实现FTP功能 | 代码示例和教程
  • kotlin:list的for循环
  • asp.net电影院选座系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio
  • CSS鼠标指针表
  • 树的基本概念及二叉树
  • BUUCTF Basic 解题记录--BUU XXE COURSE
  • kotlin:LogKit
  • yolo_tracking中osnet不支持.pth格式,而model_zoo中仅有.pth
  • Tailwind CSS浅析与实操