当前位置: 首页 > news >正文

Continuous Batching 连续批处理

原始论文题目:
Continuous Batching — ORCA: a distributed serving system for Transformer-based generative models

关键词:
Continuous Batching, iteration-level scheduling, selective batching

1.迭代级调度(iteration-level scheduling)

Orca系统又由几个关键组件组成:
Endpoint,Scheduler,Execution Engine,Request Pool

  • Endpoint一般是(HTTPS或者gRPC)用来处理推理请求(inference requests);
  • 所有的requests被放入到Request pool当中,并被scheduler监控;
    scheduler 从request pool中选择requests,并放到execution engine上去运行一个模型迭代(run a model iteration),并从execution engine中收取输出tokens,再更新到request pool中;
  • execution engine执行张量运算,以及多个GPU并行运算;
  • scheduler动态的决定在每一次迭代中,哪些requests要被处理,一旦一个请求完全被处理完毕,那么这个请求就会被从request pool中移除,并发送给endpoint;

不同于那些通过多次迭代直到所有迭代全部完成的传统批处理方法,ORCA的scheduler可以调整在每次迭代过程中哪些请求要被处理。
在这里插入图片描述
上面图片是原始论文中ORCA系统overview

图中虚线的部分表示每次execution engine的迭代都涉及到的相关组件。

x i j x_{ij} xij

http://www.lryc.cn/news/527567.html

相关文章:

  • 海外问卷调查渠道查如何设置:最佳实践+示例
  • 把本地搭建的hexo博客部署到自己的服务器上
  • 初阶数据结构:链表(二)
  • postgresql根据主键ID字段分批删除表数据
  • 10.business english-global market
  • C 语言实现计算一年中指定日期是第几天 题】
  • 深入理解三高架构:高可用性、高性能、高扩展性的最佳实践
  • 【反悔堆】力扣1642. 可以到达的最远建筑
  • 关于使用Mybatis-plus的TableNameHandler动态表名处理器实现分表业务的详细介绍
  • docker 安装 redis 详解
  • 56. 合并区间
  • BOM对象location与数组操作结合——查询串提取案例
  • Jetson Orin Nano Super之 onnxruntime 编译安装
  • 开发环境搭建-3:配置 nodejs 开发环境 (fnm+ node + pnpm)
  • [SWPUCTF 2022 新生赛]js_sign
  • 农业信息化的基本框架
  • OpenAI的真正对手?DeepSeek-R1如何用强化学习重构LLM能力边界——DeepSeek-R1论文精读
  • Vue 3 中的父子组件传值:详细示例与解析
  • 回顾2024,展望2025
  • 【Python实现机器遗忘算法】复现2021年顶会 AAAI算法Amnesiac Unlearning
  • Vue 3 30天精进之旅:Day 03 - Vue实例
  • 【ArcGIS微课1000例】0141:提取多波段影像中的单个波段
  • 【第九天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-六种常见的图论算法(持续更新)
  • 落地 轮廓匹配
  • 【漫话机器学习系列】064.梯度下降小口诀(Gradient Descent rule of thume)
  • JAVA(SpringBoot)集成Kafka实现消息发送和接收。
  • AI刷题-蛋糕工厂产能规划、优质章节的连续选择
  • 在线可编辑Excel
  • 什么是词嵌入?Word2Vec、GloVe 与 FastText 的区别
  • WPS数据分析000010