龙蜥邀您参加 AICon 全球人工智能开发与应用大会,探索 AI 应用边界
AICon 全球人工智能开发与应用大会·深圳站将于 8 月 22-23 日召开,聚焦大模型训练与推理、AI Agent、RAG(检索增强生成)、多模态大模型等前沿技术方向。大会面向各行业对人工智能和大模型感兴趣的资深工程师、产品经理、数据分析师等。龙蜥社区多位专家受邀参加,围绕 AI 场景运维的分层实践方法论及大模型推理成本优化方案进行专题分享。
专题:高效推理技术与性能极限优化
主题:Mooncake:面向长上下文的 KVCache 中心化推理优化方案
时间:8 月 23 日 9:30-10:10
嘉宾:马腾,龙蜥社区 CXL SIG Maintainer、阿里云高级技术专家
地点:大宴会厅 A
简介:随着大模型应用的普及,推理过程中的高计算资源消耗和 KVCache(键值缓存)的冗余存储成为关键瓶颈,导致推理成本高昂、吞吐量受限,尤其在长上下文场景中表现尤为突出。Mooncake 项目通过创新的以 KVCache 为中心的“PD 分离”架构(计算与存储解耦)和“以存换算”设计,将 KVCache 池化共享,结合高性能传输技术(如 eRDMA、GPUDirect)和分布式存储优化,实现跨实例的资源复用。本次演讲通过介绍 Mooncake 的核心技术解析、行业实践与效果等,了解如何通过 KVCache 池化与 PD 分离架构解决大模型推理的高成本问题,获得可复用的架构设计思路,学习 eRDMA/GPUDirect 等高性能传输技术在大模型场景的落地方法,提升分布式系统优化能力,掌握主流推理框架(如 vLLM)与 Mooncake 的适配策略,推进开源解决方案持续发展。
专题:AI 赋能研发体系变革
演讲:AI Agent + AI Profiling,构建高效智能运维双支柱
时间:8 月 23 日 16:00-16:40
嘉宾:周絮,龙蜥社区系统运维联盟秘书处成员、阿里云架构师
地点:大宴会厅 A
简介:在操作系统运维中,传统运维面临监控指标繁杂难懂、缺乏现场信息、秒级抖动难查等诸多难题。而改进后的方案引入 AI Agent,提供了集群健康度全景视图,多维度呈现健康分;联合指标分析,结合 MCP 深入诊断 CPU、内存、网络等;指标异常时采集辅助信息,实现自动化诊断;利用持续追踪技术实时采集 CPU 调用栈,针对特定问题开发多种专家诊断工具,有效解决了传统运维困境,助力运维工作高效开展。
此外,AI 场景的运维在分布式架构的演进、巨额的成本下也充满挑战。本次分享讲解如何通过丰富的指标维度、集群化的监控指标观测、日志告警,实现一分钟极速发现问题,通过常态化 AI 火焰图、集群拓扑和触发式 Profiling 剖析、AI 诊断,完成五分钟高快速定界和定位问题,高效运维 AI 场景。
更多大会详细议程可点击下方链接查看,欢迎报名参加:AICon_全球人工智能开发与应用大会_InfoQ技术大会