在生产环境部署过LLM的人都知道模型权重只是问题的一半,另一半是KV cache:存储注意力状态的运行时内存,让模型在生成token时不必从头开始重算。能不能管好这块内存决定了系统是一个卡顿的demo还是一个可用的推理服务。 本文梳理KV cache管理经历的5个时代 ...
现在做大模型推理服务的团队,稍微有点规模的基本都在搞 Prefill-Decode 分离部署。因为:Prefill 阶段是计算密集的,Decode 阶段是访存密集的,把它们拆到不同的机器上,各干各的,资源利用率更高。 但这里有一个问题:KV Cache 的搬运。Agent 场景下的推理请求 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果