🤖 现代 AI 开发者 · Agent 工程进阶:从 demo 到生产

LLM 成本与延迟优化:prefill/decode、prompt caching、批处理、模型路由

prefill / decode、输出更贵,以及缓存 / 批处理 / 路由 / 压缩 / 投机解码

延迟从哪来:prefill 决定首字,decode 决定逐字

要优化先懂 LLM 推理分两段:prefill(把你的输入一次性算完,计算受限,决定首 token 延迟 TTFT)和 decode(一个一个吐字,显存带宽受限,决定逐 token 速度)。一个关键不对称:输出 token 比输入更贵也更慢——所以减少生成长度、限 max_tokens、用流式改善体感,是性价比最高的第一招。

显存里最大的占用是 KV cache(存已算过的注意力):朴素管理会浪费 60–80% 显存;PagedAttention(vLLM)借操作系统的分页思想管理,把浪费降到不到 4%、吞吐翻几倍。配套的连续批处理(continuous batching)把调度从「请求级」降到「迭代级」,一个序列完成就立刻替补新请求,大幅提吞吐。

💡第一招永远是「少生成」:输出又贵又慢,能短就短、能流式就流式,体感和账单一起改善。

五个降本提速的实招

Prompt caching:缓存命中的输入只按基础价的 10% 计费,还压低首 token 时间——对有大段固定前缀(系统提示 / 文档)的场景特别香。② Batches API:牺牲实时性,输入输出 token 都打五折、24 小时内返回——适合离线批量。③ 模型级联 / 路由(FrugalGPT):先用便宜模型、不够格再升级到贵的,能在保持 GPT-4 质量下省最高 98%

提示压缩(LLMLingua):用小模型按信息量删冗余 token,最高 20x 压缩、性能几乎不掉。⑤ 投机解码(speculative decoding):小草稿模型先猜一串、大模型并行验证,无损加速约 2–3 倍(输出分布不变,代价是要多跑一个小草稿模型)。最该破的误区:以为「换更大模型」就能解决一切——多 agent 架构本身就把 token 成本放大约 15 倍,先优化架构和上面这些手段,再谈换模型。

⚠️误区:「不行就换更大模型」。先用缓存 / 批处理 / 路由 / 压缩 / 投机解码压成本,大模型是最后一招、不是第一招。

自测 · 学完检查一下

想真正动手做题、记进度、攒连胜?到互动课里练。

LLM 推理里,决定「首 token 延迟(TTFT)」的主要是哪一段?

答案:prefill(一次性算完输入,计算受限)

prefill 把输入算完,决定首字延迟;decode 一个一个吐字,决定逐字速度。

下面哪个是「在保持质量的前提下降本」的手段?

答案:模型级联 / 路由:先用便宜模型,不够格再升级到贵的(FrugalGPT 省最高 98%)

FrugalGPT 按置信度从便宜到贵级联,保 GPT-4 质量省最高 98%;prompt caching / batches / 压缩 / 投机解码也是降本提速实招。

判断对错:「Agent 又慢又贵,最直接有效的办法就是换一个更大更强的模型。」

答案:错误

换更大模型往往更贵更慢;应先优化架构 + prompt caching(读缓存仅 10% 价)/ 批处理(五折)/ 路由 / 压缩 / 投机解码。多 agent 本身已放大约 15 倍成本,架构优先。

想边练边学,而不只是读?

到互动课里答题、记进度、攒连胜——游客即可试学,无需注册。

进入互动课程 →

Learn something new — don't miss updates

New courses, features and learning tips. Occasional emails, unsubscribe anytime.

Cost & Latency: Making Your Agent Affordable and Fast · The Modern AI Developer · 喵学堂 PurrLearn