Question 1

关于 LLM 推理的 prefill 与 decode 两段，下面哪句话是对的？

Accepted Answer

Prefill 并行处理整段 prompt、算力受限，决定首 token 时间（TTFT）；decode 逐 token、显存带宽受限，决定逐 token 间隔与总时长。Prefill 一次性并行处理整段 prompt、算出第一个 token，是矩阵-矩阵运算、能打满算力，属计算受限（compute-bound），决定 TTFT；decode 按自回归逐个吐 token，瓶颈是把权重和 KV 从显存搬进 GPU 的带宽，属显存带宽受限（memory-bound），决定逐 token 间隔（ITL）。因此减 prompt 主要省 prefill/TTFT，减输出主要省 decode/总时长。（出处：NVIDIA, Mastering LLM Techniques: Inference Optimization）

Question 2

判断：因为 decode 是逐 token、显存受限的串行过程，且输出 token 单价通常高于输入，所以「少生成 token」往往比「少喂 token」对延迟的影响更大。

Accepted Answer

正确。正确。输出 token 单价通常高于输入 token，且 decode 是逐 token、显存受限的串行过程，生成长度往往是端到端总时长的主导项——少生成 token 比少喂 token 对延迟影响更大。Anthropic 因此建议用 max_tokens 设硬上限、让模型简洁、用流式改善体感，并指出「按句/段限制」比「按精确字数限制」更有效（模型按 token 而非词计数）。（出处：Anthropic, Reducing latency；NVIDIA 推理优化）

Question 3

团队要离线给一大批历史评论做情感分类，不要求实时返回，目标是把成本压到最低。下面哪个杠杆最对口？

Accepted Answer

走 Batches API：异步处理，输入和输出 token 都打 5 折（省 50%），单批最多 10 万请求、多数 1 小时内返回，还能叠加 prompt caching 折扣。情感分类是典型的「可容忍延迟的离线负载」，正是 Batches API 的主场：输入输出 token 都打 5 折（省 50%），单批最多 10 万请求、承诺 24 小时内（多数 1 小时内）返回，还能与 prompt caching 折扣叠加。换更大模型只会推高单价；流式只改善体感不降成本；多 agent 反而约多用 15 倍 token。（出处：Anthropic, Batch processing）

Question 4

判断：投机解码（speculative decoding）用小草稿模型先猜、大模型并行验证来加速，但代价是会轻微改变最终输出的分布、属于有损近似。

Accepted Answer

错误。错误。投机解码是无损（lossless）加速：配合一种修正的拒绝采样方案，最终输出分布与单独跑大模型完全一致，不改输出、不需重训或改架构。原论文（Leviathan 等）在 T5-XXL 上得 2x-3x 加速且输出相同；DeepMind（Chen 等）在 Chinchilla 70B 得 2-2.5x 加速，并明确修正拒绝采样在硬件数值精度内保持目标模型分布。（出处：Leviathan et al. 2211.17192；Chen et al. 2302.01318）

Question 5

你的 agent 性价比很差，老板说「直接换更大的模型不就完了」。按本课，下面哪个回应最站得住脚？

Accepted Answer

先做架构级优化：模型路由/级联让简单任务走小模型、prompt caching 复用前缀、提示压缩减冗余、批处理拿折扣、并行调用工具；盲目放大模型会同时推高单价、prefill 和 decode 时间，性价比最差。「换更大模型就行」是典型误区，忽视了架构层面的浪费——多智能体系统约消耗普通对话 15 倍 token、单 agent 约 4 倍，token 用量是开销主因。正确顺序是先做架构级优化：路由/级联（FrugalGPT 最高省 98%）、prompt caching、提示压缩（LLMLingua 最高 20x）、批处理（省 50%）、并行而非串行调用工具。盲目放大模型会同时推高单价、prefill 和 decode 时间。（出处：Anthropic, multi-agent research system；FrugalGPT；LLMLingua）

成本/延迟工程：prefill vs decode、prompt caching、投机解码、模型路由 | AI Agent 工程师

地基：推理分两段，输出 token 才是延迟与成本的大头

服务端三件套：KV cache / PagedAttention、连续批处理、投机解码

应用端省钱四招，与「只换大模型」的误区

自测 · 学完检查一下