Agent 当“值班助手”,不当“甩手掌柜”
上一节你学会了看日志、设告警。但凌晨告警响了,一堆密密麻麻的日志要人去读、去归纳,很累。AI 原生运维就是让 Agent 当你的值班助手:它先把日志读一遍、归纳出“大概是哪儿出问题了”,再给你一个修复建议。
谁干什么:Agent 负责看,人负责拍板
把活分清楚就不容易出事:
Agent 负责的:把一大段日志读完、找出可疑的 error、归纳“可能是支付接口超时”、给出几条候选修复建议。
人负责的:判断这建议靠不靠谱、要不要执行、像重启服务/回滚版本/删数据这种会改变现状的动作,由人确认。
一个安全的“Agent 读日志、人拍板”流程
把它串成一条流水线,每一步都清清楚楚:
1. 告警触发 → 2. 把相关时间段的日志喂给 Agent → 3. Agent 输出初步定位 + 修复建议 → 4. 人看建议、决定 → 5. 由人(或人确认后)执行修复 → 6. 复查指标是否恢复。
给 Agent 的指令要写清楚边界,让它只看不动:
你是运维值班助手。我会把最近 30 分钟的线上日志贴给你。
请你:
1) 找出其中的 error,并按出现时间排序;
2) 用一句话总结“最可能的故障原因”;
3) 给出 1~3 条修复建议,并标注每条的风险高低。
注意:只做分析和建议,不要假装已经执行任何操作。自测 · 学完检查一下
想真正动手做题、记进度、攒连胜?到互动课里练。
让 Agent 参与运维,主要帮你省下哪类工作?
答案:读海量日志、找线索、归纳问题、起草修复方案
Agent 是值班助手,擅长快速读日志、定位、写建议;高危且不可逆的决定仍要人来负责。
判断:凌晨告警响了要人去读一大堆日志做归纳,正是 Agent 能帮上忙的典型场景。
答案:对
读海量日志、归纳可疑点正是 Agent 的强项,能大幅减少人半夜逐行排查的负担。
判断:为了快,应该让 Agent 一发现疑似故障就自动回滚生产版本、不必等人确认。
答案:错
回滚生产是会改变现状、可能不可逆的高危动作,必须人确认。Agent 看错一次就可能把小故障变成大事故。
关于哪些事交给 Agent、哪些必须人拍板,下面哪种分工最合适?
答案:归纳日志、给修复建议交给 Agent;重启服务/回滚由人拍板
界限是:读和建议可以自动,会改变现状的动手操作要人点头。这样既省力又安全。
设计“Agent 读日志、人拍板”流程时,下面哪条指令最符合“只看不动”的安全要求?
答案:请你分析日志并给出修复建议,但不要假装已经执行任何操作
安全流程要给 Agent 划清边界:只分析、只建议、不执行;执行与否由人决定。
在“Agent 读日志、人拍板”流程里,让 Agent 给每条修复建议都标上“高/中/低”的____等级,你就能先挑最稳的那条来试。(填两个字)
答案:风险
让 Agent 标注每条建议的风险高低,人拍板时可以优先选低风险方案,循序渐进地修复,降低二次事故概率。