它是怎么造的
每门课由一个 AI 写,再被另一个 AI 拆穿
喵学堂是个游戏化学习应用,但真正有意思的是背后那台机器。市面上的「AI 课程」通常是一个模型跑一遍——这恰好是「自信地答错」的来源。所以这里的课走的是一条对抗式流水线。这一页老实讲清它怎么跑的,包括它不行的地方。
流水线
- 1带出处的知识,不是凭感觉
每个技能先被采成一堆「知识原子」——短小自包含的事实,每条都挂一个真实出处(教材、论文、官方文档)。课只能从已存在的原子里起草。没有原子,就没有断言。
- 2producer 起草这节课
一个智能体把原子写成一节课:2–3 个讲解步 + 约 10 道题,目标对齐 Bloom 层级,每个硬断言都能溯源。中英文一起写。
- 3独立 reviewer 试图把它拆穿
第二个、完全独立的智能体审这份草稿——被明确要求「默认假设作者造假」,专挑答错的题、夸大、张冠李戴的引用。一旦发现 high 级问题,这节课就卡住、不发布。
- 4完整性门决定这门课算不算数
就算每节都过审,第三个智能体还要把整门课当一个整体判:题量是否 ≥50、是否覆盖 ≥5 个核心技能、入门弧是否连贯、有没有明显缺口?过了这条线才进目录,否则一直不上架。
它真抓到的 bug
- 全库的正确答案在悄悄往 A 选项堆——一个模型偏差,谁「永远选 A」都能拿高分。用按题确定性洗牌修掉了。
- 一处引用和它所引的研究结论正好相反(一个「情绪与分享」的说法,指向一篇结论恰恰相反的论文)。抓出、改写、删掉该出处。
- 一节课把某个设计原则说成是「后来才补进去的」,其实不是——一处捏造的史实,被标记并改正。
它目前还替代不了人的地方
对抗式自审在「揪捏造、揪答错」上很好用。但在品味、教学法、以及「一个领域里哪 20% 对新手才真正重要」上,它更弱——那仍然需要一个人类领域专家。完整性门是启发式的,不是真理。它是一种「带质量下限地更快发布」的办法,不是完美的宣称。