6.9 KiB
6.9 KiB
蒸馏 Skill 重新组织方案(v2)
日期:2026-05-27 状态:待主公确认后执行 Step 3-4 重跑
核心洞察
之前的组织按"能力领域"分(执行纪律/评审质量/系统设计……),导致:
- 扫描模式与 Skill 对不上(Agent 不知道"我被纠正了"该加载哪个 Skill)
- 经验层次不清晰(高频铁律和低频记忆混在一起)
- 无法复用 moziplus v2.0 的四层金字塔 + 三级载体架构
新组织方式:6 种扫描模式 × 4 层金字塔
| 扫描模式 | 数据量 | → L0 铁律 | → L2 引擎注入 | → L3 Skill | → 黑板 Memory |
|---|---|---|---|---|---|
| ① 纠正(591) | 高频明确 | ✅ 高频纠错(GATE流程) | ✅ 典型错误模式 | ❌ | |
| ② 试错(226) | 中频可复用 | ❌ | ✅ 绕坑指南 | ✅ 试错模式 | |
| ③ 成功(200) | 未知(未处理) | ❌ | ❌ | ✅ 最佳实践 | |
| ④ 协作(873) | 低频非通用 | ❌ | ❌ | ❌ | ✅ 协作经验(待蒸馏) |
| ⑤ 决策分歧(1241) | 高频模糊 | ❌ | ✅ 决策门控 | ❌ | |
| ⑥ 经验声明(21) | 低频已提炼 | ❌ | ❌ | ✅ 自我总结 |
L0 铁律(guardrails.yaml / prompt_templates/)
筛选标准:
- 高频(出现 ≥ 20 次)
- 结论明确("必须/禁止")
- 违反后果严重(P0 级别 bug / 用户极度沮丧)
候选:
- GATE 流程门控(33 次)
- 不绕圈子(17+3=20 次,用户极度沮丧)
L2 引擎注入(prompt_templates/ + 相关 Memory)
筛选标准:
- 中频(5-19 次)
- 有明确触发场景
- 可模板化为"当 X 时,先 Y"
候选:
- 先确认当前设计再改(6 次)
- 角色匹配检查(20+ 次,协作模式中)
- inform 邮件轻量处理
L3 Skill(skills/ 目录)
筛选标准:
- 可复用流程(有步骤)
- 有边界条件(适用/不适用)
- 需要按需加载
候选:
- 试错模式(counter 生命周期、续杯 retry、进程管理)
- 成功模式(待提炼)
- 经验声明(自我纠正、诚实边界)
黑板 experiences(experiences 表)
筛选标准:
- 低频(< 5 次)
- 非通用(特定协作场景)
- 待观察(先存起来,看是否积累到可蒸馏阈值)
候选:
- 大部分协作模式细节
- 决策分歧中的个别案例
具体产出预判
L0 铁律:2 条
| # | 铁律 | 来源模式 | 内容 |
|---|---|---|---|
| 1 | GATE 流程门控 | ① 纠正(33 次) | 需求不清不动手 / 根因不明不修复 / 方案未定不实现 / 评估影响范围才动手 |
| 2 | 不绕圈子 | ① 纠正(17+3=20 次) | 接受用户前提假设,直接给方案;不要重复讨论已确认过的问题 |
L2 引擎注入:3 条
| # | 模板 | 来源模式 | 内容 |
|---|---|---|---|
| 1 | 设计确认模板 | ① 纠正(6 次) + ⑤ 决策分歧 | "实现前先查阅已有设计文档,对已确定决策保持尊重;不确定时问用户确认" |
| 2 | 角色匹配检查 | ④ 协作(20+ 次) | "认领任务前检查角色匹配:评审/审查类角色不应认领编码任务" |
| 3 | inform 轻量处理 | ④ 协作(2 次) | "inform 类型邮件让 Agent 感知但不做完整执行" |
L3 Skill:4 个
| Skill | 来源模式 | 说明 |
|---|---|---|
| trial-and-error-patterns | ② 试错(226) | counter/锁生命周期、续杯 retry、进程退出≠资源释放、广播路径一致、JSON 解析验证 |
| proven-practices | ③ 成功(200) | 待提炼:编码/流程最佳实践 |
| self-reflection-wisdom | ⑥ 经验声明(21) | 自我纠正、诚实边界、调研落地映射 |
| 评审质量 | ① 纠正 + ⑥ 经验 | 评审闭环、枚举一致性、三层对照、自我纠正(从 batch2 代码评审知识中提炼) |
黑板 Memory:1 个表
- experiences 表:容纳所有低频、非通用经验,待积累到阈值后触发二级蒸馏
与 moziplus v2.0 架构的对应
| moziplus 架构 | 对应扫描模式 | 对应产出 |
|---|---|---|
| L0 铁律(guardrails.yaml) | ① 纠正(高频明确) | GATE 流程门控、不绕圈子 |
| L2 引擎注入(prompt_templates/) | ①⑤ 纠正+决策分歧(中频模糊) | 设计确认模板、角色匹配检查 |
| L3 Skill(skills/ 目录) | ②③⑥ 试错+成功+经验声明 | trial-and-error-patterns、proven-practices、self-reflection-wisdom、评审质量 |
| 黑板 experiences | ④ 协作(低频非通用) | experiences 表 |
与课题6 闭环的关系
| 课题6 阶段 | 对应扫描模式 | 对应产出 |
|---|---|---|
| DISCOVER | 全部 6 种 | 本次扫描已做 |
| 一级蒸馏(Memory) | 全部 6 种 | experiences 表(低频/非通用) |
| 二级蒸馏(Skill) | ②③⑥ | L3 Skill(试错/成功/经验声明) |
| 固化(Rule) | ① | L0 铁律 + L2 引擎注入 |
执行计划
Step 3(重新)——按新的组织方式归纳
批次调整:
- 批次 1:庞统 + 司马懿的 ①⑤ 纠正+决策分歧 → 提炼 L0 铁律 + L2 引擎注入
- 批次 2:庞统 + 司马懿的 ② 试错 → 提炼 L3 Skill trial-and-error-patterns
- 批次 3:庞统 + 司马懿的 ③ 成功(新增) → 提炼 L3 Skill proven-practices
- 批次 4:庞统 + 司马懿的 ⑥ 经验声明 → 提炼 L3 Skill self-reflection-wisdom
- 批次 5:庞统 + 司马懿的 ④ 协作 → 直接写入 experiences 表(不提炼)
并发限制:主公说并发 ≤ 2,分批跑:
- 先跑批次 1(L0+L2,优先级最高)
- 同时跑批次 2(L3,试错模式重要)
- 完成后跑批次 3-5
Step 4(重新)——按四层金字塔输出
输出目录:
moziplus_v2/
├── guardrails/
│ ├── gate-flow.yaml ← L0 铁律
│ └── no-circle-jerking.yaml ← L0 铁律
├── prompt_templates/
│ ├── design-confirmation.md ← L2 引擎注入
│ ├── role-match-check.md ← L2 引擎注入
│ └── inform-lightweight.md ← L2 引擎注入
├── skills/
│ ├── trial-and-error-patterns.md ← L3 Skill
│ ├── proven-practices.md ← L3 Skill
│ ├── self-reflection-wisdom.md ← L3 Skill
│ └── review-quality.md ← L3 Skill(从 batch2 代码评审知识复用)
└── docs/research/distill-skills-v2/
└── README.md(新的汇总)
主公确认
这个新的组织方式:
- 复用了 moziplus v2.0 的四层金字塔——经验层次清晰
- 6 种扫描模式有明确归宿——Agent 知道经验从哪来、放哪层
- L0/L2/L3/experiences 四路分流——高频固化、中频模板化、低频文档化、待观察存表
对吗?确认后我重跑 Step 3-4。