Files
2026-05-27 00:04:42 +08:00

6.9 KiB
Raw Permalink Blame History

蒸馏 Skill 重新组织方案(v2

日期:2026-05-27 状态:待主公确认后执行 Step 3-4 重跑


核心洞察

之前的组织按"能力领域"分(执行纪律/评审质量/系统设计……),导致:

  1. 扫描模式与 Skill 对不上(Agent 不知道"我被纠正了"该加载哪个 Skill)
  2. 经验层次不清晰(高频铁律和低频记忆混在一起)
  3. 无法复用 moziplus v2.0 的四层金字塔 + 三级载体架构

新组织方式:6 种扫描模式 × 4 层金字塔

扫描模式 数据量 → L0 铁律 → L2 引擎注入 → L3 Skill → 黑板 Memory
① 纠正(591 高频明确 高频纠错(GATE流程) 典型错误模式
② 试错(226 中频可复用 绕坑指南 试错模式
③ 成功(200 未知(未处理) 最佳实践
④ 协作(873 低频非通用 协作经验(待蒸馏)
⑤ 决策分歧(1241 高频模糊 决策门控
⑥ 经验声明(21 低频已提炼 自我总结

L0 铁律(guardrails.yaml / prompt_templates/

筛选标准

  • 高频(出现 ≥ 20 次)
  • 结论明确("必须/禁止"
  • 违反后果严重(P0 级别 bug / 用户极度沮丧)

候选

  • GATE 流程门控(33 次)
  • 不绕圈子(17+3=20 次,用户极度沮丧)

L2 引擎注入(prompt_templates/ + 相关 Memory

筛选标准

  • 中频(5-19 次)
  • 有明确触发场景
  • 可模板化为"当 X 时,先 Y"

候选

  • 先确认当前设计再改(6 次)
  • 角色匹配检查(20+ 次,协作模式中)
  • inform 邮件轻量处理

L3 Skillskills/ 目录)

筛选标准

  • 可复用流程(有步骤)
  • 有边界条件(适用/不适用)
  • 需要按需加载

候选

  • 试错模式(counter 生命周期、续杯 retry、进程管理)
  • 成功模式(待提炼)
  • 经验声明(自我纠正、诚实边界)

黑板 experiencesexperiences 表)

筛选标准

  • 低频(< 5 次)
  • 非通用(特定协作场景)
  • 待观察(先存起来,看是否积累到可蒸馏阈值)

候选

  • 大部分协作模式细节
  • 决策分歧中的个别案例

具体产出预判

L0 铁律:2 条

# 铁律 来源模式 内容
1 GATE 流程门控 ① 纠正(33 次) 需求不清不动手 / 根因不明不修复 / 方案未定不实现 / 评估影响范围才动手
2 不绕圈子 ① 纠正(17+3=20 次) 接受用户前提假设,直接给方案;不要重复讨论已确认过的问题

L2 引擎注入:3 条

# 模板 来源模式 内容
1 设计确认模板 ① 纠正(6 次) + ⑤ 决策分歧 "实现前先查阅已有设计文档,对已确定决策保持尊重;不确定时问用户确认"
2 角色匹配检查 ④ 协作(20+ 次) "认领任务前检查角色匹配:评审/审查类角色不应认领编码任务"
3 inform 轻量处理 ④ 协作(2 次) "inform 类型邮件让 Agent 感知但不做完整执行"

L3 Skill4 个

Skill 来源模式 说明
trial-and-error-patterns ② 试错(226 counter/锁生命周期、续杯 retry、进程退出≠资源释放、广播路径一致、JSON 解析验证
proven-practices ③ 成功(200 待提炼:编码/流程最佳实践
self-reflection-wisdom ⑥ 经验声明(21 自我纠正、诚实边界、调研落地映射
评审质量 ① 纠正 + ⑥ 经验 评审闭环、枚举一致性、三层对照、自我纠正(从 batch2 代码评审知识中提炼)

黑板 Memory1 个表

  • experiences 表:容纳所有低频、非通用经验,待积累到阈值后触发二级蒸馏

与 moziplus v2.0 架构的对应

moziplus 架构 对应扫描模式 对应产出
L0 铁律(guardrails.yaml ① 纠正(高频明确) GATE 流程门控、不绕圈子
L2 引擎注入(prompt_templates/ ①⑤ 纠正+决策分歧(中频模糊) 设计确认模板、角色匹配检查
L3 Skillskills/ 目录) ②③⑥ 试错+成功+经验声明 trial-and-error-patterns、proven-practices、self-reflection-wisdom、评审质量
黑板 experiences ④ 协作(低频非通用) experiences 表

与课题6 闭环的关系

课题6 阶段 对应扫描模式 对应产出
DISCOVER 全部 6 种 本次扫描已做
一级蒸馏(Memory 全部 6 种 experiences 表(低频/非通用)
二级蒸馏(Skill ②③⑥ L3 Skill(试错/成功/经验声明)
固化(Rule L0 铁律 + L2 引擎注入

执行计划

Step 3(重新)——按新的组织方式归纳

批次调整

  • 批次 1:庞统 + 司马懿的 ①⑤ 纠正+决策分歧 → 提炼 L0 铁律 + L2 引擎注入
  • 批次 2:庞统 + 司马懿的 ② 试错 → 提炼 L3 Skill trial-and-error-patterns
  • 批次 3:庞统 + 司马懿的 ③ 成功(新增) → 提炼 L3 Skill proven-practices
  • 批次 4:庞统 + 司马懿的 ⑥ 经验声明 → 提炼 L3 Skill self-reflection-wisdom
  • 批次 5:庞统 + 司马懿的 ④ 协作 → 直接写入 experiences 表(不提炼)

并发限制:主公说并发 ≤ 2,分批跑:

  • 先跑批次 1L0+L2,优先级最高)
  • 同时跑批次 2L3,试错模式重要)
  • 完成后跑批次 3-5

Step 4(重新)——按四层金字塔输出

输出目录

moziplus_v2/
├── guardrails/
│   ├── gate-flow.yaml          ← L0 铁律
│   └── no-circle-jerking.yaml  ← L0 铁律
├── prompt_templates/
│   ├── design-confirmation.md ← L2 引擎注入
│   ├── role-match-check.md     ← L2 引擎注入
│   └── inform-lightweight.md   ← L2 引擎注入
├── skills/
│   ├── trial-and-error-patterns.md ← L3 Skill
│   ├── proven-practices.md          ← L3 Skill
│   ├── self-reflection-wisdom.md    ← L3 Skill
│   └── review-quality.md            ← L3 Skill(从 batch2 代码评审知识复用)
└── docs/research/distill-skills-v2/
    └── README.md(新的汇总)

主公确认

这个新的组织方式:

  1. 复用了 moziplus v2.0 的四层金字塔——经验层次清晰
  2. 6 种扫描模式有明确归宿——Agent 知道经验从哪来、放哪层
  3. L0/L2/L3/experiences 四路分流——高频固化、中频模板化、低频文档化、待观察存表

对吗?确认后我重跑 Step 3-4。