sanguo_moziplus_v2/docs/research/distill-reorg-v2.md

# 蒸馏 Skill 重新组织方案（v2）

> 日期：2026-05-27
> 状态：待主公确认后执行 Step 3-4 重跑

---

## 核心洞察

之前的组织**按"能力领域"分**（执行纪律/评审质量/系统设计……），导致：
1. 扫描模式与 Skill 对不上（Agent 不知道"我被纠正了"该加载哪个 Skill）
2. 经验层次不清晰（高频铁律和低频记忆混在一起）
3. 无法复用 moziplus v2.0 的**四层金字塔 + 三级载体**架构

## 新组织方式：6 种扫描模式 × 4 层金字塔

| 扫描模式 | 数据量 | → L0 铁律 | → L2 引擎注入 | → L3 Skill | → 黑板 Memory |
|---------|--------|---------|-------------|-----------|-------------|
| ① 纠正（591） | 高频明确 | ✅ 高频纠错（GATE流程） | ✅ 典型错误模式 | ❌ | |
| ② 试错（226） | 中频可复用 | ❌ | ✅ 绕坑指南 | ✅ 试错模式 | |
| ③ 成功（200） | 未知（未处理） | ❌ | ❌ | ✅ 最佳实践 | |
| ④ 协作（873） | 低频非通用 | ❌ | ❌ | ❌ | ✅ 协作经验（待蒸馏） |
| ⑤ 决策分歧（1241） | 高频模糊 | ❌ | ✅ 决策门控 | ❌ | |
| ⑥ 经验声明（21） | 低频已提炼 | ❌ | ❌ | ✅ 自我总结 | |

### L0 铁律（guardrails.yaml / prompt_templates/）

**筛选标准**：
- 高频（出现 ≥ 20 次）
- 结论明确（"必须/禁止"）
- 违反后果严重（P0 级别 bug / 用户极度沮丧）

**候选**：
- GATE 流程门控（33 次）
- 不绕圈子（17+3=20 次，用户极度沮丧）

### L2 引擎注入（prompt_templates/ + 相关 Memory）

**筛选标准**：
- 中频（5-19 次）
- 有明确触发场景
- 可模板化为"当 X 时，先 Y"

**候选**：
- 先确认当前设计再改（6 次）
- 角色匹配检查（20+ 次，协作模式中）
- inform 邮件轻量处理

### L3 Skill（skills/ 目录）

**筛选标准**：
- 可复用流程（有步骤）
- 有边界条件（适用/不适用）
- 需要按需加载

**候选**：
- 试错模式（counter 生命周期、续杯 retry、进程管理）
- 成功模式（待提炼）
- 经验声明（自我纠正、诚实边界）

### 黑板 experiences（experiences 表）

**筛选标准**：
- 低频（< 5 次）
- 非通用（特定协作场景）
- 待观察（先存起来，看是否积累到可蒸馏阈值）

**候选**：
- 大部分协作模式细节
- 决策分歧中的个别案例

---

## 具体产出预判

### L0 铁律：2 条

| # | 铁律 | 来源模式 | 内容 |
|---|------|---------|------|
| 1 | GATE 流程门控 | ① 纠正（33 次） | 需求不清不动手 / 根因不明不修复 / 方案未定不实现 / 评估影响范围才动手 |
| 2 | 不绕圈子 | ① 纠正（17+3=20 次） | 接受用户前提假设，直接给方案；不要重复讨论已确认过的问题 |

### L2 引擎注入：3 条

| # | 模板 | 来源模式 | 内容 |
|---|------|---------|------|
| 1 | 设计确认模板 | ① 纠正（6 次） + ⑤ 决策分歧 | "实现前先查阅已有设计文档，对已确定决策保持尊重；不确定时问用户确认" |
| 2 | 角色匹配检查 | ④ 协作（20+ 次） | "认领任务前检查角色匹配：评审/审查类角色不应认领编码任务" |
| 3 | inform 轻量处理 | ④ 协作（2 次） | "inform 类型邮件让 Agent 感知但不做完整执行" |

### L3 Skill：4 个

| Skill | 来源模式 | 说明 |
|-------|---------|------|
| trial-and-error-patterns | ② 试错（226） | counter/锁生命周期、续杯 retry、进程退出≠资源释放、广播路径一致、JSON 解析验证 |
| proven-practices | ③ 成功（200） | 待提炼：编码/流程最佳实践 |
| self-reflection-wisdom | ⑥ 经验声明（21） | 自我纠正、诚实边界、调研落地映射 |
|评审质量 | ① 纠正 + ⑥ 经验 | 评审闭环、枚举一致性、三层对照、自我纠正（从 batch2 代码评审知识中提炼） |

### 黑板 Memory：1 个表

- **experiences 表**：容纳所有低频、非通用经验，待积累到阈值后触发二级蒸馏

---

## 与 moziplus v2.0 架构的对应

| moziplus 架构 | 对应扫描模式 | 对应产出 |
|-------------|-------------|---------|
| **L0 铁律（guardrails.yaml）** | ① 纠正（高频明确） | GATE 流程门控、不绕圈子 |
| **L2 引擎注入（prompt_templates/）** | ①⑤ 纠正+决策分歧（中频模糊） | 设计确认模板、角色匹配检查 |
| **L3 Skill（skills/ 目录）** | ②③⑥ 试错+成功+经验声明 | trial-and-error-patterns、proven-practices、self-reflection-wisdom、评审质量 |
| **黑板 experiences** | ④ 协作（低频非通用） | experiences 表 |

---

## 与课题6 闭环的关系

| 课题6 阶段 | 对应扫描模式 | 对应产出 |
|-----------|-------------|---------|
| **DISCOVER** | 全部 6 种 | 本次扫描已做 |
| **一级蒸馏（Memory）** | 全部 6 种 | experiences 表（低频/非通用） |
| **二级蒸馏（Skill）** | ②③⑥ | L3 Skill（试错/成功/经验声明） |
| **固化（Rule）** | ① | L0 铁律 + L2 引擎注入 |

---

## 执行计划

### Step 3（重新）——按新的组织方式归纳

**批次调整**：
- 批次 1：庞统 + 司马懿的 ①⑤ 纠正+决策分歧 → 提炼 L0 铁律 + L2 引擎注入
- 批次 2：庞统 + 司马懿的 ② 试错 → 提炼 L3 Skill trial-and-error-patterns
- 批次 3：庞统 + 司马懿的 ③ 成功（新增） → 提炼 L3 Skill proven-practices
- 批次 4：庞统 + 司马懿的 ⑥ 经验声明 → 提炼 L3 Skill self-reflection-wisdom
- 批次 5：庞统 + 司马懿的 ④ 协作 → 直接写入 experiences 表（不提炼）

**并发限制**：主公说并发 ≤ 2，分批跑：
- 先跑批次 1（L0+L2，优先级最高）
- 同时跑批次 2（L3，试错模式重要）
- 完成后跑批次 3-5

### Step 4（重新）——按四层金字塔输出

**输出目录**：
```
moziplus_v2/
├── guardrails/
│   ├── gate-flow.yaml          ← L0 铁律
│   └── no-circle-jerking.yaml  ← L0 铁律
├── prompt_templates/
│   ├── design-confirmation.md ← L2 引擎注入
│   ├── role-match-check.md     ← L2 引擎注入
│   └── inform-lightweight.md   ← L2 引擎注入
├── skills/
│   ├── trial-and-error-patterns.md ← L3 Skill
│   ├── proven-practices.md          ← L3 Skill
│   ├── self-reflection-wisdom.md    ← L3 Skill
│   └── review-quality.md            ← L3 Skill（从 batch2 代码评审知识复用）
└── docs/research/distill-skills-v2/
    └── README.md（新的汇总）
```

---

## 主公确认

这个新的组织方式：
1. **复用了 moziplus v2.0 的四层金字塔**——经验层次清晰
2. **6 种扫描模式有明确归宿**——Agent 知道经验从哪来、放哪层
3. **L0/L2/L3/experiences 四路分流**——高频固化、中频模板化、低频文档化、待观察存表

对吗？确认后我重跑 Step 3-4。