sanguo/sanguo_moziplus_v2

Fork 0

Files

T

cfdaily 0c6608aa09 auto-sync: 2026-05-27 00:04:42

2026-05-27 00:04:42 +08:00

6.9 KiB

Raw Permalink Blame History

蒸馏 Skill 重新组织方案（v2）

日期：2026-05-27 状态：待主公确认后执行 Step 3-4 重跑

核心洞察

之前的组织按"能力领域"分（执行纪律/评审质量/系统设计……），导致：

扫描模式与 Skill 对不上（Agent 不知道"我被纠正了"该加载哪个 Skill）
经验层次不清晰（高频铁律和低频记忆混在一起）
无法复用 moziplus v2.0 的四层金字塔 + 三级载体架构

新组织方式：6 种扫描模式 × 4 层金字塔

扫描模式	数据量	→ L0 铁律	→ L2 引擎注入	→ L3 Skill	→ 黑板 Memory
① 纠正（591）	高频明确	✅ 高频纠错（GATE流程）	✅ 典型错误模式	❌
② 试错（226）	中频可复用	❌	✅ 绕坑指南	✅ 试错模式
③ 成功（200）	未知（未处理）	❌	❌	✅ 最佳实践
④ 协作（873）	低频非通用	❌	❌	❌	✅ 协作经验（待蒸馏）
⑤ 决策分歧（1241）	高频模糊	❌	✅ 决策门控	❌
⑥ 经验声明（21）	低频已提炼	❌	❌	✅ 自我总结

L0 铁律（guardrails.yaml / prompt_templates/）

筛选标准：

高频（出现 ≥ 20 次）
结论明确（"必须/禁止"）
违反后果严重（P0 级别 bug / 用户极度沮丧）

候选：

GATE 流程门控（33 次）
不绕圈子（17+3=20 次，用户极度沮丧）

L2 引擎注入（prompt_templates/ + 相关 Memory）

筛选标准：

中频（5-19 次）
有明确触发场景
可模板化为"当 X 时，先 Y"

候选：

先确认当前设计再改（6 次）
角色匹配检查（20+ 次，协作模式中）
inform 邮件轻量处理

L3 Skill（skills/ 目录）

筛选标准：

可复用流程（有步骤）
有边界条件（适用/不适用）
需要按需加载

候选：

试错模式（counter 生命周期、续杯 retry、进程管理）
成功模式（待提炼）
经验声明（自我纠正、诚实边界）

黑板 experiences（experiences 表）

筛选标准：

低频（< 5 次）
非通用（特定协作场景）
待观察（先存起来，看是否积累到可蒸馏阈值）

候选：

大部分协作模式细节
决策分歧中的个别案例

具体产出预判

L0 铁律：2 条

#	铁律	来源模式	内容
1	GATE 流程门控	① 纠正（33 次）	需求不清不动手 / 根因不明不修复 / 方案未定不实现 / 评估影响范围才动手
2	不绕圈子	① 纠正（17+3=20 次）	接受用户前提假设，直接给方案；不要重复讨论已确认过的问题

L2 引擎注入：3 条

#	模板	来源模式	内容
1	设计确认模板	① 纠正（6 次） + ⑤ 决策分歧	"实现前先查阅已有设计文档，对已确定决策保持尊重；不确定时问用户确认"
2	角色匹配检查	④ 协作（20+ 次）	"认领任务前检查角色匹配：评审/审查类角色不应认领编码任务"
3	inform 轻量处理	④ 协作（2 次）	"inform 类型邮件让 Agent 感知但不做完整执行"

L3 Skill：4 个

Skill	来源模式	说明
trial-and-error-patterns	② 试错（226）	counter/锁生命周期、续杯 retry、进程退出≠资源释放、广播路径一致、JSON 解析验证
proven-practices	③ 成功（200）	待提炼：编码/流程最佳实践
self-reflection-wisdom	⑥ 经验声明（21）	自我纠正、诚实边界、调研落地映射
评审质量	① 纠正 + ⑥ 经验	评审闭环、枚举一致性、三层对照、自我纠正（从 batch2 代码评审知识中提炼）

黑板 Memory：1 个表

experiences 表：容纳所有低频、非通用经验，待积累到阈值后触发二级蒸馏

与 moziplus v2.0 架构的对应

moziplus 架构	对应扫描模式	对应产出
L0 铁律（guardrails.yaml）	① 纠正（高频明确）	GATE 流程门控、不绕圈子
L2 引擎注入（prompt_templates/）	①⑤ 纠正+决策分歧（中频模糊）	设计确认模板、角色匹配检查
L3 Skill（skills/ 目录）	②③⑥ 试错+成功+经验声明	trial-and-error-patterns、proven-practices、self-reflection-wisdom、评审质量
黑板 experiences	④ 协作（低频非通用）	experiences 表

与课题6 闭环的关系

课题6 阶段	对应扫描模式	对应产出
DISCOVER	全部 6 种	本次扫描已做
一级蒸馏（Memory）	全部 6 种	experiences 表（低频/非通用）
二级蒸馏（Skill）	②③⑥	L3 Skill（试错/成功/经验声明）
固化（Rule）	①	L0 铁律 + L2 引擎注入

执行计划

Step 3（重新）——按新的组织方式归纳

批次调整：

批次 1：庞统 + 司马懿的 ①⑤ 纠正+决策分歧 → 提炼 L0 铁律 + L2 引擎注入
批次 2：庞统 + 司马懿的 ② 试错 → 提炼 L3 Skill trial-and-error-patterns
批次 3：庞统 + 司马懿的 ③ 成功（新增） → 提炼 L3 Skill proven-practices
批次 4：庞统 + 司马懿的 ⑥ 经验声明 → 提炼 L3 Skill self-reflection-wisdom
批次 5：庞统 + 司马懿的 ④ 协作 → 直接写入 experiences 表（不提炼）

并发限制：主公说并发 ≤ 2，分批跑：

先跑批次 1（L0+L2，优先级最高）
同时跑批次 2（L3，试错模式重要）
完成后跑批次 3-5

Step 4（重新）——按四层金字塔输出

输出目录：

moziplus_v2/
├── guardrails/
│   ├── gate-flow.yaml          ← L0 铁律
│   └── no-circle-jerking.yaml  ← L0 铁律
├── prompt_templates/
│   ├── design-confirmation.md ← L2 引擎注入
│   ├── role-match-check.md     ← L2 引擎注入
│   └── inform-lightweight.md   ← L2 引擎注入
├── skills/
│   ├── trial-and-error-patterns.md ← L3 Skill
│   ├── proven-practices.md          ← L3 Skill
│   ├── self-reflection-wisdom.md    ← L3 Skill
│   └── review-quality.md            ← L3 Skill（从 batch2 代码评审知识复用）
└── docs/research/distill-skills-v2/
    └── README.md（新的汇总）

主公确认

这个新的组织方式：

复用了 moziplus v2.0 的四层金字塔——经验层次清晰
6 种扫描模式有明确归宿——Agent 知道经验从哪来、放哪层
L0/L2/L3/experiences 四路分流——高频固化、中频模板化、低频文档化、待观察存表

对吗？确认后我重跑 Step 3-4。

6.9 KiB Raw Permalink Blame History Unescape Escape

蒸馏 Skill 重新组织方案（v2）

核心洞察

新组织方式：6 种扫描模式 × 4 层金字塔

L0 铁律（guardrails.yaml / prompt_templates/）

L2 引擎注入（prompt_templates/ + 相关 Memory）

L3 Skill（skills/ 目录）

黑板 experiences（experiences 表）

具体产出预判

L0 铁律：2 条

L2 引擎注入：3 条

L3 Skill：4 个

黑板 Memory：1 个表

与 moziplus v2.0 架构的对应

与课题6 闭环的关系

执行计划

Step 3（重新）——按新的组织方式归纳

Step 4（重新）——按四层金字塔输出

主公确认

6.9 KiB

Raw Permalink Blame History