Files

T

cfdaily a18bd13e1d auto-sync: 2026-05-15 09:31:37

2026-05-15 09:31:37 +08:00

10 KiB

Raw Permalink Blame History

moziplus v2.6 需求-设计一致性验证报告

版本: v1.0 日期: 2026-05-15 作者: 庞统（副军师）状态: ✅ 验证完成，发现问题已记录范围: PRD v1.0 + requirements-v3.md ↔ architecture-v2.6.md + technical-design-v2.6.md

0. 验证方法

逐条比对 PRD 功能需求（F1-F12）与架构/技术设计的覆盖情况
逐条比对铁律（IR-1~IR-4）的落地情况
对照 MEMORY.md 中 v2.0 AI Native 共识，评估设计是否达标
识别缺口、提出待讨论项和优化建议

1. 需求与设计一致性分析

1.1 ✅ 覆盖良好的需求

PRD 需求	设计覆盖	说明
F1 任务主页	黑板 7 表（tasks/comments/outputs/decisions/observations/events/agents）	完整，黑板即 Single Source of Truth
F5 结构化IO	CLI 操作全部结构化参数	完整，产出写入 outputs 表
F11 消息传递	黑板评论 + @mention 完全替代 Mail	比原来更好
F12 编排引擎分离	Daemon 是基础设施，庞统是 Agent 层	核心架构正确
IR-3 全局视野	Agent 读黑板了解全局	正确
P1 传话游戏	黑板共享空间根治	核心痛点已解决

1.2 ⚠️ 部分覆盖但有缺口

PRD 需求	现状	缺口
F2 质量门禁	有 review 状态 + 司马懿 spawn 流程	❌ 无协商轮次追踪（PRD 要求 3 轮上限） ❌ 无结构化评审结果（PRD 定义了 review_result JSON） ❌ 无 round/max_rounds 概念
F3 灵活编排	Agent 可自主 claim 任务	❌ "庞统根据任务类型动态匹配参与者和流程"——智能拆解机制没有设计 ❌ "动态扩展——发现需要谁就动态加入谁"——没有设计 ❌ 协作模式表（串行/并行/讨论/协商/动态加入）没有对应设计
F6 自动化流转	Daemon tick 有基本的 mention/blocked 处理	❌ "需求确认→自动拆解→自动分配→自动流转→自动挑战→自动汇总"链不完整 ❌ 自动检查点（scope reduction detection）没有设计
IR-1 做加挑战	有 review 状态可触发司马懿 spawn	❌ 没有强制"每个节点必须过挑战"的机制保障 ❌ 挑战者池（PRD: 按任务类型匹配）未设计，只有固定司马懿
IR-2 Plan→Execute→Validate	只有一个 working 状态	❌ 没有设计任务内部的 plan/execute/validate 三阶段 ❌ PRD 铁律"每个节点都走三步"无法在状态机中体现

1.3 ❌ 完全未覆盖的需求

PRD 需求	重要程度	说明
F4 Dashboard 可视化	🔴 核心需求	架构文档完全没涉及前端。frontend-design-v3.md 单独存在但与 v2.6 架构没有集成设计
F7 全生命周期覆盖	🟡 重要	PRD 要求需求→设计→编码→测试→部署→运维，当前只有通用 pending→done 状态，无生命周期阶段映射
F8 工具链自动化	🟡 重要	lint/test/build/deploy 自动化完全没涉及，这是"不只是个任务流转工具"的关键差异
F9 Skill 生态	🟠 改善	架构只提 Phase 3 未来做，无最小规范设计
F10 Web 前端平台	🟡 重要	无
IR-4 安全红线	🔴 铁律	无危险操作检测、无审批流程、无三层模型实现
并行执行（F3/N6）	🟡 重要	依赖解析和并行 spawn 没有详细设计
上下文管理	🔴 PRD §11 高风险	PRD 明确标注"Agent 上下文膨胀"为高风险项，架构无 L1/L2/L3 三层记忆方案

1.4 覆盖率汇总

类别	覆盖良好	部分覆盖	未覆盖	覆盖率
功能需求 (F1-F12)	4	3	5	33% 完全覆盖 / 58% 部分覆盖
铁律 (IR1-IR4)	1	2	1	25% 完全覆盖 / 75% 部分覆盖
痛点 (P1-P8)	1	4	3	—

2. AI Native 程度评估

评分：6/10

v2.6 相比 v2.0 有本质进步——从"给 AI 团队做 ERP"进化到"黑板 + Agent 自主决策"。但离真正的 AI Native 还有明显差距。

2.1 ✅ 做对的（AI Native 部分）

点	说明
黑板模式	Agent 读黑板、想、做、写回。这是 AI Native 的核心范式
Daemon 是投递员不是决策者	决策在 Agent 层，Daemon 只执行。这个分离完全正确
Session 隔离	每次任务 spawn 新 session，避免上下文膨胀。解决了 v1 的核心痛点
评论线程协作	Agent 间通过自然语言讨论 + @mention，比邮件更原生
Agent 自主领活	claim 机制让 Agent 主动选择，不是被动分配

2.2 ❌ 不够 AI Native 的

问题 1：编排层没有 AI 参与

MEMORY.md v2.0 共识："不只是执行节点里有 AI，编排/路由/渲染/异常处理/经验沉淀都要有 AI 参与"

当前 Daemon tick 是纯机械逻辑：检查 mention → spawn。没有任何 AI 参与：不判断任务优先级调整、不判断任务是否需要重新拆解、不判断 Agent 是否适合当前任务、不做异常根因分析。

问题 2：没有 Plan→Execute→Validate 纪律

PRD 铁律 IR-2 "每个节点都走三步"是 v2.0 的核心创新。当前设计只有 working 一个大状态，没有纪律约束 Agent 必须先 plan 再 execute。

问题 3：庞统的智能拆解没有机制保障

PRD 要求"庞统根据任务类型动态匹配参与者和流程"。当前设计只是"庞统创建 tasks"，但怎么保证庞统能做好拆解？靠提示词不够。

问题 4：质量门控不够结构化

PRD 定义了详细的 review_result JSON（severity/issues/suggestion），但架构只有"司马懿写评论通过/不通过"。挑战应产生结构化评审结果。

问题 5：没有经验沉淀闭环

PRD F9 和 MEMORY.md 都强调 DISCOVER→DISTILL→APPLY→IMPROVE 闭环。当前黑板的 observations/decisions 表只记录不蒸馏。

问题 6：人机交互不是 AI Native 的

PRD §8 的交互设计是用户主动看 Dashboard。AI Native 的方向应该是 v2.0 共识的 Phase 4 "主动汇报"——AI 推送关键信息，不等人查。

3. 待讨论问题清单

🔴 必须讨论（影响核心架构）

#	问题	说明	影响
D1	IR-2 Plan→Execute→Validate 如何落地？	铁律。改状态机加 sub_status？拆成子任务？完全靠 Agent Skill？每个方案开发量差异很大	状态机 + Agent 行为
D2	IR-4 安全红线如何实现？	铁律。需要至少：危险命令正则拦截 + 部署类任务审批暂停。最小实现方案？	Daemon + 前端
D3	挑战协商轮次如何追踪？	PRD 要求 3 轮上限。tasks 表加 review_round 字段？用 events 日志算？	黑板 schema
D4	前端（Dashboard）与 v2.6 如何集成？	v2.6 有独立 HTTP API（端口 8083），前端如何对接？改现有 v1 前端还是从零做？	前端架构

🟡 建议讨论（影响质量）

#	问题	说明
D5	Daemon tick 中是否引入 AI 决策？	纯机械 tick 够用还是需要 AI 判断？影响架构复杂度
D6	60s tick 间隔是否太长？	Agent 协作场景下，等 1 分钟才知道被 @。是否需要事件驱动（如 Redis pub/sub）？
D7	庞统智能拆解的保障机制？	怎么确保庞统拆解质量？拆解本身是否过挑战？
D8	上下文管理策略？	Agent spawn 时传多少黑板信息？全传爆 context，只传摘要可能丢关键信息。PRD L1/L2/L3 方案何时落地？
D9	v1 前端（8082）如何过渡到 v2？	v1 前端已有任务看板/详情/干预能力，v2 是否可以复用？

🟢 可以后讨论

#	问题
D10	工具链自动化（F8）Phase 规划
D11	Skill 生态（F9）最小规范
D12	经验沉淀闭环设计
D13	全生命周期阶段映射（F7）

4. 优化建议

4.1 状态机粒度增强

当前 8 个状态太粗，建议扩展以支持 IR-2：

pending → claimed → planning → plan_review → executing → exec_review → validating → done
                     ↑              │            ↑              │
                     └──────────────┘            └──────────────┘
                     (plan被打回)                 (exec被打回)

这样铁律 IR-2 直接在状态机中强制执行。

4.2 评审结果结构化

黑板的 reviews 表应独立（不只是靠 comments）：

CREATE TABLE reviews (
    id INTEGER PRIMARY KEY,
    task_id TEXT,
    reviewer TEXT,
    round INTEGER,
    verdict TEXT,  -- approved/needs_revision/rejected
    issues TEXT,   -- JSON array
    created_at TEXT
);

4.3 依赖推进机制

当前 depends_on 字段存在但没有设计自动推进逻辑。Daemon tick 需要检查：task-001 done → task-002 的 depends_on 全部 done → spawn task-002 的 assignee。

4.4 用户主动通知

最简方案：Daemon tick 检测到关键事件（任务 blocked、挑战 3 轮未通过、Agent 无响应），通过 OpenClaw cron 发消息给用户。

4.5 Phase 规划调整建议

当前 Phase 规划缺少前端和安全两个关键维度，建议调整为：

Phase 1：黑板 + Daemon + CLI（当前设计 ✅）
Phase 2：IR-2/IR-4 落地 + 评审结构化 + 依赖推进 + 前端 API
Phase 3：前端 Dashboard（复用 v1 或新建）+ 用户通知
Phase 4：AI 增强（Daemon AI 决策、智能拆解、经验沉淀）

5. 总结

维度	评分	说明
需求覆盖率	55%	F1/F5/F11/F12/IR-3 覆盖良好；F4/F7/F8/F9/F10/IR-2/IR-4 未覆盖
AI Native 程度	6/10	黑板模式 + Agent 自主决策方向正确；但编排层无 AI、无纪律约束、无经验闭环
可落地性	7/10	技术方案扎实（已验证可行），Phase 1 开发量合理（~11h）
主要风险	—	两项铁律（IR-2、IR-4）未落地；前端与 v2.6 集成方案未定

核心结论：v2.6 架构方向完全正确，从 DAG 状态机到黑板模式是质的飞跃。但当前设计更像是"黑板基础设施的技术方案"，还不是"moziplus v2.0 的完整设计"。两块铁律（IR-2 Plan-Execute-Validate、IR-4 安全红线）和前端集成是最紧迫的待讨论项。

10 KiB Raw Permalink Blame History Unescape Escape