11 KiB
v2.7.2 调度管道重构设计
版本: v1.0
日期: 2026-05-25
作者: 庞统
状态: 待评审
1. 问题背景
1.1 事件
2026-05-25 00:30,庞统发邮件给司马懿(Mail),触发以下链条:
Mail 创建 (assignee=simayi-challenger)
→ ticker dispatch → guardrail 拦截("删掉"关键词)→ 标 blocked
→ _advance_dependencies → blocked→pending(depends_on=[] 视为 all_deps_done=True)
→ _transition_status(pending) → assignee=NULL ← 🔴 Bug
→ 第二次 dispatch → decide(assignee=NULL) → 不走快速路径4 → mode="delegate"
→ broadcast_tasks → Broadcasting 6 idle agents
→ 6 个 Agent 全部 spawn → 6 路并发 API → zhipu rate limit → 全部假死
1.2 根因
三个独立 Bug 叠加:
Bug-A(致命):_transition_status 推回 pending 时 SET assignee=NULL。Mail 的 assignee 是收件人,清空后路由不知道发给谁 → 走广播。
Bug-B(严重):_advance_dependencies 对 depends_on=[] 的 blocked 任务返回 all_deps_done=True,立刻推进回 pending。guardrail 刚拦下就被放行。
Bug-C(触发器):guardrail 对 Mail 任务检查(应跳过),邮件内容含"删掉"触发 data_deletion 规则。
1.3 结构性问题
当前代码有 41 处 if is_mail / if project_id == "_mail" 的差异化分支,散落在:
| 文件 | if/_mail 分支数 | 说明 |
|---|---|---|
| dispatcher.py | 22 | 路由、spawn message、on_complete、状态流转 |
| ticker.py | 11 | tick 入口、dispatch、guardrail、超时、幻觉门控 |
| spawner.py | 8 | prompt 模板、完成状态 |
问题本质:Mail 和 Task 是两种语义完全不同的任务类型,但共享同一个调度链,靠 if/else 做差异化。每次改 Mail 的逻辑,都可能影响 Task,反之亦然。
2. 业界调研
2.1 Celery / RabbitMQ:独立队列路由
不同任务类型路由到不同的 Queue,Worker 按类型订阅。
task_routes = {
'tasks.email.*': {'queue': 'email_queue'},
'tasks.analytics.*': {'queue': 'analytics_queue'},
}
核心思路:隔离在最底层——不同的队列,不同的 worker。
2.2 Temporal:统一调度 + 类型化队列 + 共享执行
Temporal 有 Workflow Task 和 Activity Task,走同一个 Matching Service(调度器),但通过不同的 Task Queue 路由到不同的 Worker。执行框架统一(poll → execute → report result)。
核心思路:调度器统一,队列按类型分,执行机制共享。
2.3 Hermes Kanban:一切皆 Task,差异通过 Profile 表达
Hermes 只有一种 Dispatcher,所有任务走同一个 todo → ready → claimed → running → done 生命周期。差异通过 Profile(Agent 能力配置)表达,不在调度链里做 if/else。
核心思路:统一生命周期,差异下推到 Agent 配置层。
2.4 Airflow:DAG 定义 vs Executor 执行 彻底分离
DAG 只定义"做什么、依赖什么"(声明式),不关心"怎么执行"。Executor 负责"怎么执行"(本地/远程/GPU)。通过接口连接,不通过 if/else。
核心思路:任务定义和任务执行是两个独立关注点。
2.5 业界共识
调度(谁来干、怎么路由)和执行(怎么 spawn、怎么监控)是两个独立的关注点。调度按任务类型差异化,执行是通用共享的。
3. Mail vs Task 差异分析
3.1 差异点
| 维度 | Task | |
|---|---|---|
| 路由方式 | Router 决定(LLM/广播/能力匹配) | 直接点对点(assignee=收件人) |
| guardrail | 需要检查 | 不需要(Agent 间通信) |
| 依赖推进 | blocked→pending 需要 depends_on | 不需要 |
| assignee 语义 | 执行者(可清空) | 收件人(永不清空) |
| 状态流转 | 完整(pending→claimed→working→review→done) | 简化(pending→working→done) |
| 完成状态 | review | done |
| prompt 模板 | 标准 SPAWN_PROMPT | 精简 MAIL_TEMPLATE |
3.2 共享点
| 维度 | 说明 |
|---|---|
| spawn 机制 | spawn_full_agent() 完全共享 |
| monitor 机制 | _monitor_process() 完全共享 |
| exit 分类 | _classify_outcome() 完全共享 |
| 信封/载荷分离 | 系统管状态,Agent 管业务(未来 Task 也应做) |
| 幻觉门控 | 验证产出是否存在(未来 Task 也应做) |
| 超时检测框架 | 超时扫描逻辑通用,只是超时后处理不同 |
| DB | 共享 SQLite |
3.3 关键洞察
信封/载荷分离、幻觉门控、系统管状态——这些不是 Mail 的专属特性,而是所有任务类型的演进方向。当前只是 Mail 先做了(因为 Mail 最简单),未来 Task 也应该做。
因此,这些能力应该放在共享层,不应绑定到 Mail 管道。
4. 设计方案
方案 A:最小止血(L1,~7 行改动)
只修三个 Bug,不改架构。
改动 1:_transition_status 对 _mail project 不清空 assignee
# ticker.py _transition_status
if new_status == "pending":
# Mail 的 assignee 是收件人,不能清空
if self._current_project_id == "_mail":
conn.execute("UPDATE tasks SET status=?, updated_at=? WHERE id=?", ...)
else:
conn.execute("UPDATE tasks SET status=?, assignee=NULL, resumed_from=NULL, updated_at=? WHERE id=?", ...)
改动 2:_advance_dependencies 对 depends_on=[] 不推进
# ticker.py _advance_dependencies
for item in blocked:
if not item["depends_on"]: # 无依赖的 blocked 不自动推进
continue
if item["all_deps_done"]:
...
改动 3:dispatcher.dispatch 对 _mail project 跳过 guardrail
# dispatcher.py dispatch
is_mail = project_config.get("project_id") == "_mail" if project_config else False
if self.guardrails and not is_mail:
violations = self.guardrails.check_task(task)
...
| 优点 | 缺点 |
|---|---|
| 改动最小(~7 行) | 新增 3 个 if is_mail 分支(41→44) |
| 不影响现有 Task 逻辑 | 治标不治本,未来新类型继续加 if |
| 立刻止血 | 不解决结构性问题 |
风险:改 _transition_status 可能影响 Task 的 blocked→pending 流转(需确认 Task 不会走到这个分支)。
方案 B:Pipeline 分离(L3,~200 行改动)
引入 Pipeline 概念,每种任务类型有自己的调度管道。
# ── Pipeline 接口 ──
class TaskPipeline(ABC):
@abstractmethod
async def tick(self, db_path: Path) -> Dict: ...
@abstractmethod
def check_timeouts(self, db_path: Path) -> List[str]: ...
# ── Mail 管道 ──
class MailPipeline(TaskPipeline):
async def tick(self, db_path):
# 1. 超时检测
self.check_timeouts(db_path)
# 2. 读 pending → 直接用 assignee → spawn
for task in pending(db_path):
self._mark_working(task, db_path) # 不走 _transition_status
on_complete = lambda: self._on_complete(task, db_path)
self.spawner.spawn(agent_id=task.assignee, on_complete=on_complete)
return result
# ── Task 管道 ──
class StandardTaskPipeline(TaskPipeline):
async def tick(self, db_path):
# 1. 依赖推进
self.advance_dependencies(db_path)
# 2. 超时检测
self.check_timeouts(db_path)
# 3. 路由 + guardrail + dispatch
for task in pending(db_path):
decision = self.router.decide(task)
if self.guardrails.check(task):
self.dispatch(task, decision)
return result
# ── ticker 只做分发 ──
class Ticker:
def __init__(self):
self.pipelines = {
"_mail": MailPipeline(spawner, counter),
# 其他 project 走默认
}
async def _tick_project(self, project_id, ...):
pipeline = self.pipelines.get(project_id, self.default_pipeline)
return await pipeline.tick(db_path)
| 优点 | 缺点 |
|---|---|
| Mail 和 Task 完全隔离 | 改动范围较大(~200 行) |
| 新类型只需加 Pipeline | 需要从 ticker/dispatcher 里抽取方法 |
| 共享层(spawner/DB)不动 | 需要充分测试确保不引入回归 |
| 未来可扩展(CronJob 等) | |
| 去掉 41 个 if/else |
方案 C:A 先止血 + B 后重构
第一步(立刻):方案 A 止血,修三个 Bug。 第二步(v2.7.2):方案 B Pipeline 重构。
| 优点 | 缺点 |
|---|---|
| 先止血再治本 | 两次改动,方案 A 的代码在方案 B 后可能被删 |
| 风险最低 |
5. 交叉点处理(方案 B 适用)
5.1 完全共享(不需要差异化)
| 组件 | 位置 | 说明 |
|---|---|---|
spawn_full_agent() |
spawner.py | spawn 进程机制完全一样 |
_monitor_process() |
spawner.py | 监控逻辑完全一样 |
_classify_outcome() |
spawner.py | exit 分类完全一样 |
_handle_exit() |
spawner.py | 结果处理框架一样 |
_do_retry() |
spawner.py | 续杯机制完全一样 |
| DB (SQLite) | blackboard/ | 共享存储 |
| counter (ActiveAgentCounter) | counter.py | 共享并发控制 |
5.2 共享框架 + 各 Pipeline 注册回调
| 组件 | 共享部分 | 差异部分 |
|---|---|---|
| 超时检测 | 扫描 working 任务、计算 elapsed | Task→failed, Mail→先查回复再决定 |
| on_complete | 框架(spawner 调 callback) | Task→release counter, Mail→幻觉门控+自动标 done |
| 信封/载荷分离 | 系统管状态的机制 | 未来 Task 也应启用 |
5.3 完全独立(各 Pipeline 自己管)
| 组件 | Task Pipeline | Mail Pipeline |
|---|---|---|
| 路由 | Router (decide) | 直接 assignee |
| guardrail | 检查 | 跳过 |
| 依赖推进 | _advance_dependencies | 不需要 |
| 状态流转 | _transition_status | 自己的 _mark_working / _mark_done |
| prompt 模板 | 标准 SPAWN_PROMPT | MAIL_TEMPLATE |
6. spawner retry 问题(附带修复)
6.1 之前的调查结论
spawner retry 绕过 counter(BUG-2a WORKAROUND),导致同一 Agent 并发 spawn,打爆 API rate limit。
6.2 修复方案(已评审通过)
| 改动 | 文件 | 说明 |
|---|---|---|
| 撤回 retry_release WORKAROUND | spawner.py | on_complete 传入 _do_retry,counter 贯穿 retry 链 |
| _do_retry 直接 spawn | spawner.py | 不检查 counter(retry 是 counter 占用链的延续) |
| dispatcher dispatch 加 is_available 检查 | dispatcher.py | 首次 dispatch 检查 counter |
| ticker catch AgentBusyError | ticker.py | Agent 忙时跳过 |
6.3 与 Pipeline 重构的关系
retry 修复属于 spawner 执行层,不受 Pipeline 重构影响(执行层是共享的)。可以独立推进。
7. 请评审
- 紧急程度:Bug-A(assignee 清空)是否需要立刻止血?还是直接做 Pipeline 重构?
- 方案选择:A(止血)/ B(Pipeline)/ C(先 A 后 B)?
- Pipeline 设计:接口是否合理?交叉点处理是否完整?
- spawner retry 修复:是否独立推进?
- 遗漏风险:有没有我没考虑到的场景?