auto-sync: 2026-05-22 12:56:11
This commit is contained in:
@@ -0,0 +1,433 @@
|
||||
# Spawner Monitor 设计文档
|
||||
|
||||
> 版本:v1.0 | 日期:2026-05-22 | 作者:庞统 | 状态:评审中
|
||||
|
||||
## 1. 背景与问题
|
||||
|
||||
当前 `_monitor_process` 只看进程退出码,不读 stdout/stderr,不检查 session 状态,无法区分超时原因。且超时后直接 `proc.kill()`,可能丢失 Agent 执行进度。
|
||||
|
||||
`openclaw agent` 命令的实际行为:
|
||||
- Gateway 有内置 timeout(默认 600s),到时间后 Gateway 会中断 Agent,进程自行退出
|
||||
- 中断后上下文保留在 session 里,用同一 session-id 再次调用可继续("续杯"机制)
|
||||
- 执行过程中可能触发 auto-compaction(上下文压缩),compact 完成后自动 retrying prompt
|
||||
- compact 期间进程不退出,只是执行时间变长
|
||||
- 极端情况下进程可能卡住不退出(LLM 卡死、Gateway 异常等)
|
||||
|
||||
## 2. 核心设计原则
|
||||
|
||||
1. **不主动 kill 进程**:进程可能还在正常执行,kill 会丢失所有进度
|
||||
2. **保持 session 不变**:重试时复用同一个 session-id,Agent 能看到之前的上下文
|
||||
3. **monitor timeout > Gateway timeout**:给 Gateway 足够时间自行处理
|
||||
4. **续杯机制**:进程退出但任务未完成 → 用同一 session 再 spawn 一次
|
||||
5. **escalate 不自动 kill**:超过重试上限后标记 failed + escalate,是否 kill 留给用户决定
|
||||
|
||||
## 3. 参数配置
|
||||
|
||||
```yaml
|
||||
daemon:
|
||||
gateway_timeout: 600 # 传给 openclaw agent --timeout 的值
|
||||
agent_timeout: 630 # _monitor_process 的等待时间(比 gateway_timeout 长 30s)
|
||||
max_retries: 3 # 续杯上限(情况 A)
|
||||
max_monitor_timeouts: 3 # monitor timeout 上限(情况 B)
|
||||
```
|
||||
|
||||
## 4. 情况 A:进程在 monitor_timeout 内退出
|
||||
|
||||
```
|
||||
0s 600s 630s
|
||||
├──────────────────────┤──────────────────┤
|
||||
│ Agent 执行中 │ Gateway timeout │ monitor timeout
|
||||
│ │ 进程退出 │ (情况 B 才到这里)
|
||||
```
|
||||
|
||||
进程退出后,读 stdout JSON + stderr + 查任务实际 API 状态。
|
||||
|
||||
### A1:exit=0 + transport=gateway + 任务已是 done/review
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- meta.transport = "gateway"
|
||||
- meta.fallbackReason = null
|
||||
- 任务 API 状态 = done 或 review
|
||||
|
||||
原因:Agent 正常完成
|
||||
|
||||
处理:
|
||||
- 记录 outcome = "completed"
|
||||
- counter.release()
|
||||
- 无需其他操作
|
||||
```
|
||||
|
||||
### A2:exit=0 + transport=gateway + 任务仍是 working
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- meta.transport = "gateway"
|
||||
- 任务 API 状态 = working
|
||||
|
||||
原因:Gateway timeout 触发,Agent 被中断但之前已写了 working。
|
||||
Agent 可能执行了步骤1-2(working + 执行),但没完成步骤3-4(outputs + review)
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1
|
||||
- 超过上限(3) → ❌ failed + escalate
|
||||
- 未超限 → 🔄 counter.release() → 用同一 session_id spawn(续杯)
|
||||
- 续杯 message:提示 Agent 检查历史继续未完成工作
|
||||
```
|
||||
|
||||
### A3:exit=0 + transport=gateway + 任务仍是 claimed
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- meta.transport = "gateway"
|
||||
- 任务 API 状态 = claimed
|
||||
|
||||
原因:Gateway timeout 触发,Agent 连步骤1(写 working)都没来得及
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1
|
||||
- 超过上限(3) → ❌ failed + escalate
|
||||
- 未超限 → 🔄 counter.release() → 用同一 session_id spawn(续杯)
|
||||
- 续杯 message:完整任务 prompt(和首次一样)
|
||||
```
|
||||
|
||||
### A4:exit=0 + transport=gateway + 任务已是 failed
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- 任务 API 状态 = failed
|
||||
|
||||
原因:Agent 自己判断无法完成,主动写了 failed
|
||||
|
||||
处理:
|
||||
- 记录 outcome = "agent_failed"
|
||||
- counter.release()
|
||||
- 尊重 Agent 的判断,不续杯
|
||||
- 如果 Agent 写了 detail,记录到事件
|
||||
```
|
||||
|
||||
### A5:exit=0 + transport=embedded + fallbackReason=gateway_timeout
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- meta.transport = "embedded"
|
||||
- meta.fallbackReason = "gateway_timeout"
|
||||
|
||||
原因:Gateway 端超时,CLI 自动 fallback 到本地 embedded 执行。
|
||||
fallback 用的是新 session(gateway-fallback-* 前缀),不在原 session 里。
|
||||
Agent 可能在 fallback 里完成了部分工作。
|
||||
|
||||
处理:
|
||||
- 查任务实际 API 状态
|
||||
- 如果已是 done/review → 同 A1
|
||||
- 如果仍是 working/claimed → 同 A2/A3(续杯,用原 session_id,不用 fallback session)
|
||||
- 记录 outcome = "fallback_timeout",附带 warning
|
||||
```
|
||||
|
||||
### A6:exit=0 + transport=embedded + fallbackReason ≠ gateway_timeout
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code = 0
|
||||
- meta.transport = "embedded"
|
||||
- meta.fallbackReason ≠ "gateway_timeout"(可能是连接断开、Gateway 异常等)
|
||||
|
||||
原因:Gateway 不可用,CLI 本地 fallback
|
||||
|
||||
处理:
|
||||
- 同 A5:查任务状态,决定是否续杯
|
||||
- 记录 outcome = "fallback_other"
|
||||
```
|
||||
|
||||
### A7:exit≠0 + stderr 含 401/403/auth/unauthorized
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 含认证失败关键字
|
||||
|
||||
原因:Gateway token 过期、配置错误
|
||||
|
||||
处理:
|
||||
- ❌ failed + escalate
|
||||
- 不续杯(重试也会失败)
|
||||
- 记录 outcome = "auth_failed"
|
||||
```
|
||||
|
||||
### A8:exit≠0 + stderr 含 ECONNREFUSED/ETIMEDOUT/gateway closed
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 含连接错误关键字
|
||||
|
||||
原因:Gateway 进程挂了、网络断
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1(不计入 max_retries,用单独的 connect_retry_count)
|
||||
- connect_retry_count ≥ 3 → ❌ failed + escalate
|
||||
- 未超限 → 🔄 等待 30s(一个 tick)后重试
|
||||
- 记录 outcome = "gateway_unreachable"
|
||||
```
|
||||
|
||||
### A9:exit≠0 + stderr 含 rate_limit/500/503/API error
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 含模型 API 错误关键字
|
||||
|
||||
原因:模型提供商限流、服务异常
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1(不计入 max_retries,用单独的 api_retry_count)
|
||||
- api_retry_count ≥ 3 → ❌ failed + escalate
|
||||
- 未超限 → 🔄 等待 60s 后重试(给 API 恢复时间)
|
||||
- 记录 outcome = "api_error"
|
||||
```
|
||||
|
||||
### A10:exit≠0 + stderr 含 compaction-diag/context-overflow/timeout-compaction
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 含 compact 相关关键字
|
||||
|
||||
原因:compact 后模型返回错误(丢失上下文导致无法继续)
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1(计入 max_retries)
|
||||
- 超过上限(3) → ❌ failed + escalate
|
||||
- 未超限 → 🔄 用同一 session_id spawn(续杯)
|
||||
- 记录 outcome = "compact_failed"
|
||||
```
|
||||
|
||||
### A11:exit≠0 + stderr 含 lock/busy/concurrent/lane task error
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 含 lock 冲突关键字
|
||||
|
||||
原因:session lock 冲突(webchat/cron/其他 spawner 占用)
|
||||
v2 用 --session-id uuid4 已基本避免,但保留兜底
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1(不计入 max_retries)
|
||||
- 等待 30s 后重试
|
||||
- 记录 outcome = "lock_conflict"
|
||||
```
|
||||
|
||||
### A12:exit≠0 + stderr 无特殊关键字
|
||||
|
||||
```
|
||||
现象:
|
||||
- exit_code ≠ 0
|
||||
- stderr 无认证/连接/API/compact/lock 关键字
|
||||
|
||||
原因:Agent 自身逻辑错误、工具执行失败、或其他未知错误
|
||||
|
||||
处理:
|
||||
- 续杯次数 +1(计入 max_retries)
|
||||
- 超过上限(3) → ❌ failed + escalate
|
||||
- 未超限 → 🔄 用同一 session_id spawn(续杯)
|
||||
- 记录 outcome = "agent_error"
|
||||
```
|
||||
|
||||
## 5. 情况 B:monitor_timeout 到了进程还没退出
|
||||
|
||||
```
|
||||
0s 600s 630s
|
||||
├──────────────────────┤──────────────────┤
|
||||
│ Agent 执行中 │ Gateway timeout │ monitor timeout 触发
|
||||
│ │ (可能没触发) │ 进程还没退出
|
||||
```
|
||||
|
||||
### B1:lock PID 已死 + sessions.json status=running
|
||||
|
||||
```
|
||||
现象:
|
||||
- monitor_timeout 触发,进程没退出
|
||||
- lock 文件中的 PID 已不存在(os.kill(pid, 0) 抛 ProcessLookupError)
|
||||
- sessions.json 中 status = "running"
|
||||
|
||||
原因:Gateway 异常退出/崩溃,没有清理 lock 和 session 状态
|
||||
子进程可能已经变成孤儿进程
|
||||
|
||||
处理:
|
||||
- ❌ failed + escalate
|
||||
- 不 kill(让用户决定)
|
||||
- 记录 outcome = "session_stuck"
|
||||
- escalate 消息中包含:PID、session key、诊断信息
|
||||
```
|
||||
|
||||
### B2:lock PID 存活 + sessions.json status=running + stderr 有 compact 关键字
|
||||
|
||||
```
|
||||
现象:
|
||||
- monitor_timeout 触发,进程没退出
|
||||
- lock PID 仍然存活
|
||||
- sessions.json status = "running"
|
||||
- 已读的 stderr 含 "compaction" / "context-overflow"
|
||||
|
||||
原因:compact 正在进行中或 compact 后 retrying prompt 仍在执行
|
||||
compact 本身可能耗时很长(最长记录 15 分钟)
|
||||
|
||||
处理:
|
||||
- monitor_timeout_count +1
|
||||
- 未超限(< 3) → counter.release() → 再启动一轮 _monitor_process 继续等
|
||||
- 超限(≥ 3,累计 31.5 分钟) → ❌ failed + escalate,不 kill
|
||||
- 记录 outcome = "compact_hanging"
|
||||
```
|
||||
|
||||
### B3:lock PID 存活 + sessions.json status=running + 无 compact 关键字
|
||||
|
||||
```
|
||||
现象:
|
||||
- monitor_timeout 触发,进程没退出
|
||||
- lock PID 存活
|
||||
- sessions.json status = "running"
|
||||
- 无 compact 相关关键字
|
||||
|
||||
原因(两种可能):
|
||||
a) LLM 推理极慢/卡死(无输出)
|
||||
b) 长任务正在执行(Agent 有在输出,但整体时间超过预期)
|
||||
|
||||
处理:
|
||||
- monitor_timeout_count +1
|
||||
- 未超限(< 3) → counter.release() → 再启动一轮 _monitor_process 继续等
|
||||
- 超限(≥ 3) → ❌ failed + escalate,不 kill
|
||||
- 记录 outcome = "process_hanging"
|
||||
|
||||
区别 a 和 b:
|
||||
- 无法在 monitor 层面精确区分
|
||||
- escalate 消息中列出两种可能,让用户判断
|
||||
```
|
||||
|
||||
### B4:lock PID 存活 + sessions.json status≠running(如 idle)
|
||||
|
||||
```
|
||||
现象:
|
||||
- monitor_timeout 触发,进程没退出
|
||||
- lock PID 存活
|
||||
- sessions.json status = "idle" 或其他非 running 状态
|
||||
|
||||
原因:session 状态已被其他操作改变(如 /reset、daily reset),
|
||||
但子进程还在运行(可能是 Gateway 正在清理或延迟退出)
|
||||
|
||||
处理:
|
||||
- 再等 60s(给 Gateway 清理时间)
|
||||
- 如果进程仍未退出 → 按 B3 处理
|
||||
- 记录 outcome = "session_state_mismatch"
|
||||
```
|
||||
|
||||
## 6. 续杯机制
|
||||
|
||||
### 续杯触发条件
|
||||
|
||||
进程退出 + 任务 API 状态不是终态(done/failed/cancelled)。
|
||||
|
||||
### 续杯 message
|
||||
|
||||
```python
|
||||
RETRY_PROMPT = """你收到一个续杯提醒。你的任务在执行过程中被中断了。
|
||||
|
||||
## 任务信息
|
||||
- 项目: {project_id}
|
||||
- 任务ID: {task_id}
|
||||
- 标题: {title}
|
||||
- 续杯次数: 第 {retry_count} 次(上限 {max_retries} 次)
|
||||
|
||||
请检查 session 历史中你之前做了什么,然后继续未完成的工作。
|
||||
|
||||
如果已经完成,请调 API 标记完成。
|
||||
如果遇到无法解决的问题,标记失败并说明原因。"""
|
||||
```
|
||||
|
||||
### 续杯 spawn
|
||||
|
||||
```python
|
||||
# 续杯时复用 session_id
|
||||
session_id = task.detail.get("retry_session_id") or original_session_id
|
||||
|
||||
await self.spawner.spawn_full_agent(
|
||||
agent_id=agent_id,
|
||||
message=RETRY_PROMPT.format(...),
|
||||
session_id=session_id, # 复用!
|
||||
task_id=task.id,
|
||||
on_complete=on_complete,
|
||||
)
|
||||
```
|
||||
|
||||
## 7. 计数器设计
|
||||
|
||||
| 计数器 | 用途 | 上限 | 超限处理 |
|
||||
|--------|------|------|---------|
|
||||
| `retry_count` | 续杯次数(A2/A3/A10/A12) | 3 | failed + escalate |
|
||||
| `connect_retry_count` | 连接失败次数(A8) | 3 | failed + escalate |
|
||||
| `api_retry_count` | API 错误次数(A9) | 3 | failed + escalate |
|
||||
| `lock_retry_count` | Lock 冲突次数(A11) | 3 | 等待后重试 |
|
||||
| `monitor_timeout_count` | monitor timeout 次数(B2/B3) | 3 | failed + escalate |
|
||||
|
||||
存储在 `task_attempts.metadata` JSON 中。
|
||||
|
||||
## 8. escalate 消息格式
|
||||
|
||||
```
|
||||
⚠️ Agent {agent_id} 任务 {task_id} 执行异常
|
||||
|
||||
类型: {outcome}
|
||||
累计时间: {elapsed}
|
||||
PID: {pid}({存活/已死})
|
||||
Session: {session_key}
|
||||
续杯次数: {retry_count}/{max_retries}
|
||||
|
||||
诊断信息:
|
||||
- sessions.json status: {status}
|
||||
- lock PID: {lock_pid}
|
||||
- 最后 stderr: {stderr_tail}
|
||||
- compaction checkpoints: {recent_checkpoints}
|
||||
|
||||
建议操作:
|
||||
1. 查看日志: pm2 logs sanguo-moziplus-v2
|
||||
2. 检查 session: openclaw sessions --agent {agent_id} --json
|
||||
3. 继续执行: 如果任务在正常执行,手动 reset 状态
|
||||
4. 终止进程: kill {pid}(强制终止,会丢失进度)
|
||||
|
||||
请决定如何处理。
|
||||
```
|
||||
|
||||
## 9. 改动范围
|
||||
|
||||
| 文件 | 改动 | 预估行数 |
|
||||
|------|------|---------|
|
||||
| `src/daemon/spawner.py` | `_monitor_process` 重写(情况 A/B 全部分支) | ~150 行 |
|
||||
| `src/daemon/spawner.py` | `spawn_full_agent` 加 `--timeout` + session_id 复用 | ~15 行 |
|
||||
| `src/daemon/spawner.py` | 新增辅助方法:`_get_task_status`、`_classify_exit`、`_read_sessions_json`、`_check_lock_pid` | ~80 行 |
|
||||
| `src/daemon/spawner.py` | 新增 `RETRY_PROMPT` 模板 | ~20 行 |
|
||||
| `src/daemon/ticker.py` | `_check_timeouts`:增加 retry_count 检查,不再直接 failed | ~15 行 |
|
||||
| `config/guardrails.yaml` | 无需改动 | — |
|
||||
| `config/default.yaml` | 新增 `gateway_timeout`、`max_retries`、`max_monitor_timeouts` | ~3 行 |
|
||||
|
||||
总计约 280 行,3 个文件。
|
||||
|
||||
## 10. 测试计划
|
||||
|
||||
| 用例 | 模拟方式 | 验证 |
|
||||
|------|---------|------|
|
||||
| A1 正常完成 | E2E 已有 | 任务 done |
|
||||
| A2 Gateway timeout + 续杯 | 手动设 gateway_timeout=60s,任务需要 90s | 续杯 1 次后完成 |
|
||||
| A3 连 working 都没写 | 模拟 Agent 第一步就超时 | 续杯后从步骤 1 开始 |
|
||||
| A4 Agent 自己 failed | Agent 输出 `status: failed` | 不续杯 |
|
||||
| A5 fallback 成功 | 模拟 Gateway timeout(很难模拟) | 查任务状态决定 |
|
||||
| A7 认证失败 | 改错 token | 不续杯,escalate |
|
||||
| A8 Gateway 不可达 | 停 Gateway | 重试 3 次后 escalate |
|
||||
| B1 假死 | kill Gateway 但保留子进程 | escalate |
|
||||
| B2 compact 卡住 | 主 session 长对话触发 compact | 等待或 escalate |
|
||||
| B3 进程不退出 | 模拟长时间无输出 | 等 3 轮后 escalate |
|
||||
| 续杯上限 | 设 max_retries=1,任务永远完不成 | 第 2 次续杯后 failed |
|
||||
Reference in New Issue
Block a user