Durable Run 作业化迁移方案

Summary

把当前“HTTP 请求内跑 agent + SSE 仅负责附着输出”的模型，改成“后台 durable job 驱动执行，HTTP 只负责创建 run、附着流、暂停/恢复/注入消息”。

目标效果：

浏览器断开后，run 继续执行，不依赖原始请求协程存活。
任意客户端可通过 run_id 重新附着同一个执行中的 run。
服务重启后，未完成 run 可被 worker 扫描并恢复或标记失败。
当前 ProjectDraft / ProjectTurn / WorkspaceRunState / SSE buffer 继续保留，但职责更清晰。
默认选择：先做“队列作业化 durable run”，不直接引入外部 workflow 引擎。

新增一个明确的 ChatRun 持久化对象，职责是描述一次 agent 执行本身，而不是复用 SSE buffer 或 turn payload 隐式表达。

建议新增表：

新增后台 worker 模块，例如：

当前已有：

WorkspaceRunState
ProjectDraft.partial_response_json
model_messages_json
RunEventBuffer
但这些还不足以在进程死掉后真正恢复执行。新增 RunCheckpoint 持久化结构，按“工具边界”保存，而不是按 token 级别保存。
建议 checkpoint 内容：
run_id
seq
phase
message_history_json
assistant_steps_json
tool_calls_json
task_plan_json
workspace_run_state_json
pending_user_interrupt_json
active_tool_name
continuation_prompt
resume_from_checkpoint_kind
checkpoint 触发点：
每次 tool result 完成后
每次进入 waiting_for_user
每次完成 queued message 注入后
publish 前
publish 完成后
不要尝试在任意 token 中间恢复。恢复语义限定为：从最近一个“已完成 tool-return 的稳定边界”继续，这和你们现有 _can_resume_from_tool_checkpoint() 思路一致，但现在要落到持久化 checkpoint，而不是只在单次请求重试里使用。

建议把接口语义改成 run-first：

POST /projects/{project_id}/chat-runs
- 创建新 run 或 continuation run
- 返回 run_id, stream_url, status
GET /projects/{project_id}/chat-runs/{run_id}/stream
- SSE 附着到运行事件
- 内部仍可复用现有 RunEventBuffer
GET /projects/{project_id}/chat-runs/{run_id}
- 查询 run 状态、当前阶段、waiting reason、saved_files
POST /projects/{project_id}/chat-runs/{run_id}/pause
POST /projects/{project_id}/chat-runs/{run_id}/resume
- 对 paused 或 waiting_for_user run 生效
POST /projects/{project_id}/chat-runs/{run_id}/input
- 统一承载 queued user message / question answer / proposal decision
- 不再分散为 continuation 请求参数和多个分支语义
现有 /chat/resume/{chat_run_id} 可以短期兼容，内部转发到新的 run stream。

要点：

worker 抢 run 时更新 worker_id + lease_expires_at
执行期间周期性续租
如果 worker 崩溃，lease 过期后其他 worker 可接管
接管逻辑：
- 读取最新 checkpoint
- 恢复 sandbox 连接或按 draft manifest 重建
- 从 checkpoint 指定的 continuation point 继续
如果接管时发现 checkpoint 不可恢复：
- 将 run 标记 failed
- 写 terminal 事件
- 不让 run 永远挂在 running
这一步是 durable run 的核心。没有 lease，就只是“后台任务”；有 lease + checkpoint，才是“可恢复执行”。

当前 keepalive 在 chat.py 的执行循环里。迁移后改为：

apps/api/routers/chat.py 需要逐步瘦身到三类逻辑：

必须覆盖以下场景：