轨迹 Viewer
从左侧选择一条轨迹,或者通过 URL 参数 ?case=<id> 直接打开。
SWE case 展示 stage / turn / tree;Terminal-Bench case 额外展示 score、local rule tags、raw events 和 source meta。
Terminal Outcome iTerminal-Bench 的 pass/fail 来自本地结构化 score 字段;rule tags 是启发式辅助标签,不是人工真因标注。
Stage 时间轴 i把每个 turn 落到 8 个 Stage 之一(探索/复现/定位/假设/打补丁/验证/收尾),把整条轨迹切成一条可视化的 timeline。每段宽度 = 该段覆盖的 turn 数。
逐 turn 行为 i每行 = 一个 assistant turn。action 列展示 S2 行为分类(READ_ONLY / EDITOR_WRITE / TEST_RUN ...),N-gram / Error 列展示 S2.5 / S5 在该 turn 的命中信号。Thought 是 assistant 的明文回复,Reasoning 是 extended thinking。
| # | action / tool | N-gram / Error | thought · tool_call · observation |
|---|
State-Exploration Tree iS3 输出。把所有 turn 折叠成一棵树:state 节点 = 真正改了仓库 / 创建脚本的 turn;exploration / verification 节点是它们的兄弟。Tree 越深 = 真正改动的链路越长;exploration 多 = 看了很多但改得少。点击任意节点可折叠/展开它的子树。
Local Rule Tags i这些标签由本地规则生成,用于快速筛查 outcome、trace quality、runtime/env/test 等信号;需要人工或 API 的细粒度判断会标 manual_review。
Raw Events iterminal2.1-xml 等 event-only 轨迹无法稳定还原 turn 时,保留原始 span/event 时间线。
| # | type / name | span | attributes |
|---|