OpenClacky vs Generic Agent ——
同一份 PPT 任务,两种调度风格下的真实数据。
同一个 guizang-ppt-skill、同一个 claude-4.7-opus、同一份 prompt,唯一变量是 agent 框架本身。两边都成功交付了 11 页 PPT,本页把过程数据一次性铺开,不下结论谁好谁坏,由你看完后自己判断。
Generic Agent 的设计目标就是 「从 3.3K 行种子自演化出技能树,以 6× 更少的 token 消耗实现全系统控制」(README 原文)。它的轻量上下文不是 bug,是核心设计意图。本页用同一份 PPT 任务,把这套设计哲学放在和 OpenClacky 同一坐标系下做实测对比。
- OpenClacky 缓存命中超高(90.7%)。 14 个请求里,13 个都命中前一轮的 prompt cache,调度器把上下文累积起来重复使用,是省钱的主因。
- Generic Agent 单轮 token 更少(−45%)。 平均每次 prompt 只有 30.8k,比 OpenClacky 的 55.6k 轻 0.55×,单轮生成也更快——它的「轻量上下文」设计目标在数据上确实做到了。
- 代价:中途 3 次缓存被打断(#10 / #15 / #20)。 这三次命中率直接掉到 0%,让 22 轮总成本反而高过 14 轮——「单轮轻」和「跨轮高命中」在 prompt-caching 计费模型下是相互拉扯的两个目标。
实验设定
唯一变量是 agent 框架本身。
查看完整 Prompt 摘要
任务:使用 guizang-ppt-skill 制作《2026 年 AI Agent 行业发展趋势:企业智能化转型的战略新范式》PPT。 受众:企业负责人 / 中高层决策者(关注 ROI、降本增效、组织变革)。 时长:20 分钟。篇幅:≤10 页。风格:高端、简洁、商务、科技感。 内容大纲:封面 / 核心论点(Copilot→Agent)/ 市场驱动 / 多智能体协同 / 行业落地 ROI / 架构演进 / 治理红利 / 风险挑战 / 4 季度路线图 / 结语。查看原始 prompt.md →
执行过程录像
Process · Evidence建议带着这两个观察点看:(1)agent 在每一轮做什么粒度的决策;(2)有没有反复读同一文件的瞬间。
录像由 2026-05-09 实测产生,可与 OpenRouter CSV 中的时间戳逐条对齐。
全部关键指标
全部数据来自 OpenRouter activity CSV 逐请求核算 + session 元数据。无估算、无平均值粉饰。
| 指标 | OpenClacky | Generic Agent | 说明 |
|---|---|---|---|
| 请求数 | 14 | 22 | 调用底层模型的总次数 |
| Agent 迭代轮次 | 11 | 22 | openclacky 来自 session.stats;generic 即请求数 |
| 任务总耗时 | 168s | 220s | 从首请求到末请求的真实时间 |
| 总花费 | $1.18 | $1.82 | OpenRouter 账单(含 cache 折扣) |
| Prompt tokens 总量 | 778,403 | 677,409 | 送入模型的所有 input token |
| Cached tokens 总量 | 705,787 | 498,294 | 命中 prompt cache 的 token |
| 整体缓存命中率 | 90.7% | 73.6% | Σcached / Σprompt |
| 缓存中断次数 | 1 | 5 | 命中率 < 50% 的请求数(不含正常冷启动) |
| 每轮平均 prompt | 55,600 | 30,791 | 单次请求送入的 token 体量 |
| 每轮平均输出 | 1,054 | 828 | 单次响应的输出 token 体量 |
| 每轮平均生成耗时 | 10.6s | 8.0s | OpenRouter generation_time_ms |
| 每轮平均首 token 时延 | 1560ms | 1111ms | OpenRouter time_to_first_token_ms |
| 输出截断次数 | 0 | 0 | finish_reason = length 的请求数 |
| 错误次数 | 0 | 0 | finish_reason = error / content_filter |
绿色表示在该指标上数值更优,灰色表示无明确「更优」方向(如 token 体量本身不带好坏)。
逐请求时间线 · 「缓存中断」如何发生
横条长度 = 该轮 prompt token 体量,颜色 = 该轮缓存命中率。一旦颜色变红,意味着 agent 的上下文被重置,前几十 k token 的缓存收益归零。
技术特点(双方各自的取舍)
两套框架各自做了不同的设计取舍,本节用本次数据可证的事实来对照——不下"哪个更好"的结论。
上下文管理
两边对「上下文累积 vs 主动收敛」的态度是镜像的,结果是两端不同的成本曲线。
工具粒度
OpenClacky 提供较多内聚的专用工具;Generic Agent 几乎只靠 file_read / code_run / file_patch 三件套。
file_read×11、code_run×8、file_patch×4。11 次 file_read 反映出反复确认中间文件——通用工具在「多次读同一文件」时没有捷径。单轮负担
「单轮轻、多轮多」 vs 「单轮重、多轮少」是这次最直观的差异。
稳定性
两边在本任务都没有触发任何崩溃路径,质量层面无差异。
finish_reason=stop。finish_reason=stop。小结
同一份 skill、同一个 claude-4.7-opus、同一份 prompt,两边都交付了 11 页结构同源的 PPT,质量层面的可见差异极小。
差异主要在过程:OpenClacky 用累积上下文 + 专用工具,14 个请求拿下任务、缓存命中率 90.7%、$1.18 完成;Generic Agent 用轻量上下文 + 通用工具,单轮 prompt 体量更小、单轮更快,最终用 22 个请求、$1.82 完成。
需要尊重的是:Generic Agent 的「轻量上下文」是它明确的设计目标(其 README slogan 即"6× less token consumption")。本任务中它单轮平均 prompt 是 OpenClacky 的 0.55×(30.8k vs 55.6k),这一点上它确实做到了——只是在与 prompt cache 配合时,"轻量"和"高命中率"是相互冲突的两个目标。
这是一组诚实的「设计取舍」对照:没有谁压倒谁,只有谁更适合什么场景——长任务、需要回到早期上下文的场景,OpenClacky 的累积式调度成本更低;短任务、希望单轮响应紧凑的场景,Generic Agent 的轻量式调度更省单次延迟。
所有原始数据(OpenRouter CSV、session JSON、录屏)都已附在本页,欢迎自己核对,也欢迎 访问 Generic Agent 的 GitHub 看作者本人的设计阐述。