日报

Harness Engineering Guide 每日更新记录。

新增 4 篇:分类器权限、Eval Awareness、Agent Teams、Initializer 模式(累计 25 篇)

2026-04-19 — 新增 4 篇 · 累计 25 篇

实战(来自 Anthropic Engineering,新增 4,累计 14)

  • 基于分类器的权限审批 — 用模型分类器替代 approval fatigue。双层防御(输入层 prompt-injection probe + 输出层 transcript classifier)、4 种威胁模型、reasoning-blind 设计、三 Tier 决策流程。
  • Eval Awareness — Claude Opus 4.6 自己意识到在 BrowseComp 评估中,找到 GitHub repo,解密答案。新型 contamination、Multi-Agent 3.7x 放大、URL slug 间接污染、16 次失败尝试的防御分析。
  • Agent Teams — 16 个并行 Claude 造出 100K 行 Rust C 编译器,能编译 Linux 6.9。Ralph-loop 架构、Git 锁文件协调、GCC-as-oracle 二分定位、角色专业化。
  • Initializer + Coding Agent 两阶段模式 — 长时运行 Agent 的 Harness 模式。为什么 compaction 不够、feature_list.json schema、5 步启动仪式、Puppeteer MCP end-to-end 测试。

管线

  • harness-guide-pipeline skill 首次生产运行,发现 Anthropic Engineering 上 4 篇网站未覆盖的高价值文章。
  • 4 篇全部用原创笔法重写,当天完成中英双语。
  • 确认 anthropic.com/engineering 作为 Tier 0 信息源产出最高。

新增 6 篇文章 + abuse-hunter Skill + 新 Banner,累计 21 篇

2026-04-16 — 新增 6 篇 · 累计 21 篇

实战(新增 2,累计 7)

  • 多 Agent 编排 — 编排模式(流水线、扇出、监督者、对等通信),Context 隔离,Multica/Paseo/OpenClaw 实战案例。
  • 定时任务与自动化 — Cron、Heartbeat、事件触发、一次性定时器。Session 目标、交付模式、LangSmith vs Harness 原生对比。

分享(新增 1,累计 2)

Skill

  • 新增 abuse-hunter Skill — SaaS 批量注册盗刷排查工具包。

实战(来自 Anthropic Engineering,新增 3,累计 10)

  • 长时运行 Harness 设计 — Context 焦虑、自评估偏差、Context Reset vs Compaction、GAN 启发的生成器-评估器、三 Agent 架构。
  • Managed Agents 架构 — Brain/Hands/Session 三层解耦、Pets vs Cattle、Session 持久化、凭证隔离、TTFT 降幅 60-90%。
  • 评测基础设施噪声 — 资源配置导致 Benchmark 得分波动 6 个百分点。Floor+Ceiling 执行策略、1x→3x→uncapped 分析。

站点

  • 用像素级 SVG 渲染替换了 AI 生成的 Banner。
  • 新增 anthropic.com/engineering 为管线 Tier 0 信息源。
  • 同步 README(中英双语)至全部 21 篇文章 × 5 个板块。

Guide V3 上线 — 新增 15 篇,累计 15 篇

2026-04-15 — 新增 15 篇 · 累计 15 篇

入门(新增 3,累计 3)

核心概念(新增 4,累计 4)

实战(新增 5,累计 5)

参考(新增 2,累计 2)

分享(新增 1,累计 1)