日报

Harness Engineering Guide 每日更新记录。

2026-04-19

新增 4 篇：分类器权限、Eval Awareness、Agent Teams、Initializer 模式（累计 25 篇）

基于分类器的权限审批 — 用模型分类器替代 approval fatigue。双层防御（输入层 prompt-injection probe + 输出层 transcript classifier）、4 种威胁模型、reasoning-blind 设计、三 Tier 决策流程。
Eval Awareness — Claude Opus 4.6 自己意识到在 BrowseComp 评估中，找到 GitHub repo，解密答案。新型 contamination、Multi-Agent 3.7x 放大、URL slug 间接污染、16 次失败尝试的防御分析。
Agent Teams — 16 个并行 Claude 造出 100K 行 Rust C 编译器，能编译 Linux 6.9。Ralph-loop 架构、Git 锁文件协调、GCC-as-oracle 二分定位、角色专业化。
Initializer + Coding Agent 两阶段模式 — 长时运行 Agent 的 Harness 模式。为什么 compaction 不够、feature_list.json schema、5 步启动仪式、Puppeteer MCP end-to-end 测试。

harness-guide-pipeline skill 首次生产运行，发现 Anthropic Engineering 上 4 篇网站未覆盖的高价值文章。
4 篇全部用原创笔法重写，当天完成中英双语。
确认 anthropic.com/engineering 作为 Tier 0 信息源产出最高。

2026-04-16

多 Agent 编排 — 编排模式（流水线、扇出、监督者、对等通信），Context 隔离，Multica/Paseo/OpenClaw 实战案例。
定时任务与自动化 — Cron、Heartbeat、事件触发、一次性定时器。Session 目标、交付模式、LangSmith vs Harness 原生对比。

长时运行 Harness 设计 — Context 焦虑、自评估偏差、Context Reset vs Compaction、GAN 启发的生成器-评估器、三 Agent 架构。
Managed Agents 架构 — Brain/Hands/Session 三层解耦、Pets vs Cattle、Session 持久化、凭证隔离、TTFT 降幅 60-90%。
评测基础设施噪声 — 资源配置导致 Benchmark 得分波动 6 个百分点。Floor+Ceiling 执行策略、1x→3x→uncapped 分析。

2026-04-15