术语表

Harness Engineering指南中使用的核心术语，用直白语言定义。

Harness 包裹 AI 模型并将其变成可用 Agent 的代码。它管理 Tool 循环、Context、Memory 和决策流程。没有 Harness，你有的是聊天机器人；有了 Harness，你有的是 Agent。

Runtime Harness 运行的执行环境。包括操作系统、文件系统、网络访问和 Sandbox。Runtime 决定了 Agent 在物理上能做什么——Harness 决定了它选择做什么。

Framework 用于构建 Harness 的库或 SDK。Framework 提供抽象（Tool 注册表、Memory 存储、Prompt 模板），让你不用从零开始。例如：LangChain、CrewAI、AutoGen。Framework 是工具包；Harness 是成品。

Context Window 模型在单次请求中能处理的最大文本量（以 Token 计量）。前沿模型通常为 128K–200K Token。Agent 在一轮中"知道"的所有东西——指令、Memory、对话历史、文件内容——都必须装进这个窗口。

Tool Loop Agent 的核心执行循环：调用模型 → 模型请求 Tool → 执行 Tool → 把结果喂回去 → 重复。循环持续到模型产出最终文本回复且不再调用 Tool。每个 Harness 都实现了这个循环的某个变体。

Skill 一个自包含的能力包，扩展 Agent 的能力。由 SKILL.md 指令文件加任何支持代码或模板组成。Skill 是"薄 Harness、厚 Skill"模式中"厚"的部分——它们编码了领域知识，让 Harness 保持通用。

AGENTS.md 定义 Agent 在某个工作区中应如何行为的配置文件。包含指令、惯例、Tool 使用指南和工作流定义。Harness 在每个 Session 开始时读取它。在支持该惯例的 Harness 实现之间可移植。

MEMORY.md 基于文件的长期 Memory 存储。包含 Agent 跨 Session 需要的策展知识：用户偏好、项目细节、经验教训。与闭源 Memory 系统不同，MEMORY.md 是人类可读、可编辑、可移植的。

ReAct (Reasoning + Acting) 一种 Prompt 模式，模型在思考（"我应该搜索 X"）和行动（调用 Tool）之间交替。产生 Thought → Action → Observation 循环。大多数现代 Agent Harness 实现了 ReAct 的变体，通常通过 Tool Loop 隐式实现。

Chain-of-Thought (CoT) 一种 Prompt 技术，鼓励模型在产出最终答案前"逐步思考"。扩展思维（如 Claude 的 thinking 模式）是这种技术在模型层面的实现——模型在回复前生成内部推理 Token。

HaaS (Harness as a Service) 将 Agent Harness 部署为托管云服务的模式。API 网关将请求路由到 Session 管理器，Session 管理器分发到运行在 Sandbox 环境中的 Harness Worker。实现多租户 Agent 托管，具备 Session 隔离和资源限制。

薄 Harness 一种设计哲学，Harness 本身最小化——只有 Tool Loop、Context 管理和 Session 编排——而领域特定逻辑放在 Skill 中。Harness 是通用引擎；Skill 提供专业知识。与单体式 Agent 架构相对。

厚 Skill "薄 Harness"的对应面。Skill 包含特定任务的详细指令、示例和工作流。一个用于邮件的厚 Skill 可能包含模板、语气指南和平台特定的格式规则。Skill 是领域知识的所在地。

多 Agent 多个 AI Agent 协作完成任务的架构。Agent 可能有不同角色（调研员、写手、审阅者）、不同模型或不同 Tool 集。需要编排——决定哪个 Agent 做什么，以及它们如何通信。

Sub-Agent 由另一个 Agent spawn 来处理特定子任务的 Agent。父 Agent 委派工作，在 Sub-Agent 完成后接收结果。Sub-Agent 有隔离的 Session，但可能共享 Memory 或工作区访问。分解复杂任务的核心模式。

Sandbox 用于安全运行 Agent Tool 调用的隔离执行环境。通常是受限文件系统、网络和进程访问的容器或虚拟机。防止 Agent 意外（或恶意）影响宿主系统。对代码执行 Tool 来说是必需的。

Context 压缩 将更多信息装进固定 Context Window 的技术。包括摘要旧消息、移除冗余内容、截断大的 Tool 输出、以及选择性地只加载相关文件。当对话历史超过 Context 限制时至关重要。

Token 预算 将 Context Window 分配到不同用途的策略：System Prompt、Memory、对话历史、Tool 结果和模型输出。设计良好的 Token 预算确保最重要的信息获得优先权。例如：20% 给 System Prompt、15% 给 Memory、50% 给历史、15% 给回复。

Session 用户和 Agent 之间的一次持续交互。Session 有开始（用户发送第一条消息）、中间（来回的 Tool 调用）和结束（用户离开或 Session 超时）。Session 状态包括对话历史、活跃 Tool 和任何积累的 Context。

Checkpoint 在 Session 中某个特定时刻保存的 Agent 状态快照。包括对话历史、Tool 状态和任何中间结果。可以在崩溃或暂停后恢复而无需从零开始。对于中途失败代价高昂的长时间运行任务至关重要。

MCP (Model Context Protocol) 连接 AI 模型与外部 Tool 和数据源的开放协议。定义了标准接口，使 Tool（MCP Server）可被任何兼容的 Harness（MCP Client）使用。旨在解决 N×M 集成问题——不需要每个 Harness 都与每个 Tool 对接，双方都说 MCP。

Eval（评估） 根据定义标准衡量 Agent 性能的过程。包括行为测试（Agent 是否调用了正确的 Tool？）、结果测试（结果是否正确？）和经济测试（花了多少钱？）。Eval 之于 Agent 就像单元测试之于代码——在生产中不是可选项。

Trace Agent Session 的完整记录：每条发送的消息、每次 Tool 调用、每个接收的结果和最终输出。Trace 用于调试（哪里出了问题？）、评估（Agent 表现如何？）和回归测试（新版本是否更差了？）。Agent 世界的日志文件。