爱折腾的工程师

未来的你会感谢现在努力的自己

OpenAI 内部数据 Agent 深读:上下文工程,比换更大的模型更重要

OpenAI 在 2026 年 1 月公开了内部数据 Agent 的设计原理:3,500 名员工、7 万张表、600PB 数据,单条查询动辄 180 行 SQL —— 它解决问题的方式不是换更大的模型,而是把上下文工程做扎实。本文基于 OpenAI 官方博客《Inside our in-house data agent》,深拆其六层上下文体系、Codex 增强、RAG 管道、Evals 闭环、严格透传权限模型,并提炼三条 Lessons Learned 对自建数据 Agent 团队的迁移启示。

AI Agent 评估指南:从模型分数到轨迹质量的范式迁移

NVIDIA 这篇 Agent 评估指南最值钱的不是那 5 条 Tip,而是它戳破了一层窗户纸:模型基准回答的是『引擎够不够强』,Agent 评估回答的是『系统在你的技术栈里能不能反复跑通』。本文用一个『订单查询 Agent』贯穿全文,把 TSR、Tool Call Accuracy、Trajectory Efficiency 三件套讲清,附评估驱动开发(EDD)循环与最小可行评估栈清单。

Harness 不该亲自做研究:NVIDIA AI-Q Deep Research Skill 工程解读

通用 Agent Harness 擅长编排但做不好研究——NVIDIA 把多文档综合、引文溯源、企业数据接入打包成一个可移植的 Skill,让 Claude Code / Codex 通过『委托』而非『拥有』获得研究能力。本文按四阶段流水线 → 三种 MCP 认证 → 数据治理反转 → 模型混合策略的顺序拆开 AI-Q 的工程取舍,并给出落地决策清单。

Hermes Agent 源码深潜:从 CLI 入口到工具循环、状态库与上下文压缩的执行原理

Hermes Agent 看起来是一个可聊天的 AI Agent,源码里却更像一套小型 Agent OS:多入口接入、统一 AIAgent 运行时、模型 transport 抽象、工具 registry、SQLite session store、上下文压缩与 ACP/TUI/Gateway 外围协议共同组成闭环。本文基于 hermes-agent 0.14.0 代码库,按模块层级拆解它的核心架构与执行流程。

9 种技术、3 个梯度、1 张选型表:NVIDIA 这篇 Agent 定制化指南到底在讲什么

NVIDIA 把 Agent 定制化拆成 9 种技术,但真正值钱的是它们背后的 3 个梯度——推理时、训练时、对齐与强化。本文按这条骨架重构原文:每种技术给一句话定位 + 工作机制 + 适用场景 + 边界;把 SKILL.md、RLVR 验证函数、GRPO 组内归一化拎出来配硬核解读;用三轴决策矩阵告诉一线工程师"如果你处在 X 阶段就走 Y 路径",并给出可在两周内启动的最小行动清单。