爱折腾的工程师

未来的你会感谢现在努力的自己

OpenAI 内部数据 Agent 深读：上下文工程，比换更大的模型更重要

OpenAI 在 2026 年 1 月公开了内部数据 Agent 的设计原理：3,500 名员工、7 万张表、600PB 数据，单条查询动辄 180 行 SQL —— 它解决问题的方式不是换更大的模型，而是把上下文工程做扎实。本文基于 OpenAI 官方博客《Inside our in-house data agent》，深拆其六层上下文体系、Codex 增强、RAG 管道、Evals 闭环、严格透传权限模型，并提炼三条 Lessons Learned 对自建数据 Agent 团队的迁移启示。

Posted by iceyao on Monday, May 25, 2026

AI Agent 评估指南：从模型分数到轨迹质量的范式迁移

NVIDIA 这篇 Agent 评估指南最值钱的不是那 5 条 Tip，而是它戳破了一层窗户纸：模型基准回答的是『引擎够不够强』，Agent 评估回答的是『系统在你的技术栈里能不能反复跑通』。本文用一个『订单查询 Agent』贯穿全文，把 TSR、Tool Call Accuracy、Trajectory Efficiency 三件套讲清，附评估驱动开发（EDD）循环与最小可行评估栈清单。

Posted by iceyao on Sunday, May 24, 2026

Harness 不该亲自做研究：NVIDIA AI-Q Deep Research Skill 工程解读

通用 Agent Harness 擅长编排但做不好研究——NVIDIA 把多文档综合、引文溯源、企业数据接入打包成一个可移植的 Skill，让 Claude Code / Codex 通过『委托』而非『拥有』获得研究能力。本文按四阶段流水线 → 三种 MCP 认证 → 数据治理反转 → 模型混合策略的顺序拆开 AI-Q 的工程取舍，并给出落地决策清单。

Posted by iceyao on Sunday, May 24, 2026

Hermes Agent 源码深潜：从 CLI 入口到工具循环、状态库与上下文压缩的执行原理

Hermes Agent 看起来是一个可聊天的 AI Agent，源码里却更像一套小型 Agent OS：多入口接入、统一 AIAgent 运行时、模型 transport 抽象、工具 registry、SQLite session store、上下文压缩与 ACP/TUI/Gateway 外围协议共同组成闭环。本文基于 hermes-agent 0.14.0 代码库，按模块层级拆解它的核心架构与执行流程。

Posted by iceyao on Sunday, May 24, 2026

9 种技术、3 个梯度、1 张选型表：NVIDIA 这篇 Agent 定制化指南到底在讲什么

NVIDIA 把 Agent 定制化拆成 9 种技术，但真正值钱的是它们背后的 3 个梯度——推理时、训练时、对齐与强化。本文按这条骨架重构原文：每种技术给一句话定位 + 工作机制 + 适用场景 + 边界；把 SKILL.md、RLVR 验证函数、GRPO 组内归一化拎出来配硬核解读；用三轴决策矩阵告诉一线工程师"如果你处在 X 阶段就走 Y 路径"，并给出可在两周内启动的最小行动清单。

Posted by iceyao on Saturday, May 23, 2026