爱折腾的工程师

未来的你会感谢现在努力的自己

AI Agent 评估指南:从模型分数到轨迹质量的范式迁移

NVIDIA 这篇 Agent 评估指南最值钱的不是那 5 条 Tip,而是它戳破了一层窗户纸:模型基准回答的是『引擎够不够强』,Agent 评估回答的是『系统在你的技术栈里能不能反复跑通』。本文用一个『订单查询 Agent』贯穿全文,把 TSR、Tool Call Accuracy、Trajectory Efficiency 三件套讲清,附评估驱动开发(EDD)循环与最小可行评估栈清单。

Harness 不该亲自做研究:NVIDIA AI-Q Deep Research Skill 工程解读

通用 Agent Harness 擅长编排但做不好研究——NVIDIA 把多文档综合、引文溯源、企业数据接入打包成一个可移植的 Skill,让 Claude Code / Codex 通过『委托』而非『拥有』获得研究能力。本文按四阶段流水线 → 三种 MCP 认证 → 数据治理反转 → 模型混合策略的顺序拆开 AI-Q 的工程取舍,并给出落地决策清单。

9 种技术、3 个梯度、1 张选型表:NVIDIA 这篇 Agent 定制化指南到底在讲什么

NVIDIA 把 Agent 定制化拆成 9 种技术,但真正值钱的是它们背后的 3 个梯度——推理时、训练时、对齐与强化。本文按这条骨架重构原文:每种技术给一句话定位 + 工作机制 + 适用场景 + 边界;把 SKILL.md、RLVR 验证函数、GRPO 组内归一化拎出来配硬核解读;用三轴决策矩阵告诉一线工程师"如果你处在 X 阶段就走 Y 路径",并给出可在两周内启动的最小行动清单。

把 Agent 真正发上线:Google Cloud《生产级 AI Agent 开发者指南》深读

Google Cloud 把 Agent 工程化压缩成 5 个阶段:定义、工具互操作、上下文工程、测试评估、生产部署。本文按这条骨架展开,但不复述原文——逐节追问『传统工程范式为什么失效』,给出可量化的判断标准与真实工程场景,并把 Trajectory 评估、Sandbox→Canary→Production 三阶段发布单拎出来重点解读。文末附给上线者的落地清单与按角色分流的学习路径地图。

把 HTML 当画布:Anthropic 内部如何用一份单页文件,把 Claude Code 从「自动写」拉回「同步在线」

Thariq Shihipar 在 Anthropic 官方博客的最新一篇《The unreasonable effectiveness of HTML》给出了一个反常识的工作流:当 Agent 越来越能自主跑完一切,他反而几乎完全停用 Markdown,所有产物——规划、评审、原型、报告、一次性编辑器——一律走 HTML。本文把原文压成五大能力维度 + 五类工作流场景矩阵,再延伸出三条不那么舒服的判断:一次性编辑器打破了软件必须复用的工程直觉、「总是以导出结束」是反馈循环收紧的关键、token 不是 HTML 的成本,注意力才是。