评估 | 爱折腾的工程师

Agent Skills 工程化深度解析：用 skill-creator 测试、度量并持续改进技能

从 evals、benchmark 到触发治理，系统拆解 Agent Skills 的工程化迭代方法

基于 Anthropic 官方博客 Improving skill-creator: Test, measure, and refine Agent Skills 的深度技术解读。文章系统分析 Agent Skills 为什么需要像软件一样测试，如何区分 capability uplift skills 与 encoded preference skills，如何设计 evals、benchmark、多智能体盲评和触发描述优化，并结合 PDF 表单、NDA 审查和周报生成案例总结可落地的工程实践。

揭秘 AI 智能体评估：从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》，系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

本文基于 Anthropic Engineering 的《Demystifying evals for AI agents》，面向开发者系统讲解 AI 智能体评估方法论：为什么传统单轮 LLM eval 不够，Agent eval 的 task、trial、transcript、outcome、grader、harness 如何协作，如何组合确定性评分器、LLM judge 与人工评审，以及如何处理非确定性、创造性解法、grader 脆弱、环境污染和 eval 饱和等挑战。文章配套架构图、对比图、指标趋势图和路线图，帮助团队从真实失败案例出发构建可维护的 Agent 评估体系。

Agent Skills 工程化深度解析：用 skill-creator 测试、度量并持续改进技能

从 evals、benchmark 到触发治理，系统拆解 Agent Skills 的工程化迭代方法

揭秘 AI 智能体评估：从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》，系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

FEATURED TAGS