爱折腾的工程师

未来的你会感谢现在努力的自己

Agent Skills 工程化深度解析:用 skill-creator 测试、度量并持续改进技能

从 evals、benchmark 到触发治理,系统拆解 Agent Skills 的工程化迭代方法

基于 Anthropic 官方博客 Improving skill-creator: Test, measure, and refine Agent Skills 的深度技术解读。文章系统分析 Agent Skills 为什么需要像软件一样测试,如何区分 capability uplift skills 与 encoded preference skills,如何设计 evals、benchmark、多智能体盲评和触发描述优化,并结合 PDF 表单、NDA 审查和周报生成案例总结可落地的工程实践。

从 0 行代码到 App Store:非技术项目经理用 Claude Code 六周发布压力管理应用

从一句提示词到 App Store:非技术项目经理如何用 Claude Code 在六周内发布 Respiro 压力管理应用

本文基于 Anthropic 官方博客,复盘乌克兰项目经理 Kostiantyn Vlasenko 如何在没有编程背景的情况下,借助 Claude Code 构建并上线 Respiro 压力管理 iOS 应用。文章覆盖产品构思、技术选型、AI Agent 开发流程、关键技术实现、发布上线与增长经验。

Claude Code 开发经验深度解析:为什么提示词缓存是一切

从 prefix matching 到 cache-safe forking,系统拆解 Claude Code 背后的提示词缓存工程

基于 Anthropic 官方博客 Lessons from building Claude Code: Prompt caching is everything 的深度技术解读。文章系统分析 Claude Code 在长期运行 Agent 场景下如何围绕提示词缓存设计 prompt 布局、工具集合、Plan Mode、MCP 工具延迟加载和 compaction 机制,并总结可落地的工程实践清单。

MindCluster 架构与实践:从 NPU 调度、故障诊断到大模型训练容错

从本地 mind-cluster 源码和 MindCluster 7.1.RC1 官方文档出发,拆解昇腾 NPU 集群的软件栈、调度闭环、故障诊断与训练容错机制

本文遍历本地 mind-cluster 代码库,并结合昇腾社区 MindCluster 7.1.RC1 官方文档,系统梳理 MindCluster 的产品定位、组件架构、NPU 调度闭环、故障诊断、资源监测、Checkpoint 加速和训练容错能力。文章包含架构图、调度流程图、源码入口、YAML 示例和实践步骤,帮助读者理解如何用 MindCluster 构建可调度、可观测、可恢复的昇腾 AI 集群。

揭秘 AI 智能体评估:从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》,系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

本文基于 Anthropic Engineering 的《Demystifying evals for AI agents》,面向开发者系统讲解 AI 智能体评估方法论:为什么传统单轮 LLM eval 不够,Agent eval 的 task、trial、transcript、outcome、grader、harness 如何协作,如何组合确定性评分器、LLM judge 与人工评审,以及如何处理非确定性、创造性解法、grader 脆弱、环境污染和 eval 饱和等挑战。文章配套架构图、对比图、指标趋势图和路线图,帮助团队从真实失败案例出发构建可维护的 Agent 评估体系。