爱折腾的工程师

未来的你会感谢现在努力的自己

揭秘 AI 智能体评估:从任务、轨迹到生产级 Eval 体系

基于 Anthropic Engineering《Demystifying evals for AI agents》,系统拆解 AI Agent 评估的对象、方法、难题与工程化最佳实践

本文基于 Anthropic Engineering 的《Demystifying evals for AI agents》,面向开发者系统讲解 AI 智能体评估方法论:为什么传统单轮 LLM eval 不够,Agent eval 的 task、trial、transcript、outcome、grader、harness 如何协作,如何组合确定性评分器、LLM judge 与人工评审,以及如何处理非确定性、创造性解法、grader 脆弱、环境污染和 eval 饱和等挑战。文章配套架构图、对比图、指标趋势图和路线图,帮助团队从真实失败案例出发构建可维护的 Agent 评估体系。

从 RAG 到 LLM Wiki:一种可持续演化的个人知识库技术方案

从一次性检索到持续性知识编译:基于 LLM Agent、Markdown 与 Git 的个人 Memex 架构设计

基于 Karpathy 的 LLM Wiki 设计模式,系统拆解一种由 LLM Agent 持续维护 Markdown Wiki 的知识库架构。本文从传统 RAG 的局限出发,深入分析 Raw Sources、Wiki、Schema 三层模型,设计 Ingest、Query、Lint 三类核心工作流,并给出目录结构、页面数据模型、Agent 规则、检索策略、质量控制、Git 审计与规模化路线,帮助技术爱好者理解如何把 LLM 从一次性问答工具升级为长期知识库维护者。

CL4R1T4S 项目深度解析:AI 系统透明度与系统提示词工程

从 25 家 AI 厂商的系统提示词说开去:一场由社区驱动的 AI 透明度实验

深度解析 GitHub 项目 elder-plinius/CL4R1T4S:一个收录了 OpenAI、Anthropic、Google、xAI、Cursor、Windsurf、Devin、Perplexity 等 25 家主流 AI 产品系统提示词的开源仓库。本文不仅梳理项目背景、仓库结构、分层技术架构和提取方法论,还逐一拆解 Claude Opus 4.7、ChatGPT-5、Grok 4.1、Gemini 2.5 Pro、Cursor Composer、Cascade、Devin 2.0、Perplexity Deep Research 八款知名产品的真实系统提示词片段,帮助开发者看清商用 LLM 背后 Prompt Scaffold 的工程化实践与价值取向差异。

Claude 提示词工程最佳实践深度解析:原则、技巧与 Opus 4.7 适配

从黄金法则到 effort 参数:一份面向开发者的 Claude 提示词工程实战指南

基于 Anthropic 官方 Claude Prompting Best Practices 文档的深度解读。系统性整理 Claude 的通用提示词原则、XML 结构化、长上下文排版、effort 参数调优、工具使用与代理工作流治理等关键技术,并重点解析 Claude Opus 4.7 在指令遵循、工具使用、子代理、前端默认风格等方面的行为变化,帮助开发者在真实产品中高效、稳定地驾驭 Claude。

Claude Code 会话管理与百万上下文窗口深度解析

从上下文窗口到会话管理,全面掌握 Claude Code 百万 Token 的正确使用方式

深入解析 Claude Code 百万 Token 上下文窗口的工作原理、上下文腐化机制,以及 /compact、/clear、/rewind、Subagent 等会话管理策略的最佳实践。通过架构图、代码示例和决策模型,帮助开发者最大化利用大上下文窗口的生产力。