爱折腾的工程师

未来的你会感谢现在努力的自己

用 LLM 保护源代码安全:Anthropic 六步闭环实战指南

从威胁建模到自动修复,瓶颈已从发现转移到验证与修复

引言 模型能力正在快速且不均匀地进化。Anthropic 安全团队在与多个企业合作扫描开源软件的过程中,截至 2026 年 5 月 22 日已披露 1,596 个漏洞,但其中仅

9 种技术、3 个梯度、1 张选型表:NVIDIA 这篇 Agent 定制化指南到底在讲什么

NVIDIA 把 Agent 定制化拆成 9 种技术,但真正值钱的是它们背后的 3 个梯度——推理时、训练时、对齐与强化。本文按这条骨架重构原文:每种技术给一句话定位 + 工作机制 + 适用场景 + 边界;把 SKILL.md、RLVR 验证函数、GRPO 组内归一化拎出来配硬核解读;用三轴决策矩阵告诉一线工程师"如果你处在 X 阶段就走 Y 路径",并给出可在两周内启动的最小行动清单。

把『基于 URL 写一篇博文』这条 prompt 救回来:一个 Claude Skill 的设计、打造与三轮评测实录

为什么「基于这个 URL 写一篇博文」这条 prompt 几乎注定塌?prompt-optimizer skill 用 5 维度心智模型 + 5 步工作流把它救回来。本文先讲清楚它从概念构思到定型上线的 4 阶段开发过程、设计动机和实现原理,再把一份完整的双轨评测(质量评测 21/21 vs 4/8、触发评测三轮迭代 F1 0.90 → 1.00、全样本 3/3 全票一致)拆给你看,附 8 张数据信息图。读完你会知道——评测 skill 不只是看分数,更是看分数停在 100% 之后还有什么可以改。

Perplexity 的 Agent Skills:一套与 Zen of Python 几乎完全反向的设计哲学

Perplexity 把 Agent Skills 当一等公民来设计、迭代、维护。本文从原文出发,提炼五条反直觉心智模型——Zen of Skills、四属性、三层上下文成本、Description 即路由、Gotchas Flywheel——并结合 U.S. Income Tax Skill 失败案例与 PR 监控 Skill 路由案例,给出可落地的五步构建法、四套 Eval Suite 与一份 7 条带走清单,图文并茂。

HTML 对 Agent 的不合理有效:从文字墙到可操作工件的输出格式革命

Markdown 把空间信息压扁了,HTML 把它还原回来。本文基于 Thariq Shihipar 的 HTML Effectiveness 示例集,提炼 5 类高密度场景(探索规划 / 代码评审 / 设计原型 / 一次性编辑器 / 教学解释),解析「视觉呈现 → 在空间中决策 → 导出回 prompt」的反馈循环,并给出 Agent 输出格式选型决策树与对 Claude Code、CodeBuddy、Cursor、Devin 等主流形态的影响推断。