爱折腾的工程师

未来的你会感谢现在努力的自己

微信小程序 AI 开发最佳实践:让模型行为可预测的 5 层规范

从产品设计到文案上线,一份完整的 AI 接口封装与编排落地指南

引言 微信小程序 AI 能力让用户通过自然语言与小程序交互——说「想喝点清爽的」就能获得推荐并下单。但这种自由对话的背后,如果接口规范和业务编排写得

用 LLM 保护源代码安全:Anthropic 六步闭环实战指南

从威胁建模到自动修复,瓶颈已从发现转移到验证与修复

引言 模型能力正在快速且不均匀地进化。Anthropic 安全团队在与多个企业合作扫描开源软件的过程中,截至 2026 年 5 月 22 日已披露 1,596 个漏洞,但其中仅

AI Agent 评估指南:从模型分数到轨迹质量的范式迁移

NVIDIA 这篇 Agent 评估指南最值钱的不是那 5 条 Tip,而是它戳破了一层窗户纸:模型基准回答的是『引擎够不够强』,Agent 评估回答的是『系统在你的技术栈里能不能反复跑通』。本文用一个『订单查询 Agent』贯穿全文,把 TSR、Tool Call Accuracy、Trajectory Efficiency 三件套讲清,附评估驱动开发(EDD)循环与最小可行评估栈清单。

Harness 不该亲自做研究:NVIDIA AI-Q Deep Research Skill 工程解读

通用 Agent Harness 擅长编排但做不好研究——NVIDIA 把多文档综合、引文溯源、企业数据接入打包成一个可移植的 Skill,让 Claude Code / Codex 通过『委托』而非『拥有』获得研究能力。本文按四阶段流水线 → 三种 MCP 认证 → 数据治理反转 → 模型混合策略的顺序拆开 AI-Q 的工程取舍,并给出落地决策清单。

9 种技术、3 个梯度、1 张选型表:NVIDIA 这篇 Agent 定制化指南到底在讲什么

NVIDIA 把 Agent 定制化拆成 9 种技术,但真正值钱的是它们背后的 3 个梯度——推理时、训练时、对齐与强化。本文按这条骨架重构原文:每种技术给一句话定位 + 工作机制 + 适用场景 + 边界;把 SKILL.md、RLVR 验证函数、GRPO 组内归一化拎出来配硬核解读;用三轴决策矩阵告诉一线工程师"如果你处在 X 阶段就走 Y 路径",并给出可在两周内启动的最小行动清单。