HN 提问:现在人人都是工程师了吗?1 分•作者: piratesAndSons•27 天前营销工程师是为营销人员准备的,设计工程师是为设计师准备的,卫生工程师是为清洁工准备的——所以按照这个逻辑,收银工程师将是为那些在结账时为你服务的人准备的。 这种头衔膨胀是怎么回事?为什么仅仅因为写了软件就称自己为工程师?在我看来,工程师是那些建造东西并对其负全责的人——设计一座桥梁,成千上万的生命掌握在你手中;制造飞机发动机;过滤城市的水源。而不是在机器上按键。
Ask HN:你与生成式AI的“卧槽”时刻是什么?19 分•作者: andrehacker•27 天前当我们看到 DALL-E 及其同类产品大行其道时,大多数人都觉得很有趣,并很快指出了显而易见的不足之处。 接着 ChatGPT 登场了,同样,我们中的许多人将其视为一个不会有什么大作为的花招而嗤之以鼻。 最初使用 LLM 进行编码,相比基本的代码补全只前进了一小步,也让我们乐于告别 Stack Overflow。 我很好奇:是什么让您从那些陈旧、不屑的看法,转变为略带恐慌的“哦不”的顿悟,意识到这些模型的能力?
Show HN:形式化验证的多边形相交 - Opus 4.8 一次性通过,之前失败27 分•作者: permute•28 天前据我所知,这是多边形相交算法的第一个经过形式化验证的实现。 在这个项目中与 AI 代理合作的经历,随着近期模型版本的发布发生了很大变化,我在自述文件中对此进行了描述。Opus 4.8 能够一次性提供带有形式化证明的算法实现,而之前的模型则需要我分多步提供证明策略。 对正确性的信任完全来自于 Lean 验证器和对少量规范的人工审查,而不是来自于 LLM。 另外,请查看自述文件中链接的、围绕已验证核心构建的 Web 演示:https://schildep.github.io/verified-polygon-intersection/。它支持多边形,包括带孔的多边形、自相交和重叠边。
我厌倦了大型语言模型(LLM)技能的混乱,所以我用回归测试构建了自己的模型。3 分•作者: iliaov•28 天前我最近尝试了 Garry Tan 的 GStack 等技能,花了一周时间,发现它存在一些缺陷(我将另发文章详述)。 我的问题是:我如何知道一个技能或提示是否好用(例如 GStack 的 `/office-hours`)? 我该如何比较类似的技能(例如不同的“深度研究”技能)? 发现软件缺陷(相对而言)很容易——它会崩溃、报错。而有缺陷的技能不会。那些完美无瑕、听起来自信满满的技能却会经常误导我,浪费我的时间,甚至让我觉得不如不使用 LLM。 AI 技能也是软件——它们应该附带回归测试。 LLM 团队拥有大量的提示回归测试。LLM 包装的 SaaS 公司也拥有大量的提示回归测试。但对于开源技能,SKILL.md 文件看起来很合理,却没有任何测试(例如,截至撰写本文时,GStack 的 `/office-hours` 就没有)。 Garry Tan,如果你听到我说话——请考虑为你的 `/office-hours`、`/plan-ceo-review`、`/plan-eng-review` 等技能提供回归测试。 回归测试应该: 1. 证明技能能正确工作 2. 展示正确和不正确的用法 3. 证明技能的价值 4. 附带评分标准,以便对技能进行基准测试 5. 最后一个是最有价值的,因为它允许你对相似的技能进行相互基准测试。 于是我开始自己做这件事。 这是一个正在进行中的例子:`plan-cmo-review`,一个用于补充 GStack 的技能,因为 GStack 在撰写本文时缺少营销方面的评审。我不是营销专家,分享这个技能的目的是概述其回归测试的设置。 简而言之,这是我的探索过程: * 我对几个产品使用了 GStack,并发现生成的 `design_document.md` 导致我失败,主要是营销方面。 * 我借助 Claude Opus 4.8 手动深入研究了该技能的失败之处,并最终找到了正确的解决方案。 * 我让 Claude 构建了一个 `plan-cmo-review` 技能,运行它,结果得出了一个有缺陷的解决方案(与 GStack 的输出类似)。 * 我让 Claude 分析了正确的(手动)解决方案,并将其作为带有评分标准的回归测试固定项。 * Claude 运行了(盲测)回归测试——失败了。我们进行了几次迭代,发现了关键问题:Claude 盲目信任我的提示,将其视为最终真理。Claude 认为 GStack 知道自己在做什么。GStack 认为我知道我在做什么。但我当时正在进行产品/创业研究——根据定义,“研究”就是当你不知道自己在做什么时所做的事情。这种信任链导致了技能的失败。 * 我们解决了信任问题,回归测试通过了。我们又添加了一些。它们也通过了。 * 我让 Claude 多次运行回归测试——出现了裂痕。Claude 迭代了该技能。现在它们都通过了。 * 这种方法仍然存在缺陷。我想尝试运行不同的 LLM,进行跨模型判断,以及更多的回归测试。 技能 GitHub 地址:github.com/remakeai/plan-cmo-review。笔记在 iliaov.substack.com。