HackerNews中文版

1 分•作者: talonx•28 天前

2 分•作者: enz•28 天前

1 分•作者: xavierxwang•28 天前

问 HN：Claude Opus 4.5 vs. GPT 5.1 Codex Max 编程能力对比。值得升级吗？

1 分•作者: terabytest•28 天前

我目前用 gpt-5.1-codex-max 编写代码，用起来很顺手，有时候会达到每周的额度上限（但通常用一些额外的额度就能解决）。我听说 Opus 4.5 在代码编写方面可能更好。SWE-bench 测试显示它有 8% 的提升，但我很难想象这在实际应用中会带来什么影响。对于已经切换到 Opus 4.5 的人来说，你们看到了哪些变化？它对你们的工作有什么影响？每月 100 美元的升级值得吗？

个人系统 Linux

2 分•作者: doener•28 天前

Mozilla 任命新 CEO Anthony Enzor-Demeo

4 分•作者: recvonline•28 天前

Databricks 融资，估值达 1340 亿美元

2 分•作者: Avalaxy•28 天前

Show HN: 周报论文精选 – 现代 ArXiv 阅读器

2 分•作者: mox111•28 天前

您好，我创建了 weekinpapers.com，旨在解决我所看到的计算机科学领域 arXiv 论文的“可发现性”问题。随着日历周的推进，主页将更新，以显示新发表的论文。这个过程将在下周重新开始。每个条目都包含一个 AI 生成的“通俗易懂”的摘要，旨在消除神秘感，并明确任何关键词或假设的知识。我认为这是 LLM 的一个有效用例。希望尖端研究能够被更广泛的受众所接受。 Matt

法官阻止路易斯安那州社交媒体年龄验证法案

3 分•作者: whynotmaybe•28 天前

在……工作是怎样的体验

1 分•作者: weliveagain•28 天前

Show HN: TheAuditor v2.0 – AI 编程助手的“飞行计算机”

8 分•作者: ThailandJohn•28 天前

我是一名曾经的系统架构师（思科/VMware），现在在泰国从事构建工作。TheAuditor v2.0是对我三个月前发布的原型进行的一次全面架构重写（800+次提交）。对我来说，“顿悟”时刻并非来自成功，而是源于一次巨大的失败。我曾尝试使用AI来重构一个复杂的模式更改（从“Products”到“ProductsVariants”的基础性更改），但由于其范围之大，最终彻底失败。我意识到两件事： * **上下文崩溃：** AI无法在其上下文窗口中保留足够多的文件，以理解重构的全部范围，因此开始产生幻觉，"修复"一些表面问题。如果我继续施压，它会直接陷入恐慌，编造问题“以便能够解决它们”，这只会导致情况陷入恶性循环。这就是这个工具的“反派起源故事”。:D * **知识陈旧：** 它一直试图在一个Node 22项目中实现Node 16的模式，或者默认使用过时的库（比如glob v7而不是v11），因为它训练的数据已经过时。我意识到，AI代理在输出可运行的代码方面非常出色，但它们对代码一无所知。它们优化的是“不惜一切代价让它运行”——通常通过引入安全漏洞或技术债务来绕过错误。这是一个有趣的悖论，因为当被“逼到墙角/被迫”使用前沿版本、语法和最佳实践时，它在执行或编写代码方面没有任何问题。然而，它对周围环境的认知是如此可笑地缺乏，除非受到明确的看护，否则它会做任何其他事情。我构建了v2，使其成为解决许多这些问题的“健全性检查”，并旨在继续解决我面临的相同和类似问题。TheAuditor没有让AI去猜测，而是将整个代码库索引到一个本地SQLite图数据库中。这为AI提供了一个可查询的现实地图，允许它验证依赖关系和导入，而无需将“所有”文件加载到上下文中。 A/B演示：[https://www.youtube.com/watch?v=512uqMaZlTg](https://www.youtube.com/watch?v=512uqMaZlTg) 正如在演示视频中看到的那样，它现在可以运行“aud explain”并获得500行确定性的“仅事实”信息，而不是试图读取10多个完整文件和/或使用grep来弥补幻觉。它只获取它需要查看的内容，而不是读取10多个文件，试图将它们保留在上下文中，找到它正在寻找的内容，并试图记住它最初为什么要寻找。我还了解到，正则表达式/字符串/启发式方法根本无法扩展，而且非常缓慢（数小时 vs 数分钟）。我尝试了基于正则表达式的规则/解析器方法，但它们在复杂文件上总是默默地失败，并且受到持续的限制（最糟糕的问题是必须为每组规则读取所有文件）。我放弃了这种方法，并构建了一个“三重录入保真度”系统。现在，该工具就像一个账本：解析器发出清单，数据库发出收据。如果它们不匹配，系统会故意崩溃。它不再仅仅是一个扫描器；它是一个护栏。在我的日常工作流程中，在AI（我选择的是CC/Codex）针对我目前面临的任何问题陈述运行预先调查之前，我不会让AI编写一行代码。这确保了它基于事实，而不是推断假设，或者更糟的是，幻觉。话虽如此，我的工具并不完美。为了支持这一切，我不得不为Python/JS/TS构建一个伪编译器，这意味着为每个框架、每个语法——实际上是所有内容——准备提取器。有时我无法正确处理，有时我可能没有足够的时间来构建它以支持所有内容。因此，我的建议是将该工具与您选择的AI代理集成，而不是将其视为您（人类）的工具。我喜欢将该工具用作“确认或否认”，其中AI运行该工具，在源代码中进行验证，并提供预实施审计。基于该审计，我将创建一个“aud planning”。 v2.0中的一些主要里程碑 * **混合污点：** 我扩展了Oracle Labs的IFDS研究，以跟踪跨微服务边界的数据流（例如，React fetch → Express中间件 → 控制器）。 * **三重录入保真度：** 这适用于每一层（索引器 -> 提取器 -> 解析器 -> 存储）。每个步骤都有协同工作的保真度检查。如果管道中的任何地方出现静默数据丢失，该工具会故意崩溃。 * **图数据库：** 从基于文件的解析迁移到SQLite图数据库，以处理正则表达式遗漏的复杂关系。 * **范围：** 增加了对Rust、Go、Bash、AWS CDK和Terraform的支持（v1仅支持Python/JS）。 * **代理功能：** 增加了规划和重构引擎，允许AI代理不仅扫描代码，而且安全地规划和执行架构更改。

40% 的 MRI 信号与实际的脑部活动不符。

15 分•作者: geox•28 天前

这不是未来。

156 分•作者: ericdanielski•28 天前

我认为林德利悖论并不支持 p 值环绕。

14 分•作者: speckx•28 天前

Rust GCC 后端：缘起与实现

17 分•作者: ahlCVA•28 天前

戴上戒指：无锁 MPMC 环形缓冲区

7 分•作者: signa11•28 天前

你花钱大手大脚是因为你缺乏价值观。

22 分•作者: speckx•28 天前

微软将禁用已造成数十年破坏的过时密码套件

51 分•作者: signa11•28 天前

世嘉频道：VGHF 恢复超过 100 个世嘉频道 ROM（及更多）

57 分•作者: wicket•28 天前

多智能体 MCP 技能集架构

1 分•作者: _pdp_•28 天前

最新