2作者: drdec23 天前
我年轻的时候读过理查德·费曼的《别闹了,费曼先生!》、威廉·吉布森的《神经漫游者》和保罗·哈尔莫斯的《你想要成为一名数学家吗?》。 如今,哪些书在年轻的、有技术头脑的人群中很受欢迎?
9作者: drob23 天前
Hi HN, 总结:我们开发了一个效果很好的 bug 查找工具,尤其适用于应用程序后端。 欢迎试用并告诉我们您的想法! 以下是详细内容。 -------------------------- 我们最初的目标是解决技术债务问题。我们都见过存在大量技术债务的代码库,所以对这个问题深有感触,而且人工智能似乎让情况变得更糟。 技术债务似乎也是一个非常适合人工智能解决的问题,因为:1)一小部分工作需要思考和策略,而大部分执行工作都相当机械化,2)当你解决技术债务时,你通常试图保留现有的行为,只是改变实现方式。这意味着如果你能找到好的方法来检测由于代码更改导致意外行为变化,你就可以把它当作一个闭环问题来处理。而我们知道该怎么做——这就是测试的目的! 所以我们从编写测试开始。测试创建了安全保障,使未来的代码更改更安全。我们的想法是:如果我们能很好地进行测试,我们就能以非常高的质量自动化许多其他技术债务工作。 我们构建了一个代理,可以为典型的代码库编写数千个新测试,其中大部分都达到了“合并质量”。一些早期用户合并了数百个通过这种方式生成的 PR,但从直觉上来说,这个工具总是感觉“不错,但不够好”。我们自己也偶尔使用它,但通常感觉像一项苦差事。 大约在这个时候,我们意识到:虽然我们最初的目标是编写好的测试,但我们构建了一个系统,稍作调整后,可能非常擅长查找 bug。当我们在一​​些朋友的代码库上测试它时,我们发现几乎每个代码库都隐藏着大量 bug,我们能够标记出来。都是严重的 bug,而且足够有趣,让人们放下手头的工作来修复它们。这些 bug 就存在于人们的代码库中,已经被合并,并在生产环境中运行。 我们还发现了许多漏洞,即使在成熟的代码库中也是如此,有时甚至是在某人进行渗透测试之后。 底层原理: * 我们检出代码库,并弄清楚如何为本地开发构建它,并用测试来运行它。 * 我们拍摄构建的本地开发状态的快照。(我们为此使用了 Runloop,并且非常喜欢它。) * 我们启动数百个本地开发环境的副本,以数千种方式运行代码库,并标记看起来有问题的行为。 * 我们选择最突出、最令人担忧的示例,并将它们作为线性工单、github 问题或电子邮件发送。 在实践中,它运行得非常好。我们已经能够在从编译器到交易平台(甚至在 rust 代码中)的各种地方找到 bug,但最佳应用是应用程序后端。 我们的方法是用计算换取质量。我们的代码库扫描需要数小时,这远远超出了代码审查机器人的实用范围。但结果是,我们可以更明智地利用工程师的注意力,我们认为这将是最重要的变量。 从长远来看,我们认为计算是廉价的,而工程师的注意力是昂贵的。如果运用得当,最新的模型可以在大型代码库中执行复杂的更改。这意味着构建软件的限制因素是人类的注意力。工程师仍然需要时间和专注来摄取信息,例如现有代码、组织背景和产品需求。在工程师能够明确表达他们想要什么并出色地审查结果差异之前,所有这些都是必要的。 目前,我们正在查找 bug,但我们正在开发的技术可以扩展到许多其他后台、半主动的工作,以改进代码库。 欢迎试用并告诉我们您的想法。 首次扫描免费,无需信用卡:[https://detail.dev/](https://detail.dev/) 我们也在扫描 OSS 存储库,如果您有任何请求,请告诉我们。该系统的信号噪声比很高,但我们不想冒着通过自动打开问题来惹恼维护者的风险,因此如果您请求扫描 OSS 存储库,结果将发送给您个人。[https://detail.dev/oss](https://detail.dev/oss)
1作者: bhackett23 天前
大家好,我是 <a href="https://replay.io" rel="nofollow">https://replay.io</a> 的 CEO。我们一直在致力于 Web 开发的时间旅行调试 (<a href="https://news.ycombinator.com/item?id=28539247">https://news.ycombinator.com/item?id=28539247</a>),最近我们还开发了一个 AI 应用构建器,它利用这个调试器来解决问题,而不是原地打转 (<a href="https://news.ycombinator.com/item?id=43258585">https://news.ycombinator.com/item?id=43258585</a>)。 我们已经能够相当轻松地构建应用来替代关键业务 SaaS 工具,其中一些我们现在正在内部使用: * 我们构建了自己的问题追踪器来跟踪所有开发项目、工单、错误修复等,完全取代了 Linear。 * 我们构建了一个知识库来管理内部文档和正在进行的项目状态,完全取代了 Notion。 * 我们构建了一个遥测系统,通过 Webhook 接收 OTLP 事件,并支持自定义图表和可视化,主要取代了 Honeycomb。 我们希望尽可能多地控制我们运行 Replay 所需的应用。我们可以根据自己的需求定制这些应用,完全拥有它们及其数据,并避免 SaaS 供应商的恶意行为,例如按席位定价、付费墙功能、将我们锁定在其平台中以及阻止我们访问自己的数据。 今天,我们推出了 Builder (<a href="https://builder.replay.io/" rel="nofollow">https://builder.replay.io/</a>),这是我们用来构建这些应用的工具,以及我们构建的这些应用和其他应用。您可以免费复制这些应用,下载源代码并自行托管它们,或者让我们来负责托管、修复错误并根据您的需求进行修改。 如果您只想试用一下,这里有几个(共享,无需登录)这些应用的副本: * 问题追踪器:<a href="https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io" rel="nofollow">https://16857470-551d-4f50-8e5b-b7d24a4a874a.http.replay.io</a> * 知识库:<a href="https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io" rel="nofollow">https://d7e0dff4-f45c-4677-9560-6ea739c00a94.http.replay.io</a> 我们对 AI 应用构建器加速软件开发、释放非开发人员的创造力,尤其是帮助削弱许多大公司对我们的控制充满期待。我们自己也在不断构建新的应用来帮助实现这一目标,所以请告诉我们您的想法!哪些应用和供应商最让您感到沮丧?
1作者: moridin23 天前
Hi HN, 我构建了Presently (<a href="https:&#x2F;&#x2F;presently.us" rel="nofollow">https:&#x2F;&#x2F;presently.us</a>),因为我厌倦了用混乱的Excel表格来管理我的节日购物。我试过的每一个“礼物追踪器”应用都充斥着广告,需要繁琐的注册,或者只是想向我推销东西。 我想要一个简洁、快速,并且专注于送礼物流的应用:我要为谁购买,状态是什么(想法 -&gt; 已购买 -&gt; 已包装),以及我花了多少钱? 主要功能: - 视觉状态看板:一目了然地看到谁还需要礼物,以及什么需要购买/包装/赠送。 - 预算管理:自动汇总您的支出,并与您的预算进行对比。 - 移动友好:在您实际在商店时,在浏览器中也能流畅运行(类似PWA体验)。 - 无摩擦分享:与家人/朋友分享愿望清单,无需他们创建账户。 - AI头脑风暴:集成了Gemini,根据兴趣和关系生成礼物创意,当您完全卡住时可以使用。 技术栈:使用Firebase、React和Tailwind构建,托管在GCP上。我非常注重流畅的UI和较低的认知负担(谁在买礼物的时候还需要更多压力呢?)。 我很想听听您对用户体验流程的反馈。它是否比您当前的系统更快? 谢谢,Al
2作者: petter2025us23 天前
大家好,我是 Juan,前 NetApp 的可靠性工程师,曾为财富 500 强客户每月处理 60 多起关键事件。 我构建了 ARF,因为我反复看到了同样的模式:生产 AI 系统默默地失败,人们凌晨 3 点醒来,需要 30-60 分钟才能恢复,而公司每次事件损失 5 万到 25 万美元。 ARF 使用 3 个专门的 AI 智能体: * 侦探:通过 FAISS 向量记忆进行异常检测 * 诊断师:使用因果推理进行根本原因分析 * 预测:在故障发生前进行预测 结果:平均修复时间(MTTR)为 2 分钟(而手动修复为 45 分钟),收入恢复 15-30%。 技术栈:Python 3.12、FAISS、SentenceTransformers、Gradio 测试:158 个测试中通过 157 个(覆盖率 99.4%) 文档:8 个综合文件,共 42,000 字 实时演示:[https://huggingface.co/spaces/petter2025/agentic-reliability-framework](https://huggingface.co/spaces/petter2025/agentic-reliability-framework) 一个有趣的技术挑战是让智能体在没有紧密耦合的情况下进行协调。每个智能体都可以独立测试,但为了进行整体分析,它们会被编排在一起。 很乐意回答关于多智能体系统、生产可靠性模式或用于事件召回的 FAISS 的问题! GitHub:[https://github.com/petterjuan/agentic-reliability-framework](https://github.com/petterjuan/agentic-reliability-framework) (如果您需要在您的基础设施中部署此系统,也可提供咨询服务:[https://lgcylabs.vercel.app/](https://lgcylabs.vercel.app/))
1作者: furisto23 天前
Construct 是一款开源的 AI 编程助手,它以 gRPC 服务的形式运行,而不仅仅是一个 CLI 工具。你可以在笔记本电脑上本地运行它,也可以在远程服务器上运行,连接多个客户端,断开和重新连接而不会丢失上下文,并且可以轻松地将其集成到其他工具中。我想要一个可以一直运行,随时可以回来使用的工具,并且易于在沙盒中运行。 与使用 JSON 模式不同,代理使用 JavaScript 与工具交互。这意味着它们可以使用循环、条件语句、错误处理,并且鼓励它们在一轮中执行多次调用(如果需要,可以在一轮中执行数百次)。如果你想看看它的样子,README 中有一个视频。这种方法受到了 CodeAct 论文(<a href="https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2402.01030" rel="nofollow">https:&#x2F;&#x2F;arxiv.org&#x2F;abs&#x2F;2402.01030</a>)的启发,该论文发现代理在使用代码而不是 JSON 调用工具时表现更好。我在这里更详细地解释了好处:<a href="https:&#x2F;&#x2F;github.com&#x2F;Furisto&#x2F;construct&#x2F;blob&#x2F;main&#x2F;docs&#x2F;tool_calling.md" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;Furisto&#x2F;construct&#x2F;blob&#x2F;main&#x2F;docs&#x2F;tool_cal...</a> 它内置了用于不同任务(规划/实施/优化)的代理,或者你可以使用自定义提示和模型分配来创建自己的代理。它是一个单一的 Go 二进制文件,不需要 npm 或类似的东西。目前支持 Anthropic,很快将支持其他提供商。 很乐意回答有关架构或工具调用方法的问题。
1作者: ysablewolf23 天前
我花了 20 年时间构建身份和安全系统(EA、Nexon IPO,两项加密身份验证专利)。去年开始构建多智能体管道,遇到了一个问题:当出现故障时,无法知道哪个智能体产生了什么结果。 MOSS 为智能体提供加密身份并签署其输出。每个签名都包含 ML-DSA-44(后量子,FIPS 204)、用于重放检测的序列号和 SHA-256 负载哈希。 ```python pip install moss-sdk from moss import Subject agent = Subject.create("moss:myapp:agent-1") envelope = agent.sign({"action": "approve", "amount": 500}) ``` 密钥存储在本地的 ~/.moss/keys/ 目录下。没有云端,没有账户。 框架集成:moss-crewai, moss-autogen, moss-langgraph, moss-langchain 选择后量子的原因:审计日志需要保持可验证性多年。出于这个原因,选择了 ML-DSA-44 而不是 Ed25519。 规范:[https://github.com/mosscomputing/moss/blob/main/SPEC.md](https://github.com/mosscomputing/moss/blob/main/SPEC.md) 网站:[https://mosscomputing.com](https://mosscomputing.com) 很乐意回答有关设计的任何问题。
1作者: thinkmoon23 天前
使用 ThinkMoon,你可以构建自己的 Alpha 竞技场:插入来自 OpenRouter、OpenAI、Anthropic(或我们定制的)的模型,向它们提供实时数据(K线图、订单簿、行情),然后让它们交易真实的加密货币(通过币安期货)。 你可以定义规则:风险限额、交易哪些币种(BTC、ETH、SOL、XRP… 随意),甚至混合使用不同的 LLM 并比较它们的表现。 AI 的每一次操作都会被记录——完整的提示、推理、市场快照——这样你就可以审计或从中学习。 有一个实时仪表盘,显示盈亏、持仓情况和 AI 的思维链。通过 Telegram 或 Slack 警报,在交易发生时通知你。 此外,还有止损、止盈、仓位限制,以及当回撤过大时的紧急停机开关。 我们目前正在测试微调模型,如 DeepSeek 3.2 Speciale 和 Grok 4.1——早期结果看起来很有希望,表现比通用模型更稳定。 很想听听你希望 AI 交易助手具备哪些功能。 (LLM 编排和逻辑框架:LangChain)
7作者: cgorlla24 天前
大家好,我是 CTGT 的 Cyril。今天我们推出了 Mentat (<a href="https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions">https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions</a>),这是一个 API,让开发者能够对 LLM 的行为进行确定性控制,引导推理并即时消除偏见,无需微调的计算量,也不会像提示工程那样脆弱。我们使用特征级干预和基于图的验证来修复幻觉并执行策略。<p>这在高度监管的行业或 AI 应用中具有重要意义,在这些领域中,不正确或表现不佳的输出可能带来严重后果。在金融服务领域,使用 GenAI 扫描违规通信可能非常费力,如果没有一种简单的方法将复杂的策略嵌入到模型中。同样,媒体机构可能希望扩展其内容的 AI 生成摘要,但可靠性和准确性至关重要。这两者都是财富 500 强公司利用我们的技术来改善现有模型表现不佳的应用场景,我们希望将这种能力带给更多人。<p>这里有一个 2 分钟的快速演示视频,展示了该过程:<a href="https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cfnl">https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cf...</a><p>像 RAG 和系统提示这样的标准“护栏”本质上是概率性的:你本质上是在礼貌地要求模型表现良好。这通常会以两种方式失败。首先,RAG 解决了知识的<i>可用性</i>,但没有解决<i>整合</i>。在我们的基准测试中,一个模型被提供了“勒威克在托尔斯港东南 228 英里”的上下文,但未能回答“勒威克西北 228 英里是什么?”因为它无法执行空间反演。<p>其次,提示工程很脆弱,因为它与模型的预训练先验作斗争。例如,在 TruthfulQA 基准测试中,基础模型大约 80% 的时间都会失败,因为它们模仿了互联网上常见的误解(例如,“变色龙为了伪装而改变颜色”)。我们发现,我们可以字面意思地调高“怀疑推理”的特征,使模型忽略流行的神话,并输出科学事实。这很重要,因为对于高风险用例(如金融或制药),“基本安全”是不可接受的——公司需要审计级的可靠性。<p>我们的工作源于 UCSD 的 CS 地下室,我们花费数年时间研究高效且可解释的 AI,试图“打开”神经网络的“黑匣子”。我们意识到,业界试图从外部(提示/过滤器)修补模型行为,而问题却在内部(特征激活)。当我们看到企业即使拥有无限的计算能力,也难以部署基本模型,仅仅是因为他们无法保证输出不会违反合规性规则时,我们知道这很重要。我最终离开了我在斯坦福大学的研究,专注于此。<p>我们的突破来自于对 DeepSeek-R1 模型的深入研究。我们确定了其潜在空间中的“审查”特征向量。放大它保证了拒绝;减去它立即解锁了对敏感问题的回答。这证明了模型<i>拥有</i>知识,但正在抑制它。我们意识到,我们可以将同样的逻辑应用于幻觉,抑制“臆造”特征以揭示真实情况。虽然一些幻觉源于生成模型的固有随机性,但许多幻觉可以通过特征或特征组的协同激活来识别。<p>我们没有过滤输出,而是在前向传递期间在激活级别进行干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量 (v),并在数学上修改隐藏状态 (h):<p><pre><code> h_prime = h - alpha * (h @ v) * v </code></pre> 这种算术运算使我们能够以可忽略的开销(在 R1 上 &lt;10ms)确定性地“编辑”行为。对于事实主张,我们将其与图验证管道相结合(该管道适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将主张与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙的关系幻觉。<p>在 GPT-OSS-120b 上,这种方法通过抑制误解特征,将 TruthfulQA 的准确率从 21% 提高到 70%。我们还在 HaluEval-QA 上提高了该模型的性能,达到了前沿水平,准确率达到 96.5%,解决了基线失败的空间推理问题。它还可以处理嘈杂的输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整的基准测试见 <a href="https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks">https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks</a>。<p>这个领域的大多数初创公司都是可观察性工具,它们只在模型失败后才告诉你。或者它们是将上下文塞入窗口的 RAG 管道。Mentat 是一个基础设施层,它在推理期间修改模型的处理过程。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行如果 A 在 B 的东南方,那么 B 在 A 的西北方。<p>我们相信,我们的策略引擎是优于 RAG 或提示的控制机制。如果您对当前的护栏感到沮丧,我们希望您能对我们的 API 进行压力测试!<p>API:我们的端点与 OpenAI 的 /v1/chat/completions 兼容:<a href="https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions">https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions</a><p>Playground:我们构建了一个“竞技场”视图,用于并排比较未受控模型和受控模型,以实时可视化干预差异。无需注册:<a href="https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;">https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;</a><p>我们很乐意听取您对该方法的反馈,并看看您能找到哪些破坏标准模型的边缘情况。我们将在评论区全天候回复。欢迎所有反馈!
8作者: arnabkarsarkar24 天前
我是楼主。<p>我构建这个工具是因为我最近差点把包含 AWS 密钥的日志块粘贴到 Claude 里。<p>问题:我需要云模型(GPT/Claude/Gemini)的推理能力,但我不能相信自己不会意外泄露 PII 或密钥。<p>解决方案:一个 Chrome 扩展程序,充当本地中间件。它拦截提示并运行一个本地 BERT 模型(通过 Python FastAPI 后端),在请求离开浏览器之前清除姓名、电子邮件和密钥。<p>首先说明几点(为了明确预期):<p>所有操作都在本地 100% 运行。 正则表达式检测在扩展程序本身中进行。 高级检测 (NER) 使用一个小型转换器模型,通过 FastAPI 在本地主机上运行。<p>任何数据都不会发送到服务器。 您可以在代码 + 开发者工具网络面板中验证这一点。<p>这是一个早期原型。 会有一些粗糙的地方。我正在寻求关于 UX、检测质量以及本地代理方法是否合理的反馈。<p>技术栈: Manifest V3 Chrome 扩展程序 Python FastAPI (本地主机) HuggingFace dslim/bert-base-NER 路线图 / 征求反馈: 目前,Python 后端增加了一些摩擦。我昨天在 Reddit 上收到了反馈,建议我将推理移植到 transformer.js,通过 WASM 完全在浏览器中运行。<p>我决定使用 Python 后端发布 v1 以确保稳定性,但我正在积极研究 ONNX/WASM 路线,用于 v2 以消除对本地服务器的依赖。如果有人有通过 transformer.js 在 Service Worker 中运行 NER 模型的经验,我很乐意听取关于性能与原生 Python 的比较。<p>代码库采用 MIT 许可证。<p>非常欢迎提出想法、建议或替代方法。