最新

1 分•作者: lisper•7 个月前

1 分•作者: moridin•7 个月前

Hi HN，我构建了Presently (<a href="https://presently.us" rel="nofollow">https://presently.us</a>)，因为我厌倦了用混乱的Excel表格来管理我的节日购物。我试过的每一个“礼物追踪器”应用都充斥着广告，需要繁琐的注册，或者只是想向我推销东西。我想要一个简洁、快速，并且专注于送礼物流的应用：我要为谁购买，状态是什么（想法 -> 已购买 -> 已包装），以及我花了多少钱？主要功能： - 视觉状态看板：一目了然地看到谁还需要礼物，以及什么需要购买/包装/赠送。 - 预算管理：自动汇总您的支出，并与您的预算进行对比。 - 移动友好：在您实际在商店时，在浏览器中也能流畅运行（类似PWA体验）。 - 无摩擦分享：与家人/朋友分享愿望清单，无需他们创建账户。 - AI头脑风暴：集成了Gemini，根据兴趣和关系生成礼物创意，当您完全卡住时可以使用。技术栈：使用Firebase、React和Tailwind构建，托管在GCP上。我非常注重流畅的UI和较低的认知负担（谁在买礼物的时候还需要更多压力呢？）。我很想听听您对用户体验流程的反馈。它是否比您当前的系统更快？谢谢，Al

网络罪犯落网，被控密谋“暴力即服务”

1 分•作者: andrewl•7 个月前

Show HN: 基于 Agent 的可靠性框架——多智能体 AI 自我修复故障

2 分•作者: petter2025us•7 个月前

大家好，我是 Juan，前 NetApp 的可靠性工程师，曾为财富 500 强客户每月处理 60 多起关键事件。我构建了 ARF，因为我反复看到了同样的模式：生产 AI 系统默默地失败，人们凌晨 3 点醒来，需要 30-60 分钟才能恢复，而公司每次事件损失 5 万到 25 万美元。 ARF 使用 3 个专门的 AI 智能体： * 侦探：通过 FAISS 向量记忆进行异常检测 * 诊断师：使用因果推理进行根本原因分析 * 预测：在故障发生前进行预测结果：平均修复时间（MTTR）为 2 分钟（而手动修复为 45 分钟），收入恢复 15-30%。技术栈：Python 3.12、FAISS、SentenceTransformers、Gradio 测试：158 个测试中通过 157 个（覆盖率 99.4%）文档：8 个综合文件，共 42,000 字实时演示：[https://huggingface.co/spaces/petter2025/agentic-reliability-framework](https://huggingface.co/spaces/petter2025/agentic-reliability-framework) 一个有趣的技术挑战是让智能体在没有紧密耦合的情况下进行协调。每个智能体都可以独立测试，但为了进行整体分析，它们会被编排在一起。很乐意回答关于多智能体系统、生产可靠性模式或用于事件召回的 FAISS 的问题！ GitHub：[https://github.com/petterjuan/agentic-reliability-framework](https://github.com/petterjuan/agentic-reliability-framework) （如果您需要在您的基础设施中部署此系统，也可提供咨询服务：[https://lgcylabs.vercel.app/](https://lgcylabs.vercel.app/)）

WeTransfer 创始人推出新文件共享服务 Boomerang

1 分•作者: uijl•7 个月前

Show HN: Construct – 采用 CodeAct 工具调用的、API 优先的编码助手

1 分•作者: furisto•7 个月前

Construct 是一款开源的 AI 编程助手，它以 gRPC 服务的形式运行，而不仅仅是一个 CLI 工具。你可以在笔记本电脑上本地运行它，也可以在远程服务器上运行，连接多个客户端，断开和重新连接而不会丢失上下文，并且可以轻松地将其集成到其他工具中。我想要一个可以一直运行，随时可以回来使用的工具，并且易于在沙盒中运行。与使用 JSON 模式不同，代理使用 JavaScript 与工具交互。这意味着它们可以使用循环、条件语句、错误处理，并且鼓励它们在一轮中执行多次调用（如果需要，可以在一轮中执行数百次）。如果你想看看它的样子，README 中有一个视频。这种方法受到了 CodeAct 论文（<a href="https://arxiv.org/abs/2402.01030" rel="nofollow">https://arxiv.org/abs/2402.01030</a>）的启发，该论文发现代理在使用代码而不是 JSON 调用工具时表现更好。我在这里更详细地解释了好处：<a href="https://github.com/Furisto/construct/blob/main/docs/tool_calling.md" rel="nofollow">https://github.com/Furisto/construct/blob/main/docs/tool_cal...</a> 它内置了用于不同任务（规划/实施/优化）的代理，或者你可以使用自定义提示和模型分配来创建自己的代理。它是一个单一的 Go 二进制文件，不需要 npm 或类似的东西。目前支持 Anthropic，很快将支持其他提供商。很乐意回答有关架构或工具调用方法的问题。

Show HN: Moss – 面向 AI 代理的密码学签名

1 分•作者: ysablewolf•7 个月前

我花了 20 年时间构建身份和安全系统（EA、Nexon IPO，两项加密身份验证专利）。去年开始构建多智能体管道，遇到了一个问题：当出现故障时，无法知道哪个智能体产生了什么结果。 MOSS 为智能体提供加密身份并签署其输出。每个签名都包含 ML-DSA-44（后量子，FIPS 204）、用于重放检测的序列号和 SHA-256 负载哈希。 ```python pip install moss-sdk from moss import Subject agent = Subject.create("moss:myapp:agent-1") envelope = agent.sign({"action": "approve", "amount": 500}) ``` 密钥存储在本地的 ~/.moss/keys/ 目录下。没有云端，没有账户。框架集成：moss-crewai, moss-autogen, moss-langgraph, moss-langchain 选择后量子的原因：审计日志需要保持可验证性多年。出于这个原因，选择了 ML-DSA-44 而不是 Ed25519。规范：[https://github.com/mosscomputing/moss/blob/main/SPEC.md](https://github.com/mosscomputing/moss/blob/main/SPEC.md) 网站：[https://mosscomputing.com](https://mosscomputing.com) 很乐意回答有关设计的任何问题。

Show HN: Thinkmoon.ai – 打造你的专属 Alpha 竞技场，与 AI 智能体交易加密货币

1 分•作者: thinkmoon•7 个月前

使用 ThinkMoon，你可以构建自己的 Alpha 竞技场：插入来自 OpenRouter、OpenAI、Anthropic（或我们定制的）的模型，向它们提供实时数据（K线图、订单簿、行情），然后让它们交易真实的加密货币（通过币安期货）。你可以定义规则：风险限额、交易哪些币种（BTC、ETH、SOL、XRP… 随意），甚至混合使用不同的 LLM 并比较它们的表现。 AI 的每一次操作都会被记录——完整的提示、推理、市场快照——这样你就可以审计或从中学习。有一个实时仪表盘，显示盈亏、持仓情况和 AI 的思维链。通过 Telegram 或 Slack 警报，在交易发生时通知你。此外，还有止损、止盈、仓位限制，以及当回撤过大时的紧急停机开关。我们目前正在测试微调模型，如 DeepSeek 3.2 Speciale 和 Grok 4.1——早期结果看起来很有希望，表现比通用模型更稳定。很想听听你希望 AI 交易助手具备哪些功能。（LLM 编排和逻辑框架：LangChain）

Launch HN: Mentat (YC S16) – 通过运行时干预控制 LLM

7 分•作者: cgorlla•7 个月前

大家好，我是 CTGT 的 Cyril。今天我们推出了 Mentat (<a href="https://api.ctgt.ai/v1/chat/completions">https://api.ctgt.ai/v1/chat/completions</a>)，这是一个 API，让开发者能够对 LLM 的行为进行确定性控制，引导推理并即时消除偏见，无需微调的计算量，也不会像提示工程那样脆弱。我们使用特征级干预和基于图的验证来修复幻觉并执行策略。这在高度监管的行业或 AI 应用中具有重要意义，在这些领域中，不正确或表现不佳的输出可能带来严重后果。在金融服务领域，使用 GenAI 扫描违规通信可能非常费力，如果没有一种简单的方法将复杂的策略嵌入到模型中。同样，媒体机构可能希望扩展其内容的 AI 生成摘要，但可靠性和准确性至关重要。这两者都是财富 500 强公司利用我们的技术来改善现有模型表现不佳的应用场景，我们希望将这种能力带给更多人。这里有一个 2 分钟的快速演示视频，展示了该过程：<a href="https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cfnl">https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cf...</a>像 RAG 和系统提示这样的标准“护栏”本质上是概率性的：你本质上是在礼貌地要求模型表现良好。这通常会以两种方式失败。首先，RAG 解决了知识的可用性，但没有解决整合。在我们的基准测试中，一个模型被提供了“勒威克在托尔斯港东南 228 英里”的上下文，但未能回答“勒威克西北 228 英里是什么？”因为它无法执行空间反演。其次，提示工程很脆弱，因为它与模型的预训练先验作斗争。例如，在 TruthfulQA 基准测试中，基础模型大约 80% 的时间都会失败，因为它们模仿了互联网上常见的误解（例如，“变色龙为了伪装而改变颜色”）。我们发现，我们可以字面意思地调高“怀疑推理”的特征，使模型忽略流行的神话，并输出科学事实。这很重要，因为对于高风险用例（如金融或制药），“基本安全”是不可接受的——公司需要审计级的可靠性。我们的工作源于 UCSD 的 CS 地下室，我们花费数年时间研究高效且可解释的 AI，试图“打开”神经网络的“黑匣子”。我们意识到，业界试图从外部（提示/过滤器）修补模型行为，而问题却在内部（特征激活）。当我们看到企业即使拥有无限的计算能力，也难以部署基本模型，仅仅是因为他们无法保证输出不会违反合规性规则时，我们知道这很重要。我最终离开了我在斯坦福大学的研究，专注于此。我们的突破来自于对 DeepSeek-R1 模型的深入研究。我们确定了其潜在空间中的“审查”特征向量。放大它保证了拒绝；减去它立即解锁了对敏感问题的回答。这证明了模型拥有知识，但正在抑制它。我们意识到，我们可以将同样的逻辑应用于幻觉，抑制“臆造”特征以揭示真实情况。虽然一些幻觉源于生成模型的固有随机性，但许多幻觉可以通过特征或特征组的协同激活来识别。我们没有过滤输出，而是在前向传递期间在激活级别进行干预。我们识别与特定行为（偏见、误解）相关的潜在特征向量 (v)，并在数学上修改隐藏状态 (h)：<pre><code> h_prime = h - alpha * (h @ v) * v </code></pre> 这种算术运算使我们能够以可忽略的开销（在 R1 上 <10ms）确定性地“编辑”行为。对于事实主张，我们将其与图验证管道相结合（该管道适用于封闭权重模型）。我们检查语义熵（模型是否在胡言乱语？）并将主张与动态知识图进行交叉引用，以捕捉向量搜索遗漏的微妙的关系幻觉。在 GPT-OSS-120b 上，这种方法通过抑制误解特征，将 TruthfulQA 的准确率从 21% 提高到 70%。我们还在 HaluEval-QA 上提高了该模型的性能，达到了前沿水平，准确率达到 96.5%，解决了基线失败的空间推理问题。它还可以处理嘈杂的输入，从拼写错误“David Of me”推断出“David Icke”，而基础模型则放弃了。完整的基准测试见 <a href="https://ctgt.ai/benchmarks">https://ctgt.ai/benchmarks</a>。这个领域的大多数初创公司都是可观察性工具，它们只在模型失败后才告诉你。或者它们是将上下文塞入窗口的 RAG 管道。Mentat 是一个基础设施层，它在推理期间修改模型的处理过程。我们修复推理，而不仅仅是上下文。例如，这就是我们的系统能够强制执行如果 A 在 B 的东南方，那么 B 在 A 的西北方。我们相信，我们的策略引擎是优于 RAG 或提示的控制机制。如果您对当前的护栏感到沮丧，我们希望您能对我们的 API 进行压力测试！API：我们的端点与 OpenAI 的 /v1/chat/completions 兼容：<a href="https://docs.ctgt.ai/api-reference/endpoint/chat-completions">https://docs.ctgt.ai/api-reference/endpoint/chat-completions</a>Playground：我们构建了一个“竞技场”视图，用于并排比较未受控模型和受控模型，以实时可视化干预差异。无需注册：<a href="https://playground.ctgt.ai/">https://playground.ctgt.ai/</a>我们很乐意听取您对该方法的反馈，并看看您能找到哪些破坏标准模型的边缘情况。我们将在评论区全天候回复。欢迎所有反馈！

Show HN: 本地隐私防火墙——在 ChatGPT 看到之前拦截 PII 和密钥

8 分•作者: arnabkarsarkar•7 个月前

我是楼主。我构建这个工具是因为我最近差点把包含 AWS 密钥的日志块粘贴到 Claude 里。问题：我需要云模型（GPT/Claude/Gemini）的推理能力，但我不能相信自己不会意外泄露 PII 或密钥。解决方案：一个 Chrome 扩展程序，充当本地中间件。它拦截提示并运行一个本地 BERT 模型（通过 Python FastAPI 后端），在请求离开浏览器之前清除姓名、电子邮件和密钥。首先说明几点（为了明确预期）：所有操作都在本地 100% 运行。正则表达式检测在扩展程序本身中进行。高级检测 (NER) 使用一个小型转换器模型，通过 FastAPI 在本地主机上运行。任何数据都不会发送到服务器。您可以在代码 + 开发者工具网络面板中验证这一点。这是一个早期原型。会有一些粗糙的地方。我正在寻求关于 UX、检测质量以及本地代理方法是否合理的反馈。技术栈： Manifest V3 Chrome 扩展程序 Python FastAPI (本地主机) HuggingFace dslim/bert-base-NER 路线图 / 征求反馈：目前，Python 后端增加了一些摩擦。我昨天在 Reddit 上收到了反馈，建议我将推理移植到 transformer.js，通过 WASM 完全在浏览器中运行。我决定使用 Python 后端发布 v1 以确保稳定性，但我正在积极研究 ONNX/WASM 路线，用于 v2 以消除对本地服务器的依赖。如果有人有通过 transformer.js 在 Service Worker 中运行 NER 模型的经验，我很乐意听取关于性能与原生 Python 的比较。代码库采用 MIT 许可证。非常欢迎提出想法、建议或替代方法。

绝对是最酷炫的 3D 网站之一

25 分•作者: razzmataks•7 个月前

Show HN: Freedom Graph – 自由度图表：一款模拟“回报序列风险”的财务计算器

2 分•作者: Nathanadian•7 个月前

Hi HN，我开发了 Freedom Graph，因为它想找一个能更真实地模拟市场波动和灵活支出的财务独立（FI）计算器。很多计算器都假设固定回报、固定的提款规则，以及“实际回报 = 名义回报 – 通货膨胀”的近似计算。这对于粗略估算来说还可以，但当你关注时序风险，或者像“我应该再工作一年吗？”这样的决策时，就不太适用了。以下是我希望明确模拟的现实因素： * **时序风险：** 可选的市场随机性（正负年份混合，长期平均复合年增长率约为 10%），以展示即使长期平均表现良好，提前退休计划也可能失败的原因。 * **正确的实际回报计算：** 使用费雪方程式，而不是线性近似，因为线性近似在长时间范围内会产生不同的复利效果。 * **自适应策略：** 模拟“再工作一年”的情景和支出灵活性，以了解行为如何影响成功概率。其他用户体验优化： * 使用 React + Vite 构建；不会向任何地方发送输入数据。 * 本地存储在浏览器会话之间保留输入数据。 * 达到目标后，财务独立收入会自动调整。 * 深色/浅色模式。我非常欢迎大家对用户体验和假设/行为杠杆提出反馈。如果你认为有什么错误或误导的地方，请告诉我。谢谢！

问 HN：应该在 HN 指导原则中禁止“我问了 $AI，它说”这样的回复吗？

145 分•作者: embedding-shape•7 个月前

随着各种大型语言模型（LLM）越来越受欢迎，诸如“我问了Gemini，Gemini说……”之类的评论也越来越多。虽然Hacker News（HN）的指导方针是在不同的时期编写（并不断迭代）的，但似乎是时候讨论一下是否应该欢迎这类评论了。一些例子：- https://news.ycombinator.com/item?id=46164360- https://news.ycombinator.com/item?id=46200460- https://news.ycombinator.com/item?id=46080064就我个人而言，我上HN是为了参与人类的对话，而大型LLM生成的文本只会妨碍我阅读真实人类（至少是假设的）的真实文本。你觉得呢？那些基本上归结为“我问了$LLM关于$X的问题，以下是$LLM的回答：”的回复应该被允许在HN上吗？是否应该更新指导方针，声明人们不应该对其进行批判（类似于目前的其他指导方针），或者应该添加新的指导方针，要求人们不要将大型LLM的回复复制粘贴到评论中，还是应该采取其他完全不同的措施？

教育学硕士值得读吗？不值得

1 分•作者: barry-cotter•7 个月前

Lightmatter 旨在通过 3D 光子互连技术，超越 I/O 瓶颈

1 分•作者: rbanffy•7 个月前

LMArena 是人工智能领域的一颗毒瘤

2 分•作者: holdingunsteady•7 个月前

哪个小模型最适合微调？我们在 8 个任务上测试了 12 个模型。

2 分•作者: maciejgryka•7 个月前

Show HN：我做了个移民表格版 TurboTax

3 分•作者: mjablons•7 个月前

Prettier Oxc 插件

1 分•作者: Lwrless•7 个月前

OpenSpand – 辛克莱 ZX81、Timex Sinclair 1000 或克隆机的扩展板

1 分•作者: rbanffy•7 个月前

上一页 1...3014 3015 3016 3017 3018...5492 下一页