最新

特朗普使用人工智能图像的行为突破了新的界限，进一步侵蚀了公众信任。

1 分•作者: geox•16 天前

波士顿的科技与创新领域正在衰退吗？

1 分•作者: martincmartin•16 天前

Lennart Poettering 和 Christian Brauner 创立了一家新公司。

1 分•作者: hornedhob•16 天前

工作清单：团队适用的零知识任务管理器

1 分•作者: a0b2a33•16 天前

自主编码的谱系

1 分•作者: ykdojo•16 天前

Show HN: Agent Composer – 用于火箭科学（以及其他难题）的 AI 智能体

1 分•作者: jayc481•16 天前

大家好，我是 Contextual AI 的 Jay（网址：https://contextual.ai/）。我们一直在构建一个面向技术行业的 AI 智能体平台，主要针对半导体、航空航天、制造业等领域。Agent Composer 是我们新推出的强大可视化构建器和运行时，用于创建能够基于技术文档、日志和规范进行推理的智能体。我们解决的问题是：通用 AI 在复杂的的技术任务上表现不佳。这并非因为模型本身能力不足，而是因为它们无法访问正确的上下文信息（数据表、测试日志、流程规范、机构知识）。 Agent Composer 的功能： * 三种创建智能体的方式：预构建模板、自然语言描述或空白画布 * 可视化拖放式构建器，提供无代码体验，同时为开发人员提供 YAML 配置 * 混合工作流程：将确定性步骤（合规性检查、验证）与动态推理（根本原因分析、研究）相结合 * 基于您的数据，并提供完整归因我们在此过程中学到的： * 解析比人们想象的更重要。包含表格、图表和交叉引用的技术 PDF 会让大多数现成的解析器崩溃。我们构建了自己的解析器。 * 检索精度至关重要。基本的向量搜索可以解决 70% 的问题；剩下的 30% 需要混合检索、重新排序和查询重构。这最后的 30% 区分了“炫酷演示”和“真正有用”。 * 企业需要控制。纯粹的自主智能体会让合规团队感到担忧。在同一个工作流程中混合确定性和动态步骤的能力，是对客户反馈的直接回应。以下是一些供您探索的链接： * 产品快速入门指南：https://docs.contextual.ai/quickstarts/agent-composer * 我们构建的有趣的火箭科学演示：https://demo.contextual.ai/ * 博客：https://contextual.ai/blog/introducing-agent-composer * 免费帐户注册链接：https://app.contextual.ai/?signup=1 很乐意深入探讨架构、检索策略或经验教训。您有什么问题或反馈吗？

《华盛顿邮报》或将在裁员之际裁撤体育版面

1 分•作者: ortusdux•16 天前

Hypercubic (YC F25) 正在招聘创始软件工程师和 COBOL 工程师

1 分•作者: sai18•16 天前

Show HN: Cosmic AI 工作流 – 链式 AI 智能体，自动化多步骤项目

2 分•作者: tonyspiro•16 天前

您好，我是 Tony，Cosmic（由 AI 驱动的无头 CMS 和应用程序开发平台）的创始人。我们一直遇到同样的问题：借助 AI 助手创建一篇博文，使用输出结果生成社交帖子，然后手动发布到 X、LinkedIn、Facebook 上。每次都是这样。所以我们构建了 AI 工作流程——将多个助手串联起来，让它们自主运行，每个步骤接收前一个步骤的输出。您可以串联三种类型的助手：- 代码助手：通过提交和拉取请求在 GitHub 中构建功能。- 内容助手：根据前几个步骤的上下文注入生成 CMS 内容。- 计算机使用助手：自动化浏览器工作流程并录制演示。工作原理：1. 使用助手类型、提示和配置定义步骤2. 步骤按顺序或并行运行（可配置）3. 上下文在步骤之间自动传递4. 手动触发、按计划（cron）触发，或通过 CMS 和 API 事件（object.created、object.edited 等）触发5. 在关键步骤之前添加审批门，供人工审核示例：自动驾驶功能开发：步骤 1：内容助手根据用户反馈编写功能规范步骤 2：代码助手构建该功能，创建 PR，并部署到生产环境步骤 3：内容助手生成文档和更新日志条目步骤 4：计算机使用助手将更新发布到团队 Slack，附带 PR 链接和预览 URL目前处于 Beta 测试阶段。欢迎提供关于工作流程模型的反馈，以及您希望自动化的用例。

自特朗普上任以来，美国政府流失了超过一万名 STEM 博士。

283 分•作者: j_maffe•16 天前

Show HN: Mystral Native – 使用 WebGPU 原生运行 JavaScript 游戏（无需浏览器）

5 分•作者: Flux159•16 天前

大家好，我在构建 Mystral Native——一个轻量级的原生运行时，它允许你使用标准的 Web API（WebGPU、Canvas 2D、Web Audio、fetch）用 JavaScript/TypeScript 编写游戏，并将它们作为独立的桌面应用程序运行。可以把它想象成“游戏版的 Electron”，但没有 Chromium。或者像 Node、Deno 或 Bun 这样的 JS 运行时，但针对 WebGPU 进行了优化（并使用 SDL3 捆绑了一个窗口/事件系统）。为什么：我最初开始是想用 WebGPU 启动一个新的游戏引擎，并且我喜欢用 Typescript 编写代码，并在浏览器中即时看到更改的热重载迭代循环。在让它工作并发布一个演示后，我意识到如果我也想让同一个代码库在移动设备上运行，那么发布整个浏览器实际上是行不通的。当然，我可以使用 webview，但这对于用户来说并不总是一个好或一致的体验——iOS 上的 Safari 支持 WebGPU 存在一些细微差别，但它不具备 Chrome 在桌面端所拥有的相同功能。我真正想要的是一个一致的、可以在任何平台上运行的 WebGPU 运行时。我受到了 deno 的 --unsafe-webgpu 标志的启发，但我意识到 deno 长期来看可能不太合适，因为它不支持 iOS 或 Android，并且没有捆绑窗口/事件系统（它们有“自带窗口”的选项，但这意味着要编写大量的自定义代码来处理事件、处理窗口，更不用说实现 WebAudio 模拟器等更具体的事情了）。所以这让我走上了构建一个专门用于游戏的原生运行时的道路，这就是 Mystral Native。现在有了 Mystral Native，我可以拥有相同的开发者体验（编写 JS，使用 WGSL 中的着色器，调用 requestAnimationFrame），但可以获得一个真正的原生二进制文件，我可以将其发布给任何平台上的玩家，而无需 webview 或浏览器。没有 200MB 的 Chromium 运行时，没有 CEF 开销，只有游戏代码和一个大约 25MB 的运行时。它的功能： * 通过 Dawn（Chrome 的实现）或 wgpu-native (Rust) 实现完整的 WebGPU * 通过 SDL3 实现原生窗口和事件 * Canvas 2D 支持 (Skia)，Web Audio (SDL3)，fetch (file/http/https) * V8 用于 JS（与 Chrome/Node 相同的引擎），也支持 QuickJS 和 JSC * ES 模块，通过 SWC 实现 TypeScript * 编译成单个二进制文件（类似于“pkg”）：`mystral compile game.js --include assets -o my-game` * 带有代码签名的 macOS .app 捆绑包，Linux/Windows 独立可执行文件 * iOS 和 Android 的嵌入 API (JSC/QuickJS + wgpu-native) 目前是早期 alpha 版本——核心渲染路径运行良好，并且我在 Mac、Linux (Ubuntu 24.04) 和 Windows 11 上进行了测试，以及一些 iOS 和 Android 的自定义构建，以验证它们是否可以工作，但还有很多需要改进的地方。希望得到一些反馈，看看它能发展到什么程度！ MIT 许可。仓库：[https://github.com/mystralengine/mystralnative](https://github.com/mystralengine/mystralnative) 文档：[https://mystralengine.github.io/mystralnative/](https://mystralengine.github.io/mystralnative/)

Ask HN: 如果 OpenAI 停止其免费网络服务 (ChatGPT)

2 分•作者: JPLeRouzic•16 天前

那么我猜他们的竞争对手会停止他们自己的免费大语言模型服务（为什么要烧钱呢？）。我可以使用什么样的本地大语言模型来至少检查我的代码呢？

爪爪机器人更名为蜕变机器人

21 分•作者: philip1209•16 天前

棱镜

66 分•作者: meetpateltech•16 天前

Ask HN: 在LLM辅助编程时代，如何避免技能退化？

1 分•作者: py4•17 天前

技术技能还会重要吗？

我们几乎 100% 的代码都是由 Claude Code 和 Opus 4.5 编写的。

1 分•作者: sysoleg•17 天前

斯坦福科学家揭示现存最古老星空图

1 分•作者: dr_dshiv•17 天前

人工智能与社会：技术采纳的三个阶段

1 分•作者: sschotten•17 天前

OpenAI Prism

1 分•作者: davidbarker•17 天前

Show HN: LemonSlice – 给你的语音助手安上脸

5 分•作者: lcolucci•17 天前

大家好，我们是 LemonSlice (<a href="https://lemonslice.com">https://lemonslice.com</a>) 的联合创始人。我们训练交互式虚拟形象视频模型。通过我们的 API，您可以上传照片，然后立即与该角色进行 FaceTime 风格的通话。这是一个演示：<a href="https://www.loom.com/share/941577113141418e80d2834c83a5a0a9" rel="nofollow">https://www.loom.com/share/941577113141418e80d2834c83a5a0a9</a> 聊天机器人无处不在。语音 AI 最近也蓬勃发展。但我们认为视频虚拟形象将成为会话式 AI 最常见的形式。大多数人更愿意观看内容而不是阅读。问题在于，实时生成视频非常困难，而克服“恐怖谷效应”则更难。我们尚未突破恐怖谷效应。没有人做到。但我们正在接近，而且我们逼真的虚拟形象目前是同类产品中最好的（您可以自己判断：<a href="https://lemonslice.com/try/taylor">https://lemonslice.com/try/taylor</a>）。此外，我们是唯一可以制作动物和高度风格化卡通形象的虚拟形象模型。试试看：<a href="https://lemonslice.com/try/alien">https://lemonslice.com/try/alien</a>。警告！和这个小家伙聊天可能会改善你的心情。今天，我们发布了我们的新模型* - Lemon Slice 2，一个 200 亿参数的扩散 Transformer，可以在单个 GPU 上以 20fps 的速度生成无限长度的视频 - 并开放我们的 API。我们是如何让视频扩散模型实时运行的？这并非单一技巧，而是很多技巧叠加在一起的结果。第一个重大变化是让我们的模型具有因果性。标准的视频扩散模型是双向的（它们会查看当前帧之前和之后的帧），这意味着您无法进行流式传输。从那里开始，就是将所有内容都放在一个 GPU 上。我们从全注意力机制切换到滑动窗口注意力机制，这解决了我们的内存瓶颈。我们从 40 个去噪步骤提炼到只有几个 - 质量下降的程度低于我们担心的，尤其是在使用基于 GAN 的蒸馏之后（尽管调整该对抗性损失以避免模式崩溃是其自身的挑战）。剩下的就是推理工作：将 RoPE 从复数改为实数（这个很酷！），精度调整，融合内核，一个特殊的滚动 KV 缓存，大量的其他缓存等等。我们不断地尽可能地减少毫秒数，最终实现了实时。我们为 HN 搭建了一个访客游乐场，您可以在其中创建角色并与他们交谈，无需登录：www.lemonslice.com/hn。对于那些希望使用我们的 API 进行构建的人（我们有一个新的 LiveKit 集成，我们对此感到非常兴奋！），请在 HN 游乐场中获取优惠券代码，即可免费获得第一个 Pro 月份（价值 100 美元）。请参阅文档：<a href="https://lemonslice.com/docs">https://lemonslice.com/docs</a>。定价是基于使用量的，视频生成费用为 0.12-0.20 美元/分钟。期待您的反馈！我们也很乐意看到您制作的任何酷炫角色 - 请在评论中分享他们的链接 *我们去年为我们的 V1 模型做了一个 Show HN：<a href="https://news.ycombinator.com/item?id=43785044">https://news.ycombinator.com/item?id=43785044</a>。它在技术上令人印象深刻，但与我们今天拥有的相比，简直太糟糕了。

上一页 1...247 248 249 250 251...3460 下一页