1 分•作者: geox•16 天前
返回首页
最新
1 分•作者: martincmartin•16 天前
1 分•作者: hornedhob•16 天前
1 分•作者: a0b2a33•16 天前
1 分•作者: ykdojo•16 天前
1 分•作者: jayc481•16 天前
大家好,我是 Contextual AI 的 Jay(网址:https://contextual.ai/)。
我们一直在构建一个面向技术行业的 AI 智能体平台,主要针对半导体、航空航天、制造业等领域。Agent Composer 是我们新推出的强大可视化构建器和运行时,用于创建能够基于技术文档、日志和规范进行推理的智能体。
我们解决的问题是:通用 AI 在复杂的的技术任务上表现不佳。这并非因为模型本身能力不足,而是因为它们无法访问正确的上下文信息(数据表、测试日志、流程规范、机构知识)。
Agent Composer 的功能:
* 三种创建智能体的方式:预构建模板、自然语言描述或空白画布
* 可视化拖放式构建器,提供无代码体验,同时为开发人员提供 YAML 配置
* 混合工作流程:将确定性步骤(合规性检查、验证)与动态推理(根本原因分析、研究)相结合
* 基于您的数据,并提供完整归因
我们在此过程中学到的:
* 解析比人们想象的更重要。包含表格、图表和交叉引用的技术 PDF 会让大多数现成的解析器崩溃。我们构建了自己的解析器。
* 检索精度至关重要。基本的向量搜索可以解决 70% 的问题;剩下的 30% 需要混合检索、重新排序和查询重构。这最后的 30% 区分了“炫酷演示”和“真正有用”。
* 企业需要控制。纯粹的自主智能体会让合规团队感到担忧。在同一个工作流程中混合确定性和动态步骤的能力,是对客户反馈的直接回应。
以下是一些供您探索的链接:
* 产品快速入门指南:https://docs.contextual.ai/quickstarts/agent-composer
* 我们构建的有趣的火箭科学演示:https://demo.contextual.ai/
* 博客:https://contextual.ai/blog/introducing-agent-composer
* 免费帐户注册链接:https://app.contextual.ai/?signup=1
很乐意深入探讨架构、检索策略或经验教训。您有什么问题或反馈吗?
1 分•作者: ortusdux•16 天前
1 分•作者: sai18•16 天前
2 分•作者: tonyspiro•16 天前
您好,我是 Tony,Cosmic(由 AI 驱动的无头 CMS 和应用程序开发平台)的创始人。我们一直遇到同样的问题:借助 AI 助手创建一篇博文,使用输出结果生成社交帖子,然后手动发布到 X、LinkedIn、Facebook 上。每次都是这样。<p>所以我们构建了 AI 工作流程——将多个助手串联起来,让它们自主运行,每个步骤接收前一个步骤的输出。<p>您可以串联三种类型的助手:<p>- 代码助手:通过提交和拉取请求在 GitHub 中构建功能。<p>- 内容助手:根据前几个步骤的上下文注入生成 CMS 内容。<p>- 计算机使用助手:自动化浏览器工作流程并录制演示。<p>工作原理:<p>1. 使用助手类型、提示和配置定义步骤<p>2. 步骤按顺序或并行运行(可配置)<p>3. 上下文在步骤之间自动传递<p>4. 手动触发、按计划(cron)触发,或通过 CMS 和 API 事件(object.created、object.edited 等)触发<p>5. 在关键步骤之前添加审批门,供人工审核<p>示例:自动驾驶功能开发:<p>步骤 1:内容助手根据用户反馈编写功能规范<p>步骤 2:代码助手构建该功能,创建 PR,并部署到生产环境<p>步骤 3:内容助手生成文档和更新日志条目<p>步骤 4:计算机使用助手将更新发布到团队 Slack,附带 PR 链接和预览 URL<p>目前处于 Beta 测试阶段。欢迎提供关于工作流程模型的反馈,以及您希望自动化的用例。
283 分•作者: j_maffe•16 天前
5 分•作者: Flux159•16 天前
大家好,我在构建 Mystral Native——一个轻量级的原生运行时,它允许你使用标准的 Web API(WebGPU、Canvas 2D、Web Audio、fetch)用 JavaScript/TypeScript 编写游戏,并将它们作为独立的桌面应用程序运行。可以把它想象成“游戏版的 Electron”,但没有 Chromium。或者像 Node、Deno 或 Bun 这样的 JS 运行时,但针对 WebGPU 进行了优化(并使用 SDL3 捆绑了一个窗口/事件系统)。
为什么:我最初开始是想用 WebGPU 启动一个新的游戏引擎,并且我喜欢用 Typescript 编写代码,并在浏览器中即时看到更改的热重载迭代循环。在让它工作并发布一个演示后,我意识到如果我也想让同一个代码库在移动设备上运行,那么发布整个浏览器实际上是行不通的。当然,我可以使用 webview,但这对于用户来说并不总是一个好或一致的体验——iOS 上的 Safari 支持 WebGPU 存在一些细微差别,但它不具备 Chrome 在桌面端所拥有的相同功能。我真正想要的是一个一致的、可以在任何平台上运行的 WebGPU 运行时。我受到了 deno 的 --unsafe-webgpu 标志的启发,但我意识到 deno 长期来看可能不太合适,因为它不支持 iOS 或 Android,并且没有捆绑窗口/事件系统(它们有“自带窗口”的选项,但这意味着要编写大量的自定义代码来处理事件、处理窗口,更不用说实现 WebAudio 模拟器等更具体的事情了)。所以这让我走上了构建一个专门用于游戏的原生运行时的道路,这就是 Mystral Native。
现在有了 Mystral Native,我可以拥有相同的开发者体验(编写 JS,使用 WGSL 中的着色器,调用 requestAnimationFrame),但可以获得一个真正的原生二进制文件,我可以将其发布给任何平台上的玩家,而无需 webview 或浏览器。没有 200MB 的 Chromium 运行时,没有 CEF 开销,只有游戏代码和一个大约 25MB 的运行时。
它的功能:
* 通过 Dawn(Chrome 的实现)或 wgpu-native (Rust) 实现完整的 WebGPU
* 通过 SDL3 实现原生窗口和事件
* Canvas 2D 支持 (Skia),Web Audio (SDL3),fetch (file/http/https)
* V8 用于 JS(与 Chrome/Node 相同的引擎),也支持 QuickJS 和 JSC
* ES 模块,通过 SWC 实现 TypeScript
* 编译成单个二进制文件(类似于“pkg”):`mystral compile game.js --include assets -o my-game`
* 带有代码签名的 macOS .app 捆绑包,Linux/Windows 独立可执行文件
* iOS 和 Android 的嵌入 API (JSC/QuickJS + wgpu-native)
目前是早期 alpha 版本——核心渲染路径运行良好,并且我在 Mac、Linux (Ubuntu 24.04) 和 Windows 11 上进行了测试,以及一些 iOS 和 Android 的自定义构建,以验证它们是否可以工作,但还有很多需要改进的地方。希望得到一些反馈,看看它能发展到什么程度!
MIT 许可。
仓库:[https://github.com/mystralengine/mystralnative](https://github.com/mystralengine/mystralnative)
文档:[https://mystralengine.github.io/mystralnative/](https://mystralengine.github.io/mystralnative/)
2 分•作者: JPLeRouzic•16 天前
那么我猜他们的竞争对手会停止他们自己的免费大语言模型服务(为什么要烧钱呢?)。
我可以使用什么样的本地大语言模型来至少检查我的代码呢?
21 分•作者: philip1209•16 天前
66 分•作者: meetpateltech•16 天前
1 分•作者: py4•17 天前
技术技能还会重要吗?
1 分•作者: sysoleg•17 天前
1 分•作者: dr_dshiv•17 天前
1 分•作者: sschotten•17 天前
1 分•作者: davidbarker•17 天前
5 分•作者: lcolucci•17 天前
大家好,我们是 LemonSlice (<a href="https://lemonslice.com">https://lemonslice.com</a>) 的联合创始人。我们训练交互式虚拟形象视频模型。通过我们的 API,您可以上传照片,然后立即与该角色进行 FaceTime 风格的通话。这是一个演示:<a href="https://www.loom.com/share/941577113141418e80d2834c83a5a0a9" rel="nofollow">https://www.loom.com/share/941577113141418e80d2834c83a5a0a9</a>
聊天机器人无处不在。语音 AI 最近也蓬勃发展。但我们认为视频虚拟形象将成为会话式 AI 最常见的形式。大多数人更愿意观看内容而不是阅读。问题在于,实时生成视频非常困难,而克服“恐怖谷效应”则更难。
我们尚未突破恐怖谷效应。没有人做到。但我们正在接近,而且我们逼真的虚拟形象目前是同类产品中最好的(您可以自己判断:<a href="https://lemonslice.com/try/taylor">https://lemonslice.com/try/taylor</a>)。此外,我们是唯一可以制作动物和高度风格化卡通形象的虚拟形象模型。试试看:<a href="https://lemonslice.com/try/alien">https://lemonslice.com/try/alien</a>。警告!和这个小家伙聊天可能会改善你的心情。
今天,我们发布了我们的新模型* - Lemon Slice 2,一个 200 亿参数的扩散 Transformer,可以在单个 GPU 上以 20fps 的速度生成无限长度的视频 - 并开放我们的 API。
我们是如何让视频扩散模型实时运行的?这并非单一技巧,而是很多技巧叠加在一起的结果。第一个重大变化是让我们的模型具有因果性。标准的视频扩散模型是双向的(它们会查看当前帧之前和之后的帧),这意味着您无法进行流式传输。
从那里开始,就是将所有内容都放在一个 GPU 上。我们从全注意力机制切换到滑动窗口注意力机制,这解决了我们的内存瓶颈。我们从 40 个去噪步骤提炼到只有几个 - 质量下降的程度低于我们担心的,尤其是在使用基于 GAN 的蒸馏之后(尽管调整该对抗性损失以避免模式崩溃是其自身的挑战)。
剩下的就是推理工作:将 RoPE 从复数改为实数(这个很酷!),精度调整,融合内核,一个特殊的滚动 KV 缓存,大量的其他缓存等等。我们不断地尽可能地减少毫秒数,最终实现了实时。
我们为 HN 搭建了一个访客游乐场,您可以在其中创建角色并与他们交谈,无需登录:www.lemonslice.com/hn。对于那些希望使用我们的 API 进行构建的人(我们有一个新的 LiveKit 集成,我们对此感到非常兴奋!),请在 HN 游乐场中获取优惠券代码,即可免费获得第一个 Pro 月份(价值 100 美元)。请参阅文档:<a href="https://lemonslice.com/docs">https://lemonslice.com/docs</a>。定价是基于使用量的,视频生成费用为 0.12-0.20 美元/分钟。
期待您的反馈!我们也很乐意看到您制作的任何酷炫角色 - 请在评论中分享他们的链接
*我们去年为我们的 V1 模型做了一个 Show HN:<a href="https://news.ycombinator.com/item?id=43785044">https://news.ycombinator.com/item?id=43785044</a>。它在技术上令人印象深刻,但与我们今天拥有的相比,简直太糟糕了。