5作者: lcolucci17 天前
大家好,我们是 LemonSlice (<a href="https://lemonslice.com">https://lemonslice.com</a>) 的联合创始人。我们训练交互式虚拟形象视频模型。通过我们的 API,您可以上传照片,然后立即与该角色进行 FaceTime 风格的通话。这是一个演示:<a href="https://www.loom.com/share/941577113141418e80d2834c83a5a0a9" rel="nofollow">https://www.loom.com/share/941577113141418e80d2834c83a5a0a9</a> 聊天机器人无处不在。语音 AI 最近也蓬勃发展。但我们认为视频虚拟形象将成为会话式 AI 最常见的形式。大多数人更愿意观看内容而不是阅读。问题在于,实时生成视频非常困难,而克服“恐怖谷效应”则更难。 我们尚未突破恐怖谷效应。没有人做到。但我们正在接近,而且我们逼真的虚拟形象目前是同类产品中最好的(您可以自己判断:<a href="https://lemonslice.com/try/taylor">https://lemonslice.com/try/taylor</a>)。此外,我们是唯一可以制作动物和高度风格化卡通形象的虚拟形象模型。试试看:<a href="https://lemonslice.com/try/alien">https://lemonslice.com/try/alien</a>。警告!和这个小家伙聊天可能会改善你的心情。 今天,我们发布了我们的新模型* - Lemon Slice 2,一个 200 亿参数的扩散 Transformer,可以在单个 GPU 上以 20fps 的速度生成无限长度的视频 - 并开放我们的 API。 我们是如何让视频扩散模型实时运行的?这并非单一技巧,而是很多技巧叠加在一起的结果。第一个重大变化是让我们的模型具有因果性。标准的视频扩散模型是双向的(它们会查看当前帧之前和之后的帧),这意味着您无法进行流式传输。 从那里开始,就是将所有内容都放在一个 GPU 上。我们从全注意力机制切换到滑动窗口注意力机制,这解决了我们的内存瓶颈。我们从 40 个去噪步骤提炼到只有几个 - 质量下降的程度低于我们担心的,尤其是在使用基于 GAN 的蒸馏之后(尽管调整该对抗性损失以避免模式崩溃是其自身的挑战)。 剩下的就是推理工作:将 RoPE 从复数改为实数(这个很酷!),精度调整,融合内核,一个特殊的滚动 KV 缓存,大量的其他缓存等等。我们不断地尽可能地减少毫秒数,最终实现了实时。 我们为 HN 搭建了一个访客游乐场,您可以在其中创建角色并与他们交谈,无需登录:www.lemonslice.com/hn。对于那些希望使用我们的 API 进行构建的人(我们有一个新的 LiveKit 集成,我们对此感到非常兴奋!),请在 HN 游乐场中获取优惠券代码,即可免费获得第一个 Pro 月份(价值 100 美元)。请参阅文档:<a href="https://lemonslice.com/docs">https://lemonslice.com/docs</a>。定价是基于使用量的,视频生成费用为 0.12-0.20 美元/分钟。 期待您的反馈!我们也很乐意看到您制作的任何酷炫角色 - 请在评论中分享他们的链接 *我们去年为我们的 V1 模型做了一个 Show HN:<a href="https://news.ycombinator.com/item?id=43785044">https://news.ycombinator.com/item?id=43785044</a>。它在技术上令人印象深刻,但与我们今天拥有的相比,简直太糟糕了。
3作者: Berticus1217 天前
我构建 Lightbox 是因为我一直遇到同样的问题:一个智能体在生产环境中失败了,而我却无法知道到底发生了什么。<p>日志分散,LLM 的“我调用了工具”并不可靠,而且重新运行也不具有确定性。<p>这周,大量的 Clawdbot 事件已经证明了这一点。具有完全系统访问权限的智能体可能会暴露 API 密钥和聊天记录。提示注入现在是一个主要的安全问题。<p>当智能体可以触及你的文件系统、执行代码和浏览网页时……你可能需要一个防篡改的记录,准确记录它所采取的行动,尤其是在恶意提示或被入侵的网页可能在会话中劫持智能体的情况下。<p>Lightbox 是一个小的 Python 库,它将智能体进行的每个工具调用(输入、输出、时间)记录到一个具有加密哈希的仅追加日志中。你可以使用模拟的响应重放运行,比较不同版本之间的执行情况,并在事后验证日志的完整性。<p>想象一下飞机的黑匣子,但它是为你的黑客工具准备的。<p>*它的作用:*<p>- 在本地记录工具调用(无云,你的基础设施)<p>- 防篡改日志(哈希链,可验证)<p>- 使用记录的响应准确地重放失败<p>- CLI 用于检查、重放、比较和验证会话<p>- 与框架无关(适用于 LangChain、Claude、OpenAI 等)<p>*它不做什么:* - 不重放 LLM 本身(仅工具调用) - 不是仪表板或分析平台 - 并非试图取代 LangSmith/Langfuse(不同的问题)<p>*我关心的用例:*<p>- 安全取证:智能体行为异常,是提示注入吗?检查追踪记录。<p>- 合规性:“证明你的智能体上周二做了什么”<p>- 调试:在不重新运行昂贵的 API 调用的情况下重现失败<p>- 回归测试:比较不同智能体版本之间的工具调用模式<p>随着智能体变得越来越强大和自主(Clawdbot/Molt、Claude 计算机使用、Manus、Devin),我认为我们需要像航空业一样的黑匣子。<p>这是我对此原始概念的尝试。<p>它还处于早期阶段(v0.1),有意保持极简,并采用 MIT 许可证。<p>网站:&lt;<a href="https:&#x2F;&#x2F;uselightbox.app" rel="nofollow">https:&#x2F;&#x2F;uselightbox.app</a>&gt; 安装:`pip install lightbox-rec`<p>GitHub:&lt;<a href="https:&#x2F;&#x2F;github.com&#x2F;mainnebula&#x2F;Lightbox-Project" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;mainnebula&#x2F;Lightbox-Project</a>&gt;<p>欢迎反馈,特别是来自任何考虑智能体安全或在生产环境中运行自主智能体的人。