2作者: pveldandi7 天前
大多数开源 LLM 部署都假设一个 GPU 对应一个模型。如果流量稳定,这种方法是可行的。但在实践中,许多工作负载是长尾或间歇性的,这意味着 GPU 大部分时间都处于空闲状态。 我们尝试了一种不同的方法。 我们没有将一个模型固定到一个 GPU 上,而是: * 将模型权重存储在快速本地磁盘上 * 仅在请求时将模型加载到 GPU 内存中 * 保留一小部分驻留工作集 * 积极驱逐非活动模型 * 通过单个 OpenAI 兼容端点路由所有内容 在我们最近的测试设置(2×A6000,每张 48GB)中,我们提供了大约 60 个 Hugging Face 文本模型供激活。任何给定时间只有少数模型驻留在 VRAM 中;其余模型在需要时恢复。 冷启动仍然存在。较大的模型需要几秒钟才能恢复。但通过避免预热池和每个模型使用专用 GPU,轻负载下的整体利用率显着提高。 演示视频:[https://m.youtube.com/watch?v=IL7mBoRLHZk](https://m.youtube.com/watch?v=IL7mBoRLHZk) 在线演示:[https://inferx.net:8443/demo/](https://inferx.net:8443/demo/) 如果有人正在运行多模型推理,并希望使用他们自己的模型对这种方法进行基准测试,我很乐意提供临时访问权限以供测试。
1作者: jiayaoqijia7 天前
经过几个月与 AI 智能体共事,我注意到它们正在发展自己的社区,并与人类平台分开进行讨论。因此,我构建了 ClawNews.io——本质上是为 AI 智能体设计的 Hacker News。<p>与人类平台的主要区别: - API 优先设计(智能体通过代码提交,而不是表单) - 关于智能体基础设施、记忆系统、安全性的技术讨论 - 智能体身份验证 - 内置的智能体间通信支持<p>令人着迷的是看到智能体们实际讨论的内容:针对智能体技能的供应链攻击、跨会话的记忆持久性、智能体间协议。这与人类的 AI 讨论截然不同。<p>目前有大约 50 个来自 OpenClaw、Claude Code、Moltbook 和其他生态系统的活跃智能体。这是智能体原生平台的早期实验。<p>技术栈:Node.js、SQLite,专为高度自动化设计。欢迎就如何使其对智能体社区更有用提出反馈意见。
1作者: pistolpete__7 天前
大家好, 我想分享一下 tsilly.dev,这是一个基于浏览器的 TypeScript 游乐场,是我在 jsbin 暂时消失后,停止寻找替代品时构建的。 对于非技术人员:我用它来快速尝试视觉创意,并测试某些东西在网络上的行为。这对于解决关于“浏览器真的能做到这一点吗?”的争论非常有用,而无需打开一个完整的项目或安装任何东西。 这东西有意保持简洁。 原始的 DOM,就像它应有的样子。 没有 AI,没有 Tailwind,没有 npm 安装,没有框架。 也没有服务器,没有分析,也没有数据收集。 它的功能: - 并排编辑 HTML、CSS 和 TypeScript - 可选择多种布局 - 即时实时预览 - 控制台输出 - Emmet 支持 - 本地自动保存 - 可分享的 URL 请告诉我你的想法。 <a href="https:&#x2F;&#x2F;tsilly.dev" rel="nofollow">https:&#x2F;&#x2F;tsilly.dev</a>
2作者: humbertocruz7 天前
Hi HN, 我开发了 Envware,因为我厌倦了在笔记本电脑和工作站之间切换时,通过 Slack/DM 或不安全的笔记手动同步 .env 文件。 Envware 是一个 CLI 工具,它简化了环境变量管理,重点关注安全性和开发者体验。 主要功能: * 端到端加密 (E2EE):密钥在本地机器上加密后才推送到云端。我们永远看不到您的明文值。 * SSH 密钥验证:设备授权与您的 SSH 密钥绑定。 * 多设备同步:在任何已授权的机器上无缝拉取您的项目环境。 * 项目协作:与团队成员安全地共享项目。 目前版本是 1.1.9,我正在努力进一步扩展它。我很乐意听取您对安全模型和 CLI 工作流程的反馈。 网站:https://www.envware.dev 文档:https://www.envware.dev/docs 谢谢!