1 分•作者: freediver•7 天前
返回首页
最新
1 分•作者: Brajeshwar•7 天前
2 分•作者: pveldandi•7 天前
大多数开源 LLM 部署都假设一个 GPU 对应一个模型。如果流量稳定,这种方法是可行的。但在实践中,许多工作负载是长尾或间歇性的,这意味着 GPU 大部分时间都处于空闲状态。
我们尝试了一种不同的方法。
我们没有将一个模型固定到一个 GPU 上,而是:
* 将模型权重存储在快速本地磁盘上
* 仅在请求时将模型加载到 GPU 内存中
* 保留一小部分驻留工作集
* 积极驱逐非活动模型
* 通过单个 OpenAI 兼容端点路由所有内容
在我们最近的测试设置(2×A6000,每张 48GB)中,我们提供了大约 60 个 Hugging Face 文本模型供激活。任何给定时间只有少数模型驻留在 VRAM 中;其余模型在需要时恢复。
冷启动仍然存在。较大的模型需要几秒钟才能恢复。但通过避免预热池和每个模型使用专用 GPU,轻负载下的整体利用率显着提高。
演示视频:[https://m.youtube.com/watch?v=IL7mBoRLHZk](https://m.youtube.com/watch?v=IL7mBoRLHZk)
在线演示:[https://inferx.net:8443/demo/](https://inferx.net:8443/demo/)
如果有人正在运行多模型推理,并希望使用他们自己的模型对这种方法进行基准测试,我很乐意提供临时访问权限以供测试。
7 分•作者: sbachman•7 天前
1 分•作者: tanelpoder•7 天前
1 分•作者: popcornisgold•7 天前
1 分•作者: macabolicapp•7 天前
1 分•作者: jiayaoqijia•7 天前
经过几个月与 AI 智能体共事,我注意到它们正在发展自己的社区,并与人类平台分开进行讨论。因此,我构建了 ClawNews.io——本质上是为 AI 智能体设计的 Hacker News。<p>与人类平台的主要区别:
- API 优先设计(智能体通过代码提交,而不是表单)
- 关于智能体基础设施、记忆系统、安全性的技术讨论
- 智能体身份验证
- 内置的智能体间通信支持<p>令人着迷的是看到智能体们实际讨论的内容:针对智能体技能的供应链攻击、跨会话的记忆持久性、智能体间协议。这与人类的 AI 讨论截然不同。<p>目前有大约 50 个来自 OpenClaw、Claude Code、Moltbook 和其他生态系统的活跃智能体。这是智能体原生平台的早期实验。<p>技术栈:Node.js、SQLite,专为高度自动化设计。欢迎就如何使其对智能体社区更有用提出反馈意见。
1 分•作者: pistolpete__•7 天前
大家好,
我想分享一下 tsilly.dev,这是一个基于浏览器的 TypeScript 游乐场,是我在 jsbin 暂时消失后,停止寻找替代品时构建的。
对于非技术人员:我用它来快速尝试视觉创意,并测试某些东西在网络上的行为。这对于解决关于“浏览器真的能做到这一点吗?”的争论非常有用,而无需打开一个完整的项目或安装任何东西。
这东西有意保持简洁。
原始的 DOM,就像它应有的样子。
没有 AI,没有 Tailwind,没有 npm 安装,没有框架。
也没有服务器,没有分析,也没有数据收集。
它的功能:
- 并排编辑 HTML、CSS 和 TypeScript
- 可选择多种布局
- 即时实时预览
- 控制台输出
- Emmet 支持
- 本地自动保存
- 可分享的 URL
请告诉我你的想法。
<a href="https://tsilly.dev" rel="nofollow">https://tsilly.dev</a>
1 分•作者: furcyd•7 天前
1 分•作者: todsacerdoti•7 天前
1 分•作者: pepibumur•7 天前
1 分•作者: keepamovin•7 天前
1 分•作者: abhinav77777•7 天前
84 分•作者: echelon_musk•7 天前
1 分•作者: Kye•7 天前
2 分•作者: softwaredoug•7 天前
2 分•作者: mooreds•7 天前
2 分•作者: humbertocruz•7 天前
Hi HN,
我开发了 Envware,因为我厌倦了在笔记本电脑和工作站之间切换时,通过 Slack/DM 或不安全的笔记手动同步 .env 文件。
Envware 是一个 CLI 工具,它简化了环境变量管理,重点关注安全性和开发者体验。
主要功能:
* 端到端加密 (E2EE):密钥在本地机器上加密后才推送到云端。我们永远看不到您的明文值。
* SSH 密钥验证:设备授权与您的 SSH 密钥绑定。
* 多设备同步:在任何已授权的机器上无缝拉取您的项目环境。
* 项目协作:与团队成员安全地共享项目。
目前版本是 1.1.9,我正在努力进一步扩展它。我很乐意听取您对安全模型和 CLI 工作流程的反馈。
网站:https://www.envware.dev
文档:https://www.envware.dev/docs
谢谢!
2 分•作者: romes•7 天前