2作者: leonheuler7 个月前
我想为专有 AI 模型构建一个推理提供程序,但我没有大型 GPU 集群。我开始尝试 Serverless AI 推理,但发现冷启动时间非常长。我深入研究并开发了一个引擎,该引擎可以以比其他方案快十倍的速度将大型模型从 SSD 加载到 VRAM。它与 vLLM 和 transformers 兼容,并且很快会支持更多模型。<p>通过这个项目,您可以根据需要热交换整个大型模型(320 亿参数)。<p>它非常适合:<p>Serverless AI 推理<p>机器人技术<p>本地部署<p>本地智能体<p>而且它是开源的。<p>如果有人想贡献,请告诉我 :)
2作者: otterlang7 个月前
嘿,Hacker News!我一直在构建 OtterLang,这是一种小型实验性脚本语言,设计得像 Python 一样,但通过 LLVM 编译成原生二进制文件。 目标不是要重新发明 Python 或 Rust,而是找到它们之间的中间地带: * 类似 Python 的可读性和语法 * Rust 级别的性能和类型安全 * 快速构建和透明的 Rust FFI(您可以直接导入 Rust crate,无需编写绑定) OtterLang 仍处于早期阶段,并且非常具有实验性。编译器、运行时和 FFI 桥接器正在频繁地重写。 请为该项目点亮星标,并做出贡献来帮助这个项目。