1 分•作者: marojejian•7 个月前
返回首页
最新
1 分•作者: gmays•7 个月前
1 分•作者: aspenmayer•7 个月前
1 分•作者: zhamin246•7 个月前
1 分•作者: wahnfrieden•7 个月前
2 分•作者: leonheuler•7 个月前
我想为专有 AI 模型构建一个推理提供程序,但我没有大型 GPU 集群。我开始尝试 Serverless AI 推理,但发现冷启动时间非常长。我深入研究并开发了一个引擎,该引擎可以以比其他方案快十倍的速度将大型模型从 SSD 加载到 VRAM。它与 vLLM 和 transformers 兼容,并且很快会支持更多模型。<p>通过这个项目,您可以根据需要热交换整个大型模型(320 亿参数)。<p>它非常适合:<p>Serverless AI 推理<p>机器人技术<p>本地部署<p>本地智能体<p>而且它是开源的。<p>如果有人想贡献,请告诉我 :)
1 分•作者: todsacerdoti•7 个月前
2 分•作者: otterlang•7 个月前
嘿,Hacker News!我一直在构建 OtterLang,这是一种小型实验性脚本语言,设计得像 Python 一样,但通过 LLVM 编译成原生二进制文件。
目标不是要重新发明 Python 或 Rust,而是找到它们之间的中间地带:
* 类似 Python 的可读性和语法
* Rust 级别的性能和类型安全
* 快速构建和透明的 Rust FFI(您可以直接导入 Rust crate,无需编写绑定)
OtterLang 仍处于早期阶段,并且非常具有实验性。编译器、运行时和 FFI 桥接器正在频繁地重写。
请为该项目点亮星标,并做出贡献来帮助这个项目。
34 分•作者: vitalnodo•7 个月前
1 分•作者: JumpCrisscross•7 个月前
1 分•作者: JumpCrisscross•7 个月前
1 分•作者: manveerc•7 个月前
1 分•作者: tromp•7 个月前
1 分•作者: manveerc•7 个月前
1 分•作者: pjhooker•7 个月前
1 分•作者: cutandjoin•7 个月前
2 分•作者: manveerc•7 个月前
1 分•作者: ingve•7 个月前
1 分•作者: walterwootz•7 个月前
10 分•作者: pinkahd•7 个月前