2 分•作者: sosomoxie•26 天前
返回首页
最新
1 分•作者: toomuchtodo•26 天前
2 分•作者: speckx•26 天前
1 分•作者: Nayjest•26 天前
1 分•作者: therealmacsteel•26 天前
1 分•作者: mooreds•26 天前
1 分•作者: bookofjoe•26 天前
1 分•作者: PaulHoule•26 天前
3 分•作者: justsomehuman•26 天前
14 分•作者: guanming0717•26 天前
大家好,我是来自 General Instinct 的 Guanming 和 Bill(<a href="https://general-instinct.com/">https://general-instinct.com/</a>)。
在机器人领域工作多年后,我们一直遇到同一个问题:最优秀的模型总是无法适配我们实际拥有的硬件。
性能最好的模型通常是基于数据中心环境设计的:拥有大型 GPU、充足的内存带宽和可靠的网络连接。然而,大多数物理系统面临的则是相反的限制。
这促使我们开始探索如何最大程度地保留前沿模型的能力,同时使其能够在边缘硬件上实际运行。
作为这项工作的一部分,我们最近开源了 InstinctRazor(<a href="https://github.com/General-Instinct/InstinctRazor">https://github.com/General-Instinct/InstinctRazor</a>)。
我们激动地宣布,我们已将一个约 245 GB 的 BF16 MoE 模型 Qwen3.5-122B-A10B 压缩成了一个 48 GiB 的 GGUF 模型。这个模型实际上比 Gemma-4-26B-A4B 更小,但在 MMLU-Pro 和 GPQA-D 等基准测试中的表现却优于后者。我们保留了始终活跃的部分(如路由器、归一化层、Gated-DeltaNet/SSM 层、视觉通路等),并对路由过的专家进行了更激进的量化。然后,我们使用 on-policy distillation 来恢复量化过程中损失的能力。
该模型还可以配置为“小型 GPU”模式运行,此时专家模型将从系统内存中流式传输。在 8k 上下文窗口下,峰值显存使用量约为 7.6–8 GB。
如果您对技术细节感兴趣,我们在此处详细介绍了我们的方法(<a href="https://general-instinct.com/blog/frontier-moe-sub-4-bit">https://general-instinct.com/blog/frontier-moe-sub-4-bit</a>)。
我们特别希望听到那些将模型部署到机器人或其他边缘设备上的用户的声音。您目前正在尝试在本地运行哪些模型?在将它们投入生产的过程中,最大的瓶颈是什么?
2 分•作者: bohdanstefaniuk•26 天前
我是一名后端开发者,但我也对许多其他领域感兴趣:前端、人工智能、基础设施、架构和系统设计。我想跟上所有这些领域的新想法和进展。
我的问题是,大多数更新日志和新闻来源会给我提供过多的原始信息。我需要花费大量精力去筛选,才能弄清楚什么才是真正重要的。过一段时间我就会感到信息过载,然后放弃并取消订阅所有内容。
所以现在我正在寻找更精选的内容。也许是一份新闻通讯,或者是一些对软件工程和特定技术有独到见解的人。我想关注那些能过滤掉噪音并能很好地解释有趣部分的人。
目前我的列表很短:
- Hacker Newsletter
- Platformer
- The Pragmatic Engineer
你们都看什么?订阅了哪些报纸?
54 分•作者: theanonymousone•26 天前
5 分•作者: aronowb14•26 天前
一家 YC 公司以 10 亿美元的估值融资了 2 亿美元。https://www.starcloud.com/starcloud-4。此外,随着 SpaceX IPO 即将到来,这似乎是一个重点。
有没有物理学背景更强的人能解释一下为什么会有人认为这是个好主意?
2 分•作者: bmillare•26 天前
为了方便使用 LLM 迭代决策矩阵。试试看:https://bmillare.github.io/design_in_practice_ui/
80 分•作者: coffeemug•26 天前
1 分•作者: Bender•26 天前
1 分•作者: throw0101a•26 天前
1 分•作者: mcormik•26 天前
1 分•作者: mattsparkes•26 天前
1 分•作者: birdculture•26 天前