1 分•作者: riemannzeta•10 天前
返回首页
最新
1 分•作者: salkahfi•10 天前
1 分•作者: ridiculous_leke•10 天前
4 分•作者: SeeMePlease•10 天前
14 分•作者: decimalenough•10 天前
32 分•作者: PKop•10 天前
1 分•作者: priyanshujain•10 天前
1 分•作者: zyh888•10 天前
1 分•作者: mgh2•10 天前
1 分•作者: empressplay•10 天前
1 分•作者: telui•10 天前
1 分•作者: bbzjk7•10 天前
1 分•作者: PaperWeekly•10 天前
ElasticMM 是一个新发布的开源服务系统,专为现代多模态大型语言模型(MLLM)设计。该研究成果被选为 NeurIPS 2025 的口头报告。
与主要针对纯文本工作负载优化的现有服务栈(如 vLLM)不同,ElasticMM 引入了弹性多模态并行(EMP),这是一种新的执行范式,可在不同的推理阶段和模态之间调整并行度。
论文的主要发现:
* TTFT(首次令牌时间)降低高达 4.2 倍
* 在混合多模态工作负载下,吞吐量提高 3.2 倍至 4.5 倍
* 模态感知调度、弹性阶段划分、统一前缀缓存和非阻塞编码
论文(OpenReview PDF):
[https://openreview.net/pdf?id=Zd6VyjmN1S](https://openreview.net/pdf?id=Zd6VyjmN1S)
GitHub 仓库:
[https://github.com/hpdps-group/ElasticMM](https://github.com/hpdps-group/ElasticMM)
很想听听 HN 社区的看法,特别是那些构建 LLM/MLLM 推理栈或处理生产环境中多模态服务的用户。
1 分•作者: staticshock•10 天前
4 分•作者: PaulHoule•10 天前
1 分•作者: harambae•10 天前
12 分•作者: death_eternal•11 天前
虽然花了一些时间才实现,但现在我在 Axe 中已经让通用函数运行起来了。附上文档、代码库和网站。
1 分•作者: healsdata•11 天前
1 分•作者: pseudolus•11 天前
1 分•作者: skeptic_ai•11 天前