1 分•作者: utopman•24 天前
大家好,
我在消费级硬件上找到了一个设置,它似乎在本地硬件上取得了很好的效果。
- qwen 3.6 q6
- 使用 turboquant turbo3 模式的 llama.cpp 分支,上下文长度为 450K
- 多模态支持
本文是一篇 AI 生成的博客文章,算是对“我做了什么以及如何做的”以及结果示例的“报告”。
希望这对一些人有所帮助。
注意:我不太在意这篇文章是否成功,我主要想分享我认为 5090 的一个有趣用法。我让 AI 生成了博客页面,要求它遵守 HN 的“规则”并保持事实性。
它肯定不完美,做得比较仓促,在 265K 上下文长度下没有经过充分测试。请原谅我的懒惰 :)。我现在只是对 5090 上能做的事情感到兴奋。