2 分•作者: VarunGuptaHAI•10 个月前
嗨,HN,
我们是 HelpingAI 背后的团队,一直在尝试各种方法,以使 LLM 推理更快、更高效,尤其是在解决复杂的任务时,例如数学问题、编码问题和逻辑谜题。
在对我们较早的推理模型进行微调的过程中,一个错误意外地在响应中间引入了一个“思考”标签。这个错误并没有破坏模型,反而创建了一个类似链式思考的中间步骤——而且模型的表现更好了。这个错误启发我们去探索现在我们称之为“中间推理”的技术。
我们通过在 3 万亿个推理专用数据(为多阶段推理任务精心策划)上微调 Qwen3-14B 模型,将这项技术规模化,结果令人震惊:
* 推理速度比 DeepSeek-R1、Grok 和 OpenChat 等模型快 5 倍。
* 显著降低了 token 使用量和延迟,非常适合初创企业和实时用例。
* 在几秒钟内解决基准级别的数学和逻辑问题,而不是几分钟。
例如,在一个困难的数学基准测试中:
* Dhanishtha-2.0 在 45 秒内解决
* DeepSeek-R1 耗时 280 秒以上
你可以在这里尝试:
* 聊天/API 访问:[https://helpingai.co](https://helpingai.co)
* 模型权重(开源):[https://huggingface.co/HelpingAI/Dhanishtha-2.0-preview](https://huggingface.co/HelpingAI/Dhanishtha-2.0-preview)
我们非常欢迎反馈、想法,尤其是你认为它可能出错(或让你感到惊喜)的边缘情况。
我们很乐意回答任何问题,并深入探讨训练数据、微调策略、评估或基础设施!
谢谢,
Varun Gupta
联合创始人,HelpingAI