1 分•作者: anonu•9 个月前
返回首页
最新
1 分•作者: walterbell•9 个月前
1 分•作者: martialg•9 个月前
1 分•作者: arkonrad•9 个月前
Hi HN,
我一直对当今云端 LLM 推理的工作方式感到沮丧。每次 API 调用都从头开始:你重新发送整个提示词 + 对话历史,并且你为每个输入 token 付费,即使模型之前已经“见过”该上下文。
这导致了两个大问题:
性能和成本——不断地重新发送输入 token 是浪费。
质量损失——因为状态每次都在新的 GPU 上重建,模型会丢失大量内部上下文,而不仅仅是你的文本。
行业中提供的大多数“优化”实际上只是提示词缓存。这对于削减重复的输入成本很有用,但我们都看到了副作用:输出与提示词的细微变化不匹配,或者模型自信地“跳到”错误的缓存响应,因为它认为你的查询是近乎重复的。
我们正在用 ark-labs.cloud 采取不同的方法:
真正的有状态推理——当你开始一个会话时,所有请求都在同一组 GPU 上处理,并且模型完整的内部状态(提示词、历史记录、推理轨迹)在调用之间被保留。
零输入 token 成本——因为模型不需要你在每个请求上重新发送你的输入。你只需为生成的输出付费。
更好的响应,而不仅仅是更便宜的响应——维护内部状态可以提高一致性和推理质量,而不仅仅是省钱。
从开发者的角度来看,这很简单:启用 cookie,API 将保持会话活动(ark_session_id)。没有 SDK 魔术,没有黑客手段。会话在不活动后会过期以释放资源,但在它们活动期间,你正在与一个真正内部记忆的模型对话,而不仅仅是通过提示词的字符串连接。
文档 <a href="https://ark-labs.cloud/documentation" rel="nofollow">https://ark-labs.cloud/documentation</a>
我们很乐意听取你的想法——特别是那些一直在与“为什么我为已经发送的 token 支付 10 倍的费用”问题作斗争的人,或者那些遇到提示词与输出不匹配的缓存系统的人。这种方法对你来说有意义吗?
1 分•作者: speckx•9 个月前
1 分•作者: bunbunpumpkin•9 个月前
2 分•作者: ewf•9 个月前
5 分•作者: spking•9 个月前
52 分•作者: flykespice•9 个月前
10 分•作者: gmays•9 个月前
1 分•作者: Healthji•9 个月前
1 分•作者: sebg•9 个月前
1 分•作者: Michelangelo11•9 个月前
1 分•作者: mooreds•9 个月前
1 分•作者: mooreds•9 个月前
1 分•作者: PaulHoule•9 个月前
1 分•作者: mooreds•9 个月前
1 分•作者: austinallegro•9 个月前
1 分•作者: imaade•9 个月前
2 分•作者: achristmascarl•9 个月前