1作者: arkonrad9 个月前
Hi HN, 我一直对当今云端 LLM 推理的工作方式感到沮丧。每次 API 调用都从头开始:你重新发送整个提示词 + 对话历史,并且你为每个输入 token 付费,即使模型之前已经“见过”该上下文。 这导致了两个大问题: 性能和成本——不断地重新发送输入 token 是浪费。 质量损失——因为状态每次都在新的 GPU 上重建,模型会丢失大量内部上下文,而不仅仅是你的文本。 行业中提供的大多数“优化”实际上只是提示词缓存。这对于削减重复的输入成本很有用,但我们都看到了副作用:输出与提示词的细微变化不匹配,或者模型自信地“跳到”错误的缓存响应,因为它认为你的查询是近乎重复的。 我们正在用 ark-labs.cloud 采取不同的方法: 真正的有状态推理——当你开始一个会话时,所有请求都在同一组 GPU 上处理,并且模型完整的内部状态(提示词、历史记录、推理轨迹)在调用之间被保留。 零输入 token 成本——因为模型不需要你在每个请求上重新发送你的输入。你只需为生成的输出付费。 更好的响应,而不仅仅是更便宜的响应——维护内部状态可以提高一致性和推理质量,而不仅仅是省钱。 从开发者的角度来看,这很简单:启用 cookie,API 将保持会话活动(ark_session_id)。没有 SDK 魔术,没有黑客手段。会话在不活动后会过期以释放资源,但在它们活动期间,你正在与一个真正内部记忆的模型对话,而不仅仅是通过提示词的字符串连接。 文档 <a href="https://ark-labs.cloud/documentation" rel="nofollow">https://ark-labs.cloud/documentation</a> 我们很乐意听取你的想法——特别是那些一直在与“为什么我为已经发送的 token 支付 10 倍的费用”问题作斗争的人,或者那些遇到提示词与输出不匹配的缓存系统的人。这种方法对你来说有意义吗?