问 HN:你最大的 LLM 成本乘数是什么?
4 分•作者: teilom•4 天前
“每请求的Token数” 这种计费模式对我们的生产环境来说一直具有误导性。真正的成本驱动因素似乎是以下几个乘数:重试/429错误、工具扇出、P95上下文增长以及安全检查。
在你的生产LLM系统中,最大的成本乘数是什么?哪些策略有效(限制、降级模式、回退、硬性失败)?
查看原文
"Tokens per request" has been a misleading cost model for us in production. The real drivers seem to be multipliers: retries/429s, tool fanout, P95 context growth, and safety passes.<p>What’s been the biggest cost multiplier in your prod LLM systems, and what policies worked (caps, degraded mode, fallback, hard fail)?