1 分•作者: rpotluri•4 天前
我从事推理调度方面的工作——包括 KV 缓存感知的路由、跨 GPU 节点的负载均衡等等。我需要一个类似 k9s 但适用于我的推理栈的工具。由于没有现成的,所以我自己开发了它。
llmtop 是一个用于 LLM 推理节点的实时终端仪表盘。它抓取 vLLM、SGLang 和 LMCache 已经暴露的 Prometheus /metrics 端点,并在一个视图中显示所有信息:KV 缓存使用情况、队列深度、TTFT/ITL 延迟(来自直方图桶的 P50/P99)、令牌吞吐量、前缀缓存命中率。颜色编码——红色表示需要修复。
```
brew install InfraWhisperer/tap/llmtop
或者 go install github.com/InfraWhisperer/llmtop/cmd/llmtop@latest
```
单个二进制文件,不需要 Prometheus 服务器,不需要 Grafana,不需要配置。只需运行 llmtop,它就会自动发现本地节点。
使用 Go 和 Bubbletea 编写。接下来将致力于 Kubernetes Pod 自动发现和 GPU 指标视图。