5作者: ticktockten7 个月前
我一直在开发 Fast LiteLLM - 一个针对流行的 LiteLLM 库的 Rust 加速层 - 我有一些有趣的经验,可能会引起其他试图从现有系统中榨取性能的开发者的共鸣。 我的假设是,LiteLLM 作为一个 Python 库,在优化方面应该有大量容易实现的目标。我着手使用 PyO3 创建一个 Rust 层,以加速性能关键部分:token 计数、路由、速率限制和连接池。 方法: - 使用 tiktoken-rs 为 token 计数构建 Rust 实现 - 使用 DashMap 添加无锁数据结构以进行并发操作 - 实施异步友好的速率限制 - 创建 monkeypatch 垫片以透明地替换 Python 函数 - 添加全面的功能标志以实现安全、渐进的推出 - 开发性能监控以实时跟踪改进 在构建了所有 Rust 加速后,我运行了全面的基准测试,比较了基线 LiteLLM 与垫片版本: 函数 | 基线时间 | 垫片时间 | 加速 | 改进 | 状态 ---|---|---|---|---|--- token_counter | 0.000035s | 0.000036s | 0.99x | -0.6% | count_tokens_batch | 0.000001s | 0.000001s | 1.10x | +9.1% | router | 0.001309s | 0.001299s | 1.01x | +0.7% | rate_limiter | 0.000000s | 0.000000s | 1.85x | +45.9% | connection_pool | 0.000000s | 0.000000s | 1.63x | +38.7% | 事实证明,LiteLLM 已经优化得相当好了!核心 token 计数基本没有变化(慢了 0.6%,可能在测量噪声范围内),而最显著的收益来自更复杂的操作,如速率限制和连接池,Rust 的并发原语确实发挥了作用。 关键要点: 1. 不要假设现有库未被充分优化 - 维护者可能非常了解他们的领域 2. 专注于算法改进而不是重新实现 - 有时更好的方法胜过更快的语言 3. 微基准测试可能具有误导性 - 实际性能影响差异很大 4. 最大的收益通常来自复杂的部分,而不是简单的操作 5. 即使是“适度”的改进,在规模上也很重要 - 速率限制提高 45% 对于高吞吐量应用程序来说是有意义的 虽然核心 token 计数几乎没有改进,但速率限制和连接池的收益仍然为高容量用例提供了价值。我构建的基础设施(功能标志、性能监控、安全回退)为未来的优化奠定了坚实的基础。 该项目在 GitHub 上以 Fast LiteLLM 的形式继续进行,供任何对 Rust-Python 集成模式感兴趣的人使用,即使性能提升令人沮丧。 编辑:为了澄清 - token_counter 的负面性能可能在测量噪声范围内,这表明 LiteLLM 的 token 计数已经得到了很好的优化。速率限制和连接池提高 45% 以上的收益仍然为高吞吐量应用程序提供了价值。
3作者: CShorten7 个月前
AI 正在改变数据库系统。 迄今为止,影响最大的或许是自然语言到查询语言的转换,也就是文本到 SQL (Text-to-SQL)。 然而,另一项重大创新正在酝酿中。 我非常兴奋地发布了 Weaviate 播客的第 131 集,嘉宾是麻省理工学院的博士生 Matthew Russo! AI 为我们的查询语言带来了新的语义运算符。 例如,我们都熟悉 WHERE 过滤器。 现在我们有了 AI_WHERE,其中 LLM 或其他 AI 模型计算过滤器值,而无需它已在数据库中可用! ```sql SELECT * FROM podcasts AI_WHERE “Text-to-SQL” in topics ``` 语义过滤器仅仅是冰山一角,语义运算符的名册还包括语义连接、映射、排序、分类、分组和聚合! 而且这还不止于此! 关系代数及其对数据库系统影响的核心思想之一是查询规划和寻找应用过滤器的最佳顺序。 例如,假设您有两个过滤器,汽车是红色的,汽车是宝马。 现在假设数据集只包含 100 辆宝马,但有 50,000 辆红色汽车!! 首先应用宝马过滤器将限制下一个过滤器集合的大小! 现在 LLM 参与其中,这个基本思想有了各种各样的扩展! 这一机遇正在催生新的查询引擎和声明式优化器,例如 Palimpzest、LOTUS 等! 这个播客里有这么多有趣的干货,很喜欢和 Matthew 讨论这些事情,希望您觉得它也很有趣! YouTube:https://youtu.be/koPBr9W4qU0 Spotify:https://spotifycreators-web.app.link/e/ddUhVMmLoYb Medium:https://medium.com/@connorshorten300/semantic-query-engines-with-matthew-russo-weaviate-podcast-131-131a42bbc521
19作者: mojoe7 个月前
相关:<i>想想更怪异:年度最佳科幻创意</i> - <a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=45785154">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=45785154</a> - 2025年11月 (75条评论)
191作者: meetpateltech7 个月前
1作者: pfista7 个月前
我刚开发了一个新工具,希望能让开发过程中的 Webhook 管理更轻松(也希望更有趣!)<p>来喷我吧,HN