8作者: nolanfogarty26 天前
各位 HN 的朋友们,我在首页看到几个类似的项目后,也做了这个。NBA 的 API 端点是公开的,并且有一个相当强大的 Python 包(<a href="https://github.com/swar/nba_api" rel="nofollow">https://github.com/swar/nba_api</a>),我参考了它的端点结构来构建一个 Go SDK。使用了 BubbleTea 和 LipGloss 进行样式设计。测试实时端点有点棘手,但我用它看了周五的总决赛,效果相当不错。 playball - <a href="https://news.ycombinator.com/item?id=45451577">https://news.ycombinator.com/item?id=45451577</a> faceoff - <a href="https://news.ycombinator.com/item?id=47826104">https://news.ycombinator.com/item?id=47826104</a>
2作者: artex_xh26 天前
终于实现了我一直以来的愿望,使用了我们构建的模型。 * 最先进的全本地全向嵌入模型,可索引文本、PDF、图像、音频和视频。 * Swift 原生应用 UI + mlx-swift-transformer 核心。无需 Python。 * 已在 M3 Pro 18G / M3 Ultra 512G / M4 Pro 48G 上测试。均运行良好。 * HTTP 服务器将搜索功能暴露给 OpenClaw 和 Hermes 等本地代理。 * 即使在最新的 M3 Ultra 上,索引速度仍然感觉很慢,根据文件类型,速度在 10K tps 到 300 tps 之间。 * 索引时风扇狂转,功耗很高。 * 搜索几乎是即时的。多模态相关性有时有待商榷,但其理念是召回(代理 LLM 会处理结果并提炼出最终答案),所以也许这样就可以了。
10作者: noahfradin26 天前
简而言之:我训练了一个分类器,用于根据请求将成本最低的模型和推理深度进行路由。结合额外的自动化代币效率技术,在相同花费下,使用量提升了 3 倍。有兴趣自行尝试的,请访问:<a href="https://nerfguard.com" rel="nofollow">https://nerfguard.com</a> 最近,我和几位同事从 Claude Code 转向了 Codex。我们仍然在两者之间切换,但 Codex 的速度和可控性以及性能提升是显而易见的。缺点之一是每代币定价的门槛来得更早。这种情况普遍存在,但在 Codex 上我们感受尤为强烈。我们是一家创业公司,团队成员几乎全天候工作,并且对构建充满热情——自然而然,我们**每天**的账单就已经相当可观了。 幸运的是,我们正在追求一项宏大的使命,速度比边缘的微小代币花费更为重要。尽管如此,这让我们思考,为什么我们自己的产品在降低代币花费和加速代理工作流方面能带来数量级上的提升,而我们却在所有内部编码任务中不加优化地使用这些顶级模型。这种浪费显得相当荒谬——最明显的问题是,即使任务显然不需要,我们似乎也在对所有任务使用最高智能模型和最大推理深度。作为一个在缓存智能方面投入大量时间的公司,我们也很容易看到其他许多唾手可得的优化机会。 因此,在最近的一个周末,我快速构建了一个工具来优化我们的使用。其核心是一个**非常快速**的分类器,它能将你的请求分类到完成任务所需的最低智能级别,并在此基础上进行一些不错的代币优化。结果是,在代币花费降低数倍的情况下,质量大致相同。但对我们来说更令人兴奋的是,经过恰当的打包的智能和推理级别意味着我们的速度也显著提升了。这并非微不足道。 我们观察到节省高达 3 倍的成本,以及每人每天节省数小时的时间,这些时间原本会花在等待工具响应和编码代理回复上。 对我们而言,这意味着工程效率的提高和在相同花费下的使用量显著增加。这也意味着在达到速率限制之前可以有更多的使用量。 当我将此事告诉朋友时,他们也想开始使用它来最大化他们从编码代理计划中获得的使用量。现在,许多最前沿的 AI 公司中的工程师都在使用这个工具来以这种方式优化他们的代币利用率。这不仅是为了省钱,更是为了最大化产出。事实证明,避免被 Claude “削弱”的最佳方式是主动地、有选择地“削弱”自己。我们决定将其发布给其他开发者社区使用。现在,你可以为自己启用 Nerfguard,并立即开始获得更多使用量。