2作者: helain18 天前
你正在生产环境中运行 RAG。然后,AWS 账单就来了。每月 2400 美元,每天 50 次查询。每次查询 48 美元。 我们为企业客户构建了一个 RAG 系统,并意识到大多数生产 RAG 都是优化灾难。文献痴迷于准确性,却完全忽略了单位经济效益。 三大成本构成 向量数据库(占账单的 40-50%) 标准的 RAG 管道对每个问题进行 3-5 次不必要的数据库查询。我们做了 5 次往返,而实际上只需要 1.5 次。 LLM API(占账单的 30-40%) 标准的 RAG 将 8-15k 个 token 泵入 LLM。这比必要的多了 5-10 倍。我们发现:超过 3,000 个 token 的上下文,准确性就会停滞不前。超出这个范围的都是噪音和成本。 基础设施(占账单的 15-25%) 向量数据库闲置、监控开销、不必要的负载均衡。 真正起作用的是什么 Token 感知上下文(节省 35%) 基于预算的组装,在您使用了足够的 token 后停止。之前:12k token/查询。之后:3.2k token。准确性相同。 python def _build_context(self, results, settings): max_tokens = settings.get("max_context_tokens", 2000) current_tokens = 0 for result in results: tokens = self.llm.count_tokens(result) if current_tokens + tokens <= max_tokens: current_tokens += tokens else: break 混合重排序(节省 25%) 70% 语义 + 30% 关键词评分。更好的排名意味着需要的块更少。前 20 → 前 8 检索,同时保持质量。 嵌入缓存(节省 20%) 工作区隔离的缓存,7 天 TTL。我们看到日内命中率为 45-60%。 python async def set_embedding(self, text, embedding, workspace_id=None): key = f"embedding:ws_{workspace_id}:{hash(text)}" await redis.setex(key, 604800, json.dumps(embedding)) 批量嵌入(节省 15%) 批量 API 定价每 token 便宜 30-40%。同时处理 50 个文本,而不是单独处理
7作者: simplychris18 天前
嘿,各位 HN 用户, 我是一位前谷歌工程师,现在想重新开始音乐制作。 我需要一种方法,能够使用 AI 上下文来编排我的硬件合成器,而无需频繁切换窗口,所以我开发了这个工具。 它完全在浏览器中运行,使用 WebMIDI。无需登录。它会连接到您的本地 MIDI 设备(如果您使用的是 Chrome/Edge 浏览器),并允许您生成音乐模式。 技术栈:[React / WebMIDI API / 等]。 链接:www.simplychris.ai/droplets 代码可能有点乱,但它能用。欢迎提出反馈。
9作者: waleedlatif118 天前
大家好,我是 Waleed。我们正在构建 Sim (<a href="https:&#x2F;&#x2F;sim.ai&#x2F;">https:&#x2F;&#x2F;sim.ai&#x2F;</a>),一个用于构建智能体工作流的开源可视化编辑器。代码库在这里:<a href="https:&#x2F;&#x2F;github.com&#x2F;simstudioai&#x2F;sim&#x2F;" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;simstudioai&#x2F;sim&#x2F;</a>。文档在这里:<a href="https:&#x2F;&#x2F;docs.sim.ai">https:&#x2F;&#x2F;docs.sim.ai</a>。 您可以使用 Docker 在本地运行 Sim,没有执行限制或其他限制。 我们大约一年前开始构建 Sim,当时我们反复排查智能体在生产环境中失败的原因。代码优先的框架由于隐式控制流而难以调试,而工作流平台增加的开销却多于减少的。我们希望拥有精细的控制和易于观察的能力,而无需自己拼凑所有东西。 大约 6 个月前,我们推出了 Sim [1][2],它是一个拖放式的画布。从那时起,我们增加了: - 138 个模块:Slack、GitHub、Linear、Notion、Supabase、SSH、TTS、SFTP、MongoDB、S3、Pinecone,... - 具有精细控制的工具调用:强制、自动 - 智能体记忆:支持滑动窗口的对话记忆(按最后 n 条消息或 token) - 跟踪 span:嵌套工作流和工具调用的详细日志记录和可观察性 - 原生 RAG:上传文档,我们进行分块、使用 pgvector 进行嵌入,并向智能体公开向量搜索 - 工作流部署版本控制,支持回滚 - MCP 支持,Human-in-the-loop 模块 - 使用自然语言构建工作流的 Copilot(刚刚发布了一个新版本,它也可以充当超级智能体,并可以直接调用您连接的任何服务,而不仅仅是构建工作流) 在底层,工作流是一个 DAG,默认情况下是并发执行的。节点在其依赖项(上游模块)满足后立即运行。循环(for、forEach、while、do-while)和并行扇出/连接也是一级原语。 智能体模块是直通到提供商的。您选择您的模型(OpenAI、Anthropic、Gemini、Ollama、vLLM),我们直接将提示、工具和响应格式传递给提供商 API。我们对模块互操作性的响应形状进行标准化,但我们没有添加掩盖正在发生的事情的层。 我们目前正在开发我们自己的 MCP 服务器,以及将工作流部署为 MCP 服务器的能力。很想听听您的想法以及我们下一步应该怎么做 :) [1] <a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=43823096">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=43823096</a> [2] <a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=44052766">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=44052766</a>
1作者: pryncevv18 天前
1作者: iam_pbk18 天前
Hi HN, 我同时在多个本地 Git 仓库(微服务、开源项目、配置仓库、实验项目)中工作,经常搞不清哪些仓库是脏的、超前/落后,或者我上次做了哪些改动。每天用 `git status` 检查每个仓库成了一项耗时的工作。 所以我构建了 git-scope —— 一个小的 TUI(文本用户界面),可以在一个终端屏幕上显示所有 Git 仓库的状态。 它的功能: * 递归查找目录下的 Git 仓库 * 一览无余地显示 clean/dirty/ahead/behind 状态 * 模糊搜索 + 快速过滤 * 按 Enter 键直接进入仓库(shell 或编辑器) * 使用轻量级的 Git 元数据,避免在所有地方运行 `git status` * 在我的机器上启动时间约为 10 毫秒,这要归功于缓存 * 完全本地化,无遥测 截图 [https://github.com/Bharath-code/git-scope/raw/main/docs/git-scope-demo-1.webp](https://github.com/Bharath-code/git-scope/raw/main/docs/git-scope-demo-1.webp) 安装 ```bash brew tap Bharath-code/tap && brew install git-scope ``` Windows & 直接安装 ```bash go install github.com/Bharath-code/git-scope/cmd/git-scope@latest ``` 仓库 [https://github.com/Bharath-code/git-scope](https://github.com/Bharath-code/git-scope) 自上一个版本以来有哪些变化 * 改进的安装说明 * 更好的 TUI 布局 * 贡献图 * 时间线 * 磁盘使用情况 * 来自早期用户的更多反馈 * 正在研究分组/预设和自动刷新模式 * 考虑 Windows 原生支持 * 征求反馈 关于多仓库工作流程的想法 有人使用文件监视器来实现 TUI 吗? 关于分组、工作区预设或性能改进的建议 关于高效检测状态变化的 Git 内部技巧 很乐意回答问题或深入探讨实现细节。 感谢您的关注!
1作者: surprisetalk18 天前
2作者: chrisaycock18 天前
我正在尝试续订我的 IEEE 会员资格,但无论使用哪张信用卡,支付页面都一直出错。<p>更糟糕的是,我似乎无法通过电子邮件、电话或网络表单联系到 IEEE 的任何人。有人能联系上吗?
1作者: mikepapadim18 天前
``` wget <a href="https://github.com/beehive-lab/TornadoVM/releases/download/v2.1.0/tornadovm-2.1.0-opencl-linux-amd64.zip" rel="nofollow">https://github.com/beehive-lab/TornadoVM/releases/download/v...</a> unzip tornadovm-2.1.0-opencl-linux-amd64.zip # 手动将 <path-to-sdk> 替换为解压后文件夹的绝对路径 export TORNADO_SDK="<path-to-sdk>/tornadovm-2.1.0-opencl" export PATH=$TORNADO_SDK/bin:$PATH tornado --devices tornado --version # 导航到项目目录 cd GPULlama3.java # 导入项目特定的环境变量路径 -> 这将确保 source set_paths # 使用 Maven 构建项目(跳过测试以加快构建速度) # mvn clean package -DskipTests 或直接使用 make make # 运行模型(请确保您已首先下载了模型文件 - 见下文) ./llama-tornado --gpu --verbose-init --opencl --model beehive-llama-3.2-1b-instruct-fp16.gguf --prompt "告诉我一个笑话" ```