3作者: PhilYeh7 个月前
我将分享一个我构建的完全离线的 RAG(检索增强生成)堆栈,用于解决工业环境中一个关键问题:数据隐私和重复的 API 费用。 我们每天处理敏感的专有数据表和示意图,这使得基于云的 LLM(如 ChatGPT)无法合规。 解决方案:一个容器化架构,确保数据永远不会离开本地网络。 堆栈: LLM:Llama 3(通过 Ollama) 向量数据库:ChromaDB 部署:Docker Compose(一键设置) 优势:零 API 费用,无安全风险,本地性能快速。 代码和架构在此处提供: <a href="https:&#x2F;&#x2F;github.com&#x2F;PhilYeh1212&#x2F;Local-AI-Knowledge-Base-Docker-Llama3" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;PhilYeh1212&#x2F;Local-AI-Knowledge-Base-Docke...</a> 欢迎提问关于 GPU 直通设置或文档摄入流程的问题。
2作者: ljubomir7 个月前
我构建了一个简单的命令行工具,用于解决我反复遇到的一个问题:在任何给定时间,通过 OpenAI、Anthropic、Google 和 xAI 的 API 实际可用的确切模型名称是什么? API 本身提供了这些信息,但我厌倦了查阅文档或编写一次性脚本。现在,我只需运行: ```bash $ llm-models -p Anthropic ``` 就可以获得当前列表,并带有易于理解的名称。 安装: ```bash macOS: brew tap ljbuturovic/tap && brew install llm-models Linux: pipx install llm-models Windows: pip install llm-models ``` 该工具是在 Claude Code 的帮助下构建的。它直接查询每个提供商的 API,因此您可以获得实时可用性,而不是过时的文档。 欢迎提供反馈,并乐于在有兴趣的情况下添加更多提供商!
7作者: LoMoGan7 个月前
当前的人工智能聊天助手面临一个根本性的挑战:在长时间对话中的上下文管理。虽然目前的 LLM 应用通过使用多个独立的对话来规避上下文限制,但一个真正像人类一样的 AI 助手应该维护一个单一、连贯的对话线程,这使得高效的上下文管理至关重要。尽管现代 LLM 拥有更长的上下文,但它们仍然受到长上下文问题(例如,上下文腐烂问题)的困扰——推理能力随着上下文的增长而下降。 基于记忆的系统已经被发明出来以缓解上下文腐烂问题,然而,基于记忆的表征本质上是有损的,并且不可避免地会丢失原始对话中的信息。原则上,没有一种有损表征对所有下游任务都是普遍完美的。这导致了定义一个灵活的上下文管理系统的两个关键要求: 1. 保留原始数据:一个索引系统,可以在必要时检索原始对话。 2. 多分辨率访问:能够按需以不同细节级别检索信息。 ChatIndex 是一个上下文管理系统,它通过基于层次树的索引和基于智能推理的检索,使 LLM 能够高效地导航和利用长对话历史。 开源代码库:<a href="https:&#x2F;&#x2F;github.com&#x2F;VectifyAI&#x2F;ChatIndex" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;VectifyAI&#x2F;ChatIndex</a>