1作者: caeser9 个月前
Cumul 是一款轻量级的命令行工具,用于将目录中的文本文件合并成一个文件,优化后可为大型语言模型 (LLM) 提供上下文信息。 它会遵循 .gitignore 规则,过滤掉二进制文件和非文本文件,添加路径标题,并生成摘要报告。 主要功能: * 通过选项排除模式(例如,-e .json,.md)。 * 自定义输出前缀(例如,-p my)。 * 内置 Zig 语言,提高效率。 安装方法: ```bash curl -fsSL https://raw.githubusercontent.com/xcaeser/cm/main/install.sh | bash ``` 用法: cm [目录] 输出 <目录名>-cumul.txt。 开发目的是简化开发中的 LLM 工作流程。 欢迎提供反馈。
1作者: hassonofer9 个月前
我用纯 PyTorch 实现了一个小巧、自包含的 K-Means 算法:<a href="https:&#x2F;&#x2F;gitlab.com&#x2F;hassonofer&#x2F;pt_kmeans" rel="nofollow">https:&#x2F;&#x2F;gitlab.com&#x2F;hassonofer&#x2F;pt_kmeans</a> 我一直在研究数据集采样和近似最近邻搜索,并尝试了几个现有的用于大规模 K-Means 的库。我找不到一个既快速又简单,并且可以在我的工作站上舒适运行而不会达到内存限制的库。也许我错过了现有的解决方案,但我最终写了一个符合我需求的。 核心见解:将数据保存在 CPU 上(你有更多的 RAM),并在迭代步骤中仅将必要的块智能地移动到 GPU 进行计算。结果始终返回到 CPU,以便于后处理。 (注意:对于在 GPU 上计算的 K-Means++ 初始化,完整的数据集仍然需要适合 GPU。) 它提供了一些实用的功能: ``` - 分块计算:通过仅将必要的数据块移动到 GPU 来实现大型数据集的内存高效处理,从而防止内存溢出错误 - 簇分裂:通过将单个簇分裂成多个子簇来细化现有簇 - 零依赖:单个文件,仅需要 PyTorch。可以复制粘贴到任何项目中 - 高级聚类:具有可选重采样的层次 K-Means(遵循最新研究),簇分裂实用程序。 - 设备灵活性:显式设备控制 - 数据可以存在于任何地方,计算发生在您指定的地方(PyTorch 支持的任何加速器) ``` 未来计划: ``` - 添加对内存映射文件的支持,以处理更大的数据集 - 探索 PyTorch 分布式用于多节点 K-Means ``` 该实现处理 L2 和余弦距离,包括 K-Means++ 初始化。 可在 PyPI 上获取(`pip install pt_kmeans`),完整实现位于:<a href="https:&#x2F;&#x2F;gitlab.com&#x2F;hassonofer&#x2F;pt_kmeans" rel="nofollow">https:&#x2F;&#x2F;gitlab.com&#x2F;hassonofer&#x2F;pt_kmeans</a> 欢迎提供关于该方法的反馈,以及我可能错过的任何用例!
1作者: jakubdudek9 个月前
Hi HN, 我开发了 Pollar,一个为波兰打造的 AI 驱动的新闻聚合器。 相比于浏览大量文章,Pollar 能够自动: - 每隔几分钟从波兰主要新闻机构收集新闻 - 使用嵌入技术将相似的文章归为同一事件 - 生成简短的 AI 摘要,让你快速获取关键信息 - 通过简单的颜色编码突出显示媒体偏见 它现在以 Web 应用程序的形式上线。 iOS 和 Android 应用程序即将推出。 我很想听取你们的反馈,关于: - 摘要是否准确且有用 - 偏见标注是否有帮助,或者过于简单化 - 哪些功能能让它成为更有价值的日常新闻工具 谢谢! Jakub
3作者: PAndreew9 个月前
Docustore的目标是为LLM(大型语言模型)提供来自精选框架/SDK的最新、现成的、即插即用的上下文。它有一个四步流程:抓取文档 - 清理文档 - 向量化文档 - 封装文档。我的愿景是将其托管在某个地方,并围绕它开发一个 API/MCP,使其与开发环境无关。