1 分•作者: thomasjb•9 个月前
返回首页
最新
19 分•作者: yminsky•9 个月前
1 分•作者: PaulHoule•9 个月前
1 分•作者: caeser•9 个月前
Cumul 是一款轻量级的命令行工具,用于将目录中的文本文件合并成一个文件,优化后可为大型语言模型 (LLM) 提供上下文信息。
它会遵循 .gitignore 规则,过滤掉二进制文件和非文本文件,添加路径标题,并生成摘要报告。
主要功能:
* 通过选项排除模式(例如,-e .json,.md)。
* 自定义输出前缀(例如,-p my)。
* 内置 Zig 语言,提高效率。
安装方法:
```bash
curl -fsSL https://raw.githubusercontent.com/xcaeser/cm/main/install.sh | bash
```
用法: cm [目录] 输出 <目录名>-cumul.txt。
开发目的是简化开发中的 LLM 工作流程。
欢迎提供反馈。
1 分•作者: hhs•9 个月前
1 分•作者: lumpa•9 个月前
1 分•作者: hassonofer•9 个月前
我用纯 PyTorch 实现了一个小巧、自包含的 K-Means 算法:<a href="https://gitlab.com/hassonofer/pt_kmeans" rel="nofollow">https://gitlab.com/hassonofer/pt_kmeans</a>
我一直在研究数据集采样和近似最近邻搜索,并尝试了几个现有的用于大规模 K-Means 的库。我找不到一个既快速又简单,并且可以在我的工作站上舒适运行而不会达到内存限制的库。也许我错过了现有的解决方案,但我最终写了一个符合我需求的。
核心见解:将数据保存在 CPU 上(你有更多的 RAM),并在迭代步骤中仅将必要的块智能地移动到 GPU 进行计算。结果始终返回到 CPU,以便于后处理。
(注意:对于在 GPU 上计算的 K-Means++ 初始化,完整的数据集仍然需要适合 GPU。)
它提供了一些实用的功能:
```
- 分块计算:通过仅将必要的数据块移动到 GPU 来实现大型数据集的内存高效处理,从而防止内存溢出错误
- 簇分裂:通过将单个簇分裂成多个子簇来细化现有簇
- 零依赖:单个文件,仅需要 PyTorch。可以复制粘贴到任何项目中
- 高级聚类:具有可选重采样的层次 K-Means(遵循最新研究),簇分裂实用程序。
- 设备灵活性:显式设备控制 - 数据可以存在于任何地方,计算发生在您指定的地方(PyTorch 支持的任何加速器)
```
未来计划:
```
- 添加对内存映射文件的支持,以处理更大的数据集
- 探索 PyTorch 分布式用于多节点 K-Means
```
该实现处理 L2 和余弦距离,包括 K-Means++ 初始化。
可在 PyPI 上获取(`pip install pt_kmeans`),完整实现位于:<a href="https://gitlab.com/hassonofer/pt_kmeans" rel="nofollow">https://gitlab.com/hassonofer/pt_kmeans</a>
欢迎提供关于该方法的反馈,以及我可能错过的任何用例!
1 分•作者: petethomas•9 个月前
1 分•作者: melodyogonna•9 个月前
1 分•作者: dotcoma•9 个月前
1 分•作者: jakubdudek•9 个月前
Hi HN,
我开发了 Pollar,一个为波兰打造的 AI 驱动的新闻聚合器。 相比于浏览大量文章,Pollar 能够自动:
- 每隔几分钟从波兰主要新闻机构收集新闻
- 使用嵌入技术将相似的文章归为同一事件
- 生成简短的 AI 摘要,让你快速获取关键信息
- 通过简单的颜色编码突出显示媒体偏见
它现在以 Web 应用程序的形式上线。 iOS 和 Android 应用程序即将推出。
我很想听取你们的反馈,关于:
- 摘要是否准确且有用
- 偏见标注是否有帮助,或者过于简单化
- 哪些功能能让它成为更有价值的日常新闻工具
谢谢!
Jakub
1 分•作者: petethomas•9 个月前
35 分•作者: tosh•9 个月前
3 分•作者: PAndreew•9 个月前
Docustore的目标是为LLM(大型语言模型)提供来自精选框架/SDK的最新、现成的、即插即用的上下文。它有一个四步流程:抓取文档 - 清理文档 - 向量化文档 - 封装文档。我的愿景是将其托管在某个地方,并围绕它开发一个 API/MCP,使其与开发环境无关。
1 分•作者: ingve•9 个月前
1 分•作者: kklisura•9 个月前
1 分•作者: ljosifov•9 个月前
1 分•作者: bryanrasmussen•9 个月前
1 分•作者: daviddavd•9 个月前
1 分•作者: punnerud•9 个月前