2 分•作者: aliefe04•7 个月前
大家好,
作为一名创始人,多年来我一直对我的团队管理机器学习数据集的方式感到沮丧。最终,数据集总是变成 S3 存储桶里的 data_final_v3_fixed.csv 文件,或者变成一个没人能看懂的庞大的 Git LFS 文件。
因此,我创建了 Shodata。它是一个开放平台(类似于 GitHub),但专门为数据集工作流程而构建。
核心理念很简单:你上传一个文件。当你上传一个同名的新文件时,就会自动创建一个新版本(v2、v3 等)。你将获得每个数据集的讨论区、完整的历史记录,以及每个版本的清晰预览和统计数据。
为了展示它的工作原理,我用我正在跟踪的一个数据集对其进行了初始化:一个 LLM 幻觉的日志。当我发现新的幻觉时,我只需上传新文件,它就会对数据集进行版本控制。
该平台是一个 MVP(最小可行产品)。它有一个慷慨的免费套餐(包括 3 个个人私有数据集和 10GB 存储空间),以及一个 Pro 计划,可以解锁团队/组织功能(例如组织创建和共享私有数据集)。
我正在寻求来自工程师和机器学习同行的关于工作流程的反馈。这有用吗?还缺少什么?
你可以在这里查看该平台:[https://shodata.com](https://shodata.com)
以及 LLM 日志数据集:[https://shodata.com/shodata/llm-hallucinations](https://shodata.com/shodata/llm-hallucinations)