8作者: tang833019 天前
各位 HN 的朋友们,我是 Artie 的联合创始人。我们构建了一个实时数据复制工具,可以捕获源数据库中的每一行级更改,并在 60 秒内将其流式传输到您的数据仓库。 上次发帖时,大家需要预约才能使用 Artie。现在情况已经不同了。您可以直接连接源和目标数据库,立即开始流式传输。 我曾花费数年时间构建大规模数据管道,深知获取实时数据是多么困难。我相信一定有更好的数据流式传输方式,于是 Artie 应运而生。如今,随着 AI 代理的兴起,降低数据延迟变得越来越重要,因为代理需要基于最新数据做出决策。 在开始构建 Artie 时,我很快意识到,用于确保 CDC 顺利运行的组件往往是临时拼凑起来的,存在大量边缘情况。不幸的是,在实际应用中,它们并没有被设计成协同工作。我们不得不处理模式漂移、回填竞争条件、Kafka 偏移量提交和 TOAST 列等问题。我很想知道大家在构建内部系统时是否遇到过同样的问题。 artie.com,欢迎大家提出宝贵意见!