1 分•作者: todsacerdoti•18 天前
返回首页
最新
2 分•作者: johnstimac111•18 天前
我过去是一名数据工程师,数据监控是我的重要工作内容之一。数据科学家和分析师主要在分析方面监控业务指标(注册率、留存率等)的变化,而作为数据工程师,我还需要确保系统不出问题。Data Axolotl 专注于后者。
市面上有大量支持数据测试的工具(我很喜欢 dbt 测试),但即使编写了完善的测试,我们仍然会遇到意想不到的破坏性变更。大多数情况下,当产品经理出现并询问某个晦涩的指标为何突然全面为 null 时,问题就出现了。我们并不知道该指标正在被使用(有时甚至不知道它存在),那么我们怎么可能为它编写测试呢?(一个常见的原因是,某个工程团队停止记录某个数字,因为没有人知道它很重要;即使工程团队做了一切正确的事情,发出了通知“请注意,我们将删除旧的用户 ID 值”,并安全地推出了更新,也没有人会想到营销 ROI 仪表板依赖于此。)
这就是 Data Axolotl 的用武之地:Data Axolotl 是一个 CLI 工具,它可以捕获分析数据集中意想不到的破坏性变更,而无需您提前知道可能发生什么。
简单来说,您只需将其指向一些数据表,每天运行它,它就会随着时间的推移收集大量常见指标。(列的最小值、最大值、均值、行数、不同值的计数等。)如果任何指标突然发生变化,Data Axolotl 就会生成警报。
整个工具都运行在 Python 包中,因此您可以在本地或通过 Airflow 等调度工具在您自己的基础设施上运行它。您无需注册任何新的云服务,也无需冒着数据泄露给第三方的风险。历史数据可以存储在本地的 sqlite 中(默认),或者存储在您基础设施上的远程数据库中。
这是一个相当早期的版本,所以目前它只支持 Snowflake 表,但我们希望将来能添加其他数据库类型。
您今天就可以通过 pip 安装 Data Axolotl,直接从您的本地机器上试用它。`pip install data-axolotl` 完整的设置指南可以在 Readme 中找到。
1 分•作者: Bender•18 天前
2 分•作者: Lammy•18 天前
1 分•作者: gurjeet•18 天前
1 分•作者: rmason•18 天前
1 分•作者: mooreds•18 天前
2 分•作者: bmadduma•18 天前
正在致力于自动化小型企业财务(簿记、对账、基本报告)。
我一直注意到的一件事是:与编程相比,会计似乎是更适合自动化的领域:
* **基于规则**
复式记账、会计科目表、税务规则、重要性阈值。对于大多数日常交易,你不是在发明新的逻辑,而是在应用现有的规则。
* **可验证**
账目要么平衡,要么不平衡。总账要么对账,要么不对账。几乎总有一个“基本事实”可以用来比较(银行馈送、对账单、前期)。
* **枯燥且重复**
相同的供应商,相同的类别,每个月相同的模式。人类讨厌这项工作。软件喜欢它。
对于会计,至少在小型企业层面,大部分工作感觉像是:
* 标准化来自银行/卡/发票的数据
* 应用确定性或可配置的规则
* 突出异常情况以供人工审核
* 运行一致性检查和报告
真正困难的部分(税务策略、边缘情况、混乱的历史、与当局沟通)在总工时中所占比例较小,但需要人工。而重复的、基于规则的工作才是最耗时的。
1 分•作者: victorsanchez•18 天前
Hi HN,
几个月前,我们注意到一个现象。我们接触到的每个 GTM、产品和市场营销团队都面临着同样的问题。他们淹没在来自 Reddit、Discord、Slack 社区、竞争对手网站和社交渠道的外部数据中。但要把所有这些噪音转化为结构化且有用的东西,却需要花费大量时间。
我们看到人们花费数天时间将截图复制到电子表格中,标记帖子,并手动检查竞争对手的网站。我们自己也在做同样的事情,很明显,这些都不应该手动完成。
所以我们构建了 Sushidata,一个由 AI 智能体组成的系统,用于收集、整理和总结混乱的外部数据,并将其转化为可搜索的、结构化的市场视图。
这是一个你可以查看的演示。它还没有投入生产,所以请原谅其中的错误和问题。欢迎创建你自己的表格。我们也很乐意提供帮助。
演示链接:<a href="https://tinyurl.com/sushidata" rel="nofollow">https://tinyurl.com/sushidata</a>
它的功能:
* 提取竞争对手的更新、客户情绪、投诉、功能请求等
* 将所有内容规范化为单个数据集
你可以提出诸如以下问题:
* “本周我们的竞争对手有哪些问题趋势?”
* “我的竞争对手所有产品的摘要是什么?”
我们为什么构建它:
我们希望消除研究中重复的部分。早期用户告诉我们,该系统为他们节省了数周的手工工作,所以我们继续构建。
演示中有什么:
* 一个真实的竞争情报数据集
* 竞争对手监控
* 一个由 AI 智能体驱动的电子表格风格的界面
欢迎反馈
我们非常希望收到 HN 社区的意见,特别是关于数据管道、智能体行为以及简化界面的方法。
很乐意回答关于其内部工作原理的问题。
Victor,联合创始人
Sushidata
1 分•作者: light_triad•18 天前
1 分•作者: realsharkymark•18 天前
3 分•作者: beepbooptheory•18 天前
1 分•作者: Bender•18 天前
2 分•作者: tosh•18 天前
1 分•作者: sebg•18 天前
1 分•作者: mdhb•18 天前
1 分•作者: gk1•18 天前
1 分•作者: kristianeboe•18 天前
我人生和工作中一些最棒的时光,都来自于和建筑师们一起住在合租屋里——无论是在旧金山还是国外。考虑到大家又开始为了 1 月份的 Y Combinator 项目涌向旧金山,我想做点什么来帮助其他人创造类似的体验。
旧金山的房租实在太贵了,而且找到合适的室友也出奇地难——大多数人都会凑合着找个凑合的,只要不是太糟糕就行。所以我做了一个简单的目录,你可以在上面发布你的租房需求,或者浏览其他也在搬家的人。
这个目录的设计是刻意轻量级的:没有花哨的功能,没有复杂的流程——只是为了让大家能够展示自己,希望能组建起团队,让整个搬家过程更有趣,也更少混乱。
我这次没有参加 YC 项目,但还是会在 1 月份和一些建筑师朋友一起去旧金山,很希望有更多人加入。我们正在寻找大约 4 个人,一起组建一个 8 人的黑客之家(每人大约 4000 美元)。
我很乐意收到关于这个项目是否有用的反馈,以及还缺少什么,或者你是否有共同居住的经历,这些经历塑造了你的想法。
[https://www.homi.so/directory](https://www.homi.so/directory)
2 分•作者: bryan0•18 天前
嗨,各位 HN 用户,我一直对分形很感兴趣,特别是 Mandelbrot 集和 Julia 集。几年前,我创建了一个 2D 观察器来探索这个本质上是 4 维的空间。但前几天,我决定向 Claude 和 GPT 咨询如何将其制作成一个完整的实时 3D 探索器。几个小时后,这个想法就通过“氛围编程”实现了。<p>使用方法是,你可以用鼠标旋转分形,用鼠标滚轮缩放。为了将 4 维映射到 3 维,其中一个维度被映射到一个可调节的滑块。此外,还有一个裁剪平面滑块,可以帮助你可视化分形的内部结构。<p>我对“氛围编程”的心情很复杂。从一个想法到在几个小时内实现,这很棒,但在我的编码项目中,我一直很欣赏这个过程和学习,而不仅仅是最终的产品。“氛围编程”有点跳过了过程,这令人兴奋且高效,但不如一步一步地攻克一个项目那么有成就感。
2 分•作者: kokada•18 天前
我喜欢 gitk 及其简洁性,但由于 <a href="https://github.com/NixOS/nixpkgs/" rel="nofollow">https://github.com/NixOS/nixpkgs/</a> 每天都在变大,使用它变得几乎不可能。我刚刚用提交 e16041020b082ca847b3658ee1b69f8e6a4323b1 做了个快速测试,几秒钟后内存使用量接近 20GiB,而且我无法点击它(但 UI 仍在更新)。这可能是因为 gitk 试图急切地将所有提交加载到内存中,这对于小型/中型存储库来说效果很好,但 nixpkgs 实在太大了。
我很少想查看旧的提交(而且在这种情况下,我通常根本不使用 gitk),并且由于我一直对 <a href="https://pkg.go.dev/modernc.org/tk9.0" rel="nofollow">https://pkg.go.dev/modernc.org/tk9.0</a> 感兴趣,并且有一个月的免费 ChatGPT+ 可以测试,所以我决定尝试用 Go 和 modernc.org/tk9.0 编写一个 gitk 的替代方案,这就是它。
这里的想法不是要完全取代 gitk,而是重新实现我使用的功能。我试图影响一些架构思想以避免原始版本中存在的一些性能问题,因此它不会将所有提交加载到内存中,而是每次批量加载 1000 个(您可以使用 `-limit` 标志增加这个数量,但我建议不要设置得太高)。最初我也只想使用 Go,但最终我需要使用 `git` 进行一些特定操作以保持其运行速度(默认情况下,它仍然使用纯 Go 实现,但建议使用 `-tags=gitcli` 构建它)。
最终,我得到了我想要的,一个小型、自包含的应用程序,它重现了我想要的大部分功能。