8作者: mousematrix10 个月前
Hi HN,我们是来自 Xorq 的 Hussain 和 Dan。<p>多年来,我们一直苦于扩展在笔记本中有效但在生产环境中失败的计算能力,因此我们决定做点事情。数据有 Iceberg 和 Delta 这样的标准。但计算仍然一团糟——困在笔记本中,团队之间重复劳动,或者被嵌入到自定义的 Airflow DAG 中。我们认为 Xorq 就像 Apache Iceberg 的缺失的对应物,但用于计算。<p>在过去的一年里,我们一直在构建 Xorq,一个*计算目录*,帮助团队*重用、部署和观察*跨引擎的转换、特征、模型和管道。<p>Xorq 基于:<p>- *Arrow Flight* (`do_exchange`) 用于高速数据传输 - *Ibis* 用于跨引擎表达式树,序列化为 YAML - 一个可移植的 UDF 引擎,将管道编译成 SQL 或 Python - `uv` 使 Python 环境完全可重现<p>Xorq 的特点:<p>- pandas 风格的声明式转换,由 Ibis 支持 - 多引擎执行(例如,DuckDB、Snowflake) - UDF 作为可移植的 Flight 端点 - 通过 flight_udxf 算子提供可服务的转换 - 内置缓存和血缘追踪 - 可 diff 的 YAML 工件,非常适合 CI&#x2F;CD<p>Xorq 的用例:<p>自从我们上次主要发布以来,很高兴看到第一个 Xorq 用例出现在实际应用中。所有这些都具有*Python 的简单性和 SQL 级别的性能*。<p>- 特征存储 (<a href="https:&#x2F;&#x2F;www.xorq.dev&#x2F;blog&#x2F;featurestore-to-featurehouse" rel="nofollow">https:&#x2F;&#x2F;www.xorq.dev&#x2F;blog&#x2F;featurestore-to-featurehouse</a>) - 语义层(例如 <a href="https:&#x2F;&#x2F;github.com&#x2F;boringdata&#x2F;boring-semantic-layer">https:&#x2F;&#x2F;github.com&#x2F;boringdata&#x2F;boring-semantic-layer</a>) - MCP + ML 集成 (<a href="https:&#x2F;&#x2F;docs.xorq.dev&#x2F;vignettes&#x2F;mcp_flight_server" rel="nofollow">https:&#x2F;&#x2F;docs.xorq.dev&#x2F;vignettes&#x2F;mcp_flight_server</a>)<p>我们是开源的,并且正在快速学习。很乐意收到关于哪些有用或缺失的反馈。感谢您提前试用!<p>观看 Xorq CLI 工具的实际演示:<a href="https:&#x2F;&#x2F;asciinema.org&#x2F;a&#x2F;730484" rel="nofollow">https:&#x2F;&#x2F;asciinema.org&#x2F;a&#x2F;730484</a><p>---<p>开始使用<p>- Github: <a href="https:&#x2F;&#x2F;github.com&#x2F;xorq-labs&#x2F;xorq">https:&#x2F;&#x2F;github.com&#x2F;xorq-labs&#x2F;xorq</a> - Xorq 文档: <a href="https:&#x2F;&#x2F;docs.xorq.dev&#x2F;" rel="nofollow">https:&#x2F;&#x2F;docs.xorq.dev&#x2F;</a> ---<p>抢先看 - Xorq 计算目录 UI 控制台:<p>查看这个交互式 Claude 演示,展示了如何可视化 Xorq 计算目录,以加速 AI 计算的组合、重用和故障排除:<a href="https:&#x2F;&#x2F;claude.ai&#x2F;public&#x2F;artifacts&#x2F;d2f00d2a-a3f9-4032-884e-d22f620a0ccf?fullscreen=true" rel="nofollow">https:&#x2F;&#x2F;claude.ai&#x2F;public&#x2F;artifacts&#x2F;d2f00d2a-a3f9-4032-884e-d...</a>
13作者: dillstead10 个月前
ELF 注入器允许你将任意大小的可重定位代码块“注入”到 ELF 可执行文件中。这些代码块将在可执行文件的原始入口点运行之前执行。 该项目包含示例代码块以及关于其工作原理的逐步教程。 它混合使用了 C 语言和汇编语言,目前在 32 位 ARM 架构上运行,但很容易移植到其他架构。
3作者: hannasanarion10 个月前
嗨,HN! 在社交媒体上看到多次提到“选举真相联盟”后,我阅读了他们的分析,结果怎么也无法摆脱其中看到的问题。 于是我下载了数据,从头开始重建了他们的完整分析。 他们犯的根本错误是简单地误解了“大数定律”:在大样本中收集的值会收敛于样本分布中的真实概率。 (不要与“极大概率定律”混淆:该定律指出,只要时间足够长,不太可能发生的事情也会发生。这曾经也让我很困惑) 技术细节: * 没有构建系统,完全是手工制作的 HTML、CSS 和纯 JavaScript。 * 初始分析使用 Python 完成,仅使用标准库。 * 可视化使用 Observable Plot 和 D3.js 创建 * 模拟完全在客户端运行 * 网页使用 Scrollama 构建,用于动画和行为控制 * 选票历史可视化实时处理约 60 万条单独的选票记录,并进行少量缓存以防止浏览器卡顿。 * 在 Windsurf 的帮助下完成 有趣的技术挑战: * 在没有后端的情况下使可视化具有高性能,这通过在滚动时进行一些预加载和一些缓存来实现,以便可视化可以尽可能共享资源。 * Windsurf 有时会失控。在初始预处理阶段,它曾经将一个绝对巨大的 JSON blob 转储到磁盘上,它太大了,实际上导致我的整个计算机在写入时崩溃。然后为了读取它,显然不能直接读入,但我的 Opus 4 驱动的编码代理并没有选择以更合理的方式存储,而是决定从头开始构建一个流式 JSON 解析器。它奏效了,我得到了我需要的数据,所以我没有回头让它更合理,但天哪,这太蠢了。 这实际上是从模拟开始的,只花了一天左右的时间,后来扩展到包括重新分析和可视化。可视化是在我获得数据后的 2-3 天内完成的。 如果再让我做一次,我可能会尝试寻找某种构建系统或静态站点生成器来组合最终结果。一旦页面变得很长,即使对于 windsurf 来说,它也变得非常笨拙。很短的对话可能会淹没 Sonnet 4 的速率限制,因为单个文件中包含的内容太多了。
3作者: dudeWithAMood10 个月前
我做了一个开源、货真价实的 YouTube 摘要网站,它使用 tldw [1] Python 库来快速生成 YouTube 视频摘要。 演讲时间越长,创作者获得的广告收入就越多。但我们并非都有 40 分钟的时间来听某人慢慢地绕着一个观点兜圈子。 这个网站没有广告,无需登录,而且 100% 免费。你可以在这里找到源代码 [2]。 [1] <a href="https://pypi.org/project/tldw/" rel="nofollow">https://pypi.org/project/tldw/</a> [2] <a href="https://github.com/DavidZirinsky/tldw-site">https://github.com/DavidZirinsky/tldw-site</a>
2作者: sarahmk12510 个月前
在 Railway(我在这里工作),我们将在 8 月 6 日开始举办黑客松活动。<p>为其他人构建一个模板,无论是用于全栈应用程序还是无头 CMS。<p>我们看到有人部署传统应用程序或基础设施来托管营销博客网站(我们自己的网站也在 Railway 上托管)。<p>根据项目的复杂性或内容的深度,最高可获得 1000 美元的奖金。