大家好！我大部分时间都在 TinyFish（这真是太棒了）那里调整和使用非常强大的搜索引擎。最近，我一直对使用搜索引擎递归地构建数据集这个想法非常着迷。我花了很多时间玩 Exa 的 WebSets 产品，并意识到它主要专注于潜在客户开发，并且创建的数据集有很多缺失的数据。所以我们构建了一个完全开源的项目，可以针对任何主题构建和更新数据集。到目前为止，我已经生成了以下数据集： “星巴克在亚马逊上销售的所有产品，包括价格和是否有货” “加利福尼亚的所有主题公园，以及门票价格” “所有正在招聘工程岗位的 YC 公司及其招聘页面链接” 非常希望大家能尝试一下，并留下你们的想法、星标和反馈。谢谢！

评测 CachyOS 不同 Linux 内核版本

1 分•作者: Bender•大约 1 个月前

数学家签署声明，限制人工智能的使用

1 分•作者: speckx•大约 1 个月前

手机屏幕的色彩范围不如人眼

1 分•作者: douglasgoodwin•大约 1 个月前

发布 Microsoft Web IQ

1 分•作者: thm•大约 1 个月前

OCaml 的 Pyro Caml 持续性能分析器

1 分•作者: j12y•大约 1 个月前

美国陆军工程兵团海湾模型

27 分•作者: tosh•大约 1 个月前

AI 目标：高级软件工程师

2 分•作者: oryocyph•大约 1 个月前

背景：在一家大型科技公司担任高级软件工程师。我所在组织对高级工程师的目标之一是识别并实施人工智能（AI）项目。我已经熟悉并正在积极使用模型即服务（MCP）、AI 代理、插件等。虽然它们很有用，但感觉我公司的大多数人已经在从事这方面的工作了。我想了解贵组织是否构建或采用了任何人工智能驱动的工具、工作流程或用例，这些工具、工作流程或用例已经带来了有意义的业务价值，并且有可能被其他组织借鉴。

Anthropic 将 Claude Mythos 扩展至 15 个国家的核心基础设施

31 分•作者: Timofeibu•大约 1 个月前

Show HN：RePlaya – 自托管浏览器会话回放，支持实时追踪

6 分•作者: shikhar•大约 1 个月前

大家好，我是 s2.dev 的联合创始人之一。RePlaya (https://github.com/s2-streamstore/replaya) 是一个使用 rrweb (https://github.com/rrweb-io/rrweb) 构建的自托管浏览器会话回放工具。我想到，为这类工具的大部分功能提供一个持久化的会话流作为基础架构，会是一种更简洁的设计。作为一个独特的功能，它也使得实时跟踪变得简单，因为播放器可以从录制器正在写入的同一个流中读取数据。另一种架构可能是使用一个数据摄入的“消防水管”，然后进行索引，这会带来相关的复杂性和延迟。你需要将多个数据系统串联起来，比如消息队列、元数据数据库以及对象存储或 OLAP 数据库。在这里，唯一的依赖是 S2，它有一个开源版本叫做 s2-lite (https://news.ycombinator.com/item?id=46708055)，你可以自行托管。工作原理： - 每个浏览器会话对应一个 S2 流。 - 大型 rrweb 事件（如完整快照）会被分帧到多个 S2 二进制记录中，并在读取时重新组装。 - 活动会话通过 S2 读取会话进行跟踪，并通过 SSE 桥接到浏览器。 - 会话列表依赖于流名称编码的倒序时间戳，因为 S2 返回的是字典序的列表。 - 利用围栏令牌（fencing tokens）确保已停止的会话不会被延迟的录制器再次写入。 - 保留和垃圾回收（GC）通过 S2 流配置处理，无需后台作业。很想听听大家对这个工具或“每个会话一个流”模型的看法！

上一页 1...466 467 468 469 470...5573 下一页

最新