15 分•作者: EvanZhouDev•大约 1 个月前
返回首页
最新
93 分•作者: LER0ever•大约 1 个月前
发布七款新的 MAI 模型:https://microsoft.ai/news/building-a-hillclimbing-machine-launching-seven-new-mai-models/
2 分•作者: rapiz•大约 1 个月前
13 分•作者: ibobev•大约 1 个月前
22 分•作者: sayyadirfanali•大约 1 个月前
2 分•作者: raphjacksun•大约 1 个月前
1 分•作者: tosh•大约 1 个月前
1 分•作者: theanonymousone•大约 1 个月前
1 分•作者: RickJWagner•大约 1 个月前
1 分•作者: Bender•大约 1 个月前
1 分•作者: simantakDabhade•大约 1 个月前
大家好!
我大部分时间都在 TinyFish(这真是太棒了)那里调整和使用非常强大的搜索引擎。最近,我一直对使用搜索引擎递归地构建数据集这个想法非常着迷。
我花了很多时间玩 Exa 的 WebSets 产品,并意识到它主要专注于潜在客户开发,并且创建的数据集有很多缺失的数据。
所以我们构建了一个完全开源的项目,可以针对任何主题构建和更新数据集。
到目前为止,我已经生成了以下数据集:
“星巴克在亚马逊上销售的所有产品,包括价格和是否有货”
“加利福尼亚的所有主题公园,以及门票价格”
“所有正在招聘工程岗位的 YC 公司及其招聘页面链接”
非常希望大家能尝试一下,并留下你们的想法、星标和反馈。谢谢!
1 分•作者: Bender•大约 1 个月前
1 分•作者: speckx•大约 1 个月前
1 分•作者: douglasgoodwin•大约 1 个月前
1 分•作者: thm•大约 1 个月前
1 分•作者: j12y•大约 1 个月前
27 分•作者: tosh•大约 1 个月前
2 分•作者: oryocyph•大约 1 个月前
背景:在一家大型科技公司担任高级软件工程师。
我所在组织对高级工程师的目标之一是识别并实施人工智能(AI)项目。
我已经熟悉并正在积极使用模型即服务(MCP)、AI 代理、插件等。虽然它们很有用,但感觉我公司的大多数人已经在从事这方面的工作了。
我想了解贵组织是否构建或采用了任何人工智能驱动的工具、工作流程或用例,这些工具、工作流程或用例已经带来了有意义的业务价值,并且有可能被其他组织借鉴。
31 分•作者: Timofeibu•大约 1 个月前
6 分•作者: shikhar•大约 1 个月前
大家好,我是 s2.dev 的联合创始人之一。RePlaya (https://github.com/s2-streamstore/replaya) 是一个使用 rrweb (https://github.com/rrweb-io/rrweb) 构建的自托管浏览器会话回放工具。
我想到,为这类工具的大部分功能提供一个持久化的会话流作为基础架构,会是一种更简洁的设计。作为一个独特的功能,它也使得实时跟踪变得简单,因为播放器可以从录制器正在写入的同一个流中读取数据。
另一种架构可能是使用一个数据摄入的“消防水管”,然后进行索引,这会带来相关的复杂性和延迟。你需要将多个数据系统串联起来,比如消息队列、元数据数据库以及对象存储或 OLAP 数据库。
在这里,唯一的依赖是 S2,它有一个开源版本叫做 s2-lite (https://news.ycombinator.com/item?id=46708055),你可以自行托管。
工作原理:
- 每个浏览器会话对应一个 S2 流。
- 大型 rrweb 事件(如完整快照)会被分帧到多个 S2 二进制记录中,并在读取时重新组装。
- 活动会话通过 S2 读取会话进行跟踪,并通过 SSE 桥接到浏览器。
- 会话列表依赖于流名称编码的倒序时间戳,因为 S2 返回的是字典序的列表。
- 利用围栏令牌(fencing tokens)确保已停止的会话不会被延迟的录制器再次写入。
- 保留和垃圾回收(GC)通过 S2 流配置处理,无需后台作业。
很想听听大家对这个工具或“每个会话一个流”模型的看法!