返回首页

一周热榜

13作者: Tim256596 天前
有了强大的 AI 编程助手,我有时会觉得学习诸如分布式系统和算法等深入的计算机科学主题的动力不足。AI 可以快速生成解决方案,这使得学习基础知识的紧迫感降低。<p>对于那些在这个行业里待得更久的人来说,你们认为保持扎实的计算机科学基础仍然重要吗?
10作者: mapldx7 天前
我用 Go 语言构建了 Signet,目的是看看一个自主系统是否能够处理目前人们手动运行的野火监测循环——检查卫星数据、获取天气信息、查看地形和燃料情况,并判断某个探测是否真的是值得追踪的火灾。 所有数据都已存在:NASA FIRMS 热点探测数据、GOES-19 影像、NWS 预报、LANDFIRE 燃料模型、USGS 海拔数据、人口普查数据、OpenStreetMap。问题在于,这些数据来自不同的来源,以不同的频率和格式到达。 该系统的大部分是确定性的管道——摄取、空间索引、去重。我使用 Gemini 在天气、地形、影像和事件追踪方面协调 23 个工具,处理那些清晰规则失效的部分:决定哪些微弱的探测值得调查,接下来应该提取什么上下文信息,以及如何将嘈杂的证据合成为结构化的评估。 它还会记录时间限定的预测,并根据后续数据对其进行评分,因此该系统正在做出可证伪的声明,而不是事后叙述。当前的预测指标在网站上可见,尽管样本量仍然很小。 它已经能够从原始的卫星探测数据中创建事件,并将其中一些与官方的 NIFC 报告进行匹配。但误报、探测延迟和事件匹配仍然可能存在问题。 我特别欢迎对以下方面的批评:哪些地方应该更多地采用确定性方法,而不是 LLM 驱动?这种自主监测真的有用吗,还是仅仅比手动操作更嘈杂?
10作者: kingcauchy4 天前
嗨,HN,很高兴与大家分享 Antfly:一个用 Go 编写的分布式文档数据库和搜索引擎,它结合了全文、向量和图搜索。你可以用它来进行分布式多模态搜索和记忆,或者用于本地开发和小规模部署。 我构建它的目的是为了给开发者提供一个单二进制部署,并具有原生 ML 推理能力(通过一个名为 Termite 的内置服务),这意味着除非你想使用外部 API 调用来进行向量搜索,否则你不需要这样做。 一些可能让大家感兴趣的点: 功能:多模态索引(图像、音频、视频)、MongoDB 风格的原地更新和流式 RAG。 分布式系统:基于 etcd 库构建的多 Raft 设置,由 Pebble(CockroachDB 的存储引擎)提供支持。元数据和数据分片拥有自己的 Raft 组。 单二进制:antfly swarm 给你一个单进程部署,一切都在运行。适用于本地开发和小规模部署。当需要时,通过添加节点进行扩展。 生态系统:附带 Kubernetes operator 和用于 LLM 工具使用的 MCP 服务器。 原生 ML 推理:Antfly 附带 Termite。可以把它想象成一个内置的 Ollama,也适用于非生成模型(嵌入、重新排序、分块、文本生成)。不需要外部 API 调用,但也支持它们(OpenAI、Ollama、Bedrock、Gemini 等)。 许可证:我选择了 Elastic License v2,而不是一个 OSI 批准的许可证。我知道这在这里是一个备受争议的话题。实际结果是:你可以使用它、修改它、自托管它、在其之上构建产品,但你不能将 Antfly 本身作为托管服务提供。这感觉是在可持续性与仍然提供源代码之间的一个正确的权衡。 很乐意回答关于架构、Raft 实现或任何其他问题。欢迎反馈!