HackerNews中文版

一张地图对应一个键，一次查找

2 分•作者: birdculture•2 天前

我们一定要“一起吃午饭”吗？

1 分•作者: JumpCrisscross•2 天前

虚无即存在

2 分•作者: SpyCoder77•2 天前

HeadVis：用于研究注意力头的交互式工具

2 分•作者: rajeevn•2 天前

强大的AI在NASA数据中发现了100颗隐藏的行星，其中包括极端世界

3 分•作者: bilsbie•2 天前

Show HN: Node-Vmm – 纯 Node.js 实现的 Linux MicroVM，可在 Mac/Windows/Linux 上运行，启动时间约 1 秒

3 分•作者: misaelzapata•2 天前

Show HN: 我索引了 8,643 场 BSides 演讲，涵盖 227 个分会场和 6 大洲

2 分•作者: Parkado•2 天前

嗨，HN，我是 Roland。过去几周，我一直在构建 AllBSides——一个收录所有上传到 YouTube 的 BSides 会议演讲的目录。截至今天，该目录收录了来自 68 个国家/地区的 227 个分会的 5,927 位演讲者的 8,643 场演讲。总时长为 280 天。转录稿大约有 6000 万字。这个档案库是分阶段构建的： 1. 手动映射每个 BSides 分会的 YouTube 频道 2. 从 Supabase 中提取每个视频和转录稿 3. 通过 Haiku 运行每个转录稿以进行标签提取（工具、主题、难度、团队、演讲风格、研究方法等等） 4. 通过 Sonnet 运行结果以进行分类和去重 5. 最后通过 Opus 进行验证 6. 进行手动验证——曾经，该流程显示了超过 16,000 个 AI 建议进行手动验证。如今，大部分问题都已解决。到目前为止，总的 LLM 成本约为 200 欧元。整个流程可以从头开始重建。每场演讲都有自己的页面，其中嵌入了视频、完整的转录稿、演讲者、标签和“相关演讲”。语料库中提到的每个工具/框架/协议/标准都有自己的页面（跟踪了 3,968 种不同的技术）。我在构建过程中收集了一些有趣的事实： - (A) 该网站目前 94% 的流量来自机器人。其中，大约 80,000 次/月的访问来自 AI 训练爬虫（ClaudeBot、GPTBot、meta-externalagent）。在演讲档案库上线后的 7 天内，所有主要的 AI 实验室都摄取了整个语料库。实时观看这种发现级联令人震惊。 - (B) 分类学工作是最难的部分。区分“工具”、“框架”、“协议”和“概念”听起来很容易，但当你拥有 5,000 个模棱两可的提取实体时，就会变得很困难。三层 LLM 流程帮助很大——仅 Haiku 噪音太大，仅 Opus 又太贵。 - (C) 提及最多的工具：Wireshark (343)、PowerShell (342)、Metasploit (332)、Burp Suite (322)、GitHub (296)、VirusTotal (273)、Docker (253)、Splunk (251)、Nmap (247)、MITRE ATT&CK (237)。该列表反映了 BSides 演讲实际讨论的内容，而不是供应商策划的内容。 - (D) 五月是 BSides 的高峰月份——有 29 场活动，占所有有日期的活动的 17%。 - (E) 前 1% 的演讲（按观看次数计算的 86 个视频）占所有观看次数的 51%。其他 99% 的演讲都非常小众，通常是特定技术的唯一视频记录。该技术栈有意精简：Go、SQLite、原生 JavaScript、BunnyCDN。在构建时进行静态渲染。没有框架，没有客户端状态。该网站每月运行成本约为 50 欧元。关于这篇文章的数据以及更多信息，可以在网站页脚的“统计数据”链接下找到。我很乐意回答有关数据流程、分类学决策或 AI 爬虫模式在档案库上线时的表现等问题。我真诚地欢迎您对接下来要构建的内容提出反馈——我是一个单人开发者，正在边做边学。 — Roland (parkado)

当人工智能替我们工作时，我们失去了什么？

1 分•作者: rickyyean•2 天前

密码哈希和存储的最佳实践

1 分•作者: DASD•2 天前

精英过剩假说 (2025)

1 分•作者: ridiculous_leke•2 天前

中国是工程师的国度，而美国和德国现在是律师的国度。

1 分•作者: e2e4•2 天前

生物学中的量子，为生物学的量子，以及生物学服务于量子

1 分•作者: mathgenius•2 天前

Filen删除了我所有的数据。提醒其他人注意。

2 分•作者: nixass•2 天前