2 分•作者: birdculture•2 天前
返回首页
最新
1 分•作者: JumpCrisscross•2 天前
2 分•作者: SpyCoder77•2 天前
2 分•作者: rajeevn•2 天前
3 分•作者: bilsbie•2 天前
3 分•作者: misaelzapata•2 天前
2 分•作者: Parkado•2 天前
嗨,HN,
我是 Roland。过去几周,我一直在构建 AllBSides——一个收录所有上传到 YouTube 的 BSides 会议演讲的目录。截至今天,该目录收录了来自 68 个国家/地区的 227 个分会的 5,927 位演讲者的 8,643 场演讲。总时长为 280 天。转录稿大约有 6000 万字。
这个档案库是分阶段构建的:
1. 手动映射每个 BSides 分会的 YouTube 频道
2. 从 Supabase 中提取每个视频和转录稿
3. 通过 Haiku 运行每个转录稿以进行标签提取(工具、主题、难度、团队、演讲风格、研究方法等等)
4. 通过 Sonnet 运行结果以进行分类和去重
5. 最后通过 Opus 进行验证
6. 进行手动验证——曾经,该流程显示了超过 16,000 个 AI 建议进行手动验证。如今,大部分问题都已解决。
到目前为止,总的 LLM 成本约为 200 欧元。整个流程可以从头开始重建。
每场演讲都有自己的页面,其中嵌入了视频、完整的转录稿、演讲者、标签和“相关演讲”。语料库中提到的每个工具/框架/协议/标准都有自己的页面(跟踪了 3,968 种不同的技术)。
我在构建过程中收集了一些有趣的事实:
- (A) 该网站目前 94% 的流量来自机器人。其中,大约 80,000 次/月的访问来自 AI 训练爬虫(ClaudeBot、GPTBot、meta-externalagent)。在演讲档案库上线后的 7 天内,所有主要的 AI 实验室都摄取了整个语料库。实时观看这种发现级联令人震惊。
- (B) 分类学工作是最难的部分。区分“工具”、“框架”、“协议”和“概念”听起来很容易,但当你拥有 5,000 个模棱两可的提取实体时,就会变得很困难。三层 LLM 流程帮助很大——仅 Haiku 噪音太大,仅 Opus 又太贵。
- (C) 提及最多的工具:Wireshark (343)、PowerShell (342)、Metasploit (332)、Burp Suite (322)、GitHub (296)、VirusTotal (273)、Docker (253)、Splunk (251)、Nmap (247)、MITRE ATT&CK (237)。该列表反映了 BSides 演讲实际讨论的内容,而不是供应商策划的内容。
- (D) 五月是 BSides 的高峰月份——有 29 场活动,占所有有日期的活动的 17%。
- (E) 前 1% 的演讲(按观看次数计算的 86 个视频)占所有观看次数的 51%。其他 99% 的演讲都非常小众,通常是特定技术的唯一视频记录。
该技术栈有意精简:Go、SQLite、原生 JavaScript、BunnyCDN。在构建时进行静态渲染。没有框架,没有客户端状态。该网站每月运行成本约为 50 欧元。
关于这篇文章的数据以及更多信息,可以在网站页脚的“统计数据”链接下找到。
我很乐意回答有关数据流程、分类学决策或 AI 爬虫模式在档案库上线时的表现等问题。我真诚地欢迎您对接下来要构建的内容提出反馈——我是一个单人开发者,正在边做边学。
— Roland (parkado)
1 分•作者: rickyyean•2 天前
1 分•作者: DASD•2 天前
1 分•作者: ridiculous_leke•2 天前
1 分•作者: e2e4•2 天前
1 分•作者: mathgenius•2 天前
2 分•作者: nixass•2 天前
3 分•作者: latchkey•2 天前
2 分•作者: goplayoutside•2 天前
1 分•作者: tracker1•2 天前
1 分•作者: andsoitis•2 天前
49 分•作者: BOOSTERHIDROGEN•2 天前
15 分•作者: teruakohatu•2 天前
29 分•作者: brightbeige•2 天前