1作者: sauronsrv2 天前
将每个概念想象成坐落在由相关词语和想法构成的云团中。这张概念图谱只保留了关键的连接——也就是你首先需要理解的那些更简单的概念。沿着这些边向下追溯,每个概念最终都会落入四个基础之一:空间、时间、能量、模式。这条链的深度大致反映了该概念在涌现的层级结构中所处的位置。 在此搜索:[https://emergencemachine.com/atlas/search](https://emergencemachine.com/atlas/search) 你还可以比较两个概念的图,看看它们有哪些共同之处:[https://emergencemachine.com/atlas/distance](https://emergencemachine.com/atlas/distance) 每个概念也可以与网站的 AI——普罗米修斯进行讨论和辩论。 工具:Python (asyncpg + 自定义 DAG 遍历) 遍历了“概念”的先决条件图,直至其四个基础根节点,然后 Graphviz (dot 引擎) 渲染了 SVG。PostgreSQL 支持实时概念图谱;链式图像是确定性构建的。 阅读更多:[https://emergencemachine.com/language-emergent-tool/](https://emergencemachine.com/language-emergent-tool/)
1作者: baetylus2 天前
除了Hacker News,我想知道大家都在哪里获取关于人工智能进展和新闻的优质信息来源。当然,我可以阅读arxiv等平台,但很好奇大家都在用什么渠道!
2作者: Parkado2 天前
嗨,HN, 我是 Roland。过去几周,我一直在构建 AllBSides——一个收录所有上传到 YouTube 的 BSides 会议演讲的目录。截至今天,该目录收录了来自 68 个国家/地区的 227 个分会的 5,927 位演讲者的 8,643 场演讲。总时长为 280 天。转录稿大约有 6000 万字。 这个档案库是分阶段构建的: 1. 手动映射每个 BSides 分会的 YouTube 频道 2. 从 Supabase 中提取每个视频和转录稿 3. 通过 Haiku 运行每个转录稿以进行标签提取(工具、主题、难度、团队、演讲风格、研究方法等等) 4. 通过 Sonnet 运行结果以进行分类和去重 5. 最后通过 Opus 进行验证 6. 进行手动验证——曾经,该流程显示了超过 16,000 个 AI 建议进行手动验证。如今,大部分问题都已解决。 到目前为止,总的 LLM 成本约为 200 欧元。整个流程可以从头开始重建。 每场演讲都有自己的页面,其中嵌入了视频、完整的转录稿、演讲者、标签和“相关演讲”。语料库中提到的每个工具/框架/协议/标准都有自己的页面(跟踪了 3,968 种不同的技术)。 我在构建过程中收集了一些有趣的事实: - (A) 该网站目前 94% 的流量来自机器人。其中,大约 80,000 次/月的访问来自 AI 训练爬虫(ClaudeBot、GPTBot、meta-externalagent)。在演讲档案库上线后的 7 天内,所有主要的 AI 实验室都摄取了整个语料库。实时观看这种发现级联令人震惊。 - (B) 分类学工作是最难的部分。区分“工具”、“框架”、“协议”和“概念”听起来很容易,但当你拥有 5,000 个模棱两可的提取实体时,就会变得很困难。三层 LLM 流程帮助很大——仅 Haiku 噪音太大,仅 Opus 又太贵。 - (C) 提及最多的工具:Wireshark (343)、PowerShell (342)、Metasploit (332)、Burp Suite (322)、GitHub (296)、VirusTotal (273)、Docker (253)、Splunk (251)、Nmap (247)、MITRE ATT&CK (237)。该列表反映了 BSides 演讲实际讨论的内容,而不是供应商策划的内容。 - (D) 五月是 BSides 的高峰月份——有 29 场活动,占所有有日期的活动的 17%。 - (E) 前 1% 的演讲(按观看次数计算的 86 个视频)占所有观看次数的 51%。其他 99% 的演讲都非常小众,通常是特定技术的唯一视频记录。 该技术栈有意精简:Go、SQLite、原生 JavaScript、BunnyCDN。在构建时进行静态渲染。没有框架,没有客户端状态。该网站每月运行成本约为 50 欧元。 关于这篇文章的数据以及更多信息,可以在网站页脚的“统计数据”链接下找到。 我很乐意回答有关数据流程、分类学决策或 AI 爬虫模式在档案库上线时的表现等问题。我真诚地欢迎您对接下来要构建的内容提出反馈——我是一个单人开发者,正在边做边学。 — Roland (parkado)