16作者: metiscus18 天前
一天下班回家的路上,我想知道我们知道名字的、生活在罗马时代的人有多少。我搜索了一下,找到了执政官和官员的名单,但没有涵盖普通人,甚至是没有自由民和奴隶这样的大多数人。于是我构建了一个处理 Clauss-Slaby 铭文数据库(https://edcs.hist.uzh.ch/en/)中超过 50 万条拉丁铭文的管道,以提取人名(并尝试进行聚类,但这仍在进行中)。 有一些数据库,古典学家已经为特定地区手动完成了这项工作,Trismegistos (https://www.trismegistos.org/) 和 Roman Empire Latin Inscriptions (LIRE) (https://pure.au.dk/portal/en/publications/latin-inscriptions-of-the-roman-empire-lire/) 是我找到的两个主要项目。但似乎没有一个项目完成了我想要做的事情,尽管我在一些地方读到过,人们认为这是可能的。 我不是古典学家或网页开发者,但我有 Claude 和 Gemini,而且我能勉强读懂基础拉丁语,所以我开始着手了。我使用 LIRE 和另一个数据库作为基础事实,并构建了一个管道来提取和处理铭文以恢复人名。我开发的流程使用像 Sonnet 或 Gemini Pro 这样高端的大型语言模型,在区域基础上监督提取和调优过程,直到明显的错误率达到可接受的水平。到目前为止,对我来说,可接受的水平意味着在 100-500 的较小初始样本中错误率低于 1-2%,并且没有观察到系统性问题。不同地区通常需要不同的提示词,所以这基本上变成了一个让更高级别的 AI 为更低级别的 AI 调优提示词的练习。与 LIRE 相比,提取的 F1 分数在 0.64 到 0.87 之间,但请对此持保留态度。 在我处理了几个地区后,我想看看成果,于是我匆忙搭建了一个非常粗糙的网站,但由于我不是网页开发者,它的数据访问方式也很粗糙。它看起来很酷,我还为每个条目添加了摘要和机器翻译。我希望最终能得到一个真正的古典学家团队的反馈,并让网站运行得更好,所以我正在重写它,但它现在基本上是可用的,有一些额外的 bug,但与旧版本相比性能有了显著提升。所有条目都链接回正确的来源,旧的 Web 应用程序链接到数据存在的其他几个附加来源,但我还没有在新版本中重新实现这一点。(旧的 Web 界面仍然可用,网址为 https://roman-names.com,但我会警告你,它很笨拙,而且完全不适合移动设备) 到目前为止的主要发现: AI 监督的 AI 提取为我节省了时间。我曾手动调优了一段时间,然后“运行手册”这个想法出现了,我输入我的指令,让大型 AI 在我的少量监督下进行。 当我向模型提供包含标记的原始文本,而不是清理过的文本版本时,提取效果显著提高(提高了约 10 个 F1 分数)。 我只是觉得这是一个很酷的小项目,想分享一下。如果你恰好在任何相关领域工作,并且有什么我可以做得更好的地方,请告诉我。
1作者: helterskelter18 天前
1作者: tracyspacy18 天前
FLI 的初始发布 - 一个非常小巧且快速(类似于 `ls`)的目录列表工具。 *初始原因:* 需要一个易于阅读的、类似于 `ls` 的工具,用于树莓派通过 SSH 使用。 *当前原因:* 检查是否可以使用 Rust 构建比核心工具更快、更小的工具。 * 大小: * 18KB - 树莓派 Zero W * 51KB - Mac * 默认模式通过 `readdir()` 流式输出到 stdout,无需堆分配。 * 通过使用 `(` 和 `)` 而非文本着色,提高了可读性。 * 使用 `no_std` Rust + `libc` 编写。 仓库:https://github.com/tracyspacy/fli
3作者: jaredzhao18 天前
各位 HN 的朋友们,我是 Jared。我从 2020 年开始就一直在构建数据工具。从 Polyture,到 AskEdith,再到现在的 Athenic:用自然语言提问,得到图表/仪表盘,然后自动化。它可以连接到 Postgres、Salesforce、Google Ads 等任何系统。 对于那些说“直接将 Claude 连接到你的数据库就行了”的人:想象一下在商业环境中,会涌现出多少相互矛盾的定义和分析结果。 两次询问“我们的收入是多少?”,间隔两天或者问不同的模型。你无法保证会得到相同的结果。现在想象一下,将这种不确定性交给公司里所有不懂技术的使用者。 这不是模型的问题。我们为此付出了沉重的代价。2022 年我们推出 AskEdith 时,你们在这里(https://news.ycombinator.com/item?id=33435361)告诉我们:“你仍然需要检查 SQL”、“信任至关重要”、“答案不会一致”。你们说得对。 现在,Athenic 在语义模型中确定性地定义关键绩效指标(KPI)和公式。语义模型由模块化、可组合的单元组成,可以构建复杂的分析,同时保证确定性和准确性。LLM 的唯一职责是解释你的问题(即使是非技术用户也可以进行二次检查)。 `revenue = sum(order_total − refunds) where status = 'completed'` 询问收入,每个人每次都会得到相同的数字。 在与顶尖初创公司和财富 500 强公司合作了三年,积累了丰富的经验后,我们刚刚发布了 2.0 版本。支持聊天式洞察,以及按计划运行并发送到你邮箱的仪表盘和自动化。欢迎大家来指出我们的不足。