16 分•作者: metiscus•18 天前
一天下班回家的路上,我想知道我们知道名字的、生活在罗马时代的人有多少。我搜索了一下,找到了执政官和官员的名单,但没有涵盖普通人,甚至是没有自由民和奴隶这样的大多数人。于是我构建了一个处理 Clauss-Slaby 铭文数据库(https://edcs.hist.uzh.ch/en/)中超过 50 万条拉丁铭文的管道,以提取人名(并尝试进行聚类,但这仍在进行中)。
有一些数据库,古典学家已经为特定地区手动完成了这项工作,Trismegistos (https://www.trismegistos.org/) 和 Roman Empire Latin Inscriptions (LIRE) (https://pure.au.dk/portal/en/publications/latin-inscriptions-of-the-roman-empire-lire/) 是我找到的两个主要项目。但似乎没有一个项目完成了我想要做的事情,尽管我在一些地方读到过,人们认为这是可能的。
我不是古典学家或网页开发者,但我有 Claude 和 Gemini,而且我能勉强读懂基础拉丁语,所以我开始着手了。我使用 LIRE 和另一个数据库作为基础事实,并构建了一个管道来提取和处理铭文以恢复人名。我开发的流程使用像 Sonnet 或 Gemini Pro 这样高端的大型语言模型,在区域基础上监督提取和调优过程,直到明显的错误率达到可接受的水平。到目前为止,对我来说,可接受的水平意味着在 100-500 的较小初始样本中错误率低于 1-2%,并且没有观察到系统性问题。不同地区通常需要不同的提示词,所以这基本上变成了一个让更高级别的 AI 为更低级别的 AI 调优提示词的练习。与 LIRE 相比,提取的 F1 分数在 0.64 到 0.87 之间,但请对此持保留态度。
在我处理了几个地区后,我想看看成果,于是我匆忙搭建了一个非常粗糙的网站,但由于我不是网页开发者,它的数据访问方式也很粗糙。它看起来很酷,我还为每个条目添加了摘要和机器翻译。我希望最终能得到一个真正的古典学家团队的反馈,并让网站运行得更好,所以我正在重写它,但它现在基本上是可用的,有一些额外的 bug,但与旧版本相比性能有了显著提升。所有条目都链接回正确的来源,旧的 Web 应用程序链接到数据存在的其他几个附加来源,但我还没有在新版本中重新实现这一点。(旧的 Web 界面仍然可用,网址为 https://roman-names.com,但我会警告你,它很笨拙,而且完全不适合移动设备)
到目前为止的主要发现:
AI 监督的 AI 提取为我节省了时间。我曾手动调优了一段时间,然后“运行手册”这个想法出现了,我输入我的指令,让大型 AI 在我的少量监督下进行。
当我向模型提供包含标记的原始文本,而不是清理过的文本版本时,提取效果显著提高(提高了约 10 个 F1 分数)。
我只是觉得这是一个很酷的小项目,想分享一下。如果你恰好在任何相关领域工作,并且有什么我可以做得更好的地方,请告诉我。