1 分•作者: setrf•18 天前
嘿,Hacker News!我是Mert。<p>我构建这个项目是因为我对大型语言模型(LLM)的基准测试可能被训练数据污染感到沮丧。当一个模型在 MMLU-Pro-Max 上获得 99.9% 的高分时,我们无法判断这究竟是真正的推理能力还是单纯的记忆。<p>Forecaster Arena 试图通过测试模型对尚未发生的事件的预测能力来解决这个问题——这些事件来自 Polymarket 上的真实预测市场。事实的真相就是现实本身,会在几周或几个月后揭晓。<p>运作方式如下:<p>7 个前沿 LLM(GPT-5.1、Claude Opus 4.5、Gemini、Grok、DeepSeek 等)(将会更新) -> 每个模型每周获得 1 万美元的虚拟资金 -> 它们在 500 多个真实预测市场上进行投注 -> 投注额 = 置信度(下注越大 = 越自信) -> 我们衡量校准度(Brier 分数)+ 收益(盈亏)<p>目前正在进行第一批测试(始于 12 月 7 日)。预计在未来几周内进行首次具有统计意义的分析。<p>所有内容均为开源(MIT 许可证):<a href="https://github.com/setrf/forecasterarena" rel="nofollow">https://github.com/setrf/forecasterarena</a><p>很乐意回答关于实现或我所做的权衡的问题。也欢迎大家对我的方法提出反馈意见!