1 分•作者: mooreds•9 个月前
返回首页
最新
1 分•作者: tldrthelaw•9 个月前
2 分•作者: thelastgallon•9 个月前
1 分•作者: jszymborski•9 个月前
26 分•作者: mitchwainer•9 个月前
49 分•作者: rock_artist•9 个月前
57 分•作者: nosrepa•9 个月前
19 分•作者: icy•9 个月前
30 分•作者: dagmx•9 个月前
1 分•作者: yakattak•9 个月前
最近我看到很多关于 GitHub 替代品的讨论。我也很想了解一下,但很好奇大家的使用体验如何。<p>我一直在关注 Codeberg,但我真的很不想放弃 GitHub Actions,而 Codeberg 的替代方案似乎还未准备好。
1 分•作者: surprisetalk•9 个月前
1 分•作者: surprisetalk•9 个月前
1 分•作者: surprisetalk•9 个月前
1 分•作者: lil_monster•9 个月前
1 分•作者: surprisetalk•9 个月前
1 分•作者: ciprian_craciun•9 个月前
3 分•作者: ahonn•9 个月前
1 分•作者: tosh•9 个月前
1 分•作者: littlexsparkee•9 个月前
10 分•作者: scrollaway•9 个月前
我们使用基于英国著名且极具挑战性的游戏节目《Only Connect》的方法,评估了 OpenAI GPT-5 的横向推理能力,并与其他模型进行了对比。《Only Connect》以挑战参赛者的模式匹配和冷知识技能而闻名。<p>要点:
- GPT-5 表现出色,但仅略优于 o3。
- 模型的冗长程度对准确性和巧妙性影响甚微,但有趣的是,在序列题环节有所不同。
- 然而,“极简”的冗长程度会导致准确性急剧下降。<p>我们将在未来几天发布来自扩展测试的更多结果。我们正在研究不同类型的评估(模型在序列中只有一个项目 vs. 2、3、4 个项目时的表现如何)。我们还希望研究模型在三人团队中的表现,以复制该游戏节目的形式。<p>我们未能找到《Only Connect》游戏出现在训练材料中的证据(当然,现在这种情况很可能会改变)。
最后,我们正在尝试复制连接墙的结果,使用《纽约时报》的“Connections”游戏,但我们怀疑这些游戏可能已包含在训练材料中,这将导致结果失真。