最新

MCP 安全最佳实践

1 分•作者: mooreds•9 个月前

指挥官队体育场交易中的住房和就业承诺只是个幌子

1 分•作者: tldrthelaw•9 个月前

你没有权利乔治·卡林 [视频]

2 分•作者: thelastgallon•9 个月前

goo.gl 关闭的时候你在哪儿？

1 分•作者: jszymborski•9 个月前

Nexus：用于治理、控制和可观测性的开源 AI 路由器

26 分•作者: mitchwainer•9 个月前

GitHub 又出问题了

49 分•作者: rock_artist•9 个月前

那段“已停用”的特斯拉 Cybertruck 的病毒式传播视频是假的。

57 分•作者: nosrepa•9 个月前

使用 Nix、Vim 和 coreutils 进行日志记录

19 分•作者: icy•9 个月前

ARM 为 GPU 增加了神经加速器

30 分•作者: dagmx•9 个月前

Ask HN：除了 GitHub，你还在用哪些替代方案？

1 分•作者: yakattak•9 个月前

最近我看到很多关于 GitHub 替代品的讨论。我也很想了解一下，但很好奇大家的使用体验如何。<p>我一直在关注 Codeberg，但我真的很不想放弃 GitHub Actions，而 Codeberg 的替代方案似乎还未准备好。

你觉得你能遗传吗？

1 分•作者: surprisetalk•9 个月前

完美贴合的注液式耳塞

1 分•作者: surprisetalk•9 个月前

人们主要通过性行为生育后代。

1 分•作者: surprisetalk•9 个月前

LLM 设定角色以绕过限制

1 分•作者: lil_monster•9 个月前

国际象棋，但没有回合 [视频]

1 分•作者: surprisetalk•9 个月前

欧盟云计算替代方案对小型项目和公司的可负担性

1 分•作者: ciprian_craciun•9 个月前

Show HN: PageIndex OCR – 首个长上下文 OCR 模型

3 分•作者: ahonn•9 个月前

可以直接购买的 Apple TV+ 电影

1 分•作者: tosh•9 个月前

加州警察部门正在转向一个备受争议的应聘者群体。

1 分•作者: littlexsparkee•9 个月前

使用《只有连接》游戏节目评估 GPT5 的推理能力

10 分•作者: scrollaway•9 个月前

我们使用基于英国著名且极具挑战性的游戏节目《Only Connect》的方法，评估了 OpenAI GPT-5 的横向推理能力，并与其他模型进行了对比。《Only Connect》以挑战参赛者的模式匹配和冷知识技能而闻名。<p>要点： - GPT-5 表现出色，但仅略优于 o3。 - 模型的冗长程度对准确性和巧妙性影响甚微，但有趣的是，在序列题环节有所不同。 - 然而，“极简”的冗长程度会导致准确性急剧下降。<p>我们将在未来几天发布来自扩展测试的更多结果。我们正在研究不同类型的评估（模型在序列中只有一个项目 vs. 2、3、4 个项目时的表现如何）。我们还希望研究模型在三人团队中的表现，以复制该游戏节目的形式。<p>我们未能找到《Only Connect》游戏出现在训练材料中的证据（当然，现在这种情况很可能会改变）。最后，我们正在尝试复制连接墙的结果，使用《纽约时报》的“Connections”游戏，但我们怀疑这些游戏可能已包含在训练材料中，这将导致结果失真。

上一页 1...4188 4189 4190 4191 4192...4929 下一页