1作者: ativzzz19 天前
我想尝试一下多智能体工作流程——有时候我能让一个智能体的工作流程非常顺畅,它可以独立完成我知道需要完成但需要大量代码的工作。它会运行一段时间,然后我需要在浏览器中验证它是否真的有效,并从那里迭代/调试。或者我有 3 种不同的方法想尝试,我可以让 AI 只做一种,看看它是否与前端配合良好,如果不行就快速回滚。 我希望能够在它运行时同时处理另一个智能体,否则我只能坐在那里等待。 问题是我们的环境实际上不允许同时运行我们应用程序的多个实例——我们的前端很重,需要大量的内存,所以即使我们想办法运行多个后端,内存也会成为一个问题。 似乎很多多智能体工作流程都使用 CLI 工具——这很有道理。有人在 Web 端取得成功了吗?也许也包括一些浏览器自动化?
1作者: nsomani19 天前
大家好,HN,看来大家对之前 GPT 5.2 Pro 解决的 Erdos 问题反响热烈:<a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=46664631">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=46664631</a> 我招募了一支由聪明的本科生组成的团队,构建了一个数据集,其中包含了 ChatGPT 对每个未解决的 Erdos 问题的回答,并验证了输出结果。 他们发现: * 3 个问题给出了新的证明(尽管在 2 个案例中,找到了可以扩展以解决相同问题的历史部分结果) * 4 个问题中,5.2 Pro 或 Deep Research 在之前的文献中找到了确切的解决方案,但这些方案此前未被记录 * 3 个问题中,5.2 Pro 或 Deep Research 能够加强文献中之前的结论 * 3 个问题中,发现了问题陈述中的拼写错误 最常见的失败案例是,5.2 Pro 解决了问题,但专业数学家明白问题存在隐含的约束。例如,问题可能说的是整数,但实际上指的是正整数。 很乐意回答关于数据集的任何问题!