我们无法衡量大语言模型的推理能力,因为大语言模型并不存在于一个真实世界中。

1作者: kimounbo大约 17 小时前
我一直对在当前的 LLM 中定义甚至衡量“推理”的难度感到沮丧。 这篇文章认为,问题是结构性的,而不是认知性的:LLM 并不存在于一个陈述会持续存在、约束未来行为或产生后果的世界中。 我展示了一个任何人都可以运行的最小、可复现的演示,可以在商业 LLM 会话中运行。 相同的模型,相同的问题——唯一的区别是在开始时添加了一个“世界”声明。 有了这个最小的约束,可观察到的行为立即改变: - 位置漂移减少 - 自动逆转减少 - 判断更保守 - 拒绝退出定义的世界 这**并**不声称 LLM 会思考、推理或接近 AGI。 它只是表明,如果没有一个世界,类似推理的属性甚至无法衡量。 完整文章(附公开会话记录): https://medium.com/@kimounbo38/llms-dont-lack-reasoning-they-lack-a-world-0daf06fcdaeb?postPublishedType=initial
查看原文
I’ve been frustrated by how hard it is to even define or measure “reasoning” in current LLMs.<p>This post argues that the issue is structural rather than cognitive: LLMs don’t inhabit a world where statements persist, bind future behavior, or incur consequences.<p>I show a minimal, reproducible demo that anyone can run in a commercial LLM session. Same model, same questions — the only difference is a single “world” declaration added at the start.<p>With that minimal constraint, observable behavior changes immediately: - less position drift - fewer automatic reversals - more conservative judgments - refusal to exit the defined world<p>This does NOT claim that LLMs think, reason, or approach AGI. It only shows that without a world, reasoning-like properties are not even measurable.<p>Full write-up (with public session transcripts): https:&#x2F;&#x2F;medium.com&#x2F;@kimounbo38&#x2F;llms-dont-lack-reasoning-they-lack-a-world-0daf06fcdaeb?postPublishedType=initial