LOADING

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

2024/06/10 新智元
23

两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

AIGC动态欢迎阅读

原标题:两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
关键字:模型,能力,问题,答案,测试
文章来源:新智元
内容字数:0字

内容摘要:


新智元报道编辑:乔杨 好困
【新智元导读】在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构LAION的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了LLM基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的LLM全军覆没?
对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难——
「爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?」
只需稍加思考,答案显而易见:M+1。(爱丽丝拥有的姐妹数量,再加上爱丽丝自己)
但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。
而且问题不仅仅是基本的不准确性:当要求展示其工作过程时,AI会详细说明一些荒谬且错误的「思考」过程,这些过程毫无意义——更奇怪的是,当被告知其工作不准确时,模型反复变得愤怒并坚持其错误答案。
正如这支来自知名开源AI研究机构LAION的团队所揭示的——即使是当今最先进的模型,也几乎不具有小学生的推理能力


原文链接:两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷

联系作者

文章来源:新智元
作者微信:AI_era
作者简介:智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。