大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大

近期,一些主流人工智能模型在处理看似简单的数学对比问题时,意外地出现了集体失误。问题聚焦于“9.11和9.9哪一个更大”,即便是强大的GPT-4o以及谷歌的Gemini Advanced付费版等先进模型,都坚持认为9.11大于9.9。更有甚者,新晋的人工智能Claude 3.5 Sonnet还提供了一套看似合理却错误的计算逻辑,通过将数字分解为小数部分进行比较,最终得出了不正确的结论。大模型测不出9.11和9.9哪个大!

大模型测不出9.11和9.9哪个大

这一现象最初由Riley Goodside发现,他作为提示词工程师,在与GPT-4o的交互中注意到了这一异常。在尝试变换提问方式,甚至明确指定比较实数后,多数模型仍未能纠正这一基本的数学判断。有趣的是,当提问的顺序被调整后,某些AI模型竟然能够正确作答,揭示了它们对于词序的高度敏感性。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

针对这一现象,有观察者推测,AI在没有明确指令指示其进行算术比较时,可能会误解问题的意图,从而产生不合逻辑的答案。部分原因归咎于大模型处理文本的token化方法,其中9.11中的“11”被错误地赋予了比9更高的权重,导致整体比较失准。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

实验还扩展到了国产大模型,结果显示类似的问题同样存在,尽管也有如腾讯的元宝和字节跳动的豆包等模型能够正确处理并给出合理的解释。深入分析揭示,当明确告知AI这是关于双精度浮点数的比较后,它们通常能够得出正确的答案,这凸显了在特定情境下引导AI注意力机制的重要性。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

此外,有讨论指出AI训练数据中可能缺乏基础数学比较的实例,而对复杂或特定格式(如书籍章节编号)的频繁接触,可能导致了这一类混淆。这不仅反映了当前AI理解能力的局限性,也引发了关于如何优化提问策略以引导AI正确解析问题的探讨。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

至于OpenAI的新模型“草莓”的最新泄露信息,虽然据说在MATH数据集上表现出色,但在未经证实的情况下,其能否避免类似的基础数学判断失误,仍然有待观察。

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

大模型测不出9.11和9.9哪个大 AI常识困境暴露

免责声明:本文章由会员“极目新闻”发布如果文章侵权,请联系我们处理,本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系