OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

作者：周末游戏网时间：2025-05-15 15:50:25

本站 4 月 19 日消息，OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道，幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（本站注：如 GPT-4o）。

OpenAI 在针对这两款模型发布的技术报告中表示：“要弄清楚随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，还需要进一步研究。”报告指出，尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往，但由于模型输出的答案总量增加，导致其既能作出更多准确判断，同时也不可避免地出现更多错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 中，o3 回答问题时出现幻觉的比例达到 33%，几乎是前代推理模型 o1 和 o3-mini 的两倍，后者的幻觉率分别为 16% 和 14.8%。在同一测试中，o4-mini 的表现更差，幻觉率高达 48%。

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现，o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如，Transluce 曾观察到，o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码，并将结果复制进了答案中。实际上，虽然 o3 拥有一部分工具访问权限，但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示：“解决幻觉问题是我们一直在推进的重点研究方向，我们也在不断努力提升模型的准确性与可靠性。”

长安汽车董事长朱华荣公布阿维塔目标：2027 年全球销量 40 万辆，年收入千亿元
感谢本站网友 Hi_World 的线索投递！本站 4 月 20 日消息，昨日长安汽车董事长朱华荣在阿维塔 06 上市发布会上透露了阿维塔科技的近远期发展

阅读详情
微软悄悄为 Win11 带回 Win10 被砍的任务栏日历“弹出窗口”时钟显示功能
感谢本站网友往事2016 的线索投递！本站 4 月 20 日消息，微软在今年4月为Windows 10推出四月累积更新KB5055518，对任务栏日历

阅读详情
余承东：享界 S9 增程版轿车上市 72 小时大定破 5200 台
感谢本站网友呵呵小哥、最亮的派大星、Autumn_Dream、HH_KK、雨雪载途的线索投递！本站 4 月 20 日消息，余承东发文，宣布享界 S9

阅读详情
ChatGPT 直呼用户姓名引负面反响，用户直呼“毛骨悚然”
本站 4 月 20 日消息，近期，部分 ChatGPT 用户注意到一个现象：这款人工智能聊天机器人在与用户互动和进行逻辑推理时，会直接称呼用户的名字。这一行为并非该工具此前的默认设置，更令人费解的是，

阅读详情
湖北武汉警方查处一起利用 AI 编造网络谣言案件，涉事公司被行政警告
本站 4 月 20 日消息，据武汉市公安局通报，近日武汉市公安局硚口区分局依法查处一起利用 AI 技术编造网络谣言的案件。据悉，今年 1 月中旬，硚口网警在巡查中发现某资讯网站文章内容失实，网警及时取

阅读详情
Android 16 允许 Linux 终端使用手机全部存储空间
本站 4 月 20 日消息，谷歌 Pixel 手机正朝着成为强大便携式计算设备的目标迈进。2025 年 3 月的更新中，Linux 终端应用的推出为这一转变奠定了重要基础。该应用允许兼容的安卓设备在虚

阅读详情

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

相关文章

热门影评