如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
- 发表时间:2025-06-20 14:05:19
- 来源:
当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
推荐资讯
- 2025-06-20 19:55:16Swift 和同时代的其他语言比起来怎么样?
- 2025-06-20 19:35:16Golang和J***a到底怎么选?
- 2025-06-20 19:25:17如何评价中国电科研发的JY-10防空指挥控制系统成为伊朗防空指挥系统核心?
- 2025-06-20 20:45:15字节跳动技术副总裁开源了自己与Trae合作的首个项目,如何评价目前AI开发的水平?
- 2025-06-20 19:20:15造一艘航母有多难?
- 2025-06-20 20:10:16Windows 上最应该卸载的三个软件是谁?
- 2025-06-20 20:15:16苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
- 2025-06-20 20:05:15伊朗警告以色列居民尽快撤离,称将展开真正惩罚性打击,伊朗还有哪些底牌?以伊冲突会演变为中东全面战争吗?
- 2025-06-20 20:00:15美国真会下场对伊朗开战吗?
- 2025-06-20 20:45:15真的有这种又苗条身材又爆炸的么?
推荐产品
-
如何看待“计算机民科“的网站51soez已关站维护一周?
此回答太长了,往里面加东西(人)要崩溃了,最新的看博客。 -
《三体》的文笔很差吗?
昨天重新翻了一下死神永生,贴一段每次读都起汗毛倒竖的: “ -
为什么微软出的软件都那么巨大?
如果你的 macOS 运行了一年,“系统数据”轻轻松松超过 -
为什么 php 可以做到 7 毫秒以内响应,而 .net 做不到?
能困住你的 只有你自己。 一个道理 : 就像是 你不行本身
最新资讯