网站地图官方微信:
网站首页 段郢乡 仁寿镇 广饶县 漓江镇 柯寨乡 中埔乡

当前位置: 首页 >

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。

你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。

我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。

这是第五题的原题,正确答案是A. - 1/2。

这是之前的第三方的测试结果,6个模型…。

如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?

  • | 很好奇,组NAS的玩家是如何解决上传速率的问题? |

    无解,电信有公网的ipv4地址,500M的下行,也只有非晚上...

    查看详情>>
  • | 真的没有人觉得2k是一个很尴尬的分辨率吗? |

  • | 如何看待不超过1879元的Mac mini(M4+16/256GB+票),易用性吊打同级其他台式电脑? |

  • | 你都用Github Action做出过哪些骚操作? |

  • | 如何建一个安全的个人nas? |

  • | 美国很多地方废弃,为啥很多人宁可在街上流浪,也没有人去开荒种地呢? |

  • | 用PHP写了个小框架,怎么才能得到大佬们的指点? |

  • | QQ 音乐客户端新增广告引起用户吐槽,你对此有哪些评价? |

  • | 想深入学习网站后台技术,有哪些建议? |

  • | 为什么MacBook pro不用高刷新率的屏幕? |

  • | 怎么看待B站舞蹈区和某些风格比较暴露的up? |

  • 养鱼确实毁一生。 刚开始做完鱼池,自己还能偶尔在池边画室里画...

    2025-06-26
  • 这是我家冰箱上面: 2013年大一时买的低压i5超极本,...

    2025-06-26
  • 真实水平应该挺高的, 起码是被大众鉴定过的, 刚刚去看了一下...

    2025-06-26
  • 面向框架开发的后果, 因为J***a的企业开发流程已经极其固...

    2025-06-26

关注我们

添加微信好友,关注最新动态