登陆注册

红杉中国推出一套全新AI基准测试

  • 当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试

    主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。类似手机时代厂商发布新机需要“跑个分”,如今大模型厂商发布新产品后也会通过基准测试(Benchmark)跑分对比,但随着基础模型的快速发展和AIAgent(智能体)进入规模化应用阶段,被广泛使用的基准测试开始面临一个日益尖锐的问题:真实反映AI的客观能力变得越来越难。
    锤子财富2025-05-29 07:24:20
    0000