当大模型把题库“刷爆”,红杉中国推出一套全新AI基准测试

类似手机时代厂商发布新机需要“跑个分”,如今大模型厂商发布新产品后也会通过基准测试(Benchmark)跑分对比,但随着基础模型的快速发展和AI Agent(智能体)进入规模化应用阶段,被广泛使用的基准测试开始面临一个日益尖锐的问题:真实反映AI的客观能力变得越来越难。
5月26日,红杉中国宣布推出一款全新的AI基准测试工具xbench,由红杉中国发起,联合国内外十余家高校和研究机构的数十位博士研究生,采用双轨评估体系和长青评估机制。
双轨评估体系是指构建多维度测评数据集,同时追踪模型的理论能力上限与Agent的实际落地价值。长青评估机制是指动态的、持续更新的评估方法。此前行业模型进行榜单成绩对比时,会面临“刷榜”质疑。即静态评估集会出现题目泄露问题,模型反复测试可以将分数“刷”上去。
xbench最早是红杉中国在2022年ChatGPT推出后,对AGI进程和主流模型进行的内部月评与汇报工具。在建设和升级“私有题库”的过程中,红杉中国发现主流模型“刷爆”题目的速度越来越快,基准测试的有效时间在急剧缩短。
另外,此次相关机构同期提出垂直领域Agent的评测方法论,并构建了面向招聘与营销领域的垂类Agent评测框架。如今Agent行业正热,包括自主规划、信息收集、推理分析、总结归纳在内的深度搜索能力是AI Agents通向AGI(通用人工智能)的核心能力之一,但这也给评估带来挑战。
AI在长文本处理、多模态、工具使用和推理方面的能力突破催化了AI Agent的爆炸式增长。与聊天机器人相比,Agent不仅可以解决单步问题,还可以交付完整任务,从而提供生产力或商业价值。有价值的AI Agent评估需要与实际任务密切相关,这已成为一种共识。一系列高质量的评估集在工具使用、计算机使用、编码和客户服务等领域出现,推动了Agent在这些各自领域的快速发展。然而,评估结果与 AI 在现实世界中创造经济价值的生产力之间仍然存在差距。为了适应人工智能“下半场”的发展,构建特定领域的Agent评估集至关重要,这需要与专业领域的生产力和商业价值保持一致。
Agent本身的特性也需要考虑,Agent应用产品版本具有生命周期,本身迭代迅速,会不断集成与开发新功能。且Agent接触的外部环境也是动态变化的。即使是相同的题目,如果解题需要使用互联网应用等内容快速更新的工具,在不同时间测试效果不同。因此,测试工具设计指标需要追踪Agent能力的持续增长。
据了解,红杉推出xbench-DeepSearch评测集今年会侧重关注具有思维链的多模态模型能否生成商用水平视频,MCP工具大面积使用是否具有可信度问题,GUI Agents能否有效使用动态更新/未训练的应用三个方向。
小米连发三文硬刚智己,智己汽车再致歉:无意挑战小米的泼天流量
智己汽车主观上真的没有蓄意抹黑的意图,无意也更无力挑战小米汽车的泼天流量。4月9日,智己汽车官方微博再发文向小米汽车致歉称,智己汽车主观上真的没有蓄意抹黑的意图,智己汽车无意也更无力挑战小米汽车的泼天流量。智己汽车发布会上错误标注小米SU7Max关键参数锤子财富2024-04-11 10:04:070000民政部答一财:推进国家基本养老服务清单项目落地生效
民政部将督促指导尚未出台省级实施方案的地方尽快在年底前出台。今年5月,中办、国办《关于推进基本养老服务体系建设的意见》向社会公开发布,同时也公开发布了国家基本养老服务清单,这标志着我国基本养老服务体系建设进入到全面推进的新阶段。9月12日,国务院新闻办举行“权威部门话开局”系列主题新闻发布会,民政部介绍推进民政工作高质量发展有关情况。锤子财富2023-09-12 12:12:470000英伟达AI芯片被限制销往部分中东国家
英伟达本周备案的一份监管文件显示,该公司用于大模型训练的人工智能芯片A100和H100芯片出口中东也需要特殊的许可,但表示这一限制不会对其业绩产生“直接的实质性影响”。美国正在将英伟达和AMD的人工智能芯片的销售限制扩大至中东地区。锤子财富2023-08-31 15:58:260000120万“追光人”齐聚光谷,从0到1再到N的创新飞跃如何实现|“20年•20城”一线调研
目前光谷是国内光通信及激光企业集中度最高的区域,涌现出一批行业领军企业,形成了3000余个具有行业影响力的自主品牌,去年光电子信息产业整体规模超5000亿元,企业数量多达12.7万家。锤子财富2023-08-14 23:40:360000中信证券:收到证监会立案告知书;小米SU7女性购买者占比近三成;苹果被曝有大动作丨大公司动态
第一财经每日精选最热门大公司动态,点击「听新闻」,一键收听。【科技圈】苹果被曝酝酿重大升级据报道,苹果正酝酿重大升级,让Mac电脑配置新一代芯片M4,AI功能加持将成为M4的亮点。苹果计划2024年底到2025年初发布多款搭载M4的Mac电脑,包括新版iMac、MacBookPro、Macmini等。华为预售多款可穿戴设备0000