谁能打破大模型与英伟达的“MN组合”|海斌访谈
英特尔的一款人工智能芯片,楔入了英伟达(Nvdia)炙手可热产品的中间地带。
国际和国内企业推出的人工智能芯片不少,但英伟达的GPU及其软件生态居于先导地位。在大模型领域同样如此,引领潮流的ChatGPT使用英伟达芯片用于训练和推理,中国本土推出的近百款大模型绝大多数都能和英伟达芯片适配。英特尔最近在中国推出Gaudi2芯片,这款产品强过英伟达的A100,却又弱于英伟达的H100。
大模型(Model)和英伟达的芯片,形成一种紧密的耦合,我们姑且称之为“MN组合”。这个组合从性能上看,目前最有效率,也最昂贵。英特尔、AMD、华为等企业奋起直追。芯片竞争者们希望在人工智能赛道占据更有利的地形,大模型企业们则希望有更多元、价格更适宜的选项。它们都希望打破这种组合。
美国对先进芯片的出口限制,令国内人工智能的算力短缺加剧。这给国内芯片企业创造了特殊机遇。开发大模型的企业“当前更关注第二选择”,华为昇腾计算业务总裁张迪煊对第一财经表示:“过去更多是我们在找企业,现在很多企业找过来了。”
“MN组合”
浪潮信息是芯片短缺的最新受害者。
据浪潮信息7月11日披露的业绩预告,该公司上半年营业收入出现接近三成的同比下滑,扣除非经常性损益的利润下滑超过八成。
浪潮信息是全球最大的AI服务器厂商,连续6年中国AI服务器市场份额第一。国际数据公司IDC此前披露的报告显示,2021年的全球人工智能服务器市场上浪潮信息以20.8%的占有率位居全球之首。从更广泛的服务器市场来看,浪潮信息长期保持全球第二、中国第一的市场份额。
浪潮信息行业巨人的形象,在芯片短缺时期变得暗淡。浪潮信息将2023年上半年的业绩暴跌归结于“全球GPU及相关专用芯片供应紧张等因素”。
GPU是主要用于图形处理的芯片,它有别于普通消费者手机或者电脑中使用的CPU。现在全球GPU市场的主导者是英伟达,它早期开发这类芯片用于游戏市场,因游戏产品对于图形处理的要求更高。随着人工智能技术的发展,GPU暴力计算的能力在新战场风头无两。英伟达一度是浪潮信息最重要的芯片提供方之一。
浪潮信息既是AI服务器的提供方,为其客户提供基础算力,同时它也在开发自己的人工智能大模型,这意味着它自身也需要耗费不少的算力。浪潮信息的AI团队发布的中文语言模型“源1.0”,它的参数量达2457亿,超过GPT-3的1750亿。
大模型是人工智能目前最热的研发方向。Open AI开发的大模型ChatGPT发布后成为一个现象级的产品,比尔·盖茨将之视为可以比肩Windows图形界面的革新性技术,而英伟达的创始人黄仁勋则称现在已经到了AI的“iPhone时刻”。
ChatGPT是与英伟达紧密相连的。微软在其云计算平台Azure上构建了超级计算集群,并提供给Open AI用于ChatGPT的训练和推理,其中动用了大量英伟达GPU。随着大模型的火爆,美国和中国都聚集了大量科技巨头跟进,其中包括了国内的华为、百度、阿里以及腾讯等,还有美国的谷歌、Meta等。
英伟达芯片占据先发优势,成为国内国外大模型项目的首选方案。
大模型遍地开花,推升算力需求,加之美国对高性能芯片出口中国的限制,令有需求的国内企业加大了囤积力度。这样的背景下,英伟达的GPU一卡难求。算力的饥渴蔓延到了每一个角落。
“肯定都是英伟达”,在谈到人工智能相关企业囤积的AI芯片种类时,某人工智能公司技术负责人对第一财经记者这样表示。
该公司从去年至今,囤了几百张英伟达的A800板卡,主要帮助企业在通用大模型的基础上,构建满足垂直场景需求的领域大模型。
英特尔和AMD等企业也有AI芯片,不过与英伟达的产品相比还有差距。考虑到大模型动辄百亿级的参数量,芯片性能影响到大模型的训练和推理速度。“其实都能用,不过看企业能接受的训练时长是多少。比如用慢点的卡可能需要一个月的训练时间,那么快点的卡可能只需要一两天。这是训练速度的问题。”该负责人表示。
在日进千里的技术浪潮里,很少企业愿意等待。如果仅仅从效率维度来看,大模型与英伟达的“MN组合”还是被企业视作当下最优解。
第二选择
英特尔用一款人工智能芯片,楔入了英伟达的产品组合中间地带。
“在AI推理工作负载中,与英伟达A100相比,至强的推理性能可超5倍;与AMD的64核EPYC CPU相比,至强的推理性能可超2倍。就AMD EPYC而言,英特尔可以更少的内核,提供更高的AI性能。”英特尔公司执行副总裁Sandra Rivera表示,“在AI训练工作负载中,与英伟达A100相比,至强拥有近3倍的性能提升。”
英特尔最近在中国推出了其Gaudi2产品,它搭配至强可扩展处理器,为大语言模型提供算力解决方案。
相对英伟达的A100芯片,英特尔Gaudi2性能更强;相对英伟达的H100芯片,英特尔的Gaudi2则性能偏弱。
“对于包含整个GPT-3语料库的代表性切片的GPT-3训练评估,Gaudi2在384个加速器上训练GPT-3的时间为311分钟,英伟达在512个H100 GPU上的训练时间则为64分钟。这意味着,基于GPT-3模型,每个H100的性能领先于Gaudi2 3.6倍。”英特尔Habana Labs首席运营官Eitan Medina表示。
英特尔靠性价比拉近与英伟达的距离。
人工智能算力越来越贵,企业采购芯片的时候不得不考虑成本问题。“性价比是影响H100和Gaudi2相对价值的一个重要考量因素。Gaudi2服务器的成本要比H100低得多。Gaudi2的价格优势大大缩小了与H100的性价比差距。“Eitan Medina说。
能耗也是英伟达、英特尔等芯片公司比拼的焦点。
大模型的训练周期,少则半个月,多则三个月。在一个完整的训练周期,系统运行所耗费的电费账单是“特别让人感到惊叹的一个数字”。
近年大规模的兴建数据中心,更是对能耗的严峻挑战。据江森自控中国区总经理杨光观察,三年前数据中心的构建者主要还是BAT以及万国数据等公司,最近几年的趋势则是“国家队进场”,尤其是移动、电信数据中心的“大量的进场”。加之一些关键的行业,金融、电网等开始建自己的数据中心。“对算力的要求特别大、能耗特别大”,杨光对第一财经记者表示。
对于浪潮信息来说,它现在能找到的,对英伟达芯片的最好替代者可能就是英特尔了。
在最近的半年,浪潮信息在协助它的AI客户规划、设计、交付、服务AI算力的集群。“在这个过程当中,既作为大模型的开发团队,又作为大模型算力方案的支撑团队,我们深刻体会到了在大模型这场AI技术的创新当中,客户的痛点和需求。”浪潮信息AI&HPC产品线总经理刘军说。英特尔的Gaudi2在国内会首先用于浪潮信息的服务器。英特尔也长期为百度提供芯片,其Gaudi2也可能用于百度大模型项目。
百度自身也参与了人工智能芯片的研发,2016年其昆仑芯业务团队独立,并拿到了IDG、君联等机构的投资。百度方面此前透露昆仑芯2代已经量产,百度执行副总裁沈抖则在去年表示,昆仑芯3代将于2024年初量产。但昆仑芯方面未对今年的最新进展予以回应。
昇腾芯片也是国内企业的一个备选方案。
昇腾是国内唯一一个完成千卡千亿参数训练并商用的系统。昇腾AI在2019年发布了Atlas900集群,在2020年向深圳鹏城实验室交付了4000张卡组成的集群,在今年6月份又把集群的规模提高到了8000张卡。“我们也在努力到年底达到16000张卡。目的是什么?就是让大模型训练越来越快。”张迪煊对第一财经表示。
一个1750亿参数的大模型,按照昇腾千卡集群,训练阶段需要两三个月的时间;如果部署到16000张卡的大集群,同样的大模型训练时间可以缩短到半天。张迪煊表示:“这样就像写代码一样,我敲一个键盘,这些文件出来了。这是我们想要的效果,这样能快速推进人工智能发展。”
科大讯飞此前发布了星火大模型,该公司也在使用昇腾910芯片构建算力基础。“昇腾搭建基础的算力平台,讯飞在这个基础平台上,把大模型的算法从训练端到推理端的性能优化好。这样大家形成一个联合的创新体。”科大讯飞总裁吴晓如对记者解释说。谈到国外芯片供应,吴晓如表示:“问题是现在不可控,你也搞不清他哪天不给你用。”
“我跟很多企业沟通中发现,他们首先会关注成本,希望有新的替代能降成本。第二,当前企业更多关注‘第二选择’。”张迪煊对第一财经表示,“现在国内对人工智能算力需求非常旺盛。国内算力的供需比是不足的,可能大厂拿到算力,有些小厂拿不到算力。这一波(大模型)来了以后给昇腾很大的机会。过去更多是我们在找企业,现在是很多企业找过来了。”
用进废退
大模型也在分层。
部分走在最前沿的、有丰沛资本加持的公司开发参数动辄千亿级别的通用大模型,这是一条“大算力、大数据、大模型”的路径。中间层的企业,将会在通用大模型基础上构建起面向垂直行业的大模型;此外还会有面向具体应用场景的大模型产品,帮助企业构建起交互体系。跬智信息的联合创始人兼CEO韩卿认为,现在大模型是“大力出奇迹”,相比算法,大算力和大数据更加重要。跬智信息是在大模型的基础上,帮助企业打造专属的指标体系,建立私有化的指标知识库,它的客户集中于金融、制造业、医疗等领域。
对于一些敏感型的国内产业比如金融,数据的保护极其重要。“MN组合”并不是稳妥的选择,因为海外的大模型如ChatGPT相较国内大模型更难获得信任,而英伟达高端芯片因美国限令而缺乏稳定供应能力。“今天Open AI(的Chat GPT模型)没有办法给到我们大金融客户。”韩卿接受第一财经记者采访时表示。但与此同时,相对已经获得广泛认可的ChatGPT来说,“国产化的模型成熟度对我们来说是一个挑战。”
当下的算力短缺,可能演变成长期的难题。
“现在大模型,商业变现会越来越近,(算力)需求会快速增长。我们预测,2030年AI的算力相对2020年增长500倍,通用算力2030年相比2020年增长10倍。为什么?因为数据结构发生变化,现在都是大量的非结构数据,都是图片、视频、语音,CPU处理能力很弱的数据。”张迪煊接受第一财经在内媒体采访时表示。
英特尔高管也观察到算力需求的迅猛增长,该公司在一季度的时候表示,各类人工智能技术带来的芯片需求,比上年同期“至少翻了两倍”。
总的来说,在中国市场上,大模型的技术成熟度,算力的供给能力,都还有相当大的改进空间。“中国的现状是一流的应用、二流的模型、三流的算力。”在跬智信息用户大会上,中金公司研究部计算机行业首席分析师于钟海这样评价。
“大家都知道,现在国内人工智能的产品需求是非常大的,产品是完全不够的,在这种情况下不用特别设什么份额的目标,反正就是把最好的产品带出来,满足市场的需求。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立表示。
在算力短缺的市场里,大模型企业更有动力迁移到昇腾或者英特尔的算力体系上。一家企业将其大模型从一套底层算力体系切换到另外一套的时候,既需要付出时间和精力,更需要研发成本。如果算力既没有短缺,更没有断供之虞,企业则完全没有动力做切换。现在的情况正好相反。
“我觉得一方面给我们带来机会,第二方面确实加快我们的发展速度和成熟速度。所有产品只有被使用之后才能证明好与不好,所有产品只有使用以后才能把问题暴露出来,才能打磨得更好。”张迪煊表示。
拜登弹劾调查开始正式走程序!首场公开听证会时间公布
对拜登有何影响?美国国会众议院监督和问责委员会宣布,将于下周四(28日)对美国总统拜登的弹劾调查举行公开听证会,这是众议院发起针对拜登弹劾调查以来首场听证会。锤子财富2023-09-20 16:04:110000魅力儒商 共创未来丨中国银行企业家办公室GBIC高峰论坛
锤子财富2023-06-18 20:34:310003下周关注丨7月经济数据将公布,这些投资机会最靠谱
7月经济数据将公布;2023世界机器人大会将召开;美联储将公布货币政策会议纪要。【重磅新闻】7月经济数据将公布8月15日,国家统计局将公布7月工业增加值、固定资产投资、社会消费品零售总额等经济数据。锤子财富2023-08-13 09:48:420000珠海冠宇子公司拟投建动力电池生产项目,一期总投资额不超过103亿
公告称,根据公司与德阳高新技术产业开发区管理委员会达成的整体合作意向,项目分两期建设。5月22日,珠海冠宇晚间公告,控股子公司浙江冠宇拟在四川省德阳市设立项目公司投资建设动力电池生产项目,一期总投资额不超过103亿元。0000