公司动态 分类
半岛真人英伟达再推“中国版”AI 芯片:人工智能竞争中的猫鼠游戏

  半岛真人在中美人工智能的激烈竞争中,英伟达成为了游弋在政治和商业中寻找利益最大化的「鲨鱼」。

  美国商务部产业与安全局(BIS) 1017 新规已经在 11 月 16 日生效,英伟达针对中国市场推出的「版」 A800 和 H800 芯片遭到出口合规限制,无法向中国客户出售。

  然而,11 月 9 日有消息透露,英伟达将推出三款针对中国市场的 AI 芯片,包括 H20、L20 和 L2 三款,并列出了详细规格。

  随后,英伟达在业绩会上确认,将努力争取高性能产品在中国市场的销售许可,也会研发更多合规的数据中心产品组合。「我们正在努力扩展我们的数据中心产品组合,以提供不需要许可证的新法规合规解决方案,这些产品可能会在未来几个月内上市。」

  11月 24 日,据路透社报道,两位消息人士透露,英伟达已告知中国客户,H20 发布时间将推迟到明年第一季度。L20 芯片不会延期,并将按照原定计划推出。消息人士无法分享有关 L2 状态的信息。

  1017新规是 BIS 推出的第二个版本的限制措施,这一版本比第一个版本更加严格,根据芯片的总处理性能(TPP)和性能密度划出限制条件,符合任一条件即认为处于管制范围。

  以 H20 为例,这款芯片的峰值算力最大理论值仅为 296 TFLOPs,数字上还不如消费级的游戏显卡。作为比较,热门的 H100 芯片的这一数值为 1979 TFLOPs,消费级的 RTX 4090 显卡为 661 TFLOPs。

  这样的压缩显然是为了限制总处理性能和性能密度,以避开精心设计的封锁条件:

  - H20的总处理性能为2368,性能密度仅为 2.9,小于 3.2 的管制许可值;

  - L20的总处理性能为1912,但性能密度为 3.1,小于 3.2 的管制许可值;

  - L2的性能密度为 5.2,但总处理性能仅为1544,小于 1600 的管制许可值。

  H20有比 H100 更高的缓存和带宽,支持英伟达第四代 NVLink 连接,连接速度保留了 900 GB/s 满速。这保证了多卡增强效果的实现,在实际多卡互联环境中,H20 组合性能接近 H100 的 50%。

  不过,H20 的侧重点在模型推理环节,不需要承担 H100 那样的预训练任务。由于采用了与英伟达下一代 GPU 相似的核心,Semianalysis 推算,H20 在大模型推理运算中比 H100 还要快 20%,这将极大提高大模型产品在应用端的表现半岛真人。比如,运行 Meta 700 亿参数的 LLAMA 模型需要两个 H100,但只需要一个 H20。

  此前国内有 RTX 4090 显卡 DIY 工厂被曝出,买家大量囤积 RTX 4090,通过拆解出 GPU 核心,再外置鼓风机风冷的方式,让多卡组合适配 AI 服务器工作。

  考虑到国内客户的 DIY 能力,且由于 L20 在生产中不涉及产能受限的 CoWoS 封装环节,因此能够短时间内推向市场,缓解很多买家的算力慌。

  联想集团董事长兼 CEO 杨元庆曾表示半岛真人,目前大多数大模型都在算力较强的公有云上训练。未来,大模型的计算负载将逐渐由云端向边缘侧和端侧下沉。越来越多的人工智能的推理任务将会在边缘和设备端进行。

  英伟达的第一代「版」芯片 A800 和 H800 有 11 个月的出口窗口期,平台公司利用这一窗口期大量采购半岛真人。市场上有消息称,百度、字节跳动、腾讯和阿里已向英伟达订购了价值 10 亿美元的共约 10 万张 A800 芯片,将于年内交付,另外价值 40 亿美元的芯片将于 2024 年交付。腾讯曾发布公开声明称,储备了大量的 A800 和 H800 芯片,足够支持好几套 AI 大模型的训练。

  可以预见,第一代「版」将成为公有云算力的重要来源,承担大模型的预训练任务。第二代「版」把重点放在了大模型推理运算环节上,这一环节更靠近应用端,对算力要求相对于模型预训练更低,更多的要求是在短时间内处理大量的输入数据。

  AI大模型训练涉及到众多环节,从 OpenAI 到创业公司,普遍面临缺少训练数据的情况半岛真人,特别是垂直领域当中与业务有关的数据。

  电厂记者从业内人士那里了解到,很多行业在上一轮数字化转型当中没能做好,导致在 AI 落地方面缺少数据。低数据量会造成应用端表现差,直接影响前端的表现,进而无法沉淀更多数据出来。

  因此,中小企业和个体创业者急需大模型落地,用相对不高的算力启动,用时间把数据跑出来。这次的三款版芯片,也针对这一趋势,面向更多「边缘」客户。

  英伟达此前就有布局,为了帮助更多没有拿到足够算力的中小企业和个体创业者。英伟达在 10 月份针对 Windows 平台推出了 TensorRT-LLM,这个模型可以帮助运行在 Windows 设备的大模型更好地利用 RTX 显卡和 GPU 的性能。根据英伟达的说法,这样的设备超过 1 亿台。

  美国商务部 1017 新规的生效时间是 11 月 16 日,正是传言中 H20 的发布日期。H20 「原计划」将在 11 月 16 日发布,在 12 月量产,但后来推迟到明年一季度。

  黄仁勋在业绩会上也提到,「我们将确保与美国政府充分讨论我们在这些产品上的意图。」很显然,英伟达要留出时间窗口,等待监管方的反应。那么半岛真人,H20 首先是一枚烟雾弹。

  从 BIS 1017 新规中表现出的「哪里漏了补哪里」的特点来看,英伟达在与 BIS 的这场猫鼠游戏中占有主动权,有更丰富的技术储备和应对思路。一旦 H20 进入安全通道,更多「版」也会陆续到来。

  英伟达 H100 还在消化订单,H200 排队到明年二季度,整个供应瓶颈卡在台积电的 CoWoS 封装环节。H20 同样使用台积电的 CoWoS 封装,这意味着 H20 即便绕过监管,交付时间也可能比传闻更长。

  由于出口限制措施,英伟达没有在算力上实现突破,但 H20 在中国市场仍然是一款一鱼多吃的产品。H20 买家将更依赖 NVLink 技术,英伟达也能借此巩固自己 CUDA 软件平台的护城河。相应的,H20 买家在后续考虑国产替代时,就要承担额外的迁移成本。

Copyright © 2012-2024 ng体育 版权所有

粤ICP备14033456号