性价比超H100,英特尔宣告中国版Gaudi2 AI减速卡
机械之心宣告
编纂 :泽南
英特尔会是性价宣告国内天生式 AI 算力的更优解吗?
在狂语言模子(LLM)规模,越强盛的比超版模子就越需要算力。最近有新闻称,中国之后业界标杆 GPT-4 在磨炼中运用了约 2.5 万块 A100,减速磨炼时长逾越 90 天。性价宣告
如斯高门槛的比超版天生式 AI 赛道上 ,各家科技公司的中国相助却颇为强烈 ,国内市场致使泛起了 AI 减速卡求过于供的减速形态。对于 AI 磨炼的性价宣告算力,人们不断以来都在依赖 GPU,比超版最近,中国英特尔面向国内提出了一个新的减速处置妄想。
7 月 11 日在北京举行的性价宣告宣告会上,英特尔正式于中国市场推出第二代 Gaudi 深度学习减速器 ——Habana Gaudi2。比超版
明天的中国行动中 ,英特尔介绍了 Gaudi2 芯片的功能,并品评辩说了面向中国市场的英特尔 AI 策略 、最新 AI 相关产物技术妨碍以及处置妄想的运用。
「Gaudi 深度学习减速器的狂语言模子磨炼能耐进一步丰硕了咱们的家养智能产物阵列,」英特尔公司实施副总裁 、数据中间与家养智能事业部总司理 Sandra Rivera 展现 。「对于在中鼎祚转深度学习磨炼以及推理使命负载的客户来说,与市场上其余面向大规模天生式 AI 以及狂语言模子的产物比照,Gaudi2 是更事实的抉择 。除了在功能展现上逾越 A100 之外 ,Gaudi2 在种种开始进的模子上相对于 A100 提供了约两倍的性价比。」
上周,英特尔 Habana Gaudi2 深度学习减速器以及第四代英特尔至强可扩展处置器在 MLPerf Training 3.0 基准测试的最新榜单上揭示了使人印象深入的服从。该基准由 MLCo妹妹ons 宣告,是业内普遍招供的 AI 功能行业尺度 。
Gaudi2 减速器在合计机视觉模子 ResNet-50(8 卡) 、Unet3D(8 卡) ,以及做作语言处置模子 BERT(8/64 卡)上均取患了优异的磨炼服从 ,在每一个模子上功能都优于 A100,部份使命上挨近 H100。
此外 ,在狂语言模子 GPT-3 的评测上 ,Gaudi2 也揭示了实力。它是仅有的两个提交了 GPT-3 LLM 磨炼功勤勉效的处置妄想之一(另一个是英伟达 H100)。在 GPT-3 的磨炼上 ,英特尔运用 384 块 Gaudi 2 减速器运用 311 分钟磨炼实现,在 GPT-3 模子上从 256 个减速器到 384 个减速器实现为了近线性 95% 的扩展 。
「比照之下 ,英伟达在 512 块 H100 GPU 上的磨炼光阴则为 64 分钟。这象征着 ,基于 GPT-3 模子 ,每一个 H100 的功能争先于 Gaudi2 3.6 倍,」Habana Labs 首席经营官 Eitan Medina 展现。「性价比是影响 H100 以及 Gaudi2 相对于价钱的紧张考量因素。Gaudi2 效率器的老本要比 H100 低良多 。纵然尚未装备 FP8 ,Gaudi2 在性价比上也压倒了 H100。」
英特尔展现 ,Gaudi2 在 MLPerf 上提交的服从不经由模子或者框架的特殊调校,这象征着用户也可能在当地或者云端部署 Gaudi2 时取患上相似的功勤勉效。
Gaudi2 在效率器以及零星老本方面还具备清晰的老本优势,这使患上它可能成为英伟达 H100 的有力相助对于手。
去年 ,英特尔旗下的 Habana Labs 推出了第二代 AI 磨炼加推理芯片 Gaudi2 。与头一代产物比照 ,Habana Gaudi 2 运用的制程工艺从 16 纳米跃升至 7 纳米,在矩阵乘法(MME)以及 Tensor 处置器中间合计引擎中引入了 FP8 在内的新数据规范 ,Tensor 处置器中间数目增至 24 个,同时集成为了多媒体处置引擎,内存降级至 96GB HBM2E 。
在以先天生式 AI 看重的扩展功能方面,国内版本的 Gaudi2 每一张芯片集成为了 21 个专用于外部互联的 100Gbps(RoCEv2 RDMA)以太网接口(比照外洋版本略有削减) ,从而实现为了低延迟的效率器内扩展