英伟达新芯片性能超GPU100倍,前所未见算力碾压旧款!
![]()
AI行业正从“模型训练”向“大规模推理落地”跨越的关键节点——企业不再只盯着训练算力的峰值,更迫切需要推理阶段的成本可控与实时响应,但当前主流GPU在这两方面已显短板:以英伟达H100为例,75%的超高毛利率让部署成本居高不下,通用架构也难以适配大语言模型(LLM)的推理需求。 当企业将ChatGPT、GPT-4等大模型落地为客服、内容生成、智能分析等实际服务时,推理算力的消耗成为核心成本项,据某科技咨询机构调研,一家中型企业若用H100部署100万日活的LLM推理服务,每月硬件及运维成本超500万元;且通用GPU的架构需兼顾训练与推理,导致LLM推理延迟平均达1.5毫秒以上,无法满足实时交互场景(如语音助手、实时翻译)的需求。
黄仁勋的“颠覆级新品”:跳出GPU的LPU
此前行业猜测英伟达“前所未见的AI芯片”是新一代费曼GPU(台积电A16工艺),但费曼本质是常规GPU升级——仍基于CUDA架构,未针对LLM推理做专用优化,与“颠覆认知”的定位不符。
英伟达真正的秘密武器,是LPU(Language Processing Units,语言处理单元)——一款专为大语言模型推理设计的专用芯片,而非传统GPU。
LPU的技术源头:Groq的TPU基因与英伟达的200亿布局
LPU并非英伟达自研的全新架构,而是来自对Groq公司技术的整合,Groq的核心团队堪称AI芯片界的“梦之队”:创始人曾是谷歌TPU(Tensor Processing Unit)的核心开创者,离开谷歌后创立Groq,专注于LLM专用推理芯片研发。
英伟达并未完全收购Groq,而是投入200亿美元获得了Groq的LPU核心技术授权——这一操作既避免了完全收购的整合风险,又快速拿到了针对LLM推理的成熟架构。
10倍速度+1/10成本:LPU如何破解行业痛点
LPU的架构设计完全围绕LLM的核心需求:采用稀疏计算优化(针对LLM中大量无效token的处理)、高带宽内存互联(提升大模型参数访问速度),以及专用指令集(适配Transformer等主流LLM架构)。
据Groq公开测试数据,LPU处理GPT-3.5级模型的单token推理速度比H100快10倍,延迟从H100的1.2毫秒压缩至0.1毫秒以内;因架构仅针对推理优化、无需兼顾训练,LPU制造成本仅为H100的十分之一——企业部署同规模推理服务的成本可降低超80%。
GTC 2024:LPU能否开启英伟达的“第二增长曲线”
3月16日开幕的英伟达GTC大会,LPU将成为核心亮点之一,英伟达计划将LPU作为全新产品线推出,与现有GPU(训练端)形成互补:GPU负责大模型训练,LPU负责大规模推理落地。
目前LPU的具体命名(如是否沿用Groq的命名或推出新系列)、功耗、量产时间等细节尚未公布,但行业普遍预期,LPU将成为英伟达在AI推理市场的“破局者”,进一步巩固其在AI芯片领域的领先地位。
想第一时间掌握英伟达LPU的发布细节,以及AI技术与游戏行业的前沿动态?欢迎关注攻略蜂巢,更多一手资讯随时更新~