性能比GPU快100倍!英伟达将推前所未见芯片直击玩家性能痛点

27

性能比GPU快100倍!英伟达宣布要推出前所未见芯片

当AI从实验室落地到电商、医疗、客服等真实场景,企业的核心痛点早已从“能不能训练大模型”转向“能不能用得起推理服务”,一家运营50个AI电商主播的公司,用10颗H100支撑实时互动,单月算力成本超200万元;一家服务100家医院的AI问诊机构,20颗H100的年开支高达3000万元——更糟的是,即便投入巨额成本,高峰时段仍会出现延迟:用户问“这款药能和降压药同服吗”,AI要等2秒才回复,直接影响服务体验。
这就是H100的“矛盾性”:它是当前性能最强的AI GPU,能承载复杂模型的推理,但75%的高毛利率让它成了“奢侈品”——对中小企业而言,用H100做推理,如同用跑车送快递,性能过剩且成本高企。

不是费曼!黄仁勋的“前所未见”指向“LPU”

去年底黄仁勋提及“将推出前所未见的AI芯片”时,外界第一反应是“难道是新一代GPU费曼?”毕竟费曼传闻采用台积电A16工艺,性能较H100提升30%,是英伟达下代GPU的热门候选,但很快这个猜测被推翻——费曼本质是传统GPU的迭代升级,仍未脱离“通用计算”框架,根本配不上“前所未见”的定位。
黄仁勋要的,是一款“打破规则”的产品:它不追求“全能”,但要“把推理做到极致”;不拼“训练性能”,但要“让推理成本断崖式下降”,这款产品的名字,叫LPU(Language Processing Units,语言处理单元)。

LPU的“出身”:谷歌TPU创始人的“专用芯片实验”

LPU并非英伟达的原创,而是来自Groq公司的技术积累——Groq的创始人正是谷歌TPU的核心设计者,10年前,他带领团队造出全球首款AI加速芯片TPU,让谷歌大模型训练速度提升数倍;离职创业后,他将目光锁定“推理”这个更细分的赛道:“GPU是瑞士军刀,能砍能切,但切面包还是专用面包刀更顺手。”
Groq的LPU应运而生:它完全抛弃GPU中与“大模型推理”无关的模块——没有图形渲染单元,没有通用计算核心,甚至连缓存结构都重新设计,所有晶体管资源都聚焦于“让大语言模型推理更快、更省”,去年底,英伟达以200亿美元的代价获得Groq的LPU技术授权(非整体收购),直接将这项“专用芯片技术”纳入自家管线。

10倍速度+1/10成本:LPU的“专注”有多狠

LPU能实现“速度比H100快10倍、成本仅为1/10”,核心逻辑是“专注”,以GPT-3级别的模型推理为例:

  • GPU需要同时处理“Token生成”“注意力计算”“内存调度”等多个任务,还要预留资源应对可能的图形渲染或通用计算;
  • LPU则把这些“多余任务”全部砍掉,所有资源都砸在推理的“关键路径”上——注意力计算单元是GPU的2倍,内存带宽是GPU的3倍,数据流动路径缩短50%。
    对企业而言,这意味着:用同样的预算,LPU能支撑10倍规模的实时AI服务;或把单条推理链路的成本从每小时3美元压低到0.3美元,比如一家AI客服公司,原本用50颗H100支撑1000条并发对话,换成LPU后只需5颗就能实现同样效果,月成本从100万元降到10万元,延迟还从1.5秒缩短至0.1秒。

GTC大会见分晓:英伟达要开启“推理专用芯片时代”

3月16日的英伟达GTC大会上,这款基于Groq技术自研的LPU芯片将成为绝对核心,它不仅会打破“英伟达AI芯片=GPU”的固有认知,更会开辟“大模型推理专用芯片”的全新赛道——行业普遍认为,这是AI从“训练时代”进入“推理时代”的标志性事件。
至于LPU的具体命名(是延续“Hopper”“Ampere”的架构序列,还是启用全新名称)、制程工艺(是否沿用台积电先进工艺)、详细性能参数(比如处理长上下文时的延迟表现),都要等到大会当天才能揭晓,但可以确定的是:这款芯片将彻底改写企业“用不起推理服务”的现状。

想获取更多一手游戏与科技前沿信息,记得关注攻略蜂巢——这里有最快的行业动态解析,最深入的技术干货拆解,帮你第一时间抓住AI与游戏领域的新机会,无论是GTC大会的LPU最新进展,还是游戏AI技术的落地应用,攻略蜂巢都会第一时间为你带来最准的解读。