在一款20来万的纯电产品上, 给到2200+TOPS的算力, 小鹏是创了先河

  • 2025-06-22 18:34:16
  • 717

在一款20来万的纯电产品上,给到2200+TOPS的算力,小鹏是创了先河。但对于这种决策,除了惊叹的、佩服的、崇拜的,也有不少质疑的:

用3颗自研芯片凑出2200TOPS的算力,这何尝不是一种“堆料”?一味地堆“算力”究竟有多大意义?

其实关于这个事儿?大师兄在发布会上已经讲得很清楚了,核心就一句话:大模型的本地部署。

这里面包含两个要点:大模型、本地部署。

AI时代,想要更强的能力,就需要上更大的模型。这很好理解,按照ScalingLaw定律,参数量越大,模型的效果越好。

可什么样的模型叫做“大”?

现阶段,受限于车规级芯片算力,车端部署的模型通常都经过轻量化处理,如蒸馏、剪枝、量化,实际部署的模型常在5B以下。如理想的VLA司机大模型的规模就是4B,其实还算不上非常“大”。小鹏的自动驾驶云端基座模型,目前是72B的规模,这才是真正意义上的“大模型”,但没法实现车端本地部署,即便能跑,时延、帧数的表现也会非常差劲。

有能力但施展不开,这是非常令人痛苦的。因此小鹏想要解决的主要矛盾,就在于把真正意义上的大模型部署到车端。

于是我们就看到了,3颗图灵AI芯片,2200TOPS算力,最高可以支持30B参数量的模型。

30B什么概念?就拿小鹏的基座模型举例,从72B→30B,或许只需要结构化剪枝和MoE转换,就可以实现;但从72B→7B,可能还需要加入量化、蒸馏、深度剪枝等,几乎可以说是重构了,性能差距也会相当明显。

那可能有人要说了,现在5G时代,为什么不搞云端大模型?不就可以降低车端算力的需求了吗?

这其实就是在聊“本地部署”的必要性。

对于LLM这种来说,云端部署的优势是很大的,更大的模型带来更好的性能,可以并行处理多个用户的需求,还可以降低单次任务的成本。

但车不行,行车模型对时延和帧数要求极高。何小鹏在会后的群访中提到:“VLA至少要达到每秒20帧”才能保证足够的行车能力。

这意味着,感知→数据传输→云端处理→结果回传这个路径的总耗时至少要在50ms内完成,显然云端部署难以做到。

另一方面,就算通过技术解决了延迟通信,也难以完全避免网络波动甚至通讯失效的情况,在这种情况下,车端系统可能会出现降级甚至瘫痪,不能保证用户体验的一致性,还会为系统带来很大的安全风险。

还有一个关键点,全球化。全本地部署、无联网运行意味着没有数据传输的合规问题,这就让模型具备了可全球范围内快速部署的能力,只需要在部署前针对当地市场进行针对性的本地化训练即可。

多方面来看,大模型的本地部署就是车端智驾的最优路线。

当然现在小鹏还没有这么激进,直接开始把基座模型搬上车,而是选择先把VLA+VLM搬上车。

具体来说,在G7上小鹏是拿2颗图灵(1400+TOPS)跑VLA(VLA-OL,具备自主强化学习能力的VLA模型),拿1颗图灵(700+TOPS)跑VLM,图灵和图灵间使用PCI-E通信。

之所以有这样的分工,是因为在小鹏看来,人脑也是有左右脑、脑干、小脑等区分的,那对于车甚至机器人来说,以能力对算力进行区分也是合理的。

这种架构下,VLA是负责运动的大脑和小脑,VLM则是整车的大脑。给VLA更大的算力,是因为“VLA是一个最快的模型,性能最差要到每秒20帧”;而VLM是车辆对世界的感知(例如接受驾驶员指令、识别路牌等),有1秒2帧或者2秒3帧的性能就足够了。

即便如此,本地部署的VLAOL+VLM也给了我们很大的想象空间,例如何小鹏在发布会上提到的“智驾能力比Max车型高10+倍”,“VLA-OL让车辆主动思考、理解世界”,“VLM让车像一个真实的人,还没有八卦”等等。

这一切的基础,都是大算力。

#小鹏g7今晚全球首秀#