在一款20来万的纯电产品上, 给到2200+TOPS的算力, 小鹏是创了先河

2025-06-22 18:34:16
717

在一款20来万的纯电产品上，给到2200+TOPS的算力，小鹏是创了先河。但对于这种决策，除了惊叹的、佩服的、崇拜的，也有不少质疑的：

用3颗自研芯片凑出2200TOPS的算力，这何尝不是一种“堆料”？一味地堆“算力”究竟有多大意义？

其实关于这个事儿？大师兄在发布会上已经讲得很清楚了，核心就一句话：大模型的本地部署。

这里面包含两个要点：大模型、本地部署。

AI时代，想要更强的能力，就需要上更大的模型。这很好理解，按照ScalingLaw定律，参数量越大，模型的效果越好。

可什么样的模型叫做“大”？

现阶段，受限于车规级芯片算力，车端部署的模型通常都经过轻量化处理，如蒸馏、剪枝、量化，实际部署的模型常在5B以下。如理想的VLA司机大模型的规模就是4B，其实还算不上非常“大”。小鹏的自动驾驶云端基座模型，目前是72B的规模，这才是真正意义上的“大模型”，但没法实现车端本地部署，即便能跑，时延、帧数的表现也会非常差劲。

有能力但施展不开，这是非常令人痛苦的。因此小鹏想要解决的主要矛盾，就在于把真正意义上的大模型部署到车端。

于是我们就看到了，3颗图灵AI芯片，2200TOPS算力，最高可以支持30B参数量的模型。

30B什么概念？就拿小鹏的基座模型举例，从72B→30B，或许只需要结构化剪枝和MoE转换，就可以实现；但从72B→7B，可能还需要加入量化、蒸馏、深度剪枝等，几乎可以说是重构了，性能差距也会相当明显。

那可能有人要说了，现在5G时代，为什么不搞云端大模型？不就可以降低车端算力的需求了吗？

这其实就是在聊“本地部署”的必要性。

对于LLM这种来说，云端部署的优势是很大的，更大的模型带来更好的性能，可以并行处理多个用户的需求，还可以降低单次任务的成本。

但车不行，行车模型对时延和帧数要求极高。何小鹏在会后的群访中提到：“VLA至少要达到每秒20帧”才能保证足够的行车能力。

这意味着，感知→数据传输→云端处理→结果回传这个路径的总耗时至少要在50ms内完成，显然云端部署难以做到。

另一方面，就算通过技术解决了延迟通信，也难以完全避免网络波动甚至通讯失效的情况，在这种情况下，车端系统可能会出现降级甚至瘫痪，不能保证用户体验的一致性，还会为系统带来很大的安全风险。

还有一个关键点，全球化。全本地部署、无联网运行意味着没有数据传输的合规问题，这就让模型具备了可全球范围内快速部署的能力，只需要在部署前针对当地市场进行针对性的本地化训练即可。

多方面来看，大模型的本地部署就是车端智驾的最优路线。

当然现在小鹏还没有这么激进，直接开始把基座模型搬上车，而是选择先把VLA+VLM搬上车。

具体来说，在G7上小鹏是拿2颗图灵（1400+TOPS）跑VLA（VLA-OL，具备自主强化学习能力的VLA模型），拿1颗图灵（700+TOPS）跑VLM，图灵和图灵间使用PCI-E通信。

之所以有这样的分工，是因为在小鹏看来，人脑也是有左右脑、脑干、小脑等区分的，那对于车甚至机器人来说，以能力对算力进行区分也是合理的。

这种架构下，VLA是负责运动的大脑和小脑，VLM则是整车的大脑。给VLA更大的算力，是因为“VLA是一个最快的模型，性能最差要到每秒20帧”；而VLM是车辆对世界的感知（例如接受驾驶员指令、识别路牌等），有1秒2帧或者2秒3帧的性能就足够了。

即便如此，本地部署的VLAOL+VLM也给了我们很大的想象空间，例如何小鹏在发布会上提到的“智驾能力比Max车型高10+倍”，“VLA-OL让车辆主动思考、理解世界”，“VLM让车像一个真实的人，还没有八卦”等等。

这一切的基础，都是大算力。

#小鹏g7今晚全球首秀#

非爱什么意思发布网,提供非爱什么意思发布信息,第一时间发布列表及资讯,非爱非攻是非爱什么意思网络用语_非爱非攻首选资讯平台。