追赶FSD V14，理想在补哪些课？｜最前线

在过去几年间，智能化驾驶领域的竞争焦点经历了显著的演变。起初，竞争集中在硬件层面，例如是否配备激光雷达、摄像头数量以及算力达到多少 TOPS。随后，随着大模型技术的兴起，竞争转向了端到端、VLA（视觉-语言-动作）以及 World Model（世界模型）等技术路线。如今，越来越多的公司认识到，拥有更大的模型已不足以形成代际优势，决定技术上限的关键在于模型、数据、算力和芯片之间能否构建一个持续优化的闭环。这也是为何越来越多的汽车制造商选择自主研发。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo和自研芯片的全链条。在中国，小鹏、蔚来以及理想等车企也在不断向更底层技术延伸。理想汽车在其今年发布的L8和L9车型上，已采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的一项重要技术方向。在马赫M100芯片上，理想汽车也运行了其自研的马赫VLA模型。然而，对于整个行业而言，更值得关注的问题并非“是否进行自主研发”，而是这些投入究竟能解决哪些实际问题。

带着这个疑问，我们与理想汽车自动驾驶负责人詹锟和芯片负责人谢炎进行了深入交流。他们阐述了理想汽车对下一代自动驾驶技术路线的判断，并详细解释了自研芯片、数据体系以及AI基础设施背后的设计理念。以下是经编辑整理的部分访谈纪要：

问：要达到特斯拉FSD V14在第四季度的表现水平，理想汽车还需要在哪些方面努力？

**詹锟：**我认为追赶FSD可以从两个层面来看。首先是基础体验，这具体体现在三个方面：安全感、效率和舒适度是否能达到FSD的同等水平。FSD在安全感方面表现非常出色，效率很高，舒适度也很好，这是其基本功。即使不处理复杂的路况，也能在这些基本功上达到同等水平。其次是能力层面，这一点同样难以追赶。例如，特斯拉能够识别并礼让特殊车辆，具备在极窄车道内精确感知的能力，并能识别交警的指挥，这些能力非常强大。在能力方面，存在架构升级的机会。为什么其他公司没有而特斯拉拥有这些能力？这可能与过去的范式限制有关，也与架构和数据有关。我们在这一层面进行了大量尝试。

问：我理解马赫VLA是一套技术体系而非单一模型。例如，Mind-Edge是服务于智能座舱的端侧模型。那么，目前智能驾驶模型中是否还包含“L”（Language语言）的部分？

**詹锟：**当前自动驾驶的架构普遍趋向于整合VLA（视觉-语言-动作模型）和World Model（世界模型）。从长远来看，所有技术路线都将朝着这个方向发展。无论是VLA还是World Model，其中的Prompt（提示）都需要用到Language。因此，Language部分必然存在，关键在于如何使用它。从机器智能的角度来看，我认为Vision Based（基于视觉）是更合理的方式，它更适合理解空间、感知三维空间以及服务于环境。Language无疑是有用的，它在理解环境、交通、指令以及进行复杂的思考决策方面具有价值。长远来看，基于Vision和Language原生基础模型，可能是未来的发展趋势。

**谢炎：**如果目标是实现L3、L4级别自动驾驶，解决更泛化的问题，那么模型需要具备类似人类的思考能力。此时，语言的重要性将愈发凸显，这也是未来需要巨大算力的原因。如果模型仅具备Vision和Action（视觉和动作）能力，即使拥有大量数据，在遇到分布之外的情况时也会束手无策。就像动物即使学会了所有常见情况，也会在遇到从未见过的情形时不知所措，无法做出正确的选择。我们认为，越是向L3、L4级别迈进，解决的问题越是接近90%、95%、98%之后的问题——那些从未见过的问题，需要模型具备像人类一样的思考能力。而获取类似人类的推理和思考能力，其来源是语言模型。例如，交警正在打手势，你需要理解他的意图是让你通行还是停止，这并非仅仅通过收集或生成数据就能解决的问题。

问：随着理想汽车车队规模的不断扩大，从理想汽车内部来看，数据的边际效应是否出现了衰减？你们是如何定义价值数据的？

**詹锟：**首先，数据的量必须足够大，其本质是为了收集更多的Corner Case（长尾场景）。目前，业界有多种方法可以在车端部署优秀的neural trigger（神经网络触发器），以判断场景的难易程度，并将关键数据回传。这也是特斯拉在这一领域表现出色的重要原因之一。其次，数据的质量必须高，这主要体现在行为质量上。当前，行业逐渐趋向于端到端范式，无论是VLA（视觉-语言-动作模型）、World Model（世界模型）还是Vision-Action（视觉-动作模型），都可以接受，但前提是必须清晰地知道Action的行为。因此，行为质量至关重要，行为的纯净度和一致性非常关键。至于数据规模扩大后边际效应是否衰减，首先，只要模型能力不断提升，只要我们追求满分，其增长曲线必然是“对数曲线”，呈现缓慢衰减的态势，不可能线性增长，这是所有AI公司都会遇到的情况。尽管后期数据收敛的速度确实会放缓，但我们希望通过规模效应来加速这一进程。

问：马赫M100可以应用于不同的AI场景。五年后或再往后两代产品，理想汽车车内的算力中心是否有可能全部采用自研的马赫芯片？

**谢炎：**虽然业内存在“舱驾一体”的说法，但我们认为，舱驾一体最核心的部分是AI算力，其他部分的整合并非那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行，但AI算力可以集中处理，这样可以大大提高效率。我们的路线图最终形态是实现车内一个集中的AI计算中心，所有AI任务都可以在这个中心进行计算。这类似于在笔记本电脑上运行OpenClaw，AI计算并非在笔记本本地进行，而是在Token Provider Server（Token供应服务器）上完成。车内也类似，将设立一个Token Server（Token服务器）。这个Token Server的优势在于：第一，效率极高。第二，能够实现不同任务的相互隔离，互不干扰。例如，智能驾驶任务的确定性——无论是内存还是带宽，都能得到保证，不被其他任务干扰。这是软硬件协同设计才能实现的结果。

问：是否因为M100是数据流架构的AI推理芯片，所以相较于其他厂商的自动驾驶芯片，其对带宽的需求较低，但对片上存储的需求更高？

**谢炎：**我们对带宽的要求确实较低，但这并非直接导致SRAM容量（非显存）设计的原因。目前HBM（高带宽内存）非常流行，许多人认为带宽越高越好。计算、带宽、SRAM等都需要晶体管的代价来实现，最终的设计是基于成本、综合性能等多方面因素考量的结果。不同的架构设计，仅凭一两个指标进行简单比较，既不合理也不专业。这就像拳击比赛，身高和体重都有各自的优势，但胜负并非由单一指标决定，最终比拼的是这项运动的综合表现。

问：为什么目前的大算力芯片方案，例如英伟达、小鹏以及理想自研的芯片，都没有实现芯片级的舱驾融合，而高通却在低算力芯片上进行了尝试？这是为何？

**谢炎：**从本质上讲，座舱（舱）和智能驾驶（驾）是两个独立的系统。特别是对于高端L3向L4级别的迈进，智能驾驶需要一个更高确定性的系统，它需要专属的内存和计算资源。在这种情况下，融合的意义就大大降低了。因为资源无法进行实时切换，实时切换会影响确定性。如果向越来越专用的方向发展，融合的价值就不大了——你只是将芯片整合在一起，但资源仍然是两份，并不会带来成本的降低，甚至可能影响效率。目前市面上所谓的舱驾融合系统，它们仍然是分开的。无法实现“一会儿运行这个，一会儿运行那个”。如果无法实现这种动态切换，将两个芯片集成到一个芯片中，晶体管数量可能不变，只是节省了封装成本。对于中低端芯片来说，这部分成本可以节省，但节省的幅度也有限。我的观点是，随着智能驾驶向更高端发展，舱驾融合的意义可能并不大。如果能将这些芯片做得更近，在一个板子上实现高度集成的方案，这是可行的，不一定非要集成在一块芯片上，也可以是多块芯片放在同一块基板上。

问：自研芯片需要具备哪些条件，例如销量、营收、研发投入？鉴于目前自动驾驶迭代速度很快，芯片要持续迭代需要什么样的条件？

**谢炎：**芯片的前期投入确实不小，可能每年需要数亿元。第一个条件是达到一定的营收规模。对于汽车制造商而言，年营收达到1000亿元以上，研发投入至少占10%，即每年有数十亿到上百亿的投入，才足以支撑芯片的年研发。第二个条件是，你研发的芯片所解决的问题，必须能够显著提升你产品的能力。许多人认为芯片需要巨大的出货量才能实现规模效益。实际上，芯片的成本与面积相关。一辆车上的智能驾驶芯片，例如Livis使用了两颗马赫M100，总面积约为800平方毫米。而一部高端手机芯片的面积大约为100平方毫米，因此一辆车的智能驾驶芯片相当于8部手机芯片的总面积。按此计算，数十万辆车的需求量意味着巨大的晶圆面积，足以摊薄成本。因此，成本不能仅以芯片数量来衡量。

问：动态数据流编译器究竟难在哪里？攻克它花了多长时间？

**谢炎：**在芯片流片之前，甚至在设计阶段，我们就已经开始进行编译器工作了。在流片前，我们已经成功运行了许多模型。数据流是一种完全不同的架构，它所要解决的问题与超级计算机或大规模计算机集群面临的问题非常相似——当规模扩展到数十万台计算机、上百万个核心时，它们之间的通信与协作，无法由一个中央管理员来统一管理。传统的冯·诺依曼架构的调度方式在这种规模下是不可行的，这是一个超大规模的并行调度问题。

追赶FSD V14，理想在补哪些课？｜最前线 - 蓝鲸体育

更多精彩内容

蓝鲸体育APP：您的观赛新体验

实时数据：掌握赛场动态

深度分析：洞悉比赛走向

蓝鲸体育深耕汇聚全球热门体育赛事，提供权威赛事解读。领域，用心服务每一位用户。