
突破无人区:理想VLA的爆发时刻

近期,新能源车圈出现了一个不寻常的变化——各家都把自己的“自动驾驶”宣传改为“辅助驾驶”。
究其原因,是4月16日,工信部的一次会议强调,汽车生产企业需明确系统功能边界和安全响应措施,禁止夸大和虚假宣传。
而在这场会议之前,理想汽车的CEO李想就已经呼吁,媒体和行业应该统一自动驾驶的标准,在推广上克制,在技术上投入。
前不久,2025理想AI Talk第二季播出,节目中李想更是谈到了一个辅助驾驶的行业痛点:
大模型有了,辅助驾驶也有了,但专门适配辅助驾驶的大模型呢?
在今年英伟达2025春季GTC大会上,理想汽车VLA司机大模型,正式亮相。
在李想看来,VLA模型是解决AI与辅助驾驶交互难题最有效的方法。
在产品形态呈现上,它既是智能体,又是专属司机。
在传统辅助驾驶企业聚焦感知算法时,理想VLA司机大模型选择的路线是:
攻占行业里的“技术无人区”。
在过去一年中,智能驾驶领域的技术经历了一次深刻的变革,其代表,就是端到端架构成为辅助驾驶领域的技术热点。
所谓“端到端”,区别于之前市场上技术路径——模块化规则(rule-based)。
模块化规则把辅助驾驶系统分成感知、决策、执行三个大类,通过激光雷达等传感器,先感知周围有什么,再做个决策,再告诉汽车怎么做。
三个模块,每一层传递都有信息损耗,而且,流程很呆板,会遇到很多错误。
而 “端到端” 就是把三个核心模块整合在一起,传感器端收集信息,输出的是形式轨迹,全都由一个模型实现,中间没有任何规则。
举个例子,车在自动驾驶时,遇到一辆大货车靠近,按照模块化规则,大概率就是刹车减速。
但人开车不会那么笨,而是会想自己是不是开太慢了?或者大货车要变道?然后一脚油门,远离货车。
端到端,就是像人类一样,将传统辅助驾驶的感知-预测-规划-控制这些子模块全部神经网络化,用先进的算法模型,来取代传统的算法和人工编写的规则。
在国内,去年7月,理想在行业内率先实现了全国无图 NOA(导航辅助驾驶),同时推出了全球首创的端到端(快系统)+VLM(慢系统)架构,并于去年10月完成全面落地,备受行业关注。
在李想看来,理想汽车的辅助驾驶技术演进分为三个阶段:
第一阶段(昆虫级智能),是2021年,和同行一样,依赖规则算法和高精地图,去做辅助驾驶。
但李想清楚,仅凭目前市场上百万参数的规模,车企面对复杂路况,很容易束手无策,距离真正的自动驾驶,距离太远。
所以在第二个阶段(哺乳动物级智能),理想开始主动引入端到端+VLM架构,实现全场景端到端能力,摆脱地图依赖。
真正让高级辅助驾驶成为用户放心、好用的一个选择,而不是宣传上的噱头。
如今,李想更是提出,要实现“人类级智能”的第三个阶段。
而这一跃迁的核心,就在于将AI大模型和算法、语音交互等多模态进行融合,让汽车可以通过视觉感知理解3D物理世界(如车道线、动态物体),语言模型解析指令语义,再结合扩散模型生成拟人化驾驶轨迹,形成“感知-思考-行动”闭环。
简单点说,就是突破端到端的局限,让汽车学会像人一样思考。
理想VLA司机大模型就是这样的一个产物,它将空间智能、认知智能统一在一个模型里,并赋予了模型的3D空间理解、逻辑推理和行为生成能力,让自动驾驶能够感知、思考和适应环境。
它既是一个能与用户、理解用户意图的智能体,也是一名听得懂、看得见、找得到的专属司机。
区别于现在很多车企辅助驾驶系统和语音大模型的应用割裂,理想汽车打破端到端+VLM两个独立模型的上限天花板,并不是简单地将端到端模型和VLM模型两者结合在一起,所有模块都是全新设计。而这在行业内,还是第一次。因为目前市场上还没有一辆智能车,既有大模型对话,又突破了多模态协同效率。
李想解释说:“(VLA)训练过程就像人类司机成长。”
司机的成长,一是驾校阶段,二是常年的训练,尤其是高强度的训练,要经历复杂路况等等。
VLA的训练也是分为预训练、后训练和强化训练三个环节,预训练相当于人类在学习科目一的基本知识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。
后训练相当于去驾校学习真实开车的过程,强化训练则类似于人类在社会中实际开车练习。经过预训练、后训练和强化训练后,VLA司机大模型即可部署至车端运行。
目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。
当然,仅仅从技术开拓无人区,还并不能满足李想的预想。
既然大模型要像人一样开车,也要像人一样遵守道德和法律。
只有做到车技下限能力的可控,才能真正让自动驾驶成为一种可靠的选择。
而提升AGI产品的下限能力关键就在于使其符合人类的利益,将自动驾驶表现与人类习惯对齐。
为此,理想又在“价值对齐无人区”开辟了一个新战场。
理想加入辅助驾驶伦理概念,将交通法规、社会公序良俗转化为机器可执行的约束规则。
比如说,有些弯道限速60时,其他车辆保持60码的速度,但自动驾驶的车受到固定算法的限制,用30码的速度开,如此一来,不仅对车辆造成危险,对很多车主来说,也是件头疼的事。
这个时候,理想VLA司机大模型就会自动学习,与其他车辆进行速度对齐,以60码的速度行驶,也更符合法规常识。
此外,在恶劣天气下,当激光雷达、摄像头被遮挡或污染时,VLA司机大模型也会及时、准确地告知用户。
那么,理想是怎么实现这种对齐的呢?
基于人类反馈的强化学习(RLHF),以人类是否接管作为反馈,进行强化训练,跟人类驾驶对齐。在模型上限不变的情况下,理想汽车从舒适性、安全性、逻辑选择变道等层面入手,使其尽量与人类习惯保持一致。
比如,VLA会在转弯时像人类一样自动减速,或者在并线时留出足够的安全距离。
这套超级对齐系统,能够基于对人类驾驶行为的深度学习,实时进化,并自动触发模型微调,将辅助驾驶的表现与人类驾驶表现对齐,让VLA“开得比人类更好”。
挺进无人区是件艰难的事情,但李想也坦言,VLA的成功离不开中国AI的崛起。
他表示,DeepSeek、通义千问等模型的出现让中国AI水平迅速接近美国。
其中,DeepSeek所秉持的开源精神尤为令人振奋,“独行快,众行远”,这也促使了理想开源星环OS。
李想称:“这不是出于公司战略考量,DeepSeek给我们那么大帮助,我们应该为社会贡献点什么。”
面对目前行业智能汽车“重复造轮子”的困境,理想的“做点什么”,就是打破模型和模型,辅助驾驶和辅助驾驶之间的生态壁垒。
在2025的中关村论坛年会上,李想就公开宣布,理想汽车将成为全球首家将汽车操作系统开源的汽车企业。将自家的理想星环OS,主动开放给友商。
相较大量传统车企仍在使用的行业头部闭源AUTOSAR操作系统,星环OS的核心性能、安全性、成本效率、适配性和灵活性等指标,都实现了行业领先。
比如,对于最新的AI学习芯片,理想星环的适配周期大概需要4周的时间,相比于使用AUTOSAR时节省了约5个月的时间。
大幅提升了其他厂商推出新品的时间,也缓解了友商遭遇芯片荒的情况。
再以目前市场最关注的辅助驾驶的安全场景为例,传统AEB的自动紧急制动有很长的调度延时。
而理想星环OS实现了全域的系统架构设计,能够优化调度,相比传统的AUTOSAR响应时间,速度快了1倍,稳定性提高了5倍。
体现在具体的功能上,在高速路上120的时速进行AEB的制动,大概可以缩短7米的制动距离。
这要放在别的车企,可能就是一个宣传卖点。
但理想却选择打破传统技术黑箱,开放格局,加速推动行业摆脱对传统闭源系统的依赖,实现生态共荣。
当其他车企在辅助驾驶的“已知大陆"深耕时,理想汽车开启了一个新的时代:
在"无人区"建立新的创新矩阵,并重新定义了辅助驾驶的进化路径,这或许就是中国科技企业突破“创新达尔文陷阱”的一种可能——在无人区播下技术种子,用开放协作催熟果实,最终让整个产业向新维度漂移。