小米Xiaomi HAD超高度自动驾驶系统全栈技术解析

2026年3月，随着新一代SU7发布，小米正式推出基于XLA认知大模型的新一代辅助驾驶方案。这不仅是一次技术路线的关键转折，也让小米把“体验优先”的思路推进到了新的阶段。

系统定位与演进

两年三次跨越

1.1 技术演进路径

回顾小米辅助驾驶的发展历程，这是一段小米从跟随行业主流技术路径，到逐步形成自主技术路径和技术思考的进化史。

第一代（2024年3月）：小米辅助驾驶在第一代SU7上首次量产，当时行业正围绕“无图”和“开城”展开激辩，小米第一代方案以“无图开城”为切入点，作为新选手对主流趋势的回应是跟从。

第二代（2025年2月）：随着规则驱动的无图方案逐渐触及天花板，行业转向探索以数据为核心的“端到端”模型。2025年2月，小米迅速跟进推出第二代辅助驾驶系统，并于同年7月快步迭代至1000Clips版本，在数据驱动的赛道上奋起直追。相比此前300万Clips版本，新系统纵向舒适性飙升57%，绕行成功率暴涨67%，复杂路口通过率提升23%。

第三代（2026年3月）：小米便带来了第三代方案：XLA认知大模型。与此前两代不同，XLA不再仅仅依赖单纯的规则或数据模式，而是试图让辅助驾驶系统真正“理解”环境，进行常识与因果推断。

1.2 “入门即满配”的硬件策略

新一代SU7全系“满配”高规格辅助驾驶硬件：700TOPS算力Thor芯片，激光雷达、4D毫米波雷达、11个高清摄像头以及12个超声波雷达，标准版的配置就堪比行业Max，甚至Ultra版。这套总计25个传感器的感知阵列在2025款SU7上还不曾如此全面，当时标准版甚至无激光雷达。从“分档配置”到“入门即满配”，硬件代差正是小米2026款智驾跃升的底层支撑之一。

核心算法

XLA认知大模型

2.1 从“数据驱动”到“认知驱动”

传统端到端技术高度依赖模仿学习，通过输入海量视频Clips让机器模仿人类的开车行为，类似“背诵题库”：学习过的场景系统能快速掌握，但遇到陌生场景就很难“举一反三”。而真实路况复杂多变，施工改道、临停占道、行人横穿……每天都有无数个“系统从未见过的”长尾场景在发生，无法穷尽物理世界的所有情况来让系统充分学习。

辅助驾驶要想继续进步，就必须跨越“死记硬背”的阶段，学会像人类一样认知世界，并基于认知做出思考与推理。XLA的引入标志着小米HAD辅助驾驶系统从“数据驱动”迈向“认知驱动”。

2.2 技术底层：MiMo-Embodied具身基座大模型

小米很早就察觉到了这一点，并把“室内机器人精细操作”和“室外辅助驾驶任务”进行混合训练，得到了一个统一的物理AI基座模型：Xiaomi MiMo-Embodied具身基座大模型。这种创新性的训练方式产生了强大的跨域协同效应，大幅提升模型整体的空间感知与逻辑推理能力。

实验数据证明，在涵盖辅助驾驶与具身机器人感知、决策、规划等29项核心基准测试中，Xiaomi MiMo-Embodied取得了领先的成绩，打造了开源具身基座模型的新标杆。基于这一基座模型，小米辅助驾驶升级了全新的车端架构：Xiaomi XLA认知大模型。

2.3 XLA与VLA的区别：为什么是“X”？

人类驾驶，实际上是一个多模态感知与复杂推理的过程。除了视觉，我们还会依靠听觉去捕捉环境音，依靠身体的体感去感知加减速的惯性，更会调动大脑中海量的记忆与经验。参考这一理念，小米将行业主流的VLA技术扩展成为XLA架构。

X代表着原生支持多模态的数据输入。XLA架构可以将激光雷达的精准测距、视觉的丰富语义、导航的全局视野、声音的动态反馈、乃至机器人物理AI交互数据进行有机融合。其中X代表着原生支持多模态的数据输入：相比VLA（Vision-Language-Action），小米除了融入视觉（Vision）、雷达、导航信息以外，还融入了声音、机器人数据等模态，让大模型更全面地认知世界。

借助多模态输入能力，在新一代SU7上，现在动动嘴就能用语音指令控制辅助驾驶的行车、泊车功能，可以说“小爱同学，向左变道”来切换车道。

2.4 潜空间推理（Latent CoT）：兼顾速度与可解释性

小米在Xiaomi XLA中引入了突破性的潜空间推理（Latent CoT）模式，兼顾系统低时延和推理能力。系统不再需要把思考过程翻译成人类语言，而是在潜空间中直接使用高维机器语言进行推演，从而提升思考速度。

不过，小米汽车为了避免“端到端”时代的黑盒问题，让Xiaomi XLA保留了整个推理过程的可解释性与可追溯性。在需要分析模型思考过程时，可以把“潜空间推理”解码成人类能看懂的语言。

2.5 VLA与世界模型：并非二选一

关于未来的辅助驾驶应该选VLA还是世界模型路线，小米汽车认为，VLA技术与世界模型技术并非非此即彼，而是可以相辅相成。在Xiaomi XLA架构中，小米无缝接入了“强化学习+世界模型”技术。

不少用户担心小米转向XLA架构后，会放弃之前的世界模型技术。官方直接说明，两者不是对立关系，在全新的Xiaomi XLA架构里，已经无缝接入了强化学习加世界模型技术。世界模型就像一个高仿真模拟器，可以在虚拟环境里生成海量复杂的驾驶场景，让系统在不出门、不上路的情况下，不断模拟测试、优化驾驶策略，借助这套闭环训练机制让系统拥有持续进化的能力。

硬件架构

全系满配，感知冗余

3.1 传感器配置

新一代SU7全系标配旗舰级辅助驾驶硬件，构成一套总计25个传感器的感知阵列：

1颗激光雷达：128线高精度激光雷达，探测距离200米，夜间目标检出率99.9%，并在功耗上降低了55%，能提升对夜间及异形障碍物的识别能力

1颗4D毫米波雷达：通过引入高度维信息，增强了对目标分辨率和距离的探测，在恶劣天气下能提供更稳定的感知，可穿透雨雾识别锥桶

11颗高清摄像头：其中7颗采用超透防眩光设计，以抑制逆光干扰

12颗超声波雷达

3.2 计算平台

算力基石是英伟达DRIVE AGX Thor计算平台，提供高达700 TOPS的总算力，为系统运行和大模型算法提供了支持。这一算力水平使其在智驾算力竞赛中与特斯拉FSD（720TOPS）基本持平，并领先红旗、零跑等200TOPS级别的车型。

3.3 感知系统架构

小米HAD感知系统由11路相机+10Hz毫米波雷达+ 激光点云构成，其核心创新在于三档动态感知策略+ 多教师蒸馏+异步时序融合+持久化记忆四大部分。

三档动态感知策略：根据场景复杂度动态分配计算资源

多教师蒸馏：融合多个专家模型的“经验”，训练出更高效的端侧模型

异步时序融合：让不同频率的传感器数据在时间线上对齐

持久化记忆：赋予系统对静态场景的“记忆能力”，在遮挡物后依然保持对障碍物的持续跟踪

功能体验

从高速到城区的全场景覆盖

4.1 高速场景

小米在高速场景已接近第一梯队，变道果断性提升50%，ETC通行零失误。高速NOA接管频率约为1次/200公里，略高于华为ADS（1次/300公里）但优于特斯拉FSD（1次/150公里）。

4.2 城区场景

截至2026年3月，小米官方宣称城市NOA已覆盖全国337座地级市，复杂路口通过率98.6%。城区无保护左转成功率达96.7%，与华为（>98%）和小鹏（95%）处于同一梯队。

实际体验存在地域差异：上海、北京等高精地图完善区域表现稳定，但在施工频繁或道路标线模糊的三四线城市，系统常因感知置信度不足而频繁退出。

4.3 泊车场景

小米智驾最无争议的优势是全功能免费，自动泊车成功率高达99.5%，商场地库可自主寻位泊入。极窄车位泊出功能支持50cm间距脱困，彻底解决“停车容易出车难”的痛点。

新一代SU7交付即搭载Xiaomi XLA认知大模型，在第一个版本实现了语音控车、商场地库车位级领航等功能。

4.4 主动安全

HAD增强版新增AES紧急转向辅助（80-135km/h支持两次避让）和L/R-AEB（识别静态障碍物），在中保研测试中获全优评级。但需注意：AEB在1-10km/h低速域才覆盖静态障碍物，高速场景仍依赖动态目标识别。

研发数据与行业对比

5.1 团队与投入

小米智能驾驶团队成员超过1800名，在智能驾驶技术路线的探索上，市面上的所有路线在小米内部都有预研。雷军宣布，未来三年小米将在大模型、具身智能、AI应用等领域投入至少600亿元，最终的落点是推进AI应用全面融合“人车家”全生态。

5.2 智驾大模型落地

在《2026中国智驾大模型落地实效TOP30》排名中，小米汽车凭借自研XLA大模型位列第11位，新一代SU7全系交付。2026 P3中国智能驾驶测评中，在4.0分以上的高分段位中，辅助驾驶系统呈现出“三强鼎立”的态势：华为乾崑（享界S9T，4.46分）第一、小鹏（4.33分）第二、理想（4.06分）第三，小米YU7以3.78分位列第五。

5.3 数据积累

小米智驾总算力达到11.45EFLOPS，优质场景片段积累超1000万Clips。

5.4 OTA升级策略

新一代SU7交付即搭载Xiaomi XLA认知大模型，小米汽车表示会陆续为第一代SU7 Pro/Max、SU7 Ultra、YU7全系提供OTA升级，老款车型用户无需更换硬件即可体验最新的智驾功能，在行业内较为少见。小米汽车官方呼吁，辅助驾驶不等于自动驾驶，日常开车时驾驶员仍需全程专注，随时准备接管车辆。

技术路线图与未来展望

6.1 阶段性路线图