從「AI司機」到「數字大腦」：理想MindVLA-o1的五大技術突破與物理世界智能的進化方向

3月17日，英偉達GTC 2026大會現場，理想汽車基座模型負責人詹錕發表主題演講《MindVLA-o1：開啟全能範式——下一代統一視覺-語言-動作自動駕駛大模型探索》，正式發布下一代自動駕駛基礎模型MindVLA-o1。這不僅是一次技術升級，更標誌着理想汽車從「自動駕駛」向「面向物理世界的通用智能體」的戰略跨越。

詹錕在演講中明確表示：「當我們把視覺、語言和行動統一到一個模型中時，它已不再只是自動駕駛模型，而是在逐漸演化為面向物理世界的通用智能體。基於同一套VLA模型，不僅可以控制車輛，也能夠擴展到機器人。因此，自動駕駛只是物理AI的起點，未來這類基礎模型將驅動新的具身智能範式。」

從端到端到VLA：理想智駕的進化軌跡

要理解MindVLA-o1的技術突破，必須回望理想汽車在輔助駕駛領域的演進路徑。自2021年啟動輔助駕駛自研以來，理想的技術架構經歷了多輪關鍵迭代。

2024年是理想輔助駕駛的重要分水嶺。隨着端到端+VLM（視覺語言模型）雙系統架構量產交付，輔助駕駛首次真正具備了跨場景、跨任務的統一理解能力。這套架構讓車輛能夠同時處理感知信息和語言指令，為後續的深度融合奠定基礎。

2025年，理想汽車進一步將空間理解、語言理解與行動決策統一到同一模型框架，構建了基於VLA、世界模型與強化學習三大技術棧的VLA司機大模型。同年8月，該模型隨理想i8交付正式推送，9月向AD Max用戶全量推送。

規模化的用戶驗證為理想提供了堅實的數據基礎。截至2025年底，VLA司機大模型月使用率達到80%，VLA指令累計使用1225.4萬次；春節期間理想輔助駕駛總里程達2.5億公里，VLA指令使用次數達130.3萬次。這些真實場景數據的持續積累，為MindVLA-o1的研發提供了核心燃料。

五大技術創新：構建物理世界智能的底層邏輯

MindVLA-o1的架構以原生多模態MoE Transformer為核心，通過五大技術創新，構建了面向物理世界智能的自動駕駛基礎模型，讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

第一層：3D空間理解——從平面感知到立體認知

傳統系統更多是在處理平面圖像，而MindVLA-o1在感知層面實現了質的飛躍。理想採用視覺為核心的3D ViT Encoder，並利用激光雷達點雲作為三維幾何提示，引導模型理解真實空間結構，使其在單一表示中同時具備語義理解與三維感知能力。

更關鍵的突破在於引入前饋式3DGS表示。系統將場景拆分為靜態環境與動態物體分別建模，並通過「下一幀預測」作為自監督信號，使模型同時學習深度信息、語義結構與物體運動，最終形成融合空間結構與時間上下文的高質量3D表示。這意味着車輛不再只是「看到」圖像，而是真正「理解」物體的深淺、距離和運動狀態。

第二層：多模態思考——在隱空間中「想像」未來

自動駕駛既要理解當前環境，也要預測未來幾秒的場景演化。在語言模型承擔語義理解、常識知識和交互能力的基礎上，理想引入了預測式隱世界模型，在隱空間中高效模擬未來。

訓練分為三階段：首先用海量視頻數據預訓練Latent World Token，構建未來表徵；其次在MindVLA-o1中持續世界模型的推演，形成隱空間的未來推理能力；最後將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。由此，模型不僅能理解當前場景並進行邏輯判斷，還能提前「想像」未來畫面，將駕駛決策具象化。理想將這種能力定義為多模態思考。

第三層：統一行為生成——從專家模型到並行解碼

在行為生成層面，MindVLA-o1構建了三層機制。首先使用VLA-MoE架構，引入專門的Action Expert，從3D場景特徵、導航目標、駕駛指令等多維輸入中提取信息，並結合多模態思考生成高精度駕駛軌跡。

其次，為滿足實時性要求，系統採用Parallel Decoding並行解碼，同時生成所有軌跡點，大幅提升長序列預測效率。最後引入Discrete Diffusion進行多輪迭代優化，類似逐步去噪，確保軌跡空間連續、時間穩定，並符合車輛動力學約束。

第四層：閉環強化學習——低成本高效率的自我進化

為突破傳統模仿學習的上限，理想構建了閉環強化學習框架，讓模型不僅能從真實數據學習，還能在世界模擬器中持續探索和優化策略。

理想將傳統逐步優化式重建升級為前饋場景重建，使系統能夠瞬時生成大規模、高保真駕駛場景，支持大規模並行訓練。結合生成式模型，模擬環境可擴展、編輯並生成全新場景。為支持大規模模擬與訓練，理想開發了統一的3D Gaussian Splatting渲染引擎和分佈式訓練框架，渲染速度提升近2倍，整體訓練成本降低約75%。

第五層：軟硬件協同設計——從數月探索到數天部署

大模型在車端部署長期面臨算力限制和推理準確度的矛盾。理想提出面向端側大模型的軟硬件協同設計定律，將模型結構與驗證損失建模，並結合Roofline模型刻畫硬件計算能力與內存帶寬限制，在模型性能與硬件約束之間建立統一的分析框架。

理想基座模型團隊評估了近2000種模型架構配置，在英偉達Orin與Thor平台上完成驗證，找到了模型精度與推理延遲之間的帕累托前沿。這套方法論證明，在車端算力受限時，「更寬但更淺」的模型架構比傳統深層模型更高效，將架構探索時間從數月縮短至數天。

「數字大腦」的完整閉環：從感知到行動的系統架構

MindVLA-o1並非孤立模型，而是理想汽車面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊構成：

MindData作為統一的VLA數據引擎，負責大規模數據的採集、清洗和自動標注；MindVLA-o1作為統一的原生多模態VLA模型，理解環境、進行推理並生成駕駛行為；MindSim作為可控的多模態世界模型，用於生成複雜駕駛場景並支持大規模閉環訓練；RL Infra作為強化學習基礎設施，通過獎勵模型和策略學習，使系統在仿真與真實環境中自我進化。

四部分協同形成完整閉環，使AI能夠感知、理解並在物理世界中自主行動，並持續學習。從結構上看，這套系統如同一個「數字大腦」：感知層對應視覺皮層，推理與規劃如前額葉，場景生成似運動皮層，強化學習則類似多巴胺反饋，實現了感知、理解、行動和持續優化的完整閉環。

從汽車到具身智能：技術框架的可擴展性

該框架不僅服務於汽車，也可擴展至機器人及各種物理系統。對理想汽車而言，車是最大號的機器人，其本質是在構建硅基生命體的軀幹與大腦。

理想汽車在持續推進技術創新的同時，在人工智能領域頂級學術會議和期刊發表了大量研究成果，其中MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發表。這意味着理想的技術突破不僅停留在工程層面，更在學術層面獲得國際認可。

對於香港用家而言，MindVLA-o1的發布雖然短期內不會直接影響本地駕駛體驗——畢竟香港法規對輔助駕駛系統的限制仍較嚴格，但它代表着一種明確的技術方向。當系統能夠在隱空間中「想像」未來，當決策延遲從秒級降至毫秒級，當訓練成本降低75%的同時模型性能持續提升，這意味着自動駕駛技術正在從「規則驅動」邁向「智能驅動」的新階段。

理想的願景是清晰的：自動駕駛只是物理AI的起點，未來這類基礎模型將驅動新的具身智能範式。從「AI司機」到「數字大腦」，理想正在構建的不只是一套駕駛系統，而是能夠理解、推理並在物理世界中行動的通用智能體。這條路還很長，但MindVLA-o1證明，方向已經明確。

從「AI司機」到「數字大腦」：理想MindVLA-o1的五大技術突破與物理世界智能的進化方向

最新新聞