3月17日,英偉達GTC 2026大會現場,理想汽車基座模型負責人詹錕發表主題演講《MindVLA-o1:開啟全能範式——下一代統一視覺-語言-動作自動駕駛大模型探索》,正式發布下一代自動駕駛基礎模型MindVLA-o1。這不僅是一次技術升級,更標誌着理想汽車從「自動駕駛」向「面向物理世界的通用智能體」的戰略跨越。
詹錕在演講中明確表示:「當我們把視覺、語言和行動統一到一個模型中時,它已不再只是自動駕駛模型,而是在逐漸演化為面向物理世界的通用智能體。基於同一套VLA模型,不僅可以控制車輛,也能夠擴展到機器人。因此,自動駕駛只是物理AI的起點,未來這類基礎模型將驅動新的具身智能範式。」
從端到端到VLA:理想智駕的進化軌跡
要理解MindVLA-o1的技術突破,必須回望理想汽車在輔助駕駛領域的演進路徑。自2021年啟動輔助駕駛自研以來,理想的技術架構經歷了多輪關鍵迭代。

2024年是理想輔助駕駛的重要分水嶺。隨着端到端+VLM(視覺語言模型)雙系統架構量產交付,輔助駕駛首次真正具備了跨場景、跨任務的統一理解能力。這套架構讓車輛能夠同時處理感知信息和語言指令,為後續的深度融合奠定基礎。
2025年,理想汽車進一步將空間理解、語言理解與行動決策統一到同一模型框架,構建了基於VLA、世界模型與強化學習三大技術棧的VLA司機大模型。同年8月,該模型隨理想i8交付正式推送,9月向AD Max用戶全量推送。
規模化的用戶驗證為理想提供了堅實的數據基礎。截至2025年底,VLA司機大模型月使用率達到80%,VLA指令累計使用1225.4萬次;春節期間理想輔助駕駛總里程達2.5億公里,VLA指令使用次數達130.3萬次。這些真實場景數據的持續積累,為MindVLA-o1的研發提供了核心燃料。
五大技術創新:構建物理世界智能的底層邏輯
MindVLA-o1的架構以原生多模態MoE Transformer為核心,通過五大技術創新,構建了面向物理世界智能的自動駕駛基礎模型,讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。
第一層:3D空間理解——從平面感知到立體認知
傳統系統更多是在處理平面圖像,而MindVLA-o1在感知層面實現了質的飛躍。理想採用視覺為核心的3D ViT Encoder,並利用激光雷達點雲作為三維幾何提示,引導模型理解真實空間結構,使其在單一表示中同時具備語義理解與三維感知能力。

更關鍵的突破在於引入前饋式3DGS表示。系統將場景拆分為靜態環境與動態物體分別建模,並通過「下一幀預測」作為自監督信號,使模型同時學習深度信息、語義結構與物體運動,最終形成融合空間結構與時間上下文的高質量3D表示。這意味着車輛不再只是「看到」圖像,而是真正「理解」物體的深淺、距離和運動狀態。
第二層:多模態思考——在隱空間中「想像」未來
自動駕駛既要理解當前環境,也要預測未來幾秒的場景演化。在語言模型承擔語義理解、常識知識和交互能力的基礎上,理想引入了預測式隱世界模型,在隱空間中高效模擬未來。
訓練分為三階段:首先用海量視頻數據預訓練Latent World Token,構建未來表徵;其次在MindVLA-o1中持續世界模型的推演,形成隱空間的未來推理能力;最後將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。由此,模型不僅能理解當前場景並進行邏輯判斷,還能提前「想像」未來畫面,將駕駛決策具象化。理想將這種能力定義為多模態思考。
第三層:統一行為生成——從專家模型到並行解碼
在行為生成層面,MindVLA-o1構建了三層機制。首先使用VLA-MoE架構,引入專門的Action Expert,從3D場景特徵、導航目標、駕駛指令等多維輸入中提取信息,並結合多模態思考生成高精度駕駛軌跡。
其次,為滿足實時性要求,系統採用Parallel Decoding並行解碼,同時生成所有軌跡點,大幅提升長序列預測效率。最後引入Discrete Diffusion進行多輪迭代優化,類似逐步去噪,確保軌跡空間連續、時間穩定,並符合車輛動力學約束。
第四層:閉環強化學習——低成本高效率的自我進化
為突破傳統模仿學習的上限,理想構建了閉環強化學習框架,讓模型不僅能從真實數據學習,還能在世界模擬器中持續探索和優化策略。
理想將傳統逐步優化式重建升級為前饋場景重建,使系統能夠瞬時生成大規模、高保真駕駛場景,支持大規模並行訓練。結合生成式模型,模擬環境可擴展、編輯並生成全新場景。為支持大規模模擬與訓練,理想開發了統一的3D Gaussian Splatting渲染引擎和分佈式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%。
第五層:軟硬件協同設計——從數月探索到數天部署
大模型在車端部署長期面臨算力限制和推理準確度的矛盾。理想提出面向端側大模型的軟硬件協同設計定律,將模型結構與驗證損失建模,並結合Roofline模型刻畫硬件計算能力與內存帶寬限制,在模型性能與硬件約束之間建立統一的分析框架。

理想基座模型團隊評估了近2000種模型架構配置,在英偉達Orin與Thor平台上完成驗證,找到了模型精度與推理延遲之間的帕累托前沿。這套方法論證明,在車端算力受限時,「更寬但更淺」的模型架構比傳統深層模型更高效,將架構探索時間從數月縮短至數天。
「數字大腦」的完整閉環:從感知到行動的系統架構
MindVLA-o1並非孤立模型,而是理想汽車面向物理世界智能核心AI框架的重要組成部分。這套AI框架由四大核心模塊構成:
MindData作為統一的VLA數據引擎,負責大規模數據的採集、清洗和自動標注;MindVLA-o1作為統一的原生多模態VLA模型,理解環境、進行推理並生成駕駛行為;MindSim作為可控的多模態世界模型,用於生成複雜駕駛場景並支持大規模閉環訓練;RL Infra作為強化學習基礎設施,通過獎勵模型和策略學習,使系統在仿真與真實環境中自我進化。
四部分協同形成完整閉環,使AI能夠感知、理解並在物理世界中自主行動,並持續學習。從結構上看,這套系統如同一個「數字大腦」:感知層對應視覺皮層,推理與規劃如前額葉,場景生成似運動皮層,強化學習則類似多巴胺反饋,實現了感知、理解、行動和持續優化的完整閉環。
從汽車到具身智能:技術框架的可擴展性
該框架不僅服務於汽車,也可擴展至機器人及各種物理系統。對理想汽車而言,車是最大號的機器人,其本質是在構建硅基生命體的軀幹與大腦。
理想汽車在持續推進技術創新的同時,在人工智能領域頂級學術會議和期刊發表了大量研究成果,其中MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發表。這意味着理想的技術突破不僅停留在工程層面,更在學術層面獲得國際認可。
對於香港用家而言,MindVLA-o1的發布雖然短期內不會直接影響本地駕駛體驗——畢竟香港法規對輔助駕駛系統的限制仍較嚴格,但它代表着一種明確的技術方向。當系統能夠在隱空間中「想像」未來,當決策延遲從秒級降至毫秒級,當訓練成本降低75%的同時模型性能持續提升,這意味着自動駕駛技術正在從「規則驅動」邁向「智能驅動」的新階段。
理想的願景是清晰的:自動駕駛只是物理AI的起點,未來這類基礎模型將驅動新的具身智能範式。從「AI司機」到「數字大腦」,理想正在構建的不只是一套駕駛系統,而是能夠理解、推理並在物理世界中行動的通用智能體。這條路還很長,但MindVLA-o1證明,方向已經明確。