繁體
關注我們
  • Facebook
  • YouTube
  • Instagram
  • TikTok
  • X
首頁新聞小米智駕從理解跨入因果預判 XLA再進化 OneVL統一VLA與世界模型路線

小米智駕從理解跨入因果預判 XLA再進化 OneVL統一VLA與世界模型路線

May 14, 2026
分享

小米技術團隊於5月13日正式發佈全新自動駕駛模型——Xiaomi OneVL,全稱為「一步式潛空間語言視覺推理框架」。雷軍於社交平台同步宣佈,模型與訓練、推理代碼現已全面開源,邀請全球開發者及研究人員共同參與,探索自動駕駛大模型的更多可能性。這是小米繼今年3月推出XLA認知大模型架構之後,在自動駕駛領域最為關鍵的一次技術進化——從「理解與推理」邁向因果預判與實時決策的統一。

終結「VLA vs 世界模型」路線之爭

過去兩年,自動駕駛行業圍繞大模型技術路線產生了深刻分歧。VLA模型認為「理解」是駕駛的核心前提——視覺感知與語言推理先形成對當前場景的認知,再輸出駕駛動作;而世界模型陣營則主張「預測」才是關鍵——車輛應在雲端預演未來幾秒鐘內世界的變化,帶著預判去駕駛。這種技術路徑的爭議從2025年持續升溫,直至2026年3月英偉達GTC大會上公開激化,吉利汽車、Momenta、華為車BU等均對VLA方案提出各自立場,行業正式分裂為「VLA大模型」與「世界模型+強化學習」兩大陣營

OneVL的發佈,從工程層面終結了這場路線之爭。過去,VLA專注於理解場景並輸出駕駛動作,世界模型專注於預測未來場景的演變,兩者相對獨立。OneVL首次將VLA、世界模型與潛空間推理三大技術路線統一至同一套框架中。其核心洞察是:自動駕駛需要壓縮的不是語言推理,而是對未來世界動態變化的理解——駕駛決策真正依賴的不是「前方有車」「道路變窄」這類語義描述,而是車輛運動、道路幾何、障礙物演變等時空因果信息

一步推理:0.24秒跨越精確與效率的鴻溝

傳統顯式思維鏈能顯著提升軌跡規劃質量,但逐個Token生成帶來的額外時延對實時決策提出了艱難挑戰;而跳過推理直接輸出答案,又會丟失關鍵的因果判斷能力。行業此前提出的潛空間思維鏈將推理壓縮為高維機器語言,但在精度上始終未能超越顯式方案

OneVL實現了行業首次突破:成為第一個在精度上超越顯式思維鏈、在速度上對齊「僅答案」預測的潛在推理方案。其推理延遲最低僅0.24秒,為傳統VLA自回歸推理的5.4%,為量產車端實時部署提供了可行路徑。在涵蓋感知、推理與規劃的多個主流基準測試中,OneVL全面刷新了潛在推理方法的性能上限,於ROADWork、Impromptu及Alpamayo-R1三項基準中均達到SOTA水平

世界模型解碼器:訓練時預測未來,推理時零開銷

OneVL引入一項關鍵設計:在訓練階段,模型配備語言解碼器與視覺世界模型解碼器雙重監督機制。語言解碼器重建文本思維鏈,確保模型能夠以可解釋的方式輸出駕駛邏輯;視覺世界模型解碼器預測未來幀Token,迫使潛空間內化道路幾何、物體運動及環境變化的因果動力學。在推理時,兩個輔助解碼器被完全捨棄,所有潛空間Token在一次並行前向傳遞中完成計算,實現對齊「僅答案」預測的推理速度。這使得OneVL能夠為模型決策提供語言與視覺雙維度的可解釋性——既能用文字說明「為什麼這樣開」,也能用預測畫面展示「接下來會發生什麼」

從XLA到OneVL:小米智駕的雙月進化

今年3月,小米正式發佈XLA認知大模型架構,標誌著小米輔助駕駛從「感知與模仿」走向「理解與推理」。XLA強調多模態認知輸入及場景推理,與傳統VLA模型有明顯區分。OneVL則在XLA方向上更進一步:作為XLA架構中Latent CoT能力的首次學術驗證,它在精度與效率之間找到了新的平衡路徑。據小米技術介紹,OneVL已將模型權重及完整訓練、推理代碼開源至GitHub,並提供技術報告與項目主頁。這一開源規模在汽車行業中極為罕見——多數車企的自動駕駛核心模型因涉及量產參數配置,往往僅對外開放論文或部分感知模塊。

行業意義與市場影響

在智能駕駛行業陷入「端到端 vs 世界模型 vs VLA」分歧與內耗的關鍵時間節點,小米以OneVL給出了一個已在學術基準上被廣泛驗證的「既快又準」方案。對於消費者的直觀意義在於——當一台搭載小米智駕系統的車輛駛入晚高峰擁堵的城市道路時,它既能在一秒之內理解前方大貨車的視覺遮擋關係、預判旁車加塞的運動軌跡、推理導航的最優匯入時機,並將整段因果邏輯壓縮至一次並行計算中完成。換言之,曾經學術界普遍認為無法在車端芯片算力限制內同時實現的「高精度因果推理」與「極致低時延輸出」,已被驗證可以並存。

OneVL並未停留在實驗室階段。這套框架針對車端實時運行環境進行了專門優化,為小米後續量產車型的智駕算法迭代預留了完整的技術棧遷移路徑。從更宏觀的視角審視,小米正在將其戰略路徑清晰書寫:從SU7的量產交付構建終端入口,從XLA與OneVL構建智駕中樞,再向上長出「人車家全生態」的廣闊圖景。2026年正成為小米從智能手機頭部品牌向全球智能汽車核心參與者轉型的關鍵年份,而OneVL的發佈,堪稱這一轉型中最具技術深度的注腳。

對於關注自動駕駛技術發展的香港車迷而言,OneVL的開源同樣具有長遠意義——如果小米智駕系統在後續量產車型中得到充分驗證,未來通過官方渠道引進右舵版本時,香港用戶將有機會體驗到這套將VLA推理與世界預測統一至一步之內的端到端智駕方案。在此之前,OneVL所揭示的技術方向——壓縮因果而非壓縮語言,融合而非站隊——或將成為2026年之後自動駕駛行業的關鍵技術風向標。

最新新聞

全部品牌
受歡迎的車
返回頂部
意見反饋