論文貢獻
l 我們提出了FastDriveVLA,一種新穎的基于重建的Token剪枝框架,它不同于現有的基于注意力的和基于相似性的剪枝方法。
l 我們設計了ReconPruner,這是一種通過MAE風格像素重建訓練的、即插即用的剪枝器,并引入了一種新穎的對抗性前景-背景重建策略,以增強其識別有價值Token的能力。
l 我們構建了nuScenes-FG數據集,包含針對自動駕駛場景的前景分割標注,總計包含24.1萬個圖像-掩碼對。
l 我們的方法專為端到端自動駕駛VLA模型定制,并在nuScenes開環規劃基準測試中實現了SOTA性能(即當前最優的效果)。
【12月28日】近日,AAAI 2026公布了論文錄用結果,該會議是人工智能領域的國際頂級會議之一。據悉,AAAI 2026共收到23,680份論文投稿,其中4,167篇論文被錄用,錄用率僅為17.6%。由小鵬汽車和北京大學計算機學院多媒體信息處理全國重點實驗室聯合完成的論文《FastDriveVLA: Efficient End-to-End Driving via Plug-and-Play Reconstruction-based Token Pruning》成功入選。這篇論文最大的貢獻在于,提出了一種專門為端到端自動駕駛VLA模型定制的、高效的視覺Token剪枝框架——FastDriveVLA。
隨著AI大模型技術的加速演進,VLA(視覺-語言-動作)模型由于在復雜場景理解與動作推理方面展示出巨大潛力,正在被廣泛地應用于端到端自動駕駛系統中。VLA模型在處理視覺信息時,會將圖像編碼為海量視覺Token(詞元)。視覺Token是VLA模型“看懂世界”,并“做出決策”的基石,其質量、數量與選擇策略直接決定模型的性能、效率與可信度。然而,直接轉換的處理方式會導致車端計算負荷變大,同時還會影響模型的推理效率和決策執行。
此前,視覺Token剪枝已被證實了是加速VLA模型推理的可行方法之一。但傳統的視覺Token剪枝方法或依賴文本-視覺注意力關聯,或基于Token相似度去重,在駕駛場景中均存在明顯局限。為了解決這一問題,小鵬汽車聯合北大共同提出了FastDriveVLA——一種專門為自動駕駛設計的、基于重建視覺Token剪枝框架。該框架的提出受到了人類駕駛員在駕駛時會專注于相關前景信息(如行人、道路、車輛、交通標志、交通信號燈、交通障礙物)的啟發,引入了一種新穎的對抗性前景-背景重建策略,以增強VLA模型識別有價值Token的能力,從而教會AI“像人一樣開車”,自動過濾無關緊要的視覺信息,只關注有用的核心信息。
圖1:FastDriveVLA 框架
在訓練階段,論文中提出了一種新穎的“前景-背景對抗重建”策略,以增強 ReconPruner 對前景視覺 Token 的感知能力;在推理階段,ReconPruner可直接嵌入自動駕駛VLA模型,用于 Token 剪枝。
FastDriveVLA包含一個即插即用的視覺Token剪枝器ReconPruner。在車端模型的推理階段, ReconPruner可直接嵌入自動駕駛VLA模型用于視覺Token的剪枝,即插即用,無需重新訓練整個模型。為了輔助該剪枝器的訓練,還專門構建了包含來自6個攝像頭視角的24.1萬個圖像-掩碼對的nuScenes-FG數據集。這一大規模的自動駕駛前景分割標注數據集,可廣泛用于未來自動駕駛的研究。
圖2:nuScenes-FG。該數據集為 nuScenes 場景提供了 24.1 萬個前景分割標注。
這種“去繁從簡”只關注核心駕駛信息的思路,讓FastDriveVLA取得了驚艷的效果。最終,nuScenes自動駕駛數據集上的測試顯示,采用這一剪枝框架,在不同剪枝率下均取得當前最優即SOTA效果:
l 剪枝比例達25%視覺Token時,駕駛性能幾乎不下降,其L2軌跡誤差與碰撞率指標甚至超越未剪枝的基準模型;
l 剪枝比例達50%Token時,在所有指標上表現更平衡;
l 與此同時,VLA模型的推理效率得到了顯著提升。當視覺Token數量從 3249減少到 812時,FastDriveVLA 實現了近7.5倍的計算量(FLOPs)減少。在 CUDA (指從GPU啟動一個計算任務到真正拿到該任務的計算結果之間所經歷的時間)延遲方面,FastDriveVLA 將預填充時間(prefill)與解碼時間(decode)分別減少了 3.7倍與1.3倍。
小鵬汽車聯合北大提出的FastDriveVLA,建立了自動駕駛VLA模型的高效視覺Token剪枝的新范式,同時樹立了車端大模型高效部署上車的新標桿。
此次論文入選AAAI 2026,是小鵬汽車今年第二次參與人工智能領域的國際頂級會議。早在今年6月,小鵬汽車曾作為CVPR WAD唯一邀請演講中國車企,分享自動駕駛基座模型研發進展。在今年11月的科技日上,小鵬汽車正式推出第二代VLA,創新性地去掉了“語言轉譯”環節,首次實現從視覺信號到動作指令的端到端直接生成,顛覆了行業傳統的「V-L-A」架構,探索全新物理AI模型范式。這些成果都為全球自動駕駛的研究和實踐注入了全新的動力。
這一系列成果也彰顯了小鵬汽車從模型架構設計、模型訓練到模型蒸餾、部署上車的全棧自研能力。未來,小鵬汽車將繼續以L4為目標,在AI大模型領域加大投入,加速物理AI大模型上車,讓更安全、高效、舒適的智駕體驗惠及全球用戶。
關于小鵬汽車
小鵬汽車致力于通過探索科技,引領未來出行變革,做“未來出行探索者”。公司總部位于廣州,在北京、上海、深圳、肇慶、揚州等地設有研發中心,并在肇慶和廣州布局智能制造基地。同時,小鵬汽車面向全球進行研發和銷售布局,已在美國設立研發中心、在歐洲多地設立分公司。小鵬汽車堅持全棧自主研發智能輔助駕駛軟件和開發核心硬件,為用戶帶來卓越的智能駕乘體驗。2020年8月27日,小鵬汽車正式登陸紐交所,募資規模打破當時全球新能源汽車行業IPO紀錄,股票代碼為“NYSE:XPEV”;2021年7月7日,小鵬汽車掛牌香港聯交所,股票代碼“9868.HK”,成為首個在中國香港和美國紐約兩地雙重主要上市的中國造車新勢力。
更多信息,歡迎登陸小鵬汽車官方網站www.xiaopeng.com




