3月5日,CVPR 2025成績單出來了,其中,理想汽車上榜了4篇。
CVPR國際計算機視覺與模式識別會議是IEEE(電氣和電子工程師協(xié)會)主辦的一年一度的國際會議,被公認(rèn)為計算機視覺領(lǐng)域的頂級會議之一,和ICCV、ECCV并稱計算機視覺三大頂級會議,近年來也不斷有自動駕駛領(lǐng)域的前沿研究獲獎。
對于理想汽車的意義在于,這不僅是其首次以車企身份躋身全球頂級AI會議,更標(biāo)志著其從“造車新勢力”向真正發(fā)展為AI公司的戰(zhàn)略轉(zhuǎn)型有了一個階段性的成果。
當(dāng)天,理想汽車創(chuàng)始人、董事長、CEO李想在社交媒體上發(fā)文稱:自從特斯拉的全自動駕駛(FSD)功能入華后,經(jīng)過對比,理想AD Max V13的接管次數(shù)明顯少于特斯拉FSD,表現(xiàn)更好。李想還提到,理想AD Max V13基于1000萬條數(shù)據(jù)進行訓(xùn)練,并于2月27日全面推送,得到了用戶的好評。
這次入選的四篇論文背后的署名作者是理想汽車副總裁、智駕負(fù)責(zé)人朗咸朋及其團隊的多名工程師。在不久前的理想汽車AI Talk中,朗咸朋曾在直播中表示,預(yù)計2025年理想汽車能夠?qū)崿F(xiàn)L3級的智能駕駛。
此次入選的StreetCrafter、DrivingSphere、DriveDreamer4D與ReconDreamer四篇論文,主要是理想汽車在自動駕駛模擬仿真方向做的創(chuàng)新,同時直面回答自動駕駛研發(fā)的核心痛點難題:數(shù)據(jù)成本高企與極端場景覆蓋不足。
下面我們分別解析這四篇論文:
01.
StreetCrafter:基于LiDAR與視頻擴散模型的街景合成技術(shù)
StreetCrafter是作為理想汽車聯(lián)合浙江大學(xué)、康奈爾大學(xué)提出的自動駕駛仿真技術(shù),其核心目標(biāo)是通過LiDAR點云與視頻擴散模型的融合,解決傳統(tǒng)方法(如NeRF、3D高斯散射)在視角偏離訓(xùn)練軌跡時渲染模糊或偽影的難題。
其核心技術(shù)包含兩部分:
可控視頻擴散模型:通過多幀LiDAR點云聚合生成全局點云,并渲染為像素級條件圖像,作為擴散模型的輸入。在推理階段,根據(jù)新視角的相機軌跡生成高保真視頻幀,支持實時渲染和場景編輯(如對象平移、替換和刪除)。
動態(tài)3D高斯表示蒸餾:利用生成的新視角圖像作為監(jiān)督信號,優(yōu)化3D高斯的幾何與紋理,結(jié)合混合損失函數(shù)(L1、SSIM、LPIPS)和漸進優(yōu)化策略,提升視角外推能力,同時保持80-113 FPS的實時渲染速度。
實驗結(jié)果顯示,在Waymo數(shù)據(jù)集上,StreetCrafter在3米視角偏移下的FID為71.40,顯著優(yōu)于Street Gaussians的93.38,且在復(fù)雜區(qū)域(如車道線和移動車輛)的細(xì)節(jié)清晰度更高。
StreetCrafter其應(yīng)用價值在于降低自動駕駛訓(xùn)練對真實數(shù)據(jù)的依賴。例如,在訓(xùn)練車輛變道算法時,可通過調(diào)整相機軌跡生成多角度變道場景視頻,模擬不同光照、天氣條件下的數(shù)據(jù),以及應(yīng)對極端場景下的仿真測試。
在應(yīng)對突發(fā)障礙物(如行人橫穿、車輛逆行)時,利用場景編輯功能,在LiDAR點云中插入虛擬障礙物(如刪除道路上的車輛并替換為行人),生成測試視頻。例如,模擬行人突然闖入車道,驗證系統(tǒng)緊急制動能力。
但局限性包括對LiDAR標(biāo)注的高成本依賴(數(shù)據(jù)采集成本提升)、生成速度僅0.2FPS,以及對形變物體(如行人)的建模精度不足。
也許正是意識到這些不足,日前理想汽車宣布:今年推出的所有車型都將標(biāo)配激光雷達傳感器。
02.
DrivingSphere:生成式閉環(huán)仿真框架與4D高保真環(huán)境建模
DrivingSphere旨在構(gòu)建一個支持動態(tài)閉環(huán)交互的4D(3D空間+時間)仿真環(huán)境,以克服傳統(tǒng)開環(huán)仿真數(shù)據(jù)多樣性不足、閉環(huán)仿真視覺保真度低的問題。
框架主要通過兩大模塊和一個機制,為智能體構(gòu)建了高保真4D世界,評估自動駕駛算法。
動態(tài)環(huán)境組合(DEC模塊):基于OccDreamer(3D占用擴散模型)生成靜態(tài)場景,并結(jié)合“Actor Bank”動態(tài)管理交通參與者(如車輛、行人),通過語義相似性或隨機采樣選擇參與者,實現(xiàn)城市場景的無限擴展。
該模塊采用OccDreamer,一個基于鳥瞰圖(BEV)和文本條件控制的3D占用擴散模型,用于生成靜態(tài)場景。它通過VQ-VAE將3D占用數(shù)據(jù)壓縮為潛在表示,并結(jié)合ControlNet分支注入BEV地圖和文本提示,逐步生成城市級連續(xù)靜態(tài)場景。
視覺場景合成(VSS模塊):利用雙路徑條件編碼(全局幾何特征與局部語義圖)和視頻擴散模型(VideoDreamer),生成多視角時空一致的高保真視頻,并通過ID感知編碼綁定參與者外觀與位置,解決外觀漂移問題。
閉環(huán)反饋機制:通過Ego Agent(被測算法)與環(huán)境Agent(交通流引擎)的交互,實現(xiàn)“感知-決策-環(huán)境響應(yīng)”的動態(tài)閉環(huán)測試,驗證算法在復(fù)雜場景中的魯棒性。
在實驗與結(jié)果方面,DrivingSphere在視覺保真度評估中表現(xiàn)出色。
在nuScenes數(shù)據(jù)集上,DrivingSphere的OccDreamer模塊生成的場景FID顯著優(yōu)于SemCity,視頻生成結(jié)果在3D目標(biāo)檢測和BEV分割指標(biāo)上超越MagicDrive與DriveArena。
總的來看,DrivingSphere其核心貢獻在于將幾何建模與生成式技術(shù)結(jié)合,但論文也指出,需進一步優(yōu)化動態(tài)行為的復(fù)雜性(如極端場景覆蓋不足)和計算成本。
03.
DriveDreamer4D:基于世界模型的4D駕駛場景重建與軌跡生成
DriveDreamer4D的目標(biāo)是通過世界模型(World Model)增強4D駕駛場景重建的時空一致性與生成質(zhì)量,解決傳統(tǒng)傳感器仿真方法(如NeRF、3DGS)在復(fù)雜動作(如變道、加速)下的局限性。
比如,現(xiàn)有傳感器仿真技術(shù)(如NeRF、3D高斯散射)依賴與訓(xùn)練數(shù)據(jù)分布緊密匹配的條件,僅能渲染前向駕駛場景,難以處理復(fù)雜動作(如變道、急剎)導(dǎo)致的視角偏移或動態(tài)交互問題,常出現(xiàn)“鬼影”“拖影”等偽影。
亦或是開環(huán)仿真數(shù)據(jù)多樣性不足,閉環(huán)仿真則面臨視覺保真度低、動態(tài)交互不真實等挑戰(zhàn)。
那么世界模型通過預(yù)測未來狀態(tài)生成多樣化駕駛視頻,但其此前局限于二維輸出,缺乏時空連貫性,無法滿足4D場景重建需求。
DriveDreamer4D的核心架構(gòu)分為兩大部分:
新軌跡生成模塊(NTGM):支持文本描述或自定義設(shè)計生成軌跡(如變道、加減速),并通過仿真環(huán)境(如CARLA)進行碰撞檢測與安全性評估,生成控制信號以驅(qū)動視頻合成。
正則化訓(xùn)練策略(CDTS):引入感知一致性損失,優(yōu)化合成數(shù)據(jù)與真實數(shù)據(jù)的分布對齊,并通過誤差反饋迭代提升軌跡生成質(zhì)量。
實驗表明,DriveDreamer4D在時空一致性和視覺真實性上優(yōu)于PVG、S³Gaussian等基線模型。用戶調(diào)研中,其在常規(guī)場景(如單車道變道)的生成效果獲好評,但在跨車道等極端動作下仍存在重建失效問題。
該研究的應(yīng)用價值在于降低數(shù)據(jù)采集成本并增強算法魯棒性,但需進一步結(jié)合時序建模與多模態(tài)輸入(如高精地圖)以提升復(fù)雜場景的適應(yīng)性。
04.
ReconDreamer:動態(tài)駕駛場景在線修復(fù)與漸進式數(shù)據(jù)更新
ReconDreamer聚焦于解決動態(tài)場景重建中大幅動作導(dǎo)致的偽影問題(如遠(yuǎn)景(參數(shù)丨圖片)扭曲、車輛遮擋)。
針對這一類問題,ReconDreamer依然是利用世界模型的知識,通過在線修復(fù)(DriveRestore)和漸進數(shù)據(jù)更新策略( Progressive Data updat Strategy以下簡稱PDUS)兩大手段,解決復(fù)雜動作的渲染質(zhì)量問題。
在線修復(fù)技術(shù)(DriveRestorer):構(gòu)建退化幀與正常幀的修復(fù)數(shù)據(jù)集,通過擴散模型去噪策略修復(fù)偽影,并采用脫敏策略優(yōu)先處理問題嚴(yán)重區(qū)域(如天空與遠(yuǎn)景)。
漸進式數(shù)據(jù)更新策略(PDUS):分階段生成更大跨度的軌跡數(shù)據(jù)(如1.5米→3米→6米),逐步擴展模型對復(fù)雜動作的適應(yīng)能力,直至收斂。
ReconDreamer的創(chuàng)新點在于首次將世界模型與動態(tài)重建結(jié)合,實現(xiàn)了實時修復(fù)渲染缺陷,并通過漸進式訓(xùn)練策略解決了大動作渲染中的數(shù)據(jù)分布偏移問題。
這為自動駕駛閉環(huán)仿真提供了高保真?zhèn)鞲衅鲾?shù)據(jù)生成方案,支持復(fù)雜場景(如緊急變道和多車交互)的可靠測試。
當(dāng)然局限性也包括,比如在線修復(fù)機制增加了訓(xùn)練時間,且目前僅在Waymo數(shù)據(jù)集上進行了驗證,未來需要擴展至更多復(fù)雜環(huán)境(如雨天和夜間)。
定量分析結(jié)果顯示,ReconDreamer在NTA-IoU(車輛檢測框重合度)上相較于基線方法(如Street Gaussians和DriveDreamer4D)提升了24.87%,在NTL-IoU(車道線重合度)上提升了6.72%,同時FID(圖像質(zhì)量評估)降低了29.97%。用戶研究表明,96.88%的用戶認(rèn)為ReconDreamer在大動作渲染中優(yōu)于DriveDreamer4D。
定性分析結(jié)果顯示,ReconDreamer有效消除了遠(yuǎn)景模糊和天空噪點,保持了車輛位置和形狀的一致性,并確保車道線在大偏移下的平滑無斷裂。
此外,消融實驗結(jié)果表明,DriveRestorer的主干網(wǎng)絡(luò)基于DriveDreamer-2的掩碼版本效果最佳,而PDUS的步長設(shè)定為1.5米時性能最優(yōu),過大的步長會導(dǎo)致噪聲累積。