理想全量推車位到車位的不等于高速像城區(qū)NoA一樣架構(gòu)也切換成端到端,端到端架構(gòu)下的高速NoA優(yōu)勢在于,克服上一代架構(gòu)的斷點(diǎn)問題,但高速場景又需要更多的仿真測試驗(yàn)證,所以會在更成熟的時候再切端到端。
高速版NoA和城市NoA統(tǒng)一在端到端架構(gòu)下訓(xùn)練,會造成城市NoA表現(xiàn)的回退(某種程度上高速駕駛數(shù)據(jù)是對城區(qū)駕駛數(shù)據(jù)的污染),但理想在近幾個月“基本解決了問題(但無法透露具體細(xì)節(jié))”,目前在訓(xùn)練模型進(jìn)一步穩(wěn)定。
理想目前全量推給用戶版本,端到端網(wǎng)絡(luò)是用500萬Clips(視頻片段)訓(xùn)練的,內(nèi)部測試的版本使用6-700萬Clips,年底預(yù)計用1000萬Clips,用多少Clips的主要限制是云端算力儲備。
理想的智駕方案是端到端+VLM,兩者的工作邏輯是VLM一直提供信息給端到端決策做參考,但有時候VLM信息被使用的權(quán)重很低,有時候權(quán)重很高(比如在學(xué)校、高架、施工之類)。何時、何種場景高權(quán)重地使用VLM的信息,是由人類工程師來定義的,但按產(chǎn)品經(jīng)理的說法,不是用手動規(guī)則而是通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)。
高速ETC這個場景理想是靠VLM的能力去解決的,VLM這個更大的模型去識別前面是不是收費(fèi)站,哪條道是ETC,哪個道能走,以及有沒有臨時管制。
相比于端到端在訓(xùn)練時用大量數(shù)據(jù),VLM對數(shù)據(jù)使用效率更高。比如端到端解決一個場景可能需要用幾萬到幾十萬Clips訓(xùn)練,VLM可能只要幾千就夠了。另外端到端網(wǎng)絡(luò)目前運(yùn)行速率10hz,VLM慢一些,但最近從3-4hz優(yōu)化到了5-6hz。
數(shù)據(jù)很重要,所以車的保有量很重要,對數(shù)據(jù)進(jìn)行自動化的收集、標(biāo)注也很重要,理想目前數(shù)據(jù)標(biāo)注自動化率在95-97%之間,剩下的主要是人工復(fù)檢。并且端到端和VLM的自動化標(biāo)注不太一樣,提取VLM相關(guān)的Clips的時機(jī)通常會早一點(diǎn),因?yàn)閂LM幀率低,要多看一會兒。
理想對萬人團(tuán)的數(shù)據(jù)回傳很倚重(基本都是智駕重度用戶),針對他們定制了一套對舒適維度更嚴(yán)格的數(shù)據(jù)回傳觸發(fā)標(biāo)準(zhǔn),每個萬人團(tuán)用戶大概每2-3分鐘就會觸發(fā)一次帶原始數(shù)據(jù)的Clips上傳,每個Clips時長15秒,數(shù)據(jù)量一般在幾百兆大小,流量成本不到一塊錢,但因?yàn)榭偭看?,?shù)據(jù)上傳的流量成本非常高。

