極越賈秀江:每周花兩、三千萬(wàn),訓(xùn)練純視覺(jué)方案

極越賈秀江-圖1

在2024北京國(guó)際車(chē)展上,極越宣布將與NVIDIA協(xié)作打造下一代智能汽車(chē),從2026年開(kāi)始,極越量產(chǎn)的車(chē)型將搭載NVIDIA的新一代集中式車(chē)載計(jì)算平臺(tái)NVIDIA DRIVE™ Thor。車(chē)展期間,極越整車(chē)產(chǎn)品負(fù)責(zé)人賈秀江做客網(wǎng)上車(chē)市&智電出行&騰訊汽車(chē)聯(lián)合專訪間。

對(duì)于極越采用的純視覺(jué)方案,賈秀江表示:我們現(xiàn)在基本上每周迭代一次、訓(xùn)練一次2000萬(wàn)元-3000萬(wàn)元,這個(gè)由我們承擔(dān),老百姓得實(shí)惠了。

 

以下是采訪實(shí)錄:

網(wǎng)上車(chē)市&智電出行:極越把自己的產(chǎn)品定義為智能汽車(chē)機(jī)器人,這個(gè)很好玩,你不把它定義成一臺(tái)車(chē)了,它只是一臺(tái)車(chē)形狀的機(jī)器人,您怎么看這件事情?

賈秀江:前一段時(shí)間很多人問(wèn)我,你們這是不是一個(gè)噱頭,是不是想做一個(gè)宣傳。在此,我要聲明,絕不是噱頭。我們初心就是想做一個(gè)類(lèi)似機(jī)器人的高度智能化產(chǎn)品,比如純視覺(jué)方案。其實(shí)純視覺(jué)也好,語(yǔ)音交互也好,背后的所有基礎(chǔ)和核心都是AI的能力。AI的能力里面最核心的又是對(duì)圖像的識(shí)別、感知和理解,對(duì)于語(yǔ)音的感知、識(shí)別和理解,這些如果相通了以后,做一個(gè)車(chē)也好,或者是做一個(gè)兩足機(jī)器人也好,人形機(jī)器人也好,其實(shí)是類(lèi)似的。

我們內(nèi)部有一句話說(shuō),我們是一家以AI驅(qū)動(dòng)的科技公司,汽車(chē)是我們的產(chǎn)品之一,這是我們的初心,也是宏大的夢(mèng)想。本質(zhì)上,車(chē)高度智能化以后必然會(huì)越來(lái)越像一個(gè)機(jī)器人。

極越賈秀江-圖2

網(wǎng)上車(chē)市&智電出行:現(xiàn)在主流的智駕方案都是配備兩、三個(gè)激光雷達(dá),成本很高,很多消費(fèi)者對(duì)于純視覺(jué)一直抱有一個(gè)存疑的態(tài)度。比如說(shuō)特殊天氣,大霧、大雪,或者是高光比等等,極越在這方面會(huì)有什么特別的優(yōu)勢(shì)嗎?

賈秀江:純視覺(jué)方案目前在市場(chǎng)上是少數(shù)派,但是從長(zhǎng)遠(yuǎn)來(lái)看我們認(rèn)為這是一個(gè)最好的方案,我把這個(gè)總結(jié)為“兩大、一高、得實(shí)惠”。

什么叫“兩大”?第一信息量大。比如說(shuō)我們隨便拿一個(gè)攝像頭來(lái)比,前面有800萬(wàn)的高清攝像頭,首先這些攝像頭跟人眼比,它的像素非常高,跟激光雷達(dá)比,它的信息量如果按照現(xiàn)在常規(guī)的128線的激光雷達(dá)比,它能獲取的信息量是相差了160倍,它更多。因?yàn)?28個(gè)點(diǎn)在掃描,它的信息量跟800萬(wàn)的沒(méi)法比,這是第一點(diǎn)。

另外,我們車(chē)的周?chē)b了11個(gè)攝像頭,一般的激光雷達(dá)是沒(méi)法比的,密度也很高。信息量大了以后有很多好處,比如說(shuō)不僅可以獲得障礙物的邊界信息,還能知道障礙物的紋理和障礙物的顏色。舉個(gè)例子,現(xiàn)在我們的1.4版本就可以純視覺(jué)方案區(qū)分出來(lái)這個(gè)障礙物是植物還是建筑物。到我們的車(chē)上可以看到SR的顯示量非常大,有幾個(gè)場(chǎng)景。

比如說(shuō)現(xiàn)在要倒車(chē),周?chē)绻且恍?shù)枝、樹(shù)葉,車(chē)輛就會(huì)說(shuō)這些東西稍微擦碰一下沒(méi)有關(guān)系,你可以慢慢靠近。如果你說(shuō)邊界是建筑肯定不能靠近,激光雷達(dá)就做不到。

網(wǎng)上車(chē)市&智電出行:對(duì)它來(lái)說(shuō)都是物體。

賈秀江:對(duì),都不能碰。植物其實(shí)可以碰,還有我舉個(gè)例子,北京有很多柳樹(shù),柳樹(shù)不是掛下來(lái)嗎?如果是激光雷達(dá),很可能就誤判這個(gè)東西是一個(gè)墻,我們就可以判斷這是植物,有幾個(gè)好處,我們可以慢慢開(kāi)過(guò)去。目前是剛剛開(kāi)始,激光雷達(dá)只能夠判斷出來(lái)物體的狀態(tài),我舉個(gè)例子,一個(gè)行人拎著一個(gè)行李箱在路上走,激光雷達(dá)掃描的是當(dāng)時(shí)一刻,你很難感知到這個(gè)行李箱和這個(gè)人是什么樣的位置,是什么樣的從屬關(guān)系。圖像識(shí)別就可以,我們的BEV和transformer和OCC結(jié)合有一個(gè)記憶的功能。它就知道這個(gè)箱子會(huì)隨著人走,如果激光雷達(dá)只知道這兩個(gè)之間的相對(duì)位置關(guān)系,但是不知道會(huì)不會(huì)同時(shí)運(yùn)動(dòng),你有了這個(gè)信息之后就可以提前預(yù)判說(shuō)接下來(lái)箱子和人會(huì)到什么階段?諸如此類(lèi),信息量大就特別好。因?yàn)槟憔涂吹酶宄?/p>

極越賈秀江-圖3

網(wǎng)上車(chē)市&智電出行:這個(gè)對(duì)算法不是很高的考驗(yàn)嗎?

賈秀江:說(shuō)得非常好,第二個(gè)大就是算力非常大。首先我們車(chē)內(nèi)的算力值是508TOPS,因?yàn)樾畔⒘看螅瑢?duì)于云端訓(xùn)練的要求就特別高。我們目前正式對(duì)外公布,當(dāng)然還要依靠百度集團(tuán)的支持,百度云計(jì)算平臺(tái)給我們目前是2.2EFLOPS,相當(dāng)于220億億次浮點(diǎn)運(yùn)算。這個(gè)有點(diǎn)難理解,我們?nèi)绻米钚碌奶O(píng)果手機(jī)算力來(lái)看,大概是15萬(wàn)臺(tái)手機(jī)的算力同時(shí)運(yùn)算才能夠訓(xùn)練一次。

同時(shí)依靠百度集團(tuán)對(duì)我們的算力支持上不封頂。最近也有幾個(gè)友商宣布了多少算力,我們可以看一下目前我們剛起步的算力就是很多人的天花板。所以第一個(gè)是我們信息量大,第二是算力要大。還有“一高”就是精度高,很多人可能就會(huì)以為說(shuō)你的純視覺(jué),如果遇到下雨天各種各樣的天氣、精度是什么樣的,我先講一下,現(xiàn)在純視覺(jué)精度能做到什么程度?

對(duì)于障礙物大小識(shí)別可以精確到厘米級(jí),像礦泉水這樣基本上就可以識(shí)別了。

網(wǎng)上車(chē)市&智電出行:怎么預(yù)判距離的識(shí)別?

賈秀江:我們有雙目攝像頭。

網(wǎng)上車(chē)市&智電出行:交叉?

賈秀江:對(duì)。交叉結(jié)合整個(gè)運(yùn)動(dòng)的軌跡,還有一個(gè)是運(yùn)動(dòng)速度的精度,剛才說(shuō)是物體大小的精度。物體運(yùn)動(dòng)速度精度可以達(dá)到分米級(jí)每秒,這個(gè)就特別有用。我舉個(gè)例子,像匯入路口的正常行駛,別人要插進(jìn)來(lái),這個(gè)時(shí)候它速度是不快的。你要能夠非常清楚判斷它動(dòng)了還是沒(méi)動(dòng),如果判斷錯(cuò)了就撞上了。所以這兩個(gè)精度一個(gè)是厘米級(jí)障礙物大小的分辨精度,一個(gè)是分米級(jí)每秒的運(yùn)動(dòng)速度精度。這3個(gè)是我們所謂的純視覺(jué)技術(shù)上的優(yōu)勢(shì)。

還有一個(gè)說(shuō)老百姓得實(shí)惠。第一,硬件拿掉了,一些友商用了3個(gè)激光雷達(dá),這都省掉了。第二,激光雷達(dá)是有運(yùn)動(dòng)部件的,保養(yǎng)、壽命各方面。

網(wǎng)上車(chē)市&智電出行:顛簸對(duì)它都是損傷。

賈秀江:還有轉(zhuǎn)動(dòng),這些東西老百姓得實(shí)惠了。但是我們付出了很高研發(fā)的代價(jià)。我們現(xiàn)在基本上每周迭代一次、訓(xùn)練一次2000萬(wàn)元-3000萬(wàn)元,這個(gè)就是我們承擔(dān)了。

我們?yōu)槭裁催@么做?本質(zhì)上是希望能夠讓這個(gè)方案盡快普及,讓老百姓們盡快用得到。因?yàn)榧円曈X(jué)方案還有一個(gè)巨大的好處,除了前面那些以外,隱藏的好處就是它的信息源只有圖像和視頻,這樣用大模型訓(xùn)練的時(shí)候迭代速度就快了。如果我用激光雷達(dá)的數(shù)據(jù)過(guò)來(lái),就是兩個(gè)模型同時(shí)訓(xùn)練,算力有限的情況下速度就慢了。

極越賈秀江-圖4

網(wǎng)上車(chē)市&智電出行:優(yōu)先級(jí)問(wèn)題等等,好多數(shù)據(jù)。

賈秀江:對(duì)。所以從這些考慮你可以看到,我們純視覺(jué)方案切換也只有一年多。我們?cè)谏鲜星按蟀肽甓加屑す饫走_(dá),在上市前我們就下定決心拿掉了。但是你看我們這個(gè)體驗(yàn),每個(gè)月的版本都提升得非常明顯,根本原因就是剛才說(shuō)的幾點(diǎn),信息量大,算力大了以后迭代速度快。精度又比較高,老百姓得實(shí)惠了。

網(wǎng)上車(chē)市&智電出行:我們累計(jì)的優(yōu)勢(shì)會(huì)越來(lái)越大,呈指數(shù)級(jí)。別人還在激光雷達(dá)限制范圍內(nèi)的時(shí)候我們已經(jīng)跳脫出了一個(gè)新的賽道。

賈秀江:我們經(jīng)常拿激光雷達(dá)做一個(gè)比喻,激光雷達(dá)像一個(gè)拐杖,你剛剛開(kāi)始蹣跚學(xué)步的時(shí)候,它比較快,走得比較快。但是你要跑起來(lái),這個(gè)拐杖就礙事了。

網(wǎng)上車(chē)市&智電出行:治標(biāo)不治本。

賈秀江:對(duì)。所以我們雖然起步初速度慢了一點(diǎn),但是加速度很快。不久前有一個(gè)智駕的比賽,在北京我們又拿第一了,隨著全國(guó)都能開(kāi),這個(gè)事件就能夠快速落地,我們?cè)谶@個(gè)行業(yè)會(huì)有一席地位。

網(wǎng)上車(chē)市&智電出行:再跟我們說(shuō)說(shuō)剛亮相的極越07。這個(gè)車(chē)有哪些亮點(diǎn)?

賈秀江:我把07歸納為3個(gè)關(guān)鍵詞,第一是最美,二是智能,三是掀背,最美就比較好理解了。我們?yōu)榱撕每醋隽撕芏嗟募?xì)節(jié),這些好看不僅是設(shè)計(jì)的,其實(shí)背后是強(qiáng)大的智能化能力的支持,比如說(shuō)我們的攝像頭,我們的激光雷達(dá),原來(lái)最初都是有激光雷達(dá)的。激光雷達(dá)拿掉,激光雷達(dá)有時(shí)候會(huì)長(zhǎng)犄角,攝像頭有時(shí)候會(huì)長(zhǎng)犄角,有些廠商就會(huì)長(zhǎng)犄角,我們就把它藏起來(lái)了,藏起來(lái)非常難,又好看,風(fēng)阻又小。

我再舉個(gè)例子,極越全系列都有車(chē)外語(yǔ)音交互功能,但是其實(shí)很少人發(fā)現(xiàn)得了收音部件在哪里。

我們車(chē)外有4對(duì),8個(gè)麥克風(fēng)都藏起來(lái)了,這些東西為了好看真的很難設(shè)計(jì)。還有我們要做環(huán)視的攝像頭,你是看不到攝像頭在哪的。它的很多圖像轉(zhuǎn)換跟處理真的是智能化到了一定階段才能做得到。兩個(gè)細(xì)節(jié),比如說(shuō)攝像頭,有些廠家圖象處理能力不行,攝像頭就必須安裝在一定固定的位置,變成像雞眼,就不好看了。功能是好用,但就是不好看,這個(gè)就很難。還有一個(gè)超聲波雷達(dá),一般是前6后6,超聲波雷達(dá)最好的角度是跟車(chē)輛平行的,垂直地面的。但是它跟車(chē)的周?chē)灰欢敲创?,所以很多時(shí)候你會(huì)看到很多廠商的超聲波雷達(dá)摸上去都是凸出來(lái)的,極越是純平的。這就會(huì)導(dǎo)致這個(gè)面是斜的,在斜的情況下要能夠明確感知周?chē)木嚯x,這個(gè)很難。

我們?yōu)榱撕每?,左輪圈跟右輪圈都是?duì)稱的,比如說(shuō)這邊是車(chē)頭,轉(zhuǎn)的時(shí)候有一個(gè)風(fēng)火輪的造型,這樣一直都是順時(shí)針。如果轉(zhuǎn)到那邊雖然也是順時(shí)針,但是就不好看。車(chē)輪在這邊是這么轉(zhuǎn),到那邊應(yīng)該是那么轉(zhuǎn)的。所以為了好看,我們的輪圈都是對(duì)稱的,重新做了一套,真的是為了好看下了很大功夫。

這些東西,包括門(mén)上的毫米波雷達(dá),我們也可以用超聲波,超聲波十幾塊、二十塊,毫米波三、四百,我們有4個(gè)。好看付出了很大的代價(jià)。智駕和語(yǔ)音,我就不贅述了。我特別講一點(diǎn)它的掀背,當(dāng)時(shí)我們做這個(gè)功能爭(zhēng)議非常大,因?yàn)橄票澈茈y做,在大空間的基礎(chǔ)上,整個(gè)車(chē)身還要滿足它的碰撞。碰撞還有一些結(jié)構(gòu)性要加強(qiáng),必然要帶來(lái)很多成本和代價(jià),工程上要重新做。但是我們想到開(kāi)這個(gè)車(chē)的年輕人,喜歡去露營(yíng),如果后備箱打開(kāi)二排座椅不能放倒,像普通三廂轎車(chē)一樣,沒(méi)法在里面休息,后來(lái)我們決心還是做了,而且這個(gè)溜背特別好看,這是我們的一大賣(mài)點(diǎn)。這個(gè)市場(chǎng)上別人就沒(méi)有掀背的,類(lèi)似的真的沒(méi)有。

大部分做的像特斯拉,還有一些友商,大部分都是傳統(tǒng)三廂轎車(chē),實(shí)用性就不如掀背。

主要是這3點(diǎn)。

網(wǎng)上車(chē)市&智電出行:極越這個(gè)車(chē)玩的屬性比較重,重度科技玩家比較嘗鮮的一款產(chǎn)品。

賈秀江:我們的想法是這樣的,新時(shí)代車(chē)內(nèi)的沙發(fā)、彩電大家都做過(guò)了,我們覺(jué)得能夠有創(chuàng)新的,主要集中在幾個(gè)地方。第一是智駕,第二是語(yǔ)音交互,在這個(gè)情況下如果自動(dòng)駕駛能力很強(qiáng),人們必然對(duì)娛樂(lè)和其他跟非駕駛相關(guān)的東西感興趣。比如說(shuō)我車(chē)開(kāi)著,想看看片,多聽(tīng)聽(tīng)音樂(lè),哪怕休息的時(shí)候玩?zhèn)€小游戲。

我舉個(gè)場(chǎng)景,假如說(shuō)帶個(gè)妹子看日出,我在山里露營(yíng),開(kāi)個(gè)篝火,首先露營(yíng)你這個(gè)車(chē)得有露營(yíng)模式,你得是掀背,得躺得下,車(chē)外還有一個(gè)揚(yáng)聲器可以放音樂(lè)。三、五好友圍著篝火,夜晚看星星,看月亮,車(chē)外可以跟語(yǔ)音說(shuō),SIMO,幫我們換一首周杰倫的歌,它就幫你做了。這個(gè)場(chǎng)面想想就特別的吸引人。

網(wǎng)友還看了
凱美瑞 凱美瑞 17.18萬(wàn)起 獲取底價(jià)
捷豹XEL 捷豹XEL 29.98萬(wàn)起 獲取底價(jià)
雅閣 雅閣 17.98萬(wàn)起 獲取底價(jià)
Model 3 Model 3 23.19萬(wàn)起 獲取底價(jià)

最熱評(píng)論

全部評(píng)論

意見(jiàn)
反饋