應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點新聞
企業(yè)注冊個人注冊登錄

為什么說“行為預(yù)測”是自動駕駛終極殺器

2019-08-22 09:29 汽車之心

導(dǎo)讀:在自動駕駛系統(tǒng)中,行為預(yù)測網(wǎng)絡(luò)負責再造人類大腦中整個預(yù)測流程。

特斯拉Model 3,特斯拉,自動駕駛

圖片來自“東方IC”

面對自動駕駛這個萬億級別的市場,誰都想成為領(lǐng)軍者。雖然整個行業(yè)都如打雞血一般,但誰也不敢肯定全自動駕駛到底什么時候才能實現(xiàn),也許明年就能成,也許十多年后才能落地。

不過,華爾街巨鱷們相信,一旦全自動駕駛普及,自動駕駛打車行業(yè)會大行其道,最終孕育出一個年營收破萬億的超級市場。

本文轉(zhuǎn)載微信公眾號汽車之心,原作者林芝芝;由億歐汽車編輯轉(zhuǎn)載,僅供行業(yè)人士參考。

行為預(yù)測到底重要在哪?

在行駛過程中,自動駕駛汽車恐怕要一直回答這個問題——「我周邊的車輛、行人與自行車在未來 5 秒內(nèi)會做什么?」

這個問題的學(xué)名叫「行為預(yù)測」。

行為預(yù)測到底重要在哪?

自動駕駛公司 Pronto CEO Anthony Levandowski 講述了自己的看法:他認為自動駕駛原型車在「預(yù)測」能力上的短板是阻礙其奔向 Level 4/5 的絆腳石。

在 Medium 上發(fā)布的一篇博文中,Levandowski 寫道:

「現(xiàn)在沒人能實現(xiàn) Level 4/5 是因為如今的軟件還不太行,它無法預(yù)測未來。在這方面,軟件跟人類直覺差遠了,而行為預(yù)測又恰恰是道路安全最重要的因素。」

在 TechCrunch 的采訪中,Levandowski 又重申了這一觀點:

「如果你想分析測試車每次『脫離』背后的故事,找到真正的原因,最終結(jié)果都是軟件故障。即使是較為成熟的公司也難以避免,因為在復(fù)雜環(huán)境下,車輛很容易出現(xiàn)誤解或溝通問題。眼下我們的問題不是能否找到更好的傳感器,而是如何解決預(yù)測這個大問題?!?/p>

另一位持有相同觀點的是 Chris Urmson。2013-2016 年他是 Waymo 的實際掌舵人,現(xiàn)在則是自動駕駛公司 Aurora 的 CEO。

在最近的一次采訪中,Urmson 告訴麻省理工助理教授 Lex Fridman:

「如果我有魔杖,會用魔力提升系統(tǒng)哪部分,好加速自動駕駛技術(shù)落地呢?當然是車輛的感知預(yù)測能力。也就是說,如果明天你能給我一個完美模型,告訴車輛剛才發(fā)生了什么,現(xiàn)在什么正在發(fā)生和未來五秒將發(fā)生什么,情況將大不相同。」

數(shù)據(jù)越多其準確度就越高?

Waymo 和特斯拉這樣的頭部公司正試圖用深度學(xué)習來解決行為預(yù)測問題,即用數(shù)據(jù)集訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)。

對深度神經(jīng)網(wǎng)絡(luò)來說,數(shù)據(jù)越多其準確度就越高,因此各家公司都開啟了瘋狂「投喂數(shù)據(jù)」模式。

特斯拉 AI 主管 Andrej Karpathy 就在今年 3 月的 Autonomy Day 上講述了特斯拉是如何玩轉(zhuǎn)深度學(xué)習的:

在類似目標探測的深度學(xué)習應(yīng)用中,許多公司都會遭遇瓶頸,因為他們需要花錢請人手動給圖片或視頻加標簽。

拿目標探測舉例,灌入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)可能是視頻中包含了行人的一幀畫面,而各家公司想要的輸出是自動打上「行人」這個標簽。

當然,訓(xùn)練神經(jīng)網(wǎng)絡(luò)也同樣是一個勞動密集型工作。

想通過訓(xùn)練得到這樣的效果,就得給神經(jīng)網(wǎng)絡(luò)持續(xù)輸入成千上萬張類似圖片,并且在畫面中標出哪些是行人,而這個打標簽的過程全靠人手工完成。

有了行為預(yù)測,再加上過去 5 秒對周邊車輛動向的輸入數(shù)據(jù),輸出端可能就會給出未來 5 秒對周邊環(huán)境變化的預(yù)測。

這 10 秒鐘的記錄會成為你手上的輸入-輸出對,是訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的上好「養(yǎng)料」。至于人工打標簽,則完全沒有必要。

采用行為預(yù)測這種方法后,你甚至不用上傳視頻,車輛能直接保存一段周邊環(huán)境的抽象記錄,而在自動駕駛系統(tǒng)看來,這段抽象記錄其實與人工打上的標簽并無二致。

在行為預(yù)測上,特斯拉的優(yōu)勢就在于那每天奔忙在路上的 50 多萬輛電動車——這樣車輛搭載 Autopilot 的第二代和第三代硬件。

也就是說,特斯拉用車上搭載的 8 顆攝像頭、前置雷達、神經(jīng)網(wǎng)絡(luò)計算機搞定了車輛行駛途中的數(shù)據(jù)記錄,這些數(shù)據(jù)還能通過 Wi-Fi 回傳給特斯拉。

想象一下,如果這 50 萬輛車回傳的都是抽象記錄而非原始視頻,特斯拉的行為預(yù)測訓(xùn)練數(shù)據(jù)庫得有多強?

當然,車輛獲得的數(shù)據(jù)也不會一股腦都塞給車隊,篩選是個必要的過程。

舉例來說,將行為預(yù)測神經(jīng)網(wǎng)絡(luò)犯的錯當訓(xùn)練數(shù)據(jù)就非常有意義,而這個糾錯的過程是個進步的捷徑,比投喂各種隨機數(shù)據(jù)有效多了。

簡而言之,數(shù)據(jù)在精不在量。

從「長尾理論」的角度來看,即使做出錯誤行為預(yù)測的幾率很低,比如每 100 萬英里一次,特斯拉的車隊每個月行駛 10 億英里也能拿到 1000 個「反面典型」。雖然這 1000 條數(shù)據(jù)量不大,但絕對價值連城。

算力的提升可助推神經(jīng)網(wǎng)絡(luò)的性能

雖然整個行業(yè)都如打雞血一般,但誰也不敢肯定全自動駕駛到底什么時候才能實現(xiàn),也許明年就能成,也許十多年后才能落地。

不過,華爾街巨鱷們相信,一旦全自動駕駛普及,自動駕駛打車行業(yè)會大行其道,最終孕育出一個年營收破萬億的超級市場。

如此巨大的誘惑之下,大家都打破頭要深耕深度學(xué)習、神經(jīng)網(wǎng)絡(luò)和行為預(yù)測。

ARK Invest 的金融模型預(yù)計,如果特斯拉如 Musk 所言,明年實現(xiàn)全自動駕駛,從長期來看特斯拉股價漲上 20 倍都沒問題。

即使一分進賬都沒有,通用旗下自動駕駛部門 Cruise 估值依然高達 190 億美元。

去年 8 月,摩根士丹利更是大膽給了 Waymo 1750 億美元的超高估值。

今年,投資銀行 Jefferies 則直接拋出 2500 億美元的新價碼,稱未來十年內(nèi) Waymo 就能站上這一臺階。最近更是有消息傳出,稱 Waymo 有意尋求外部投資者,其估值頂?shù)纳虾脦讉€ Cruise。

如果說行為預(yù)測真的是自動駕駛最難且最重要的問題,特斯拉在這方面還領(lǐng)先 Waymo、Cruise 等公司的話,那么特斯拉在自動駕駛出租車和自動駕駛卡車市場上必然前途不可限量,其股價也應(yīng)該大大超過 Waymo 或 Cruise(現(xiàn)在特斯拉市值僅 420 億美元)。

即使全自動駕駛永遠也實現(xiàn)不了,特斯拉在半自動駕駛市場也能玩的風生水起。

現(xiàn)在特斯拉已經(jīng)上線 Navigate on Autopilot 與增強版召喚等功能,如果加上未來新的半自動駕駛功能,足以讓特斯拉旗下電動車有自己獨特的辨識度。

如果其他公司無法搭建像特斯拉一樣的數(shù)據(jù)采集車隊,在深度學(xué)習上想與 Musk 競爭完全是癡人說夢,而深度學(xué)習的「深度」則決定了半自動駕駛技術(shù)先進與否。

一直以來,許多評論家都認為特斯拉只不過是一家電動車公司,只要競爭對手們肯用功,早晚能拿出更棒的產(chǎn)品。

事實上,Musk 眼光可沒這么短淺,自動駕駛才是特斯拉真正的「護城河」。

從公司文化看,市場上的特斯拉「殺手」其實都是硬件公司。

舉例來說,2012 年特斯拉就開始進行的 OTA 升級,這些汽車廠商們現(xiàn)在才開始追趕。從長遠來看,這也是特斯拉保持競爭力的一大動力來源。

據(jù) Elon Musk 介紹,當下特斯拉的神經(jīng)網(wǎng)絡(luò)與其他自動駕駛相關(guān)軟件其實只是占據(jù)特斯拉新型定制芯片 FSD 5%-10% 的算力。

鑒于算力可助推神經(jīng)網(wǎng)絡(luò)的性能,因此未來特斯拉還會繼續(xù)進行挖潛。

在去年第三季度財報電話會上,特斯拉 AI 主管 Andrej Karpathy 就表示,更強大的神經(jīng)網(wǎng)絡(luò)已經(jīng)在路上,F(xiàn)SD 是其堅強后盾。

最近,Musk 也在推特上指出,今年第四季度開始,搭載 FSD 的車型在功能性上會逐漸甩開其他車型。

在懂行的人看來,Musk 什么時候?qū)?FSD 的性能壓榨到極限,特斯拉就要迎來新階段。

鑒于 Karpathy 在公開場合頻頻釋放信號,想必特斯拉新的神經(jīng)網(wǎng)絡(luò)已經(jīng)秘密開發(fā)多時。

這顆「小核彈」不但體積更大,架構(gòu)上肯定也得到了優(yōu)化(比如升級了人工神經(jīng)元和連接方式)。

對特斯拉來說,性能上的幾何級提升是其對神經(jīng)網(wǎng)絡(luò)的最大期待。

如何將視覺、預(yù)測與模擬編織在一張網(wǎng)里?

如果計算視覺神經(jīng)網(wǎng)絡(luò)沒能探測到路上的一輛車,處在下游的行為預(yù)測神經(jīng)網(wǎng)絡(luò)也同樣會對這輛車「失明」。

同樣的,這個流程產(chǎn)生的抽象記錄質(zhì)量也會變差。所以無論是訓(xùn)練還是推理,計算視覺的提升就意味著行為預(yù)測的進步。

這樣的道理也適用于模仿學(xué)習,而特斯拉就在用這項技術(shù)進行路徑預(yù)測。

在模仿學(xué)習過程中,神經(jīng)網(wǎng)絡(luò)會「吸入」一些輸入數(shù)據(jù),它可能是原始視頻,但恐怕更像計算視覺神經(jīng)網(wǎng)絡(luò)生成的抽象記錄。

整個神經(jīng)網(wǎng)絡(luò)通路走下來,大家想在輸出端得到車輛下一步該采取什么行動的指示,隨后這些數(shù)據(jù)會被傳輸至控制軟件以決定到底該下什么命令(剎車、轉(zhuǎn)向還是加速)。

借助成千上萬特斯拉車主,特斯拉能采集到豐富的輸出數(shù)據(jù)。這些數(shù)據(jù)與抽象記錄相結(jié)合,就能生成訓(xùn)練所用的「輸入-輸出」。

在模仿學(xué)習中,這個「輸入-輸出」對其實就是「狀態(tài)-動作」,它包含了世界或周邊環(huán)境的狀態(tài),以及人類駕駛員的動作。

與行為預(yù)測類似,模仿學(xué)習的「輸入-輸出」對也無需人類對數(shù)據(jù)進行手動標記。

有了充足的「狀態(tài)-動作」對,神經(jīng)網(wǎng)絡(luò)就能從人類駕駛員那里學(xué)到狀態(tài)與動作間的聯(lián)系。再加上充分的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)就能自己找到發(fā)號施令的狀態(tài),從而學(xué)會駕駛。

如果在模仿學(xué)習中用到了抽象記錄,那么訓(xùn)練和推理中計算視覺錯誤的減少,也意味著模仿學(xué)習錯誤的減少。

此外,提升行為預(yù)測能力也能促進模仿學(xué)習。

也就是說,模仿學(xué)習用到的輸入數(shù)據(jù)并不一定非要來自計算視覺網(wǎng)絡(luò),行為預(yù)測網(wǎng)絡(luò)也能貢獻額外的輸入數(shù)據(jù)。

ChauffeurNet 組成部分:FeatureNet 和 AgentRNN


ChauffeurNet 組成部分:FeatureNet 和 AgentRNN

(ChauffeurNet 組成部分:FeatureNet 和 AgentRNN)

Waymo 的模仿學(xué)習網(wǎng)絡(luò) ChauffeurNet 就遵循了這樣的邏輯。

它將視覺、預(yù)測與模擬編織在一張網(wǎng)里之后,模仿學(xué)習就能有兩個參考目標,學(xué)習起人類司機的動作就更高效了。

想要搞清環(huán)境狀態(tài)與駕駛員動作之間的關(guān)聯(lián),模仿網(wǎng)絡(luò)就得被置于與人類司機相同的環(huán)境下,并且獲取相同的信息。

眾所周知,人類開車不只靠視覺,我們還有很強的預(yù)測能力。

在自動駕駛系統(tǒng)中:

計算視覺網(wǎng)絡(luò)負責重建人類眼睛看到的車輛外部環(huán)境;

行為預(yù)測網(wǎng)絡(luò)則需要再造人類大腦中的整個預(yù)測流程。

兩大網(wǎng)絡(luò)的目的都是拿出正確的駕駛策略。

未來,自動駕駛汽車可能會直接從像素中獲取相關(guān)信息,但眼下機器學(xué)習工程師還是傾向于將任務(wù)分配給視覺、預(yù)測和模仿。

因此,預(yù)測能力(作為輸入)的提升也意味著模仿能力的提升,而視覺能力(作為輸入)的進步則能讓預(yù)測和模仿共同受益。

行為預(yù)測才是自動駕駛的終極殺器

在討論數(shù)據(jù)采集時,許多人并不看好特斯拉的「超級車隊」,因為他們認為特斯拉付不起人工打標簽的錢。

可惜,特斯拉根本就沒玩監(jiān)督學(xué)習那一套,行為預(yù)測才是終極殺器。

除此之外,特斯拉還用上了模仿學(xué)習,而它不用人工打標簽。

其實,即使選擇用傳統(tǒng)的監(jiān)督學(xué)習研究計算視覺,特斯拉的車隊也能帶來各種價值連城的數(shù)據(jù)(包括各種極端情況)。

舉例來說,用來識別馬匹的深度學(xué)習網(wǎng)絡(luò)也可以在車上運行,一旦它覺得馬出現(xiàn)了,就能啟動相機快速拍一張。顯然,這種方法能用在識別相對稀有的物體上。

眼下,業(yè)界正在攻克計算視覺的自監(jiān)督學(xué)習技術(shù),有了它,訓(xùn)練信號就可以完全取自數(shù)據(jù)本身,無需人工標簽。

據(jù)汽車之心了解,在深度感知領(lǐng)域,特斯拉已經(jīng)開始試驗自監(jiān)督學(xué)習。

上述討論可能有些晦澀難懂,不過特斯拉未來到底價值幾何其實靠的就是這些技術(shù)。

面對自動駕駛這個萬億級別的市場,誰都想成為領(lǐng)軍者。而這,意味著數(shù)千億美元的估值。