行為預測到底重要在哪?
在行駛過程中,自動駕駛汽車恐怕要一直回答這個問題——「我周邊的車輛、行人與自行車在未來 5 秒內會做什么?」
這個問題的學名叫「行為預測」。
行為預測到底重要在哪?
自動駕駛公司 Pronto CEO Anthony Levandowski 講述了自己的看法:他認為自動駕駛原型車在「預測」能力上的短板是阻礙其奔向 Level 4/5 的絆腳石。
在 Medium 上發布的一篇博文中,Levandowski 寫道:
「現在沒人能實現 Level 4/5 是因為如今的軟件還不太行,它無法預測未來。在這方面,軟件跟人類直覺差遠了,而行為預測又恰恰是道路安全最重要的因素。」
在 TechCrunch 的采訪中,Levandowski 又重申了這一觀點:
「如果你想分析測試車每次『脫離』背后的故事,找到真正的原因,最終結果都是軟件故障。即使是較為成熟的公司也難以避免,因為在復雜環境下,車輛很容易出現誤解或溝通問題。眼下我們的問題不是能否找到更好的傳感器,而是如何解決預測這個大問題。」
另一位持有相同觀點的是 Chris Urmson。2013-2016 年他是 Waymo 的實際掌舵人,現在則是自動駕駛公司 Aurora 的 CEO。
在最近的一次采訪中,Urmson 告訴麻省理工助理教授 Lex Fridman:
「如果我有魔杖,會用魔力提升系統哪部分,好加速自動駕駛技術落地呢?當然是車輛的感知預測能力。也就是說,如果明天你能給我一個完美模型,告訴車輛剛才發生了什么,現在什么正在發生和未來五秒將發生什么,情況將大不相同。」
數據越多其準確度就越高?
Waymo 和特斯拉這樣的頭部公司正試圖用深度學習來解決行為預測問題,即用數據集訓練深度神經網絡。
對深度神經網絡來說,數據越多其準確度就越高,因此各家公司都開啟了瘋狂「投喂數據」模式。
特斯拉 AI 主管 Andrej Karpathy 就在今年 3 月的 Autonomy Day 上講述了特斯拉是如何玩轉深度學習的:
在類似目標探測的深度學習應用中,許多公司都會遭遇瓶頸,因為他們需要花錢請人手動給圖片或視頻加標簽。
拿目標探測舉例,灌入神經網絡的數據可能是視頻中包含了行人的一幀畫面,而各家公司想要的輸出是自動打上「行人」這個標簽。
當然,訓練神經網絡也同樣是一個勞動密集型工作。
想通過訓練得到這樣的效果,就得給神經網絡持續輸入成千上萬張類似圖片,并且在畫面中標出哪些是行人,而這個打標簽的過程全靠人手工完成。
有了行為預測,再加上過去 5 秒對周邊車輛動向的輸入數據,輸出端可能就會給出未來 5 秒對周邊環境變化的預測。
這 10 秒鐘的記錄會成為你手上的輸入-輸出對,是訓練深度神經網絡的上好「養料」。至于人工打標簽,則完全沒有必要。
采用行為預測這種方法后,你甚至不用上傳視頻,車輛能直接保存一段周邊環境的抽象記錄,而在自動駕駛系統看來,這段抽象記錄其實與人工打上的標簽并無二致。
在行為預測上,特斯拉的優勢就在于那每天奔忙在路上的 50 多萬輛電動車——這樣車輛搭載 Autopilot 的第二代和第三代硬件。
也就是說,特斯拉用車上搭載的 8 顆攝像頭、前置雷達、神經網絡計算機搞定了車輛行駛途中的數據記錄,這些數據還能通過 Wi-Fi 回傳給特斯拉。
想象一下,如果這 50 萬輛車回傳的都是抽象記錄而非原始視頻,特斯拉的行為預測訓練數據庫得有多強?
當然,車輛獲得的數據也不會一股腦都塞給車隊,篩選是個必要的過程。
舉例來說,將行為預測神經網絡犯的錯當訓練數據就非常有意義,而這個糾錯的過程是個進步的捷徑,比投喂各種隨機數據有效多了。
簡而言之,數據在精不在量。
從「長尾理論」的角度來看,即使做出錯誤行為預測的幾率很低,比如每 100 萬英里一次,特斯拉的車隊每個月行駛 10 億英里也能拿到 1000 個「反面典型」。雖然這 1000 條數據量不大,但絕對價值連城。
算力的提升可助推神經網絡的性能
雖然整個行業都如打雞血一般,但誰也不敢肯定全自動駕駛到底什么時候才能實現,也許明年就能成,也許十多年后才能落地。
不過,華爾街巨鱷們相信,一旦全自動駕駛普及,自動駕駛打車行業會大行其道,最終孕育出一個年營收破萬億的超級市場。
如此巨大的誘惑之下,大家都打破頭要深耕深度學習、神經網絡和行為預測。

ARK Invest 的金融模型預計,如果特斯拉如 Musk 所言,明年實現全自動駕駛,從長期來看特斯拉股價漲上 20 倍都沒問題。
即使一分進賬都沒有,通用旗下自動駕駛部門 Cruise 估值依然高達 190 億美元。
去年 8 月,摩根士丹利更是大膽給了 Waymo 1750 億美元的超高估值。
今年,投資銀行 Jefferies 則直接拋出 2500 億美元的新價碼,稱未來十年內 Waymo 就能站上這一臺階。最近更是有消息傳出,稱 Waymo 有意尋求外部投資者,其估值頂的上好幾個 Cruise。
如果說行為預測真的是自動駕駛最難且最重要的問題,特斯拉在這方面還領先 Waymo、Cruise 等公司的話,那么特斯拉在自動駕駛出租車和自動駕駛卡車市場上必然前途不可限量,其股價也應該大大超過 Waymo 或 Cruise(現在特斯拉市值僅 420 億美元)。
即使全自動駕駛永遠也實現不了,特斯拉在半自動駕駛市場也能玩的風生水起。
現在特斯拉已經上線 Navigate on Autopilot 與增強版召喚等功能,如果加上未來新的半自動駕駛功能,足以讓特斯拉旗下電動車有自己獨特的辨識度。
如果其他公司無法搭建像特斯拉一樣的數據采集車隊,在深度學習上想與 Musk 競爭完全是癡人說夢,而深度學習的「深度」則決定了半自動駕駛技術先進與否。
一直以來,許多評論家都認為特斯拉只不過是一家電動車公司,只要競爭對手們肯用功,早晚能拿出更棒的產品。
事實上,Musk 眼光可沒這么短淺,自動駕駛才是特斯拉真正的「護城河」。
從公司文化看,市場上的特斯拉「殺手」其實都是硬件公司。
舉例來說,2012 年特斯拉就開始進行的 OTA 升級,這些汽車廠商們現在才開始追趕。從長遠來看,這也是特斯拉保持競爭力的一大動力來源。
據 Elon Musk 介紹,當下特斯拉的神經網絡與其他自動駕駛相關軟件其實只是占據特斯拉新型定制芯片 FSD 5%-10% 的算力。
鑒于算力可助推神經網絡的性能,因此未來特斯拉還會繼續進行挖潛。
在去年第三季度財報電話會上,特斯拉 AI 主管 Andrej Karpathy 就表示,更強大的神經網絡已經在路上,FSD 是其堅強后盾。
最近,Musk 也在推特上指出,今年第四季度開始,搭載 FSD 的車型在功能性上會逐漸甩開其他車型。
在懂行的人看來,Musk 什么時候將 FSD 的性能壓榨到極限,特斯拉就要迎來新階段。
鑒于 Karpathy 在公開場合頻頻釋放信號,想必特斯拉新的神經網絡已經秘密開發多時。
這顆「小核彈」不但體積更大,架構上肯定也得到了優化(比如升級了人工神經元和連接方式)。
對特斯拉來說,性能上的幾何級提升是其對神經網絡的最大期待。
如何將視覺、預測與模擬編織在一張網里?
如果計算視覺神經網絡沒能探測到路上的一輛車,處在下游的行為預測神經網絡也同樣會對這輛車「失明」。
同樣的,這個流程產生的抽象記錄質量也會變差。所以無論是訓練還是推理,計算視覺的提升就意味著行為預測的進步。
這樣的道理也適用于模仿學習,而特斯拉就在用這項技術進行路徑預測。
在模仿學習過程中,神經網絡會「吸入」一些輸入數據,它可能是原始視頻,但恐怕更像計算視覺神經網絡生成的抽象記錄。
整個神經網絡通路走下來,大家想在輸出端得到車輛下一步該采取什么行動的指示,隨后這些數據會被傳輸至控制軟件以決定到底該下什么命令(剎車、轉向還是加速)。
借助成千上萬特斯拉車主,特斯拉能采集到豐富的輸出數據。這些數據與抽象記錄相結合,就能生成訓練所用的「輸入-輸出」。
在模仿學習中,這個「輸入-輸出」對其實就是「狀態-動作」,它包含了世界或周邊環境的狀態,以及人類駕駛員的動作。
與行為預測類似,模仿學習的「輸入-輸出」對也無需人類對數據進行手動標記。
有了充足的「狀態-動作」對,神經網絡就能從人類駕駛員那里學到狀態與動作間的聯系。再加上充分的訓練,神經網絡就能自己找到發號施令的狀態,從而學會駕駛。
如果在模仿學習中用到了抽象記錄,那么訓練和推理中計算視覺錯誤的減少,也意味著模仿學習錯誤的減少。
此外,提升行為預測能力也能促進模仿學習。
也就是說,模仿學習用到的輸入數據并不一定非要來自計算視覺網絡,行為預測網絡也能貢獻額外的輸入數據。

ChauffeurNet 組成部分:FeatureNet 和 AgentRNN
Waymo 的模仿學習網絡 ChauffeurNet 就遵循了這樣的邏輯。
它將視覺、預測與模擬編織在一張網里之后,模仿學習就能有兩個參考目標,學習起人類司機的動作就更高效了。
想要搞清環境狀態與駕駛員動作之間的關聯,模仿網絡就得被置于與人類司機相同的環境下,并且獲取相同的信息。
眾所周知,人類開車不只靠視覺,我們還有很強的預測能力。
在自動駕駛系統中:
計算視覺網絡負責重建人類眼睛看到的車輛外部環境;
行為預測網絡則需要再造人類大腦中的整個預測流程。
兩大網絡的目的都是拿出正確的駕駛策略。
未來,自動駕駛汽車可能會直接從像素中獲取相關信息,但眼下機器學習工程師還是傾向于將任務分配給視覺、預測和模仿。
因此,預測能力(作為輸入)的提升也意味著模仿能力的提升,而視覺能力(作為輸入)的進步則能讓預測和模仿共同受益。
行為預測才是自動駕駛的終極殺器
在討論數據采集時,許多人并不看好特斯拉的「超級車隊」,因為他們認為特斯拉付不起人工打標簽的錢。
可惜,特斯拉根本就沒玩監督學習那一套,行為預測才是終極殺器。
除此之外,特斯拉還用上了模仿學習,而它不用人工打標簽。
其實,即使選擇用傳統的監督學習研究計算視覺,特斯拉的車隊也能帶來各種價值連城的數據(包括各種極端情況)。
舉例來說,用來識別馬匹的深度學習網絡也可以在車上運行,一旦它覺得馬出現了,就能啟動相機快速拍一張。顯然,這種方法能用在識別相對稀有的物體上。
眼下,業界正在攻克計算視覺的自監督學習技術,有了它,訓練信號就可以完全取自數據本身,無需人工標簽。
據汽車之心了解,在深度感知領域,特斯拉已經開始試驗自監督學習。
上述討論可能有些晦澀難懂,不過特斯拉未來到底價值幾何其實靠的就是這些技術。
面對自動駕駛這個萬億級別的市場,誰都想成為領軍者。而這,意味著數千億美元的估值。