一個幽靈,一個名為FSD的幽靈在中國游蕩。
沒錯,馬斯克豪賭自動駕駛,和特斯拉FSD即將入華的消息不斷刷屏,這成為汽車行業(yè)討論度最高的話題之一。
在之前的深度文章《“第一性原理”正在殺死特斯拉》中,筆者認為特斯拉FSD永遠都達不到L4級別的自動駕駛,此言一出引發(fā)了巨大爭議,本文收獲了上百條留言。經(jīng)過與讀者的切磋討論,和對相關概念進行深入學習后,筆者還是堅持原有的觀點:別太高估FSD了,無人駕駛永遠都不可能達到。
這里先簡單科普一下自動駕駛等級。
零級,代表完全沒有自動化,就是人開車。
一級,是指計算機在某些時候、某種程度上可以給人提供一些輔助性的幫助。這個級別已經(jīng)實現(xiàn)了,像自動剎車、車道保持、停靠輔助系統(tǒng)現(xiàn)在已經(jīng)大面積應用了。
二級,是有的時候汽車可以自己開,但是要求人一直盯著。特斯拉和國內(nèi)許多廠商已經(jīng)做到了這個級別。這就是高速NOA和城市NOA,在空曠的高速公路,或者特定路段,人可以暫時讓車自己開一會兒。但總有很多人違反規(guī)定,不盯著車,干脆放手不管了,結果出了事都是駕駛員的責任,而不是廠商的。
三級,是說人可以不盯著了,就讓車自己開。但是如果車向你發(fā)出信號,你要隨時接管駕駛。
四級,是指在某些環(huán)境和條件下,實現(xiàn)自動駕駛,人去睡覺都沒問題。
五級,是完全的自動駕駛,不論什么天氣和路況人都不用管車。
特斯拉FSD的原理是什么?
2017年,谷歌的八位科學家發(fā)布了一個名為Transformer的人工智能深度學習模型。
這一大模型具有革命性意義,全球科技巨頭,紛紛推出了自家基于Transformer的大模型,如Google的BERT,微軟的Turing-NLG,英偉達的Megatron、國內(nèi)華為的盤古、阿里的M6、百度的文心一言等大模型都是基于Transformer來構建。
不同于傳統(tǒng)的人工智能模型,Transformer具有以下典型特征:
首先,只要參數(shù)足夠多,訓練達到一定的積累,你就可以做一些事情。比如AlphaGo下圍棋可以戰(zhàn)勝人類頂級選手。
其次,只要模型大到一定程度,就會涌現(xiàn)出一些讓人意想不到的神奇功能。比如AlphaZero不按人類套路下圍棋。
最后,因為開悟和涌現(xiàn),AI現(xiàn)在已經(jīng)獲得了包括推理、類比、少樣本學習等等思考能力。
而在自動駕駛領域,特斯拉也基于此發(fā)布了純視覺自動駕駛FSD。從原理上講,基于Transformer的FSD可以模擬人類的駕駛行為,根據(jù)喂養(yǎng)的數(shù)據(jù)進行深度學習,一旦學習成功,F(xiàn)SD就是一個老司機。
那么特斯拉是如何利用Transformer進行訓練的呢?
要知道,想要自動駕駛水平高,就要經(jīng)歷各種可能的情況,尤其是那些老司機一輩子都難遇到幾次的特殊情況,比如路面積雪的夜里,接近路口時是黃燈,對向車開著大燈晃你,這時突然有人橫穿馬路,這種情況下,駕駛員做怎么樣的動作才安全。這需要在相同場景下反復訓練。
但是這種情況可遇不可求,那怎么辦?
特斯拉的做法是利用自動生成路上駕駛的視頻。同樣一個路口,它可以訓練各種方向轉(zhuǎn)彎,各種可能發(fā)生的情況……這些自動生成的視頻已經(jīng)是最近兩年特斯拉提升自動駕駛水平90%的駕駛經(jīng)驗來源了。
換句話說,特斯拉開始大規(guī)模利用人工智能,早就不依賴于真實路面的訓練經(jīng)驗來提升自動駕駛了。
而且更夸張的是,在最新發(fā)布的FSD V12版本里,工程師把之前30多萬行定義駕駛規(guī)則的代碼刪除了,要怎么開車,已經(jīng)不強烈依賴于“紅燈停綠燈行”這類可以用程序表述的指令了。FSD V12版本的駕駛策略幾乎都是通過駕駛視頻習得的,而且這些視頻絕大多數(shù)都是自動生成的。
總結來說,基于Transformer的FSD可以模擬人類的駕駛行為,進行深度學習,所以許多激進的觀點認為,只要數(shù)據(jù)量足夠大,喂養(yǎng)的時間足夠長,F(xiàn)SD將來就能淘汰人類駕駛員,徹底實現(xiàn)無人駕駛。
Transformer的底牌與命門
為什么筆者反對如此激進的觀點,理由主要有兩個:
第一個理由,F(xiàn)SD作為基于Transformer的大模型的技術方案,是在模擬人腦,作為神經(jīng)網(wǎng)絡,它在本質(zhì)上不可能超越人腦。
前面我們簡單講了基于Transformer的FSD能開悟,能涌現(xiàn)等神奇的功能。但是要看透FSD的邊界,我們依舊要進一步理解:Transformer跟人腦到底如何對比?它有什么限制?有沒有它不擅長的東西?
在這里,我們必須提及一位人工智能大牛——史蒂芬·沃爾夫勒姆。
史蒂芬·沃爾夫勒姆是何許人也?他研究開發(fā)神經(jīng)網(wǎng)絡已經(jīng)四十多年了,他早在1983年就自己編程研究過神經(jīng)網(wǎng)絡,OpenAI CEO山姆·奧特曼曾說:“史蒂芬·沃爾夫勒姆是他見過的最牛的人工智能專家。”
史蒂芬·沃爾夫勒姆用一個小例子,指出了Transformer的底牌與命門。
他用ChatGPT做了個最簡單的計算題:1231×434523+323×34636 等于多少?
ChatGPT給出的結果是546106021。但如果你用計算器算,那么答案是546085241。
這到底是怎么回事?答案很簡單,ChatGPT是Transformer基于人類大腦開發(fā)的語言模型,它是用人的語言訓練出來的,它的思維很像人的大腦——人腦本身不太擅長算這種數(shù)學題的,這樣的計算題,普通人都要用計算器。
為什么會這樣?沃爾夫勒姆認為核心邏輯是下面這張圖。
大圈代表的是一切計算,科學家認為,自然界中所有現(xiàn)象都理解成計算,因為底層都是物理定律,其中絕大多數(shù)計算過于復雜,超出了人腦的理解范疇,以至于我們連方程都寫不全,不管是用大腦還是用計算機都不能處理,但我們知道那也是計算。
其中的兩個小圈,一個是神經(jīng)計算,簡單來說,神經(jīng)計算善于發(fā)現(xiàn)事物的規(guī)律,但是對數(shù)學問題的處理能力有限。人類的大腦和包括ChatGPT與FSD在內(nèi)的所有AI,都屬于神經(jīng)計算。
實際上,人工智能模擬的神經(jīng)計算的底層邏輯還是數(shù)學,從原理上來講,就是大模型模擬人腦,將構成大腦的神經(jīng)元抽象為數(shù)學模型,這就是神經(jīng)網(wǎng)絡的根本出發(fā)點。
另一個是形式邏輯,其實就是數(shù)學,特點是精確推理,無論有多復雜,只要有方程有算法,就能算出來。
可見,兩個小圈遠遠不能覆蓋整個大圈,人類科學技術進步的歷史,就是擴大兩個小圈的歷史。
沃爾夫勒姆有一個深刻的洞見,那就是雖然基于Transformer的大模型比人腦知道的更多,反應更快,但是作為神經(jīng)網(wǎng)絡,它在本質(zhì)上不可能超越人腦。
他進一步解釋說,ChatGPT模擬了人腦的語言系統(tǒng),這只能說明人腦的語言系統(tǒng)并不厲害。沒錯,ChatGPT證明了,語言系統(tǒng)是個簡單系統(tǒng),模仿人類寫一篇大家讀得下去的文章,不是一個難事。
但是如果需要一篇真正意義上的好文章,ChatGPT就寫不出來了,這需要調(diào)動作者自己的原創(chuàng)思想或者清奇的角度,ChatGPT最多成為一個強大的輔助工具。
沃爾夫勒姆讓我們認識到了Transformer的根本局限性:神經(jīng)網(wǎng)絡的計算范圍是有邊界的,人工智能再強大,也不可能跳出神經(jīng)計算和形式邏輯去和客觀世界接觸。
沒錯,人類社會中的任何事情,科學研究也好,寫出有靈魂的作品也好,開車也好,終究還是要需要人直接和客觀世界接觸,需要調(diào)用外部工具和外部信息。
從這個意義上講,人工智能不可能取代人,而是一件強大的工具。
第二個理由,人工智能永遠需要人工干預。
了解完Transformer的邊界之后,從原理上講,今天幾乎所有的人工智能產(chǎn)品都是復讀,先要有各種知識和信息,ChatGPT和FSD才能工作。你給ChatGPT提供高質(zhì)量的數(shù)據(jù),它就會產(chǎn)生一個高質(zhì)量的語言模型,然后給出高質(zhì)量的答案,寫出高質(zhì)量的文章。
相反,你用垃圾數(shù)據(jù)訓練它,它就只能輸出垃圾。
我們還是以ChatGPT舉例,熟悉大模型的人都知道,ChatGPT背后是有人工干預的,例如ChatGPT平臺上那些帶有仇恨的言論已經(jīng)被刪除了。
但是,ChatGPT是一個本身有一萬億參數(shù)的大模型,人類只能通過輸出結果進行修改,換句話說,這個巨大的語言模型就像是一個黑盒子,你無法搞清楚里面那些模型參數(shù)的含義。
所以,行業(yè)內(nèi)有一句玩笑話:有多少人工,就有多少智能。
FSD也是如此,哪些駕駛數(shù)據(jù)是合格的駕駛數(shù)據(jù)?輸出后的結果,哪些能用,哪些不能用?都需要大量的人工進行調(diào)整,更為致命的是,這個世界上任何老司機都不可能保證自己不發(fā)生意外。所以,從理論上來說,100%完美的駕駛數(shù)據(jù)是不存在的。
沒錯,F(xiàn)SD作為一個模擬人類開車的技術方案,永遠都做不到100%的準確度,因為人做不到,對駕駛來說,即便99.9999%的判斷準確率也不夠,因為一旦判斷錯誤就可能是一條人命。任何政府要推動這樣激進的立法,阻力很大。
更進一步說,算法再強大,也不可能窮盡所有意外,真實的路面上會有各種意外。
早先,谷歌在訓練自動駕駛技術時,遇到過各種各樣奇怪的情況。這些東西是無法用數(shù)學模型預測的。即便是老司機,注意力不集中,也可能發(fā)生意外。
比如有幾個小孩在高速公路上在玩青蛙。
又比如一個殘疾人坐著電動輪椅,在路中間追逐一只鴨子。鴨子繞圈跑,她也繞著圈追。那你說像這種情況你能一下子就準確預測這些人的行動路線嗎?
此外,特斯拉的純視覺方案采用的是二維的攝像頭技術,而不是三維的激光雷達,這就意味著如果在下雪或者下雨,攝像頭就可能對周圍物體有重大誤判。
所以,再強大的自動駕駛,永遠都需要人在一旁待命,需要隨時接管。
如今,在FSD的開發(fā)過程中,特斯拉積累了超過90億英里使用里程,這是全球最大的自動駕駛數(shù)據(jù)來源;為了利用這些數(shù)據(jù),特斯拉不斷擴充其超算集群,到處挖頂級AI工程師,自研算法、芯片和大算力GPU。即便如此,至少目前還是沒能讓大模型解決這些問題。
這其實就是FSD的一條硬邊界,舉例來說,你如果有一臺制冷機,可以將溫度降低。如果你有一個超大功率的制冷機,溫度降低得會快得多,但是用再多、再大的制冷機也不可能將溫度降到絕對零度以下,因為那是物理學的一條邊界。
尾聲
基于這樣的原理解讀,我們至少能得出以下三個結論:
第一,根據(jù)技術原理和法律法規(guī),特斯拉FSD最多成為L3級別的自動駕駛,但它將是一個超級強大的輔助人類進行駕駛的工具,它的意義是最大限度地輔助人類駕駛。
第二,特斯拉粉絲不要失望,客觀來說,F(xiàn)SD代表著目前最前沿的人工智能駕駛方案,中國廠商在這條賽道上仍舊處于跟隨的狀態(tài),以特斯拉的技術實力、品牌效應和營銷能力,F(xiàn)SD一旦入華,大概率會成為中國智能駕駛行業(yè)的一條新鯰魚,會加速中國自動駕駛產(chǎn)業(yè)和人工智能產(chǎn)業(yè)的發(fā)展,對汽車產(chǎn)業(yè)來說,這將大大利好小鵬、問界等主打智能駕駛的車企。
第三,受限于技術條件,早些年產(chǎn)業(yè)界暢想的類似于蘋果、安卓那樣的汽車生態(tài),幾乎不可能實現(xiàn)。
這里稍微解釋一下,早些年,產(chǎn)業(yè)界認為,當L4級別的自動駕駛實現(xiàn)后,智能座艙才有更多商業(yè)化空間——比如智能交通出行服務商。在2020年,理想汽車的李想就在一次公開演講中透露了兩種可行的商業(yè)模式:第一種是賣車送司機,自動駕駛當服務來收。第二種是賣司機送車,車當服務費來收。
感興趣的讀者可參考《我們在為問界吶喊“遙遙領先”時,特斯拉卻正蛻變?yōu)橐粋€全新的物種》
所以,汽車生態(tài)的盡頭就是FSD付費訂閱,這其實大大壓縮了想象空間,這可能將推動特斯拉以及其它汽車企業(yè)的估值回歸傳統(tǒng)汽車業(yè),而不是互聯(lián)網(wǎng)科技產(chǎn)業(yè)。