2022年11月8日-10日,由中國汽車工業協會主辦的第12屆中國汽車論壇在上海嘉定舉辦。作為黨的“二十大”召開后的汽車行業首場盛會,本屆論壇以“聚力行穩 蓄勢新程”為主題,共設置“1場閉門峰會+1個大會論壇+16個主題論壇”,以汽車產業的高質量發展為主線,與行業精英一起貫徹新精神,研判新形勢,共商新舉措。其中,在11月9日下午舉辦的“主題論壇1:第四屆全球汽車技術發展領袖峰會”上,地平線總裁陳黎明發表精彩演講。以下內容為現場演講實錄:
首先謝謝付炳鋒會長,尊敬的付炳鋒會長和各位嘉賓、來賓,大家下午好!我是地平線的陳黎明,非常感謝大會的邀請,非常榮幸有這個機會來參加今天這個大會給大家進行一些分享,剛才(付炳鋒會長)也講了多講點技術的東西,今天準備的也比較技術一些,希望能夠滿足付炳鋒會長的要求。
今天從三個方面分享,一是把技術相關方面的一些趨勢和痛點先做一個分享,同時也介紹一下地平線在技術方面的解決方案,從技術上如何來推進智能化的發展,以及在商業模式創新上如何推動汽車智能技術的發展。
首先,我們一起來看一下整個軟件開發范式和智能計算架構的演變,剛才百度的王總和亞馬遜的顧總都談到了數據驅動和云的應用等,做了很詳細的介紹,計算架構和開發范式正在進行比較大的變化。在AI技術應用到智能駕駛汽車之前,應該說整個開發的范式和計算架構都是基于SW1.0的開發范式,它主要是基于Rule-ba
sed和邏輯驅動進行軟件的開發,是基于我們對物理世界的認知,通過規則、邏輯對我們的物理世界進行建模,來進行感知和控制。從計算架構來講更多基于車端的計算平臺來進行感知和控制的計算。基于Rule-ba
sed和邏輯驅動的軟件開發遇到很多困難,比如剛才王總也分享的,即使對已知的紅綠燈識別也很難用Rule-ba
sed的方法來解決,對于紅綠燈的識別人工智能深度學習、神經網絡就能夠發揮它的優勢。隨著自動駕駛技術發展對感知的需求不斷增加,我們對周邊的感知也需要更加具體和細化,這進一步推動了AI在自動駕駛中的應用。基于數據驅動的SW2.0開發范式,它的整體計算架構不是在車端,而是一個車端加云的計算架構,這使得整個開發范式發生比較大的變化。
這里簡單看一下數據驅動的SW2.0開發范式帶來優勢,之前在整個控制、駕駛比較簡單的時候,我們基于規則的開發和投入都是相對比較低的,也可以很好解決我們應用中的問題。但隨著自動駕駛復雜性越來越高,需要對周圍世界感知越來越強,基于Rule-ba
sed開發范式需要的人力投入會呈指數級的增長,而且還不能解決所有的問題。對于數據驅動開發范式來講,雖然簡單問題前期投入比較大,但是隨著問題復雜程度的增加,它的優勢逐漸顯示出來,它不需要寫更多的code,而是基于一些算子和對模型進行訓練,隨著數據量的不斷增加能夠更好地去理解和感知我們周邊物理環境,能夠使得我們開發更快速地迭代。
目前數據驅動的SW2.0開發范式在自動駕駛里進行了比較廣泛的應用,特別是感知方面應用已經非常深入了,比如現在最新的BEV算法是基于神經網絡的模型對物理世界進行感知。同時在地圖融合方面也有比較好的應用,在規劃和控制方面還是在起步階段,規劃可能多一點。數據驅動的SW2.0開發范式在自動駕駛里的應用已經成為大趨勢。
隨著對周邊感知精度和細度需求不斷增加,對復雜神經網絡的需求也越來越高,我們看到在過去幾年里,算法對算力的需求提高了六個數量級,這對芯片算力提出了非常高的要求,自動駕駛的實時計算不是發生在云里,而是在車端,所以芯片面積是在不斷的增加,也就是算力在不斷的增加。但是我們也看到摩爾定律在逐漸放緩,已經在先進制程上逼近了物理極限,比如說14納米、7納米、2納米都在做,這在物理上是有極限的,計算性能不可能無限制地根據摩爾定律兩年翻倍。那么接下來怎么能夠去突破瓶頸,進一步去增加芯片的性能,這是行業的挑戰。我們看到更需要在制程、封裝、架構、軟件方面打一個組合拳,這樣才能可能更好來解決這個問題。
地平線在2016年提出了智能計算的新摩爾定律,也就是在后摩爾時代怎么來提高芯片的效率,能夠讓芯片在同樣面積上或者同樣的功耗下有更大的算力,我們提出用每一秒處理多少幀圖像來衡量芯片的計算效率。這個公式右邊是每一瓦功耗或者每一個doller能夠讓芯片每一秒處理多少幀圖像,這里可以拆解成三個元素,等式右邊最左邊一項是每一瓦功耗或者每一個doller它能支撐多少Tops或支撐多少算力,這主要還是由芯片的架構來決定。在這個公式最右邊是每個Tops能夠支撐多少效率 (每一秒處理多少幀圖像)。每一個Tops能夠釋放出多少效率來,取決于算法本身的架構和從浮點到定點轉化的工程化過程,這也需要一定的工程沉淀來進行優化。實際上非常重要的一點是中間這一部分(utilization),就是如何充分使用芯片的算力,最后體現出來的效率就是每秒能處理多少幀圖像。這里非常重要的一點是如何把芯片的架構與神經網絡或深度學習的算法進行很好的匹配,這是一個需要不斷迭代設計的過程,同時,也是通過算法編譯去適配硬件架構,讓芯片發揮出更高的效率,這就是軟硬協同的創新。
很有意思的是在2020年6月MIT的學者也提到類似的觀點,后摩爾時代它的計算性能提升是在于軟件工程、算法和硬件價格的聯合優化,這里講的軟件、算法跟我們提到的三個方面是一致的,所以大家都看到后摩爾時代它需要在三個方面進行組合拳。
下面談一下地平線的解決方案,這張圖可以比較簡單表達我們講的軟硬結合協同的創新,目前大家都談得比較多的都是軟硬解耦、軟硬分離,但我們這里談的軟硬結合或者協同也不矛盾,它實際上是矛盾的對立統一。各種不同的神經網絡都有大量的計算,同時它們也有很多共性的東西。如何通過硬件來加速計算,用最小的能耗去進行計算,設計出最適合常用的神經網絡芯片架構是非常關鍵的。通過優化的芯片架構能夠更好來支持多種算子和神經網絡的計算速度,所以說我們的硬件設計是從軟件需求中來,最后再回到軟件應用中去,從而實現高性能、低功耗、低延遲的計算解決方案。
這里再把我們具有知識產權的BPU做一個簡單的介紹,這個架構支撐了高性能、低延遲、低能耗。通過芯片架構與算法協同優化來適配目前我們常用的一些神經網絡。我們知道在不同駕駛場景下需要的神經網絡不是一個神經網絡,需要不同的算子來支撐不同場景下的需求,我們的BPU的架構設計更好適應了常用的算子,使得它能夠在各種場景下更好支持自動駕駛。它有幾個獨特的地方,一個就是我們要利用大規模異構算子來加速計算,同時也采用了近存計算技術,來減少數據的移動和讀取,利用高靈活的大并發數據橋,對數據不同異構算子之間的移動來增加片上的帶寬,這樣可以在低成本的前提下實現大算力。最后就使得我們芯片能夠具有128Tops的算力,同時它的計算效率也很高。
如我之前所說,軟硬分離和軟硬結合是矛盾統一體,既對立又統一,通過軟硬結合,我們的常用算子庫和底層芯片實現高效的配合,使得整個芯片的計算效率能夠極大的發揮。同時通過中間件把上層應用隔離開,使得我們的客戶主機廠和Tier1的客戶以及合作伙伴能夠在一個硬件平臺上進行快速高效的應用開發迭代,當然主機廠也希望他的應用軟件能夠跑在不同的芯片架構上,而不是一家的芯片架構。
根據我們前面講到BPU的一些特點 (超適配性再加上軟硬協同),我們征程5芯片達到了128Tops算力,延遲只有60毫秒,功耗也是比較低的,只有30瓦。我們去年發布這個芯片的時候,它當時的率每秒處理1283幀的圖像,我們通過對編譯器和工具鏈的優化,我們從去年的1283幀每秒提升到現在的1531幀每秒,也就是說在不改變硬件的情況下,通過對工具鏈和編譯器的優化,我可以進一步提升芯片的效率。同時這款芯片是非常可靠得到了各方面的功能安全和信息安全認證。
當然只有一款好的芯片還不夠,還需要有一個強大的工具鏈來支持芯片的應用,來支持我們客戶去進行開發,我們天工開物的工具鏈它可以支持先模型量化再進行訓練,或者先進行訓練再量化,通過訓練量化之后,對AI模型進行自動編譯、優化、部署到芯片里去,實現高效的計算,我們看到它的成功率、精度、投入都有非常大的改善。
這里還有一點也想特別分享,如何通過我們講芯片架構的適配性和靈活性再加上工具鏈和編譯器的優化,來進一步去使用新的算子和算法,最近幾年Transformer是比較流行的,是大家比較關注的神經網絡模型,它是從語言領域開始的,現在已經在不同領域都得到了很多的應用,它有可能成為統一神經網絡架構的趨勢。Transformer在視覺領域最重要也是最徹底的一個應用是叫Swin Transformer,這個工作也得到了機器視覺領域最高獎,馬爾獎。Swin Transformer是在2021年提出的,而我們征程5芯片設計是在2019年,那對于這個新的算法,我們在幾年前設計的芯片架構能不能去適用?基于BPU高適配性和靈活性,以及對工具鏈的持續優化,目前我們在征程5上成功運行了SwinT模型,并達到每秒184幀的性能并且優于友商的芯片。同時我們會不斷持續優化我們的工具鏈,進一步來提升計算性能,我們今后預計會有更多的Transformer模型會在我們芯片上運行來。
再一個就是云訓練平臺,剛才顧總和王總講得比較多,在我們地平線有AI訓練開發平臺,它實現了兩個閉環,一個是在云端可以對數據進行挖掘、標注、訓練、測試、集成等這些,數據從車端來最后回到車端去,使得整個車在開發過程中以及整個生命周期可以得到不斷的進化和性能得到不斷的提升,這里有一些數據來展示了AIDI開發平臺對整個訓練開發效率和成本上都得到非常大的改進。
最后想從商業模式創新上分享如何助力我們的合作伙伴,我們合作伙伴有三類,Tier1、軟件開發和硬件開發。主要是通過多重的開放模式根據客戶需求進行合作,最上面我們知道是Mobileye的合作模式,我們地平線采用的是英偉達的模式,主要是在整車上層應用上和整車廠合作進行合作。除此之外,我們進一步開放在底層中間件和操作系統,我們跟整車廠開放合作,使得整車廠能夠更早在開發過程當中對它的系統進行定義,然后對整車控制架構進行設計優化。更進一步,對一些有自定義芯片需求的主機廠,我們也開放BPU IP,通過對IP授權提供相應的工具包和技術支持,使主機廠能夠縮短整個開發流程和時間,并且有更多的主動性。
最后一頁也做一個簡單的總結,從我們征程2在2020年6月份首先在長安的UNI-T上、征程3在理想One上首先得到了量產,今年我們征程5也在理想L8上已經得到了量產,應該說這個月最終用戶就能拿到車了,在他們第一個吃螃蟹之后,也得到了眾多主機廠的認可。
目前,我們與一百多家生態合作伙伴一起服務于二十多家車廠共的七十多個項目,到目前為止我們出貨超過200萬片,這也證明了我們芯片的性能、質量以及可靠性。
對地平線來講,我們特別相信開放,只有開放共創我們才能共贏,所以我們希望與所有合作伙伴一起征程與共,共同擁抱價值共創,共同推進智能汽車的快速發展。我的分享就到這里,謝謝大家!
(注:本文根據現場速記整理,未經演講嘉賓審閱)