高質量的數據是驅動人工智能算法的燃料。如果沒有連續的標記數據流,就會出現瓶頸,算法會慢慢變差,給系統增加風險。 這就是為什么標簽數據對于Zoox、Cruise和Waymo等公司來說是如此重要的原因,這些公司利用標簽數據來訓練機器學習模型,以開發和部署自主車輛。
正是這種需求催生了Scale-AI,這家初創公司利用軟件和人員來處理和標記圖像、激光雷達和地圖數據,為構建機器學習算法的公司服務。Airbnb、Pinterest和OpenAI等公司也在使用該平臺。
該公司與激光雷達制造商和碩(Hesai)合作,于本周推出了一個名為PandaSet的開源數據集,可用于訓練自動駕駛的機器學習模型。該數據集是免費的,可用于學術和商業用途,包括使用Hesai的具有類似圖像分辨率的前向PandarGT激光雷達以及其機械旋轉激光雷達Pandar64收集的數據。據該公司稱,這些數據是在舊金山和硅谷的市區行駛時收集的。
Scale首席執行官兼聯合創始人亞歷山德王(Alexandr Wang)在最近的一次采訪中告訴TechCrunch:“人工智能和機器學習是不可思議的技術,具有難以置信的潛在影響,但也會給人帶來巨大的痛苦。”。“機器學習絕對是一種垃圾輸入、垃圾輸出的框架——你真的需要高質量的數據來支持這些算法。這就是我們建立規模的原因,也是我們今天使用這些數據集從開源角度推動行業發展的原因。”
這個激光雷達數據集的目標是免費訪問一個密集和內容豐富的數據集,Alexandr Wang說,這是通過在充滿汽車、自行車、交通燈和行人的復雜城市環境中使用兩種激光雷達來實現的。
該數據集包括超過48000張相機圖像和16000次激光雷達掃描,據該公司稱,超過100個8秒的場景。它還包括每個場景的28個注釋類和大多數場景的37個語義分段標簽。例如,傳統的長方體標簽,那些放在自行車或汽車周圍的小盒子,不能充分識別所有的激光雷達數據。因此,Scale使用一個點云分割工具精確地標注復雜的對象。
開源AV數據并不完全是新生的。去年,Aptiv和Scale發布了nuScenes,一個來自自主車輛傳感器套件的大規模數據集。Argo-AI、Cruise和Waymo等多家AV公司也向研究人員發布了數據。Argo-AI發布了精確的數據和高清地圖,而Cruise共享了一個數據可視化工具Webviz,它將從機器人上的所有傳感器收集的原始數據轉換成視覺效果。