車網(wǎng)中國報道
2021年6月17日-19日,由中國汽車工業(yè)協(xié)會主辦的第11屆中國汽車論壇在上海嘉定舉辦。站在新五年起點上,本屆論壇以“新起點 新戰(zhàn)略 新格局——推動汽車產(chǎn)業(yè)高質(zhì)量發(fā)展”為主題,設置“1場閉門峰會+1個大會論壇+2個中外論壇+12個主題論壇”,全面集聚政府主管領導、全球汽車企業(yè)領袖、汽車行業(yè)精英,共商汽車強國大計,落實國家提出的“碳達峰、碳中和”戰(zhàn)略目標要求,助力構建“雙循環(huán)”新發(fā)展格局。其中,在6月19日上午舉辦的主題論壇“智能座艙創(chuàng)新技術論壇”上,愛數(shù)智慧創(chuàng)始人兼CEO、中科院聲學所研究員張晴晴發(fā)表了主題演講。以下內(nèi)容為現(xiàn)場演講實錄:
各位好!
我是來自北京愛數(shù)智慧科技有限公司的創(chuàng)始人CEO張晴晴,今天之前大家講的報告更多都是圍繞算法智能化,包括產(chǎn)品在車行業(yè)的應用。
我也聽到這段時間有很多車客戶和企業(yè)都在提到數(shù)據(jù)。今天講的報告是圍繞數(shù)據(jù),講對話式AI數(shù)據(jù)推動智能座艙語音交互。
第一,公司簡介
第二,智能座艙發(fā)展。
第三,智能座艙數(shù)據(jù)解決方案。
一、公司簡介。
愛數(shù)智慧為行業(yè)希望做智能化轉型的車企提供相應底層數(shù)據(jù)解決方案。圍繞人機交互的場景,圍繞場景里的核心三個點:語音識別、語音合成、自然語言理解,這三部分所需要的數(shù)據(jù)都有相應的提供和解決方案。
核心服務有相應標準訓練數(shù)據(jù)產(chǎn)品,以及針對車廠在智能化轉型過程中圍繞智能座艙、智能客服、短視頻營銷等其他方面做的方案咨詢,同時會圍繞相應落地場景體迥數(shù)據(jù)定制采集和標簽化服務。
最后為車廠提供可以進行私有化部署的數(shù)據(jù)處理系統(tǒng)。
公司成立到現(xiàn)在五年的時間,已經(jīng)為頭部車企、車行業(yè)提供解決方案的算法公司、造車新勢力提供相應數(shù)據(jù)解決方案。
這是我們公司的核心人員,我自己在人機交互領域有17年的相應經(jīng)驗,曾經(jīng)是中科院聲學所博士,法國國家實驗室博士后,也在語音、語言、對話式AI里參與到很多車企解決方案的落地當中。
二、智能座艙發(fā)展。
智能座艙已經(jīng)發(fā)展了很多年,最早時候主要是對硬件、打開空調(diào)或者車窗調(diào)低調(diào)高的命令控制的運用,現(xiàn)在希望人和機器有更多類型的交互,包括對話式自然的溝通,比如說調(diào)高溫度的時候,可以說我感覺很熱很冷等自然式對話式的交互。
除了語音交互外,現(xiàn)在也開始進入到多模態(tài)狀態(tài),包括視覺、圖像等都可以圍繞多維度對用戶行為進行分析,是智能座艙很重要的發(fā)展方向。
其中,語音的交互方式本身是信息的主要載體,是座艙里非常重要的落地點。同時由于在開車行進過程中,最早的方式還是用語音交互的方式保證安全。
在座艙語音交互里,能夠用到語音的點是非常多的。一些比較常見的導航、電臺、內(nèi)容搜索都會用到語音,包括對車里硬件設備進行交互可以用到語音。如果出現(xiàn)異常狀況,比如需要緊急呼救求助的狀況也需要涉及到語音的需求。
有三個主要會用到的核心算法:語音識別、語音合成、自然語言理解。
簡單來講,語音識別就是我們說一句話,比如說“幫我調(diào)低溫度”,機器需要識別我說這句話的聲音,把它轉換成文字,對機器來講要聽得清我在說什么,“聽得清”。
聽清了之后會對已經(jīng)識別出來的文字理解意圖是什么,意圖是調(diào)節(jié)溫度的情況。這種情況需要把意圖識別理解出來,“聽得懂”。
下一個環(huán)節(jié),機器需要給我相應的回饋,用語音合成播報音的方式告訴我機器已經(jīng)完成了相應的動作,“說得好”。
這三個點都在應用,同時也有和明顯的痛點和問題。比如站在語音識別角度,最大的點是人在說話的時候是有口音的,很多人說我說普通話不是很標準,甚至有的人普通話都說的不是很好有方言說話。
這種情況下機器不一定能聽得清在說什么,所以識別率會很差,口音是很重要的點。同時因為座艙里的噪音會帶來識別率進一步下降。
在語音合成里,希望機器播報出來的聲音是很自然的,甚至可以千人千面由我來挑選的。但目前我們所看到的情況是機器的合成聲音很機械不自然,不像人在說話,代入感不好。
自然語言理解是最大的難點,如何理解人在表述同一個意圖的時候用句的方式千差萬別。像我想調(diào)節(jié)溫度的時候,有可能我根本沒在說調(diào)節(jié)溫度,我在說我感覺我很熱,這是對意圖很重要的理解點。
對異常表達的理解是座艙過程中對語料擴充要盡可能豐富,通常來說這部分做的不夠好,也可能會導致機器完全無法理解。
目前這三部分在落地的時候都會有痛點,通常來講大家本能的第一反應是解決方案沒有做好是算法不夠好。而事實上過程中會發(fā)現(xiàn)人工智能智能化的過程核心是三個基礎部分構成,由算力、算法、數(shù)據(jù)構成。
在其中,相較于算法來說,數(shù)據(jù)的影響力才是根本的地方,我們有對比分析過,基本上不同的孫發(fā),但是用的是同一個數(shù)據(jù),你的算法差異度不會很大。但如果你是同一個算法,數(shù)據(jù)的清洗和選擇不一樣,結果是截然不同的。所以系統(tǒng)的增益主要來自于數(shù)據(jù)部分。
數(shù)據(jù)并不是大家所想的那樣,從人發(fā)聲的時刻收集到語音后,可以把語音送到智能化系統(tǒng)里去了。其實不然,過程中需要經(jīng)過數(shù)據(jù)結構化清洗的過程,數(shù)據(jù)有點像原油,原油被真正加到汽油里的過程需要經(jīng)過很多工序,最后才能得到真正可以用的型號。
數(shù)據(jù)也是一樣的,從最開始左側的原始音頻走到右側送到系統(tǒng)里迭代的數(shù)據(jù)會經(jīng)過很多專業(yè)步驟,每一個步驟的處理好壞與否都會影響到最后模型的性能。
對數(shù)據(jù)來講,結構化的“質(zhì)”決定了智能系統(tǒng)的性能。除了“質(zhì)”以外,很重要的點是“量”。
藍圖的這條線是大家在智能化過程中主要用到的深度學習的算法,而紅色的這條線是過去比較傳統(tǒng)的淺層學習的方法。大家看藍色的這條線會發(fā)現(xiàn)兩個點,首先看到趨勢,橫坐標是送到模型里的訓練數(shù)據(jù)量,縱坐標是識別的性能,送進去的數(shù)據(jù)量越多,識別的性能越好。
在過程中,最上面的點是目前屬于互聯(lián)網(wǎng)的頭部公司每年在AI上所投入的結構化數(shù)據(jù)量。而下面的點是行業(yè)客戶目前所投入的量級。
基本上會看到量級的差異比較大,像互聯(lián)網(wǎng)型公司,每年增量在結構化數(shù)據(jù)上投入的小時數(shù)在10萬小時量級的增量數(shù)據(jù)量。所以,做人機交互的互聯(lián)網(wǎng)型公司的識別性能會更好。數(shù)據(jù)量對模型性能影響也是非常關鍵的。“質(zhì)”和“量”都是需要考慮的點。
大家會想到數(shù)據(jù)只要往里加就可以得到更好的性能,是不是要投入很多成本才有可能獲得相應的收益?其實并不見得大家要投入這么多才能獲得相應的收益,在數(shù)據(jù)行業(yè)里提出了“數(shù)據(jù)配比二八原則”,在車企車的行業(yè)里,80%的數(shù)據(jù)是共性數(shù)據(jù),這些數(shù)據(jù)可以由標準化的數(shù)據(jù)集構成為大家搭建,而這部分數(shù)據(jù)可以理解為完全的一次性投入,一次性投入之后可以用在很多功能點上的迭代優(yōu)化里。真正需要定制的數(shù)據(jù)只在總量里占有20%就夠了。
真正投入的總量從時間富力來看,投入成本并不高,獲得的收益也是不錯的。
給大家一個比較形象的數(shù)據(jù)來呈現(xiàn),左邊這張圖體現(xiàn)的是車的座艙里有4個場景和功能點,每個功能點為了迭代模型的性能,現(xiàn)在不遵循二八原則完全來定制的話,現(xiàn)在有的車企也還在用這樣的方法,相對來說比較安全。
但用這樣的方式會導致每個功能點都要投入1000小時,總量投入了4000小時的成本,但單一看每個功能點只享有1000小時的訓練數(shù)據(jù)量,量是有限的。
反觀右邊的這張圖,一個是導航,一個是音樂控制,一個是硬件控制,都可以。但這會伴隨對話式,會涉及有帶口音的,有方言的,這些數(shù)據(jù)作為底層數(shù)據(jù)可以共享,如果拿出80%的數(shù)據(jù)進行共享(1600小時),在每個功能點上僅投入400小時定制數(shù)據(jù)量的時候,最后會發(fā)現(xiàn)總投入成本只有3200小時。但是在每一個功能點所享有的訓練數(shù)據(jù)量卻是2000小時。投入的ROI會比左邊的純定制高很多。
使用標準數(shù)據(jù)集在于立木等于可取,數(shù)據(jù)的合規(guī)性、安全性會得到更好的保障,整體幫助車企更快速地進行智能化迭代優(yōu)化過程起到很好的推波助瀾作用。
三、智能出行數(shù)據(jù)解決方案。
目前愛數(shù)智慧擁有全球第一大對話式訓練數(shù)據(jù)集,手上一共有15萬小時全部標簽化好的數(shù)據(jù)。什么叫標簽化好的?數(shù)據(jù)都是進行多維度標簽,除了有語音對應的文字外,還會有性別、年齡區(qū)間、口音地域等多維度標簽幫助大家從更多維度對模型進行優(yōu)化。會含有對話式、命令控制朗讀式的數(shù)據(jù)。
特別把語種分別情況列出來,在中國境內(nèi)有很多方言數(shù)據(jù),現(xiàn)在車企在落地過程中方言是很頭痛的問題,大家可以考慮使用標準數(shù)據(jù)集,幫助大家快速進行初始迭代過程。特別提到中英文混合的數(shù)據(jù),這種數(shù)據(jù)在車的座艙里非常容易出現(xiàn),經(jīng)常做電臺、音樂交互時會涉及到中英混合的現(xiàn)場,比如說FM199.2,像“FM”就是英文部分。這種現(xiàn)象在很多物聯(lián)網(wǎng)范疇里都會出現(xiàn),很好的解決方案是通過標準訓練數(shù)據(jù)集幫大家快速補齊能力。
車企有在出海,“一帶一路”、歐盟等地區(qū)都有。特別呈現(xiàn)外語的數(shù)據(jù)基礎能力,比較熱點的大語種都有覆蓋。
針對目前在車行業(yè)里涉及到的幾個主要場景給大家做的訓練數(shù)據(jù)產(chǎn)品推薦,有詳細地列出來包括應用和涉及到的技術,包括會有哪些關鍵的問題,比如說有方言識別、口音識別、數(shù)字識別、喚醒詞等等,對應的數(shù)據(jù)推薦。有詳細的產(chǎn)品列表,大家感興趣隨后可以到展臺上進行交流。
智能客服和營銷是車行業(yè)比較關注的,現(xiàn)在有的車企跟我們問詢除了線上營銷外,還涉及到店面線下營銷的需求,在這部分給大家分類做了相應數(shù)據(jù)產(chǎn)品推薦。在線上主要是用到電話信道數(shù)據(jù),在線下是通過面對面對話數(shù)據(jù)幫大家進行定制優(yōu)化。
(3)會議場景部分也會有車企應用感興趣。核心是對話數(shù)據(jù)的解決,所以有做相應的推薦。
對數(shù)據(jù)服務企業(yè)來講,數(shù)據(jù)安全和合規(guī)性是立命之本。在這方面不斷投入,愛數(shù)智慧是國內(nèi)第一批拿到ISO27701認證的數(shù)據(jù)服務商,27701是全球最新的個人隱私認證,一直跟隨國外的GDPR以及國內(nèi)的數(shù)據(jù)安全法,在數(shù)據(jù)處理上遵循國際國內(nèi)的最高標準。
各位都有自己的私域數(shù)據(jù),從安全角度來講數(shù)據(jù)最好能握在各位手上,最好不要離開自己的服務器。針對這種場景提供相應數(shù)據(jù)處理系統(tǒng)的私有化部署能力,展現(xiàn)了三個數(shù)據(jù)處理平臺:
(1)語音標注審核平臺。主要針對交互、電臺等聲音處理,可以提供私有化部署及相應服務。
(2)文本標注審核平臺。主要涉及到句式的擴充,這部分會做意圖標簽化,用文本來解決。
(3)音頻/視頻多模態(tài)標注審核平臺。今年開發(fā)了新的多模態(tài)標注審核平臺,可以在平臺上同步處理音頻及對應視頻,做很多高維內(nèi)容選擇,目前處理的最高維度接近1000倍維度的數(shù)據(jù)。
將部分數(shù)據(jù),特別是車行業(yè)里把車的噪聲數(shù)據(jù)及車內(nèi)語音交互式數(shù)據(jù)放到了今年發(fā)布的數(shù)據(jù)開源社區(qū)MagicHub.io,大家感興趣可以到開源社區(qū)里進行相應數(shù)據(jù)下載和試用,如果有更多感興趣的歡迎咨詢我們。
今天我的報告就到這里,謝謝大家!