竞彩足球混合投注500网最新消息/足球胜负彩500足彩网天气预报/西班牙黄金一代/湖人几个总冠军

歡迎光臨車網世界!

微信 | 微博 車網中國公眾號二維碼

當前位置:首頁 > 車頭條 > 汽車新聞 > 返回

邢猛:面向智能座艙的多模感知技術及交互設計思考

發布日期:2021-06-22 11:16   瀏覽次數:3023

車網中國報道
2021年6月17日-19日,由中國汽車工業協會主辦的第11屆中國汽車論壇在上海嘉定舉辦。站在新五年起點上,本屆論壇以“新起點 新戰略 新格局——推動汽車產業高質量發展”為主題,設置“1場閉門峰會+1個大會論壇+2個中外論壇+12個主題論壇”,全面集聚政府主管領導、全球汽車企業領袖、汽車行業精英,共商汽車強國大計,落實國家提出的“碳達峰、碳中和”戰略目標要求,助力構建“雙循環”新發展格局。其中,在6月19日上午舉辦的主題論壇“智能座艙創新技術論壇”上,科大訊飛汽車事業部高級產品總監邢猛發表了主題演講。以下內容為現場演講實錄:
謝謝王教授,感謝王教授和論壇的邀請。如王教授很多,給我們科大訊飛合作機會,更是產學研深度的合作才能推動座艙進一步深度發展。

今天我分享的主題是“面向智能座艙的多模感知技術及交互設計思考”。

科大訊飛提得最多的就是語音,為什么今天不說語音呢?語音一定要說的,但未來語音到多模態一定是趨勢,科大訊飛進入語音行業還是比較早的,十多年了,從語音不可用、可用、不好用、好用,一直在做。應該怎么解決?從語音到多模態一定是未來的發展方式。

現在有很多人在說多模,多模是什么呢?是不是一堆傳感器堆在一起和用戶做交互?是也不是。

今天帶著自己的思考和大家交流。

一、語音。

怎么為用戶更好地服務,怎么占據用戶的時間,怎么在時間內給用戶提供更好的服務是訴求。訴求在車內會更痛,每天在車上待了將近兩個多小時,你會發現以前沒有機器、交互的時候在車內是蠻枯燥的,有人陪你聊天蠻好的。智能網聯越來越發展,很多東西都已經上車了,娛樂、導航、LBS、停車,現在感覺功能還不夠,還在逐漸堆功能。

這么多功能上車,對用戶來說到底是幸福還是負擔?這是我們深深思考的話題,做了這么多功能,從語音、服務,給用戶提供的功能他喜不喜歡?這是我們思考的問題。

怎么給用戶提供更好的交互方式?讓他們用起來更舒服。用戶接觸交互,信息輸入83%來自于視覺,11%來自于聽覺。但信息輸出第一步肯定是靠語音、語調。

但在車里,車里天然曲線性和受限性,把視覺和聽覺的平衡型打破了,在車內很難全靠視覺來做,所以語音非常重要。

今天很多嘉賓分享的語音痛點問題我們深有感觸,所以總結出了語音交互的痛點問題,這也是對這些問題深入思考逐步解決的事情。

這么多年,行業、科大訊飛圍繞為了用戶提供更好的語音交互持續做。但真正想把語音交互閉環做下來,讓用戶在語音交互閉環下用的更爽更流暢。行業內很多客戶想切斷鏈條,切斷后加入更多優勢因素,都沒問題,就看怎么切入、怎么融合,把更多的好資源融合在一起。

技術是解決問題的基礎,是必要要素,但有了技術不一定全部解決用戶的問題,用戶要的是交互、體驗、服務,怎么把交互做好也是我們思考的問題,特別在車內。

車內首當其沖的是安全,所有的技術和交互是滿足一定目的,但是對車內環境首先要保證安全,還有很多,像簡單、智能、人性等等。

舉個小小的例子,在車內語音交互,以前是按鍵、語音喚醒。

比如說“飛魚”是科大訊飛的交互產品品牌名,我們和飛魚說:飛魚,你好,我想去喜來登酒店。”一堆一大還是能幫助你完成,但是足夠簡單嗎?足夠自然嗎?隨著用戶的使用不一定,怎么解決問題?一句話解決“你好飛魚,我想去哪”。這在行業里叫做One-shot。

但用戶發現在這件事情上還需要花很長時間,我的目的就是去喜來登酒店,可不可以有快速表達的方式?喜來登酒店。用戶說完之后,馬上可以反應的解決方案,像行業里的可見即可說。

但用這種問題解決方式是不是更好?能不能把語音的優勢發揮出來?不一定,語音交互最大的優勢是穿透力,所說的“穿透力”是有三個用途用一句話來表達,用一句語音把穿透力打穿是最大優勢。

可見即可說在某些場景下能解決問題,但并不能把語音的最大優勢發揮出來,看、點、說都是一步,并沒有把語音本質的問題發揮到最大。該怎么做?有很多跨場景的免喚醒,場景完全是穿透式跨場景的,上句說“喜來登酒店”,下句話說的是“來首忘情水”。可以看到,語音交互把簡單、自然發揮到極致。

說一下智能和人性化,對智能化產品認知不足的人認為智能化是你能跟我說話就很厲害,但如果對智能化認知很足的用戶就知道智能化遠遠不止這些。

舉一個小小例子,我兒子叫邢子睿,有一次我玩用戶定義,我問邢總是誰,我給我兒子演示,他會說這個很智能,既然你知道我的名字你也知道我的信息,他高興得不得了。

把智能化、個性化釋放給用戶定義,讓他定義自己的智能化,也許他能找到自己的感覺出來。能不能讓用戶參與智能化、人性化的設計?在產品上在按照這樣的方式做,讓他定義對話,定義他認為好聽的模式、形式等。

二、多模。

從語音到多模一定是趨勢,不可能依靠語音解決所有問題,也不能解決所有問題。以人-車-廠為驅動的多模應該怎么做?

汽車是非常復雜的工業集成品,在車內是集多種非常先進的傳感技術于一體,有麥克風、攝像頭、雷達,現在很多玻璃也有智能化了,以及音響,車內的智能設備非常多。車是人工智能最好的舞臺。

車的屬性慢慢發生了變化,車不僅僅是車,傳統的數據車都是有的,車的數據沒變,但隨著智能化需求發展后會對人的需求有進一步的釋放。我在車里有更多的訴求,我要辦公,我要娛樂。對人數據的采集一定是未來越來越重要,會有場,場接觸的空間也會多。人、車、廠的數據是大平臺,采集了很多數據,是移動空間。

有這種思考以后多模感知的融合一定不是單模的,多模高感知技術融合。其次多維數據更好地協同,目的是把用戶體驗、交互體驗提升。

這么多傳感器、數據加在一起,對客戶來講價值是什么?智能化是一個,但對客戶品牌的價值提升,更多商業模式的探索有沒有更好的途徑?一定是有的。

大家認為蘋果手機是賣手機的嗎?也許是,也許不是。

大場景架構要定義“生-光-電”多模態融合,車上有DMS攝像頭、麥克風、手勢,當用戶有微小細微變化的時候,比如說打個哈氣會知道你有變化,給你推薦導航等語音觸發。甚至用戶手指一下說“去那里”,馬上會可以導航過去。

DMS攝像頭、語音麥克風、手勢傳感器結合在一起,用戶會感覺你對我秒懂,不需要做過多解釋,更多傳感器在一起融合才能把交互做得更完整。

前幾天國家全面放開三胎了,車越來越多,空間越來越大,車里有這么多家庭人,屬性肯定是不一樣的,用車的需求也是不一樣的,能不能讓車里的人同時獨立交互。交互之后汽車的反饋也是獨立的,相互之間不干擾。主駕就反饋導航,兒童給娛樂反饋。語音交互和聲音交互座艙聲音管理一定是一體化協同的。

為什么不說語音?語音肯定是非常重要的環節,下一步從聽、說、看、顯全方位和用戶感知在一起。不是簡單的把功能1+1+1加在一起,而是每個環里的交叉部分是非常關鍵的,這部分恰恰是每個領域都解決不好的問題,而交叉問題可以很好地解決。

看具體的案例——多模態免喚醒。

免喚醒跨場景多意圖的語音透傳式的交互非常重要,在車里做交互會發現未來車里有很多人,到底是通過人交互還是通過機器交互,是和誰交互呢?要做區分。怎么做很好的區分?在視覺上是不是有融合進來?我知道你的視線,就知道你是在和機器交互。

還有一些場景發現你的嘴唇有沒有動,如果沒有動突然出現聲音說明你沒有說話,就是干擾。視覺和語音結合在一起,達到多模態免喚醒交互,把在車內交互的可靠性、自然度、連貫性做得更好。

虛擬形象,就是傳統語音波動,展示的就是波動條。需不需要人配合語音做表情?肯定是要的。因為語音是有情緒的,它高興了、悲傷了,在表情上要不要和語音做同步規劃?也一定要做。從多模態合成到多維度合成,多維度合成是情緒的面部表情表達和情緒語言表達展現在一起。

看一下數據,車內數據平臺、場景、用戶、汽車有很多種數據,怎么把數據很好地融合在一起?中科創達做了場景引擎,我們也在做,很多行業都在做。

還要做深度語義理解,不僅僅是文本,知道你的圖像、視覺、語音等,要把深度語義理解做出來,給你的對話邏輯反饋一定是更加智能的。

一個女士開車,也許在車里響各種聲音,很多司機都不知道是什么意思還在繼續往前開,不知道該怎么做。出現這種問題的時候系統、語音助理能不能很好地和他交互,告訴他汽車當天發生什么事情了,是繼續開不要關注他,還是把車停在一邊應該做什么事情。對于車、對于人、對于安全、對于交通系統一定是很好的保證。怎么把汽車的知識圖譜和汽車本身相關的東西給用戶構建成更好的交互是我們在思考的事情。

怎么給客戶創造價值?語音助理的屏在中空位置,每天和用戶打交道,他就是深度的用戶者,后面是汽車、廠商、品牌,能不能很好地連接在一起?車有很多支持,能不能很好地串在一起?一定是有的。

當車、數據到一定階段該保養了,你又知道用戶有這樣的需求,4S店又有這樣的服務,在恰當的時機給用戶恰當地提醒他一定能接受。對主機廠來說,對客戶來講,用戶的深度轉化率會提升。

簡單看一下科大訊飛,6月9日剛過完20歲生日,總體來看科大訊飛現在屬于青年期,還在茁壯成長,希望未來科大訊飛大屏智能行業可以發展更好。

有兩個國家平臺,還有一個是國際對科大訊飛的評價,6月14日獲得了福布斯創新獎。

這都不是關鍵,關鍵的是可以通過趨勢看到國家政策、行業趨勢對人工智能的落地,以及落地的成果取得了階段性的階段,下一步是進入了真正大規模的推廣階段。

科大訊飛在人工智能行業做持續創新,科大訊飛對自己的要求希望從98提升到99,甚至是99.5%,這是作為最核心技術創新企業不能忘記的初心。

看一下行業內服務的現狀,訊飛在2019年、2020年67%-70%的語音交互場景都是客戶提供的,交付的項目1000多個,累計裝機2300萬。

很有幸參加會議,我們要多模,產業、行業、企業在一起就是多模超腦融合的創新之旅,本身就是多模。

科大訊飛持AI之技,攜手行業生態,一起打造智能汽車出行體驗。

謝謝大家! 

上一篇:王志杰:定義你自己的智能場景——智能場景引擎

下一篇:葉盛基:破除瓶頸,消除短板,為汽車產業高質量發展奠定基礎

熱門文章

關于我們 聯系方式 招賢納士 隱私政策 車網歷程

Copyright?2004-2030 車網世界版權所有 京ICP證040347號-1 技術支持:想象力

?