知圈
|
進(jìn)“域控制器群”請加微13636581676,備注
域
沒有人會懷疑智能駕駛座艙是四化下的一個(gè)重要的板塊,何為智能駕駛座艙,是滿眼的大屏?顯然智能駕駛座艙的智能是懂消費(fèi)者,懂消費(fèi)者是從哪幾個(gè)方面?懂消費(fèi)者說的話,懂消費(fèi)者的表情姿態(tài),基于目前的階段顯然懂消費(fèi)者說的話是最先需要滿足的,因?yàn)檎Z音直接。所以車載語音識別與控制是目前智能駕駛座艙重要方向,Soundhound公司官網(wǎng)數(shù)據(jù)列出目前汽車用戶95%對于車載語音不滿意,但是到2025年汽車車載語音市場達(dá)166億美元,到2028年90%的汽車都會擁有車載語音控制,也印證了車載語音控制的市場以及空間。
本文將結(jié)合相關(guān)資料對車載智能語音的以下部分進(jìn)行分享
本文近五千字希望能給汽車行業(yè)管理戰(zhàn)略,行業(yè)投資,研發(fā)銷售等帶來一些思考。
我相信誰都沒有多大的耐心在車機(jī)上使用按鍵輸入你想要去的目的地,你可能會選擇使用Carplay 以及baidu carlife ,或者采用語音控制。我相信到現(xiàn)在行車時(shí),誰都知道當(dāng)你低頭去操作車機(jī)控制空調(diào)或者尋找歌曲時(shí)候會給你帶來安全風(fēng)險(xiǎn),你更愿意語音控制。我相信到現(xiàn)在很多人希望你的車是懂你的可以和你溝通交流的,而語音是最好的方式。所有的這一切就是AI智能語音使用的場景。
Voicebot 的調(diào)研顯示現(xiàn)在94%的人表示會繼續(xù)和更加使用車載語音控制,超過47%表示未來肯定會更加依賴語音控制。
voicebot 最新調(diào)查顯示超過60%在購買車輛時(shí)候會考慮到車載語音控制
Voicebot最新車載語音控制調(diào)查顯示,當(dāng)前車載語音控制主要應(yīng)用在幾個(gè)方面:
所以當(dāng)前消費(fèi)者對智能語音是需求非常高,但主要應(yīng)用場景是沒有大面積打開,主要是當(dāng)前語音控制確實(shí)鮮有做的比較好的,對于智能駕駛座艙來講未來還有廣闊的空間。
未來使用場景,導(dǎo)航以及娛樂會更加加強(qiáng)
,但是隨著家庭萬物互聯(lián)的到來車機(jī)控制家里的設(shè)施需求更加強(qiáng)烈,
另外預(yù)定酒店,餐廳,預(yù)定服務(wù)等等。可想而知在自動駕駛短時(shí)間內(nèi)人類無法完全脫離駕駛
的時(shí)候,車載語音控制的需求和實(shí)用遠(yuǎn)比其他消費(fèi)電子更多。
是麥克風(fēng)接收到語音之后,前端信號處理進(jìn)行回聲消除以及降噪以供下一步的處理。
這一步是將語音數(shù)字化,然后分解或解析口語問題中的自然語言,以便機(jī)器識別每個(gè)單詞。由于不同的口音、無法識別的語調(diào),同時(shí)語義具有領(lǐng)域性特征,甚至環(huán)境背景噪音,這種翻譯的準(zhǔn)確性可能并不總是 100%,這也是具有挑戰(zhàn)性的,所以這里有兩個(gè)重點(diǎn),一個(gè)是芯片處理速度,第二個(gè)是芯片處理算法。
所以現(xiàn)代ASR 引擎利用云中高度可擴(kuò)展的計(jì)算服務(wù),并應(yīng)用自動語音識別 (ASR) 算法將短語快速分解為可分析的組成詞。為 Alexa 提供支持的一項(xiàng)此類服務(wù)稱為 Amazon Lex,現(xiàn)在所有主要供應(yīng)商都提供云服務(wù):Microsoft Cognitive Services、Google Cloud Natural Language。這些服務(wù)不僅為應(yīng)用程序開發(fā)人員提供了一個(gè)集成的云服務(wù)來執(zhí)行 ASR,而且還執(zhí)行理解單詞和確定意圖所需的分析和統(tǒng)計(jì)置信度評分。
這一步在單詞被解析并翻譯成機(jī)器語言后立即發(fā)生。自然語言理解 (NLU) 是語音控制迄今為止最困難的一步,因?yàn)橄到y(tǒng)需要理解用戶原始問題的意圖。由于自然口語可能存在歧義,因此這一點(diǎn)很復(fù)雜,因此 NLU 算法必須使用各種詞匯分析模型來消除單詞的歧義。這也就是構(gòu)建成了現(xiàn)有玩家們的核心實(shí)力。
當(dāng)前AI語音中開發(fā)人員創(chuàng)建規(guī)則來“訓(xùn)練”應(yīng)用程序正確應(yīng)用這些規(guī)則以確定用戶的意圖。當(dāng)然,每個(gè)人提出的問題都不一樣。因此,多個(gè)問題可能具有相同的意圖。例如,以下話語可能都具有相同的意圖,調(diào)低空調(diào)溫度:
很多時(shí)候我們判斷車機(jī)智能不智能都會通過和他聊天去確定他是傻還是真智能,而聊天很多時(shí)候語句會斷而且還有補(bǔ)充語句,這個(gè)時(shí)候?qū)υ捁芾砭彤惓V匾@纾?br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">
“請幫我導(dǎo)航到最近肯德基”結(jié)果你還需要停車場,那么你可能立馬補(bǔ)充一句有停車場的,甚至很多時(shí)候你會有更多的補(bǔ)充,在這里,對話的對話方面被考慮在內(nèi)。對話實(shí)際上是用戶與系統(tǒng)之間的動態(tài)交互序列,這意味著策略定義、執(zhí)行子任務(wù)以及從諸如用戶誤解等意外情況中檢索。
通過記住對話歷史,可以使計(jì)算機(jī)輸出更自然,更符合智能語音。
為了提出交互式響應(yīng),計(jì)算機(jī)需要能夠與用戶進(jìn)行交流。這被稱為自然語言生成 (NLG)。把它想象成與以上剛剛描述的相反的方向。NLG 使用機(jī)器語言,使用一組語法規(guī)則和詞典,將其翻譯成規(guī)則的單詞和句子。
通常,最后一步是使用語言模型將文本合成為音頻,以在稱為文本到語音的過程中模擬人聲,從而實(shí)現(xiàn)互動。
同樣,以 AWS 為例,AWS 上有一項(xiàng)名為 Polly 的服務(wù),可將文本轉(zhuǎn)換為逼真的語音,以便確認(rèn)或其他問題可以以自然語音回傳。每次您的設(shè)備向您“寫”一些東西時(shí),它也會大聲說出來。這是文字轉(zhuǎn)語音。
總共這六大塊,有業(yè)內(nèi)人士說“語音識別技術(shù)并不難,有很多開源的技術(shù),難的是語義理解,這需要建立一個(gè)復(fù)雜的知識庫(內(nèi)容域),將字詞和背后的意思聯(lián)系起來,其實(shí)這就需要人工智能的能力,需要大數(shù)據(jù)對人工智能的不斷總結(jié)和訓(xùn)練
。
所以這就造就了當(dāng)前大家的技術(shù)方向,離線以及云端的語音內(nèi)核,也改變了當(dāng)前車載語音供應(yīng)鏈結(jié)構(gòu),也給很多IT 企業(yè)商機(jī),當(dāng)然更重要的是確實(shí)推動了車載語音的進(jìn)步最后提高了客戶體驗(yàn)。
對于AI 智能語音的供應(yīng)鏈,主要包括以下幾個(gè)方面:
麥克風(fēng)和音響
,屬于比較傳統(tǒng)的序列,基本上以當(dāng)前汽車原有供應(yīng)商序列,但當(dāng)前催生的比較火的是MEMS(微機(jī)電系統(tǒng)Micro-Electro Mechanical System)麥克風(fēng),他的優(yōu)點(diǎn)有低能耗,小,且精度高等優(yōu)點(diǎn)。
AI ASR 以及NLP(NLU,NLG,TTS) Engine
,是包括所有語音識別,自然語音處理和反饋機(jī)制的處理引擎,國際非常出名的是Nuance 下面拆分上市的Cerence,基本上所有的合資以及進(jìn)口車型都采用其服務(wù),當(dāng)前需要進(jìn)軍國際車市的國產(chǎn)品牌都會采用其服務(wù),主要是由于其歷史悠久而且語言覆蓋率是最廣的,離線能力強(qiáng)。而且當(dāng)初科大訊飛還代理過其語言識別,另外是houndify ,他和Cerence有一樣的優(yōu)點(diǎn)是強(qiáng)調(diào)汽車制造商可以有一個(gè)強(qiáng)大的語音助手而不放棄他們的用戶體驗(yàn)或數(shù)據(jù)到亞馬遜,蘋果或谷歌。它目前提供基于云的人工智能服務(wù)。
國內(nèi)比較出名的當(dāng)屬科大訊飛,云知聲,出門問問,思必馳,顯然他們的優(yōu)點(diǎn)是對中國語言的專注,當(dāng)前也是基于云的強(qiáng)大應(yīng)用。
對于芯片這邊,芯片還是來自于傳統(tǒng)的芯片模塊巨頭,例如NXP,Novida,Renesas,infineon等。國內(nèi)在AI語言這塊還是有不少玩家參與例如地平線,云知聲,思必馳等。
AI 智能語音應(yīng)用
,AI 智能語音應(yīng)用廣泛,其實(shí)就是你交互的那個(gè)應(yīng)用,我們這里劃分成以下三個(gè):
-
本地自然語音-基本上當(dāng)車輛不聯(lián)網(wǎng)時(shí)候能夠使用的就是本地自然語音應(yīng)用一般是cerence的優(yōu)勢,他需要把前面介紹的ASR,NLU,NLG,TTS都全部集成在本地以便無網(wǎng)絡(luò)支持時(shí)候使用
-
網(wǎng)絡(luò)自然語音-網(wǎng)絡(luò)自然語音顯然就是AI的自然語音云處理以及調(diào)用云庫信息以實(shí)現(xiàn)更智能的響應(yīng),同時(shí)部分帶有互聯(lián)網(wǎng)應(yīng)用生態(tài)。
-
第三方自然語音-就是獨(dú)立的應(yīng)用基本是移植自消費(fèi)電子端的應(yīng)用,他優(yōu)勢是有豐富海量的應(yīng)用例如亞馬遜的Alexa,蘋果的SIRI,國內(nèi)的天貓精靈,百度小度等,但目前他們都沒有離線能力。
其實(shí)現(xiàn)在互聯(lián)網(wǎng)汽車都可能同時(shí)含有以上三個(gè)應(yīng)用,以滿足不同的應(yīng)用場景。
智能語音開發(fā)服務(wù)以及集成
,其實(shí)智能語音開發(fā)和服務(wù)集成也擁有很大的市場,他是服務(wù)主機(jī)廠幫助其快速整合打通智能語音開發(fā)服務(wù)和集成到整車項(xiàng)目中,國際上有LG,Bosch,大陸,國內(nèi)有鎂佳科技,仙豆智能,出門問問(ASR NLU, cerence的TTS),同行者(云知聲技術(shù)支持)。
云服務(wù)器以及AI 框架
,隨著智能語音控制的誕生,顯然離線車載語音已經(jīng)無法滿足,AI引擎,庫以及AI 訓(xùn)練的需求。以及各大主機(jī)廠都不愿意把數(shù)據(jù)庫提供給第三方的AI引擎,更愿意請第三方整合不同的AI引擎采用不同的云以及AI框架,最后數(shù)據(jù)和庫歸自己所有的方式。所以云服務(wù)器以及AI框架是非常重要的一個(gè)組成部分,現(xiàn)在比較頭部的玩家有亞馬遜,微軟,英偉達(dá),國內(nèi)有阿里云和百度云以及其框架。
我相信最近上汽董事長陳虹對于自動駕駛?cè)A為的全包方案喊出”不做沒有靈魂的軀殼“時(shí)候我們就會明白,聰明的主流廠商不會選擇一家全包,而是采用融合,其中固然有幾點(diǎn),對于供應(yīng)商的管理,對于核心數(shù)據(jù)的擁有。所以目前車載語音主流主機(jī)廠們采取的方案是融合供應(yīng)商的ASR,NLU,DM,NLG,TTS,自己掌握核心數(shù)據(jù)。
采用Nvidia 芯片以及AI 框架,同時(shí)該解決方案利用Nuance 的Dragon Drive的ASR 和SoundHound 的Houdify 的TTS,實(shí)現(xiàn)自然語言交互并支持更廣泛的用例集。梅賽德斯司機(jī)還可以分別使用藍(lán)牙或 Apple CarPlay 和 Android Auto 訪問 Siri 或 Google Assistant。但是,這些解決方案無法讓駕駛員控制汽車功能,例如氣候和機(jī)艙設(shè)置。
BMW與微軟的Bot框架、Azure Bot服務(wù)和認(rèn)知服務(wù)解決方案合作開發(fā)了多助手平臺。他甚至可以通過嵌入式助手訪問您的Microsoft Office應(yīng)用程序。同時(shí)與Apple CarPlay、Android Auto和Alexa Auto選項(xiàng)共存的助手。
科大訊飛為提供了底層能力(應(yīng)該是ASR,NLU),蔚來自有產(chǎn)品技術(shù)團(tuán)隊(duì)(抑或是鎂佳科技)根據(jù)車輛使用場景進(jìn)行了定制化開發(fā),實(shí)現(xiàn)DM(對話管理)、NLG(對話生成,語料庫設(shè)計(jì))和TTS。
目前cerence有消息稱蔚來采用其服務(wù),可以肯定一點(diǎn)是蔚來要進(jìn)入歐洲市場或者其他市場必定會采用他就像前文講的cerence的優(yōu)勢語言覆蓋廣,當(dāng)然也可能是為了供應(yīng)商管理采用多方服務(wù)。
小鵬的語音技術(shù)是和思必馳合作開發(fā)的,小鵬首先搭建起框架,語音識別過程中具體的語音喚醒、語音識別采用了思必馳的技術(shù),一些基本功能如打電話、查天氣和語音合成等也是采用了思必馳的技術(shù)。而更為核心的語義解析、識別增強(qiáng)、語義抗噪、語義打斷、自然語言處理等功能則是小鵬自主研發(fā),當(dāng)然以上語句為小鵬宣稱的但是你了解,其實(shí)小鵬采用了Cerence 以及科大訊飛的服務(wù),可能是不同車型采用不同的方案,也可能是整合各方優(yōu)勢,例如ASR采用科大訊飛,TTS 采用Cerence。
小鵬的語音助手的處理和決策在本地和云端兩部分進(jìn)行,喚醒、車控這些基本的功能都會在本地進(jìn)行,更多需要計(jì)算能力的功能則會在云端進(jìn)行,在沒有聯(lián)網(wǎng)的情況下,會進(jìn)行網(wǎng)絡(luò)重連,一旦重連成功,會首先恢復(fù)云端計(jì)算。如果實(shí)在無法恢復(fù)網(wǎng)絡(luò),導(dǎo)航和音樂等需要借助于云端的功能就無法實(shí)現(xiàn),但對車輛的控制是可以實(shí)現(xiàn)。
上汽的斑馬采用了達(dá)摩院提供的前端算法、喚醒,思必馳提供語音識別能力,科大訊飛提供 TTS 音色。
上汽的其他車系有采用Cerence的ASR以及其他服務(wù)因?yàn)樾枰獓H化,所以需要各種語音的ASR.
總的來講,主機(jī)廠智能語音主流趨勢是整合各方供應(yīng)商的語音引擎,建立自有語音平臺數(shù)據(jù)庫,支持第三方智能語音應(yīng)用生態(tài)。
顯然AI智能語音是未來智能駕駛座艙的重中之重,猶如駕駛體系的自動駕駛駕駛,拓展后是基于智能語音的應(yīng)用生態(tài)。
目前評價(jià)語音識別的指標(biāo)有:準(zhǔn)確率-語言喚醒,聲源定位,在線/離線識別率,語義理解率,連續(xù)對話理解,單句多任務(wù)理解。未來可能會有更多的聲音指紋,生態(tài)等。基于這些需求可能引發(fā)如下技術(shù)和法律方面的挑戰(zhàn):
-
背景噪聲,口音,長句,多句的識別準(zhǔn)確率。汽車背景噪聲會破壞正在分析的音頻信號, 并嚴(yán)重影響結(jié)果詞的準(zhǔn)確性。口音,長句,多句都是需要不斷學(xué)習(xí)和建立數(shù)據(jù)庫的過程。
-
隱私,學(xué)習(xí)處理大數(shù)據(jù),當(dāng)麥克風(fēng)一直在監(jiān)聽并把你的信息錄音發(fā)送到云端,你是不是后背發(fā)麻,這個(gè)個(gè)人隱私法律是未來巨大挑戰(zhàn)?學(xué)習(xí)和處理大數(shù)據(jù)需要的算法和處理同樣是未來挑戰(zhàn)
-
仿生視覺和語音融合識別,人類都非常明白表達(dá)時(shí)候的身體以及面部表情是富含豐富的信息,有時(shí)候語言可能帶有欺騙性,所以未來仿生視覺和語言融合是語音控制的高階方向。
-
借用Nodes的一張圖,誰是這個(gè)車載語音技術(shù)領(lǐng)域的領(lǐng)先公司,哪家汽車會提供給客戶最好體驗(yàn)的語音控制?下面的地圖列出了玩家一些玩家,顯然目前還是戰(zhàn)國時(shí)代,大家都在圈自己的地盤,我們也看到了不少AI算法框架的工具例如chatflow,voiceflow。可以肯定未來擁有大數(shù)據(jù),基于大數(shù)據(jù)準(zhǔn)確的分析算法是制勝的法寶。
Voicebot 2019,2020研究報(bào)告
行走的語音-Capgemini
Automotive Packaging: Market and Technologies Trends - Yole
Empowering automotive innovation Seizing the connected car opportunity with Microsoft
現(xiàn)代汽車te
