汽車AI智能語音101及其供應(yīng)鏈

駕駛哥

2021年7月8日 10:38

來源 | Vehicle

知圈 | 進(jìn)“域控制器群”請加微13636581676,備注域

沒有人會懷疑智能駕駛座艙是四化下的一個(gè)重要的板塊，何為智能駕駛座艙，是滿眼的大屏？顯然智能駕駛座艙的智能是懂消費(fèi)者，懂消費(fèi)者是從哪幾個(gè)方面？懂消費(fèi)者說的話，懂消費(fèi)者的表情姿態(tài)，基于目前的階段顯然懂消費(fèi)者說的話是最先需要滿足的，因?yàn)檎Z音直接。所以車載語音識別與控制是目前智能駕駛座艙重要方向，Soundhound公司官網(wǎng)數(shù)據(jù)列出目前汽車用戶95%對于車載語音不滿意，但是到2025年汽車車載語音市場達(dá)166億美元，到2028年90%的汽車都會擁有車載語音控制，也印證了車載語音控制的市場以及空間。

本文將結(jié)合相關(guān)資料對車載智能語音的以下部分進(jìn)行分享

車載語音的使用場景
AI車載語音的技術(shù)原理
車載語音的供應(yīng)鏈
當(dāng)前主流以及新勢力汽車廠家的車載語音
AI智能語音的挑戰(zhàn)和未來

本文近五千字希望能給汽車行業(yè)管理戰(zhàn)略，行業(yè)投資，研發(fā)銷售等帶來一些思考。

AI智能語音的使用場景

我相信誰都沒有多大的耐心在車機(jī)上使用按鍵輸入你想要去的目的地，你可能會選擇使用Carplay 以及baidu carlife ，或者采用語音控制。我相信到現(xiàn)在行車時(shí)，誰都知道當(dāng)你低頭去操作車機(jī)控制空調(diào)或者尋找歌曲時(shí)候會給你帶來安全風(fēng)險(xiǎn)，你更愿意語音控制。我相信到現(xiàn)在很多人希望你的車是懂你的可以和你溝通交流的，而語音是最好的方式。所有的這一切就是AI智能語音使用的場景。

Voicebot 的調(diào)研顯示現(xiàn)在94%的人表示會繼續(xù)和更加使用車載語音控制，超過47%表示未來肯定會更加依賴語音控制。

voicebot 最新調(diào)查顯示超過60%在購買車輛時(shí)候會考慮到車載語音控制

Voicebot最新車載語音控制調(diào)查顯示，當(dāng)前車載語音控制主要應(yīng)用在幾個(gè)方面：

73%的人會使用車載語音接打電話
50%的人會使用車載導(dǎo)航
41%的人會使用車載語音發(fā)短信
38.7%的會使用車載語音控制播放音樂

所以當(dāng)前消費(fèi)者對智能語音是需求非常高，但主要應(yīng)用場景是沒有大面積打開，主要是當(dāng)前語音控制確實(shí)鮮有做的比較好的，對于智能駕駛座艙來講未來還有廣闊的空間。

未來使用場景，導(dǎo)航以及娛樂會更加加強(qiáng) ，但是隨著家庭萬物互聯(lián)的到來車機(jī)控制家里的設(shè)施需求更加強(qiáng)烈，另外預(yù)定酒店，餐廳，預(yù)定服務(wù)等等。可想而知在自動駕駛短時(shí)間內(nèi)人類無法完全脫離駕駛的時(shí)候，車載語音控制的需求和實(shí)用遠(yuǎn)比其他消費(fèi)電子更多。

AI智能語音的原理

前端信號處理

是麥克風(fēng)接收到語音之后，前端信號處理進(jìn)行回聲消除以及降噪以供下一步的處理。

ASR自動語音識別

這一步是將語音數(shù)字化，然后分解或解析口語問題中的自然語言，以便機(jī)器識別每個(gè)單詞。由于不同的口音、無法識別的語調(diào)，同時(shí)語義具有領(lǐng)域性特征，甚至環(huán)境背景噪音，這種翻譯的準(zhǔn)確性可能并不總是 100%，這也是具有挑戰(zhàn)性的，所以這里有兩個(gè)重點(diǎn)，一個(gè)是芯片處理速度，第二個(gè)是芯片處理算法。

所以現(xiàn)代ASR 引擎利用云中高度可擴(kuò)展的計(jì)算服務(wù)，并應(yīng)用自動語音識別 (ASR) 算法將短語快速分解為可分析的組成詞。為 Alexa 提供支持的一項(xiàng)此類服務(wù)稱為 Amazon Lex，現(xiàn)在所有主要供應(yīng)商都提供云服務(wù)：Microsoft Cognitive Services、Google Cloud Natural Language。這些服務(wù)不僅為應(yīng)用程序開發(fā)人員提供了一個(gè)集成的云服務(wù)來執(zhí)行 ASR，而且還執(zhí)行理解單詞和確定意圖所需的分析和統(tǒng)計(jì)置信度評分。

NLU自然語音理解

這一步在單詞被解析并翻譯成機(jī)器語言后立即發(fā)生。自然語言理解 (NLU) 是語音控制迄今為止最困難的一步，因?yàn)橄到y(tǒng)需要理解用戶原始問題的意圖。由于自然口語可能存在歧義，因此這一點(diǎn)很復(fù)雜，因此 NLU 算法必須使用各種詞匯分析模型來消除單詞的歧義。這也就是構(gòu)建成了現(xiàn)有玩家們的核心實(shí)力。

當(dāng)前AI語音中開發(fā)人員創(chuàng)建規(guī)則來“訓(xùn)練”應(yīng)用程序正確應(yīng)用這些規(guī)則以確定用戶的意圖。當(dāng)然，每個(gè)人提出的問題都不一樣。因此，多個(gè)問題可能具有相同的意圖。例如，以下話語可能都具有相同的意圖，調(diào)低空調(diào)溫度：

“請調(diào)低空調(diào)溫度”

“我很熱”

“我覺得很熱”

只有正確理解了意圖，才可以啟動功能。

DM 對話管理

很多時(shí)候我們判斷車機(jī)智能不智能都會通過和他聊天去確定他是傻還是真智能，而聊天很多時(shí)候語句會斷而且還有補(bǔ)充語句，這個(gè)時(shí)候?qū)υ捁芾砭彤惓Ｖ匾＠纾?br style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;">

“請幫我導(dǎo)航到最近肯德基”結(jié)果你還需要停車場，那么你可能立馬補(bǔ)充一句有停車場的，甚至很多時(shí)候你會有更多的補(bǔ)充，在這里，對話的對話方面被考慮在內(nèi)。對話實(shí)際上是用戶與系統(tǒng)之間的動態(tài)交互序列，這意味著策略定義、執(zhí)行子任務(wù)以及從諸如用戶誤解等意外情況中檢索。

通過記住對話歷史，可以使計(jì)算機(jī)輸出更自然，更符合智能語音。

NLG自然語音生成

為了提出交互式響應(yīng)，計(jì)算機(jī)需要能夠與用戶進(jìn)行交流。這被稱為自然語言生成 (NLG)。把它想象成與以上剛剛描述的相反的方向。NLG 使用機(jī)器語言，使用一組語法規(guī)則和詞典，將其翻譯成規(guī)則的單詞和句子。

TTS文字轉(zhuǎn)語音

通常，最后一步是使用語言模型將文本合成為音頻，以在稱為文本到語音的過程中模擬人聲，從而實(shí)現(xiàn)互動。

同樣，以 AWS 為例，AWS 上有一項(xiàng)名為 Polly 的服務(wù)，可將文本轉(zhuǎn)換為逼真的語音，以便確認(rèn)或其他問題可以以自然語音回傳。每次您的設(shè)備向您“寫”一些東西時(shí)，它也會大聲說出來。這是文字轉(zhuǎn)語音。

總共這六大塊，有業(yè)內(nèi)人士說“語音識別技術(shù)并不難，有很多開源的技術(shù)，難的是語義理解，這需要建立一個(gè)復(fù)雜的知識庫(內(nèi)容域)，將字詞和背后的意思聯(lián)系起來，其實(shí)這就需要人工智能的能力，需要大數(shù)據(jù)對人工智能的不斷總結(jié)和訓(xùn)練。

所以這就造就了當(dāng)前大家的技術(shù)方向，離線以及云端的語音內(nèi)核，也改變了當(dāng)前車載語音供應(yīng)鏈結(jié)構(gòu)，也給很多IT 企業(yè)商機(jī)，當(dāng)然更重要的是確實(shí)推動了車載語音的進(jìn)步最后提高了客戶體驗(yàn)。

AI 智能語音的供應(yīng)鏈和玩家們

對于AI 智能語音的供應(yīng)鏈，主要包括以下幾個(gè)方面：

麥克風(fēng)和音響
AI Engine
AI 芯片
智能語音應(yīng)用
服務(wù)以及集成
AI框架以及存儲

麥克風(fēng)和音響 ，屬于比較傳統(tǒng)的序列，基本上以當(dāng)前汽車原有供應(yīng)商序列，但當(dāng)前催生的比較火的是MEMS（微機(jī)電系統(tǒng)Micro-Electro Mechanical System）麥克風(fēng)，他的優(yōu)點(diǎn)有低能耗，小，且精度高等優(yōu)點(diǎn)。

AI ASR 以及NLP（NLU,NLG,TTS） Engine ，是包括所有語音識別，自然語音處理和反饋機(jī)制的處理引擎，國際非常出名的是Nuance 下面拆分上市的Cerence，基本上所有的合資以及進(jìn)口車型都采用其服務(wù)，當(dāng)前需要進(jìn)軍國際車市的國產(chǎn)品牌都會采用其服務(wù)，主要是由于其歷史悠久而且語言覆蓋率是最廣的，離線能力強(qiáng)。而且當(dāng)初科大訊飛還代理過其語言識別，另外是houndify ，他和Cerence有一樣的優(yōu)點(diǎn)是強(qiáng)調(diào)汽車制造商可以有一個(gè)強(qiáng)大的語音助手而不放棄他們的用戶體驗(yàn)或數(shù)據(jù)到亞馬遜，蘋果或谷歌。它目前提供基于云的人工智能服務(wù)。

國內(nèi)比較出名的當(dāng)屬科大訊飛，云知聲，出門問問，思必馳，顯然他們的優(yōu)點(diǎn)是對中國語言的專注，當(dāng)前也是基于云的強(qiáng)大應(yīng)用。

AI Chip芯片和模塊

對于芯片這邊，芯片還是來自于傳統(tǒng)的芯片模塊巨頭，例如NXP,Novida，Renesas，infineon等。國內(nèi)在AI語言這塊還是有不少玩家參與例如地平線，云知聲，思必馳等。

AI 智能語音應(yīng)用 ，AI 智能語音應(yīng)用廣泛，其實(shí)就是你交互的那個(gè)應(yīng)用，我們這里劃分成以下三個(gè)：

本地自然語音-基本上當(dāng)車輛不聯(lián)網(wǎng)時(shí)候能夠使用的就是本地自然語音應(yīng)用一般是cerence的優(yōu)勢，他需要把前面介紹的ASR,NLU,NLG,TTS都全部集成在本地以便無網(wǎng)絡(luò)支持時(shí)候使用
網(wǎng)絡(luò)自然語音-網(wǎng)絡(luò)自然語音顯然就是AI的自然語音云處理以及調(diào)用云庫信息以實(shí)現(xiàn)更智能的響應(yīng)，同時(shí)部分帶有互聯(lián)網(wǎng)應(yīng)用生態(tài)。
第三方自然語音-就是獨(dú)立的應(yīng)用基本是移植自消費(fèi)電子端的應(yīng)用，他優(yōu)勢是有豐富海量的應(yīng)用例如亞馬遜的Alexa，蘋果的SIRI，國內(nèi)的天貓精靈，百度小度等,但目前他們都沒有離線能力。

其實(shí)現(xiàn)在互聯(lián)網(wǎng)汽車都可能同時(shí)含有以上三個(gè)應(yīng)用，以滿足不同的應(yīng)用場景。

智能語音開發(fā)服務(wù)以及集成 ，其實(shí)智能語音開發(fā)和服務(wù)集成也擁有很大的市場，他是服務(wù)主機(jī)廠幫助其快速整合打通智能語音開發(fā)服務(wù)和集成到整車項(xiàng)目中，國際上有LG,Bosch,大陸，國內(nèi)有鎂佳科技，仙豆智能，出門問問(ASR NLU, cerence的TTS)，同行者（云知聲技術(shù)支持）。

云服務(wù)器以及AI 框架 ，隨著智能語音控制的誕生，顯然離線車載語音已經(jīng)無法滿足，AI引擎，庫以及AI 訓(xùn)練的需求。以及各大主機(jī)廠都不愿意把數(shù)據(jù)庫提供給第三方的AI引擎，更愿意請第三方整合不同的AI引擎采用不同的云以及AI框架，最后數(shù)據(jù)和庫歸自己所有的方式。所以云服務(wù)器以及AI框架是非常重要的一個(gè)組成部分，現(xiàn)在比較頭部的玩家有亞馬遜，微軟，英偉達(dá)，國內(nèi)有阿里云和百度云以及其框架。

當(dāng)前主流以及新勢力汽車廠家的車載語音

我相信最近上汽董事長陳虹對于自動駕駛?cè)A為的全包方案喊出”不做沒有靈魂的軀殼“時(shí)候我們就會明白，聰明的主流廠商不會選擇一家全包，而是采用融合，其中固然有幾點(diǎn)，對于供應(yīng)商的管理，對于核心數(shù)據(jù)的擁有。所以目前車載語音主流主機(jī)廠們采取的方案是融合供應(yīng)商的ASR,NLU,DM,NLG,TTS，自己掌握核心數(shù)據(jù)。

奔馳MUBX：

采用Nvidia 芯片以及AI 框架，同時(shí)該解決方案利用Nuance 的Dragon Drive的ASR 和SoundHound 的Houdify 的TTS，實(shí)現(xiàn)自然語言交互并支持更廣泛的用例集。梅賽德斯司機(jī)還可以分別使用藍(lán)牙或 Apple CarPlay 和 Android Auto 訪問 Siri 或 Google Assistant。但是，這些解決方案無法讓駕駛員控制汽車功能，例如氣候和機(jī)艙設(shè)置。

寶馬IDRIVE:

BMW與微軟的Bot框架、Azure Bot服務(wù)和認(rèn)知服務(wù)解決方案合作開發(fā)了多助手平臺。他甚至可以通過嵌入式助手訪問您的Microsoft Office應(yīng)用程序。同時(shí)與Apple CarPlay、Android Auto和Alexa Auto選項(xiàng)共存的助手。

蔚來:

科大訊飛為提供了底層能力（應(yīng)該是ASR，NLU），蔚來自有產(chǎn)品技術(shù)團(tuán)隊(duì)（抑或是鎂佳科技）根據(jù)車輛使用場景進(jìn)行了定制化開發(fā)，實(shí)現(xiàn)DM（對話管理）、NLG（對話生成，語料庫設(shè)計(jì)）和TTS。

目前cerence有消息稱蔚來采用其服務(wù)，可以肯定一點(diǎn)是蔚來要進(jìn)入歐洲市場或者其他市場必定會采用他就像前文講的cerence的優(yōu)勢語言覆蓋廣，當(dāng)然也可能是為了供應(yīng)商管理采用多方服務(wù)。

小鵬:

小鵬的語音技術(shù)是和思必馳合作開發(fā)的，小鵬首先搭建起框架，語音識別過程中具體的語音喚醒、語音識別采用了思必馳的技術(shù)，一些基本功能如打電話、查天氣和語音合成等也是采用了思必馳的技術(shù)。而更為核心的語義解析、識別增強(qiáng)、語義抗噪、語義打斷、自然語言處理等功能則是小鵬自主研發(fā)，當(dāng)然以上語句為小鵬宣稱的但是你了解，其實(shí)小鵬采用了Cerence 以及科大訊飛的服務(wù)，可能是不同車型采用不同的方案，也可能是整合各方優(yōu)勢，例如ASR采用科大訊飛，TTS 采用Cerence。

小鵬的語音助手的處理和決策在本地和云端兩部分進(jìn)行，喚醒、車控這些基本的功能都會在本地進(jìn)行，更多需要計(jì)算能力的功能則會在云端進(jìn)行，在沒有聯(lián)網(wǎng)的情況下，會進(jìn)行網(wǎng)絡(luò)重連，一旦重連成功，會首先恢復(fù)云端計(jì)算。如果實(shí)在無法恢復(fù)網(wǎng)絡(luò)，導(dǎo)航和音樂等需要借助于云端的功能就無法實(shí)現(xiàn)，但對車輛的控制是可以實(shí)現(xiàn)。

上汽：

上汽的斑馬采用了達(dá)摩院提供的前端算法、喚醒，思必馳提供語音識別能力，科大訊飛提供 TTS 音色。

上汽的其他車系有采用Cerence的ASR以及其他服務(wù)因?yàn)樾枰獓H化，所以需要各種語音的ASR.

總的來講，主機(jī)廠智能語音主流趨勢是整合各方供應(yīng)商的語音引擎，建立自有語音平臺數(shù)據(jù)庫，支持第三方智能語音應(yīng)用生態(tài)。

AI智能車載語音的挑戰(zhàn)和未來

顯然AI智能語音是未來智能駕駛座艙的重中之重，猶如駕駛體系的自動駕駛駕駛，拓展后是基于智能語音的應(yīng)用生態(tài)。

目前評價(jià)語音識別的指標(biāo)有：準(zhǔn)確率-語言喚醒，聲源定位，在線/離線識別率，語義理解率，連續(xù)對話理解，單句多任務(wù)理解。未來可能會有更多的聲音指紋，生態(tài)等。基于這些需求可能引發(fā)如下技術(shù)和法律方面的挑戰(zhàn)：

背景噪聲，口音，長句，多句的識別準(zhǔn)確率。汽車背景噪聲會破壞正在分析的音頻信號，并嚴(yán)重影響結(jié)果詞的準(zhǔn)確性。口音，長句，多句都是需要不斷學(xué)習(xí)和建立數(shù)據(jù)庫的過程。
隱私，學(xué)習(xí)處理大數(shù)據(jù)，當(dāng)麥克風(fēng)一直在監(jiān)聽并把你的信息錄音發(fā)送到云端，你是不是后背發(fā)麻，這個(gè)個(gè)人隱私法律是未來巨大挑戰(zhàn)？學(xué)習(xí)和處理大數(shù)據(jù)需要的算法和處理同樣是未來挑戰(zhàn)
仿生視覺和語音融合識別，人類都非常明白表達(dá)時(shí)候的身體以及面部表情是富含豐富的信息，有時(shí)候語言可能帶有欺騙性，所以未來仿生視覺和語言融合是語音控制的高階方向。
軟硬一體的云+端模式

最后

借用Nodes的一張圖，誰是這個(gè)車載語音技術(shù)領(lǐng)域的領(lǐng)先公司，哪家汽車會提供給客戶最好體驗(yàn)的語音控制？下面的地圖列出了玩家一些玩家，顯然目前還是戰(zhàn)國時(shí)代，大家都在圈自己的地盤，我們也看到了不少AI算法框架的工具例如chatflow，voiceflow。可以肯定未來擁有大數(shù)據(jù)，基于大數(shù)據(jù)準(zhǔn)確的分析算法是制勝的法寶。

參考文章

Voicebot 2019，2020研究報(bào)告
行走的語音-Capgemini
Automotive Packaging: Market and Technologies Trends - Yole
Empowering automotive innovation Seizing the connected car opportunity with Microsoft
現(xiàn)代汽車te

汽車AI智能語音101及其供應(yīng)鏈的圖13