發(fā)布

語音識(shí)別的案例

重磅 |《智能家電語音識(shí)別與交互技術(shù)白皮書》出爐

本白皮書通過對用戶需求、基礎(chǔ)技術(shù)需求和交互需求進(jìn)行研究分析，闡述了在產(chǎn)品聲學(xué)結(jié)構(gòu)設(shè)計(jì)、遠(yuǎn)場語音識(shí)別、分布式喚醒、降噪處理等方面所面臨的挑戰(zhàn) ，并結(jié)合當(dāng)前智能語音技術(shù)解決方案的能力現(xiàn)狀，對前端處理、定向拾音、喚醒技術(shù)、標(biāo)準(zhǔn)和檢測等領(lǐng)域進(jìn)行了研究分析，同時(shí)對麥克風(fēng)系統(tǒng)設(shè)計(jì)、揚(yáng)聲器系統(tǒng)設(shè)計(jì)、電控系統(tǒng)設(shè)計(jì)分享了實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn) ，為智能家電語音識(shí)別與交互技術(shù)質(zhì)量提升提供了產(chǎn)業(yè)指引。點(diǎn)擊下圖，即可查看/下載白皮書或手機(jī)掃描如下二維碼 ↓

Google發(fā)布最新「語音命令」數(shù)據(jù)集，可有效提高關(guān)鍵詞識(shí)別系統(tǒng)性能

這些約束意味著，關(guān)鍵詞識(shí)別的任務(wù)與一旦發(fā)現(xiàn)交互后在服務(wù)器上執(zhí)行的語音識(shí)別是完全不同的：關(guān)鍵詞識(shí)別模型必須更小，所涉及的計(jì)算量更少。它們需要以非常節(jié)能的方式運(yùn)行。它們的大部分輸入是沉默或背景噪聲，而不是言語，所以誤報(bào)必須盡量減少。大部分語音輸入與語音接口無關(guān)，因此模型不應(yīng)觸發(fā)任意語音。 識(shí)別的重要單位是單個(gè)單詞或短語，而不是整個(gè)句子。這些差異意味著設(shè)備內(nèi)關(guān)鍵詞識(shí)別和一般語音識(shí)別模型之間的訓(xùn)練和評估過程是完全不同的。有一些有發(fā)展前景的數(shù)據(jù)集可以支持通用的語音任務(wù)，例如Mozilla的通用語音，但它們不容易適用于關(guān)鍵詞識(shí)別。此語音命令數(shù)據(jù)集旨在滿足構(gòu)建和測試設(shè)備上模型的特殊需求，使模型作者能夠使用與其他模型相媲美的度量標(biāo)準(zhǔn)來演示其架構(gòu)的精確度，并為團(tuán)隊(duì)提供一種簡單的方法通過對相同數(shù)據(jù)進(jìn)行訓(xùn)練來重現(xiàn)基準(zhǔn)模型。希望這將加速進(jìn)展和協(xié)作，并提高可用模型的整體質(zhì)量。第二個(gè)重要受眾是硬件制造商。通過使用密切反映產(chǎn)品需求的公開可用任務(wù)，芯片供應(yīng)商可以以潛在購買者易于比較的方式展示其產(chǎn)品的精確度和能源使用情況。這種增加的透明度應(yīng)該會(huì)導(dǎo)致硬件更好地滿足產(chǎn)品要求。這些模型還應(yīng)提供硬件工程師可用來優(yōu)化其芯片的清晰規(guī)范，并可能提出模型更改，以便提供更高效的實(shí)現(xiàn)。機(jī)器學(xué)習(xí)和硬件之間的這種協(xié)同設(shè)計(jì)可以是一個(gè)良性循環(huán)，在各個(gè)領(lǐng)域之間增加有用信息的流動(dòng)，而這對雙方都有幫助。圖2：使用不同訓(xùn)練數(shù)據(jù)的Top-One精確度評估結(jié)果該數(shù)據(jù)集的版本1于2017年8月3日發(fā)布，包含1,881位演講者的64,727條發(fā)言。使用V1訓(xùn)練數(shù)據(jù)對來自TensorFlow教程（基于卷積神經(jīng)網(wǎng)絡(luò)的小尺寸關(guān)鍵詞識(shí)別）中的默認(rèn)卷積模型進(jìn)行訓(xùn)練，當(dāng)對V1的測試集進(jìn)行評估時(shí)，TopOne得分為85.4％。

展開

Clinc合作福特提供車載語音識(shí)別技術(shù)

據(jù)外媒報(bào)道，會(huì)話人工智能（AI）初創(chuàng)公司Clinc正與福特（Ford）合作，將為其提供語音識(shí)別技術(shù)。雙方在底特律車展（Detroit Auto Show）期間，在由Inforum舉辦的機(jī)器學(xué)習(xí)和未來車載技術(shù)座談會(huì)上宣布了此次合作。Clinc公司剛剛成立4年，總部位于美國密歇根州安阿伯市（Ann Arbor）。據(jù)Clinc公司首席執(zhí)行官Jason Mars博士所說，該公司的汽車平臺(tái)于2018年9月推出，可讓乘客和駕駛員在福特網(wǎng)聯(lián)車實(shí)驗(yàn)室（Ford’s connected car lab）中使用自然語言控制汽車系統(tǒng)。乘客和駕駛員口頭提出要求，就可打開空調(diào)、調(diào)整續(xù)航控制、檢查燃油續(xù)航里程或是詢問是否有足夠的汽油到達(dá)特點(diǎn)地址。 Clinc的技術(shù)類似于蘋果的Siri或是谷歌助手（Google Assistant），會(huì)結(jié)合利用自然語言處理（NLP）引擎、機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)來理解人類語言。該公司表示，其技術(shù)能夠通過分析語音模式等數(shù)十種因素，提取上下文和意圖，此外，隨著時(shí)間推移，該技術(shù)還能通過吸收新經(jīng)驗(yàn)得以改進(jìn)提升。在與福特合作之前，Clinc公司主要為土耳其最大的私人銀行???bank等大型金融機(jī)構(gòu)以及Bankjoy（為信用社和小型銀行提供移動(dòng)銀行應(yīng)用程序）等金融科技初創(chuàng)公司提供NLP解決方案。此外，該公司還參與了英特爾、IBM公司以及美國國家科學(xué)基金會(huì)（National Science Foundation）的研究項(xiàng)目，并于去年推出了一款面向免下車餐廳的產(chǎn)品。 2017年2月，Clinc公司在由Drive Capital 領(lǐng)投的A輪融資中籌集了63億美元（約合477億元人民幣），融資總額達(dá)75億美元（約合509億元人民幣）。但是，Clinc不是唯一一家將語音識(shí)別技術(shù)引入汽車的公司。

展開

VoiceReco_語音合成及識(shí)別并通過虛擬按鍵驅(qū)動(dòng)游戲的較好實(shí)例￥30

該源碼是語音閱讀文字的較好實(shí)例的補(bǔ)充和擴(kuò)展，增加了語音識(shí)別，并將其轉(zhuǎn)換為虛擬鍵盤輸入而應(yīng)用到游戲中，是很不錯(cuò)的想法。

語音識(shí)別系列之脈沖神經(jīng)網(wǎng)絡(luò)特征工程

二、SNN-KWS/ASR特征工程將SNN應(yīng)用于語音喚醒（Keyword Spotting, KWS）[1]甚或語音識(shí)別（Automatic Speech Recognition, ASR）[2]，首要問題即是如何將語音，或更廣一點(diǎn)，音頻轉(zhuǎn)換為神經(jīng)脈沖序列（后文將這種轉(zhuǎn)換簡稱為Audio2Spike），它隸屬SNN在音頻領(lǐng)域的特征工程，決定了SNN-KWS/ASR的性能上限。（1）物理模型文獻(xiàn)[1]中SNN-KWS使用的Audio2Spike轉(zhuǎn)換方法見文獻(xiàn)[3]，后者還附帶了Github代碼（以Python單元測試框架Unittest寫就）。該轉(zhuǎn)換方法對音頻至脈沖的生物過程建立物理模型，考慮了鼓管、前庭管、蝸孔、卵圓窗、圓窗的流體動(dòng)力學(xué)基底模型，將音頻（聲壓）數(shù)據(jù)轉(zhuǎn)化為基底膜在不同位置的運(yùn)動(dòng)速度數(shù)據(jù)，再由考慮了離子傳輸機(jī)制的毛細(xì)胞模型將運(yùn)動(dòng)速度數(shù)據(jù)轉(zhuǎn)換為神經(jīng)脈沖，最后由泄露積分發(fā)射（Leaky Integrate-and-Fire, LIF）神經(jīng)元模型完成鎖相。注1：基底膜在耳蝸底窄而剛（對高頻響應(yīng)好），在耳蝸頂寬而柔（對低頻響應(yīng)好），此特性決定耳蝸實(shí)際上是一個(gè)分頻器，耳蝸各處毛細(xì)胞對不同頻率響應(yīng)能力不同，連接毛細(xì)胞的神經(jīng)纖維形成螺旋神經(jīng)節(jié)后有序地將音調(diào)拓?fù)溆诚瘢═onotopic map）轉(zhuǎn)繼到腦干中的耳蝸核。注2：鎖相（Phase locking）是指毛細(xì)胞發(fā)射的神經(jīng)脈沖間隔，是該處最佳響應(yīng)頻率周期的整數(shù)倍，或說，毛細(xì)胞發(fā)射神經(jīng)脈沖的時(shí)刻，對應(yīng)聲波某個(gè)特定相位。由于動(dòng)作點(diǎn)位啟動(dòng)后存在不應(yīng)期，持續(xù)約0.1~1ms，所以鎖相現(xiàn)象一般存在于1kHz以下的聲波（否則上一個(gè)脈沖還沒結(jié)束，下一個(gè)還未能發(fā)射）。

展開

認(rèn)識(shí)學(xué)習(xí)聲紋識(shí)別到底是什么東西？如何應(yīng)用？

其實(shí)聲紋識(shí)別和語音識(shí)別在原理上是一樣的，都是通過對采集到的語音信號(hào)進(jìn)行分析和處理，提取相應(yīng)的特征或建立相應(yīng)的模型，然后據(jù)此做出判斷，屬于人工智能智能語音研究方向。但二者的根本目的，提取的特征、建立的模型是不一樣的。 語音識(shí)別的目的：識(shí)別語音的內(nèi)容。并以電腦自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字或者執(zhí)行相關(guān)的指令，如語音輸入文字、智能音響等。聲紋識(shí)別的目的：識(shí)別說話人的身份。又稱說話人識(shí)別，是生物識(shí)別技術(shù)的一種。語義識(shí)別的目的：對語音識(shí)別出來的內(nèi)容進(jìn)行語義理解和糾正，比如同聲翻譯機(jī)。目前，在智能語音領(lǐng)域，語音識(shí)別賽道各家水平差距不大，為了避免同質(zhì)化競爭，許多公司選擇從“聲紋識(shí)別”切入，也因此成為新的藍(lán)海市場。近期進(jìn)行的聲紋識(shí)別國際賽事-VoxSRC比賽上，包括IDLab、字節(jié)跳動(dòng)、昆山杜克大學(xué)、西北工業(yè)大學(xué)、思必馳、聯(lián)想集團(tuán)等國內(nèi)外高校、研究機(jī)構(gòu)和企業(yè)都來參加比賽。通過網(wǎng)上搜索也可以看到華為云、科大訊飛、騰訊云、國音智能、中科昊音、聲揚(yáng)科技、靈云等一批優(yōu)秀的聲紋識(shí)別企業(yè)。聲紋識(shí)別應(yīng)用于哪些領(lǐng)域？目前來說，聲紋識(shí)別技術(shù)在公安和金融領(lǐng)域比較受青睞。公安領(lǐng)域：聲紋識(shí)別可以用于重點(diǎn)人員布控、偵查破案、反電信欺詐、治安防控、司法鑒定、審訊室建設(shè)、網(wǎng)絡(luò)身份認(rèn)證等。 1)重點(diǎn)人員布控——建立重點(diǎn)人員聲紋數(shù)據(jù)庫，在110接警、重點(diǎn)區(qū)域范圍、重大活動(dòng)期間等，一旦發(fā)現(xiàn)重點(diǎn)人員、黑名單人員聲紋信息，即進(jìn)行預(yù)警，有效進(jìn)行事前預(yù)防。在建立重點(diǎn)人員聲紋數(shù)據(jù)庫時(shí)，需要先對聲紋進(jìn)行采集，目前在公安領(lǐng)域主要是標(biāo)準(zhǔn)聲紋采集。 2)偵查破案——利用聲紋識(shí)別技術(shù)海量篩查優(yōu)勢，進(jìn)行“案查人”、“人查案”、“案查案”與“人查人”等多種排查方式，縮小偵查范圍，提高辦案效率，公安領(lǐng)域要求聲紋數(shù)據(jù)庫的聲紋比對系統(tǒng)能夠提供1：N大庫檢索比對，同時(shí)要支持千萬庫容建設(shè)。

展開

關(guān)于神經(jīng)網(wǎng)絡(luò)的簡介

當(dāng)用戶對著Android手機(jī)發(fā)出語音指令之后，就會(huì)由神經(jīng)網(wǎng)絡(luò)算法來進(jìn)行處理，同樣是先由軟件挑出用戶語音中組成單詞的不同元音和輔音。然后由另外的軟件對挑出的信息進(jìn)行組合、分析，并進(jìn)行猜測，再給出新的信息。這條語音指令經(jīng)過分析的次數(shù)越多，系統(tǒng)得出的結(jié)論也就越接近于用戶的本來意思。除了語音分辨準(zhǔn)確率大幅提高之外，語音系統(tǒng)還擁有學(xué)習(xí)的能力。在收集了用戶的語音信息之后，系統(tǒng)也會(huì)用更傾向于人類的聲音來反饋用戶的指令，而不是用機(jī)械的合成語音。也就是說，Android 4.1的語音系統(tǒng)的人機(jī)交互變得更為自然，用戶越來越不像是跟機(jī)器人對話。而且通過這個(gè)全新的語音系統(tǒng)，也有更多APP被開發(fā)了出來，豐富了應(yīng)用。更換算法之后，Android的語音識(shí)別率提升了25%。這在一定程度上緩解了現(xiàn)有的語音功能存在的語音系統(tǒng)學(xué)習(xí)能力差、語音識(shí)別能力不強(qiáng)以及機(jī)器合成語音太機(jī)械等問題。負(fù)責(zé)這個(gè)項(xiàng)目的科學(xué)家凡豪克表示，“這個(gè)項(xiàng)目在某種程度上讓我們感到驚喜，表明我們只需要改變下模式就能取得相當(dāng)大的改善。” 事實(shí)上要用神經(jīng)網(wǎng)絡(luò)的算法打造這樣一個(gè)語音系統(tǒng)并不是一件容易的事。首先是用Android系統(tǒng)收集了大量用戶的語音指令，然后將聲音頻譜進(jìn)行分解并送到谷歌的8臺(tái)專用服務(wù)器中。接下來就是分析這些海量的數(shù)據(jù)，擁有享譽(yù)業(yè)界的狄恩及其工程師團(tuán)隊(duì)的谷歌，非常擅長于進(jìn)行數(shù)據(jù)的處理工作。在分析這些樣本時(shí)，研究人員們確定了使用神經(jīng)網(wǎng)絡(luò)這種算法。對于每一種語言，谷歌可能都會(huì)構(gòu)建出數(shù)種工作模式，例如處理用英語發(fā)出搜索請求等。盡管神經(jīng)網(wǎng)絡(luò)現(xiàn)在已經(jīng)被廣泛用于語音識(shí)別領(lǐng)域，但是其用途肯定不限于此。下一步，神經(jīng)網(wǎng)絡(luò)最有可能進(jìn)入圖像軟件領(lǐng)域。與分辨聲音的過程類似，神經(jīng)網(wǎng)絡(luò)在分析圖像時(shí)，每一層的圖像探測器會(huì)首先尋找圖像中的一些特征，例如圖像的邊緣。

展開

汽車AI智能語音101及其供應(yīng)鏈

小鵬: 小鵬的語音技術(shù)是和思必馳合作開發(fā)的，小鵬首先搭建起框架，語音識(shí)別過程中具體的語音喚醒、語音識(shí)別采用了思必馳的技術(shù)，一些基本功能如打電話、查天氣和語音合成等也是采用了思必馳的技術(shù)。而更為核心的語義解析、識(shí)別增強(qiáng)、語義抗噪、語義打斷、自然語言處理等功能則是小鵬自主研發(fā)，當(dāng)然以上語句為小鵬宣稱的但是你了解，其實(shí)小鵬采用了Cerence 以及科大訊飛的服務(wù)，可能是不同車型采用不同的方案，也可能是整合各方優(yōu)勢，例如ASR采用科大訊飛，TTS 采用Cerence。小鵬的語音助手的處理和決策在本地和云端兩部分進(jìn)行，喚醒、車控這些基本的功能都會(huì)在本地進(jìn)行，更多需要計(jì)算能力的功能則會(huì)在云端進(jìn)行，在沒有聯(lián)網(wǎng)的情況下，會(huì)進(jìn)行網(wǎng)絡(luò)重連，一旦重連成功，會(huì)首先恢復(fù)云端計(jì)算。如果實(shí)在無法恢復(fù)網(wǎng)絡(luò)，導(dǎo)航和音樂等需要借助于云端的功能就無法實(shí)現(xiàn)，但對車輛的控制是可以實(shí)現(xiàn)。上汽：上汽的斑馬采用了達(dá)摩院提供的前端算法、喚醒，思必馳提供語音識(shí)別能力，科大訊飛提供 TTS 音色。上汽的其他車系有采用Cerence的ASR以及其他服務(wù)因?yàn)樾枰獓H化，所以需要各種語音的ASR. 總的來講，主機(jī)廠智能語音主流趨勢是整合各方供應(yīng)商的語音引擎，建立自有語音平臺(tái)數(shù)據(jù)庫，支持第三方智能語音應(yīng)用生態(tài)。 AI智能車載語音的挑戰(zhàn)和未來顯然AI智能語音是未來智能駕駛座艙的重中之重，猶如駕駛體系的自動(dòng)駕駛駕駛，拓展后是基于智能語音的應(yīng)用生態(tài)。目前評價(jià)語音識(shí)別的指標(biāo)有：準(zhǔn)確率-語言喚醒，聲源定位，在線/離線識(shí)別率，語義理解率，連續(xù)對話理解，單句多任務(wù)理解。未來可能會(huì)有更多的聲音指紋，生態(tài)等。

展開

科技是怎么和豪華畫上等號(hào)的？

先看語音識(shí)別，這可是眾多車廠都在主打的“人工智能”亮點(diǎn)。然而，單純的語音指令識(shí)別，還真的不如沒有。機(jī)器聽不懂人話，自然人也不愿意跟車對話了。所以要想讓車載系統(tǒng)真正為人所用，還是需要車輛有真正的“智慧”，這需要大數(shù)據(jù)積累下的人工智能調(diào)校。寶馬在全新一代 X3 上配備了根據(jù)中文語言環(huán)境調(diào)校出的自然語音識(shí)別系統(tǒng)。注意，這句話有兩個(gè)重點(diǎn)：一個(gè)是中文語言環(huán)境，另外一個(gè)就是自然語音識(shí)別。這也就意味著，在全新一代的寶馬 X3 上，你可以直接按下語音識(shí)別按鈕，然后說一句“該加油了”，全新BMW X3就能夠迅速為你找到附近的加油站；當(dāng)你正在開車卻想發(fā)送短信時(shí)，你可以直接陳述“給張三發(fā)短信，告訴他‘今晚一起吃飯’”，該系統(tǒng)便可自行寫好短信并且發(fā)送出去，猶如一位“坐在副駕的隱形私人助理”。另外，為什么車載中控總是這么難用？這個(gè)問題估計(jì)不少人有同感。特斯拉推出大屏中控臺(tái)的時(shí)候，很多人以為諾基亞時(shí)代要被終結(jié)了，后來發(fā)現(xiàn)這塊大屏幕并沒有掀起時(shí)代的變革。不是說大屏不好，而是用戶需要什么樣的體驗(yàn)沒弄明白時(shí)，照著手機(jī)做車載系統(tǒng)，一定是失敗的。而對于大部分普通車主而言，買車時(shí)候加個(gè)大幾千升級(jí)個(gè)大屏，還不如買個(gè)手機(jī)支架。想要讓車載系統(tǒng)如同手機(jī)一樣好用，還是需要跟進(jìn)司機(jī)的使用習(xí)慣對整個(gè)系統(tǒng)設(shè)計(jì)進(jìn)行特定的調(diào)整才行。我們都知道，如今的智能手機(jī)好用，是因?yàn)橹悄苁謾C(jī)通過觸屏這種介質(zhì)，讓你能直接看到什么就點(diǎn)什么。但是車載系統(tǒng)的使用場景就不太一樣的，中控屏幕與用戶之間的距離肯定沒有手機(jī)近，所以菜單和按鈕就需要做的更大，方便點(diǎn)選，并且還不能像手機(jī)一樣做系統(tǒng)后臺(tái)，因?yàn)槔龊笈_(tái)的動(dòng)作，勢必是要分散注意力的，所以讓車載系統(tǒng)便于操作，直觀，且拖動(dòng)流暢，是評判一個(gè)車載系統(tǒng)的幾個(gè)重要維度。

展開

AI智能音箱工作原理中應(yīng)用的數(shù)字功放芯片

AI智能音箱是一個(gè)音箱升級(jí)的產(chǎn)物，是家庭消費(fèi)者用語音進(jìn)行上網(wǎng)的一個(gè)工具，比如點(diǎn)播歌曲、上網(wǎng)購物，或是了解天氣預(yù)報(bào)，它也可以對智能家居設(shè)備進(jìn)行控制，比如打開窗簾、設(shè)置冰箱溫度、提前讓熱水器升溫等。智能音箱的智能語音交互系統(tǒng)是實(shí)現(xiàn)其智能化的關(guān)鍵技術(shù)，智能語音交互系統(tǒng)需要具備：1）遠(yuǎn)場識(shí)別，2）喚醒詞喚醒，3）語音識(shí)別，4）語義理解。任何支持智能語音交互系統(tǒng)的設(shè)備都可以成為以語音作為媒介的控制中樞，因此除了智能音箱外，還可以運(yùn)用于汽車、手機(jī)、可穿戴設(shè)備。智能音箱提供內(nèi)容和服務(wù)的工作原理：假設(shè)消費(fèi)者向智能音箱發(fā)出“查詢A到B的機(jī)票”的指令，智能音箱的語音交互系統(tǒng)通過語音算法本地處理單元和音頻解碼單元收集語音、降噪、識(shí)別喚醒詞、將語音信號(hào)轉(zhuǎn)為數(shù)字信號(hào)，之后將處理后的數(shù)字信號(hào)上傳至云端服務(wù)器，云端服務(wù)器將進(jìn)行語音數(shù)字編碼識(shí)別和語義理解，隨后通過調(diào)用機(jī)票預(yù)訂數(shù)據(jù)庫中的信息傳遞給智能音箱，智能音箱將上述數(shù)字信號(hào)通過音效單元還原為語音信號(hào)并播放出來。智能音箱控制智能家居的工作原理：假設(shè)消費(fèi)者向智能音箱發(fā)出“關(guān)閉電燈”的指令，智能音箱通過語音收集、語音識(shí)別后將語音數(shù)字編碼通過云端服務(wù)器進(jìn)行語義理解，并將得到的信息回饋回到家庭路由器，通過路由器廣播這條控制指令，智能家居設(shè)備擁有各自唯一的IP號(hào)，智能家居能夠識(shí)別指令中是否涉及自身的IP號(hào)，最終電燈的插座識(shí)別完成后，完成關(guān)閉電燈的指令。

展開

科大訊飛：源于偶然讓機(jī)器開口說話

科大訊飛在語音合成、識(shí)別、評測，翻譯等領(lǐng)域都擁有全球領(lǐng)先的核心技術(shù)。 2005年至2018年，在全球最高水平的語音合成比賽Blizzard Challenge中，科大訊飛取得13連冠，同時(shí)科大訊飛各項(xiàng)關(guān)鍵指標(biāo)均名列第一。在國際機(jī)器翻譯評測IWSLT2014、NIST2015等大賽中科大訊飛連奪冠軍。在過去6年中，科大訊飛的語音識(shí)別技術(shù)準(zhǔn)確率從60.2%提升到98%以上。語音技術(shù)上的優(yōu)勢為科大訊飛向人工智能發(fā)展，同時(shí)落地行業(yè)與應(yīng)用打下良好的根基。訊飛在布局當(dāng)前的大數(shù)據(jù)人工智能的同時(shí)，也在關(guān)心人工智能發(fā)展的另一方面，即與人腦相結(jié)合，基于類腦計(jì)算，試圖找到人腦智能的奧秘，發(fā)現(xiàn)其中的智能動(dòng)力學(xué)，進(jìn)而真正讓機(jī)器具備像人一樣的智能，同時(shí)不受人腦物理空間的局限，以此來實(shí)現(xiàn)人工智能領(lǐng)域真正的突破。訊飛翻譯機(jī)，出境游so easy 科大訊飛是真正把人工智能的應(yīng)用落地了。在2010年，科大訊飛開發(fā)了世界上第二個(gè)、中國第一個(gè)語音輸入法，僅次于谷歌，訊飛輸入法主打語音輸入，語音識(shí)別準(zhǔn)確率超98%，同時(shí)支持22種方言的語音輸入。在2016年，科大訊飛發(fā)布了第一個(gè)智能終端產(chǎn)品訊飛翻譯機(jī)。 2018年4月又推出了訊飛翻譯機(jī)2.0，主打中文與33種語言實(shí)時(shí)互譯、方言翻譯和拍照翻譯，并獨(dú)家具備4G、Wi-Fi和離線翻譯模式。翻譯機(jī)86%的用戶用于出境游。考慮到用戶可能不會(huì)使用標(biāo)準(zhǔn)普通話，訊飛翻譯機(jī)同時(shí)搭載了方言和帶方言口音非標(biāo)準(zhǔn)普通話的識(shí)別能力，目前已支持粵語、四川話、東北話、河南話四大方言。方言種類還在持續(xù)增加中，并能根據(jù)用戶的不同使用場景與用詞習(xí)慣，準(zhǔn)確識(shí)別并給出最符合語境的翻譯結(jié)果，真正做到了落地實(shí)用。“可以說，訊飛翻譯機(jī)2.0是至今世界上銷量最好、好評度最高的手持式智能翻譯系統(tǒng)。”

展開

淺談 MATLAB 語音與聲學(xué)應(yīng)用附振動(dòng)力學(xué)基礎(chǔ)與MATLAB應(yīng)用下載

Ken Sutton，Yobe 總裁、CEO 兼聯(lián)合創(chuàng)始人 ◆ ◆ ◆ ◆ 簡要總結(jié) 對于拓展智能語音應(yīng)用，很重要的一方面就是聲源競爭的問題。多個(gè)方向、多種來源、高噪聲環(huán)境下的場景，如何提取目標(biāo)信號(hào)，是進(jìn)行可靠語音識(shí)別的前提。我們介紹了，基于麥克風(fēng)陣列波束成形的方法和基于深度學(xué)習(xí)的掩模估計(jì)的方法，下期我們會(huì)談?wù)勆疃葘W(xué)習(xí)的語音識(shí)別 下載地址：振動(dòng)力學(xué)基礎(chǔ)與MATLAB應(yīng)用

2-10 基于matlab的動(dòng)態(tài)時(shí)間歸整（DTW）算法￥35.9

以一個(gè)能識(shí)別數(shù)字0～9的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程為例，闡述了基于DTW算法的特定人孤立詞語音識(shí)別的基本原理和關(guān)鍵技術(shù)。其中包括對語音端點(diǎn)檢測方法、特征參數(shù)計(jì)算方法和DTW算法實(shí)現(xiàn)。程序已調(diào)通，可直接運(yùn)行。</p><div contenteditable="false" width="100%"><figure class="figure-image" data-img="https://img.jishulink.com/202406/attachment/105d399d1adf4e78bb2c03197b7abd6b.png" style="text-align: center"><img src="https://img.jishulink.com/202406/attachment/105d399d1adf4e78bb2c03197b7abd6b.png"></figure></div><p><br></p>

展開

DSP和FPGA在汽車電子中的廣泛應(yīng)用

3.1基于DSP和FPGA的車用語音信號(hào)處理　　汽車電子產(chǎn)品中的語音處理主要涉及到語音的數(shù)字化處理、語音編解碼、語音壓縮和語音識(shí)別。國外比較熱門的汽車電子產(chǎn)品之一就是語音識(shí)別系統(tǒng)，語音識(shí)別系統(tǒng)具有潛在的應(yīng)用前景，包括聲控電話、語音操作導(dǎo)航、聲控選擇廣播頻道、防盜語音鑒別等。例如，一種基于隱式馬可夫模型(HMM)的與講話人無關(guān)、100條指令識(shí)別的應(yīng)用，由文獻(xiàn)可知，那幺聲學(xué)HMM模型的大小將為。進(jìn)行包括輸入語音采樣的細(xì)分/開窗、MFCC提取、概率計(jì)算和Viterbi搜尋等適時(shí)處理，對DSP的運(yùn)算量要求一般為10000萬次乘加(MAC)運(yùn)算。對于連續(xù)語音信號(hào)的識(shí)別，則要求更好的數(shù)字信號(hào)處理速度和更大的存儲(chǔ)空間。　　由于語音識(shí)別系統(tǒng)要對聲音進(jìn)行實(shí)時(shí)處理和采樣，需要大量的運(yùn)算，如果以它們20%的計(jì)算資源分配用于1000萬次MAC語音識(shí)別應(yīng)用，那么需要處理器能夠具有5000萬次MAC的能力。因此，必須采用DSP和FPGA才能完成其任務(wù)。DSP和FPGA的處理速度對語音信號(hào)處理應(yīng)用系統(tǒng)的復(fù)雜性和性能起著決定性作用，高速DSP和FPGA的實(shí)現(xiàn)可實(shí)現(xiàn)聲道自適應(yīng)和聲域自適應(yīng)等現(xiàn)代語音處理和識(shí)別技術(shù)。從理論上講，DSP和FPGA處理速度越快，汽車語音處理和識(shí)別產(chǎn)品的應(yīng)用性能就越好。　　隨著應(yīng)用日益多樣化， DSP和FPGA演變成不再是一塊獨(dú)立的芯片，而變成了構(gòu)件內(nèi)核。這使得設(shè)計(jì)師能選擇合適的內(nèi)核和專用邏輯“膠結(jié)”在一起形成專用DSP和FPGA方案，以滿足信號(hào)處理的需要。目前，還出現(xiàn)把DSP核和ASIC微控制器集成在一起的芯片。汽車電子系統(tǒng)使用通用DSP和FPGA來實(shí)現(xiàn)語音合成，糾錯(cuò)編碼。而語音合成、語音壓縮與編碼是DSP最早和最廣泛的應(yīng)用，矢量編碼器用于將語音信號(hào)壓縮到有限帶寬的信道中。　　

展開

新能源汽車智能座艙耐久測試的技術(shù)要點(diǎn)

測試內(nèi)容包括：單點(diǎn)/多點(diǎn)觸控耐久性不同壓力等級(jí)下的響應(yīng)性能高低溫環(huán)境下的顯示一致性長期點(diǎn)亮下的像素衰減測試 2、語音識(shí)別系統(tǒng)測試語音系統(tǒng)的耐久測試重點(diǎn)考察：長時(shí)間語音指令識(shí)別穩(wěn)定性噪聲環(huán)境下的識(shí)別準(zhǔn)確率麥克風(fēng)陣列的耐久性能語音喚醒成功率隨時(shí)間的變化 3、智能座椅系統(tǒng)測試智能座椅的電機(jī)、加熱、通風(fēng)、按摩等功能需要進(jìn)行：調(diào)節(jié)機(jī)構(gòu)循環(huán)耐久測試加熱元件長時(shí)間工作穩(wěn)定性振動(dòng)功能衰減測試材質(zhì)耐磨性與老化測試 4、環(huán)境控制系統(tǒng)測試智能溫控系統(tǒng)的測試包括：壓縮機(jī)循環(huán)耐久性傳感器精度長期穩(wěn)定性出風(fēng)口調(diào)節(jié)機(jī)構(gòu)可靠性空氣凈化系統(tǒng)效能持續(xù)性 5、整體系統(tǒng)集成測試除了單個(gè)模塊的測試外，還需要進(jìn)行系統(tǒng)級(jí)測試：多系統(tǒng)同時(shí)運(yùn)行的壓力測試網(wǎng)絡(luò)通信穩(wěn)定性測試軟件系統(tǒng)長時(shí)間運(yùn)行測試電源管理系統(tǒng)的可靠性測試北京沃華慧通測控技術(shù)有限公司：智能座艙耐久測試的專業(yè)伙伴面對智能座艙耐久測試的 “高復(fù)雜度、高精準(zhǔn)度” 需求，北京沃華慧通測控技術(shù)有限公司打造了 “硬件設(shè)備 + 軟件平臺(tái) + 定制服務(wù)” 三位一體的解決方案，為車企與座艙供應(yīng)商提供全流程技術(shù)支持。在硬件測試設(shè)備方面，可對智能座艙硬件進(jìn)行全面的振動(dòng)耐久性測試。其高低溫試驗(yàn)箱具備快速升降溫能力，溫度均勻性好，能夠滿足高低溫測試對環(huán)境溫度的嚴(yán)格要求。在軟件測試工具方面，公司開發(fā)了智能化的自動(dòng)化測試平臺(tái)，可根據(jù)用戶需求定制測試腳本，實(shí)現(xiàn)對智能座艙軟件功能、性能的高效自動(dòng)化測試。

展開

語音識(shí)別的相關(guān)專題、標(biāo)簽、搜索

語音識(shí)別語音語音交互語音處理智能語音語音盲分離語音識(shí)別汽車語音識(shí)別軟件 matlab實(shí)現(xiàn)語音識(shí)別領(lǐng)京東卡語音識(shí)別中國電信申請語音識(shí)別專利語音識(shí)別智能家居控制器的設(shè)計(jì)

共277條

首頁 12345...19 下一頁尾頁 , 到第頁

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

語音識(shí)別的案例

語音識(shí)別的相關(guān)專題、標(biāo)簽、搜索