不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

語音識(shí)別的案例

重磅 |《智能家電語音識(shí)別與交互技術(shù)白皮書》出爐
本白皮書通過對用戶需求、基礎(chǔ)技術(shù)需求和交互需求進(jìn)行研究分析,闡述了在產(chǎn)品聲學(xué)結(jié)構(gòu)設(shè)計(jì)、遠(yuǎn)場語音識(shí)別、分布式喚醒、降噪處理等方面 所面臨的挑戰(zhàn) ,并結(jié)合當(dāng)前智能語音技術(shù)解決方案的 能力現(xiàn)狀 ,對前端處理、定向拾音、喚醒技術(shù)、標(biāo)準(zhǔn)和檢測等領(lǐng)域進(jìn)行了 研究分析 ,同時(shí)對麥克風(fēng)系統(tǒng)設(shè)計(jì)、揚(yáng)聲器系統(tǒng)設(shè)計(jì)、電控系統(tǒng)設(shè)計(jì)分享了 實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn) ,為智能家電語音識(shí)別與交互技術(shù)質(zhì)量提升提供了 產(chǎn)業(yè)指引 。 點(diǎn)擊下圖,即可查看/下載白皮書 或手機(jī)掃描如下二維碼 ↓
Google發(fā)布最新「語音命令」數(shù)據(jù)集,可有效提高關(guān)鍵詞識(shí)別系統(tǒng)性能
這些約束意味著,關(guān)鍵詞識(shí)別的任務(wù)與一旦發(fā)現(xiàn)交互后在服務(wù)器上執(zhí)行的語音識(shí)別是完全不同的: 關(guān)鍵詞識(shí)別模型必須更小,所涉及的計(jì)算量更少。 它們需要以非常節(jié)能的方式運(yùn)行。 它們的大部分輸入是沉默或背景噪聲,而不是言語,所以誤報(bào)必須盡量減少。 大部分語音輸入與語音接口無關(guān),因此模型不應(yīng)觸發(fā)任意語音識(shí)別的重要單位是單個(gè)單詞或短語,而不是整個(gè)句子。 這些差異意味著設(shè)備內(nèi)關(guān)鍵詞識(shí)別和一般語音識(shí)別模型之間的訓(xùn)練和評估過程是完全不同的。有一些有發(fā)展前景的數(shù)據(jù)集可以支持通用的語音任務(wù),例如Mozilla的通用語音,但它們不容易適用于關(guān)鍵詞識(shí)別。 此語音命令數(shù)據(jù)集旨在滿足構(gòu)建和測試設(shè)備上模型的特殊需求,使模型作者能夠使用與其他模型相媲美的度量標(biāo)準(zhǔn)來演示其架構(gòu)的精確度,并為團(tuán)隊(duì)提供一種簡單的方法通過對相同數(shù)據(jù)進(jìn)行訓(xùn)練來重現(xiàn)基準(zhǔn)模型。希望這將加速進(jìn)展和協(xié)作,并提高可用模型的整體質(zhì)量。 第二個(gè)重要受眾是硬件制造商。通過使用密切反映產(chǎn)品需求的公開可用任務(wù),芯片供應(yīng)商可以以潛在購買者易于比較的方式展示其產(chǎn)品的精確度和能源使用情況。這種增加的透明度應(yīng)該會(huì)導(dǎo)致硬件更好地滿足產(chǎn)品要求。這些模型還應(yīng)提供硬件工程師可用來優(yōu)化其芯片的清晰規(guī)范,并可能提出模型更改,以便提供更高效的實(shí)現(xiàn)。機(jī)器學(xué)習(xí)和硬件之間的這種協(xié)同設(shè)計(jì)可以是一個(gè)良性循環(huán),在各個(gè)領(lǐng)域之間增加有用信息的流動(dòng),而這對雙方都有幫助。 圖2:使用不同訓(xùn)練數(shù)據(jù)的Top-One精確度評估結(jié)果 該數(shù)據(jù)集的版本1于2017年8月3日發(fā)布,包含1,881位演講者的64,727條發(fā)言。使用V1訓(xùn)練數(shù)據(jù)對來自TensorFlow教程(基于卷積神經(jīng)網(wǎng)絡(luò)的小尺寸關(guān)鍵詞識(shí)別)中的默認(rèn)卷積模型進(jìn)行訓(xùn)練,當(dāng)對V1的測試集進(jìn)行評估時(shí),TopOne得分為85.4%。
展開
Clinc合作福特 提供車載語音識(shí)別技術(shù)
據(jù)外媒報(bào)道,會(huì)話人工智能(AI)初創(chuàng)公司Clinc正與福特(Ford)合作,將為其提供語音識(shí)別技術(shù)。雙方在底特律車展(Detroit Auto Show)期間,在由Inforum舉辦的機(jī)器學(xué)習(xí)和未來車載技術(shù)座談會(huì)上宣布了此次合作。Clinc公司剛剛成立4年,總部位于美國密歇根州安阿伯市(Ann Arbor)。 據(jù)Clinc公司首席執(zhí)行官Jason Mars博士所說,該公司的汽車平臺(tái)于2018年9月推出,可讓乘客和駕駛員在福特網(wǎng)聯(lián)車實(shí)驗(yàn)室(Ford’s connected car lab)中使用自然語言控制汽車系統(tǒng)。乘客和駕駛員口頭提出要求,就可打開空調(diào)、調(diào)整續(xù)航控制、檢查燃油續(xù)航里程或是詢問是否有足夠的汽油到達(dá)特點(diǎn)地址。 Clinc的技術(shù)類似于蘋果的Siri或是谷歌助手(Google Assistant),會(huì)結(jié)合利用自然語言處理(NLP)引擎、機(jī)器學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)來理解人類語言。該公司表示,其技術(shù)能夠通過分析語音模式等數(shù)十種因素,提取上下文和意圖,此外,隨著時(shí)間推移,該技術(shù)還能通過吸收新經(jīng)驗(yàn)得以改進(jìn)提升。 在與福特合作之前,Clinc公司主要為土耳其最大的私人銀行???bank等大型金融機(jī)構(gòu)以及Bankjoy(為信用社和小型銀行提供移動(dòng)銀行應(yīng)用程序)等金融科技初創(chuàng)公司提供NLP解決方案。此外,該公司還參與了英特爾、IBM公司以及美國國家科學(xué)基金會(huì)(National Science Foundation)的研究項(xiàng)目,并于去年推出了一款面向免下車餐廳的產(chǎn)品。 2017年2月,Clinc公司在由Drive Capital 領(lǐng)投的A輪融資中籌集了63億美元(約合477億元人民幣),融資總額達(dá)75億美元(約合509億元人民幣)。 但是,Clinc不是唯一一家將語音識(shí)別技術(shù)引入汽車的公司。
展開
VoiceReco_語音合成及識(shí)別并通過虛擬按鍵驅(qū)動(dòng)游戲的較好實(shí)例 ¥30
該源碼是 語音閱讀文字的較好實(shí)例 的補(bǔ)充和擴(kuò)展,增加了語音識(shí)別,并將其轉(zhuǎn)換為虛擬鍵盤輸入而應(yīng)用到游戲中,是很不錯(cuò)的想法。
語音識(shí)別圖1
語音識(shí)別系列之脈沖神經(jīng)網(wǎng)絡(luò)特征工程
二、SNN-KWS/ASR特征工程 將SNN應(yīng)用于語音喚醒(Keyword Spotting, KWS)[1]甚或語音識(shí)別(Automatic Speech Recognition, ASR)[2],首要問題即是如何將語音,或更廣一點(diǎn),音頻轉(zhuǎn)換為神經(jīng)脈沖序列(后文將這種轉(zhuǎn)換簡稱為Audio2Spike),它隸屬SNN在音頻領(lǐng)域的特征工程,決定了SNN-KWS/ASR的性能上限。 (1)物理模型 文獻(xiàn)[1]中SNN-KWS使用的Audio2Spike轉(zhuǎn)換方法見文獻(xiàn)[3],后者還附帶了Github代碼(以Python單元測試框架Unittest寫就)。該轉(zhuǎn)換方法對音頻至脈沖的生物過程建立物理模型,考慮了鼓管、前庭管、蝸孔、卵圓窗、圓窗的流體動(dòng)力學(xué)基底模型,將音頻(聲壓)數(shù)據(jù)轉(zhuǎn)化為基底膜在不同位置的運(yùn)動(dòng)速度數(shù)據(jù),再由考慮了離子傳輸機(jī)制的毛細(xì)胞模型將運(yùn)動(dòng)速度數(shù)據(jù)轉(zhuǎn)換為神經(jīng)脈沖,最后由泄露積分發(fā)射(Leaky Integrate-and-Fire, LIF)神經(jīng)元模型完成鎖相。 注1:基底膜在耳蝸底窄而剛(對高頻響應(yīng)好),在耳蝸頂寬而柔(對低頻響應(yīng)好),此特性決定耳蝸實(shí)際上是一個(gè)分頻器,耳蝸各處毛細(xì)胞對不同頻率響應(yīng)能力不同,連接毛細(xì)胞的神經(jīng)纖維形成螺旋神經(jīng)節(jié)后有序地將音調(diào)拓?fù)溆诚瘢═onotopic map)轉(zhuǎn)繼到腦干中的耳蝸核。 注2:鎖相(Phase locking)是指毛細(xì)胞發(fā)射的神經(jīng)脈沖間隔,是該處最佳響應(yīng)頻率周期的整數(shù)倍,或說,毛細(xì)胞發(fā)射神經(jīng)脈沖的時(shí)刻,對應(yīng)聲波某個(gè)特定相位。由于動(dòng)作點(diǎn)位啟動(dòng)后存在不應(yīng)期,持續(xù)約0.1~1ms,所以鎖相現(xiàn)象一般存在于1kHz以下的聲波(否則上一個(gè)脈沖還沒結(jié)束,下一個(gè)還未能發(fā)射)。
展開
認(rèn)識(shí)學(xué)習(xí)聲紋識(shí)別到底是什么東西?如何應(yīng)用?
其實(shí)聲紋識(shí)別語音識(shí)別在原理上是一樣的,都是通過對采集到的語音信號(hào)進(jìn)行分析和處理,提取相應(yīng)的特征或建立相應(yīng)的模型,然后據(jù)此做出判斷,屬于人工智能智能語音研究方向。但二者的根本目的,提取的特征、建立的模型是不一樣的。 語音識(shí)別的目的:識(shí)別語音的內(nèi)容。并以電腦自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字或者執(zhí)行相關(guān)的指令,如語音輸入文字、智能音響等。 聲紋識(shí)別的目的:識(shí)別說話人的身份。又稱說話人識(shí)別,是生物識(shí)別技術(shù)的一種。 語義識(shí)別的目的:對語音識(shí)別出來的內(nèi)容進(jìn)行語義理解和糾正,比如同聲翻譯機(jī)。 目前,在智能語音領(lǐng)域,語音識(shí)別賽道各家水平差距不大,為了避免同質(zhì)化競爭,許多公司選擇從“聲紋識(shí)別”切入,也因此成為新的藍(lán)海市場。近期進(jìn)行的聲紋識(shí)別國際賽事-VoxSRC比賽上,包括IDLab、字節(jié)跳動(dòng)、昆山杜克大學(xué)、西北工業(yè)大學(xué)、思必馳、聯(lián)想集團(tuán)等國內(nèi)外高校、研究機(jī)構(gòu)和企業(yè)都來參加比賽。通過網(wǎng)上搜索也可以看到華為云、科大訊飛、騰訊云、國音智能、中科昊音、聲揚(yáng)科技、靈云等一批優(yōu)秀的聲紋識(shí)別企業(yè)。 聲紋識(shí)別應(yīng)用于哪些領(lǐng)域? 目前來說,聲紋識(shí)別技術(shù)在公安和金融領(lǐng)域比較受青睞。 公安領(lǐng)域: 聲紋識(shí)別可以用于重點(diǎn)人員布控、偵查破案、反電信欺詐、治安防控、司法鑒定、審訊室建設(shè)、網(wǎng)絡(luò)身份認(rèn)證等。 1)重點(diǎn)人員布控——建立重點(diǎn)人員聲紋數(shù)據(jù)庫,在110接警、重點(diǎn)區(qū)域范圍、重大活動(dòng)期間等,一旦發(fā)現(xiàn)重點(diǎn)人員、黑名單人員聲紋信息,即進(jìn)行預(yù)警,有效進(jìn)行事前預(yù)防。在建立重點(diǎn)人員聲紋數(shù)據(jù)庫時(shí),需要先對聲紋進(jìn)行采集,目前在公安領(lǐng)域主要是標(biāo)準(zhǔn)聲紋采集。 2)偵查破案——利用聲紋識(shí)別技術(shù)海量篩查優(yōu)勢,進(jìn)行“案查人”、“人查案”、“案查案”與“人查人”等多種排查方式,縮小偵查范圍,提高辦案效率,公安領(lǐng)域要求聲紋數(shù)據(jù)庫的聲紋比對系統(tǒng)能夠提供1:N大庫檢索比對,同時(shí)要支持千萬庫容建設(shè)。
展開
關(guān)于神經(jīng)網(wǎng)絡(luò)的簡介
當(dāng)用戶對著Android手機(jī)發(fā)出語音指令之后,就會(huì)由神經(jīng)網(wǎng)絡(luò)算法來進(jìn)行處理,同樣是先由軟件挑出用戶語音中組成單詞的不同元音和輔音。然后由另外的軟件對挑出的信息進(jìn)行組合、分析,并進(jìn)行猜測,再給出新的信息。這條語音指令經(jīng)過分析的次數(shù)越多,系統(tǒng)得出的結(jié)論也就越接近于用戶的本來意思。 除了語音分辨準(zhǔn)確率大幅提高之外,語音系統(tǒng)還擁有學(xué)習(xí)的能力。在收集了用戶的語音信息之后,系統(tǒng)也會(huì)用更傾向于人類的聲音來反饋用戶的指令,而不是用機(jī)械的合成語音。也就是說,Android 4.1的語音系統(tǒng)的人機(jī)交互變得更為自然,用戶越來越不像是跟機(jī)器人對話。而且通過這個(gè)全新的語音系統(tǒng),也有更多APP被開發(fā)了出來,豐富了應(yīng)用。更換算法之后,Android的語音識(shí)別率提升了25%。這在一定程度上緩解了現(xiàn)有的語音功能存在的語音系統(tǒng)學(xué)習(xí)能力差、語音識(shí)別能力不強(qiáng)以及機(jī)器合成語音太機(jī)械等問題。負(fù)責(zé)這個(gè)項(xiàng)目的科學(xué)家凡豪克表示,“這個(gè)項(xiàng)目在某種程度上讓我們感到驚喜,表明我們只需要改變下模式就能取得相當(dāng)大的改善。” 事實(shí)上要用神經(jīng)網(wǎng)絡(luò)的算法打造這樣一個(gè)語音系統(tǒng)并不是一件容易的事。首先是用Android系統(tǒng)收集了大量用戶的語音指令,然后將聲音頻譜進(jìn)行分解并送到谷歌的8臺(tái)專用服務(wù)器中。接下來就是分析這些海量的數(shù)據(jù),擁有享譽(yù)業(yè)界的狄恩及其工程師團(tuán)隊(duì)的谷歌,非常擅長于進(jìn)行數(shù)據(jù)的處理工作。在分析這些樣本時(shí),研究人員們確定了使用神經(jīng)網(wǎng)絡(luò)這種算法。對于每一種語言,谷歌可能都會(huì)構(gòu)建出數(shù)種工作模式,例如處理用英語發(fā)出搜索請求等。 盡管神經(jīng)網(wǎng)絡(luò)現(xiàn)在已經(jīng)被廣泛用于語音識(shí)別領(lǐng)域,但是其用途肯定不限于此。下一步,神經(jīng)網(wǎng)絡(luò)最有可能進(jìn)入圖像軟件領(lǐng)域。與分辨聲音的過程類似,神經(jīng)網(wǎng)絡(luò)在分析圖像時(shí),每一層的圖像探測器會(huì)首先尋找圖像中的一些特征,例如圖像的邊緣。
展開
汽車AI智能語音101及其供應(yīng)鏈
小鵬: 小鵬的語音技術(shù)是和思必馳合作開發(fā)的,小鵬首先搭建起框架,語音識(shí)別過程中具體的語音喚醒、語音識(shí)別采用了思必馳的技術(shù),一些基本功能如打電話、查天氣和語音合成等也是采用了思必馳的技術(shù)。而更為核心的語義解析、識(shí)別增強(qiáng)、語義抗噪、語義打斷、自然語言處理等功能則是小鵬自主研發(fā),當(dāng)然以上語句為小鵬宣稱的但是你了解,其實(shí)小鵬采用了Cerence 以及科大訊飛的服務(wù),可能是不同車型采用不同的方案,也可能是整合各方優(yōu)勢,例如ASR采用科大訊飛,TTS 采用Cerence。 小鵬的語音助手的處理和決策在本地和云端兩部分進(jìn)行,喚醒、車控這些基本的功能都會(huì)在本地進(jìn)行,更多需要計(jì)算能力的功能則會(huì)在云端進(jìn)行,在沒有聯(lián)網(wǎng)的情況下,會(huì)進(jìn)行網(wǎng)絡(luò)重連,一旦重連成功,會(huì)首先恢復(fù)云端計(jì)算。如果實(shí)在無法恢復(fù)網(wǎng)絡(luò),導(dǎo)航和音樂等需要借助于云端的功能就無法實(shí)現(xiàn),但對車輛的控制是可以實(shí)現(xiàn)。 上汽: 上汽的斑馬采用了達(dá)摩院提供的前端算法、喚醒,思必馳提供語音識(shí)別能力,科大訊飛提供 TTS 音色。 上汽的其他車系有采用Cerence的ASR以及其他服務(wù)因?yàn)樾枰獓H化,所以需要各種語音的ASR. 總的來講,主機(jī)廠智能語音主流趨勢是整合各方供應(yīng)商的語音引擎,建立自有語音平臺(tái)數(shù)據(jù)庫,支持第三方智能語音應(yīng)用生態(tài)。 AI智能車載語音的挑戰(zhàn)和未來 顯然AI智能語音是未來智能駕駛座艙的重中之重,猶如駕駛體系的自動(dòng)駕駛駕駛,拓展后是基于智能語音的應(yīng)用生態(tài)。 目前評價(jià)語音識(shí)別的指標(biāo)有:準(zhǔn)確率-語言喚醒,聲源定位,在線/離線識(shí)別率,語義理解率,連續(xù)對話理解,單句多任務(wù)理解。未來可能會(huì)有更多的聲音指紋,生態(tài)等。
展開
科技是怎么和豪華畫上等號(hào)的?
先看語音識(shí)別,這可是眾多車廠都在主打的“人工智能”亮點(diǎn)。然而,單純的語音指令識(shí)別,還真的不如沒有。機(jī)器聽不懂人話,自然人也不愿意跟車對話了。所以要想讓車載系統(tǒng)真正為人所用,還是需要車輛有真正的“智慧”,這需要大數(shù)據(jù)積累下的人工智能調(diào)校。寶馬在全新一代 X3 上配備了根據(jù)中文語言環(huán)境調(diào)校出的自然語音識(shí)別系統(tǒng)。注意,這句話有兩個(gè)重點(diǎn):一個(gè)是中文語言環(huán)境,另外一個(gè)就是自然語音識(shí)別。這也就意味著,在全新一代的寶馬 X3 上,你可以直接按下語音識(shí)別按鈕,然后說一句“該加油了”,全新BMW X3就能夠迅速為你找到附近的加油站;當(dāng)你正在開車卻想發(fā)送短信時(shí),你可以直接陳述“給張三發(fā)短信,告訴他‘今晚一起吃飯’”,該系統(tǒng)便可自行寫好短信并且發(fā)送出去,猶如一位“坐在副駕的隱形私人助理”。 另外,為什么車載中控總是這么難用?這個(gè)問題估計(jì)不少人有同感。特斯拉推出大屏中控臺(tái)的時(shí)候,很多人以為諾基亞時(shí)代要被終結(jié)了,后來發(fā)現(xiàn)這塊大屏幕并沒有掀起時(shí)代的變革。不是說大屏不好,而是用戶需要什么樣的體驗(yàn)沒弄明白時(shí),照著手機(jī)做車載系統(tǒng),一定是失敗的。而對于大部分普通車主而言,買車時(shí)候加個(gè)大幾千升級(jí)個(gè)大屏,還不如買個(gè)手機(jī)支架。 想要讓車載系統(tǒng)如同手機(jī)一樣好用,還是需要跟進(jìn)司機(jī)的使用習(xí)慣對整個(gè)系統(tǒng)設(shè)計(jì)進(jìn)行特定的調(diào)整才行。我們都知道,如今的智能手機(jī)好用,是因?yàn)橹悄苁謾C(jī)通過觸屏這種介質(zhì),讓你能直接看到什么就點(diǎn)什么。但是車載系統(tǒng)的使用場景就不太一樣的,中控屏幕與用戶之間的距離肯定沒有手機(jī)近,所以菜單和按鈕就需要做的更大,方便點(diǎn)選,并且還不能像手機(jī)一樣做系統(tǒng)后臺(tái),因?yàn)槔龊笈_(tái)的動(dòng)作,勢必是要分散注意力的,所以讓車載系統(tǒng)便于操作,直觀,且拖動(dòng)流暢,是評判一個(gè)車載系統(tǒng)的幾個(gè)重要維度。
展開
AI智能音箱工作原理中應(yīng)用的數(shù)字功放芯片
AI智能音箱是一個(gè)音箱升級(jí)的產(chǎn)物,是家庭消費(fèi)者用語音進(jìn)行上網(wǎng)的一個(gè)工具,比如點(diǎn)播歌曲、上網(wǎng)購物,或是了解天氣預(yù)報(bào),它也可以對智能家居設(shè)備進(jìn)行控制,比如打開窗簾、設(shè)置冰箱溫度、提前讓熱水器升溫等。 智能音箱的智能語音交互系統(tǒng)是實(shí)現(xiàn)其智能化的關(guān)鍵技術(shù),智能語音交互系統(tǒng)需要具備:1)遠(yuǎn)場識(shí)別,2)喚醒詞喚醒,3)語音識(shí)別,4)語義理解。任何支持智能語音交互系統(tǒng)的設(shè)備都可以成為以語音作為媒介的控制中樞,因此除了智能音箱外,還可以運(yùn)用于汽車、手機(jī)、可穿戴設(shè)備。 智能音箱提供內(nèi)容和服務(wù)的工作原理:假設(shè)消費(fèi)者向智能音箱發(fā)出“查詢A到B的機(jī)票”的指令,智能音箱的語音交互系統(tǒng)通過語音算法本地處理單元和音頻解碼單元收集語音、降噪、識(shí)別喚醒詞、將語音信號(hào)轉(zhuǎn)為數(shù)字信號(hào),之后將處理后的數(shù)字信號(hào)上傳至云端服務(wù)器,云端服務(wù)器將進(jìn)行語音數(shù)字編碼識(shí)別和語義理解,隨后通過調(diào)用機(jī)票預(yù)訂數(shù)據(jù)庫中的信息傳遞給智能音箱,智能音箱將上述數(shù)字信號(hào)通過音效單元還原為語音信號(hào)并播放出來。 智能音箱控制智能家居的工作原理:假設(shè)消費(fèi)者向智能音箱發(fā)出“關(guān)閉電燈”的指令,智能音箱通過語音收集、語音識(shí)別后將語音數(shù)字編碼通過云端服務(wù)器進(jìn)行語義理解,并將得到的信息回饋回到家庭路由器,通過路由器廣播這條控制指令,智能家居設(shè)備擁有各自唯一的IP號(hào),智能家居能夠識(shí)別指令中是否涉及自身的IP號(hào),最終電燈的插座識(shí)別完成后,完成關(guān)閉電燈的指令。
展開
科大訊飛:源于偶然讓機(jī)器開口說話
科大訊飛在語音合成、識(shí)別、評測,翻譯等領(lǐng)域都擁有全球領(lǐng)先的核心技術(shù)。 2005年至2018年,在全球最高水平的語音合成比賽Blizzard Challenge中,科大訊飛取得13連冠,同時(shí)科大訊飛各項(xiàng)關(guān)鍵指標(biāo)均名列第一。在國際機(jī)器翻譯評測IWSLT2014、NIST2015等大賽中科大訊飛連奪冠軍。 在過去6年中,科大訊飛的語音識(shí)別技術(shù)準(zhǔn)確率從60.2%提升到98%以上。語音技術(shù)上的優(yōu)勢為科大訊飛向人工智能發(fā)展,同時(shí)落地行業(yè)與應(yīng)用打下良好的根基。 訊飛在布局當(dāng)前的大數(shù)據(jù)人工智能的同時(shí),也在關(guān)心人工智能發(fā)展的另一方面,即與人腦相結(jié)合,基于類腦計(jì)算,試圖找到人腦智能的奧秘,發(fā)現(xiàn)其中的智能動(dòng)力學(xué),進(jìn)而真正讓機(jī)器具備像人一樣的智能,同時(shí)不受人腦物理空間的局限,以此來實(shí)現(xiàn)人工智能領(lǐng)域真正的突破。 訊飛翻譯機(jī),出境游so easy 科大訊飛是真正把人工智能的應(yīng)用落地了。在2010年,科大訊飛開發(fā)了世界上第二個(gè)、中國第一個(gè)語音輸入法,僅次于谷歌,訊飛輸入法主打語音輸入,語音識(shí)別準(zhǔn)確率超98%,同時(shí)支持22種方言的語音輸入。 在2016年,科大訊飛發(fā)布了第一個(gè)智能終端產(chǎn)品訊飛翻譯機(jī)。 2018年4月又推出了訊飛翻譯機(jī)2.0,主打中文與33種語言實(shí)時(shí)互譯、方言翻譯和拍照翻譯,并獨(dú)家具備4G、Wi-Fi和離線翻譯模式。 翻譯機(jī)86%的用戶用于出境游。考慮到用戶可能不會(huì)使用標(biāo)準(zhǔn)普通話,訊飛翻譯機(jī)同時(shí)搭載了方言和帶方言口音非標(biāo)準(zhǔn)普通話的識(shí)別能力,目前已支持粵語、四川話、東北話、河南話四大方言。 方言種類還在持續(xù)增加中,并能根據(jù)用戶的不同使用場景與用詞習(xí)慣,準(zhǔn)確識(shí)別并給出最符合語境的翻譯結(jié)果,真正做到了落地實(shí)用。“可以說,訊飛翻譯機(jī)2.0是至今世界上銷量最好、好評度最高的手持式智能翻譯系統(tǒng)。”
展開
語音識(shí)別圖2
淺談 MATLAB 語音與聲學(xué)應(yīng)用 附振動(dòng)力學(xué)基礎(chǔ)與MATLAB應(yīng)用下載
Ken Sutton,Yobe 總裁、CEO 兼聯(lián)合創(chuàng)始人 ◆ ◆ ◆ ◆ 簡要總結(jié) 對于拓展智能語音應(yīng)用,很重要的一方面就是聲源競爭的問題。 多個(gè)方向、多種來源、高噪聲環(huán)境下的場景,如何提取目標(biāo)信號(hào),是進(jìn)行可靠語音識(shí)別的前提。 我們介紹了,基于麥克風(fēng)陣列波束成形的方法和基于深度學(xué)習(xí)的掩模估計(jì)的方法,下期我們會(huì)談?wù)勆疃葘W(xué)習(xí)的語音識(shí)別 下載地址:振動(dòng)力學(xué)基礎(chǔ)與MATLAB應(yīng)用
2-10 基于matlab的動(dòng)態(tài)時(shí)間歸整(DTW)算法 ¥35.9
以一個(gè)能識(shí)別數(shù)字0~9的語音識(shí)別系統(tǒng)的實(shí)現(xiàn)過程為例,闡述了基于DTW算法的特定人孤立詞語音識(shí)別的基本原理和關(guān)鍵技術(shù)。其中包括對語音端點(diǎn)檢測方法、特征參數(shù)計(jì)算方法和DTW算法實(shí)現(xiàn)。程序已調(diào)通,可直接運(yùn)行。</p><div contenteditable="false" width="100%"><figure class="figure-image" data-img="https://img.jishulink.com/202406/attachment/105d399d1adf4e78bb2c03197b7abd6b.png" style="text-align: center"><img src="https://img.jishulink.com/202406/attachment/105d399d1adf4e78bb2c03197b7abd6b.png"></figure></div><p><br></p>
展開
DSP和FPGA在汽車電子中的廣泛應(yīng)用
3.1基于DSP和FPGA的車用語音信號(hào)處理   汽車電子產(chǎn)品中的語音處理主要涉及到語音的數(shù)字化處理、語音編解碼、語音壓縮和語音識(shí)別。國外比較熱門的汽車電子產(chǎn)品之一就是語音識(shí)別系統(tǒng),語音識(shí)別系統(tǒng)具有潛在的應(yīng)用前景,包括聲控電話、語音操作導(dǎo)航、聲控選擇廣播頻道、防盜語音鑒別等。例如,一種基于隱式馬可夫模型(HMM)的與講話人無關(guān)、100條指令識(shí)別的應(yīng)用,由文獻(xiàn)可知,那幺聲學(xué)HMM模型的大小將為。進(jìn)行包括輸入語音采樣的細(xì)分/開窗、MFCC提取、概率計(jì)算和Viterbi搜尋等適時(shí)處理,對DSP的運(yùn)算量要求一般為10000萬次乘加(MAC)運(yùn)算。對于連續(xù)語音信號(hào)的識(shí)別,則要求更好的數(shù)字信號(hào)處理速度和更大的存儲(chǔ)空間。   由于語音識(shí)別系統(tǒng)要對聲音進(jìn)行實(shí)時(shí)處理和采樣,需要大量的運(yùn)算,如果以它們20%的計(jì)算資源分配用于1000萬次MAC語音識(shí)別應(yīng)用,那么需要處理器能夠具有5000萬次MAC的能力。因此,必須采用DSP和FPGA才能完成其任務(wù)。DSP和FPGA的處理速度對語音信號(hào)處理應(yīng)用系統(tǒng)的復(fù)雜性和性能起著決定性作用,高速DSP和FPGA的實(shí)現(xiàn)可實(shí)現(xiàn)聲道自適應(yīng)和聲域自適應(yīng)等現(xiàn)代語音處理和識(shí)別技術(shù)。從理論上講,DSP和FPGA處理速度越快,汽車語音處理和識(shí)別產(chǎn)品的應(yīng)用性能就越好。   隨著應(yīng)用日益多樣化, DSP和FPGA演變成不再是一塊獨(dú)立的芯片,而變成了構(gòu)件內(nèi)核。這使得設(shè)計(jì)師能選擇合適的內(nèi)核和專用邏輯“膠結(jié)”在一起形成專用DSP和FPGA方案,以滿足信號(hào)處理的需要。目前,還出現(xiàn)把DSP核和ASIC微控制器集成在一起的芯片。汽車電子系統(tǒng)使用通用DSP和FPGA來實(shí)現(xiàn)語音合成,糾錯(cuò)編碼。而語音合成、語音壓縮與編碼是DSP最早和最廣泛的應(yīng)用,矢量編碼器用于將語音信號(hào)壓縮到有限帶寬的信道中。   
展開
新能源汽車智能座艙耐久測試的技術(shù)要點(diǎn)
測試內(nèi)容包括: 單點(diǎn)/多點(diǎn)觸控耐久性 不同壓力等級(jí)下的響應(yīng)性能 高低溫環(huán)境下的顯示一致性 長期點(diǎn)亮下的像素衰減測試 2、語音識(shí)別系統(tǒng)測試 語音系統(tǒng)的耐久測試重點(diǎn)考察: 長時(shí)間語音指令識(shí)別穩(wěn)定性 噪聲環(huán)境下的識(shí)別準(zhǔn)確率 麥克風(fēng)陣列的耐久性能 語音喚醒成功率隨時(shí)間的變化 3、智能座椅系統(tǒng)測試 智能座椅的電機(jī)、加熱、通風(fēng)、按摩等功能需要進(jìn)行: 調(diào)節(jié)機(jī)構(gòu)循環(huán)耐久測試 加熱元件長時(shí)間工作穩(wěn)定性 振動(dòng)功能衰減測試 材質(zhì)耐磨性與老化測試 4、環(huán)境控制系統(tǒng)測試 智能溫控系統(tǒng)的測試包括: 壓縮機(jī)循環(huán)耐久性 傳感器精度長期穩(wěn)定性 出風(fēng)口調(diào)節(jié)機(jī)構(gòu)可靠性 空氣凈化系統(tǒng)效能持續(xù)性 5、整體系統(tǒng)集成測試 除了單個(gè)模塊的測試外,還需要進(jìn)行系統(tǒng)級(jí)測試: 多系統(tǒng)同時(shí)運(yùn)行的壓力測試 網(wǎng)絡(luò)通信穩(wěn)定性測試 軟件系統(tǒng)長時(shí)間運(yùn)行測試 電源管理系統(tǒng)的可靠性測試 北京沃華慧通測控技術(shù)有限公司:智能座艙耐久測試的專業(yè)伙伴 面對智能座艙耐久測試的 “高復(fù)雜度、高精準(zhǔn)度” 需求,北京沃華慧通測控技術(shù)有限公司打造了 “硬件設(shè)備 + 軟件平臺(tái) + 定制服務(wù)” 三位一體的解決方案,為車企與座艙供應(yīng)商提供全流程技術(shù)支持。在硬件測試設(shè)備方面,可對智能座艙硬件進(jìn)行全面的振動(dòng)耐久性測試。其高低溫試驗(yàn)箱具備快速升降溫能力,溫度均勻性好,能夠滿足高低溫測試對環(huán)境溫度的嚴(yán)格要求。在軟件測試工具方面,公司開發(fā)了智能化的自動(dòng)化測試平臺(tái),可根據(jù)用戶需求定制測試腳本,實(shí)現(xiàn)對智能座艙軟件功能、性能的高效自動(dòng)化測試。
展開