Google發(fā)布最新「語(yǔ)音命令」數(shù)據(jù)集,可有效提高關(guān)鍵詞識(shí)別系統(tǒng)性能

f39dfad6a4ad5b0e34fee09748f25767.jpg

圖源:unsplash


來(lái)源 | 雷克世界(公眾號(hào)ID:raicworld

編譯 | 嗯~是阿童木呀、EVA


導(dǎo)語(yǔ):在本文中,我們描述了Google最新發(fā)布的一個(gè)用于幫助訓(xùn)練和評(píng)估關(guān)鍵詞識(shí)別系統(tǒng)的口語(yǔ)詞匯組成的音頻數(shù)據(jù)集。討論了為什么這個(gè)任務(wù)是一個(gè)有趣的挑戰(zhàn),以及為什么它需要一個(gè)專門(mén)的,與用于對(duì)完整句子進(jìn)行自動(dòng)語(yǔ)音識(shí)別的傳統(tǒng)數(shù)據(jù)集所不同的數(shù)據(jù)集。


我們提出了一種對(duì)該任務(wù)進(jìn)行可重復(fù)、可比較的精確度指標(biāo)度量方法。描述了數(shù)據(jù)是如何被收集和驗(yàn)證的,它所包含的內(nèi)容,以及其以前的版本和屬性。通過(guò)報(bào)告在該數(shù)據(jù)集上訓(xùn)練的模型的基線結(jié)果而得出了結(jié)論。


一般說(shuō)來(lái),語(yǔ)音識(shí)別研究傳統(tǒng)上需要大學(xué)或企業(yè)等大型機(jī)構(gòu)的資源來(lái)進(jìn)行。在這些機(jī)構(gòu)工作的人通常可以通過(guò)與語(yǔ)言數(shù)據(jù)聯(lián)盟(Linguistic Data Consortium)等組織達(dá)成協(xié)議,從而自由地訪問(wèn)并使用學(xué)術(shù)數(shù)據(jù)集或者專有的商業(yè)數(shù)據(jù)。


隨著語(yǔ)音技術(shù)的成熟,想要訓(xùn)練和評(píng)估識(shí)別模型的人數(shù)已經(jīng)不僅只是這些傳統(tǒng)組織群體,但是數(shù)據(jù)集的可用性并沒(méi)有被擴(kuò)展。正如ImageNet和計(jì)算機(jī)視覺(jué)領(lǐng)域中類似的集合所顯示的那樣,拓寬對(duì)數(shù)據(jù)集的訪問(wèn)可以鼓勵(lì)跨組織的協(xié)作,并使得在不同方法之間能夠進(jìn)行同類比較,幫助整個(gè)領(lǐng)域向前發(fā)展。


語(yǔ)音命令數(shù)據(jù)集(Speech Commands dataset)是為一類簡(jiǎn)單的語(yǔ)音識(shí)別任務(wù)構(gòu)建標(biāo)準(zhǔn)訓(xùn)練和評(píng)估數(shù)據(jù)集的嘗試。它的主要目標(biāo)是提供一種方法來(lái)構(gòu)建和測(cè)試小模型,這些模型可以從背景噪音或不相關(guān)語(yǔ)音中以盡可能少的誤報(bào)(false positives),從一組10個(gè)或更少的目標(biāo)單詞中檢測(cè)出單個(gè)單詞的使用時(shí)間,這個(gè)任務(wù)通常被稱為關(guān)鍵詞識(shí)別。


為了覆蓋到更廣泛的研究人員和開(kāi)發(fā)人員,該數(shù)據(jù)集已經(jīng)在“知識(shí)共享”(Creative Commons)4.0許可下被發(fā)布了出來(lái)。這使該數(shù)據(jù)集能夠很容易地被納入到教程和其他腳本中,可以被下載和使用,而不需要任何用戶干預(yù)(例如,在網(wǎng)站上注冊(cè)或向管理員發(fā)送電子郵件尋求許可)。該許可證在商業(yè)環(huán)境中也是眾所周知的,因此通常在需要批準(zhǔn)的情況下可以由法律團(tuán)隊(duì)快速處理。


7c6a819fc425e8c23b9a4c6ff9b66b7f.jpg

圖1:數(shù)據(jù)集中每個(gè)單詞的記錄數(shù)量



Mozilla的通用語(yǔ)音(Common Voice)數(shù)據(jù)集擁有2萬(wàn)名不同的人的超過(guò)500個(gè)小時(shí)的語(yǔ)音,并且可以在“知識(shí)共享”Zero許可(類似于公共域)下使用。這個(gè)許可證使得構(gòu)建它非常容易。它由句子對(duì)齊,并且是由志愿者通過(guò)網(wǎng)絡(luò)應(yīng)用程序閱讀請(qǐng)求的短語(yǔ)而創(chuàng)建的。


LibriSpeech是一個(gè)1000小時(shí)的閱讀英語(yǔ)演講集,在“知識(shí)共享”4.0許可下發(fā)布,并使用受到廣泛支持的開(kāi)源FLAC編碼器進(jìn)行存儲(chǔ)。它的標(biāo)簽只在句子級(jí)別上對(duì)齊,因此缺少詞級(jí)的對(duì)齊信息。這使得它比起關(guān)鍵詞識(shí)別更適合全自動(dòng)語(yǔ)音識(shí)別。


TIDIGITS包含由300位不同說(shuō)話者錄制的25,000位數(shù)字序列,由付費(fèi)的參與者在安靜的房間錄制。該數(shù)據(jù)集只能在來(lái)自語(yǔ)言數(shù)據(jù)聯(lián)盟的商業(yè)許可下使用,并且以NIST SPHERE文件格式存儲(chǔ),這種格式被證實(shí)難以使用現(xiàn)代軟件來(lái)解碼。我們關(guān)于關(guān)鍵詞識(shí)別的初始實(shí)驗(yàn)是使用該數(shù)據(jù)集進(jìn)行的。


CHiME-5擁有在人們家中錄制的50個(gè)小時(shí)的語(yǔ)音記錄,存儲(chǔ)為16 KHz的 WAV文件,并可以在有限的許可下使用。它在句子級(jí)別對(duì)齊。


許多語(yǔ)音接口依賴關(guān)鍵詞識(shí)別來(lái)啟動(dòng)交互。例如,你可能會(huì)說(shuō)”Hey Google"或"Hey Siri”開(kāi)始查詢或命令你的手機(jī)。一旦設(shè)備知道你想要進(jìn)行交互,就可以將音頻發(fā)送到Web服務(wù)以運(yùn)行一個(gè)僅受商業(yè)考慮限制的模型,因?yàn)樗梢栽谫Y源由云服務(wù)提供商控制的服務(wù)器上運(yùn)行。雖然交互開(kāi)始的初始檢測(cè)想要作為基于云的服務(wù)運(yùn)行是不切實(shí)際的,因?yàn)樗枰冀K從所有設(shè)備通過(guò)網(wǎng)絡(luò)發(fā)送音頻數(shù)據(jù)。這樣維護(hù)成本會(huì)非常高,并且會(huì)增加該技術(shù)的隱私風(fēng)險(xiǎn)。


相反,大多數(shù)語(yǔ)音接口在手機(jī)或其他設(shè)備上本地運(yùn)行識(shí)別模塊。這種連續(xù)監(jiān)聽(tīng)來(lái)自麥克風(fēng)的音頻輸入,并不是通過(guò)互聯(lián)網(wǎng)將數(shù)據(jù)發(fā)送到服務(wù)器,而是他們運(yùn)行監(jiān)聽(tīng)所需觸發(fā)短語(yǔ)的模型。一旦聽(tīng)到可能的觸發(fā)信號(hào)后,就開(kāi)始將音頻傳輸?shù)絎eb服務(wù)。由于本地模型在不受Web服務(wù)提供商控制的硬件上運(yùn)行,因此設(shè)備模型必須尊重硬資源限制。其中最明顯的是,通常移動(dòng)處理器所具有的總計(jì)算能力比大多數(shù)服務(wù)器要低得多,因此為了實(shí)現(xiàn)交互式響應(yīng),近似實(shí)時(shí)運(yùn)行,設(shè)備模型的計(jì)算所需的計(jì)算量必須少于其等效云計(jì)算量。


更巧妙的是,移動(dòng)設(shè)備的電池續(xù)航時(shí)間有限,而且持續(xù)運(yùn)行的任何設(shè)備都需要非常節(jié)能,否則用戶會(huì)發(fā)現(xiàn)設(shè)備的耗電速度太快。這一考慮不適用于插電式家用設(shè)備,但這些設(shè)備在可以消散多少熱量上存在一定的限制,從而限制了本地模型可用的能源數(shù)量,并受到諸如能源之星(EnergyStar)等計(jì)劃的鼓勵(lì),盡可能減少其整體用電量。最后需要考慮的是,用戶期望設(shè)備能夠做出快速響應(yīng),而網(wǎng)絡(luò)延遲可能會(huì)因環(huán)境而變化很大,因此,即使服務(wù)器的全部響應(yīng)延遲,一些命令已收到的初始確認(rèn)對(duì)于獲得良好體驗(yàn)也很重要。


這些約束意味著,關(guān)鍵詞識(shí)別的任務(wù)與一旦發(fā)現(xiàn)交互后在服務(wù)器上執(zhí)行的語(yǔ)音識(shí)別是完全不同的:


  • 關(guān)鍵詞識(shí)別模型必須更小,所涉及的計(jì)算量更少。

  • 它們需要以非常節(jié)能的方式運(yùn)行。

  • 它們的大部分輸入是沉默或背景噪聲,而不是言語(yǔ),所以誤報(bào)必須盡量減少。

  • 大部分語(yǔ)音輸入與語(yǔ)音接口無(wú)關(guān),因此模型不應(yīng)觸發(fā)任意語(yǔ)音。

  • 識(shí)別的重要單位是單個(gè)單詞或短語(yǔ),而不是整個(gè)句子。


這些差異意味著設(shè)備內(nèi)關(guān)鍵詞識(shí)別和一般語(yǔ)音識(shí)別模型之間的訓(xùn)練和評(píng)估過(guò)程是完全不同的。有一些有發(fā)展前景的數(shù)據(jù)集可以支持通用的語(yǔ)音任務(wù),例如Mozilla的通用語(yǔ)音,但它們不容易適用于關(guān)鍵詞識(shí)別。


此語(yǔ)音命令數(shù)據(jù)集旨在滿足構(gòu)建和測(cè)試設(shè)備上模型的特殊需求,使模型作者能夠使用與其他模型相媲美的度量標(biāo)準(zhǔn)來(lái)演示其架構(gòu)的精確度,并為團(tuán)隊(duì)提供一種簡(jiǎn)單的方法通過(guò)對(duì)相同數(shù)據(jù)進(jìn)行訓(xùn)練來(lái)重現(xiàn)基準(zhǔn)模型。希望這將加速進(jìn)展和協(xié)作,并提高可用模型的整體質(zhì)量。


第二個(gè)重要受眾是硬件制造商。通過(guò)使用密切反映產(chǎn)品需求的公開(kāi)可用任務(wù),芯片供應(yīng)商可以以潛在購(gòu)買者易于比較的方式展示其產(chǎn)品的精確度和能源使用情況。這種增加的透明度應(yīng)該會(huì)導(dǎo)致硬件更好地滿足產(chǎn)品要求。這些模型還應(yīng)提供硬件工程師可用來(lái)優(yōu)化其芯片的清晰規(guī)范,并可能提出模型更改,以便提供更高效的實(shí)現(xiàn)。機(jī)器學(xué)習(xí)和硬件之間的這種協(xié)同設(shè)計(jì)可以是一個(gè)良性循環(huán),在各個(gè)領(lǐng)域之間增加有用信息的流動(dòng),而這對(duì)雙方都有幫助。


a1cca2e0478ae45f62b6e21ab1b0840c.jpg

圖2:使用不同訓(xùn)練數(shù)據(jù)的Top-One精確度評(píng)估結(jié)果


該數(shù)據(jù)集的版本1于2017年8月3日發(fā)布,包含1,881位演講者的64,727條發(fā)言。使用V1訓(xùn)練數(shù)據(jù)對(duì)來(lái)自TensorFlow教程(基于卷積神經(jīng)網(wǎng)絡(luò)的小尺寸關(guān)鍵詞識(shí)別)中的默認(rèn)卷積模型進(jìn)行訓(xùn)練,當(dāng)對(duì)V1的測(cè)試集進(jìn)行評(píng)估時(shí),TopOne得分為85.4%。使用本文中所記錄的數(shù)據(jù)集版本2對(duì)相同模型進(jìn)行訓(xùn)練,產(chǎn)生了一個(gè)模型,該模型在從V2數(shù)據(jù)中提取的訓(xùn)練集中Top-One得分為88.2%。在V2數(shù)據(jù)上進(jìn)行訓(xùn)練,但是針對(duì)V1測(cè)試集進(jìn)行評(píng)估的模型得到89.7%的Top-One得分,這表明V2訓(xùn)練數(shù)據(jù)在精確度上比V1大大提高。圖2列出了完整結(jié)果。


總而言之,該語(yǔ)音命令數(shù)據(jù)集對(duì)于訓(xùn)練和評(píng)估多種模型來(lái)說(shuō)是非常有用的,而第二個(gè)版本顯示了相較于原始數(shù)據(jù)的等效測(cè)試數(shù)據(jù)的改進(jìn)結(jié)果。

登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP