關(guān)于神經(jīng)網(wǎng)絡(luò)的簡(jiǎn)介

balipoyu

2017年5月15日 17:07

別以為名字中帶“網(wǎng)絡(luò)”二字，神經(jīng)網(wǎng)絡(luò)就是一種設(shè)備，事實(shí)上神經(jīng)網(wǎng)絡(luò)是一種模擬人腦結(jié)構(gòu)的算法模型。其原理就在于將信息分布式存儲(chǔ)和并行協(xié)同處理。雖然每個(gè)單元的功能非常簡(jiǎn)單，但大量單元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)就能實(shí)現(xiàn)非常復(fù)雜的數(shù)據(jù)計(jì)算，并且還是一個(gè)高度復(fù)雜的非線性動(dòng)力學(xué)習(xí)系統(tǒng)。

神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)更接近于人腦，具有大規(guī)模并行、分布式存儲(chǔ)和處理、自組織、自適應(yīng)和自學(xué)能力。神經(jīng)網(wǎng)絡(luò)的用途非常廣泛，在系統(tǒng)辨識(shí)、模式識(shí)別、智能控制等領(lǐng)域都能一展身手。而現(xiàn)在最吸引IT巨頭們關(guān)注的就是神經(jīng)網(wǎng)絡(luò)在智能控制領(lǐng)域中的自動(dòng)學(xué)習(xí)功能，特別適合在需要代入一定條件，并且信息本身是不確定和模糊的情況下，進(jìn)行相關(guān)問(wèn)題的處理，例如語(yǔ)音識(shí)別。

神經(jīng)網(wǎng)絡(luò)的起源要追溯到上世紀(jì)40年代，心理學(xué)家麥克庫(kù)羅克和數(shù)理邏輯學(xué)家皮茲首先提出了神經(jīng)元的數(shù)學(xué)模型。此模型沿用至今，并且直接影響著這一領(lǐng)域研究的進(jìn)展。因而，他們兩人就是神經(jīng)網(wǎng)絡(luò)研究的先驅(qū)。隨著計(jì)算機(jī)的高速發(fā)展，人們以為人工智能、模式識(shí)別等問(wèn)題在計(jì)算機(jī)面前都是小菜一碟。再加上當(dāng)時(shí)電子技術(shù)比較落后，用電子管或晶體管制作出結(jié)構(gòu)復(fù)雜的神經(jīng)網(wǎng)絡(luò)是完全不可能的，所以神經(jīng)網(wǎng)絡(luò)的研究一度陷于低潮當(dāng)中。到了20世紀(jì)80年代，隨著大規(guī)模集成電路的發(fā)展，讓神經(jīng)網(wǎng)絡(luò)的應(yīng)用成為了可能。而且人們也看到了神經(jīng)網(wǎng)絡(luò)在智能控制、語(yǔ)音識(shí)別方面的潛力。但是這一技術(shù)的發(fā)展仍然緩慢，而硬件性能的發(fā)展以及應(yīng)用方式的變化，再加上谷歌、微軟、IBM等大公司的持續(xù)關(guān)注，神經(jīng)網(wǎng)絡(luò)終于又火了起來(lái)。本該在上世紀(jì)80年代就出現(xiàn)的諸多全新語(yǔ)音技術(shù)，直到最近才與我們見(jiàn)面，神經(jīng)網(wǎng)絡(luò)已經(jīng)成為最熱門(mén)的研究領(lǐng)域之一。

在國(guó)際會(huì)議上，與會(huì)人員來(lái)自世界各地，同聲傳譯就成了必不可少的溝通方式。但是到目前為止，同聲傳譯基本上都是靠人來(lái)完成的，譯員在不打斷講話者演講的情況下，不停地將其講話內(nèi)容傳譯給聽(tīng)眾。用機(jī)器進(jìn)行同聲傳譯，這個(gè)往往只出現(xiàn)在科幻電影中的設(shè)備，卻成為了現(xiàn)實(shí)。

在2012年底天津召開(kāi)的“21世紀(jì)的計(jì)算-自然而然”大會(huì)上，微軟研究院的創(chuàng)始人里克·雷斯特在進(jìn)行主題演講時(shí)，展示了一套實(shí)時(shí)語(yǔ)音機(jī)器翻譯系統(tǒng)。這個(gè)系統(tǒng)在里克.雷斯特用英文演講時(shí)，自動(dòng)識(shí)別出英文字詞，再實(shí)時(shí)翻譯成中文，先在大屏幕上顯示出來(lái)，同時(shí)用電腦合成的聲音讀出。最令人驚奇的是，與常見(jiàn)的合成語(yǔ)音聲調(diào)非常機(jī)械不同。在演示之前，雷斯特曾經(jīng)給這套系統(tǒng)輸入過(guò)自己長(zhǎng)達(dá)1個(gè)多小時(shí)的錄音信息，所以由電腦合成的中文語(yǔ)音并不是機(jī)械聲，而是聲調(diào)聽(tīng)上去和雷斯特本人一致。這套實(shí)時(shí)語(yǔ)音機(jī)器翻譯系統(tǒng)就是基于神經(jīng)網(wǎng)絡(luò)算法，由微軟和多倫多大學(xué)歷時(shí)兩年共同研發(fā)。這個(gè)被命名為“深度神經(jīng)網(wǎng)絡(luò)”的技術(shù)，模仿由不同層次神經(jīng)元構(gòu)成的人腦，組成一個(gè)多層次的系統(tǒng)。整個(gè)系統(tǒng)共分為9層，最底層用來(lái)學(xué)習(xí)將要進(jìn)行分析的語(yǔ)音有哪些特征，上一層就將這些分析進(jìn)行組合，并得出新的分析結(jié)果，這樣經(jīng)過(guò)多次分析處理之后，增加識(shí)別的準(zhǔn)確性。而最上面的一層用來(lái)分析出聽(tīng)到的聲音究竟是哪個(gè)音組，再通過(guò)和已注明音組的語(yǔ)音庫(kù)里的數(shù)據(jù)進(jìn)行比對(duì)，從而將正確的結(jié)果反饋出來(lái)。經(jīng)過(guò)如此復(fù)雜精密的處理之后，系統(tǒng)對(duì)于語(yǔ)音的識(shí)別能力就會(huì)有顯著的提升，其性能優(yōu)于以往的辦法。

根據(jù)微軟的測(cè)試，運(yùn)用了這種“深度神經(jīng)網(wǎng)絡(luò)”技術(shù)的實(shí)時(shí)語(yǔ)音翻譯器，相比舊系統(tǒng)出錯(cuò)率至少降低30%，最好的情況下能達(dá)到8個(gè)單詞僅錯(cuò)1個(gè)，這是一個(gè)非常不錯(cuò)的成績(jī)了。這個(gè)實(shí)時(shí)語(yǔ)音翻譯器已經(jīng)能支持包括普通話在內(nèi)的26種語(yǔ)言，不過(guò)這個(gè)實(shí)時(shí)語(yǔ)音翻譯器目前還不成熟，使用之前必須先在系統(tǒng)中輸入1個(gè)小時(shí)以上的音頻資料，讓系統(tǒng)識(shí)別發(fā)言人聲音中那些細(xì)微的差別，從而建立起語(yǔ)音數(shù)據(jù)庫(kù)，才能發(fā)出與發(fā)言人相近的聲音。雖然離面世還有一段距離，不過(guò)已經(jīng)可以看到機(jī)器同聲傳譯的并不是遙不可及的事情了。

如果說(shuō)微軟的實(shí)時(shí)語(yǔ)音翻譯器離我們有點(diǎn)遙遠(yuǎn)，那么不妨看看谷歌運(yùn)用神經(jīng)網(wǎng)絡(luò)對(duì)于Android系統(tǒng)的改進(jìn)吧。手機(jī)CPU性能的不斷增強(qiáng)，除了帶來(lái)更好的游戲性能，也讓手機(jī)系統(tǒng)獲益良多。代號(hào)為“果凍豆”的Android 4.1系統(tǒng)界面變得更為流暢，使用需要海量計(jì)算工作的神經(jīng)網(wǎng)絡(luò)也成為了可能。 Android 4.1系統(tǒng)的語(yǔ)音系統(tǒng)的一大改進(jìn)就是采用了神經(jīng)網(wǎng)絡(luò)算法。當(dāng)用戶(hù)對(duì)著Android手機(jī)發(fā)出語(yǔ)音指令之后，就會(huì)由神經(jīng)網(wǎng)絡(luò)算法來(lái)進(jìn)行處理，同樣是先由軟件挑出用戶(hù)語(yǔ)音中組成單詞的不同元音和輔音。然后由另外的軟件對(duì)挑出的信息進(jìn)行組合、分析，并進(jìn)行猜測(cè)，再給出新的信息。這條語(yǔ)音指令經(jīng)過(guò)分析的次數(shù)越多，系統(tǒng)得出的結(jié)論也就越接近于用戶(hù)的本來(lái)意思。

除了語(yǔ)音分辨準(zhǔn)確率大幅提高之外，語(yǔ)音系統(tǒng)還擁有學(xué)習(xí)的能力。在收集了用戶(hù)的語(yǔ)音信息之后，系統(tǒng)也會(huì)用更傾向于人類(lèi)的聲音來(lái)反饋用戶(hù)的指令，而不是用機(jī)械的合成語(yǔ)音。也就是說(shuō)，Android 4.1的語(yǔ)音系統(tǒng)的人機(jī)交互變得更為自然，用戶(hù)越來(lái)越不像是跟機(jī)器人對(duì)話。而且通過(guò)這個(gè)全新的語(yǔ)音系統(tǒng)，也有更多APP被開(kāi)發(fā)了出來(lái)，豐富了應(yīng)用。更換算法之后，Android的語(yǔ)音識(shí)別率提升了25%。這在一定程度上緩解了現(xiàn)有的語(yǔ)音功能存在的語(yǔ)音系統(tǒng)學(xué)習(xí)能力差、語(yǔ)音識(shí)別能力不強(qiáng)以及機(jī)器合成語(yǔ)音太機(jī)械等問(wèn)題。負(fù)責(zé)這個(gè)項(xiàng)目的科學(xué)家凡豪克表示，“這個(gè)項(xiàng)目在某種程度上讓我們感到驚喜，表明我們只需要改變下模式就能取得相當(dāng)大的改善。”

事實(shí)上要用神經(jīng)網(wǎng)絡(luò)的算法打造這樣一個(gè)語(yǔ)音系統(tǒng)并不是一件容易的事。首先是用Android系統(tǒng)收集了大量用戶(hù)的語(yǔ)音指令，然后將聲音頻譜進(jìn)行分解并送到谷歌的8臺(tái)專(zhuān)用服務(wù)器中。接下來(lái)就是分析這些海量的數(shù)據(jù)，擁有享譽(yù)業(yè)界的狄恩及其工程師團(tuán)隊(duì)的谷歌，非常擅長(zhǎng)于進(jìn)行數(shù)據(jù)的處理工作。在分析這些樣本時(shí)，研究人員們確定了使用神經(jīng)網(wǎng)絡(luò)這種算法。對(duì)于每一種語(yǔ)言，谷歌可能都會(huì)構(gòu)建出數(shù)種工作模式，例如處理用英語(yǔ)發(fā)出搜索請(qǐng)求等。

盡管神經(jīng)網(wǎng)絡(luò)現(xiàn)在已經(jīng)被廣泛用于語(yǔ)音識(shí)別領(lǐng)域，但是其用途肯定不限于此。下一步，神經(jīng)網(wǎng)絡(luò)最有可能進(jìn)入圖像軟件領(lǐng)域。與分辨聲音的過(guò)程類(lèi)似，神經(jīng)網(wǎng)絡(luò)在分析圖像時(shí)，每一層的圖像探測(cè)器會(huì)首先尋找圖像中的一些特征，例如圖像的邊緣。當(dāng)探測(cè)完成之后，另一層的軟件就會(huì)將這些邊緣結(jié)合起來(lái)，就會(huì)形成圖像的邊角等特征。然后如此反復(fù)下去，識(shí)別的圖像特征就會(huì)越來(lái)越清晰、明確，到了最后一層就將所有圖像特征結(jié)合起來(lái)，與數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比，就能得出圖片里的物體究竟是什么的結(jié)論。前面提到的谷歌狄恩研究小組就采用這種方法，開(kāi)發(fā)出了一套軟件，已經(jīng)可以通過(guò)自學(xué)分辨出網(wǎng)絡(luò)視頻里的貓。或許未來(lái)這套軟件將會(huì)推廣到圖片搜索領(lǐng)域，谷歌街景利用這一算法就能區(qū)分出不同事物的特征。此外，神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)領(lǐng)域也有施展拳腳的空間，多倫多大學(xué)的一個(gè)研究團(tuán)隊(duì)，已經(jīng)成功地用神經(jīng)網(wǎng)絡(luò)分析出藥物分子在實(shí)際環(huán)境中可能的作用方式。