
發(fā)布
注冊
/
登錄人機語音交互
關(guān)注創(chuàng)建者:匿名 創(chuàng)建時間:2022-07-28
人機語音交互的視頻教程
人機語音交互技術(shù)(一)
本視頻為第五課,人機語音交互技術(shù)(五) 人機語音交互技術(shù)(一) 人機語音交互技術(shù)(二) 人機語音交互技術(shù)(三) 人機語音交互技術(shù)(四) 課程大綱 一、語音基礎(chǔ) 1.語音識別技術(shù)發(fā)展概述 2.MFCC特征 3.單聲道語音降噪算法 二、傳統(tǒng)技術(shù) 1.模型匹配法(DTW) 2. 概率統(tǒng)計法(GMM-HMM) 3.
免費 3分鐘 86播放
查看
人機語音交互的實例教程
什么是人機交互技術(shù)?
在人工智能電話機器人中,最為重要的技術(shù)當(dāng)然是人機交互,什么是人機交互技術(shù)呢?
人機交互技術(shù)(Human-Computer Interaction Techniques)是指通過計算機輸入、輸出設(shè)備,以有效的方式實現(xiàn)人與計算機對話的技術(shù)。
人機交互系統(tǒng)的主要組成
1、多模態(tài)輸入/輸出:多模態(tài)輸入包括鍵盤、鼠標(biāo)、文字、語音、手勢、表情、注視等多種輸入方式;多模態(tài)輸出包括文字、圖形、語音、手勢、表情等多種交互信息。
2、視覺合成:使人機交互能夠在一個仿真或虛擬的環(huán)境中進行,仿佛現(xiàn)實世界中人與人之間的交互。
3、 對話系統(tǒng):主要由兩種研究趨勢,一種以語音為主,另一種從某一特定任務(wù)域入手,引入對話管理概念,建立類似于人人對話的人機對話??赏ㄟ^該系統(tǒng),輕松把握狀態(tài)信息。
4、知識處理:自動地提取有組織的,可為人們利用的知識。
5、智能接口代理:智能接口代理為實現(xiàn)人與計算機交互的媒介。
主要特點
多媒體系統(tǒng)的交互特點
基于語音的智能人機交互是當(dāng)前人機交互技術(shù)的主要表現(xiàn)形式,語音人機交互過程包括信息輸入和輸出的交互、語音處理、語義分析、智能邏輯處理以及知識和內(nèi)容的整合。
與傳統(tǒng)用戶界面相比,引入了視頻和音頻之后的多媒體用戶界面,最重要的變化就是界面不再是一個靜態(tài)界面,而是一個與時間有關(guān)的時變媒體界面。
人類使用語言和其它時變媒體(如姿勢)的方式完全不同于其它媒體。從向用戶呈現(xiàn)的信息來講,時變媒體主要是順序呈現(xiàn)的,而我們通常熟悉的視覺媒體(文本和圖形)通常是同時呈現(xiàn)的。在傳統(tǒng)的靜止界面中,用戶或是從一系列選項中進行選擇(明確的界面通信成分),或是用可再認的方式進行交互(隱含的界面通信成分)。
在時變媒體的用戶界面中,所有選項和文件必須順序呈現(xiàn)。
展開 人機交互HMI(Human-Machine Interaction)是指人與計算機之間通過某種對話語言、以一定的交互方式、為完成確定任務(wù)的,人與計算機之間的信息交換過程。人機交互目的是為了促進人與計算機之間的相互理解,在最大程度上為人類完成信息管理、服務(wù)和處理。
汽車HMI提供了人與車之間交換信息和操作的界面,它可以使用視覺、聽覺、觸覺等通道來為用戶提供相關(guān)信息,也可以提供開關(guān)、觸屏、語音、手勢等不同通道來接受用戶的輸入。
圖 1 汽車人機交互HMI
一、人機交互對自動駕駛的意義
對于裝備有自動駕駛系統(tǒng)的車輛來說,良好的人機交互可以促進人與系統(tǒng)之間的有效溝通,增進彼此的理解,從而達到更安全、舒心、有效的駕駛體驗,增加用戶對自動駕駛系統(tǒng)的信任感。
自動駕駛系統(tǒng)HMI的目的在于優(yōu)化人類對任務(wù)和情況的理解,減少意外誤用或不正確的操作,其最重要和最具挑戰(zhàn)性的目標(biāo)在于使用戶正確地理解當(dāng)前實際的駕駛模式,以及該模式下附屬的用戶責(zé)任和駕駛?cè)蝿?wù)。
二、人類駕駛員與自動駕駛系統(tǒng)的職責(zé)分配
根據(jù)SAE J3016標(biāo)準(zhǔn)的定義,隨著車輛駕駛自動化水平從L0級到L5級,用戶需要承擔(dān)的駕駛?cè)蝿?wù)和職責(zé)不斷變化,車輛控制權(quán)逐步由人類駕駛員轉(zhuǎn)移到自動駕駛系統(tǒng),下圖2顯示了車輛控制權(quán)的轉(zhuǎn)移趨勢。
圖 2 人類駕駛員和自動駕駛系統(tǒng)在不同駕駛自動化等級中的職責(zé)變化
下表1具體說明了不同自動化等級下人類駕駛員和自動駕駛系統(tǒng)的駕駛?cè)蝿?wù)分配情況。
展開 分別從如下幾方面進行相應(yīng)的研究:
1)功能體驗研究
研究車輛交互中聲音、震動、燈光的駕駛員功能體驗的效果;
研究各種車機信息交互之間的影響,使與駕駛員交互信息效果最優(yōu);
研究各類方式的交互效果的測評;
2)人機交互研究
研究實際應(yīng)用中的人機交互的方式轉(zhuǎn)變與應(yīng)用;
研究觸屏、語音、手勢、人臉等多模態(tài)交互功能開發(fā);
為自動駕駛車輛的人機交互提供開發(fā)支持;
3)人機接管研究
研究體系與自動駕駛功能之間的對應(yīng)關(guān)系;
研究從駕駛場景(緊急制動、行人穿行 )、駕駛員(年齡、職業(yè)、場景等)、車輛狀 態(tài)(主動接管、ODD場景的接管)等多維度的接管場景體系;
智能交互業(yè)務(wù)體系
智能駕駛中的人機交互分為純粹的人機交互和人機接管兩個方向。其中,人機交互包含語音數(shù)據(jù)、人臉數(shù)據(jù)、手勢識別、人因數(shù)據(jù)等幾個方面。其上各方面分別是從數(shù)據(jù)采集,建立樣本庫,開發(fā)算法,到最終形成評價應(yīng)用入手進行研究。而人機接管過程則更多與智能駕駛的控制過程做強綁定,實現(xiàn)需要從駕駛員、環(huán)境、采取機制等幾個大方向的研究策略。具體說來可包括如下幾個業(yè)務(wù)體系。
對于面向自動駕駛的人機交互解決方案來講,涉及在高級智能化階段基于高性能國產(chǎn)AI芯片的高安全性解決方案,以及聯(lián)合云端大腦,整合高精地圖、數(shù)據(jù)閉環(huán)、智能汽車運營等全方位云端智能化,構(gòu)建智能汽車核心能力。整合路端智能化,支持車路協(xié)同功能的落地,極大提升系統(tǒng)安全性。
通過對智能交互業(yè)務(wù)梳理,可通過數(shù)據(jù)庫建設(shè)、測試用例、算法開發(fā)與評價應(yīng)用等方面作為業(yè)務(wù)方向,同時對駕駛員行為全面監(jiān)控,為人機接管提供更科學(xué)的依據(jù),可以全面提升駕駛體驗。
展開 作者 | HYZY
來源 | 焉知
知圈 | 進“HMI社群”請加微信15221054164,備注HMI
一、基本概念
駕駛員狀態(tài)監(jiān)控系統(tǒng)DMS(Driver Monitor System)屬于自動駕駛人機交互的一部分,其使用攝像頭獲取的圖像及其它車身傳感器輸入的數(shù)據(jù),通過視覺跟蹤、動作識別等技術(shù)監(jiān)測駕駛員的駕駛行為和生理狀態(tài),當(dāng)判斷駕駛員不在場或處于非正常駕駛狀態(tài)時(疲勞、分心等),自動駕駛系統(tǒng)向駕駛員發(fā)出報警或執(zhí)行其它安全策略,以確保車輛運行安全。
圖 1 駕駛員狀態(tài)監(jiān)控DMS
從技術(shù)原理上,駕駛員狀態(tài)監(jiān)控系統(tǒng)DMS可分為直接監(jiān)控和間接監(jiān)控兩種類型:
直接監(jiān)控:通過傳感器獲取駕駛員頭部運動、面部運動、眼部運動、心電或腦電等直接表征駕駛員狀態(tài)的信號,用以判斷駕駛員的狀態(tài);
間接監(jiān)控:通過獲取駕駛員的駕駛行為信號及相關(guān)車輛狀態(tài)信號,間接判斷駕駛員狀態(tài)。
直接監(jiān)控方式可獲取更多的駕駛員狀態(tài)信息,且隨著相關(guān)視覺技術(shù)的進步,其判斷結(jié)果可信度也不斷提升,多用于自動駕駛系統(tǒng)的人機交互。間接監(jiān)控方式可獲取的駕駛員狀態(tài)信息有限,通常可用于駕駛員駕駛風(fēng)格判斷及整車駕駛模式匹配。
二、駕駛員狀態(tài)定義
駕駛員狀態(tài)監(jiān)控系統(tǒng)DMS可識別的駕駛員狀態(tài)見下圖2。
展開 267 基于matlab的信號處理GUI人機交互 ¥25.9
基于matlab的信號處理GUI人機交互,利用GUI功能完成包括振幅調(diào)制AM(Amplitude Modulation),雙邊帶調(diào)幅信號DSB(double sideband),單邊帶信號SSB(single sideband ),調(diào)頻FM模擬(Frequency Modulation)調(diào)制在內(nèi)的調(diào)制解調(diào)過程,輸入波形及濾波參數(shù)可調(diào),程序已調(diào)通,可直接運行。

人機語音交互的相關(guān)專題、標(biāo)簽、搜索
人機語音交互的最新內(nèi)容
當(dāng)汽車從單純的交通工具,進化為集出行、娛樂、交互于一體的智能移動空間,車載中控屏、儀表屏、AR-HUD等顯示設(shè)備,早已告別單純的“顯示工具”定位,成為人車交互的核心樞紐。一塊卡頓、失靈、工況不穩(wěn)定的車載屏,不僅會徹底毀掉駕乘體驗,更會直接埋下行車安全隱患。
但行業(yè)現(xiàn)狀卻格外刺眼:據(jù)第三方汽車投訴平臺數(shù)據(jù)統(tǒng)計,智能汽車座艙相關(guān)投訴中,車載屏幕黑屏、觸控失靈、強光下可視性差、極端工況下卡頓死機等問題
人機交互軟件語音交互測試:使用不同的語音指令、口音和語速進行語音輸入,測試語音識別的準(zhǔn)確率和響應(yīng)速度;檢查語音助手對模糊指令、多輪對話的理解和處理能力;驗證語音交互功能在不同環(huán)境噪音下的性能表現(xiàn)。
基于matlab的信號處理GUI人機交互,利用GUI功能完成包括振幅調(diào)制AM(Amplitude Modulation),雙邊帶調(diào)幅信號DSB(double sideband),單邊帶信號SSB(single sideband ),調(diào)頻FM模擬(Frequency Modulation)調(diào)制在內(nèi)的調(diào)制解調(diào)過程,輸入波形及濾波參數(shù)可調(diào),程序已調(diào)通,可直接運行。
智能化廚房設(shè)備可以通過手機應(yīng)用程序、語音控制等方式進行遠程控制,實現(xiàn)人機交互和語音輸入,享受更加智能化的操作體驗。
智能化廚房可以實時監(jiān)測食品制作和儲存的進度,例如,智能烤箱可以遠程傳輸溫度和時間等相關(guān)數(shù)據(jù),方便消費者對烹飪過程進行精確掌握。
智能化廚房設(shè)備可以自動清洗和消毒設(shè)備,方便消費者使用,減少了清洗、消毒、檢修等工作量。
低延遲流式語音識別技術(shù)在人機語音交互場景中的實踐
美團語音交互部針對交互場景下的低延遲語音識別需求,提出了一種全新的低出字延遲流式語音識別方案。本方法將降低延遲問題轉(zhuǎn)換成一個知識蒸餾過程,極大地簡化了延遲優(yōu)化的難度,僅通過一個正則項損失函數(shù)就使得模型在訓(xùn)練過程中自動降低出字延遲。
但要使語音人機交互系統(tǒng)達到實際商用水平還有許多重要的科學(xué)問題需要解決,如處理背景噪聲、信道噪聲、應(yīng)付陌生詞、陌生用戶和非預(yù)期的輸入,系統(tǒng)必須具備多種層次的魯棒性。
2) 語言合成
由于計算機語言輸入、輸出可實現(xiàn)最為友好的語言合成,所以近年來得到了新的發(fā)展。當(dāng)前語言合成系統(tǒng)可分為兩大類:一類是利用數(shù)字化技術(shù)預(yù)先存儲語言數(shù)據(jù);另一類則是利用語言參數(shù)和發(fā)音規(guī)則產(chǎn)生語言,從而還可以實現(xiàn)文語轉(zhuǎn)換系統(tǒng)。
東京工業(yè)大學(xué)(以下簡稱“東工大”)是日本頂尖的理工科大學(xué),擁有140年的歷史,是一所專攻工程技術(shù)與自然科學(xué)的研究型大學(xué)。東工大十分注重產(chǎn)學(xué)研結(jié)合,并且持有很多專利。迄2021年,東工大已誕生2位諾貝爾獎得主,包括1位諾貝爾生理學(xué)或醫(yī)學(xué)獎得主和1位諾貝爾化學(xué)獎得主。
結(jié)合語音人機交互過程,可以看出智能語音人機交互關(guān)鍵技術(shù)主要如下:
1.自然語音處理技術(shù)
包括中文分詞、詞性標(biāo)注、實體識別、句法分析、自動文本分類等技術(shù)。
2.語義分析和理解
包括知識表示、本體理論、分領(lǐng)域的語義網(wǎng)絡(luò)、機器推理等。
3.知識構(gòu)建和學(xué)習(xí)體系
包括搜索技術(shù)、網(wǎng)絡(luò)爬蟲、數(shù)據(jù)挖掘、知識獲取、機器學(xué)習(xí)等技術(shù)。
其中,人機交互包含語音數(shù)據(jù)、人臉數(shù)據(jù)、手勢識別、人因數(shù)據(jù)等幾個方面。其上各方面分別是從數(shù)據(jù)采集,建立樣本庫,開發(fā)算法,到最終形成評價應(yīng)用入手進行研究。而人機接管過程則更多與智能駕駛的控制過程做強綁定,實現(xiàn)需要從駕駛員、環(huán)境、采取機制等幾個大方向的研究策略。具體說來可包括如下幾個業(yè)務(wù)體系。
編輯推薦:來自重慶大學(xué)等單位的研究人員報道了一種用于與機器通信的可穿戴式翻譯接口的防水聲傳感器(WAS),具有一系列引人注目的功能,可高保真錄音、具有98%的語音識別準(zhǔn)確率、并使用語音識別對智能汽車進行無線控制。代表著人工智能人機交互領(lǐng)域的一項里程碑式的工作,并支持從基于觸摸的設(shè)備到語音操作的電子系統(tǒng)的演變。 人工智能(AI)、物聯(lián)網(wǎng)(IoT)和智能家居的快速發(fā)展正在以有意義和根本性方式更新我們的