發(fā)布

多模態(tài)感知的案例

自動(dòng)駕駛多模態(tài)融合感知詳解（研究現(xiàn)狀及挑戰(zhàn)）

來(lái)源 | 自動(dòng)駕駛干貨鋪、智車科技導(dǎo)讀：多模態(tài)融合是感知自動(dòng)駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動(dòng)駕駛感知方法。包括LiDAR 和相機(jī)在內(nèi)的解決對(duì)象檢測(cè)和語(yǔ)義分割任務(wù)。從融合階段的角度，從數(shù)據(jù)級(jí)、特征級(jí)、對(duì)象級(jí)、不對(duì)稱融合對(duì)現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問(wèn)題并就潛在的研究機(jī)會(huì)進(jìn)行開(kāi)放式討論。 多模態(tài)融合感知的背景單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機(jī)數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場(chǎng)景中，物體可能會(huì)被遮擋，給物體檢測(cè)和語(yǔ)義分割帶來(lái)嚴(yán)峻挑戰(zhàn)。此外，受限于機(jī)械結(jié)構(gòu)，激光雷達(dá)在不同距離處具有不同的分辨率，并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR 和相機(jī)的互補(bǔ)性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測(cè)、語(yǔ)義分割、深度補(bǔ)全和預(yù)測(cè)等。我們主要關(guān)注前兩個(gè)任務(wù)。數(shù)據(jù)格式相機(jī)提供了豐富的紋理信息的RGB圖像。具體來(lái)說(shuō)，對(duì)于每個(gè)圖像像素為 (u, v)，它有一個(gè)多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機(jī)捕獲的紅色、藍(lán)色、綠色通道或其他手動(dòng)設(shè)計(jì)的特征作為灰度通道。然而，由于深度信息有限，單目相機(jī)難以提取，因此在 3D 空間中直接檢測(cè)物體相對(duì)具有挑戰(zhàn)性。因此，許多方案使用雙目或立體相機(jī)系統(tǒng)通過(guò)空間和時(shí)間空間來(lái)利用附加信息進(jìn)行 3D 對(duì)象檢測(cè)，例如深度估計(jì)、光流等。激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點(diǎn)云。一般來(lái)說(shuō)，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個(gè)點(diǎn)的反射率。不同的紋理導(dǎo)致不同的反射率，然而，點(diǎn)的四元數(shù)表示存在冗余或速度缺陷。

展開(kāi)

自動(dòng)駕駛行業(yè)觀察 | 自動(dòng)駕駛多模態(tài)融合感知詳解（研究現(xiàn)狀及挑戰(zhàn)）

簡(jiǎn)介 多模態(tài)融合是感知自動(dòng)駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動(dòng)駕駛感知方法。包括LiDAR 和相機(jī)在內(nèi)的解決對(duì)象檢測(cè)和語(yǔ)義分割任務(wù)。從融合階段的角度，從數(shù)據(jù)級(jí)、特征級(jí)、對(duì)象級(jí)、不對(duì)稱融合對(duì)現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問(wèn)題并就潛在的研究機(jī)會(huì)進(jìn)行開(kāi)放式討論。 多模態(tài)融合感知的背景單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機(jī)數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場(chǎng)景中，物體可能會(huì)被遮擋，給物體檢測(cè)和語(yǔ)義分割帶來(lái)嚴(yán)峻挑戰(zhàn)。此外，受限于機(jī)械結(jié)構(gòu)，激光雷達(dá)在不同距離處具有不同的分辨率，并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR 和相機(jī)的互補(bǔ)性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測(cè)、語(yǔ)義分割、深度補(bǔ)全和預(yù)測(cè)等。我們主要關(guān)注前兩個(gè)任務(wù)。數(shù)據(jù)格式相機(jī)提供了豐富的紋理信息的RGB圖像。具體來(lái)說(shuō)，對(duì)于每個(gè)圖像像素為 (u, v)，它有一個(gè)多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機(jī)捕獲的紅色、藍(lán)色、綠色通道或其他手動(dòng)設(shè)計(jì)的特征作為灰度通道。然而，由于深度信息有限，單目相機(jī)難以提取，因此在 3D 空間中直接檢測(cè)物體相對(duì)具有挑戰(zhàn)性。因此，許多方案使用雙目或立體相機(jī)系統(tǒng)通過(guò)空間和時(shí)間空間來(lái)利用附加信息進(jìn)行 3D 對(duì)象檢測(cè)，例如深度估計(jì)、光流等。激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點(diǎn)云。一般來(lái)說(shuō)，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個(gè)點(diǎn)的反射率。不同的紋理導(dǎo)致不同的反射率，然而，點(diǎn)的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點(diǎn)云轉(zhuǎn)換為體素或 2D 投影，然后再將其饋送到下游模塊。

展開(kāi)

自動(dòng)駕駛多模態(tài)傳感器融合的綜述

多模態(tài)融合是感知自動(dòng)駕駛系統(tǒng)的一項(xiàng)基本任務(wù)，最近引起了許多研究人員的興趣。然而，由于原始數(shù)據(jù)噪聲大、信息利用率低以及多模態(tài)傳感器的無(wú)對(duì)準(zhǔn)，達(dá)到相當(dāng)好的性能并非易事。本文對(duì)現(xiàn)有的基于多模態(tài)自動(dòng)駕駛感知任務(wù)方法進(jìn)行了文獻(xiàn)綜述。分析超過(guò)50篇論文，包括攝像頭和激光雷達(dá)，試圖解決目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)。與傳統(tǒng)的融合模型分類方法不同，作者從融合階段的角度，通過(guò)更合理的分類法將融合模型分為兩大類，四小類。此外，研究了當(dāng)前的融合方法，就潛在的研究機(jī)會(huì)展開(kāi)討論。最近，用于自動(dòng)駕駛感知任務(wù)的多模態(tài)融合方法發(fā)展迅速，其從跨模態(tài)特征表示和更可靠的模態(tài)傳感器，到更復(fù)雜、更穩(wěn)健的多模態(tài)融合深度學(xué)習(xí)模型和技術(shù)。然而，只有少數(shù)文獻(xiàn)綜述集中在多模態(tài)融合方法本身的方法論上，大多數(shù)文獻(xiàn)都遵循傳統(tǒng)規(guī)則，將其分為前融合、深度（特征）融合和后融合三大類，重點(diǎn)關(guān)注深度學(xué)習(xí)模型中融合特征的階段，無(wú)論是數(shù)據(jù)級(jí)、特征級(jí)還是提議級(jí)。首先，這種分類法沒(méi)有明確定義每個(gè)級(jí)別的特征表示。其次，它表明，激光雷達(dá)和攝像頭這兩個(gè)分支在處理過(guò)程中始終是對(duì)稱的，模糊了激光雷達(dá)分支中融合提議級(jí)特征和攝像頭分支中融合數(shù)據(jù)級(jí)特征的情況。綜上所述，傳統(tǒng)的分類法可能是直觀的，但對(duì)于總結(jié)最近出現(xiàn)的越來(lái)越多的多模態(tài)融合方法來(lái)說(shuō)卻很落后，這使得研究人員無(wú)法從系統(tǒng)的角度對(duì)其進(jìn)行研究和分析。如圖是自動(dòng)駕駛感知任務(wù)的示意圖：深度學(xué)習(xí)模型僅限于輸入的表示。為了實(shí)現(xiàn)該模型，需要在數(shù)據(jù)輸入模型之前，通過(guò)一個(gè)復(fù)雜的特征提取器對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。至于圖像分支，大多數(shù)現(xiàn)有方法保持與下游模塊輸入的原始數(shù)據(jù)相同的格式。然而，激光雷達(dá)分支高度依賴于數(shù)據(jù)格式，這種格式強(qiáng)調(diào)不同的特性，并對(duì)下游模型設(shè)計(jì)產(chǎn)生巨大影響。

展開(kāi)

自動(dòng)駕駛多目視覺(jué)感知

這可以通過(guò)兩種方法來(lái)實(shí)現(xiàn)：一是先在圖像空間中完成所有的感知任務(wù)，然后將結(jié)果映射到向量空間，最后融合多攝像頭的結(jié)果；二是先將圖像特征轉(zhuǎn)換到向量空間，然后融合來(lái)自多個(gè)攝像頭的特征，最后在向量空間中完成所有的感知任務(wù)。 Andrej舉了兩個(gè)例子，說(shuō)明為什么第一種方法是不合適的。首先，由于透視投影，圖像中看起來(lái)不錯(cuò)的感知結(jié)果在向量空間中精度很差，尤其是遠(yuǎn)距離的區(qū)域。如下圖所示，車道線（藍(lán)色）和道路邊緣（紅色）在投影到向量空間后位置非常不準(zhǔn)，無(wú)法用支持自動(dòng)駕駛的應(yīng)用。圖像空間的感知結(jié)果(上)及其在向量空間中的投影(下) 其次，在多目系統(tǒng)中，由于視野的限制，單個(gè)攝像頭可能無(wú)法看到完整的目標(biāo)。比如在下圖的例子中，一輛大貨車出現(xiàn)在了一些攝像頭的視野中，但是很多攝像頭都只看到了目標(biāo)的一部分，因此無(wú)法根據(jù)殘缺的信息做出正確的檢測(cè)，因此后續(xù)的融合效果也就無(wú)法保證。這其實(shí)是多傳感器決策層融合的一個(gè)一般性問(wèn)題。單攝像頭受限的視野綜合以上分析，圖像空間感知+決策層融合并不是一個(gè)很好的方案。直接在向量空間中完成融合和感知可以有效地解決以上問(wèn)題，這也是FSD感知系統(tǒng)的核心思路。為了實(shí)現(xiàn)這個(gè)思路，需要解決兩個(gè)重要的問(wèn)題：一個(gè)是如何將特征從圖像空間變換到特征空間，另一個(gè)是如何得到向量空間中的標(biāo)注數(shù)據(jù)。 4.1 特征的空間變換對(duì)于特征的空間變換問(wèn)題，專欄之前在3D感知的文章中也做了介紹，一般性的做法就是利用攝像頭的標(biāo)定信息將圖像像素映射到世界坐標(biāo)系。但這是個(gè)病態(tài)問(wèn)題，需要有一定的約束，自動(dòng)駕駛應(yīng)用中通常采用的是地平面約束，也就是目標(biāo)位于地面，而且地面是水平的。

展開(kāi)

賦能 BEV 感知課題！高校科研多傳感器時(shí)間同步方案

<h2>1）引言</h2>在高校自動(dòng)駕駛實(shí)驗(yàn)室里，團(tuán)隊(duì)可能常以 BEV（Bird’s-Eye View）感知架構(gòu)為研究主線。旨在通過(guò)相機(jī)陣列和激光雷達(dá)的數(shù)據(jù)，在空間上重建統(tǒng)一的車周環(huán)境，為下游檢測(cè)、分割提供高精度“語(yǔ)義地圖”。然而，一旦相機(jī)間的時(shí)間同步存在幾十毫秒及以上的誤差，BEV 投影的理想模型便可能失效，引發(fā)一系列典型的問(wèn)題：1、多相機(jī)拼接的鳥(niǎo)瞰圖在特征層面出現(xiàn)撕裂，導(dǎo)致Transformer或者卷積融合網(wǎng)絡(luò)在訓(xùn)練階段難以收斂，損失曲線持續(xù)振蕩。2、采集到的數(shù)據(jù)因固有延遲而與真實(shí)世界的時(shí)序錯(cuò)位，當(dāng)反投影到激光雷達(dá)或 IMU 坐標(biāo)系時(shí)，產(chǎn)生明顯重影現(xiàn)象，外參標(biāo)定不可重復(fù)。3、時(shí)延隨實(shí)驗(yàn)次序號(hào)隨機(jī)漂移，致使在離線評(píng)估中構(gòu)建的數(shù)據(jù)時(shí)序關(guān)系，無(wú)法反映實(shí)車運(yùn)行的真實(shí)時(shí)序狀態(tài)，最終導(dǎo)致科研結(jié)論缺乏可重復(fù)性。這些消耗巨量算力與人力的痛點(diǎn)，其根源往往不在于算法本身，而在于數(shù)據(jù)基石存在缺陷 —— 即傳感器間缺乏統(tǒng)一可信的時(shí)間基準(zhǔn)，導(dǎo)致時(shí)序準(zhǔn)確性無(wú)法保障。由此可知，對(duì)高校自動(dòng)駕駛實(shí)驗(yàn)室來(lái)說(shuō)，穩(wěn)定的時(shí)序精度是BEV感知科研的關(guān)鍵，團(tuán)隊(duì)亟需適配多源異構(gòu)傳感器的高精度時(shí)間同步方案，解決數(shù)據(jù)撕裂、實(shí)驗(yàn)不可復(fù)現(xiàn)等痛點(diǎn)。

展開(kāi)

環(huán)視感知網(wǎng)絡(luò)的多任務(wù)和單任務(wù)之爭(zhēng)

來(lái)源 | CV研習(xí)社文章導(dǎo)讀本文討論的核心思想來(lái)源于如何將車輛等障礙物的目標(biāo)檢測(cè)和車位識(shí)別統(tǒng)一在一個(gè)神經(jīng)網(wǎng)絡(luò)中處理，這一過(guò)程存在幾個(gè)問(wèn)題：1、多任務(wù)網(wǎng)絡(luò)的必要性；2、數(shù)據(jù)輸入形式的統(tǒng)一性；3、三維信息的表達(dá)形式。通過(guò)兩篇魚(yú)眼感知的文章和小編個(gè)人想法帶著粉絲們進(jìn)行算法分析。 1 引言感知模塊中往往不僅僅只有一個(gè)目標(biāo)檢測(cè)或者語(yǔ)義分割任務(wù)，如何通過(guò)魚(yú)眼圖像感知車輛周圍的環(huán)境，研究人員需要做目標(biāo)檢測(cè)識(shí)別障礙物的類型和位置；需要做深度估計(jì)計(jì)算障礙物的橫縱向距離；需要做語(yǔ)義分割劃分車輛可行駛區(qū)域；需要做污漬檢測(cè)監(jiān)控圖像質(zhì)量等等工作，所以多任務(wù)的視覺(jué)感知網(wǎng)絡(luò)成為一種不錯(cuò)的選擇，網(wǎng)絡(luò)可以共享編碼階段減少計(jì)算量，并在解碼階段多任務(wù)相互信息流通。從多任務(wù)的角度往往需要思考以下幾個(gè)問(wèn)題？ 2 環(huán)視多任務(wù)感知需要做哪些事？根據(jù)《OmniDet: Surround View Cameras based Multi-task Visual Perception Network for Autonomous Driving》這篇文章提供的思路，環(huán)視感知系統(tǒng)包含深度估計(jì)、語(yǔ)義分割、運(yùn)動(dòng)分割、目標(biāo)檢測(cè)、污漬檢測(cè)、視覺(jué)里程計(jì)六大任務(wù)。如何適應(yīng)不同相機(jī)的徑向失真？

展開(kāi)

AI座艙“讀心術(shù)”：場(chǎng)景感知與主動(dòng)服務(wù)的交互革命

通過(guò)融合多模態(tài)感知技術(shù)與人工智能，座艙系統(tǒng)能夠識(shí)別駕乘人員的情緒、疲勞狀態(tài)甚至行為意圖，從而提供精準(zhǔn)的主動(dòng)服務(wù)。這種被俗稱為“讀心術(shù)”的交互能力，正在重新定義人車關(guān)系，將汽車從單純的交通工具轉(zhuǎn)變?yōu)檎嬲摹暗谌羁臻g”。 01 從響應(yīng)到預(yù)判：AI座艙的交互變革傳統(tǒng)汽車座艙遵循“指令-響應(yīng)”的被動(dòng)交互模式，而AI座艙的革命性在于其主動(dòng)感知與預(yù)判能力。在2025 CES展上，吉利銀河E8展示了這種“有溫度的科技”：坐進(jìn)駕駛艙的瞬間，F(xiàn)lyme Auto系統(tǒng)搭載的端到端語(yǔ)音大模型就能捕捉駕駛者的語(yǔ)調(diào)變化——疲憊時(shí)自動(dòng)調(diào)暗燈光播放舒緩音樂(lè)，興奮時(shí)切換運(yùn)動(dòng)模式并推薦適合的路線。這種仿佛被“讀心”的體驗(yàn)背后，是行業(yè)首個(gè)能解析情感語(yǔ)義的AI交互系統(tǒng)。智能座艙的智能化水平已從簡(jiǎn)單的功能堆砌，演進(jìn)到以“感知能力、交互能力、服務(wù)能力和互聯(lián)能力”為核心的綜合體驗(yàn)。市場(chǎng)數(shù)據(jù)顯示，到2025年，中國(guó)智能座艙滲透率將超過(guò)75%，成為汽車產(chǎn)業(yè)發(fā)展的主賽道。 02 多模態(tài)融合：AI“讀心”的技術(shù)基石 AI座艙的“讀心”能力建立在多模態(tài)感知技術(shù)融合的基礎(chǔ)上。通過(guò)融合視覺(jué)、語(yǔ)音和車輛數(shù)據(jù)，系統(tǒng)能夠全面理解駕乘人員狀態(tài)和需求。視覺(jué)感知：從人臉識(shí)別到微表情分析視覺(jué)系統(tǒng)能識(shí)別疲勞駕駛的多種特征：眼球轉(zhuǎn)動(dòng)減少、眨眼頻繁、瞇眼、打哈欠和動(dòng)作遲緩等。結(jié)合車輛數(shù)據(jù)（如轉(zhuǎn)向幅度和頻率、剎車和油門力度），AI能更準(zhǔn)確地判斷駕駛員狀態(tài)并做出提醒。語(yǔ)音感知：從語(yǔ)義理解到情感識(shí)別除了視覺(jué)感知，語(yǔ)音交互系統(tǒng)也進(jìn)化到能識(shí)別說(shuō)話者的情緒狀態(tài)。先進(jìn)的語(yǔ)音系統(tǒng)可以將內(nèi)容、語(yǔ)調(diào)、語(yǔ)速等因素綜合起來(lái)進(jìn)行判斷，從而加強(qiáng)對(duì)情緒的識(shí)別。數(shù)據(jù)融合：繪就用戶畫(huà)像 多模態(tài)數(shù)據(jù)融合后，系統(tǒng)能夠構(gòu)建完整的用戶畫(huà)像。

展開(kāi)

康謀方案 | BEV感知技術(shù)：多相機(jī)數(shù)據(jù)采集與高精度時(shí)間同步方案

隨著自動(dòng)駕駛技術(shù)的快速發(fā)展，車輛準(zhǔn)確感知周圍環(huán)境的能力變得至關(guān)重要。BEV（Bird's-Eye-View，鳥(niǎo)瞰圖）感知技術(shù)，以其獨(dú)特的視角和強(qiáng)大的數(shù)據(jù)處理能力，正成為自動(dòng)駕駛領(lǐng)域的一大研究熱點(diǎn)。一、BEV感知技術(shù)概述 BEV感知技術(shù)，是一種從鳥(niǎo)瞰圖視角（俯視圖）出發(fā)的環(huán)境感知方法。與傳統(tǒng)的正視圖相比，BEV視角具有尺度變化小、視角遮擋少的顯著優(yōu)勢(shì)，有助于網(wǎng)絡(luò)對(duì)目標(biāo)特征的一致性表達(dá)。基于這樣的優(yōu)勢(shì)，可以更有效的對(duì)車輛周圍環(huán)境進(jìn)行感知。圖1：BEV 感知圖因此，在自動(dòng)駕駛感知任務(wù)中，BEV感知算法通常包括分類、檢測(cè)、分割、跟蹤、預(yù)測(cè)、計(jì)劃和控制等多個(gè)子任務(wù)，共同構(gòu)建起一個(gè)完整的感知框架。 BEV感知算法的數(shù)據(jù)輸入主要有圖像和點(diǎn)云兩種形式。根據(jù)數(shù)據(jù)源不同，BEV算法主要分為BEV Camera（純視覺(jué)）、BEV LiDAR（基于激光雷達(dá)）和BEV Fusion（多模態(tài)融合）三類。其中，圖像數(shù)據(jù)具有紋理豐富、成本低的優(yōu)勢(shì)，此外，基于圖像的任務(wù)、基礎(chǔ)模型相對(duì)成熟和完善，比較容易擴(kuò)展到 BEV 感知算法中。為了更好的訓(xùn)練BEV Camera感知算法，往往需要先搭建一個(gè)高質(zhì)量的數(shù)據(jù)集。而搭建一套BEV感知數(shù)據(jù)采集系統(tǒng)，通常包括以下幾個(gè)關(guān)鍵環(huán)節(jié)： 1. 硬件選型與集成：選合適的攝像頭和計(jì)算采集平臺(tái)，集成穩(wěn)定系統(tǒng)。 2. 數(shù)據(jù)采集：在實(shí)際環(huán)境中采集圖像數(shù)據(jù)，覆蓋不同場(chǎng)景、光照和天氣。 3. 時(shí)間同步：確保不同傳感器數(shù)據(jù)時(shí)間精確同步，是后續(xù)算法訓(xùn)練的必要前提。 4. 系統(tǒng)調(diào)試和部署：調(diào)試系統(tǒng)確保組件協(xié)同工作，部署到實(shí)際應(yīng)用環(huán)境。因此，在實(shí)際搭建過(guò)程中，常會(huì)遇到技術(shù)復(fù)雜性高、成本投入大、數(shù)據(jù)質(zhì)量與時(shí)間同步實(shí)現(xiàn)難、系統(tǒng)穩(wěn)定性與可靠性要求高等挑戰(zhàn)。

展開(kāi)

“你不溫柔，我不主動(dòng)”，人機(jī)關(guān)系究竟要怎么改變呢？

運(yùn)用到物聯(lián)網(wǎng)設(shè)備當(dāng)中，今天主要的AI感知模態(tài)有三種：語(yǔ)音交互，包括語(yǔ)音指令控制、語(yǔ)義理解、多輪對(duì)話、NLP、語(yǔ)音精準(zhǔn)識(shí)別等領(lǐng)域； 2. 機(jī)器視覺(jué)，包括自然物體識(shí)別、人臉識(shí)別、肢體動(dòng)作識(shí)別等； 3. 傳感器智能，包括AI對(duì)熱量、紅外捕捉信號(hào)、空間信號(hào)的閱讀與理解。把這三種東西融合在一起，物聯(lián)網(wǎng)設(shè)備就可以在單純的能聽(tīng)會(huì)說(shuō)之外，同時(shí)還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態(tài)感知研究當(dāng)中，還包括機(jī)器嗅覺(jué)，機(jī)器觸覺(jué)和情緒理解等內(nèi)容。我們?cè)诘却南乱淮锫?lián)網(wǎng)設(shè)備，很可能訣竅就是把這些模態(tài)給揉在一起，完成從多模態(tài)感知到多模態(tài)交互的體驗(yàn)。用一句我們十分熟悉的話說(shuō)，就是要讓機(jī)器身上的五感“生態(tài)化反”…… 今天讓人樂(lè)觀的多模態(tài)交互型IoT 又能聽(tīng)，又能看，又有傳感器的設(shè)備，聽(tīng)上去似乎有點(diǎn)過(guò)分樂(lè)觀了。但好在綜合了較多采訪與觀察之后，我們發(fā)現(xiàn)今年確實(shí)是值得為多模態(tài)物聯(lián)網(wǎng)設(shè)備樂(lè)觀一下的時(shí)候。可以看到，很多雙模態(tài)交互，甚至多模態(tài)混合交互的解決方案都在從實(shí)驗(yàn)室里走出來(lái)，甚至已經(jīng)可以在我們生活中看到。這些解決方案更重要價(jià)值是作為案例，可以讓更多企業(yè)、開(kāi)發(fā)者和垂直行業(yè)看到多模態(tài)物聯(lián)網(wǎng)的可復(fù)制價(jià)值。舉例來(lái)說(shuō)，離我們最近的多模態(tài)AI交互技術(shù)投射在物聯(lián)網(wǎng)設(shè)備上，大概就是用機(jī)器視覺(jué)技術(shù)進(jìn)行嘴唇識(shí)別，來(lái)分離語(yǔ)音交互指令。我們可以看到很多實(shí)驗(yàn)室和科技公司，都在嘗試用機(jī)器視覺(jué)來(lái)讀取說(shuō)話人的唇語(yǔ)和動(dòng)作，從而判斷每個(gè)聲音指令的來(lái)源。這種技術(shù)已經(jīng)在國(guó)內(nèi)被運(yùn)用到地鐵售票解決方案中，通過(guò)機(jī)器視覺(jué)來(lái)識(shí)別買票人，從而在地鐵站的嘈雜環(huán)境中完成語(yǔ)音售票。另一個(gè)我們能看到的例子是空調(diào)。

展開(kāi)

北航馮林課題組《Lab on a chip》封面文章：基于多模態(tài)聲驅(qū)微氣泡的多功能微對(duì)象操控研究

其中，為了提高潛在生物醫(yī)學(xué)應(yīng)用效率或滿足一些涉及到復(fù)雜技術(shù)的應(yīng)用需求，迫切需要在微流控裝置中對(duì)微對(duì)象實(shí)現(xiàn)可控的多功能操控，如運(yùn)輸、捕獲、旋轉(zhuǎn)等模式。然而，固定的設(shè)計(jì)和驅(qū)動(dòng)模式使其難以在一個(gè)單一的設(shè)備有效地實(shí)現(xiàn)多功能切換。近日，北京航空航天大學(xué)機(jī)械工程學(xué)院仿生與微納研究所馮林副教授等研發(fā)了一種基于聲驅(qū)微氣泡的模態(tài)可切換的多功能微操控系統(tǒng)，該系統(tǒng)能夠在微流控芯片內(nèi)實(shí)現(xiàn)可控且高效的微對(duì)象運(yùn)輸、三維旋轉(zhuǎn)和公轉(zhuǎn)等操控模式（圖一）。圖一基于聲驅(qū)振蕩微氣泡陣列的多模態(tài)操控系統(tǒng)示意圖通過(guò)采用面投影微立體光刻3D打印技術(shù)（nanoArch S140，摩方精密），研究團(tuán)隊(duì)設(shè)計(jì)制造了一種帶有底面微孔陣列（直徑100μm、深度100μm）的微流控芯片。由于液體存在表面張力，當(dāng)液體通入微流道并流過(guò)底面微孔時(shí)，可以形成具有近似尺寸的微型氣泡。當(dāng)超聲發(fā)生裝置所形成的超聲信號(hào)傳遞到微流道中，可以激勵(lì)微型氣泡膜振蕩形成聲微流。圖二聲驅(qū)微氣泡的理論模態(tài)與有限元仿真結(jié)果基于所設(shè)計(jì)結(jié)構(gòu)內(nèi)氣泡界面的相對(duì)靈活性，該裝置可以在僅調(diào)節(jié)驅(qū)動(dòng)頻率而不改變壓電換能器數(shù)量與氣泡陣列設(shè)計(jì)的情況下切換微型氣泡的振蕩模式，進(jìn)而實(shí)現(xiàn)對(duì)單獨(dú)或群體生物樣本的多功能操控（圖三）。由于聲場(chǎng)的驅(qū)動(dòng)特性，該裝置可以有效操控幾微米到幾百微米的不同生物樣本，包括微顆粒、細(xì)胞、綠眼蟲(chóng)、螺旋藻等。此外，利用平面外旋轉(zhuǎn)模式的運(yùn)動(dòng)特點(diǎn)，研究團(tuán)隊(duì)實(shí)現(xiàn)了對(duì)細(xì)胞樣本的三維重建，從而實(shí)現(xiàn)多視角的形態(tài)學(xué)復(fù)現(xiàn)與基本參數(shù)的測(cè)量估計(jì)。該系統(tǒng)所提出的聲學(xué)操控方式具有多功能性、可控性、高效性以及良好的生物兼容性，在進(jìn)一步促進(jìn)細(xì)胞研究和治療等應(yīng)用層面具有很大潛力。

展開(kāi)

賦能智慧隧道施工：工程車輛多模態(tài)數(shù)據(jù)采集系統(tǒng)

近期，在和眾多該類客戶的溝通過(guò)程中，我們觀察到了一些被頻繁提到的客戶需求和場(chǎng)景痛點(diǎn)，針對(duì)于此，以隧道運(yùn)輸設(shè)備——MSV膠輪車為例，本文為該類客戶量身定制了一套高性能多模態(tài)數(shù)據(jù)采集方案。本文將從客戶的實(shí)際痛點(diǎn)出發(fā)，詳細(xì)拆解如何在無(wú)GPS信號(hào)、環(huán)境惡劣的隧道場(chǎng)景中，實(shí)現(xiàn)高精度、多傳感器的數(shù)據(jù)融合與采集。一、客戶需求與場(chǎng)景痛點(diǎn) 1、復(fù)雜的作業(yè)環(huán)境與對(duì)象本次搭載對(duì)象為MSV膠輪車（用于TBM隧道施工物料運(yùn)輸）。車輛長(zhǎng)期運(yùn)行于狹長(zhǎng)、封閉的隧道內(nèi)部，且需要分別在車輛的“前端”和“后端”搭載兩套獨(dú)立的感知系統(tǒng)，以滿足雙向行駛的作業(yè)需求。 2、多模態(tài)傳感器融合為了實(shí)現(xiàn)對(duì)環(huán)境的全面感知，單車集成了復(fù)雜的傳感器組，包括：視覺(jué)傳感器：華陽(yáng) GMSL2 3M 相機(jī)（前后共4路）激光雷達(dá)：主雷達(dá) + 補(bǔ)盲雷達(dá)（前后共6顆）毫米波雷達(dá)： ARS410（前后共2顆）定位與姿態(tài)： IMU hwt905-CAN（前后共2顆）車輛總線： CAN數(shù)據(jù)采集傳感器布局：前端布局（左）、后端布局（右） 3、核心痛點(diǎn)：隧道內(nèi)的時(shí)空同步無(wú)GPS信號(hào)：隧道內(nèi)無(wú)法獲取衛(wèi)星授時(shí)（GPS/GNSS），傳統(tǒng)依賴PPS/NMEA的同步方式失效。高帶寬并發(fā)：多路激光雷達(dá)與高分辨率相機(jī)的同時(shí)接入，對(duì)采集系統(tǒng)的帶寬和寫(xiě)入速度提出了巨大挑戰(zhàn)。惡劣工況：隧道施工現(xiàn)場(chǎng)震動(dòng)大、粉塵多，要求設(shè)備具備極高的工業(yè)級(jí)穩(wěn)定性。二、解決方案概覽針對(duì)上述挑戰(zhàn)，我們提出了兩套差異化的技術(shù)路線：“極致性能方案（方案一）”與“高性價(jià)比方案（方案二）”，以滿足不同研發(fā)階段的需求。

展開(kāi)

汽車多模態(tài)交互測(cè)試：智能交互的深度驗(yàn)證

2、多模態(tài)融合一致性測(cè)試場(chǎng)景：同時(shí)觸發(fā)語(yǔ)音指令（如 “打開(kāi)空調(diào)”）與手勢(shì)動(dòng)作（指向空調(diào)出風(fēng)口），驗(yàn)證設(shè)備是否輸出一致的控制信號(hào)，避免指令沖突（沖突率需＜0.5%）。評(píng)估方法：通過(guò)日志分析系統(tǒng)記錄多模態(tài)指令的處理時(shí)序，計(jì)算指令融合成功率（目標(biāo)值≥98%）。汽車多模態(tài)交互整合了語(yǔ)音、手勢(shì)、觸控、眼神等多種交互方式，打破單一交互模式的局限，為用戶提供更自然、便捷的交互體驗(yàn)。但多種交互方式的融合也帶來(lái)了測(cè)試的復(fù)雜性，不同模態(tài)之間的協(xié)同、切換以及對(duì)用戶意圖的準(zhǔn)確理解，都需要通過(guò)嚴(yán)謹(jǐn)?shù)臏y(cè)試來(lái)保障。若多模態(tài)交互系統(tǒng)存在缺陷，如語(yǔ)音與手勢(shì)指令沖突、不同模態(tài)響應(yīng)延遲不一致，會(huì)嚴(yán)重影響用戶體驗(yàn)，甚至干擾駕駛安全。因此，多模態(tài)交互測(cè)試是確保智能座艙交互性能的關(guān)鍵環(huán)節(jié)。在汽車智能座艙測(cè)試的關(guān)鍵進(jìn)程中，北京沃華慧通測(cè)控技術(shù)有限公司展現(xiàn)出了獨(dú)特的價(jià)值與優(yōu)勢(shì)。作為一家專注于測(cè)控技術(shù)領(lǐng)域的企業(yè)，沃華慧通在智能座艙測(cè)試方面積累了豐富的經(jīng)驗(yàn)和專業(yè)的技術(shù)能力。其研發(fā)的測(cè)試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境，對(duì)智能座艙的多模態(tài)交互系統(tǒng)進(jìn)行全面、深入的測(cè)試。

展開(kāi)

理論模態(tài)分析之多自由度系統(tǒng)（三）

引入模態(tài)矩陣和模態(tài)坐標(biāo)。用模態(tài)振型對(duì)物理參數(shù)進(jìn)行處理，得出模態(tài)參數(shù)。歸一化處理。 模態(tài)參數(shù)表達(dá)式。 2 對(duì)于結(jié)構(gòu)阻尼和非比例阻尼，同樣存在頻響函數(shù)的概念，但此時(shí)的模態(tài)矩陣稱為復(fù)模態(tài)矩陣。

AI行業(yè)七大趨勢(shì)：合成數(shù)據(jù)、多模態(tài)AI崛起

多模態(tài) AI 崛起 多模態(tài) AI 正在打破單一感官的藩籬，使用一個(gè)通用 AI 模型科技將多種類型的數(shù)據(jù)所蘊(yùn)含的語(yǔ)義信息概念化并作出預(yù)測(cè)。在 2021 年初，OpenAI 發(fā)布了可以根據(jù)文本信息生成圖像的 AI 模型 DALL-E。圖 | AI 根據(jù)文本提示生成牛油果形狀的扶手椅（來(lái)源：Open AI） 2022 年 1 月，OpenAI 發(fā)布了升級(jí)版 DALLE-2，生成圖像的畫(huà)質(zhì)提升了 4 倍。 2022 年 5 月，谷歌推出了圖像生成器 Imagen。據(jù)稱，Imagen 在生成圖像的質(zhì)量以及輸入文本和生成的圖像的一致性方面要優(yōu)于 OpenAI 模型。今年早些時(shí)候，Meta 發(fā)表了一篇名為 “不同視覺(jué)模態(tài)都能通吃的雜食者”的論文，其中詳細(xì)介紹了如果對(duì)一種 AI 模型進(jìn)行識(shí)別 2D 圖像的預(yù)訓(xùn)練，不經(jīng)過(guò)額外的模態(tài)訓(xùn)練，該模型也能可以識(shí)別視頻或三維圖像中的南瓜。 多模態(tài) AI 正在從實(shí)驗(yàn)室走到實(shí)際應(yīng)用。例如，谷歌正在使用多模態(tài) AI 來(lái)改進(jìn)搜索體驗(yàn)。未來(lái)，如果用戶上傳了一張登山靴的照片，并附上“我能穿著這雙靴子去富士山徒步旅行嗎?”的文字，搜索引擎將識(shí)別上傳的圖像，從文本、圖像和視頻數(shù)據(jù)中挖掘網(wǎng)絡(luò)上關(guān)于富士山的信息，并將這些瑣碎的信息連接起來(lái)，提供一個(gè)貼切的答案。 多模態(tài) AI 正在走出實(shí)驗(yàn)室，為搜索服務(wù)和內(nèi)容生成等應(yīng)用提供驅(qū)動(dòng)力。 AI for AI 隨著 AI 技術(shù)應(yīng)用延展，企業(yè)正在尋求徹底改變現(xiàn)有的數(shù)據(jù)管理模式的解決方案，轉(zhuǎn)向“AI 優(yōu)先”策略。說(shuō)起來(lái)容易做起來(lái)難。從采集數(shù)據(jù)、運(yùn)行數(shù)據(jù)質(zhì)量檢查到開(kāi)發(fā)模型和監(jiān)測(cè)后期生產(chǎn)表現(xiàn)，一個(gè)項(xiàng)目從原始數(shù)據(jù)轉(zhuǎn)變?yōu)樯a(chǎn)準(zhǔn)備是一個(gè)多步驟的過(guò)程。市場(chǎng)上涌現(xiàn)出數(shù)以百計(jì)的公司研發(fā)各階段的解決方案。

展開(kāi)

基于梁?jiǎn)卧５?em>多螺栓連接的轉(zhuǎn)鼓模態(tài)仿真￥20

[圖片]

多模態(tài)感知的相關(guān)專題、標(biāo)簽、搜索

多模態(tài)感知多模態(tài)感知融合多模態(tài)感知仿真多模態(tài)交互多線激光雷達(dá)感知多模態(tài)大模型多物理場(chǎng)仿真多模態(tài)融合感知水下多感知平臺(tái)多模態(tài)模態(tài)多目標(biāo)多模態(tài)手指多模態(tài)與yolo

共35條

首頁(yè) 123 下一頁(yè) 尾頁(yè) , 到第頁(yè)

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

多模態(tài)感知的案例

多模態(tài)感知的相關(guān)專題、標(biāo)簽、搜索