發(fā)布

多模態(tài)交互的案例

汽車多模態(tài)交互測試：智能交互的深度驗證

2、多模態(tài)融合一致性測試場景：同時觸發(fā)語音指令（如 “打開空調(diào)”）與手勢動作（指向空調(diào)出風(fēng)口），驗證設(shè)備是否輸出一致的控制信號，避免指令沖突（沖突率需＜0.5%）。評估方法：通過日志分析系統(tǒng)記錄多模態(tài)指令的處理時序，計算指令融合成功率（目標(biāo)值≥98%）。汽車多模態(tài)交互整合了語音、手勢、觸控、眼神等多種交互方式，打破單一交互模式的局限，為用戶提供更自然、便捷的交互體驗。但多種交互方式的融合也帶來了測試的復(fù)雜性，不同模態(tài)之間的協(xié)同、切換以及對用戶意圖的準(zhǔn)確理解，都需要通過嚴(yán)謹(jǐn)?shù)臏y試來保障。若多模態(tài)交互系統(tǒng)存在缺陷，如語音與手勢指令沖突、不同模態(tài)響應(yīng)延遲不一致，會嚴(yán)重影響用戶體驗，甚至干擾駕駛安全。因此，多模態(tài)交互測試是確保智能座艙交互性能的關(guān)鍵環(huán)節(jié)。在汽車智能座艙測試的關(guān)鍵進(jìn)程中，北京沃華慧通測控技術(shù)有限公司展現(xiàn)出了獨特的價值與優(yōu)勢。作為一家專注于測控技術(shù)領(lǐng)域的企業(yè)，沃華慧通在智能座艙測試方面積累了豐富的經(jīng)驗和專業(yè)的技術(shù)能力。其研發(fā)的測試設(shè)備能夠精準(zhǔn)模擬各種復(fù)雜的車載環(huán)境，對智能座艙的多模態(tài)交互系統(tǒng)進(jìn)行全面、深入的測試。

展開

“你不溫柔，我不主動”，人機(jī)關(guān)系究竟要怎么改變呢？

運用到物聯(lián)網(wǎng)設(shè)備當(dāng)中，今天主要的AI感知模態(tài)有三種：語音交互，包括語音指令控制、語義理解、多輪對話、NLP、語音精準(zhǔn)識別等領(lǐng)域； 2. 機(jī)器視覺，包括自然物體識別、人臉識別、肢體動作識別等； 3. 傳感器智能，包括AI對熱量、紅外捕捉信號、空間信號的閱讀與理解。把這三種東西融合在一起，物聯(lián)網(wǎng)設(shè)備就可以在單純的能聽會說之外，同時還用攝像頭觀察、用傳感器判斷。而比較前沿的多模態(tài)感知研究當(dāng)中，還包括機(jī)器嗅覺，機(jī)器觸覺和情緒理解等內(nèi)容。我們在等待的下一代物聯(lián)網(wǎng)設(shè)備，很可能訣竅就是把這些模態(tài)給揉在一起，完成從多模態(tài)感知到多模態(tài)交互的體驗。用一句我們十分熟悉的話說，就是要讓機(jī)器身上的五感“生態(tài)化反”…… 今天讓人樂觀的多模態(tài)交互型IoT 又能聽，又能看，又有傳感器的設(shè)備，聽上去似乎有點過分樂觀了。但好在綜合了較多采訪與觀察之后，我們發(fā)現(xiàn)今年確實是值得為多模態(tài)物聯(lián)網(wǎng)設(shè)備樂觀一下的時候。可以看到，很多雙模態(tài)交互，甚至多模態(tài)混合交互的解決方案都在從實驗室里走出來，甚至已經(jīng)可以在我們生活中看到。這些解決方案更重要價值是作為案例，可以讓更多企業(yè)、開發(fā)者和垂直行業(yè)看到多模態(tài)物聯(lián)網(wǎng)的可復(fù)制價值。舉例來說，離我們最近的多模態(tài)AI交互技術(shù)投射在物聯(lián)網(wǎng)設(shè)備上，大概就是用機(jī)器視覺技術(shù)進(jìn)行嘴唇識別，來分離語音交互指令。我們可以看到很多實驗室和科技公司，都在嘗試用機(jī)器視覺來讀取說話人的唇語和動作，從而判斷每個聲音指令的來源。這種技術(shù)已經(jīng)在國內(nèi)被運用到地鐵售票解決方案中，通過機(jī)器視覺來識別買票人，從而在地鐵站的嘈雜環(huán)境中完成語音售票。另一個我們能看到的例子是空調(diào)。

展開

科大訊飛亮相2025亞洲AI智能眼鏡大會，共筑“視”聽交互新未來

大會上，科大訊飛AI交互研發(fā)總監(jiān)王磊磊發(fā)表了題為《AI驅(qū)動交互革新，共筑‘視’聽新未來》的主題演講，詳細(xì)介紹了公司在智能眼鏡相關(guān)技術(shù)上的進(jìn)展。科大訊飛AI交互研發(fā)總監(jiān)王磊磊先生發(fā)表演講展會現(xiàn)場，科大訊飛的AI智能眼鏡方案演示產(chǎn)品憑借多麥克風(fēng)陣列降噪、多模態(tài)交互等核心技術(shù)，吸引了眾多參會者駐足咨詢與體驗，親身感受其帶來的前沿科技魅力。 2025亞洲AI智能眼鏡大會科大訊飛展位現(xiàn)場科大訊飛AI智能眼鏡方案通過整合多麥陣列降噪技術(shù)、極速語音交互系統(tǒng)、多模態(tài)交互方案及智能體中心架構(gòu)，為傳統(tǒng)眼鏡的智能化升級提供了全面技術(shù)支持。多麥降噪確保通話清晰；極速交互實現(xiàn)毫秒級響應(yīng)，讓指令“瞬間”執(zhí)行；多模交互支持手勢、眼動等自然操作，打破傳統(tǒng)交互邊界；智能體中心則提供場景化功能并支持大模型接入，拓展應(yīng)用無限可能。其中，多麥陣列降噪方案依托領(lǐng)先的聲學(xué)技術(shù)與降噪算法，能夠精準(zhǔn)分離人聲與環(huán)境噪音，有效解決嘈雜環(huán)境下通話質(zhì)量差、語音識別不準(zhǔn)等痛點。無論是在高速移動、復(fù)雜噪音的場景，還是日常通勤、戶外旅行，都能提供清晰穩(wěn)定的通話、交互與翻譯體驗。同時，在面對面翻譯場景，該方案還支持佩戴者聲音分離，精準(zhǔn)鎖定說話人聲音，顯著提升翻譯準(zhǔn)確度，確保跨語言溝通流暢無礙。為進(jìn)一步提升交互體驗，方案通過整合極速語音交互與多模交互技術(shù)，為AI眼鏡賦能全鏈路語音交互能力。極速語音交互優(yōu)化識別模型，確保復(fù)雜環(huán)境下快速準(zhǔn)確響應(yīng)；多模交互融合視頻理解等技術(shù)，支持用戶通過注視對象實現(xiàn)針對性對話，打破傳統(tǒng)交互限制。這些創(chuàng)新技術(shù)讓AI眼鏡真正成為用戶的“第二大腦”，開啟人機(jī)交互的全新范式。

展開

214基于matlab的交互多模算法（IMM）機(jī)動目標(biāo)跟蹤算法￥25.5

基于matlab的交互多模算法（IMM）機(jī)動目標(biāo)跟蹤算法，完整的15頁文檔論文。根據(jù)二維空間內(nèi)目標(biāo)作勻速直線運動和勻速圓周運動的特點，在建立目標(biāo)運動模型和觀測模型的基礎(chǔ)上采用基于交互多模算法（IMM）的卡爾曼濾波器對機(jī)動目標(biāo)進(jìn)行跟蹤。仿真結(jié)果表明，該算法不僅能夠?qū)蛩僦本€運動和勻速圓周運動的目標(biāo)進(jìn)行跟蹤，而且在運動模型發(fā)生變化時，濾波誤差也比較小。程序已調(diào)通，可直接運行。

lsdyna mpp for Windows-實現(xiàn)LS-DYNA單機(jī)多核MPP并行計算交互界面軟件￥99

看到很多同行疑問如何在獨立版LS-Dyna-MPP求解器中實現(xiàn)并行計算，在此提供大家一個提交并行計算的GUI交互軟件（配合mpi軟件），方便大家實現(xiàn)LS-Dyna-MPP并行求解計算，僅供大家學(xué)習(xí)交流，提升工作效率。純技術(shù)干貨，dyna-mpi-mpp資料打包在一起，一站式購買安裝即可使用，值得珍藏?fù)碛小?收費內(nèi)容主要包括： 1）lsdyan-mpp軟件下載及安裝，含設(shè)置dyna環(huán)境變量 2）Mpi軟件及環(huán)境變量設(shè)置 3）一款可實現(xiàn)dyna-mpp并行計算的交互軟件 4）各軟件主要的安裝步驟及環(huán)境變量設(shè)置，僅供個人學(xué)習(xí)和實現(xiàn)dyna單臺電腦實現(xiàn)mpp并行計算，切勿商用。備注：實用資料供愛好學(xué)習(xí)的你，記得關(guān)注并點贊哦。收費內(nèi)容主要包括： 1）lsdyan-mpp軟件下載及安裝，含設(shè)置dyna環(huán)境變量 2）MPI軟件及環(huán)境變量設(shè)置 3）一款可實現(xiàn)dyna-mpp并行計算的交互軟件 4）各軟件主要的安裝步驟及環(huán)境變量設(shè)置，僅供個人學(xué)習(xí)和實現(xiàn)dyna單臺電腦實現(xiàn)mpp并行計算，切勿商用。備注：實用資料供愛好學(xué)習(xí)的你，記得關(guān)注并點贊哦。

展開

有條件自動駕駛落地有效助力--人機(jī)交互與接管

在人工智能與“互聯(lián)網(wǎng)+”大背景下，無論從產(chǎn)品還是產(chǎn)業(yè)鏈角度，智能交互都將是為汽車產(chǎn)業(yè)帶來重大變革的核心技術(shù)之一，隨著車輛運行安全性和舒適性的需求日益提高，整車制造企業(yè)、自動駕駛系統(tǒng)供應(yīng)商都在加速推進(jìn)自動駕駛系統(tǒng)的量產(chǎn)落地，智能網(wǎng)聯(lián)車輛將長期停留在人機(jī)共駕的階段，當(dāng)前應(yīng)同步關(guān)注等方面。為順應(yīng)智能交互發(fā)展趨勢，需要關(guān)注等對人機(jī)接管的影響，形成智能駕駛新交互體驗。車載智能交互經(jīng)歷了從物理旋鈕/按鍵到數(shù)字觸屏再到語音控制，最后進(jìn)階為多模態(tài)（如手勢控制）的整個控制過程。不管是艙內(nèi)外都已經(jīng)在往更高程度的智能話發(fā)展, 艙外大家要開始考慮L3以上的問題，艙內(nèi)要開始考慮多模態(tài)交互, 都需要更多的數(shù)據(jù)來幫助軟件迭代。在不同階段各種交互模式分別成為其智駕階段的研發(fā)主題，且他們各自具備各自不同的優(yōu)點。

展開

北航馮林課題組《Lab on a chip》封面文章：基于多模態(tài)聲驅(qū)微氣泡的多功能微對象操控研究

其中，為了提高潛在生物醫(yī)學(xué)應(yīng)用效率或滿足一些涉及到復(fù)雜技術(shù)的應(yīng)用需求，迫切需要在微流控裝置中對微對象實現(xiàn)可控的多功能操控，如運輸、捕獲、旋轉(zhuǎn)等模式。然而，固定的設(shè)計和驅(qū)動模式使其難以在一個單一的設(shè)備有效地實現(xiàn)多功能切換。近日，北京航空航天大學(xué)機(jī)械工程學(xué)院仿生與微納研究所馮林副教授等研發(fā)了一種基于聲驅(qū)微氣泡的模態(tài)可切換的多功能微操控系統(tǒng)，該系統(tǒng)能夠在微流控芯片內(nèi)實現(xiàn)可控且高效的微對象運輸、三維旋轉(zhuǎn)和公轉(zhuǎn)等操控模式（圖一）。圖一基于聲驅(qū)振蕩微氣泡陣列的多模態(tài)操控系統(tǒng)示意圖通過采用面投影微立體光刻3D打印技術(shù)（nanoArch S140，摩方精密），研究團(tuán)隊設(shè)計制造了一種帶有底面微孔陣列（直徑100μm、深度100μm）的微流控芯片。由于液體存在表面張力，當(dāng)液體通入微流道并流過底面微孔時，可以形成具有近似尺寸的微型氣泡。當(dāng)超聲發(fā)生裝置所形成的超聲信號傳遞到微流道中，可以激勵微型氣泡膜振蕩形成聲微流。圖二聲驅(qū)微氣泡的理論模態(tài)與有限元仿真結(jié)果基于所設(shè)計結(jié)構(gòu)內(nèi)氣泡界面的相對靈活性，該裝置可以在僅調(diào)節(jié)驅(qū)動頻率而不改變壓電換能器數(shù)量與氣泡陣列設(shè)計的情況下切換微型氣泡的振蕩模式，進(jìn)而實現(xiàn)對單獨或群體生物樣本的多功能操控（圖三）。由于聲場的驅(qū)動特性，該裝置可以有效操控幾微米到幾百微米的不同生物樣本，包括微顆粒、細(xì)胞、綠眼蟲、螺旋藻等。此外，利用平面外旋轉(zhuǎn)模式的運動特點，研究團(tuán)隊實現(xiàn)了對細(xì)胞樣本的三維重建，從而實現(xiàn)多視角的形態(tài)學(xué)復(fù)現(xiàn)與基本參數(shù)的測量估計。該系統(tǒng)所提出的聲學(xué)操控方式具有多功能性、可控性、高效性以及良好的生物兼容性，在進(jìn)一步促進(jìn)細(xì)胞研究和治療等應(yīng)用層面具有很大潛力。

展開

自動駕駛多模態(tài)傳感器融合的綜述

多模態(tài)融合是感知自動駕駛系統(tǒng)的一項基本任務(wù)，最近引起了許多研究人員的興趣。然而，由于原始數(shù)據(jù)噪聲大、信息利用率低以及多模態(tài)傳感器的無對準(zhǔn)，達(dá)到相當(dāng)好的性能并非易事。本文對現(xiàn)有的基于多模態(tài)自動駕駛感知任務(wù)方法進(jìn)行了文獻(xiàn)綜述。分析超過50篇論文，包括攝像頭和激光雷達(dá)，試圖解決目標(biāo)檢測和語義分割任務(wù)。與傳統(tǒng)的融合模型分類方法不同，作者從融合階段的角度，通過更合理的分類法將融合模型分為兩大類，四小類。此外，研究了當(dāng)前的融合方法，就潛在的研究機(jī)會展開討論。最近，用于自動駕駛感知任務(wù)的多模態(tài)融合方法發(fā)展迅速，其從跨模態(tài)特征表示和更可靠的模態(tài)傳感器，到更復(fù)雜、更穩(wěn)健的多模態(tài)融合深度學(xué)習(xí)模型和技術(shù)。然而，只有少數(shù)文獻(xiàn)綜述集中在多模態(tài)融合方法本身的方法論上，大多數(shù)文獻(xiàn)都遵循傳統(tǒng)規(guī)則，將其分為前融合、深度（特征）融合和后融合三大類，重點關(guān)注深度學(xué)習(xí)模型中融合特征的階段，無論是數(shù)據(jù)級、特征級還是提議級。首先，這種分類法沒有明確定義每個級別的特征表示。其次，它表明，激光雷達(dá)和攝像頭這兩個分支在處理過程中始終是對稱的，模糊了激光雷達(dá)分支中融合提議級特征和攝像頭分支中融合數(shù)據(jù)級特征的情況。綜上所述，傳統(tǒng)的分類法可能是直觀的，但對于總結(jié)最近出現(xiàn)的越來越多的多模態(tài)融合方法來說卻很落后，這使得研究人員無法從系統(tǒng)的角度對其進(jìn)行研究和分析。如圖是自動駕駛感知任務(wù)的示意圖：深度學(xué)習(xí)模型僅限于輸入的表示。為了實現(xiàn)該模型，需要在數(shù)據(jù)輸入模型之前，通過一個復(fù)雜的特征提取器對原始數(shù)據(jù)進(jìn)行預(yù)處理。至于圖像分支，大多數(shù)現(xiàn)有方法保持與下游模塊輸入的原始數(shù)據(jù)相同的格式。然而，激光雷達(dá)分支高度依賴于數(shù)據(jù)格式，這種格式強(qiáng)調(diào)不同的特性，并對下游模型設(shè)計產(chǎn)生巨大影響。

展開

自動駕駛多模態(tài)融合感知詳解（研究現(xiàn)狀及挑戰(zhàn)）

來源 | 自動駕駛干貨鋪、智車科技導(dǎo)讀：多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機(jī)在內(nèi)的解決對象檢測和語義分割任務(wù)。從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機(jī)會進(jìn)行開放式討論。 多模態(tài)融合感知的背景單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機(jī)數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。此外，受限于機(jī)械結(jié)構(gòu)，激光雷達(dá)在不同距離處具有不同的分辨率，并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR 和相機(jī)的互補(bǔ)性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補(bǔ)全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。數(shù)據(jù)格式相機(jī)提供了豐富的紋理信息的RGB圖像。具體來說，對于每個圖像像素為 (u, v)，它有一個多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機(jī)捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。然而，由于深度信息有限，單目相機(jī)難以提取，因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此，許多方案使用雙目或立體相機(jī)系統(tǒng)通過空間和時間空間來利用附加信息進(jìn)行 3D 對象檢測，例如深度估計、光流等。激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。

展開

與全球頂尖科技共赴智能時代之約：2026深圳國際人工智能展會

與此同時，沉浸式互動體驗區(qū)將打破科技與大眾的壁壘：戴上外骨骼機(jī)器人感受力量增幅，通過腦機(jī)接口實現(xiàn)“意念控制”仿生手，體驗AI機(jī)械臂現(xiàn)場繪制肖像，甚至能與情感陪伴機(jī)器人進(jìn)行多模態(tài)交互，在觸摸、操控與協(xié)作中，解鎖人機(jī)共生的未來圖景。展會不止于技術(shù)展示，更搭建起千億級產(chǎn)業(yè)對接橋梁。現(xiàn)場將組織不少于50場“一對一”精準(zhǔn)供需對接會，聯(lián)動攜千億采購意向金的國內(nèi)外主流采購商，助力參展企業(yè)實現(xiàn)技術(shù)從“單點創(chuàng)新”到“場景落地”的跨越。同期舉辦的“AI新質(zhì)生產(chǎn)力峰會”更邀院士專家領(lǐng)銜，聚焦AGI發(fā)展、AI倫理治理等前沿課題，為行業(yè)注入頂尖思想動能；“全球投融資對接平臺”則集結(jié)3000+國內(nèi)外基金機(jī)構(gòu)，為優(yōu)質(zhì)科創(chuàng)企業(yè)搭建資本快車道。從工業(yè)場景的智能調(diào)度機(jī)器人、農(nóng)業(yè)“空陸協(xié)同”無人裝備，到生活場景的AI大廚、情感陪伴機(jī)器人，再到醫(yī)療領(lǐng)域的康復(fù)外骨骼、AI輔助診斷系統(tǒng)，1000+展品將全面覆蓋千行百業(yè)的智能化轉(zhuǎn)型路徑。無論是企業(yè)尋找技術(shù)合作伙伴、投資者挖掘優(yōu)質(zhì)項目，還是科技愛好者打卡前沿黑科技，這場跨越春冬兩季的展會都將成為2026年不可錯過的科技坐標(biāo)。相約深圳國際會展中心，與全球頂尖科技品牌共赴智能時代之約，見證AI與機(jī)器人如何重塑生產(chǎn)生活、定義未來格局。這場兼具技術(shù)高度、產(chǎn)業(yè)深度與體驗溫度的科技盛宴，等你來解鎖無限可能！

展開

賦能智慧隧道施工：工程車輛多模態(tài)數(shù)據(jù)采集系統(tǒng)

近期，在和眾多該類客戶的溝通過程中，我們觀察到了一些被頻繁提到的客戶需求和場景痛點，針對于此，以隧道運輸設(shè)備——MSV膠輪車為例，本文為該類客戶量身定制了一套高性能多模態(tài)數(shù)據(jù)采集方案。本文將從客戶的實際痛點出發(fā)，詳細(xì)拆解如何在無GPS信號、環(huán)境惡劣的隧道場景中，實現(xiàn)高精度、多傳感器的數(shù)據(jù)融合與采集。一、客戶需求與場景痛點 1、復(fù)雜的作業(yè)環(huán)境與對象本次搭載對象為MSV膠輪車（用于TBM隧道施工物料運輸）。車輛長期運行于狹長、封閉的隧道內(nèi)部，且需要分別在車輛的“前端”和“后端”搭載兩套獨立的感知系統(tǒng)，以滿足雙向行駛的作業(yè)需求。 2、多模態(tài)傳感器融合為了實現(xiàn)對環(huán)境的全面感知，單車集成了復(fù)雜的傳感器組，包括：視覺傳感器：華陽 GMSL2 3M 相機(jī)（前后共4路）激光雷達(dá)：主雷達(dá) + 補(bǔ)盲雷達(dá)（前后共6顆）毫米波雷達(dá)： ARS410（前后共2顆）定位與姿態(tài)： IMU hwt905-CAN（前后共2顆）車輛總線： CAN數(shù)據(jù)采集傳感器布局：前端布局（左）、后端布局（右） 3、核心痛點：隧道內(nèi)的時空同步無GPS信號：隧道內(nèi)無法獲取衛(wèi)星授時（GPS/GNSS），傳統(tǒng)依賴PPS/NMEA的同步方式失效。高帶寬并發(fā)：多路激光雷達(dá)與高分辨率相機(jī)的同時接入，對采集系統(tǒng)的帶寬和寫入速度提出了巨大挑戰(zhàn)。惡劣工況：隧道施工現(xiàn)場震動大、粉塵多，要求設(shè)備具備極高的工業(yè)級穩(wěn)定性。二、解決方案概覽針對上述挑戰(zhàn)，我們提出了兩套差異化的技術(shù)路線：“極致性能方案（方案一）”與“高性價比方案（方案二）”，以滿足不同研發(fā)階段的需求。

展開

AI行業(yè)七大趨勢：合成數(shù)據(jù)、多模態(tài)AI崛起

多模態(tài) AI 崛起 多模態(tài) AI 正在打破單一感官的藩籬，使用一個通用 AI 模型科技將多種類型的數(shù)據(jù)所蘊含的語義信息概念化并作出預(yù)測。在 2021 年初，OpenAI 發(fā)布了可以根據(jù)文本信息生成圖像的 AI 模型 DALL-E。圖 | AI 根據(jù)文本提示生成牛油果形狀的扶手椅（來源：Open AI） 2022 年 1 月，OpenAI 發(fā)布了升級版 DALLE-2，生成圖像的畫質(zhì)提升了 4 倍。 2022 年 5 月，谷歌推出了圖像生成器 Imagen。據(jù)稱，Imagen 在生成圖像的質(zhì)量以及輸入文本和生成的圖像的一致性方面要優(yōu)于 OpenAI 模型。今年早些時候，Meta 發(fā)表了一篇名為 “不同視覺模態(tài)都能通吃的雜食者”的論文，其中詳細(xì)介紹了如果對一種 AI 模型進(jìn)行識別 2D 圖像的預(yù)訓(xùn)練，不經(jīng)過額外的模態(tài)訓(xùn)練，該模型也能可以識別視頻或三維圖像中的南瓜。 多模態(tài) AI 正在從實驗室走到實際應(yīng)用。例如，谷歌正在使用多模態(tài) AI 來改進(jìn)搜索體驗。未來，如果用戶上傳了一張登山靴的照片，并附上“我能穿著這雙靴子去富士山徒步旅行嗎?”的文字，搜索引擎將識別上傳的圖像，從文本、圖像和視頻數(shù)據(jù)中挖掘網(wǎng)絡(luò)上關(guān)于富士山的信息，并將這些瑣碎的信息連接起來，提供一個貼切的答案。 多模態(tài) AI 正在走出實驗室，為搜索服務(wù)和內(nèi)容生成等應(yīng)用提供驅(qū)動力。 AI for AI 隨著 AI 技術(shù)應(yīng)用延展，企業(yè)正在尋求徹底改變現(xiàn)有的數(shù)據(jù)管理模式的解決方案，轉(zhuǎn)向“AI 優(yōu)先”策略。說起來容易做起來難。從采集數(shù)據(jù)、運行數(shù)據(jù)質(zhì)量檢查到開發(fā)模型和監(jiān)測后期生產(chǎn)表現(xiàn)，一個項目從原始數(shù)據(jù)轉(zhuǎn)變?yōu)樯a(chǎn)準(zhǔn)備是一個多步驟的過程。市場上涌現(xiàn)出數(shù)以百計的公司研發(fā)各階段的解決方案。

展開

理論模態(tài)分析之多自由度系統(tǒng)（三）

引入模態(tài)矩陣和模態(tài)坐標(biāo)。用模態(tài)振型對物理參數(shù)進(jìn)行處理，得出模態(tài)參數(shù)。歸一化處理。 模態(tài)參數(shù)表達(dá)式。 2 對于結(jié)構(gòu)阻尼和非比例阻尼，同樣存在頻響函數(shù)的概念，但此時的模態(tài)矩陣稱為復(fù)模態(tài)矩陣。

基于梁單元建模的多螺栓連接的轉(zhuǎn)鼓模態(tài)仿真￥20

[圖片]

自動駕駛行業(yè)觀察 | 自動駕駛多模態(tài)融合感知詳解（研究現(xiàn)狀及挑戰(zhàn)）

簡介 多模態(tài)融合是感知自動駕駛系統(tǒng)的重要任務(wù)。本文將詳細(xì)闡述基于多模態(tài)的自動駕駛感知方法。包括LiDAR 和相機(jī)在內(nèi)的解決對象檢測和語義分割任務(wù)。從融合階段的角度，從數(shù)據(jù)級、特征級、對象級、不對稱融合對現(xiàn)有的方案進(jìn)行分類。此外，本文提出了本領(lǐng)域的挑戰(zhàn)性問題并就潛在的研究機(jī)會進(jìn)行開放式討論。 多模態(tài)融合感知的背景單模態(tài)數(shù)據(jù)的感知存在固有的缺陷，相機(jī)數(shù)據(jù)主要在前視圖的較低位置捕獲。在更復(fù)雜的場景中，物體可能會被遮擋，給物體檢測和語義分割帶來嚴(yán)峻挑戰(zhàn)。此外，受限于機(jī)械結(jié)構(gòu)，激光雷達(dá)在不同距離處具有不同的分辨率，并且容易受到大霧和大雨等極端天氣的影響。因此LiDAR 和相機(jī)的互補(bǔ)性使得組合感知方面具有更好的性能。感知任務(wù)包括目標(biāo)檢測、語義分割、深度補(bǔ)全和預(yù)測等。我們主要關(guān)注前兩個任務(wù)。數(shù)據(jù)格式相機(jī)提供了豐富的紋理信息的RGB圖像。具體來說，對于每個圖像像素為 (u, v)，它有一個多通道特征向量 F(u,v) = {R, G, B, ...}，通常包含相機(jī)捕獲的紅色、藍(lán)色、綠色通道或其他手動設(shè)計的特征作為灰度通道。然而，由于深度信息有限，單目相機(jī)難以提取，因此在 3D 空間中直接檢測物體相對具有挑戰(zhàn)性。因此，許多方案使用雙目或立體相機(jī)系統(tǒng)通過空間和時間空間來利用附加信息進(jìn)行 3D 對象檢測，例如深度估計、光流等。激光雷達(dá)使用激光系統(tǒng)掃描環(huán)境并生成點云。一般來說，大多數(shù)激光雷達(dá)的原始數(shù)據(jù)都是四元數(shù)，如(x, y, z, r)，其中r代表每個點的反射率。不同的紋理導(dǎo)致不同的反射率，然而，點的四元數(shù)表示存在冗余或速度缺陷。因此，許多研究人員嘗試將點云轉(zhuǎn)換為體素或 2D 投影，然后再將其饋送到下游模塊。

展開

多模態(tài)交互的相關(guān)專題、標(biāo)簽、搜索

多模態(tài)交互多模態(tài)交互測試交互多模算法多模態(tài)感知多模態(tài)感知融合多模態(tài)感知仿真多物理場仿真交互多模型交互多尺度多裂紋交互模擬多模態(tài)什么是多模態(tài)材料，多模態(tài)

共36條

首頁 123 下一頁尾頁 , 到第頁

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

多模態(tài)交互的案例

多模態(tài)交互的相關(guān)專題、標(biāo)簽、搜索