Light | 呼之欲出: 裸眼3D時代終要到來


從維多利亞時期的立體鏡(stereoscope)到高度電子化的 Oculus Quest 2,光學顯示與電氣工程領域的一次次進步正在逐漸模糊虛擬與現實的邊界。

計算全息(CGH)通過數字化記錄虛擬或真實存在物體的光波振幅與相位,可以復現具有物理景深效果且能夠裸眼觀看的真實三維場景。這令其成為虛擬現實以及增強現實領域的下一個變革性技術與研究熱點。

為了獲取計算全息圖,傳統方法通常采用光波仿真加相位編碼,或基于迭代的相位檢索(phase retrieval)以滿足相位型空間調制器無法調制強度的約束。

前者快捷,但相位編碼需要針對不同場景手動調節最優濾波強度,以獲得清晰無散斑的三維顯示,且當三維場景遠離全息圖所在平面時,需要更強的濾波消除散斑,因此將犧牲一定的空間分辨率。后者可實現無人工干預的端到端生成,但迭代算法非常耗時。

近來基于監督學習與無(半)監督學習訓練的神經網絡被分別用來加速前后兩類算法。這些算法雖然取得了顯著的進步,但改進后的兩類算法相對的優劣勢依然存在。

為了突破這一局限,來自麻省理工學院的研究團隊提出了兩階段(監督+無監督)訓練法以融合兩類方法的優勢,并首次引入了分層深度圖像(Layered Depth Image,LDI)以替代體素與 RGB-D 圖片作為神經網絡的輸入表征,實現了完整且渲染高效的三維信息傳遞。

該研究成果以“End-to-end Learning of 3D Phase-only Holograms for Holographic Display”為題在線發表于 Light: Science & Applications。通訊作者為麻省理工學院計算機與人工智能實驗室 Wojciech Matusik 教授,第一作者/共同通訊作者史亮博士生,第二作者李北辰博士生。該工作得到了 MIT.nano NCSOFT Seed Grant 的支持。
Light | 呼之欲出: 裸眼3D時代終要到來的圖1
1:分層深度圖像與體素的三維編碼效率對比:(a)分層深度圖像的渲染邏輯,(b)分層深度圖像的渲染結果,三層即可記錄相機視角下幾乎完整的三維信息,(c)體素渲染結果,高質量三圍編碼需要使用細粒度的體素間隔,導致結果稀疏,編碼效率相對低下,且深度信息被量化。

Light | 呼之欲出: 裸眼3D時代終要到來的圖2
2:兩階段神經網絡訓練管線

相較課題組前期的工作(Nature 2021, 591, 7849),研究者引入了基于LDI和掩膜分層法(silhouette-mask layer-based method)計算的全新大規模全息圖數據集 MIT-CGH-4K-V2,以實現更為逼真的 3D 景深效果。研究者同時提出了基于第二階段無監督學習的深度雙相位編碼(deep double-phase method),可以針對距離全息圖平面不同傳播距離的三維場景實現端到端高質量純相位全息圖生成。
Light | 呼之欲出: 裸眼3D時代終要到來的圖3
3:(a)三維投影拍攝結果展示,相較前期工作,本文改善了前景背景邊界的失真,實現了更逼真的景深效果,(b)神經網絡同時實現全息投影像差矯正

研究結果顯示,該方法能夠穩健地處理非完美深度圖的真實采集輸入,且通過用戶閉環(user-in-the-loop)校準數據集,可以實現端到端生成光學像差矯正后的三維投影,已達到去除用戶佩戴矯正眼鏡的需求。
視頻1:基于神經輻射場(NeRF)輸出的RGB-D所計算拍攝的三維全息投影

本研究的開展,解決了兩大類傳統算法各自的痛點,提供了基于神經網絡的計算全息圖渲染訓練新思路以及更適合的三維輸入表征。該方法的穩健性使得由神經輻射場(NeRF)重建的帶有不完美深度圖的三維場景也能夠被轉化高質量的計算全息圖,從而極大地減小了真實采集輸入的獲取難度。此外針對像差修正的集成為計算全息在輕量級、可穿戴的便攜式全息近眼顯示的實現提供了技術可行性支持。
  論文信息  

Shi, L., Li, B. & Matusik, W. End-to-end learning of 3D phase-only holograms for holographic display. Light Sci Appl 11, 247 (2022).

https://doi.org/10.1038/s41377-022-00894-6



文章來源:中國光學

免責聲明:本文系網絡轉載,版權歸原作者所有。如涉及版權,請聯系刪除!

Light | 呼之欲出: 裸眼3D時代終要到來的圖4
登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP