傳統(tǒng)的基于幾何變換的方法會(huì)將三維坐標(biāo)系中的一個(gè)點(diǎn)映射到圖像坐標(biāo)系中的一個(gè)點(diǎn),并利用該圖像點(diǎn)周圍一個(gè)小的鄰域(比如 3x3 像素)來計(jì)算三維點(diǎn)的像素值。而 Transformer 則會(huì)建立三維點(diǎn)到每個(gè)圖像點(diǎn)的聯(lián)系,并通過自注意力機(jī)制,也就是相關(guān)性計(jì)算來決定哪些圖像點(diǎn)會(huì)被用來進(jìn)行三維點(diǎn)的像素值。