但是這個加權(quán)組合的過程通過Self-Attention和空間編碼來自動的實(shí)現(xiàn),不需要手工設(shè)計(jì),完全根據(jù)需要完成的任務(wù)來進(jìn)行端對端的學(xué)習(xí)。 其次,在量產(chǎn)應(yīng)用中,每一輛車上攝像頭的標(biāo)定信息都不盡相同,導(dǎo)致輸入數(shù)據(jù)與預(yù)訓(xùn)練的模型不一致。因此這些標(biāo)定信息需要作為額外的輸入提供給神經(jīng)網(wǎng)絡(luò)。簡單的做法可以將每個攝像頭的標(biāo)定信息拼接起來,通過MLP編碼后再輸入給神經(jīng)網(wǎng)絡(luò)。