Cross-Attention of Disentangled Modalities for 3D Human Mesh Recovery with Transformers

리뷰완료날짜

2023/03/29

리뷰어

카테고리

컴퓨터비전

출판

ECCV 2022

파일

https://arxiv.org/pdf/2207.13820.pdf

깃헙주소

https://github.com/postech-ami/fastmetro

태그

HPS

요약

현재 Transformer encoder 아키텍처를 활용한 연구들이 단일 이미지에 대한 3D human mesh recovery 분야에서 SOTA의 성능을 달성하고 있는 반면, large memory overhead와 slow inference speed 문제점을 가지고 있어 실무에 적용하기 어렵다. FastMETRO는 기존의 Transformer encoder 아키텍처의 문제점을 해결하는 동시에 SOTA에 견줄만한 성능을 달성하는 것을 목적한다. 이를 위해 Transformer encoder-decoder 아키텍처를 차용하여 기존 연구보다 적은 파라미터와 빠른 inference 속도를 나타내며, attention masking와 mesh upsampling 연산을 통해 빠른 convergence와 높은 정확도를 달성하였다.

Contribution

Method

입력 이미지에 대하여 3D human mesh를 recovery하는 transformer encoder-decoder 아키텍처

1. Feature Extractor

위와 같은 과정을 거친 후, spatial information을 유지하기 위한 positional encoding을 추가함

2. Transformer with Progressive Dimensionality Reduction

Transformer Encoder

Transformer Decoder

Attention Masking based on Mesh Topology

3. Regressor and Mesh Upsampling

3D Coordinates Regressor

Coarse-to-Fine Mesh Upsampling

4. Training FastMETRO

3D Vertex Regression Loss

3D Joint Regression Loss

2D Joint Projection Loss

Total Loss

Experiments

•