VideoMAE V2 pretrain base patch16 (masked video autoencoder ViT)

Architecture diagram