Kaiming He et al. - 2021 - Masked Autoencoders Are Scalable Vision Learners

2022/08/24 posted in 笔记
Tags: #Transformer

About

标题

Masked Autoencoders Are Scalable Vision Learners

掩码自动编码器：可拓展视觉学习器

发表

2021.11.11 arxiv tech report

作者

Kaiming He

Xinlei Chen

Saining Xie

Yanghao Li

Piotr Doll´ar

Ross Girshick

机构组织

Facebook AI Research

代码

原代码：未公开

复现：https://github.com/pengzhiliang/MAE-pytorch

Content

预处理

带有位置信息的随机掩码patches

编码器

除去掩码部分的patches输入到encoder中，提取特征

解码器

根据位置信息，将提取的特征与掩码合并输入解码器，还原出原图

Question

transformer / CNN，图像和mask ratio

老生重谈，transformer可以很好的获取全局特征。图像是具有真实世界存在的自然信号，有很强的空间(信息)冗余：一张照片遮住很多内容，也可以从其他部分判断出原图大概是什么样子；或者让你形容一下刚看过的一个人的穿着，脑海中不可能出现非常具体的细节，而只有大致的样子。
为什么要用掩码mask？

自监督方法训练预训练模型，之前的做法都是精心设计一个无标签的pre-task，然后获得预训练的特征提取模型，来完成下游任务。

mask是指移除一部分信息来学习预测消失的内容，来训练具有泛化能力的预训练模型。

最早是出现在NLP的BERT中，这种方法训练模型更接近自监督的本质。

本文的高mask ratio可以做到一石二鸟（强预训练模型和快训练）
ssl handcrafted pretext tasks 种类

intra-image
- colorization
- jigsaw puzzle
inter-image
- contrastive learning
recover
- 合成鉴别descriminating synthetic artifacts
- 着色colorization
- 图像补全image inpainting
- 降噪编码denoising auto-encoders
generate labels
- 寻找两个patch的关系predicting relation of two patches
- 拼图solving jigsaw puzzles，

下游任务

MAE的decodeer是可以根据需求随便改动的。本文的下游任务是reconstruct，训练和验证都用了。文章也做了物体检测和语义分割的下游实验，效果都比之前的BEiT效果好或者持平（但是MAE训练更快）。但是没有用预训练模型做聚类（做了线形回归linear probing）。
本文的surprise

1）简单高效的模型，给BEiT做减法，反而得到了更好的效果

2）超大的mask ratio，甚至连人都很能还原图像。这涉及到图像信息&回归的知识

3）没有使用最近热门的对抗学习 contrative learning，而是回到了generative learning

4）~~看了别人的评价说，推进了 NLP和CV模型的统一，不了解NLP不予评价~~
本文模型可改进的地方

知乎：“ 预训练的过程应该可以进一步优化吧，可以尝试一下课程学习，mask 的比例从小慢慢增大，感觉应该能减少一些预训练时间（类似 BERT 先训长为 128 的片段再训 512 一样）？”

感觉有些合理但是违背了文章的初衷（大mask快又好）不知道会不会得到更好的效果
高度抽象出的预训练模型提出的特征丢失了细节，适合用在时装风格分类下游任务上吗？

不像ViT每层都是不同粒度的特征，丢失75%信息得到的高度抽象的特征，虽然linear probing很高，但是可以直接用于风格分类吗，或者一眼看出什么风格的区别是合理的吗

“Jigsaw Clustering for Unsupervised Visual Representation Learning” 无监督的特征学习for聚类