Kaiming He et al. - 2021 - Masked Autoencoders Are Scalable Vision Learners

2022/08/24 posted in  笔记
Tags:  #Transformer

About

标题

Masked Autoencoders Are Scalable Vision Learners

掩码自动编码器:可拓展视觉学习器

发表

2021.11.11 arxiv tech report

作者

Kaiming He

Xinlei Chen

Saining Xie

Yanghao Li

Piotr Doll´ar

Ross Girshick

机构组织

Facebook AI Research

代码

原代码:未公开

复现:https://github.com/pengzhiliang/MAE-pytorch

Content

image-20211123154617195

预处理

带有位置信息的随机掩码patches

编码器

除去掩码部分的patches输入到encoder中,提取特征

解码器

根据位置信息,将提取的特征与掩码合并输入解码器,还原出原图

Question

  1. transformer / CNN,图像和mask ratio

    老生重谈,transformer可以很好的获取全局特征。图像是具有真实世界存在的自然信号,有很强的空间(信息)冗余:一张照片遮住很多内容,也可以从其他部分判断出原图大概是什么样子;或者让你形容一下刚看过的一个人的穿着,脑海中不可能出现非常具体的细节,而只有大致的样子。

  2. 为什么要用掩码mask?

    自监督方法训练预训练模型,之前的做法都是精心设计一个无标签的pre-task,然后获得预训练的特征提取模型,来完成下游任务。

    mask是指移除一部分信息来学习预测消失的内容,来训练具有泛化能力的预训练模型。

    最早是出现在NLP的BERT中,这种方法训练模型更接近自监督的本质。

    本文的高mask ratio可以做到一石二鸟(强预训练模型和快训练)

  3. ssl handcrafted pretext tasks 种类

  • intra-image

    • colorization
    • jigsaw puzzle
  • inter-image

    • contrastive learning
  • recover

    • 合成鉴别descriminating synthetic artifacts
    • 着色colorization
    • 图像补全image inpainting
    • 降噪编码denoising auto-encoders
  • generate labels

    • 寻找两个patch的关系predicting relation of two patches
    • 拼图solving jigsaw puzzles,
  1. 下游任务

    MAE的decodeer是可以根据需求随便改动的。本文的下游任务是reconstruct,训练和验证都用了。文章也做了物体检测和语义分割的下游实验,效果都比之前的BEiT效果好或者持平(但是MAE训练更快)。但是没有用预训练模型做聚类(做了线形回归linear probing)。

  2. 本文的surprise

    1)简单高效的模型,给BEiT做减法,反而得到了更好的效果

    2)超大的mask ratio,甚至连人都很能还原图像。这涉及到图像信息&回归的知识

    3)没有使用最近热门的对抗学习 contrative learning,而是回到了generative learning

    4)看了别人的评价说,推进了 NLP和CV模型的统一,不了解NLP不予评价

  3. 本文模型可改进的地方

    知乎:“ 预训练的过程应该可以进一步优化吧,可以尝试一下课程学习,mask 的比例从小慢慢增大,感觉应该能减少一些预训练时间(类似 BERT 先训长为 128 的片段再训 512 一样)?”

    感觉有些合理 但是违背了文章的初衷(大mask快又好)不知道会不会得到更好的效果

  4. 高度抽象出的预训练模型提出的特征丢失了细节,适合用在时装风格分类下游任务上吗?

    不像ViT每层都是不同粒度的特征,丢失75%信息得到的高度抽象的特征,虽然linear probing很高,但是可以直接用于风格分类吗,或者一眼看出什么风格的区别是合理的吗

    “Jigsaw Clustering for Unsupervised Visual Representation Learning” 无监督的特征学习for聚类