VIT发表于ICLR2021,成功将transformer应用于视觉领域,打破了cv与nlp的壁垒,带动了多模态方向的发展。不过,看了讲解视频后,按论文中所说,transformer结构是本来就有的,patch的方法是2020年有人提出的,位置编码和分类上用也是BERT的方法,感觉还真看不出来有啥创新的,但是却很关键的是将transformer用在cv上work了起来,而且效果还特别好,还值得关注的一点是论文中真的是做了大量的实验,这可不是一般的量级。