打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
ViTPatchEmbedding理解

ViT(Vision Transformer)中的Patch Embedding用于将原始的2维图像转换成一系列的1维patch embeddings。

假设输入图像的维度为HxWxC,分别表示高,宽和通道数。

Patch Embeeding操作将输入图像分成N个大小为

的patch,并reshape成维度为Nx(
)的patches块
,
。其中
,表示分别在二维图像的宽和高上按P进行划分,每个patch块的维度为
​​​​​​,再通过线性变换将patches投影到维度为D的空间上,也就是直接将原来大小为HxWxC的二维图像展平成N个大小为
的一维向量

上述的操作等价于对输入图像HxWxC执行一个内核大小为PxP,步长为P的卷积操作(虽然等价,但是ViT逻辑上并不包含任何卷积操作)。

卷积的输出计算公式为

,将输入图像的宽和高分别带入得到

,相乘之后就得到N,等价于将输入图像划分成N个大小为
的patch块。

代码如下:

  1. class PatchEmbed(nn.Module):
  2. """
  3. Image to Patch Embedding
  4. """
  5. def __init__(self, img_size=224, patch_size=16, in_chans=3, embed_dim=768):
  6. super().__init__()
  7. img_size = (img_size, img_size)
  8. patch_size = (patch_size, patch_size)
  9. num_patches = (img_size[1] // patch_size[1]) * (img_size[0] // patch_size[0])
  10. self.img_size = img_size
  11. self.patch_size = patch_size
  12. self.num_patches = num_patches
  13. #
  14. # embed_dim表示切好的图片拉成一维向量后的特征长度
  15. #
  16. # 图像共切分为N = HW/P^2个patch块
  17. # 在实现上等同于对reshape后的patch序列进行一个PxP且stride为P的卷积操作
  18. # output = {[(n+2p-f)/s + 1]向下取整}^2
  19. # 即output = {[(n-P)/P + 1]向下取整}^2 = (n/P)^2
  20. #
  21. self.proj = nn.Conv2d(in_chans, embed_dim, kernel_size=patch_size, stride=patch_size)
  22. def forward(self, x):
  23. B, C, H, W = x.shape
  24. assert H == self.img_size[0] and W == self.img_size[1], \
  25. f"Input image size ({H}*{W}) doesn't match model ({self.img_size[0]}*{self.img_size[1]})."
  26. x = self.proj(x).flatten(2).transpose(1, 2)
  27. return x # x.shape is [8, 196, 768]

其中卷积操作self.proj之后接着一步flatten(2)展平操作,表示将patch投影到维度为

的空间上。最后进行转置操作,表示输入图像经过转换后生成长度为196(14*14,表示共有196个patches),维度为768(3*16*16)的特征向量。

参考:

"未来"的经典之作ViT:transformer is all you need! - 知乎

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
基于DnCNN的图像和视频去噪
计算机视觉中的transformer模型创新思路总结
基于 PyTorch 的图像特征提取
80行Python实现
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了(六)
对视觉任务更友好的Transformer,北航团队开源Visformer!
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服