Skip to content

Commit

Permalink
fix: 4.6.7.1 格式
Browse files Browse the repository at this point in the history
  • Loading branch information
camera-2018 committed Apr 22, 2023
1 parent 7d42aa5 commit f16e5ae
Showing 1 changed file with 17 additions and 7 deletions.
24 changes: 17 additions & 7 deletions 4.人工智能/4.6.7.1VIT.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,13 +11,18 @@

在本节内容中我们会带你了解这一框架。

## 论文

[知乎](https://zhuanlan.zhihu.com/p/356155277)
[论文](https://arxiv.org/abs/2010.11929)

## 模型详解

![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn1wqKtwBc6MCJDm7ehvhXac.png)

### 模型主题结构

结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
结构上,VIT 采取的是原始 Transformer 模型,方便开箱即用,即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别

主要做出的贡献在于<strong>数据处理和分类头</strong>

Expand Down Expand Up @@ -55,9 +60,14 @@
具体来说

1. 先对图片作分块
2. 假设原始输入的图片数据是 H x W x C,
3. 假设每个块的长宽为(P, P),那么分块的数目为 N=H∗W/(P∗P)
4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
5. 然后对每个图片块展平成一维向量
6. 每个向量大小为 P*P*C
7. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding
1. 假设原始输入的图片数据是 H * W * C,
2. 假设每个块的长宽为(P, P),那么分块的数目为 N=H ∗ W / (P ∗ P)
3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
2. 然后对每个图片块展平成一维向量
1. 每个向量大小为 P * P * C
3. 接着对每个向量都做一个线性变换(即全连接层),得到 patch embedding


## 视频

https://www.bilibili.com/video/BV15P4y137jb

0 comments on commit f16e5ae

Please sign in to comment.