fix: 4.6.7.1 格式

camera-2018 · Apr 22, 2023 · f16e5ae · f16e5ae
1 parent 7d42aa5
commit f16e5ae
Showing 1 changed file with 17 additions and 7 deletions.
diff --git a/4.人工智能/4.6.7.1VIT.md b/4.人工智能/4.6.7.1VIT.md
@@ -11,13 +11,18 @@
 
 在本节内容中我们会带你了解这一框架。
 
+## 论文
+
+[知乎](https://zhuanlan.zhihu.com/p/356155277)
+[论文](https://arxiv.org/abs/2010.11929)
+
 ## 模型详解
 
 ![](https://hdu-cs-wiki.oss-cn-hangzhou.aliyuncs.com/boxcn1wqKtwBc6MCJDm7ehvhXac.png)
 
 ### 模型主题结构
 
-结构上，VIT 采取的是原始 Transformer 模型，方便开箱即用，即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别
+结构上，VIT 采取的是原始 Transformer 模型，方便开箱即用，即在 encoder-decoder 结构上与 NLP 的 Transform 模型并无差别。
 
 主要做出的贡献在于<strong>数据处理和分类头</strong>
 
@@ -55,9 +60,14 @@
 具体来说
 
 1. 先对图片作分块
-2. 假设原始输入的图片数据是 H x W x C,
-3. 假设每个块的长宽为(P, P)，那么分块的数目为 N=H∗W/(P∗P)
-4. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
-5. 然后对每个图片块展平成一维向量
-6. 每个向量大小为 P*P*C
-7. 接着对每个向量都做一个线性变换（即全连接层），得到 patch embedding
+   1. 假设原始输入的图片数据是 H * W * C,
+   2. 假设每个块的长宽为(P, P)，那么分块的数目为 N=H ∗ W / (P ∗ P)
+   3. 其中 vit 的分块是定下每一块的大小然后块的数量为计算结果
+2. 然后对每个图片块展平成一维向量
+   1. 每个向量大小为 P * P * C
+3. 接着对每个向量都做一个线性变换（即全连接层），得到 patch embedding
+
+
+## 视频
+
+https://www.bilibili.com/video/BV15P4y137jb