Twins网络包括Twins-PCPVT和Twins-SVT,其重点对空间注意力机制进行了精心设计,得到了简单却更为有效的方案。由于该体系结构仅涉及矩阵乘法,而目前的深度学习框架中对矩阵乘法有较高的优化程度,因此该体系结构十分高效且易于实现。并且,该体系结构在图像分类、目标检测和语义分割等多种下游视觉任务中都能够取得优异的性能。论文地址。
Models | Top1 | Top5 | Reference top1 |
Reference top5 |
FLOPs (G) |
Params (M) |
---|---|---|---|---|---|---|
pcpvt_small | 0.8082 | 0.9552 | 0.812 | - | 3.7 | 24.1 |
pcpvt_base | 0.8242 | 0.9619 | 0.827 | - | 6.4 | 43.8 |
pcpvt_large | 0.8273 | 0.9650 | 0.831 | - | 9.5 | 60.9 |
alt_gvt_small | 0.8140 | 0.9546 | 0.817 | - | 2.8 | 24 |
alt_gvt_base | 0.8294 | 0.9621 | 0.832 | - | 8.3 | 56 |
alt_gvt_large | 0.8331 | 0.9642 | 0.837 | - | 14.8 | 99.2 |
注:与Reference的精度差异源于数据预处理不同。