dl-vision-papers/README.md at master · DavideHe/dl-vision-papers · GitHub

2D Vision

Base Architecture

基础的提取特征的分类框架，包括AlexNet、Googlenet、ResNet和DenseNet系列等；

Segmentation Architecture

语义分割网络，包括Deeplab系列、PSPNet、SegNet和ENet等；
实例分割网络；
全景分割网络，融合了语义分割和实例分割；

Object Detection Architecture

检测网络，包括RCNN系列、YOLO系列、SSD系列等；

Human Keypoint Detection Architecture

人体关节点检测网络，包括OpenPose、DensePose等；

Multi-task Architecture

针对多个任务同时处理的网络架构；

Mobile Architecture

移动端模型框架，包括MobileNet和ShuffleNet系列等；

模型框架自动学习，包括NASNet系列等；

3D Vision

一般来说利用学习的方法进行重新，重建后的三维结构也包括三维语义的信息。

场景重建；
物体重建；
平面重建；

SFM，利用网络恢复pose和depth等；
MVS，利用CNN网络恢复多帧depth等；
学习方法应用到SLAM上，包括一些语义信息的辅助SLAM和动态场景下SLAM等；
VO，利用CNN求前后帧的Relative Pose；
VIO，结合IMU信息求前后帧的Relative Pose；
利用CNN网络直接估计单帧图像Depth；
利用CNN网络估计前后帧之间Flow信息；

3D Data Architecture

点云为输入的模型框架，包括PointNet系列等；
Depth为输入的模型框架；
RGBD为输入的模型框架；

利用CNN网络估计单帧图像中物体 6-DoF 位姿。

室内场景物体；
室外场景物体，无人驾驶应用场景，大部分是车辆的位姿；

两段式先图像检索再进行2d-3d优化；
直接网络回归相机姿态，包括posenet系列等；
语义约束辅助的姿态估计；
传统的基于2d-3d或者2d-2d匹配关系求解camera location；

图像全局描述符，一般用于图像检索（Image Retrieval）、地点识别( Place Recognition）等；
图像局部描述符，包括特征点提取，描述符计算，匹配度量算法学习等；
图像 appearance transfer，利用 gan 把特殊情况下（晚上，下雪）的图像转成一般情况处理，主要解决特殊情况下的图像匹配问题；