Lane-Detection 近期车道线检测论文阅读总结

近期阅读的几篇关于车道线检测的论文总结。

1. 车道线检测任务需求分析

1.1 问题分析

针对车道线检测任务，需要明确的问题包括：

（1）如何对车道线建模，即用什么方式来表示车道线。

从应用的角度来说，最终需要的是车道线在世界坐标系下的方程。而神经网络更适合提取图像层面的特征，直接回归方程参数不是不可能，但限制太多。

由此，网络推理输出和最终结果之间存在一个Gap，需要相对复杂的后处理去解决。

（2）网络推理做到哪一步。

人在开车时观察车道线，会同时关注两方面信息：

绘制在路面上的车道线标识本身
通过车道线标识，表征的抽象的车道分隔边界线

同样，在网络结构设计时，也可以把推理目标设置为这两类：

图像分割方案倾向于识别第一种信息，对每一个像素是否属于车道线标识，以及标识的类别进行判断。
类图像检测方案倾向于识别第二种信息，在设定的一系列anchor中判断是否存在车道线，以及回归车道线的位置参数。

1.2 面临挑战

针对车道线检测任务，面临的挑战主要有：

（1）车道线这种细长的形态结构，需要更加强大的高低层次特征融合，来同时获取全局的空间结构关系，和细节处的定位精度。

（2）车道线的形态有很多不确定性，比如被遮挡，磨损，以及道路变化时本身的不连续性。需要网络针对这些情况有较强的推测能力。

（3）在实际应用中，车辆稳定行驶在车道中央的工况并不算关键工况，车辆的偏离或换道过程才是关键工况，此时会产生自车所在车道的切换，车道线也会发生左/右线的切换。

据此，一些提前给车道线赋值固定序号的方法，在实际使用中是有巨大缺陷的，在换道过程中会产生歧义的情况。

这种方法在刷数据集指标的时候可能效果OK，但在应用中，从网络结构设计的角度，无法应对换道这种关键工况。

2. 论文要点解读

按照arXiv上发布的时间顺序。

《Robust Lane Detection from Continuous Driving Scenes Using Deep Neural Networks》

论文链接

将车道线检测作为一个分割问题来处理，最后输出车道线前景和背景的2值分割图。

网络整体上使用了CNN+RNN的结构。

CNN的部分采用了常规的Encoder-Decoder结构。

在Encoder和Decoder之间插入ConvLSTM模块，通过ConvLSTM对Encoder部分提取的Feature-map进行处理，提取有用的隐含历史信息。如下图所示：

在训练阶段，针对Tusimple数据集，将连续5帧作为输入，并在带有标注的最后一帧计算Loss。

在推理阶段，连续帧图像持续输入，每一帧图像经过处理都会输出对应的推理结果。

《CurveLane-NAS: Unifying Lane-Sensitive Architecture Search and Adaptive Point Blending》

论文链接

参考了Dense Prediction Based（分割的思路）和 Proposal Based（检测的思路）两种车道线检测的框架，以后者为基础，采用了NAS的方法，获得了一个更适合车道线检测任务的网络结构。

网络整体上可以分为以下几个部分：

特征提取及多尺度融合，在这两个阶段均引入了NAS的方法；
多尺度检测输出，以充分获取大范围内的全局结构特征，以及小范围内的精确定位
结果融合，采用一种叫做Adaptive Point Blending Search的方法（类似于一种NMS方法，将低层输出中位置精度回归较高的点逐步向高层输出替换，得到最后融合优化的车道线点输出）

而这篇文章还有一个重大的贡献，即发布了一个大规模的车道线检测公开数据集Curvelanes。在此之前，只有Tusimple和CULane，Curvelanes的体量跟CULane相当，场景更加多样化。

《Heatmap-based Vanishing Point boosts Lane Detection》

论文链接

网络整体上同样采用Encoder-Decoder结构，在车道线的预测Head以外，增加了一个Head，用于消失点的预测。

将消失点看做一种特殊的关键点，采用Heatmap的方式来预测。

通过这种方式，将消失点预测任务作为一种限制和引导因素，来优化车道线检测的结果。

车道线检测和消失点检测，两个任务有多种组合方式。

经试验，LD-mid-VP的结构，在CULane数据集上能够获得最好的结果。这种结构将特征提取阶段的输出和车道线预测的输出进行信息融合，再经过一些卷积层（mid部分）的处理后，输出消失点的预测结果。

从直观层面理解，人根据视觉判断消失点，也是根据车道线的位置关系，来推测消失点位置，具有一定的因果关系。因此把消失点预测任务后置，反过来也能够促进前端的车道线预测任务更好地收敛。

在此之前，还有一篇较有代表性的文章 VPGNet，同样是通过消失点来引导网络学习，以期获得更好的收敛效果。不同的是VPGNet是通过四象限分割的方式来定义消失点位置，感觉不如Heatmap的方式更加符合直觉。

《Lane Detection Model Based on Spatio-Temporal Network with Double ConvGRUs》

论文链接

整体思路与第一篇论文比较类似。都是Encoder+RNN+Decoder。结构如下图所示：

不同的是，它的RNN部分由两个ConvGRU组成，Front-ConvGRU和Middle-ConvGRUs。

Front-ConvGRU位于Encoder部分的第二个卷积模块之后。理论依据主要是认为视觉感知和记忆之间存在联系，因此在低层特征中引入RNN模块。

此处有一点没有理解，从文中给出的结构图看，FCGRU这个模块，并没有在前后帧的时序上产生联系（对比MCGRU的画法可以发现），连接关系类似一个普通的Conv模块，只有一个输入，一个输出。

我不确定是示意图画的问题，还是此处的GRU模块有什么特殊的用法。

按论文的说法，经FCGRU处理前后的Feature-map可视化结果。车道线特征更加明显突出。

Middle-ConvGRUs位于Encoder和Decoder部分之间，作用主要是用于提取连续帧输入的时序关联信息，与前文所说的ConvLSTM是类似的。

《RESA: Recurrent Feature-Shift Aggregator for Lane Detection》

论文链接

网络同样基于Encoder-Decoder结构进行改进。在Encoder和Decoder部分之间，插入RESA模块，增强空间结构信息在全局的传播能力。结构如下图所示：

同样的思路可以回溯到SCNN这篇文章。

同样是通过在Encoder-Decoder之间插入一个SCNN模块，来增强网络感知空间结构信息的能力。

按论文的说法，RESA模块比SCNN模块的效率要高，时间复杂度与尺度的关系为$log_2L$。

3. 总体趋势分析

总结近期车道线检测领域的论文，有如下一些发展趋势：

车道线检测的应用场景具有很明显的时序信息特征，为了利用到时序信息，通常采用Encoder-RNN-Decoder这样的网络架构，利用RNN模块，对Encoder提取的Features进行进一步加工，提取连续帧带来的历史信息。

可以参考人的视觉暂留现象，人在开车时观察车道线，能够自觉把虚线识别为一条空间上连续的线，也是利用了前后的时序信息。
在全图分割的思路以外，出现了一些以目标检测的思路来处理车道线检测问题的方法。

此处还有一篇较有代表性的文章 PINet，等读完之后进行补充。
除了车道线检测本身，通过增加一些额外的相关任务，引导网络更好地学习，来获得更好的效果。