论文:Foreground Segmentation Using a Triplet Convolutional Neural Network for Multiscale Feature Encoding

CCF C

SCI 3

2018年

摘要

场景中移动对象分割的常见方法是执行背景减法。在这个领域已经提出了几种方法。然而,它们缺乏处理各种困难场景的能力,例如照明变化、背景或相机运动、伪装效果、阴影等。为了解决这些问题,我们提出了一种基于编码器-解码器类型神经网络的方法。我们在编码器部分的三元组框架下采用预训练的卷积网络,即 VGG-16 Net,将多个尺度的图像嵌入到特征空间中,并在解码器部分使用转置卷积网络来学习特征映射空间到图像空间。我们仅使用少量训练样本来端到端训练该网络。我们的网络采用三种不同尺度的 RGB 图像,并为相应图像生成前景分割概率掩模。为了评估我们的模型,我们参加了 2014 年变更检测挑战赛 (changedetection.net),我们的方法的平均 F 测量值为 0.9770,优于所有现有的最先进方法。我们的源代码将在 https://github.com/limanggun/FgSegNet 上公开发布。

常见的场景移动中对象分割方法:

  1. 背景减除(Background Subtraction): 这是一种简单而常见的方法,它基于前景对象与背景之间的颜色、亮度或运动差异。如果一个像素的属性与背景相比有明显的不同,那么它就被标记为前景。这种方法在静止背景和相对简单的场景中效果较好。
  2. 光流(Optical Flow): 光流是一种估计图像中像素运动的技术。通过光流,你可以了解到视频帧之间的运动信息,从而帮助分割移动对象。
  3. 基于深度学习的方法: 使用深度学习技术,特别是卷积神经网络(CNNs),可以学习图像特征并进行语义分割。一些深度学习架构,如U-Net和Mask R-CNN,已经在图像分割任务中取得了良好的效果。
  4. 运动模型(Motion Models): 运动模型可以建模对象的运动轨迹,帮助预测对象在下一个时间步的位置。这种方法通常用于视频跟踪,但也可以与其他技术结合使用,以提高对象分割的准确性。
  5. 基于图像分割的方法: 图像分割算法,如GrabCut和分水岭算法,可以帮助将图像分割成不同的区域,从而实现对象分割。
  6. 结合多个传感器数据: 在一些应用中,可以使用多个传感器(如深度传感器、红外传感器)的数据来提高对象分割的精度,尤其是在复杂场景下。

这些方法可以单独使用或者结合使用,具体的选择通常取决于应用场景、数据质量和分割精度的要求。

从固定/非固定摄像机捕获的视频序列中分割运动对象是高效视频监控 [1]、人体跟踪 [2]、动作识别 [3, 4]、交通监控 [5]、运动估计的关键计算机视觉问题和异常检测应用[6]。分割场景中运动物体的常用方法是执行背景减法,其中运动物体被视为前景像素,非运动物体被视为背景像素。多年来,这种二元分类问题得到了广泛的研究和改进,并且同时提出了几种方法[7-15]。开发强大的背景减法算法面临许多挑战:突然或逐渐的照明变化、前景物体投射的阴影、动态背景运动(摇曳的树、雨、雪、空气湍流)、相机运动(相机抖动、相机平移-倾斜-缩放)、伪装或微妙区域,即前景像素和背景像素之间的相似性。然而,传统方法仅在某些特定类型的场景中表现良好,缺乏处理一般环境下问题的能力。考虑交通监控和视频监控领域;该方法应该在各种天气条件和上述挑战下以稳健的方式分割移动物体,独立于相机的定位。

在这项工作中,我们提出了一种稳健且灵活的方法,使用三元组 CNN 和附加在编码器-解码器结构末尾的转置卷积神经网络 (TCNN) 来进行移动对象分割。我们在三元组框架下调整 CNN 开头的预训练 VGG-16 网络 [28] 的前四个块作为我们的多尺度特征编码器,并在其末尾集成一个新颖的解码器网络,将特征映射到像素级前景概率图。然后,我们对该图应用阈值处理以获得二进制分割标签。据我们所知,这是第一个将该技术应用于运动对象分割问题的工作。与以前的方法相比,所提出的解决方案很简单,但产生了令人印象深刻的分割结果。我们使用最大的公开 CDnet2014 数据集 [29] 评估了我们的方法,其中包含像素级地面事实;测试结果表明,我们的方法在 11 个类别的平均 F 测量和平均 MCC 方面显着改进了之前的最佳方法(表 6)。从现在起,我们将把前景分割网络简称为 FgSegNet。

Related Works

在过去的几年中,在前景对象分割问题上提出了各种方法。这个问题可以重述为从图像序列中确定前景蒙版,其中蒙版区域指的是场景中的移动对象。为了从特定场景中提取前景蒙版,应该构建一个稳健且灵活的背景模型,该模型可以在图像序列的每一帧中使用来确定该场景的前景区域。

在经典的背景扣除方法中,给定的静态帧或前一帧被用作背景模型。虽然直观上是正确的,但这种方法对背景的动态变化非常敏感。为了更有效地对背景模型中的方差进行建模,采用了概率方法;最广泛使用的概率模型之一是高斯混合模型(GMM)[7]。 Stauffer 和 Grimson 使用混合高斯模型将每个像素建模为背景像素或前景像素,而不是将所有像素值建模为一个分布。在[30]中,Kaewtrakulpong和Bowden修改了[7]的更新方程以提高分割的准确性,并提出了一种阴影检测方案以使用现有的GMM来消除阴影。在[8]中,Zivkovic通过不断适应每个像素的高斯分布数量来改进GMM算法;与[8]相反,[7]使用固定数量的高斯分布。

至于非参数方法,在[9]中,Barnich和Van Droogenbroeck提出了一种基于像素的方法,称为ViBe,其中将当前像素值与样本集合中最接近的样本进行比较。该方法对于较小的相机移动和噪声具有鲁棒性。 Van Droogenbroeck 和 Paquot [10] 广泛研究并通过调整一些参数,对 ViBe 的原始工作提出了一些修改。圣查尔斯等人。 [11]还提出了一种将颜色强度和局部二进制字符串模式(LBSP)相结合的非参数方法,该方法能够检测伪装的物体并处理照明变化。他们还提出了一种基于单词模型的方法,称为 PAWCS [31]。通过使用颜色和纹理信息,像素的外观被注册为背景词,当它们持久时被认为是良好的表示模型。比安科等人。 [32]提出使用遗传编程从现有的变化检测方法中选择最佳方法并将它们结合起来,他们应用后处理技术来确定最终标签。

最近,许多研究人员提出了基于深度学习的方法,这些方法基于学习场景中的隐藏特征并使用这些特征分割视频序列中的前景对象。在[12]中,Braham 和 Van Droogenbroeck 提出了一种使用 CNN 的场景特定方法。更准确地说,是为特定场景构建单个背景模型。对于视频序列中的每一帧,提取以每个像素为中心的图像块,然后将它们与背景模型中的相应块组合。之后,这些组合的补丁被馈送到网络以预测前景像素的概率。他们使用一半的训练示例来训练他们的网络(通过考虑包含真实标签的帧的范围),并使用剩余的帧进行测试。该方法在 CDnet2014 数据集上实现了 0.9046† 的平均 F 测量。由于从每帧中提取了大量的补丁,他们的方法在计算上是昂贵的。相反,在[14]中,Wang 等人。提出了一种不使用任何背景模型的图像方法。他们通过手动选择使用 200 帧来训练场景特定网络,并且在 CDnet2014 数据集中的总体 F 测量值为 0.95†。 Babaee 等人没有针对特定场景训练网络。 [13]通过组合来自不同视频序列的训练帧来一次性训练他们的模型;特别是,包括每个视频序列中 5% 的帧。他们遵循与[12]中相同的训练过程,其中图像补丁与背景补丁相结合,然后馈送到网络。他们获得的 F 测量值为 0.7548†。最近,Sakkos 等人。 [15]使用 3D 卷积技术来跟踪视频序列中的时间变化,而在训练中不使用任何背景模型。他们的方法在 CDnet2014 数据集中的平均 F 测量为 0.9507†。