如何在不同摄像头里识别行人?多层相似度感知CNN网络解析家用摄像机

2018年12月24日 20:08来源:分分彩手机版

如何在不同摄像头里识别行人?多层相似度感知CNN网络解析

2018-08-10 11:11 来源:阿里技术 设计 /摄像头 /分数

原标题:如何在不同摄像头里识别行人?多层相似度感知CNN网络解析

阿里妹导读:行人重识别是指给定一个摄像头下某个行人的图片,在其他摄像头对应的图片中准确地找到同一个人。行人重识别技术有十分重要的科研和实际应用价值,近来广泛应用到交通、安防等领域,对于创建平安城市、智慧城市具有重要的意义。可能有人会说“人脸技术”的应用已经很成熟了,然而在复杂的实际场景中,由于低分辨率、遮挡、不同角度等各种原因,“人脸”很难看清。因此,利用人的全身信息来做检索就变得非常有必要。 本篇论文收录于ACM MM 2017(多媒体领域世界顶级会议),提出了全新的基于 CNN 的行人重识别方法,接下来,我们一起进行深入思考。

作者:申晨、金仲明、赵一儒、付志航、蒋荣欣、陈耀武、华先胜

摘要

行人重识别(person re-ID)的目的是识别多个摄像头视角中的相关行人,这项任务在计算机视觉社区中已经得到了越来越多的关注。我们在本论文中提出了一种基于卷积神经网络(CNN)和多级相似度感知的全新深度孪生架构。根据不同特征图的不同特性,我们有效地在训练阶段将不同的相似度约束应用到了低层级和高层级特征图上。因此,我们的网络可以有效地学习不同层级的有判别性的(discriminative)特征表征,这能显著提升 re-ID 的表现。

此外,我们的框架还有另外两个优势。第一,可以轻松地将分类约束整合到该框架中,从而形成一个带有相似度约束的统一的多任务网络。第二,因为相似度的信息已经通过反向传播被编码在了该网络的学习参数中,所以在测试时并不必需成对的输入。这就意味着我们可以提取每张图库图像的特征并以一种离线的方式来构建索引,这对大规模真实世界应用而言至关重要。我们在多个有挑战性的基准上进行了实验,结果表明我们的方法相比于当前最佳方法表现出色。

1 引言

行人重识别(person re-ID)的目的是匹配一个行人在多个无交集的摄像头视角中的图像,这项任务凭借其研究和应用价值正获得越来越大的关注。但是,行人重识别仍然是一项非常具有挑战性的任务,因为不同身份实体之间的外观可能差异不大(见图 1(a)),而同一身份实体在不同光照、视角和部分遮挡(见图 1(b)、1(c)、1(d))情况下又可能差异很大。

如何在不同摄像头里识别行人?多层相似度感知CNN网络解析家用摄像机

图 1:行人重识别的各种复杂性示意图,来自 CUHK03 数据集的。绿框表示同一个身份,而红框则表示不同的身份。(d) 中的粉色框标示了一个突出的局部图案(手提袋),由于部分遮挡这很容易丢失。

从技术上讲,行人重识别有两大基本组成:特征表征和距离度量。最近,基于 CNN 的深度学习方法已经在行人重识别上表现出了出色的优越性,因为它能够联合学习复杂的特征表征和可区分的距离度量。

在本论文中,我们提出了一种全新的基于 CNN 的行人重识别方案,称为多级相似度感知卷积神经网络(MSP-CNN)。在训练阶段,我们会使用一种孪生模型(Siamese model),其使用图像对作为输入,并且所有图像都要经过同样的共享参数的深度 CNN 网络的处理。该基准网络是精心设计的,其中使用了非常小的卷积过滤器和 Inception 模块。接下来,我们深入思考了如何有效地将相似度约束应用到不同的特征图上。

图 2 给出了我们提出的网络在训练阶段的整体架构。图 3 给出了该网络在测试阶段的整体架构。

如何在不同摄像头里识别行人?多层相似度感知CNN网络解析家用摄像机

图 2:训练阶段的多任务框架示意图。具体说明一下,我们在低层级的 Pool1 层和高层级的 FC7 层分别优化相似度约束。正例(或负例)图像的 Pool1 层特征图上的紫色区域表示在获取局部形义模式时互相关所使用的宽搜索区域。另外也同时使用了 softmax 损失来优化分类约束,M 表示行人身份实体的数量。

如何在不同摄像头里识别行人?多层相似度感知CNN网络解析家用摄像机

图 3:测试时间的网络架构

因此,我们的工作有三大关键优势和主要贡献。

我们提出了一种用于行人重识别的全新孪生模型,并且创新地在不同的特征图上应用了相应的距离度量。这种多级相似度感知机制能巧妙地匹配不同层级特征图的特性并显著提升表现。

我们使用了一种多任务架构来同时优化分类约束和相似度约束。多任务学习可以在解决多个相关任务的同时实现知识共享,从而将两者的优势组合到一起。

在测试时间,我们可以避免成对输入的时间低效的流程并且可以提取图像特征来事先构建索引,这对于大规模真实世界应用场景而言至关重要。

2 我们提出的方法

2.1 方法概述借鉴[1]中提出的用于行人重识别的网络结构,我们精心设计了一个基于CNN的基础骨架网络,并期望它能仅使用单个 softmax 损失就得到优于大多数已有深度学习框架的强大基准结果。为了适应大多数行人图像的尺寸(通常很小而且不是正方形的),所有的输入图像都重新调整为 160×64 大小,并且为了数据增强而随机裁剪为 144×56 大小。

然后,我们从一种互补的角度考虑了相似度约束,并构建了一种分类任务的多任务架构。这种设计的目的是兼取二者之长,即充分利用行人重识别标注以及正例负例对之间相似度相当的信息。为了利用不同层级的特征图的相关性信息来更好地描述相似度约束(之前的大多数研究都忽略了这一点),我们可视化了我们的基本 CNN 分类网络所学习到的某些典型层的特征图。

如图 4 所示,低层级特征图的响应通常很密集并且反映了局部形义区域。比如,来自 Conv1 层 #0 通道的特征会强烈响应黑色区域(头发和裤子),而来自 Conv2 层 #9 通道的特征则重点强调明亮的白色区域(短袖衫)。这种现象也可以根据 Pool1 层的特征图进行验证。随着层越来越深,它们的特征图也会逐渐变得稀疏,而且往往会编码更加抽象的全局特征。比如,Inception(1a) 层的某些通道仍然反映的是局部形义区域(红色背包,#11),但大部分通道反映的都非常稀疏(#91)。其内部机制是:低层级卷积层所得到的可区分的局部特征会传播给高层级层(尤其是全连接层),这些特征会变得抽象并形成全局表征。

如何在不同摄像头里识别行人?多层相似度感知CNN网络解析家用摄像机

本文地址:http://www.zgsxc.com/pingtaifenfencai/20181224/1127.html 转载请注明出处!

大家都在看更多>>

今日热点资讯