打开网络设置 创建一个新服务 Image pre-processing thus provides little impact on performance. These blocks typically overlap, meaning that each cell contributes more than once to the final descriptor. 具有很...django1.4 or later The image is divided into small connected regions called cells, and for the pixels within each cell, a histogram of gradient directions is compiled. Dalal, N., Triggs, B.: Histograms of oriented gradients for human detection. Gradients [-1 0 1] and [-1 0 1]T were good enough. 以基于线性SVM的人体检测为例,研究了鲁棒视觉目标识别的特征集问题。在回顾了现有的基于边缘和梯度的描述符之后,我们通过实验证明了方向梯度(HOG)描述符的直方图网格在人类检测方面明显优于现有的特征集。我们研究了计算的各个阶段对性能的影响,得出结论:在重叠描述符块中,细尺度梯度、细方向边距、相对粗的空间边距和高质量的局部对比度归一化都是获得良好结果的重要因素。新方法在原有MIT行人数据库的基础上实现了近乎完美的分离,因此我们引入了一个更具挑战性的数据集,其中包含1800多张带注释的人类图像,具有大范围的姿态变化和背景。我们在§2中简要讨论了之前关于人体检测的工作,在§3中概述了我们的方法,在§4中描述了我们的数据集,并在§5-6中对过程的每个阶段进行了详细的描述和实验评估。主要结论总结在§7中。关于物体检测有大量的文献,但这里我们只提到一些关于人类检测的相关论文。Papageorgiou等人的描述了一个基于多项式SVM的行人检测器,该检测器使用经过校正的Haar小波作为输入描述符,其中有一个基于部件(子窗口)的变量。Depoortere等人给出了这个[2]的优化版本。Gavrila & Philomen采用了更直接的方法,提取边缘图像,并使用倒角距离将它们匹配到一组学习样本。该方法已应用于实际的实时行人检测系统中。Viola等人构建了一种高效的移动人体检测器,利用AdaBoost训练出一系列基于类haar小波和时空差异的复杂区域抑制规则。Ronfard等人将基于SVM的一阶高斯滤波器和二阶高斯滤波器上的肢体分类器结合到动态规划框架中,构建了一个铰接体检测器,该框架类似于Felzenszwalb & Huttenlocher[3]和Ioffe & Forsyth。Mikolajczyk等人的使用组合的方向-位置直方图与二阈值梯度大小,建立了一个基于零件的方法,其中包含了人脸,头部,以及身体上下部分的正面和侧面轮廓的检测器。相比之下,我们的检测器使用了一个更简单的结构和一个单一的检测窗口,但似乎在行人图像上提供了更高的性能。本节概述了我们的特征提取链,如图1所示。实施细节推迟到第6章。该方法是基于对密集网格中图像梯度方向的良好归一化局部直方图的估计。在过去的十年中,类似的功能得到了越来越多的应用。其基本思想是,即使不知道相应的梯度或边缘位置,也可以通过局部强度梯度或边缘方向的分布较好地表征局部物体的外观和形状。实际上,这是通过将图像窗口分割成小的空间区域(“单元”)来实现的,因为每个单元在单元的像素上累积一个局部的梯度方向或边缘方向的一维直方图。组合的直方图条目形成表示形式。为了更好地保持光照、阴影等的不变性,在使用它们之前对局部响应进行对比归一化也是有用的。这可以通过在较大的空间区域(“块”)上累积局部直方图“能量”的度量,并使用结果对块中的所有单元格进行标准化来实现。我们将规范化描述符块称为面向梯度(HOG)描述符的直方图。将检测窗口与密集(实际上是重叠的)的HOG描述符网格平铺在一起,并在传统的基于SVM的窗口分类器中使用组合的特征向量,就得到了我们的人类检测链(见图1)。使用方向直方图有许多前体,但它只达到成熟时结合当地空间直方图和正常化Lowe的尺度不变特征变换(筛选)宽基线图像匹配方法,它提供了底层的图像块描述符匹配尺度不变的要点。sift风格的方法在这个应用程序中表现得非常好。形状上下文工作研究了替代单元格和块形状,尽管最初只使用边缘像素计数,而没有使用使表示如此有效的方向直方图。这些基于稀疏特征表示的成功在某种程度上掩盖了HOG作为密集图像描述符的强大功能和简单性。我们希望我们的研究将有助于纠正这一点。特别是,当前我们的非正式的实验表明,即使是最好的基于关键点的方法有可能误判率至少1 - 2个数量级高于我们人类密集的网格方法检测,主要是因为没有一个关键点检测器,我们都知道可靠地检测人体结构。HOG/SIFT表示有几个优点。它捕获或边缘梯度结构局部形状的特点,和在当地的代表它容易可控程度的局部几何和光度转换不变性:平移或旋转进行小差异,如果他们要小得多,当地的空间容器大小或方向。对于人体检测来说,相对粗糙的空间采样、精细的方位采样和强大的局部光度归一化是最好的策略,这可能是因为它允许肢体和身体部分在保持大致垂直方向的情况下改变外观和从一边到另一边移动很多。为了量化检测器性能,我们绘制了log-log尺度上的检测误差权衡(DET)曲线,即失误率(1 - Recall或(FalseNeg+TruePos)/FalseNeg)与FPPW之间的关系。数值越低越好。它们与接收机的工作特性(ROC)呈现相同的信息,但更容易区分小概率。我们经常使用漏报率为10 - 4FPPW作为结果的参考点。这是任意的,但不超过,例如,ROC曲线下面积。在多尺度检测器中,它对应的原始错误率约为每640×480幅测试图像的0.8个假正性。(由于非最大抑制,全检测器的假阳性率更低)。我们的DET曲线通常是很浅的,所以即使是非常小的脱靶率的改善,也相当于在恒定脱靶率下FPPW的大幅提高。例如,对于我们的默认检测器,在1e-4 FPPW时,每1%的绝对(9%的相对)失误率降低,就相当于将恒定失误率下的FPPW降低1.57倍。在给出详细的实现和性能分析之前,我们将最后的HOG检测器的总体性能与其他一些现有方法进行比较。将基于矩形(R-HOG)或圆形log-polar (C-HOG)块和线性或核支持向量机的检测器与我们实现的Haar小波、PCA-SIFT和形状上下文方法进行了比较。简单地说,这些方法如下:现在我们给出了HOG实现的细节,并系统地研究了各种选择对检测器性能的影响。在本节中,我们将结果引用到我们的默认检测器,它具有以下属性,描述如下:RGB颜色空间,没有伽玛校正;[- 1,0,1]不平滑梯度滤波器;线性梯度投票进入9个方向箱在0◦-180◦;16×16像素块,4个8×8像素单元;高斯和σ= 8像素空间窗口;L2- hys (Lowe-style clipped L2 norm)块标准化;块间距步长为8像素(因此每个单元格的覆盖率为4倍);64×128检测窗口;线性支持向量机分类器。图4总结了各种参数对总体检测性能的影响。下面将详细讨论这些问题。主要结论是,为了获得良好的性能,应该使用精细的尺度导数(本质上没有平滑)、许多方向箱以及中等大小、强规范化、重叠的描述符块。我们评估了几种输入像素表示,包括灰度、RGB和实验室颜色空间,可选地使用幂律(gamma)均衡。这些规范化对性能的影响很小,可能是因为后续的描述符规范化也会得到类似的结果。我们确实在可用时使用颜色信息。RGB和实验室的颜色空间给出了类似的结果,但是限制在灰度范围内会在10 - 4 FPPW时降低1.5%的性能。每个颜色通道的平方根伽马压缩在低FPPW时提高性能(在10 - 4 FPPW时提高1%),但是对数压缩太强,在10 - 4 FPPW时降低2%。检测器的性能对梯度的计算方法很敏感,但是最简单的方案是最好的。我们测试了使用高斯平滑和几个离散导数掩模之一计算的梯度。几个平滑尺度测试包括σ= 0(没有)。测试的掩模包括各种一维点导数(无中心的[- 1,1]、中心的[- 1,0,1]和立方校正的[1,- 8,0,8,- 1]),以及3×3 Sobel掩模和2×2对角掩模([[0,1][-1,0]],[[-1,0][0,1]])(最紧凑的中心二维导数掩模)。简单的一维[−1,0,1]掩膜σ= 0时效果最好。使用更大的面具似乎总是降低性能和平滑损害明显:高斯偏差,从σ= 0σ= 2减少召回率从89%到80%在10−4 FPPW。σ= 0,立方修正一维宽度5过滤器是大约1%比[−1,0,1]10−4 FPPW,而2×2对角面具是1.5%更糟。使用非中心的[- 1,1]导数掩模也会降低性能(在10 - 4 FPPW时降低1.5%),这可能是因为基于不同中心的x和y滤波器会影响方向估计。下一步是描述符的基本非线性。每个像素根据以其为中心的梯度元素的方向计算边缘方向直方图通道的加权投票,然后将投票累积到局部空间区域上的方向箱中,我们称之为单元格。单元格可以是矩形的,也可以是径向的(对数极扇区)。定位箱的平均间隔超过0◦-180◦(“unsigned”梯度)或0◦-360◦(“签字”梯度)。为了减少混叠,在相邻的bin中心之间在方向和位置上双线性插值。投票是像素处梯度大小的函数,要么是大小本身、大小的平方、大小的平方根,要么是表示像素处边缘是否存在的大小的剪切形式。在实践中,使用大小本身可以得到最好的结果。取平方根会略微降低性能,而使用二进制边缘存在投票会显著降低性能(在10 - 4 FPPW时降低5%)。事实证明,良好的性能需要良好的定向编码,而(参见下面)空间绑定可能相当粗糙。如图4(b)所示,增加方向箱的数量可以显著提高性能,最多可达到9个左右,但除此之外几乎没有什么不同。这是为间隔超过0◦-180◦,即'标志'梯度被忽略的垃圾箱。包括有符号的梯度(方向范围0◦-360◦,在原来的SIFT描述符)降低性能,即使是当箱子的数量也增加了一倍,以保持原来的方向分辨率。对于人类来说,服装和背景颜色的广泛变化可能使对比的迹象缺乏信息。但是请注意,在其他一些对象识别任务中,如汽车、摩托车,包含标识信息确实有很大的帮助。由于光照和前背景对比度的局部变化,梯度强度的变化范围很广,因此有效的局部对比度归一化对良好的性能至关重要。我们评估了许多不同的标准化方案。它们大多是基于将细胞分组成更大的空间块,并分别对每个块进行对比归一化。正常化最后的描述符是来自检测窗口中所有块的标准化单元响应的所有组件的向量。实际上,我们通常会重叠这些块,以便每个标量单元响应都向最终描述符向量贡献几个组件,每个组件都针对不同的块进行标准化。这可能看起来有些多余,但是良好的标准化是至关重要的,包括重叠可以显著提高性能。图4 (d)表明,性能增加4% 10−4 FPPW当我们从没有增加重叠(跨16)16倍面积/ 4倍线性覆盖(第4步)。我们评估两类块几何图形,正方形或长方形的正方形或长方形的空间细胞划分网格,和圆形块划分为细胞log-polar时尚。我们将把这两种安排称为R-HOG和C-HOG(用于矩形和圆形HOG)。增加额外的径向箱对性能的影响不大,而增加角箱的数量会降低性能(当从4个角箱增加到12个角箱时,在10 - 4 FPPW时降低1.3%)。4个像素是中央箱子的最佳半径,但是3和5给出了相似的结果。将膨胀系数从2增加到3,性能基本保持不变。在这些参数下,高斯空间加权和单元面积对单元投票的逆加权都不会改变性能,但两者结合后性能略有下降。这些值假定有良好的方向抽样。形状上下文(一个方向箱)需要更精细的空间细分才能很好地工作。为了阐明这一点,考虑具有重叠块的R-HOG检测器。训练后的线性支持向量机的系数给出了每个块的每个单元在最终判别决策中的权重。仔细观察图6(b,f)可以发现,最重要的细胞是那些典型地包含人体主要轮廓(尤其是头部、肩膀和脚)的细胞,这些细胞归一化了位于轮廓外的w.r.t.块。换句话说,尽管在我们的训练集中常见的背景是复杂而杂乱的,但探测器的线索主要是轮廓线与背景的对比,而不是内部边缘或轮廓线与前景的对比。有图案的衣服和姿势的变化可能会使内部区域作为线索变得不可靠,或者平滑的阴影和阴影效果可能会混淆前向轮廓的过渡。类似地,图6(c,g)说明,人体内的梯度(尤其是垂直方向的梯度)通常被视为负面线索,这可能是因为这抑制了长竖线触发垂直头部和腿部细胞的假阳性。我们的64×128检测窗口包括大约16像素的边缘周围的人四面八方。图4(e)显示,该边框提供了大量有助于检测的上下文。将其从16像素降低到8像素(48×112检测窗口),在10 - 4 FPPW时性能降低4%。保留一个64×128的窗口,但是增加其中的人员大小(再次减少边框)会导致类似的性能损失,即使人员的分辨率实际上增加了。默认情况下,我们使用一个软(C=0.01)线性SVM训练与SVMLight[10](略有修改,以减少内存使用的问题,与大稠密描述符向量)。使用高斯核支持向量机在10 - 4 FPPW时性能提高约3%,但代价是运行时间大大提高。总的来说,这项工作有几个值得注意的发现。HOG大大优于小波和之前任何重要程度的平滑计算梯度损害HOG结果强调多可用的图像信息来自突然在细尺度边缘,这模糊的减少空间位置的敏感性是一个错误。相反,梯度应该在当前金字塔层中可用的最细尺度上计算,并进行校正或用于定向投票,然后才在空间上进行模糊处理。因此,相对粗糙的空间量化就足够了(6-8像素宽的细胞/一个肢体宽度)。另一方面,至少对于人类检测来说,精确地定位样本是有好处的:在这里,小波和形状上下文都丢失了很多。其次,强烈的局部对比度归一化是获得良好效果的必要条件,传统的中心环绕样式方案并不是最佳选择。对于不同的局部支撑,对每个元素(边缘、单元)进行多次归一化,并将结果作为独立的信号处理,可以得到更好的结果。在我们的标准检测器中,每个HOG细胞出现四次,并以不同的正常化,包括这个“冗余”信息,提高性能从84%到89%在10 - 4 FPPW。我们已经证明,在密集重叠的网格中,使用类似SIFT描述符的梯度方向局部归一化直方图特征,对人的检测效果非常好,相对于最优的基于haar小波的检测器,假阳性率降低了一个数量级以上。我们研究了各种描述符参数的影响,得出结论:在重叠的描述符块中,细尺度梯度、细方向边距、相对粗的空间边距和高质量的局部对比度归一化对性能都很重要。我们还引入了一个新的、更具挑战性的行人数据库,该数据库是公开的。在TensorFlow中,最常用的可视化方法有三种途径,分别为TensorFlow与OpenCv的混合编程、利用Matpltlib进行可视化、利用TensorF...版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。 版权声明:博主原创文章,微信公众号:素质云笔记,转载请注明来源“素质云博客”,谢谢合作!! ...数据系统的核心就是两件事,读和写,当数据量还少的时候,读写的性能不会有明显区别,随着数据量的增大,读写变成了一个trade-off,当你拥有优秀的写性能时,读数... MD5
Gntm Wer Ist Im Finale, Was Sind Fraktionen, Bts Membership Vorteile, Miraculous Luka Fanfiction, Ihm Zu Folge Duden, Sky News Corona, Pavillon Aldi Süd 2020,
histograms of oriented gradients for human detection