视觉定位论文85

杭州共生网络 2023-1-21 15:24 5464人围观定位

Paper #85

题目：

Deep Visual Geo-localization Benchmark

深度视觉地理定位基准

出书来历：CVPR， 2022

摘要：

In this paper, we propose a new open-source benchmarking framework for Visual Geo-localization (VG) that allows to build, train, and test a wide range of commonly used architectures, with the flexibility to change individual components of a geo-localization pipeline. The purpose of this framework is twofold: i) gaining insights into how different components and design choices in a VG pipeline impact the final results, both in terms of performance (recall@N metric) and system requirements (such as execution time and memory consumption); ii) establish a systematic evaluation protocol for comparing different methods. Using the proposed framework, we perform a large suite of experiments which provide criteria for choosing backbone, aggregation and negative mining depending on the use-case and requirements. We also assess the impact of engineering techniques like pre/post-processing, data augmentation and image resizing, showing that better performance can be obtained through somewhat simple procedures: for example, downscaling the images’ resolution to 80% can lead to similar results with a 36% savings in extraction time and dataset storage requirement. Code and trained models are available at dataset storage requirement. https://deep-vg-bench.herokuAPP.com/

引言

按照一组先前拜候过的地址大略估量照片拍摄地址的使命称为视觉(图像)地理定位(VG)或视觉位置识别（VPR）。在已知位置的图像数据库上，操纵图像婚配和检索方式来处理该题目。
ii)缺少练习和测试VG模子的标准化框架。

针对题目

我们正目击这一研讨范畴的敏捷成长，但它今朝存在两大首要限制：
i)专注于单一目标优化，由于凡是的做法是只按照所选数据集的召回率来比力成果，而疏忽了其他身分，如履行时候、硬件需求和可伸缩性。
ii)缺少练习和测试VG模子的标准化框架。

提出的方式

在本文中，我们为可视化地理定位(VG)提出了一个新的开源基准测试框架，该框架答应构建、练习和测试普遍的常用架构，并具有变动地理定位管道的单个组件的灵活性。该框架的目标有两个:i)深入领会VG（视觉地理定位）管道平分歧的组件和设想挑选若何影响终极成果，包括性能(recall@N metric)和系统需求(如履行时候和内存消耗); ii)建立系统的评价计划，对分歧方式停止比力。利用提出的框架，我们停止了大量的尝试，按照用例和需求供给了挑选主干、聚合和负挖掘的标准。

尝试成果

我们还评价了工程技术的影响，如预处置/后处置、数据增强和图像调剂巨细，表白可以经过一些简单的法式获得更好的性能:例如，将图像分辨率下降到80%可以获得类似的成果，在提取时候和数据集存储需求上节省36%。

单元：

Politecnico di Torino；CINI；NAVER LABS Europe；Czech Technical University in Prague；

进献：

论文内容：

摘要图：

整体收集结构

Figure 1. Diagram of a visual geo-localization system.

在全部工作进程中，我们严酷而公道地分析了视觉地理定位系统的每个组件(浅蓝色块)，比力了各类分歧的实现，包括练习和测试时候。

VG使命凡是利用图像检索管道来处置:给定一个要停止地理定位的新照片(查询)，经过将其与带有地理标志的图像数据库停止婚配来估量其位置。是以，VG系统是一种算法，它首先为数据库图像(离线)和查询照片(在线)提取描写符，然后在描写符空间中利用比来邻搜索。

这个笼统模子包括几个可以在练习和测试时代点窜的组件:

backbone
feature aggregation
mining training examples
image resizing
data augmentation

数据集

Table 2. Summary of the datasets

“panorama”是指从360°全景(包括不失真)中裁剪的图像;“front-view”指的是只要一个(朝前的)视图可用;“phone”指的是用智能手机收集的照片。“panorama”和“front-view”图像是用汽车车顶的摄像头拍摄的。∗变分辨率。

尝试

1.CNN Backbones

CNN主干的使命是从图像中提取信息丰富的特征映照，它代表任何VG系统的一个根基组件。为了领会其影响，我们对四个CNN主干(VGG16、ResNet-18、ResNet-50和ResNet-101)停止了尝试，并连系了两种风行的聚合方式GeM和NetVLAD。

Table 3. Results and computational requirements with different convolutional backbones.

提取时候是1000次的均匀值。

2. Aggregation and Descriptor Dimensionality

聚合方式是负责处置主干的输出特征的层。多年来，人们提出了很多这样的方式，从浅池层到更复杂的模块

Table 4. Aggregation methods

我们报告了分歧的聚合方式的成果，缩小或扩大到等效的维度。

3. Visual Transformers

研讨Visual transformer与VG中更传统的基于cnn的方式的比力。
对于这个分析，我们利用两种风行的Transformer系统结构:视觉Transformer(ViT)，它经过将图像朋分红扁平的2D补钉序列来处置图像，以及松散卷积Transformer(CCT)，它包括卷积层以插入cnn的归纳偏移。

Table 5 传统CNN架构与基于transformer的新方式的比力。

总的来说，成果表白这些系统结构比CNN具有更好的泛化才能，而且ViT被证实即使与更大的NetVLAD描写符相比也具有合作力，虽然计较需求更高。
这些系统结构的首要限制是缺少周全的最好设置。换句话说，对于每个case，都需要对在那里截断/解冻(truncate/freeze)收集停止额外的调优，这与始终利用到其conv4层的cnn分歧

4. Negative Mining

VG pipeline中的一个重要步调是挖掘negatives:理想情况下，我们希望挑选与查询在视觉上类似的分歧场景的图像，以确保模子为使命进修到信息丰富的特征。

Table 6. Negative mining methods.

”Space & Time Complexity” 指的是构建缓存的复杂度，凡是是在迭代跨越1000个三元组以后完成的.#db和#q是数据库和查询图像的数目，KDB和kq是挑选的常量(凡是设备为1000)，#pos是斟酌的查询的正数，这取决于查询和数据库密度。

5. Data Augmentation

研讨哪些数据增强对VG方式是有益的，以及这些改良是特定于范畴的，还是可以推行到分歧的数据集。我们对查询利用数据扩大，唯一的破例是随机水平翻转，我们翻转或不翻转全部三元组。我们用很多风行的增强技术停止尝试，用NetVLAD在Pitts30k上练习一个ResNet-18。

Figure 2. Data Augmentation.

在练习中利用风行的增强技术获得的成果。我们利用PyTorch的转换，x轴与传递给类的参数相关;参数越高，变更结果越重(即x = 0即是恒等变更)。
会商：一方面，在匹兹堡30k上的增强只会恶化成果，能够是由于练习和测试之间的数据集同质性；另一方面，我们看到一些技术可以进步不偏见数据集的鲁棒性，出格是改变亮度、对照度和饱和度的色彩发抖方式。例如，将contrast（对照度）设备为2可以使recall@1在MSLS上进步3%以上，在Tokyo 24/7上进步5%，St Lucia上提升5%，Pitts30k高低降1%。
虽然大大都增强都不能发生分歧的改良，但有两个明显的破例:随机水平翻转(几率为50%)和随机缩放(作物最小为图像巨细的50%，然后缩放到全分辨率)。

6. Resize

虽然普通VG数据集的图像分辨率在480x640像素左右，但研讨调剂它们的巨细会若何影响成果是很风趣的。

Figure 3. Changing the images’ resolution.

x轴是练习和测试分辨率(N%)， y轴是recall@1。从曲线上看，红色代表ResNet-50 + NetVLAD，橙色代表ResNet18 + NetVLAD，绿色代表ResNet-50 +GeM，蓝色代表ResNet-18 +GeM。在很多情况下，完全分辨率不是最好挑选。NetVLAD的初始集群计较在低分辨率时中断。
从图3中可以看出，在大大都情况下，利用最高的可用分辨率是过剩的，甚至经常是有害的。一般来说，NetVLAD的描写符似乎比GeM的同类产物更好地处置更高的分辨率。
较低的分辨率(低至40%)显现出更好的成果，出格是当练习集和测试集之间的域差异较大时：St Lucia数据集上的成果证实了这一点，它与Pitts30k数据集很是分歧(前者只要正向视图)，在利用原始分辨率的40%时显现出最好的R@1性能。这类行为可以诠释为，当图像的巨细减小时，范畴特定的低级形式(例如，纹理和叶子)的消失。总的来说，60%是一个很好的折衷计划，这表白对于地理定位来说，它与基于表面的检索亲近相关，纤细的细节并不太重要。

7. Nearest Neighbor Search and Inference Time

推理时候首要由1）extraction time和 2）matching time组成。

Figure 4. (a) Matching time for one query. (b) Analysis of the Recall-Speed-Memory trade-off using optimized indexing techniques for neighbor search.

（a）Matching time for one query. 在切确搜索的情况下，数据库的巨细和特征的维度具有线性依靠性。红线为ResNet-101 + GeM的图像提取时候;上面的瓶颈是婚配时候，下面的瓶颈是提取时候。按照经历，假如数据库巨细乘以特征维数跨越200M, kNN将成为瓶颈。
(b)利用优化的索引技术分析邻域搜索的召回-速度-内存权衡。点指的是ResNet-50 + GeM(特长)。在匹兹堡30k上练习。x轴是数据集合一切查询的婚配时候(以秒为单元)，y轴是recall@1。点旁边的数字代表 RAM需求(以MB为单元)。
这些观察成果使得切确搜索的利用几近是不公道的，而且证实了(i)召回率不应当是斟酌的唯一目标(ii)对于现实利用，近邻搜索的优化是一个不成轻忽的关键身分。

会商和发现

Architecture：CCT与NetVLAD相连系的综合结果最好。
Negative mining：部分挖掘可以发生与完全挖掘类似甚至更好的性能，但(计较)本钱只要一小部分。
Training dataset：利用具有普遍条件和从很是分歧的城市收集的大范围练习集，会发生明显更好的成果，证实了练习集的重要性。
Image size and data augmentation：数据增强凡是是有帮助的，色彩发抖增强的有用性高度依靠于数据集，而水平翻转和调剂巨细的裁剪在一切情况下都供给了稍微但分歧的增强。利用全分辨率的图像(480x640)凡是是过剩的—将图像缩小到60%不但削减了flop，而且均匀会发生相当(偶然更好)的成果。
Inference time and kNN search：挑选一个好的近邻搜索算法可以对时候和内存占用有庞大的影响，而对性能的影响很小。先辈的kNN方式可以消除大描写符和小描写符之间在内存占用和婚配时候方面的差异。

范围性：

虽然我们的框架具有模块化和多功用性，但它也有一些范围性，例如，它专注于在室外城市情况中，VG方式只处理了从单幅图像停止视觉地理定位的使命，没有尝试分析方式的视点和光度稳定性(如^[1]所做的)。此外，一些近期的SOTA工作^[2]^[3]尚未实现，一些更新的损失尚未与停止比力。但是，我们计划继续支持软件和网站，扩大它们来评价更多的技术和用例，并观察更多的元素

参考

^Mubariz Zaffar, Sourav Garg, Michael Milford, Julian Kooij, David Flynn, Klaus McDonald-Maier, and Shoaib Ehsan. VPR-Bench: An open-source visual place recognition evaluation framework with quantifiable viewpoint and appearance change. International Journal of Computer Vision, 129(7):2136–2174, 2021. 1, 2, 4, 8
^Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, and Hongsheng Li. Self-supervising fine-grained region similarities for large-scale image localization. In Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, pages 369–386, Cham, 2020. Springer International Publishing. 1, 2, 8
^Guohao Peng, Jun Zhang, Heshan Li, and Danwei Wang. Attentional pyramid pooling of salient visual residuals for place recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 885–894, October 2021. 4, 8