首页 网站首页 商业信息 定位 查看内容

视觉定位论文85

杭州共生网络 2023-1-21 15:24 5464人围观 定位

Paper #85

题目:

Deep Visual Geo-localization Benchmark

深度视觉地理定位基准

出书来历:CVPR, 2022

摘要:

In this paper, we propose a new open-source benchmarking framework for Visual Geo-localization (VG) that allows to build, train, and test a wide range of commonly used architectures, with the flexibility to change individual components of a geo-localization pipeline. The purpose of this framework is twofold: i) gaining insights into how different components and design choices in a VG pipeline impact the final results, both in terms of performance (recall@N metric) and system requirements (such as execution time and memory consumption); ii) establish a systematic evaluation protocol for comparing different methods. Using the proposed framework, we perform a large suite of experiments which provide criteria for choosing backbone, aggregation and negative mining depending on the use-case and requirements. We also assess the impact of engineering techniques like pre/post-processing, data augmentation and image resizing, showing that better performance can be obtained through somewhat simple procedures: for example, downscaling the images’ resolution to 80% can lead to similar results with a 36% savings in extraction time and dataset storage requirement. Code and trained models are available at dataset storage requirement. https://deep-vg-bench.herokuAPP.com/
  • 引言
按照一组先前拜候过的地址大略估量照片拍摄地址的使命称为视觉(图像)地理定位(VG)或视觉位置识别(VPR)。在已知位置的图像数据库上,操纵图像婚配和检索方式来处理该题目。
ii)缺少练习和测试VG模子的标准化框架。
  • 针对题目
我们正目击这一研讨范畴的敏捷成长,但它今朝存在两大首要限制:
i)专注于单一目标优化,由于凡是的做法是只按照所选数据集的召回率来比力成果,而疏忽了其他身分,如履行时候、硬件需求和可伸缩性。
ii)缺少练习和测试VG模子的标准化框架。
  • 提出的方式
在本文中,我们为可视化地理定位(VG)提出了一个新的开源基准测试框架,该框架答应构建、练习和测试普遍的常用架构,并具有变动地理定位管道的单个组件的灵活性。该框架的目标有两个:i)深入领会VG(视觉地理定位)管道平分歧的组件和设想挑选若何影响终极成果,包括性能(recall@N metric)和系统需求(如履行时候和内存消耗); ii)建立系统的评价计划,对分歧方式停止比力。利用提出的框架,我们停止了大量的尝试,按照用例和需求供给了挑选主干、聚合和负挖掘的标准。
  • 尝试成果
我们还评价了工程技术的影响,如预处置/后处置、数据增强和图像调剂巨细,表白可以经过一些简单的法式获得更好的性能:例如,将图像分辨率下降到80%可以获得类似的成果,在提取时候和数据集存储需求上节省36%。

单元:

Politecnico di Torino;CINI;NAVER LABS Europe;Czech Technical University in Prague;

进献:

论文内容:

摘要图:

整体收集结构




Figure 1. Diagram of a visual geo-localization system.

在全部工作进程中,我们严酷而公道地分析了视觉地理定位系统的每个组件(浅蓝色块),比力了各类分歧的实现,包括练习和测试时候。

VG使命凡是利用图像检索管道来处置:给定一个要停止地理定位的新照片(查询),经过将其与带有地理标志的图像数据库停止婚配来估量其位置。是以,VG系统是一种算法,它首先为数据库图像(离线)和查询照片(在线)提取描写符,然后在描写符空间中利用比来邻搜索。

这个笼统模子包括几个可以在练习和测试时代点窜的组件:

  1. backbone
  2. feature aggregation
  3. mining training examples
  4. image resizing
  5. data augmentation

数据集




Table 2. Summary of the datasets

“panorama”是指从360°全景(包括不失真)中裁剪的图像;“front-view”指的是只要一个(朝前的)视图可用;“phone”指的是用智能手机收集的照片。“panorama”和“front-view”图像是用汽车车顶的摄像头拍摄的。∗变分辨率。

尝试

1.CNN Backbones

CNN主干的使命是从图像中提取信息丰富的特征映照,它代表任何VG系统的一个根基组件。为了领会其影响,我们对四个CNN主干(VGG16、ResNet-18、ResNet-50和ResNet-101)停止了尝试,并连系了两种风行的聚合方式GeM和NetVLAD。



Table 3. Results and computational requirements with different convolutional backbones.

提取时候是1000次的均匀值。

2. Aggregation and Descriptor Dimensionality

聚合方式是负责处置主干的输出特征的层。多年来,人们提出了很多这样的方式,从浅池层到更复杂的模块



Table 4. Aggregation methods

我们报告了分歧的聚合方式的成果,缩小或扩大到等效的维度。

3. Visual Transformers

研讨Visual transformer与VG中更传统的基于cnn的方式的比力。
对于这个分析,我们利用两种风行的Transformer系统结构:视觉Transformer(ViT),它经过将图像朋分红扁平的2D补钉序列来处置图像,以及松散卷积Transformer(CCT),它包括卷积层以插入cnn的归纳偏移。



Table 5 传统CNN架构与基于transformer的新方式的比力。

总的来说,成果表白这些系统结构比CNN具有更好的泛化才能,而且ViT被证实即使与更大的NetVLAD描写符相比也具有合作力,虽然计较需求更高。
这些系统结构的首要限制是缺少周全的最好设置。换句话说,对于每个case,都需要对在那里截断/解冻(truncate/freeze)收集停止额外的调优,这与始终利用到其conv4层的cnn分歧

4. Negative Mining

VG pipeline中的一个重要步调是挖掘negatives:理想情况下,我们希望挑选与查询在视觉上类似的分歧场景的图像,以确保模子为使命进修到信息丰富的特征。



Table 6. Negative mining methods.

”Space & Time Complexity” 指的是构建缓存的复杂度,凡是是在迭代跨越1000个三元组以后完成的.#db和#q是数据库和查询图像的数目,KDB和kq是挑选的常量(凡是设备为1000),#pos是斟酌的查询的正数,这取决于查询和数据库密度。

5. Data Augmentation

研讨哪些数据增强对VG方式是有益的,以及这些改良是特定于范畴的,还是可以推行到分歧的数据集。我们对查询利用数据扩大,唯一的破例是随机水平翻转,我们翻转或不翻转全部三元组。我们用很多风行的增强技术停止尝试,用NetVLAD在Pitts30k上练习一个ResNet-18。



Figure 2. Data Augmentation.

在练习中利用风行的增强技术获得的成果。我们利用PyTorch的转换,x轴与传递给类的参数相关;参数越高,变更结果越重(即x = 0即是恒等变更)。
会商:一方面,在匹兹堡30k上的增强只会恶化成果,能够是由于练习和测试之间的数据集同质性;另一方面,我们看到一些技术可以进步不偏见数据集的鲁棒性,出格是改变亮度、对照度和饱和度的色彩发抖方式。例如,将contrast(对照度)设备为2可以使recall@1在MSLS上进步3%以上,在Tokyo 24/7上进步5%,St Lucia上提升5%,Pitts30k高低降1%。
虽然大大都增强都不能发生分歧的改良,但有两个明显的破例:随机水平翻转(几率为50%)和随机缩放(作物最小为图像巨细的50%,然后缩放到全分辨率)。

6. Resize

虽然普通VG数据集的图像分辨率在480x640像素左右,但研讨调剂它们的巨细会若何影响成果是很风趣的。



Figure 3. Changing the images’ resolution.

x轴是练习和测试分辨率(N%), y轴是recall@1。从曲线上看,红色代表ResNet-50 + NetVLAD,橙色代表ResNet18 + NetVLAD,绿色代表ResNet-50 +GeM,蓝色代表ResNet-18 +GeM。在很多情况下,完全分辨率不是最好挑选。NetVLAD的初始集群计较在低分辨率时中断。
从图3中可以看出,在大大都情况下,利用最高的可用分辨率是过剩的,甚至经常是有害的。一般来说,NetVLAD的描写符似乎比GeM的同类产物更好地处置更高的分辨率。
较低的分辨率(低至40%)显现出更好的成果,出格是当练习集和测试集之间的域差异较大时:St Lucia数据集上的成果证实了这一点,它与Pitts30k数据集很是分歧(前者只要正向视图),在利用原始分辨率的40%时显现出最好的R@1性能。这类行为可以诠释为,当图像的巨细减小时,范畴特定的低级形式(例如,纹理和叶子)的消失。总的来说,60%是一个很好的折衷计划,这表白对于地理定位来说,它与基于表面的检索亲近相关,纤细的细节并不太重要。

7. Nearest Neighbor Search and Inference Time

推理时候首要由1)extraction time和 2)matching time组成。



Figure 4. (a) Matching time for one query. (b) Analysis of the Recall-Speed-Memory trade-off using optimized indexing techniques for neighbor search.

(a)Matching time for one query. 在切确搜索的情况下,数据库的巨细和特征的维度具有线性依靠性。红线为ResNet-101 + GeM的图像提取时候;上面的瓶颈是婚配时候,下面的瓶颈是提取时候。按照经历,假如数据库巨细乘以特征维数跨越200M, kNN将成为瓶颈。
(b)利用优化的索引技术分析邻域搜索的召回-速度-内存权衡。点指的是ResNet-50 + GeM(特长)。在匹兹堡30k上练习。x轴是数据集合一切查询的婚配时候(以秒为单元),y轴是recall@1。点旁边的数字代表 RAM需求(以MB为单元)。
这些观察成果使得切确搜索的利用几近是不公道的,而且证实了(i)召回率不应当是斟酌的唯一目标(ii)对于现实利用,近邻搜索的优化是一个不成轻忽的关键身分。

会商和发现

  • Architecture:CCT与NetVLAD相连系的综合结果最好。
  • Negative mining:部分挖掘可以发生与完全挖掘类似甚至更好的性能,但(计较)本钱只要一小部分。
  • Training dataset:利用具有普遍条件和从很是分歧的城市收集的大范围练习集,会发生明显更好的成果,证实了练习集的重要性。
  • Image size and data augmentation:数据增强凡是是有帮助的,色彩发抖增强的有用性高度依靠于数据集,而水平翻转和调剂巨细的裁剪在一切情况下都供给了稍微但分歧的增强。利用全分辨率的图像(480x640)凡是是过剩的—将图像缩小到60%不但削减了flop,而且均匀会发生相当(偶然更好)的成果。
  • Inference time and kNN search:挑选一个好的近邻搜索算法可以对时候和内存占用有庞大的影响,而对性能的影响很小。先辈的kNN方式可以消除大描写符和小描写符之间在内存占用和婚配时候方面的差异。

范围性:

虽然我们的框架具有模块化和多功用性,但它也有一些范围性,例如,它专注于在室外城市情况中,VG方式只处理了从单幅图像停止视觉地理定位的使命,没有尝试分析方式的视点和光度稳定性(如[1]所做的)。此外,一些近期的SOTA工作[2][3]尚未实现,一些更新的损失尚未与停止比力。但是,我们计划继续支持软件和网站,扩大它们来评价更多的技术和用例,并观察更多的元素

参考

  1. ^Mubariz Zaffar, Sourav Garg, Michael Milford, Julian Kooij, David Flynn, Klaus McDonald-Maier, and Shoaib Ehsan. VPR-Bench: An open-source visual place recognition evaluation framework with quantifiable viewpoint and appearance change. International Journal of Computer Vision, 129(7):2136–2174, 2021. 1, 2, 4, 8
  2. ^Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, and Hongsheng Li. Self-supervising fine-grained region similarities for large-scale image localization. In Andrea Vedaldi, Horst Bischof, Thomas Brox, and Jan-Michael Frahm, editors, Computer Vision – ECCV 2020, pages 369–386, Cham, 2020. Springer International Publishing. 1, 2, 8
  3. ^Guohao Peng, Jun Zhang, Heshan Li, and Danwei Wang. Attentional pyramid pooling of salient visual residuals for place recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 885–894, October 2021. 4, 8

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

相关推荐

1元开通测试!华为“高精度定位”功能上线

1元开通测试!华为“高精度定位”功能上线

11月29日,华为系列手机把鸿蒙系统更新到最新版本后,取消了“辅助定位设置”的选项,

定位理论5大坑,你踩过几个?

定位理论5大坑,你踩过几个?

编辑导语:有些“定位方法论”充分利用了读者的“简化冲动”,可能我们在市面上接受到

一篇文章,读懂定位理论 | 到底什么是定位?

一篇文章,读懂定位理论 | 到底什么是定位?

定位二字,不断出现在各类圈层的朋友口中。可这个词到底是什么意思,或许没有太多人会

教你如何使用Ip地址进行精准定位

教你如何使用Ip地址进行精准定位

首先,看到这个标题,很多人可能没由的一楞,Ip地址?地位?Ip地址怎么定位?是的,没

安卓Android手机如何利用软件修改系统定位

安卓Android手机如何利用软件修改系统定位

工具/原料:1、Fake Location APPFake Location APP功能介绍:1.以ROOT环境运行,不易

虚拟定位/ Fake Location

虚拟定位/ Fake Location

某东有时候会联合发些地域性的消费券,像什么“云南消费券”、“东莞消费券”,app定

老司机揭秘手机定位技术,这下彻底明白啦!

老司机揭秘手机定位技术,这下彻底明白啦!

今天我们所处的移动互联网时代,手机成了每个人的生活标配。这些手机里,安装了形形色

原神:太香了!水神少女形象定位曝光,海灯节全新角色登场 ...

原神:太香了!水神少女形象定位曝光,海灯节全新角色登场 ...

果然是亲女儿,每次复刻的武器池都香到让人流口水​。​有点小失望,绫华皮肤竟然是四

定位凉凉了?定位为什么会定死?

定位凉凉了?定位为什么会定死?

定位凉凉了?定位为什么会定死?作者/李兴随着当今营销生态的变化,品牌呈现出全新的

百度地图宣布切换为优先运用国产北斗系统进行定位

百度地图宣布切换为优先运用国产北斗系统进行定位

IT之家 9 月 30 日消息,近日,百度地图发布了北斗卫星导航系统应用的最新进展,北斗

有什么好用的手机号码定位APP推荐吗?

有什么好用的手机号码定位APP推荐吗?

常有不少杠精说位置定位类APP打着亲情的招牌,实际上在侵犯个人隐私。但是,工具本身

手机关机拔卡仍可定位,大数据行程卡,揭开信息无处遁形的面纱

手机关机拔卡仍可定位,大数据行程卡,揭开信息无处遁形的面纱

你相信吗?将手机关机拔卡之后依旧可以定位,它就是一个隐形的GPS定位工具,放在以前

用手机就能知道你的位置,摄像头也能带定位功能,偷听偷窥神器网络热销

用手机就能知道你的位置,摄像头也能带定位功能,偷听偷窥神器网

楚天都市报11月14日讯(记者 周丹)近日,“有人利用软件通过手机非法定位他人位置”

手机号怎么定位对方在哪?分享个手机定位找人小窍门,误差仅10米

手机号怎么定位对方在哪?分享个手机定位找人小窍门,误差仅10米

生活中,有很多时候都会用到手机定位找人这种找人的方法,那么,手机号怎么定位对方在

华为上线高精度定位服务!收费仅需1元,为何网友还说不厚道?

华为上线高精度定位服务!收费仅需1元,为何网友还说不厚道?

近日,有媒体报道称,华为在会员服务中心中新增了一项全新的功能——“高精度定位”,

手机定位很简单,一张微信照片就能定位对方的位置,真的涨知识了

手机定位很简单,一张微信照片就能定位对方的位置,真的涨知识了

在日常生活中,相信有不少的朋友时时刻刻想要知道自己的另一半去了哪里?可是,自己又

这可能是把产品定位讲得最透彻的一篇文章了

这可能是把产品定位讲得最透彻的一篇文章了

产品定位,归根到底是用户定位、场景定位、价值定位、价格定位4大块。想要一款产品最

品牌定位,抢占用户心智第一步

品牌定位,抢占用户心智第一步

为了更好地经营品牌,以及更好地瞄准目标群体、向用户传递品牌价值,品牌需要做好自身

谈谈华杉对定位理解的5个误区

谈谈华杉对定位理解的5个误区

编辑导语:前几天,华与华董事长华杉围绕《定位》这本书,提出了对定位理论的5个质疑

如何做好个人定位?

如何做好个人定位?

随着粉丝经济的增长,越来越多人意识到个人IP的高价值,很多人开始有打造个人品牌的意

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信