Paper #85题目:Deep Visual Geo-localization Benchmark 深度视觉地理定位基准 出书来历:CVPR, 2022 摘要:In this paper, we propose a new open-source benchmarking framework for Visual Geo-localization (VG) that allows to build, train, and test a wide range of commonly used architectures, with the flexibility to change individual components of a geo-localization pipeline. The purpose of this framework is twofold: i) gaining insights into how different components and design choices in a VG pipeline impact the final results, both in terms of performance (recall@N metric) and system requirements (such as execution time and memory consumption); ii) establish a systematic evaluation protocol for comparing different methods. Using the proposed framework, we perform a large suite of experiments which provide criteria for choosing backbone, aggregation and negative mining depending on the use-case and requirements. We also assess the impact of engineering techniques like pre/post-processing, data augmentation and image resizing, showing that better performance can be obtained through somewhat simple procedures: for example, downscaling the images’ resolution to 80% can lead to similar results with a 36% savings in extraction time and dataset storage requirement. Code and trained models are available at dataset storage requirement. https://deep-vg-bench.herokuAPP.com/
按照一组先前拜候过的地址大略估量照片拍摄地址的使命称为视觉(图像)地理定位(VG)或视觉位置识别(VPR)。在已知位置的图像数据库上,操纵图像婚配和检索方式来处理该题目。
我们正目击这一研讨范畴的敏捷成长,但它今朝存在两大首要限制:
在本文中,我们为可视化地理定位(VG)提出了一个新的开源基准测试框架,该框架答应构建、练习和测试普遍的常用架构,并具有变动地理定位管道的单个组件的灵活性。该框架的目标有两个:i)深入领会VG(视觉地理定位)管道平分歧的组件和设想挑选若何影响终极成果,包括性能(recall@N metric)和系统需求(如履行时候和内存消耗); ii)建立系统的评价计划,对分歧方式停止比力。利用提出的框架,我们停止了大量的尝试,按照用例和需求供给了挑选主干、聚合和负挖掘的标准。
我们还评价了工程技术的影响,如预处置/后处置、数据增强和图像调剂巨细,表白可以经过一些简单的法式获得更好的性能:例如,将图像分辨率下降到80%可以获得类似的成果,在提取时候和数据集存储需求上节省36%。 单元:Politecnico di Torino;CINI;NAVER LABS Europe;Czech Technical University in Prague; 进献:论文内容:摘要图: 整体收集结构Figure 1. Diagram of a visual geo-localization system. 在全部工作进程中,我们严酷而公道地分析了视觉地理定位系统的每个组件(浅蓝色块),比力了各类分歧的实现,包括练习和测试时候。 VG使命凡是利用图像检索管道来处置:给定一个要停止地理定位的新照片(查询),经过将其与带有地理标志的图像数据库停止婚配来估量其位置。是以,VG系统是一种算法,它首先为数据库图像(离线)和查询照片(在线)提取描写符,然后在描写符空间中利用比来邻搜索。 这个笼统模子包括几个可以在练习和测试时代点窜的组件:
数据集 Table 2. Summary of the datasets “panorama”是指从360°全景(包括不失真)中裁剪的图像;“front-view”指的是只要一个(朝前的)视图可用;“phone”指的是用智能手机收集的照片。“panorama”和“front-view”图像是用汽车车顶的摄像头拍摄的。∗变分辨率。 尝试 1.CNN BackbonesCNN主干的使命是从图像中提取信息丰富的特征映照,它代表任何VG系统的一个根基组件。为了领会其影响,我们对四个CNN主干(VGG16、ResNet-18、ResNet-50和ResNet-101)停止了尝试,并连系了两种风行的聚合方式GeM和NetVLAD。 Table 3. Results and computational requirements with different convolutional backbones. 提取时候是1000次的均匀值。 2. Aggregation and Descriptor Dimensionality聚合方式是负责处置主干的输出特征的层。多年来,人们提出了很多这样的方式,从浅池层到更复杂的模块 Table 4. Aggregation methods 我们报告了分歧的聚合方式的成果,缩小或扩大到等效的维度。 3. Visual Transformers研讨Visual transformer与VG中更传统的基于cnn的方式的比力。 Table 5 传统CNN架构与基于transformer的新方式的比力。 总的来说,成果表白这些系统结构比CNN具有更好的泛化才能,而且ViT被证实即使与更大的NetVLAD描写符相比也具有合作力,虽然计较需求更高。 4. Negative MiningVG pipeline中的一个重要步调是挖掘negatives:理想情况下,我们希望挑选与查询在视觉上类似的分歧场景的图像,以确保模子为使命进修到信息丰富的特征。 Table 6. Negative mining methods. ”Space & Time Complexity” 指的是构建缓存的复杂度,凡是是在迭代跨越1000个三元组以后完成的.#db和#q是数据库和查询图像的数目,KDB和kq是挑选的常量(凡是设备为1000),#pos是斟酌的查询的正数,这取决于查询和数据库密度。 5. Data Augmentation研讨哪些数据增强对VG方式是有益的,以及这些改良是特定于范畴的,还是可以推行到分歧的数据集。我们对查询利用数据扩大,唯一的破例是随机水平翻转,我们翻转或不翻转全部三元组。我们用很多风行的增强技术停止尝试,用NetVLAD在Pitts30k上练习一个ResNet-18。 Figure 2. Data Augmentation. 在练习中利用风行的增强技术获得的成果。我们利用PyTorch的转换,x轴与传递给类的参数相关;参数越高,变更结果越重(即x = 0即是恒等变更)。 6. Resize虽然普通VG数据集的图像分辨率在480x640像素左右,但研讨调剂它们的巨细会若何影响成果是很风趣的。 Figure 3. Changing the images’ resolution. x轴是练习和测试分辨率(N%), y轴是recall@1。从曲线上看,红色代表ResNet-50 + NetVLAD,橙色代表ResNet18 + NetVLAD,绿色代表ResNet-50 +GeM,蓝色代表ResNet-18 +GeM。在很多情况下,完全分辨率不是最好挑选。NetVLAD的初始集群计较在低分辨率时中断。 7. Nearest Neighbor Search and Inference Time推理时候首要由1)extraction time和 2)matching time组成。 Figure 4. (a) Matching time for one query. (b) Analysis of the Recall-Speed-Memory trade-off using optimized indexing techniques for neighbor search. (a)Matching time for one query. 在切确搜索的情况下,数据库的巨细和特征的维度具有线性依靠性。红线为ResNet-101 + GeM的图像提取时候;上面的瓶颈是婚配时候,下面的瓶颈是提取时候。按照经历,假如数据库巨细乘以特征维数跨越200M, kNN将成为瓶颈。 会商和发现
范围性: 虽然我们的框架具有模块化和多功用性,但它也有一些范围性,例如,它专注于在室外城市情况中,VG方式只处理了从单幅图像停止视觉地理定位的使命,没有尝试分析方式的视点和光度稳定性(如[1]所做的)。此外,一些近期的SOTA工作[2][3]尚未实现,一些更新的损失尚未与停止比力。但是,我们计划继续支持软件和网站,扩大它们来评价更多的技术和用例,并观察更多的元素 参考
|
11月29日,华为系列手机把鸿蒙系统更新到最新版本后,取消了“辅助定位设置”的选项,
编辑导语:有些“定位方法论”充分利用了读者的“简化冲动”,可能我们在市面上接受到
定位二字,不断出现在各类圈层的朋友口中。可这个词到底是什么意思,或许没有太多人会
首先,看到这个标题,很多人可能没由的一楞,Ip地址?地位?Ip地址怎么定位?是的,没
工具/原料:1、Fake Location APPFake Location APP功能介绍:1.以ROOT环境运行,不易
某东有时候会联合发些地域性的消费券,像什么“云南消费券”、“东莞消费券”,app定
今天我们所处的移动互联网时代,手机成了每个人的生活标配。这些手机里,安装了形形色
果然是亲女儿,每次复刻的武器池都香到让人流口水。有点小失望,绫华皮肤竟然是四
定位凉凉了?定位为什么会定死?作者/李兴随着当今营销生态的变化,品牌呈现出全新的
IT之家 9 月 30 日消息,近日,百度地图发布了北斗卫星导航系统应用的最新进展,北斗
常有不少杠精说位置定位类APP打着亲情的招牌,实际上在侵犯个人隐私。但是,工具本身
你相信吗?将手机关机拔卡之后依旧可以定位,它就是一个隐形的GPS定位工具,放在以前
楚天都市报11月14日讯(记者 周丹)近日,“有人利用软件通过手机非法定位他人位置”
生活中,有很多时候都会用到手机定位找人这种找人的方法,那么,手机号怎么定位对方在
近日,有媒体报道称,华为在会员服务中心中新增了一项全新的功能——“高精度定位”,
在日常生活中,相信有不少的朋友时时刻刻想要知道自己的另一半去了哪里?可是,自己又
产品定位,归根到底是用户定位、场景定位、价值定位、价格定位4大块。想要一款产品最
为了更好地经营品牌,以及更好地瞄准目标群体、向用户传递品牌价值,品牌需要做好自身
编辑导语:前几天,华与华董事长华杉围绕《定位》这本书,提出了对定位理论的5个质疑
随着粉丝经济的增长,越来越多人意识到个人IP的高价值,很多人开始有打造个人品牌的意
声明:本站内容由网友分享或转载自互联网公开发布的内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589
Copyright @ 2022-2044 杭州共生网络 www.gongshengyun.cn Powered by Discuz!