机械之心专栏 作者:张宋扬、彭厚文、傅建龙、卢亦娟、罗杰波
时候可所以二维的吗?这是一个好题目! 我们经常将物理天下界说为三维空间,将时候界说为一维空间。可是,这不是唯一的界说方式。比来,罗切斯特大学和微软亚洲研讨院的学者们大开脑洞,提出了一种新的时候暗示方式,将时候界说成了二维的! 在二维空间里,时候是若何表达的呢?童鞋们给出的答案是这样的:在二维空间中,我们界说其中一个维度暗示时候的起头时辰,别的一个维度暗示延续的时候;从而,二维空间中的每一个坐标点便可以表达一个时候片断(例如,从 A 时辰起头延续 B 秒的时候片)。 在这类二维空间界说下,假如我们把单元时候刻度设备的越小,那末可以观察到时域上加倍部分和微观的关系。而假如把单元时候刻度设备的较大,那末观察到的关系将加倍全局和宏观。假如能有用地连系两者,将会对片断间的关系有更丰富的描写。 (参考自 https://www.msra.cn/zh-cn/news/features/aaai-2022-2d-tan) 基于文本的视频时候定位的方针是,给一段笔墨,在视频中找到文本所对应视频片断,并给出片断的起头时候和竣事时候。如图 1 Query A 所示,给一段笔墨 「一小我吹起了萨克斯」和一段视频,这个使命希望找到与笔墨描写最婚配的阿谁片断。很多前人的工作都是自力斟酌片断和文本之间的类似水平,而疏忽了片断与片断之间的高低文信息。如图 1 Query C 所示,为了定位「这小我再一次吹起了萨克斯」, 假如只看后半段的视频是很难定位「再」 这个词的。此外,如图 1 Query B 所示, 很多高度重合的片断有类似的内容,假如差池这些片断停止对照的话,很难区分哪个片断与笔墨描写最婚配。 为领会决这一题目,该研讨在 AAAI 2022 的论文中提出了一个二维时域邻近收集(2D-TAN)。该收集的焦点思惟是在一个二维时候图上做视频的时候定位。如图 1(a)所示,图中(i,j) 暗示的是一个从 i 起头延续 j+1 的时候片断。对于分歧长度的片断,我们可以经过坐标上的远近来界说他们之间的邻近关系。有了这些关系,我们便可以用 2D-TAN 对这类依靠关系停止建模。此外,由于 2D-TAN 是将这些片断当做一个整体来斟酌,学出来的片断特征也更具有区分性。
这里二维时候图的单元时候长度τ决议了定位邃密水平。为了让定位更邃密,该研讨设想了一个多标准的二维时候图,如图1(b) 。该研讨拔取分歧的单元时候长度来机关分歧邃密度的二维时候图。这类方式可以让模子在更大的时候范围上进修片断间的依靠关系,同时也让每个片断获得更丰富的高低文信息。另一个益处是,这类多标准建模也可以看做是一种稀疏采样的方式,从而下降片断特征抽取和片断间建模所带来的计较开销,将计较复杂度从二次方降到了线性 。 图 1 二维时候图的表示图。(a) 暗示的是浓密单标准二维时候图。黑色坐标轴别离暗示的是起头和时长的标号,而灰色坐标轴暗示的是与之对应的起头时辰和延续时候。二维图中红色的水平暗示方针片断和候选片断的婚配水平。这里是一个预先界说好的单元时长。红色格子暗示无效的视频片断。(b)暗示的是稀疏多标准二维时候图。稀疏多标准二维时候图由多个二维时候图组成,各个二维时候图的单元时长不不异()。灰色格子暗示有用但非候选的视频片断。其他色彩界说同上。经过在多个小尺寸图上建模,可以削减计较开销。 下面我们将具体先容该方式。 多标准二维时域邻近收集(MS-2D-TAN) 本文提出的模子如图 2 所示。该模子由三个模块组成:文本编码模块,视频的二维时候特征图模块和多标准二维时候邻近收集。下文将逐一先容各个模块。 图 2 MS-2D-TAN 的框架表示图。 语句的文本特征 该研讨首先将各个单词用 GloVe 停止编码,再输入到 LSTM 中。该研讨将 LSTM 的输出取均匀作为语句的特征向量。 视频的二维时域特征图 该研讨首先将视频朋分红N个小的单元片断(clip),再经过预练习好的模子将这些片断抽取特征,巨细是N×d^V。候选片断由多个持续的单元片断所组成,且长度并不不异。为获得同一的片断特征的暗示,该研讨将抽取好的单元片断特征经过叠加卷积的方式获得一切候选片断特征。再按照每个候选片断的起头时辰和延续时候,将一切的候选片断排列成一个二维特征图。 当研讨职员利用N - 1 个卷积层可获得一切有用片断的特征。但当N较大时,这样的计较开销也常常较大。是以,该研讨采用了一个稀疏采样的方式。如图 2 所示,该研讨对较短的片断停止麋集的采样,而对较长的片断停止稀疏采样。先用 A 层步长为 1,核尺寸为 2 的卷积获得短片断的特征,以后每隔 A/2 个卷积层,步长增加一倍,慢慢获得较长片断的特征。经过这类方式可以不用列举出一切的片断,从而下降计较开销。前者获得的二维特征图我们称之为浓密二维特征图,尔后者则称之为稀疏二维特征图。 经过量标准二维时候邻近收集定位 有了视频的稀疏二维特征图(图 2 中蓝色立方体)和文本特征(图 2 中黄色立方体),该研讨将其停止融合,获得融合的稀疏二维特征图(图 2 中绿色立方体)。该研讨再按照分歧的时候标准,将单一标准的稀疏二维特征图,转化成一组稀疏的多标准二维特征图。对于每个标准的二维特征图,该研讨利用一系列的 gated convolution 对每个片断和其邻近片断的关系停止建模,并经过一个全连接层获得各标准中各片断终极的得分。 练习和测试 在练习进程中,每一个标准城市有一个对应的损失函数,该研讨将二元交互熵 (Binary Cross Entropy) 作为模子的损失函数,同时利用一个经过线性变更的 IoU (intersection over union)的值作为损失函数中的标签。该研讨将一切的损失函数加在一路作为全部模子的损失函数。 在测试时,该研讨按照特征的位置,获得每个片断的得分,并按照 NMS 对其停止挑选。假如一个片断存在于多个得分图中,那末拔取最高的得分作为其得分。 尝试成果 该研讨在 Charades-STA [2], ActivityNet Captions [3] 和 TACoS [4] 三个数据集上评测。尝试成果如表 1-3 所示。为了公允对照,该研讨利用了和前人方式不异的视频和文本特征,且一切模子的超参连结分歧。从尝试成果中,不管利用哪类特征,该研讨提出的 MS-2D-TAN 方式均能获得前两位的成就。而在某些数据集上,进一步伐整超参可以获得更好的性能,如表 3 的 MS-2D-TAN*。 表 1 Charades-STA 的尝试成果 表 2 ActivityNet Captions 的尝试成果 表 3 TACoS 的尝试成果 时候和内存的开销 该研讨还对照了时候和内存的开销。图 3 中对照了浓密单标准二维特征图,稀疏单标准二维特征图 [1] 以及本文提出的稀疏多标准二维特征图。可以发现在当视频长度较长时,利用稀疏多标准二维特征图可以大幅削减时候和内存的开销。在图 4 中该研讨也与其他方式在 TACoS 上停止了对照。当研讨职员利用一个隐层参数目较小的模子 MS-2D-TAN (Small) 时, 该研讨的方式可以在保证速度和内存开销稍小的条件下,比其他方式获得更高的精度。而利用较大参数目的 MS-2D-TAN 可以进一步进步精度。 图 3 三种分歧二维特征图时候开销的对照。N 暗示几多个单元片断(clip) 图 4 与其他方式的时候和内存开销对照 结语 本文针对基于文本的视频时候定位提出了一种全新的多标准二维时候暗示方式并提出了一种新的多标定时域邻近收集(MS-2D-TAN)。该模子可以很好的操纵邻近时域的高低文信息,并学出有区分性的视频片断特征。该研讨的模子设想简单,也同时在三个数据集上获得了有合作力的成果。 参考文献: [1] Songyang Zhang, Houwen Peng, Jianlong Fu, Jiebo Luo, “Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language”, AAAI 2022 [2] Jiyang Gao, Chen Sun, Zhenheng Yang and Ram Nevatia, “TALL: Temporal activity localization via language query”, ICCV2022 [3] Ranjay Krishna, Kenji Hata, Frederic Ren, Li Fei-Fei, and Juan Carlos Niebles, “Dense-Captioning Events in Videos”, ICCV 2022 [4] Michaela Regneri, Marcus Rohrbach, Dominikus Wetzel, Stefan Thater, and Bernt Schiele, and Manfred Pinkal, “Grounding action descriptions in videos”, TACL 2022 |
11月29日,华为系列手机把鸿蒙系统更新到最新版本后,取消了“辅助定位设置”的选项,
编辑导语:有些“定位方法论”充分利用了读者的“简化冲动”,可能我们在市面上接受到
定位二字,不断出现在各类圈层的朋友口中。可这个词到底是什么意思,或许没有太多人会
首先,看到这个标题,很多人可能没由的一楞,Ip地址?地位?Ip地址怎么定位?是的,没
工具/原料:1、Fake Location APPFake Location APP功能介绍:1.以ROOT环境运行,不易
某东有时候会联合发些地域性的消费券,像什么“云南消费券”、“东莞消费券”,app定
今天我们所处的移动互联网时代,手机成了每个人的生活标配。这些手机里,安装了形形色
果然是亲女儿,每次复刻的武器池都香到让人流口水。有点小失望,绫华皮肤竟然是四
定位凉凉了?定位为什么会定死?作者/李兴随着当今营销生态的变化,品牌呈现出全新的
IT之家 9 月 30 日消息,近日,百度地图发布了北斗卫星导航系统应用的最新进展,北斗
常有不少杠精说位置定位类APP打着亲情的招牌,实际上在侵犯个人隐私。但是,工具本身
你相信吗?将手机关机拔卡之后依旧可以定位,它就是一个隐形的GPS定位工具,放在以前
楚天都市报11月14日讯(记者 周丹)近日,“有人利用软件通过手机非法定位他人位置”
生活中,有很多时候都会用到手机定位找人这种找人的方法,那么,手机号怎么定位对方在
近日,有媒体报道称,华为在会员服务中心中新增了一项全新的功能——“高精度定位”,
在日常生活中,相信有不少的朋友时时刻刻想要知道自己的另一半去了哪里?可是,自己又
产品定位,归根到底是用户定位、场景定位、价值定位、价格定位4大块。想要一款产品最
为了更好地经营品牌,以及更好地瞄准目标群体、向用户传递品牌价值,品牌需要做好自身
编辑导语:前几天,华与华董事长华杉围绕《定位》这本书,提出了对定位理论的5个质疑
随着粉丝经济的增长,越来越多人意识到个人IP的高价值,很多人开始有打造个人品牌的意
声明:本站内容由网友分享或转载自互联网公开发布的内容,如有侵权请反馈到邮箱 1415941@qq.com,我们会在3个工作日内删除,加急删除请添加站长微信:15314649589
Copyright @ 2022-2044 杭州共生网络 www.gongshengyun.cn Powered by Discuz!