【实验室快讯】AIM3实验室3篇长文被ECCV2022录用_嘉艺流行音乐_流行音乐歌词大全

  论文介绍   1. Few-shot Action Recognition with Hierarchical Matching and Contrastive Learning   作者:郑思鹏,陈师哲,金琴   通讯作者:金琴   论文概述:   该工作旨在解决少样本动作识别任务。少样本动作识别一般遵循metric-learning的方式,通过比较不同视频在度量空间的相似度,基于最近邻的原则实现视频分类。我们注意到,之前的工作往往在度量两个视频是只考虑全局的匹配或者单一的时序的匹配。本文认为,从全局,时序,空间同时进行多层级的匹配是更有效的做法,基于此我们提出了一个多层级的度量匹配方法从多个层面比较两个视频之间的相似度。同时,度量空间是比较视频的基础,它应该有能力对于不同层级的一些细粒度视频差别进行鉴别。但是我们的数据集实际上只有类别的标签而没有耕细粒度的标签,为了规避这一缺陷,并得到一个更好地度量空间用以多层级匹配,我们相应地提出了一个多层级的对比学习算法训练度量空间。我们的方法在几个主要的数据集上都达到了SoTA的结果。   2. Unifying Event Detection and Captioning as Sequence Generation via Pre-Training   作者:张琦,宋宇晴,金琴   通讯作者:金琴   论文概述:   Dense video captioning旨在为未经剪辑的视频中的一系列事件生成相应的文本描述,可分为event detection和event captioning两个子任务。与以往分别处理这两个子任务的工作不同,最近的工作侧重于增强两个子任务之间的任务间关联。然而,由于任务特定解决方案的巨大差异,为事件检测和字幕设计任务间交互并非易事。此外,以前的事件检测方法通常忽略事件之间的时间依赖关系,导致检测出来的proposals存在高冗余的问题。为了解决上述两个缺陷,本文将事件检测定义为序列生成任务,并提出了一个统一的预训练和微调框架,来增强事件检测和字幕两个字任务之间的关联。由于该模型利用事件上下文来预测每个事件充分利用了事件之间的相互依存关系,使得我们的模型即使不使用NMS(非极大抑制)也可以在视频中检测出更加多样和低冗余的事件序列。在ActivityNet 和 charades-sta数据集上的实验表明,我们的模型优于最先进的方法,并且我们的模型支持使用out-of-domain的数据集来提升性能。   3. TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval   作者:刘玉琪,熊鹏飞(腾讯),徐鲁辉(腾讯),曹圣明(腾讯),金琴   通讯作者:金琴   论文概述:   视频检索任务具有很强的现实意义,该任务要求模型具有良好的时空建模能力。现有的一些方法通常采用固定的预训练视觉模型作为骨干网络,这种做法限制了模型学习更详细的时空表征。本文提出了Token Shift and Selection Transformer(TS2-Net),TS2-Net可以动态地调整视频token序列,并且选择蕴含信息量更丰富的token。TS2-Net由两个部分组成,一个是token shift transformer,另一个是token selection transformer。其中token shift模块可以交换相邻帧之间的token,而token selection模块选取信息量更丰富的token。实验展示了TS2-Net在视频检索数据集MSRVTT,VATEX,LSMDC,,ActivityNet和DiDeMo上均取得了SOTA的结果。其中,模型在MSRVTT数据集上R@1高达54.0。   different types of shift operationtoken selection module
发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章