联系我们 contact us
地址:北京市朝阳区汤立路
   218号明天·STUDIO·A座
010-84678879

您当前所在位置:主页>技术共享>综合布线>

分享上海交通大学团队在两项竞赛任务中的算法思路和方案能源检测
时间:2018-07-07 08:05 作者:佚名 点击:

近日,视频行为理解领域的ImageNet竞赛——ActivityNet Challenge 2018在CVPR 会议上落下了帷幕。来自上海交通大学计算机视觉实验室的团队(自动化系研究生林天威、苏海昇,导师赵旭副教授),获得了未修剪视频中的时序动作定位任务的冠军,**猜你喜欢酒店智控**,以及时序动作提名任务的亚军。本文将分享该团队在两项竞赛任务中所采用的算法思路和方案。

引言

理解视频中人的动作和行为,是计算机视觉领域的挑战性问题,也是视频内容理解的关键,极具应用前景。ActivityNet挑战赛旨在催生视频行为理解的新算法和新技术,是目前视频行为理解领域数据规模最大、最具影响力的技术竞赛,与每年的顶级学术会议CVPR一起召开,已成功举办三届。今年ActivityNet挑战赛共举办6项比赛,吸引了全球计算机视觉领域来自学术界和工业界的诸多团队积极参赛。

近日,ActivityNet Challenge在CVPR会议上公布了2018年的竞赛成绩。来自上海交通大学计算机视觉实验室的团队(自动化系研究生林天威、苏海昇,导师赵旭副教授),获得了未修剪视频中的时序动作定位任务的冠军,以及时序动作提名生成任务的亚军。

本文将分享上海交通大学团队在两项竞赛任务中的算法思路和方案。在此次竞赛中,上交团队主要采用了近期投稿在ECCV 2018会议上的时序动作提名生成新方法-Boundary Sensitive Network (BSN) 。

ActivityNet挑战赛

ActivityNet 挑战赛是目前视频动作理解领域规模最大的竞赛,涵盖了视频动作分类、时序动作定位、视频文本生成等多个方向。今年的ActivityNet挑战赛在规模、多样性和自然度上较往年均有显著提升,共举办6项竞赛任务,其中任务1-3基于ActivityNet数据集,任务A,B,C则为其他视频理解领域内重要的数据集。目前ActivityNet数据集的版本为1.3,包括20000个Youtube 视频,共计约700小时,平均每个视频上有1.5个动作片段,涵盖了共200个动作类别。这些比赛项目具体包括:

任务1: 时序动作提名生成;

任务2: 时序动作定位;

任务3: 视频密集描述生成;

任务A: 视频动作分类(Kinetics数据集);

任务B: 时空动作定位(AVA数据集);

任务C: 视频事件分类(Moments-in-time 数据集)

围绕上述6项竞赛任务,今年的挑战赛吸引了来自上海交通大学、清华大学、中科大等国内高校,CMU、UMD、UCSB、华盛顿大学等国外高校,以及DeepMind、百度、旷视科技、七牛云、爱奇艺等企业团队参赛。比赛由阿卜杜拉国王科技大学视觉计算中心在CVPR 2018会议上举办,得到谷歌、DeepMind、Facebook等公司的赞助。

竞赛任务及测评方式

本次竞赛中,上交团队参加了任务1:时序动作提名生成,以及任务2:时序动作定位的比赛。其中,任务2要求在视频序列中确定动作发生的时间区间(包括开始时间与结束时间)以及动作的类别。这个问题与二维图像中的目标检测问题有很多相似之处。相关算法一般可以分为两个部分:(1) 时序动作提名生成,产生候选视频时序片段,类似于Faster-RCNN中的RPN网络的作用;(2) 动作分类: 即判断候选视频时序片段的动作类别。两个部分结合在一起,即实现了视频中的时序动作检测。从去年起,时序动作提名作为单项竞赛任务被单独列出(任务1)。

在时序动作定位问题中,mean Average Precision(mAP) 是最常用的评估指标。此次竞赛计算0.5到0.95, 以0.05为步长的多个IoU阈值下的mAP,称为 Average mAP,作为最终的测评以及排名指标。相较于使用mAP@0.5 作为测评指标,Average mAP 更看重在较严格IoU阈值下的检测精度。时序动作提名任务由于无需对时序片段进行分类,所以通常使用average recall (AR) 来进行评估。在此次竞赛中,Average Recall vs. Average Number of Proposals per Video (AR-AN) 曲线下的面积被作为最终的评测指标。举个例子,AN=50 时的AR分数可以理解为对于每个视频,使用proposal set中分数最高的前50个proposal时,所能达到的召回率。

竞赛方案介绍

此次竞赛,我们主要对我们投稿在ECCV 2018会议上的时序动作提名生成算法-BSN模型 [1](Boundary-Sensitive Network) 进行了优化与改进。下面首先对BSN方法进行介绍,之后再介绍此次竞赛中所进行的一些改进。

BSN-用于时序动作提名生成的边界敏感网络

时序动作检测一般包含两个环节-提名和分类。目前行为分类的精度其实已经比较高了,而时序动作检测的精度仍然比较低,所以我们认为其瓶颈在于时序动作提名生成阶段。高质量的时序动作提名应该具备(1)灵活的时序长度;(2)精确的时序边界;(3)可靠的置信度分数。现有的基于滑窗或anchor的方法或是基于聚类的方法都不能同时在这几个方面做好。因此,我们在[1]中提出了一种新的时序提名生成算法-Boundary Sensitive Network(BSN)。在BSN中,我们首先去定位时序动作片段的边界(开始节点和结束节点),**猜你喜欢工况监测**,再将边界节点直接结合成时序提名,最后基于所设计的proposal-level的feature来对每个proposal的置信度进行评估。算法的整体框架图如下图所示,之后会逐步介绍各个步骤。

分享上海交通大学团队在两项竞赛任务中的算法思路和方案能源检测

1. 特征提取

在特征提取阶段,我们主要将视频切分成16帧不重叠的单元,然后采用 two-stream network 提取特征。对于spatial network, 我们使用每个单元的中心帧提取特征;对于temporal network,我们则使用每个单元的中心6帧图像计算得到的光流图像提取特征。最终将视频图像序列转化为特征序列。

2. BSN - 时序评估模块

基于提取的图像特征序列,BSN中的时序评估模块采用3层时序卷积层来对视频序列中每个位置上动作开始的概率、动作结束的概率和动作类别概率同时进行建模,从而生成动作开始概率序列,动作结束概率序列和动作类别概率序列。

3. BSN - 提名生成模块

接下来,基于上述的几种概率序列,提名生成模块要生成候选时序动作提名,并对每个动作提名生成对应的特征描述。

要生成候选时序动作提名,首先我们选择动作开始和动作结束概率序列中满足以下两个条件之一的时间节点作为候选时序边界节点:(1)概率高于一个阈值 或(2)该时间节点的概率高于前一时刻以及后一时刻的概率。然后我们将候选开始时间节点和候选结束时间节点两两结合,保留时长符合要求的开始节点-结束节点组合作为候选时序动作提名。算法示意图如下图所示。

分享上海交通大学团队在两项竞赛任务中的算法思路和方案能源检测

网站地图 | RSS订阅 | RSS地图 | 网站首页 | 关于我们 | 技术共享 | 产品中心 | 成功案例 | 加盟我们 | 客户服务 | 联系我们 |
工况监测
    地址:北京市朝阳区汤立路218号明天·STUDIO·A座
    电话:0086-10-8467  8879      TEL:0086-133  6699  5587   (电话推销勿扰)
    版权所有:新企力(北京)检测服务有限公司   工作时间:(周一至周五  8:30-17:30)
    邮箱:web#xqili.com   京ICP备15050323号  
关闭