新智元专栏
作者:张皓(南京大学)
【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。
相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。
常用数据集视频分类主要有两种数据集,剪辑过(trimmed)的视频和未经剪辑的视频。剪辑的视频中包含一段明确的动作,时间较短标记唯一,而未剪辑的视频还包含了很多无用信息。如果直接对未剪辑的视频进行处理是未来的一大研究方向。
- HMDB-51:6,766视频,51类。剪辑的视频,每个视频不超过10秒。内容包括人面部、肢体、和物*互的动作等。
- UCF-101:13,320视频,101类,共27小时。剪辑的视频,每个视频不超过10秒。内容包含化妆刷牙、爬行、理发、弹奏乐器、体育运动等。
- Charades:9.848视频(7,985训练,1,863测试),157类。未剪辑的视频,每个视频大约30秒。每个视频有多个标记,以及每个动作的开始和结束时间。
- Sports-1M:1,100,000视频(70%训练、20%验证、10%测试),487类,内容包含各种体育运动。
- ActivityNet (v1.3):19,994视频(10,024训练,4,926验证,5,044测试),200类,共700小时。内容包括饮食、运动、家庭活动等。
- Kinetics:246k训练视频,20k验证视频,400类。
G. A. Sigurdsson, et al. What actions are needed for understanding human actions in videos? ICCV'17.
相比图像分类,视频的类别/动作数目要少很多,而且常常有一定歧义,例如take和put要和后面名词结合才会有具体含义(如take medication, take shoes, take off shoes)。Sigurdsson等人发现人类对这些动词也容易感到混淆。另外,视频中动作开始和结束的时间也不够明确。
经典方法H. Wang, et al. Dense trajectories and motion boundary descriptors for action recognition. IJCV'13.
H. Wang and C. Schmid. Action recognition with improved trajectories. ICCV'13.
Wang等人提出DT和iDT方法。DT利用光流得到视频中的运动轨迹,再沿着轨迹提取特征。iDT对相机运动进行了补偿,同时由于人的运动比较显著,iDT用额外的检测器检测人,以去除人对相邻帧之间投影矩阵估计的影响。这是深度学习方法成熟之前效果最好的经典方法,该方法的弊端是特征维度高(特征比原始视频还要大)、速度慢。实践中,早期的深度学习方法在和iDT结合之后仍能取得一定的效果提升,现在深度学习方法的性能已较iDT有大幅提升,因此iDT渐渐淡出视线。
逐帧处理融合这类方法把视频看作一系列图像的集合,每帧图像单独提取特征,再融合它们的深度特征。
A. Karpathy, et al. Large-scale video classification with convolutional neural networks. CVPR'14.
Karpathy等人把视频划分成很多固定长度的片段(clip),并设计了多种融合方法。
- Single frame. 逐帧单独前馈网络。
- Late fusion. 两帧相距15帧的图像分别前馈网络,并融合它们的深度卷积特征。
- Early fusion. 连续10帧图像前馈网络,因此网络第一层的卷积核由11×11×3变为11×11×3×10。Early fusion的思路最早由Le等人提出。
Le, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. CVPR'11.
- Slow fusion. 即使用3D卷积。连续10帧图像前馈网络,第一层卷积核时间方向大小为4,第二、三层卷积核时间方向大小为2。