火山引擎视频云实践精选集

冠军算法介绍
显著性预测任务面临的主要挑战:
·眼动数据标注成本高,开源数据集规模有限,无法进行充分的预训练,因而容易导致模型鲁棒性不足
·人眼的运动和聚焦既受到颜色、对比度等底层图像信号的刺激,也受到大脑感知系统对于场景的理解和推导的影响,因此对于语义复杂的场景,显著性预测难度大大增加
●随着观看时间的推移,显著区域会产生迁移,并具有一定延时性,需要对其时域特征进行良好的建模
此前方案大部分使用了基于image的骨干网络来进行特征提取,时域建模使用LSTM/GRU或者3D卷积来进行。团队沿用了encoder-decoder架构,整体结构如下图,输入一组RGB视频帧,最终输出显著性图谱。显著性图谱以灰度图表示,像素范围0-255,数值越高代表显著性程度越高。其中,特征编码器为视觉编码器提取视频序列的多层级特征。特征解码器包含特征上采样模块、时序注意力模块、3D卷积、上采样、2D卷积、Sigmoid等模块。
视觉基础模型
特征上采样模块
00
(UMT)
0
时序注您力模块
+F80H+C
输入:视倾序列06幢)
特证编闷
梦证解码8
轴出:温著性图谐
编码器的选择上,选取了针对video的视频基础模型UMT(Unmasked Teacher)来作为encoder,其网络使用预训练的vision Transformer(ViT)。通过分别提取ViT不同块的
输出(第5,11,17,23),可得到不同层级的视频特征,这些特征包含丰富的底层细节和高层语义信息,同时也建模了视频不同帧间的时序关系。
解码器的设计上,采用了类似U-Net的分层上采样结构,在使用3D卷积对编码器特征进行时域降维的同时,进行不同尺度的空域上采样,并将不同层级的特征进行融合。此外,团队引入了时序注意力模块,以应对显著性的时域延迟和场景切换问题。这种设计不仅提升了模型对视频内容的理解能力,也为捕捉动态变化提供了有效支持。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)