面向视频文本检索的端到端多粒度对比学习方法,涉及视频文本检索任务。通过CLIP预训练模型进行帧和文本的特征提取,获得句子级别、单词级别和帧级别的特征;利用基于Transformer的时间编码器对帧级别的特征进行时序建模;将所有的帧级别特征平均池化,得到视频级别特征;将视频级别、帧级别和句子级别、单词级别特征两两点乘,得到视频‑单词,视频‑句子,帧‑单词,帧‑句子的相似度矩阵;将得到的视频‑单词,帧‑单词,帧‑句子的相似度矩阵,送入AOSM模块,计算示例级别的相似度。将视频‑单词,视频‑句子,帧‑单词,帧‑句子的实例级别相似度进行求和得到最终的视频和句子的相似度。 - 佰腾网专利查询 - 全球专利搜索领导品牌
面向视频文本检索的端到端多粒度对比学习方法