近日,AI顶级学术会议IJCAI 2022(人工智能国际联合会议,International Joint Conference on Artificial Intelligence)发布了论文录用结果。
IJCAI始于1969年,每年举办一次,是学术界和产业界极负盛名的AI会议,代表了国际前沿的科研水平,延续了上一年严格的审稿标准,在4535篇投稿论文中,IJCAI 2022论文接收率低至15%。
腾讯优图实验室共有三篇论文入选,内容涵盖语义分割、人脸伪造视频检测、神经头像合成等研究领域。文中提及的多项AI技术,能够广泛应用在数字产业,有效提高生产效率,优化用户体验。
以下为腾讯优图实验室入选的论文简介:
从图像标签文本中进行迭代式小样本语义分割
Iterative Few-shot Semantic Segmentation from Image Label Text
弱监督小样本语义分割旨在进一步降低小样本语义分割问题中的标注成本,它依靠数量极少的、仅包含图像级类别标注的训练样本,学习到对新类别物体的像素级分割能力。
然而,现有工作对类别标注的利用效率低下,其分割效果远远低于从像素级标注中学习得到的小样本语义分割模型。
在本文中,我们提出了一个通用的两阶段弱监督小样本语义分割框架。在第一阶段,我们基于图像特征与文本特征的相似度CAM图,得到了新类别分割结果的先验估计。在第二阶段,我们设计了一个用于训练样本与新类别物体相互优化的模块IMR,迭代地对新类别分割结果的后验估计进行更新。
在Pascal-5i,COCO-20i数据集上的实验表明,我们的方法大幅超越现有的弱监督小样本语义分割方法,逼近甚至超越了先进的小样本语义分割方法。
基于区域感知时序不一致性学习的伪造视频检测
Region-Aware Temporal Inconsistency Learning for DeepFake Video Detection
人脸伪造视频检测旨在鉴别视频中的人脸内容是否被编辑篡改。现有的Deepfake视频检测方法试图基于时序不一致性来捕获真假人脸之间的判别特征。然而,这些方法往往采用共享的静态卷积核, 忽视了伪造人脸视频中不同时空区域具有差异化的动态特征这一特点。
为了解决上述问题, 我们提出一种基于区域感知的时序不一致性学习方法, 设计可学习的动态卷积核自适应地捕捉到不同时空区域的不同伪造线索。此外, 构建基于 snippet 的新型视频帧采样策略, 提出snippet信息交互模块来建模视频的全局表征。
在基准伪造人脸检测数据集 FaceForensics++、WildDeepfake、Celeb-DF 和 DFDC上的大量实验结果和分析表明,我们方法同时具有较好的泛化性和可解释性。
基于3D控制的高保真头像合成
HifiHead: One-Shot High Fidelity Neural Head Synthesis with 3D Control
神经头像合成旨在利用神经网络生成特定的头像结果,要求维持源头像的外表并且控制该头像的运动信息,比如姿态表情视线等等。
然而,现有工作大多只关注低分辨率场景,做不到高保真高质量的头像生成。
在本文中,我们提出了一个基于3D Morphable人脸模型参数控制的高保真头像合成算法。具体的,我们探索了基于StyleGAN的生成先验来实现高质量的头像合成与编辑。我们首先融合了源图像的外表和给定的运动信息来构建3D人脸特征用作生成器的隐编码。同时,我们还从源图像提取了多尺度层次化的特征来注入到生成器模块,以便提供高保真的外表信息。此外,我们还重新设计了生成器的子模块,在进行特征优化的同时还预测了稠密运动信息场用于特征对齐。
在VoxCeleb数据集上的实验表明,我们的方法能够很好的融合源图像的外表和目标图像的运动信息,同时得到更加真实高清的结果,优于其他SOTA方法。