程序员所说的开源代码从哪里找4月16日七篇将

cht 2022-11-30 7次阅读

今日将或已开源论文有 ICRA 2021，也有 CVPR 2021，还有一篇 CVPR 2020 的，包含音频驱动的赋有情感的人脸合成、视频超分辨率和单图像超分辨率以及 Transformer 在视图合成的应用等。

#人脸合成## CVPR2021#

1、Audio-Driven Emotional Video Portraits

南大&港中文&悉尼大学&商汤&南洋理工大学&清华

将开源：https://github.com/jixinya/EVP/

论文：https://arxiv.org/abs/2104.07452

主页：https://jixinya.github.io/projects/evp/

程序员所说的开源代码从哪里找（4月16日七篇将）(1)

2、A Simple Baseline for StyleGAN Inversion

中国科学技术大学&微软&香港城市大学 &Wormpex AI研究

文章提出一个简单的前馈 GAN 逆映射网络，使其性能在效率和质量上都有显著提升。

而这种改进来源于以下三个方面：

1）所设计的该更高效的 GAN 逆映射网路具有shallow backbone, hierarchical latent code regression 和 efficient prediction heads。

2）引入 multi-layer identity 损失和 multi layer parsing 损失

3）纯基于前馈的 multi-stage refinement

并通过大量实验证明所提出方法比现有的基于前馈方法的性能要好得多，且与基于最先进的优化方法相比，效率更高。

将开源：https://github.com/wty-ustc/StyleGAN-Inversion-Baseline

论文：https://arxiv.org/abs/2104.07661

主页：https://wty-ustc.github.io/inversion/

程序员所说的开源代码从哪里找（4月16日七篇将）(2)

#自监督##视频目标分割###

3、Self-supervised Video Object Segmentation by Motion Grouping

牛津大学

本次研究，利用动物在复杂的环境下也能辅助感知，致力于开发一种能够利用运动线索分割物体的计算机视觉系统，即运动分割。

首先引入一个简单的 Transformer 变体，将光流帧分割成主要物体和背景；其次以自监督的方式对该架构进行训练，而不使用任何的手动标注；然后对所提出方法的几个关键组件进行分析，并通过消融研究，来验证其必要性。

最后在公共基准（DAVIS2016、SegTrackv2和FBMS59）上对所提出的架构进行评估。

实验结果表明，尽管只使用光流作为输入，也实现了优于或与以前最先进的自监督方法相当的结果，同时是一个数量级的速度。

此外，还在一个具有挑战性的伪装数据集(MoCA)上进行了评估，显著优于其他自监督方法，并与顶级监督方法进行了有利的比较，突出了运动线索的重要性，以及现有视频分割模型中对视觉外观的隐藏偏见。

将开源：https://github.com/charigyang/motiongrouping

主页：https://charigyang.github.io/motiongroup/

论文：https://arxiv.org/abs/2104.07658

程序员所说的开源代码从哪里找（4月16日七篇将）(3)

#视图合成##Transformer#

4、Geometry-Free View Synthesis: Transformers and no 3D Priors

海德堡大学

引入一种基于 transformers 的概率方法，用于从具有强烈视角变化的单一源图像中进行新视图合成。

作者对transformers 的各种显式和隐式 3D 感应偏置进行比较，结果表明，在架构中显式使用 3D 变换对其性能没有帮助。

此外，即使没有深度信息作为输入，模型也能学会在其内部表示中推断深度。

这两种隐式 transformer 方法在视觉质量和保真度上都比目前的技术状态有显著的改进。

将开源：https://github.com/CompVis/geometry-free-view-synthesis

论文：https://arxiv.org/abs/2104.07652

程序员所说的开源代码从哪里找（4月16日七篇将）(4)

#CVPR 2020##视频超分辨率#

5、Zooming SlowMo: An Efficient One-Stage Framework for Space-Time Video Super-Resolution

普渡大学&罗切斯特大学&东北大学（美）

本文针对时空视频超分辨率，旨在从低分辨率(LR)和低帧率(LFR)视频序列中生成高分辨率(HR)的慢动作视频。

首先作者提出一个比较简单的构思，将它分解为两个子任务：视频帧插值（VFI）和视频超分辨率（VSR）。

然而，在这个问题上，temporal interpolation 和 spatial upscaling 是相互关联的。

Two-stage 方法不能完全利用这一自然属性。

另外，最先进的 VFI 或 VSR 深度网络为了获得高质量的逼真视频帧，通常需要一个大的帧重构模块，这使得 two-stage 方法需要一个很大的模型，因此比较耗时。

考虑到上述问题，作者提出 one-stage 时空视频超分辨率框架，可以直接从输入的 LR 和 LFR 视频中重建 HR 慢动作视频序列。

它没有像 VFI 模型那样重建缺失的 LR 中间帧，而是通过特征时空插值模块对缺失的 LR 帧特征进行时空插值，捕捉局部时空背景。

实验结果表明所提出的框架不仅在干净的和有噪声的 LR 帧上实现了更好的定性和定量性能，而且比最近最先进的two-stage 网络快数倍。

已开源：https://github.com/Mukosame/Zooming-Slow-Mo-CVPR-2020

论文：https://arxiv.org/abs/2104.07473

视频：https://www.youtube.com/watch?v=C1o85AXUNl8

#ICRA 2021#

6、Auto-Tuned Sim-to-Real Transfer

伯克利&卡内基梅隆大学联合提出系统自动识别程序，其主要思想是将调谐模拟问题改写为搜索问题。

然后设计一个搜索参数模型（SPM），利用现实世界的原始像素观测值更新系统参数。

实验证明所提出方法在一系列机器人控制任务上，在 sim-to-sim 和 sim-to real 迁移中，都优于 domain randomization（域随机化）。

已开源：https://github.com/yuqingd/sim2real2sim_rad

主页：https://yuqingd.github.io/autotuned-sim2real/

论文：https://arxiv.org/abs/2104.07662

程序员所说的开源代码从哪里找（4月16日七篇将）(5)

#图像超分辨率#

7、BAM: A Lightweight and Efficient Balanced Attention Mechanism for Single Image Super Resolution

浙江大学&加州理工学院

本文提出一种轻量高效的平衡注意力机制（BAM），可普遍适用于不同的 SISR 网络。

它由 Avgpool Channel Attention Module（ACAM）和 Maxpool Spatial Attention Module（MSAM）组成。

这两个模块并联在一起，可以减少误差积累和串扰。

为了减少冗余信息对注意力产生的不良影响，作者只对通道注意力应用 Avgpool，因为 Maxpool 可以拾取特征图中跨空间维度的 illusive extreme points，然后只对空间注意力应用 Maxpool，因为沿通道维度的有用特征通常以最大值的形式存在于 SISR 任务中。

作者将其应用于 12 个最先进的 SISR 网络，其中 8 个没有 attention，将 BAM 插入其中，4 个有 attention，因此用 BAM 替换其原有的 attention 模块。

以此验证 BAM 的效率和鲁棒性。

在 Set5、Set14 和 BSD100 基准数据集上进行实验，scale factor 为 x2 ， x3 和 x4 。

结果表明，BAM 可以普遍提高网络性能。

此外，还进行了消融实验来证明 BAM 的最小化。

结果表明，BAM 的并行结构可以更好地平衡信道和空间注意力，从而优于之前卷积块注意力模块（CBAM）的系列结构。

已开源：https://github.com/dandingbudanding/BAM_A_lightweight_but_efficient_Balanced_attention_mechanism_for_super_resolution
论文：https://arxiv.org/abs/2104.07566