1 如何使用语义分割概率图作为语义先验来约束超分辨率的解空间-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用语义分割概率图作为语义先验来约束超分辨率的解空间

商汤科技SenseTime 来源:未知 作者:李倩 2018-05-28 16:28 次阅读

商汤科技在CVPR 2018发表论文44篇,录取论文在以下领域实现突破:大规模分布式训练、人体理解与行人再识别、自动驾驶场景理解与分析、底层视觉算法、视觉与自然语言的综合理解、物体检测、识别与跟踪、深度生成式模型、视频与行为理解等。

以下是在底层视觉算法领域,商汤科技提出的面向生成更自然真实纹理图像的超分辨率算法。本文为商汤科技CVPR 2018论文解读第3期。

简介

单帧图像超分辨率旨在基于单张低分辨率图像恢复对应的高分辨率图像。卷积神经网络近年在图像超分辨率任务中表现出了优异的重建效果,但是恢复出自然而真实的纹理依然是超分辨率任务中的一大挑战。

如何恢复出自然而真实的纹理呢?一个有效的方式是考虑语义类别先验,即使用图像中不同区域所属的语义类别作为图像超分辨率的先验条件,比如天空、草地、水、建筑、森林、山、植物等。不同类别下的纹理拥有各自独特的特性,换句话说,语义类别能够更好的约束超分辨中同一低分辨率图存在多个可能解的情况。如图1中展示的建筑和植物的例子,它们的低分辨率图像块非常类似。虽然结合生成对抗式网络(GAN)进行超分复原,若未考虑图像区域的类别先验信息,获得的结果虽然增加了纹理细节,但是并不符合图像区域本身应该具有的纹理特点。

图1:

不同的语义先验对

建筑和植物区域图像超分辨率的影响

在结合语义类别先验的过程中会遇到两个问题。第一个问题是,如何表达语义类别先验,特别是当一个图像中存在多种语义类别时。本文选择了语义分割概率图作为先验条件,其能提供像素级的图像区域信息,每个像素点的概率向量能够更精细地调控纹理结果。第二个问题是,如何有效地将语义先验结合到网络中去。本文提出了一种新的空间特征调制层(SFT),它能将额外的图像先验(比如语义分割概率图)有效地结合到网络中去,恢复出与所属语义类别特征一致的纹理。

最终结果显示(如图2所示)和现有的SRGAN模型以及EnhanceNet模型相比,使用空间特征调制层的超分辨率网络能够生成更加自然的纹理,恢复出的高分辨率图像视觉效果更为真实。

图2:

在4倍超分辨率下,

SRCNN、SRGAN、EnhanceNet

和本文提出SFT-GAN算法最终结果的比较

空间特征调制

本文提出的空间特征调制层受到条件BN层的启发,但是条件BN层以及其他的特征调制层(比如FiLM),往往忽略了网络提取特征的空间信息,即对于同一个特征图的不同位置,调制的参数保持一致。但是超分辨率等底层视觉任务往往需要考虑更多的图像空间信息,并在不同的位置进行不同的处理。基于这个观点,本文提出了空间特征调制层,其结构如图3所示。

图3:

空间特征调制层的结构

空间特征调制层对网络的中间特征进行仿射变换,变换的参数由额外的先验条件(如本文中考虑的语义分割概率图)经过若干层神经网络变换得到。若以F表示网络的特征,γ和β分别表示得到的仿射变换的尺度和平移参数,那么经过空间特征调制层得到的输出特征为:

空间特征调制层可以方便地被集成至现有的超分辨率网络,如SRResNet等。图4是本文中使用的网络结构。为了提升算法效率,先将语义分割概率图经过一个Condition Network得到共享的中间条件,然后把这些条件“广播”至所有的SFT层。本文算法模型在网络的训练中,同时使用了perceptual loss和adversarial loss,被简称为SFT-GAN。

图4:

网络框架示意图

实验结果

语义分割结果

如图5所示,当前基于深度学习的语义分割网络在低分辨率数据集上进行fine-tune后,对于大多数场景能够生成较为满意的分割效果。

图5:

语义分割结果

SFT-GAN和其他模型的结果比较

图6展示了SFT-GAN模型和其他模型结果的比较,可以看到基于GAN的算法模型SRGAN、EnhanceNet以及本文的SFT-GAN在视觉效果上超过了以优化PSNR为目标的模型。SFT-GAN在纹理的恢复上能够生成比SRGAN和EnhanceNet更自然真实的结果(图中的动物毛发、建筑物的砖块、以及水的波纹)。

图6:

本文SFT-GAN模型

和现有超分辨率模型的结果对比

在进行的人类用户评价中,SFT-GAN模型在各个语义类别上也比之前的基于GAN的方法有着显著的提升(如图7所示)。

图7:

人类用户评价不同算法效果

其他实验探究

本文还可视化了语义分割概率图和特征调制层参数的关系。图8中展示了建筑和草地类别的概率图以及网络中某一层的调制参数的联系。可以看到,调制参数和语义分割概率图有着紧密的联系,同时在调制参数中不同类别的界限依旧比较清晰。

图8:

语义分割概率图和特征调制层参数的联系

实际场景中,物体类别的分隔界限通常并不十分明显,比如图9中的植物和草的区域,它们之间的过渡是“无缝”且连续的,而本文中使用的语义分割概率图以及调制层的参数也是连续变化的。因此,SFT-GAN可以更为精细地调制纹理的生成。

图9:

SFT层能够更为精细地调制参数

本文还比较了其他结合先验条件的方式:

将图像和得到的语义分割概率图级联起来共同输入;

通过不同的分支处理不同的场景类别,然后利用语义分割概率图融合起来;

不考虑空间关系的特征调制方法FiLM。

从图10中可以看到:

方法1)的结果没有SFT层有效(SFT-GAN模型中有多个SFT层能将先验条件更为紧密地结合);

方法2)的效率不够高(SFT-GAN只需要进行一次前向运算);

方法3)由于没有空间位置的关系,导致不同类别之间的纹理相互干扰。

图10:

不同先验条件结合方式的结果比较

结论

本文深入探讨了如何使用语义分割概率图作为语义先验来约束超分辨率的解空间,使生成的图像纹理更符合真实而自然的纹理特性。还提出了一种新颖的空间特征调制层(SFT)来有效地将先验条件结合到现有网络中。空间特征调制层可以和现有的超分辨率网络使用同样的损失函数,端到端地进行训练。测试时,整个网络可以接受任意大小尺寸的图像作为输入,只需要一次前向传播,就能够输出结合语义类别先验的高分辨率图像。实验结果显示,相较于现有超分辨率算法,本文SFT-GAN模型生成的图像具有更加真实自然的纹理。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1083

    浏览量

    40449
  • 分辨率
    +关注

    关注

    2

    文章

    1058

    浏览量

    41918

原文标题:CVPR 2018 | 商汤科技论文详解:基于空间特征调制的图像超分辨率

文章出处:【微信号:SenseTime2017,微信公众号:商汤科技SenseTime】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    目标检测和图像语义分割领域性能评价指标

    目标检测和图像语义分割领域的性能评价指标
    发表于 05-13 09:57

    van-自然和医学图像的深度语义分割:网络结构

    概率值最大的分割结果,作为最后的分割。U-Net中常常会问为什么适用于医学图像这个问题.。首先分析医学影像数据特点:图像
    发表于 12-28 11:03

    van-自然和医学图像的深度语义分割:网络结构

    概率值最大的分割结果,作为最后的分割。U-Net中常常会问为什么适用于医学图像这个问题.。首先分析医学影像数据特点:图像
    发表于 12-28 11:06

    基于混合先验模型的分辨率重建

    在L1范数图像分辨率重建算法框架下,引入参数自适应估计,结合差分图像统计特性和概率分布模型提出一种基于混合先验模型的
    发表于 04-11 08:42 24次下载

    一种语义相似度学习的人脸图像分辨率算法_谢满军

    一种语义相似度学习的人脸图像分辨率算法_谢满军
    发表于 03-19 11:45 1次下载

    李飞飞等人提出Auto-DeepLab:自动搜索图像语义分割架构

    简单地移植图像分类的方法不足以进行语义分割。在图像分类中,NAS 通常使用从低分辨率图像到高分辨率图像的迁移学习 [92],而语义
    的头像 发表于 01-15 13:51 3761次阅读

    语义分割算法系统介绍

    图像语义分割是图像处理和是机器视觉技术中关于图像理解的重要任务。语义分割即是对图像中每一个像素点进行分类,确定每个点的类别,从而进行区域划分,为了能够帮助大家更好的了解
    的头像 发表于 11-05 10:34 6680次阅读

    RGPNET:复杂环境下实时通用语义分割网络

    本文介绍的论文提出了一种新的实时通用语义分割体系结构RGPNet,在复杂环境下取得了显著的性能提升。作者: Tom Hardy首发:3D视觉工坊...
    的头像 发表于 12-10 19:15 650次阅读

    分析总结基于深度神经网络的图像语义分割方法

    随着深度学习技术的快速发展及其在语义分割领域的广泛应用,语义分割效果得到显著提升。对基于深度神经网络的图像语义
    发表于 03-19 14:14 21次下载
    分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

    CVPR2020 | 即插即用!将双边分辨率用于语义分割网络,提升图像分辨率的有效策略

    本文是收录于CVPR2020的工作,文章利用低分辨率的输入图像通过分辨率网络生成高分辨率的图像,从而给语义
    发表于 01-26 19:51 1次下载
    CVPR2020 | 即插即用!将双边<b class='flag-5'>超</b><b class='flag-5'>分辨率</b>用于<b class='flag-5'>语义</b><b class='flag-5'>分割</b>网络,提升图像<b class='flag-5'>分辨率</b>的有效策略

    PyTorch教程-14.9. 语义分割和数据集

    划分为属于不同语义类的区域。与目标检测不同,语义分割在像素级别识别和理解图像中的内容:它对语义区域的标记和预测是在像素级别。 14.9
    的头像 发表于 06-05 15:44 641次阅读
    PyTorch教程-14.9. <b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    灵活且高增益的分布式光纤传感卷积(空间分辨率)技术

    空间分辨率是分布式光纤传感系统的关键指标,卷积可以突破脉冲光宽度对空间分辨率的限制,实现
    发表于 06-16 14:06 1266次阅读
    灵活且高增益的分布式光纤传感<b class='flag-5'>解</b>卷积(<b class='flag-5'>超</b><b class='flag-5'>空间</b><b class='flag-5'>分辨率</b>)技术

    实时语义与潜在先验网络和准平面分割

    论文在III-B部分描述了论文方法背后的SLAM管道。论文的2D潜在先验网络(LPN)在III-C中描述。LPN输出融合到论文在III-D中描述的论文新颖的准平面分段(QPOS)方法分割的地图
    的头像 发表于 07-19 15:55 553次阅读
    实时<b class='flag-5'>语义</b>建<b class='flag-5'>图</b>与潜在<b class='flag-5'>先验</b>网络和准平面<b class='flag-5'>分割</b>

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心
    的头像 发表于 07-09 11:51 823次阅读

    图像语义分割的实用性是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 414次阅读