AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架

火山引擎多媒体实验室

  • 2024-03-05
    北京
  • 本文字数:1798 字

    阅读完需:约 6 分钟

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架

随着相关技术和应用的发展,比如超高清屏幕、虚拟现实(VR)等沉浸式体验的增加,用户对超高分辨率图像和视频的需求变得越来越强烈。在这些场景中,图像的质量和清晰度对于提供最佳的用户体验至关重要。超高分辨率不仅能提供更清晰、更真实的视觉效果,还能在一定程度上增强人们的互动和沉浸感,在一些 VR 场景中我们需要 8K 甚至 16K 的才可以满足需求。然而要生成或者处理这些超高分辨率的内容,对算力的要求也是与日增长,对相关算法提出了挑战。


超分辨率是一个经典的计算机底层视觉问题,该问题要解决的是通过低分辨率的图像输入,获得高分辨率的图像输出。目前该领域的算法模型主要是有 CNN 以及 Transformer 两大类别,考虑到实际的应用场景,超分的一个细分领域方向是算法的轻量化。在上述提到的超高分辨率的场景,超分算法的算力消耗问题变得尤为关键。基于此,本文提出了一种名为 CAMixerSR 的超分框架,可以做到内容感知,通过对 Conv 和 Self-Attention 的分配做到计算量的大幅优化。


论文地址:http://arxiv.org/abs/2402.19289


方法


Table 1 不同难易程度内容的超分算力与效果对比


我们在对内容进行分块并且根据处理的难易程度分成了简单、中等、困难三个类型,并且使用不同 FLOPS 的计算单元,Conv 以及 SA+Conv 两种类型进行比较,发现对于简单的模块我们可以利用较少的 FLOPS 进行计算,并且可以得到较为不错的 PSNR 结果,只有在中等以及困难的分块内容中,SA+Conv 的效果优势才较为明显。通过这个实验我们发现,如果对内容进行分块并且动态调整优化处理策略,有可能在保持性能的同时,大幅降低 FLOPS。


图 1 CAMixer 的算法框架


上图是我们方案的整体流程图,可以看到,我们的方案分成了三个部分,包括 Predictor 模块,Self-Attention 模块以及 Convolution 模块。其中的 Predictor 模块是基于局部条件以及全局条件以及对应的线性位置编码函数,通过该模块,我们可以输出 Offsets Maps、Mixer Mask、Spatial Attention、Channel Attention,这些信息在 Self-Attention 模块以及 Convolution 模块的后续计算中进行使用。 CAMixerSR 中网络的主体模块是基于 SwinIR-light 进行优化。对于复杂区域,我们使用 offsets map 来进行更高效的 attention 计算,并且将输入和 V 分成了简单和困难两种分块,从而得到对应的 Q 和 K,并且将他们分别进行计算,得到 attention 部分的 V。Convolution 模块我们使用 depth-wise 进行计算,将 Self-Attention 的结果合并后即可得到我们最后的输出结果。

实验


图 2 Predictor 模块输出的 Mask 可视化结果


图 2 显示了我们的 Predictor 模块的输出结果,可以看到在很多的场景里,不同的区域内容有较为大的差异,并且我们的算法可以精准预测出分块的类型。


表 2 CAMixerSR 在超高分辨率数据集上的实验对比


表 2 和表 3 是 CAMixerSR 与之前高性能超分在超高分辨率数据集上做的实验对比,我们可以看到,在多个数据集(F2K、Tesk2K、Tesk4K、Tesk8K)上,相比经典的 Transformer based 超分方案 SwinIR-light,CAMixerSR 都有比较大的优势,在经过我们的方案优化后,可以做到 PSNR 接近的情况下节约将近一半的 FLOPS 以及参数量 Params。


表 3 CAMixerSR 通用超分辨率数据集上的实验对比


除了超大分辨率的场景,我们的方案在一些通用场景下同样有不错的性能优势,表 3 中我们在一些常见的超分测试集上和一些常见的高性能超分方案进行了测试。


表 4 CAMixerSR 在球面超分辨率数据集上的实验对比


球面内容是一个重要的超高分辨率场景,我们在两个全景超分数据集上进行了测试,甚至不需要通过球面数据集进行训练,仅进行测试的情况下同样发现我们的方案在 PSNR 效果以及性能上都超过了过去的方案。在这项实验中可以表明 CAMixserSR 在沉浸式场景有比较大的收益潜力。

火山引擎多媒体实验室简介


火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。


火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。

2024-03-05 17:588272
用户头像
鲁冬雪 GMI Cloud China Marketing Manager

发布了 364 篇内容, 共 290.5 次阅读, 收获喜欢 299 次。

关注

评论

发布
暂无评论
发现更多内容

你知道这个提高 Java 单元测试效率的 IDEA 插件吗

JAVA旭阳

Java

什么是AirServer?2024版本如何下载安装包

茶色酒

AirServer

GLM国产大模型训练加速:性能最高提升3倍,显存节省1/3,低成本上手

OneFlow

人工智能 深度学习

FPGA:Verilog HDL程序的基本结构

timerring

FPGA

FPGA:逻辑功能的仿真与验证

timerring

FPGA

复习前端:CSS

devpoint

CSS Flex scss BFC

空降负责人如何与团队建立信任?

石云升

极客时间 1月月更 技术领导力实战笔记

影响产品开发决策的认知偏见

俞凡

认知

模块5 微博高性能计算架构设计

KING

消息队列存储数据消息Mysql设计

闲人Eric

架构实战营

如何用Know Streaming来查询Kafka的消息

石臻臻的杂货铺

Kafk

精华推荐 | 【深入浅出 RocketMQ原理及实战】「底层源码挖掘系列」透彻剖析贯穿RocketMQ的消费者端的运行核心的流程(上篇)

码界西柚

RocketMQ 消息队列 原理分析

设计微博系统中”微博评论“的高性能高可用计算架构

悟空

架构 高可用 高性能 微博评论

如何判断候选人与岗位的匹配程度?

石云升

极客时间 1月月更 技术领导力实战笔记

如何妥善且优雅地做好解聘工作?

石云升

极客时间 1月月更 技术领导力实战笔记

国产 ETL工具 ETL产品 数据交换系统

weigeonlyyou

postgresql hadoop elasticsearch Prometheus 时序数据库

CrossOver2023软件Mac电脑版虚拟机安装包

茶色酒

CrossOver2023

海外拥有最庞大社区人群的Verasity($VRA),后市值得期待

股市老人

OneFlow v0.9.0正式发布

OneFlow

人工智能 深度学习

KaiwuDB 荣获稀土掘金引力榜-年度最佳实践案例

KaiwuDB

多模数据库 数据库解决方案

企业架构治理指什么,如何做?

涛哥 数字产品和业务架构

架构治理 企业构架

IntelliJ中高效重构的 10 个快捷方式

JAVA旭阳

Java

会声会影2023功能强大的视频编辑软件

茶色酒

会声会影2023

PHP转Go实践:xjson解析神器「开源工具集」

王中阳Go

php golang 高效工作 学习方法 Go web

问题代码定位神器: Git Bisect

俞凡

git

简述styled-components性能

devpoint

CSS React 样式组件 前端性能

复习前端:浏览器渲染机制

devpoint

DOM CSSOM 渲染树 重绘 重排

Verilog HDL仿真常用命令

timerring

FPGA

模块六作业

Ryan

架构

2022年回顾:一个37岁中年程序员的一百场面试

无人之路

自动驾驶 面试 求职 大厂 跳槽

极客时间运维进阶训练营第12周作业

独钓寒江

深度拆解:CVPR 2024 CAMixerSR 动态注意力分配的超分辨率加速框架_字节跳动_InfoQ精选文章
OSZAR »