阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量

9 月 21 日,记者在 2024 云栖大会上获悉,阿里巴巴达摩院计算技术实验室提出了一种基于结构保持网络的 AI 视觉算法,可将高动态范围(HDR)场景图像自动转换为低动态范围(LDR)图像并保持其纹理细节,在常规显示设备上的图像质量相比业界提升 7%。

阿里提出结构保持的 AI 视觉算法:显著提升 HDR 图像转 LDR 图像质量

HDR 图像同时包含强光源照射下的极亮区域和阴影、逆光下的极暗区域,容易出现明亮区域过曝、或者黑暗区域纯黑的情况,必须经过宽动态技术处理才能适配常规显示设备。传统的宽动态技术由于缺失自适应的局部与全局处理方法,会损失大量信息,生成结果局部粗糙或者全局锐化。业界也在探索基于 AI 的宽动态技术,最大挑战在于缺乏成对匹配的 HDR-LDR 数据,难以构建完备训练数据。

为此,该团队创新性地提出利用双流控制扩散网络保持图像在前向传播过程中的结构细节和色调风格,可实现零样本学习。具体而言,该方法采用平均值减除和对比度归一化(MSCN)技术,提取出 HDR 和 LDR 图像的共享结构特征作为 “桥梁”,引导扩散模型学习到 HDR 图像结构并维持 LDR 图像的色调风格,最终生成纹理细节丰富且色彩均衡的 LDR 图像。

基于标准的 HDRPS 色调映射数据集,该模型的 NIQE 和 TMQI 指标相比业界提升 7.11%和 0.61%。此外,达摩院团队将模型迁移到红外图像恢复领域,在公开的 VIS-NIR 数据集上取得了超过业界 10%的效果。相关学术论文《Zero-Shot Structure-Preserving Diffusion Model for High Dynamic Range Tone Mapping》被国际计算机视觉与模式识别会议(CVPR)收录为今年亮点(Highlight)。

据达摩院计算技术实验室介绍,该技术可帮助 ISP 芯片实现更智能的光线适应性和动态范围调整,也有望与其他多种扩散模型结合,发展 AIGC 技术的新可能。面向图计算、自动驾驶、多模态 AI、具身智能等新型计算需求,该团队将持续探索软硬件全栈创新,助力芯片产业和数字经济发展。

「点点赞赏,手留余香」

1

给作者打赏,鼓励TA抓紧创作!

微信微信 支付宝支付宝

还没有人赞赏,快来当第一个赞赏的人吧!

声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系maynote@foxmail.com处理
码云笔记 » 阿里提出结构保持的AI视觉算法:显著提升HDR图像转LDR图像质量

发表回复