视觉信号保真度

视觉信号保真度(VIF)是一种评估影像品质的方法,为基于自然场景统计和由人类视觉系统英语Human_visual_system_model提取影像信号的概念的图像质量评估参数。它由Hamid R SheikhAlan Bovik于2006年在德克萨斯大学奥斯汀分校图像和视频工程实验室(LIVE)开发,结果显示它与人类对影像质量的判断非常相近。VIF部署在Netflix VMAF的视频质量监控系统中,该系统控制Netflix传输的所有编码视频的影像质量。这占美国所有频宽消耗的35%,并且在全球视频流量中也不断增加。

概述

三维视觉环境的图像和视频都来自于自然场景(natural scene)。自然场景在所有可能的信号空间形成一个微小的子空间,科学家发明了复杂的模型来描述这些统计数据。但是大多数真实世界都会造成这些统计数据的失真,并使图像或视频信号不自然。VIF假设测试和参考图像之间的共享讯息与视觉品质高度相关,并采用自然场景统计(NSS)模型结合失真(通道)模型来量化这种共享讯息。与基于人类视觉系统(HVS)错误敏感度和结构测量的先前方法相比,VIF在消息理论中被使用,且不需要任何HVS或其他观察几何参数,就能产生完全参考(FR)质量评估(QA)方法;VIF也不需要任何需要优化的常数,就能与现有的QA方法相竞争。

具体来说,参考图像被建模后通过HVS通道,接著由大脑处理的随机“自然”源输出。参考图像的资讯被量化为HVS频道的输入和输出之间的相互资讯(mutual information),这是大脑可以从HVS输出中提取的最理想资讯。然后让相同的参考图像通过失真通道,并对测量进行量化。将这两个讯息组合,形成视觉质量与相对图像信息相关联的视觉信息保真度。

模型

来源模型(source model)

图像的的小波系数可用高斯尺度混和(Gaussain Scale Mixture, GSM)建模,以下针对特定子带进行多尺度多方位分解的模型,其他子带可以进行相似的模型。设给定子带中的小波系数为  表示整个子带和每个子带的空间索引集合,子带被分割成M块不重叠的区域,每块对应到一个M维的向量 

根据GSM模型

 

其中 是一个正数, 是一个平均为0且协方差为 的高斯向量。我们假设这M块区域彼此独立,且随机场  相互独立。

失真模型(distortion model)

我们利用小波域中的信号衰减和加性噪声来对失真过程进行建模。以数学式表示,如果 表示来自失真图像的特定子带的随机场, 是一个确定的常量场且  是一个平均为0且协方差为 的高斯向量,其中 ,那么

 

此外, 独立于  

人类视觉系统模型(HVS model)

基于视觉信号感知中的不确定性,限制了可以从来源和失真图像中提取的讯息量,HVS对此进行了额外的建模。这种不确定性的来源可以模拟为HVS模型中的视觉噪声,小波分解特定子带中的HVS噪声更进一步被建模为加性高斯白噪声。假设  是随机场,  是平均为0且协方差为  的高斯向量。  表示HVS输出端的视觉信号。在数学上,E=C+N且F=D+N’。其中N和N’是随机的且独立于   

定义

 定义为特定子带中所有区块的向量,同理定义 , ,   为给定   中机率最大的数。从参考图像中获取的资讯量为

 

而从测试图像中获取的资讯量为

 

VIF定义为

 

性能

评估LIVE图像质量评估数据库中,失真图像的VIF得分,与相应的人类意见得分之间的斯皮尔曼等级排序相关系数(SROCC)为0.96[1]。这显示该指数与人类对图像质量的感知非常相近,与最佳的FR IQA[1]算法一致。

参考文献

  1. ^ 1.0 1.1 (PDF) http://videoclarity.com/wp-content/uploads/2013/05/Statistic-of-Full-Reference-UT.pdf. (原始内容存档 (PDF)于2018-06-12).  缺少或|title=为空 (帮助)