基于内容的图像检索

基于内容的图像检索(英语:Content-based image retrievalCBIR;或content-based visual information retrieval),属于图像分析的一个研究领域。基于内容的图像检索目的是在给定查询图像的前提下,依据内容信息或指定查询标准,在图像数据库中搜索并查找出符合查询条件的相应图片。

互联网络上传统的搜索引擎,包括GoogleYahoo以及MSN都推出相应的图片搜索功能,但是这种搜索主要是基于图片的文件名建立索引来实现查询功能(也许利用了网页上的文字信息)。这种从查询文字,文件名,最后到图片查询的机制并不是基于内容的图像检索基于内容的图像检索指的是查询条件本身就是一个图像,或者是对于图像内容的描述,它建立索引的方式是通过提取底层特征,然后通过计算比较这些特征和查询条件之间的距离,来决定两个图片的相似程度。

技术细节

基于内容的图像检索通常包括以下几个部分:

特征提取

可提取的特征可以包括颜色、纹理、平面空间对应关系、外形,或者其他统计特征。 图像特征的提取与表达是基于内容的图像检索技术的基础。从广义上讲,图像的特征包括基于文本的特征(如关键字、注释等)和视觉特征(如色彩、纹理、形状、对象表面等)两类。视觉特征又可分为通用的视觉特征和领域相关的视觉特征。前者用于描述所有图像共有的特征,与图像的具体类型或内容无关,主要包括色彩、纹理和形状;后者则建立在对所描述图像内容的某些先验知识(或假设)的基础上,与具体的应用紧密有关,例如人的面部特征或指纹特征等。

相似性(非相似性)的定义

从图像中提取的特征可以组成一个向量,两个图像之间可以通过定义一个距离或者相似性的测量度来计算相似程度。

弥补语义鸿沟

在传统的基于文字的查询技术中,不存在这个问题,因为查询关键字基本能够反映查询意图。但是在基于内容的图像查询中,就存在一个底层特征和上层理解之间的差异(这也就是著名的semantic gap)。主要原因是底层特征不能完全反映或者匹配查询意图。弥补这个鸿沟的技术手段主要有:

  • 相关反馈(relevance feedback):按照最初的查询条件,查询系统返回给用户查询结果,用户可以人为介入(或者自动)来选择几个最符合他查询意图的返回结果(正反馈),也可以选择最不符合他查询意图的几个返回结果(负反馈)。这些反馈信息被送入系统用来更新查询条件,重新进行查询。从而让随后的搜索更符合查询者的真实意图。
  • 图像分割(image segmentation):图像的特征可以包括全局特征和局部特征。如果进行一定程度的图像分割,划分出不同的分割区域,这样可以增加局部特征的信息量,也可能在一定程度弥补语义鸿沟。
  • 建立复杂的分类模型:一些比较复杂的非线性分类模型,比如支持向量机(Support Vector Machine)本身就可以起到一定程度的效果来弥补语义鸿沟。


查询模式

  • 按例查询(QBE-Query By Example):用户提供一个查询图片,在数据库中搜索相似图片。
  • 按绘查询(Query by sketch):用户在类似画笔的接口上面进行简单的绘画,依次为标准进行查询。
  • 按描述查询:例如,指定条件可以是30%的黄色,70%的蓝色等。

应用和研究

最早成功应用基于内容的图像检索技术的是IBM的QBIC系统。这个系统是为一个俄国博物馆制作的绘画作品查询系统。QBIC系统的网站为IBM的QBIC系统。除了IBM的QBIC系统之外,比系较著名的反向图像搜索统还包括UIUC大学的MARS系统、MIT的Photo book、UC Berkeley的Digital Library Project,加拿大的TinEye.com, 以及Columbia大学的VisualSEEk等。

参见

外部链接