安防监控,仅仅将画面记录下来只是第一步。当事件发生后,准确而快速地找到所需监控工来完成,浪费了检索人的大量精力。治安管理者迫切需要一种能够快速查找视频信息的方式,加快办案速度。在基于内容的视频检索技术、存储技术以及智能分析技术共同提升的环境下,海量视频检索离安防渐行渐近。
2011年6月16日,南京一骑电动车年轻女子被一辆货车超越时刮倒,22天后,在对事故地点附近学校、商场、网吧等单位的监控录像进行分析,并调取附近街区5万多张监控照片比对后,警方锁定肇事车辆;2011年7月13日,福州何先生乘坐出租车时,将自己的LV旅行包遗落在出租车上,内有现金2.1万元。派出所民警接警后,通过视频查到何先生乘坐的出租车,并于15日帮他找回了丢失的名牌旅行包;2011年7月27日凌晨,遵义一驾驶员驾车撞死行人后逃逸,警方调取了沿途视频监控录像,并在长达144小时的录像中,通过查找、分析和判断,锁定逃逸车辆……短短一月有余,诸多案件的侦破都利用了监控视频,可见查找监控视频已经成为警方破案不可或缺的一个手段。
随着平安城市等工程的推进,监控摄像头已经遍布大街小巷,这为大多数案件留下了影像资料,给警方破案带来了很大的便利。但是,有了相关视频不等于就找到了目标信息,查找视频、分析视频的工作常常会耗用警方大量的时间和人力。能否在海量视频中更方便、更省力地查找到相关信息呢?这有待视频检索技术的进一步发展。
视频检索技术当前的发展
检索技术源于互联网发展需求。基于文本索引的方法进行检索是当今最成熟的信息检索技术。各类搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技术为基础的。随着网络带宽不断的提高,人们可以更加快捷地将自己采集到的各种多媒体信息进行共享,或者进行多媒体信息的交互,越来越多的信息通过视频等多媒体的形式展现在互联网中,这对以图像、视频为代表的多媒体信息检索技术提出了越来越高的要求。20世纪90年代初,国际上开始了对视频方面的检索研究。区别于文字信息检索,图像视频的检索是建立在图像视频内容分析的基础上,所以常称之为基于内容的图像视频检索。1992年,“基于内容的视频检索”一词开始使用。十多年来,视频数据在获取、存储、操作及传输技术方面取得了重大的理论突破和技术进步。
基于内容的视频检索技术是针对音视频这类非结构化数据,使用了视频分割、自动数字化、语音识别、镜头检测、关键帧抽取、内容自动关联、视频结构化等技术,以图像处理、模式识别、计算机视觉、图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。
基于内容视频检索技术原理
视频数据按照由粗到细的顺序可以划分为四个层次结构:视频(Video)、场景(Scene)、镜头(Shot)和图像帧(Frame)。由于一个镜头内的相邻帧间的变化不是很大,它们之间的特征差值会限定在某个阈值范围内。而在镜头突变时,突变点前后两个相邻帧在内容上显示会有很大的变化,如果特征差值超过了给定的阈值,则意味着出现一个分割边界。镜头的关键帧就是反映该镜头中主要信息内容的帧图像。将各镜头检测出来后,对每个镜头可提取关键帧,并用关键帧简洁地表达镜头。关键帧数目的确定是关键帧提取中的一个重要问题,其确定方法可以根据镜头内帧的差异进行统计,求出其方差,用方差来衡量镜头视觉内容的复杂程度。方差越大,该镜头提取的关键帧数就越多。
从内容上对视频进行搜索,其特点包括:第一,直接从媒体内容中提取信息线索;第二,基于内容的检索是一种近似匹配,这一点与常规数据库检索的精确匹配方法有明显的不同;第三,动态特征提取和索引建立可由计算机自动实现,这避免了人工描述的主观性,也大大减少了工作量。基于内容检索时,根据媒体特征进行相似性匹配检索的媒体特征有:颜色、纹理、轮廓、形状、空间约束、动态、概念、结构描述及其他的图像信息。
基于内容的视频检索技术难点
2010年7月,美国哥伦比亚大学、卡耐基梅隆大学、西安电子科技大学、微软亚洲研究院等诸多在多媒体信息检索领域拥有实力的高校和研究机构参与的2010年图像与视频检索国际会议将多媒体检索急需解决的问题归纳为八个方面,包括大规模数据挖掘即互联网搜索问题、视觉概念标注问题、交互式的基于概念的搜索以及人机接口问题、相似图像检测以及视频复制行为的分析和研究、视觉搜索重排序问题、用户个性化检索、跨媒体理论与分析问题、视频拼接与合成问题。
在八大难点中,人机接口问题受到关注。它是指用户的搜索意图需要通过人机接口告诉计算机。在文本搜索引擎中,关键字可以很好地解决这个问题,然而,在内容、概念搜索时,如何将人的搜索意图转化为计算机容易理解的查询非常棘手。这就是所谓的“用户意图鸿沟”。用示例图像查询时存在示例图像本身的语义模糊性;用基于概念集的查询时又不够灵活。可见,用户的搜索意图的捕捉对整个检索系统的性能的提高起着至关重要的作用。
除此之外,基于内容的视频检索首先必须进行视频镜头分割、关键帧提取、镜头聚类,经过这些处理,然后才能通过对视频段之间特征空间的比较来进行视频段内容的比较。然而由于视频内容繁多且复杂,对视频的检索十分困难。
视频检索技术在安防行业
应用特点
目前全国治安监控中,大容量数字化存储已经得到了大量应用。随着高清化的普及,存储容量得到进一步扩大,如何查找录像,在海量数据中快速找到所需要的信息,对基于内容的视频检索需求越来越迫切。
安防行业的视频信息有几个特点:
1.数据量非常大。由于安防监控视频是对监控点进行连续、持续的监控,故视频文件非常庞大,按照TB进行量度(1TB=1024GB);2.人机接口较特殊。检索安防视频信息,往往是为了查验某个已经发生的事件。查阅信息者也许对事件发生时间、相关人员体貌特征等信息有一定概念,但对其在画面中处于什么位置甚至是否摄录到相关信息也许不确定;3.安防行业的视频信息存储与管理有自己一套封闭的系统;4.重复、静止视频量较大。
针对以上特点,如何对所拍摄的视频关键帧进行有效的分类管理、如何自动区分有效和无效画面,如何通过自动标注简化查找过程,如何更为细化地满足用户行业化需求进行视频数据的管理和存储以便快速查找都是需要解决的问题。
智能分析与存储技术发展让海量视频检索成为可能
海量视频检索,除了需检索技术发展之外,对于存储系统要求也是非常高的。目前安防行业视频信息前端与后端分别采用不同存储方式进行。如汉邦高科认为可采用DVR作为存储前端,后端的网络存储主要起到数据备份及报警数据备份作用;同有飞骥常用FC-FC、FC-SATA/SAS、ISCSI-SATA/SAS几种组合进行存储系统安装等等。总而言之,在视频监控前端的存储往往具有时间序列的流媒体特性,而后端主要是进行数据备份和集中管理。在这种模式下,相关的视频数据在各个分控的前端存储设备上进行保存,也可同时按照需求进行备份,当需要某个数据的时候,由集中管理平台调阅相关数据显示。
海量视频检索,智能分析技术不可或缺。在前端,智能分析可将每段视频都打上特有的标记,以便快速查找。比如要查找一些重要画面的视频,对于夜间静止的视频就可以快速跳过,此时即可利用智能分析工具在存入静止视频数据的同时打上标记,这样在查找人时候就可以快速跳过该文件。其它前端智能分析方法包括移动侦测、异常聚集、烟雾检测等。经过初步智能分析的文件还可进行数据的二次备份。相关的视频数据存储在各个分控的前端存储设备上,需要的时候由集中管理平台调阅相关数据显示。后端数据的管理和检索可由应用层软件或平台软件来实现,也可配套相应的智能化开发,比如将人脸识别加入存储设备中,可以对某段视频进行具体人的定位等。
智能分析与存储技术就像两条腿,必须协调起来,配合行走才能抵达海量视频检索的目的地。智能化对存储的控制器处理能力,存储设备软件兼容性等都提出了较高要求,而存储系统没有智能化的帮助是难以完成视频检索的。
结束语
虽然当前治安视频检索主要还是靠人工进行,但相关技术正在改进。随着基于内容的视频检索技术的发展,以及存储技术和智能分析技术的不断给力,海量视频检索离安防会越来越近,并最终带来视频信息利用与管理的飞跃。