Estimación de fondo de escena en secuencias de vídeo

Anteproyecto de Fin de Carrera
Estimación de fondo de escena en secuencias de vídeo
Alumno:
Jaime Gallo de Cal
Tutor:
Ponente:
Diego Ortego Hernández
Jose Maria Martinez Sánchez
INTRODUCCIÓN
Actualmente, el avance de la tecnologia y la necesidad de seguridad han provocado la expansión
de cámaras de video-vigilancia [1] en todo tipo de entornos públicos y privados. Este nuevo
escenario ha provocado la necesidad de automatizar los procesos de monitorización, mediante
algoritmos de visión por computador, para ayudar asi a los operadores de seguridad a identificar
posibles eventos de interes.
Una primera etapa en los algoritmos de monitorización, es la detección de las regiones de interes
(objetos o personas). Es habitual realizar esta tarea mediante algoritmos de segmentación fondofrente, conocidos como algoritmos de Background Subtraction (BS) [2].
El objetivo de las tecnicas de BS es obtener una máscara binaria de los objetos de interes o
foreground que hay en la escena. Para ello, estos algoritmos construyen un modelo del fondo o
background de la escena con el que comparar cada imagen bajo análisis y obtener asi la máscara
binaria de objetos de frente. Concretamente, un algoritmo de BS se puede definir en función de la
estrategia seguida para abordar las etapas de Modelado del fondo, Inicialización del fondo,
Actualización del fondo y Detección de frente [2]. El Modelado del fondo genera un modelo de
escena cuyo objetivo es capturar la multimodalidad de la misma, haciendo asi frente a fondos
dinámicos (p.ej. árboles, escaleras mecánicas o fuentes). Mediante el modelado de estos
movimientos inherentes a la escena, se consiguen evitar gran cantidad de falsas detecciones en la
etapa de Detección de frente. Por otro lado, la Inicialización del fondo o Background Initialization
(BGI) define los procedimientos seguidos para generar una imagen de fondo de escena o True
Background (TB) evitando la aparición de objetos de frente. Esta etapa permite construir un punto
de partida adecuado para el Modelado del fondo. La tarea de la Actualización del fondo es adaptar
el modelo a las variaciones de la escena a lo largo del tiempo, mientras que la Detección de frente
define cómo detectar los objetos de la escena mediante comparaciones entre los frames bajo
análisis y el modelo de fondo construido.
Es importante diferenciar entre las etapas de Modelado de fondo, donde el principal objetivo es
lidiar con fondos dinámicos, de la etapa de BGI cuyo objetivo es generar una imagen de fondo
libre de objetos de frente, es decir, el TB. Este Proyecto de Fin de Carrera (PFC) va a abordar la
etapa de BGI, pues en el estado de arte es habitual construir un TB de la escena combinando el
modelado y la actualización del fondo [3], tecnica que suele generar TB erróneos.
La etapa de BGI consiste en generar el TB de la escena a partir de una secuencia de video de
entrenamiento en la que generalmente aparecen objetos de frente ocluyendo el fondo. Este
proceso es complejo y sufre problemas relacionados con la visibilidad del fondo y con factores
fotometricos. Por un lado, la visualización del fondo es un factor clave debido a que ciertas
regiones pertenecientes al fondo de la escena pueden ser visibles solo en breves instantes. Este
aspecto, limita el rendimiento de tecnicas tradicionales, donde el TB se reconstruye atendiendo a
criterios de repetitividad en la visualización. Por otro lado, factores fotometricos como las sombras
y los cambios de iluminación dificultan la reconstrucción del fondo de escena, debido a que
generan distintas representaciones válidas del mismo.
En el estado del arte, la etapa de BGI suele afrontarse empleando información temporal y
espacial. La información temporal analiza las variaciones de intensidad a lo largo de la secuencia
de entrenamiento, siendo habitual el uso tanto de información de movimiento mediante flujo óptico
[4][5] o diferencias entre frames consecutivos [6][7], como de estabilidad temporal mediante
tecnicas de intervalos de intensidad estable [5][8] o tecnicas de agrupamiento temporal [9][10]. No
obstante, la información temporal no es capaz de discernir entre fondo y frente estático. Para
abordar esta limitación se necesita incorporar información espacial, tarea que en la literatura se
lleva a cabo basándose en la suposición de homogeneidad del fondo. Esta homogeneidad suele
introducirse mayoritariamente mediante esquemas de optimal labeling [11][12] o en esquemas de
reconstrucción iterativa del fondo [9][10].
Observando el estado del arte reciente, existen distintas perspectivas para afrontar la tarea de
inicializar el fondo de una escena. No obstante, ninguno de ellos ofrece un buen rendimiento en
todas las situaciones, ya sea porque no son capaces de hacer frente a objetos parados en la
escena durante largos periodos de tiempo o porque no hacen frente a cambios de iluminación en
la secuencia de entrenamiento.
MOTIVACIÓN Y OBJETIVOS
En general, los algoritmos de BS asumen que la obtención del fondo de escena es una tarea
sencilla pues este es visible en los primeros instantes de las secuencias de video. Esta asunción
no es correcta en muchos entornos, pues son habituales las multitudes de gente que ocluyen el
fondo continuadamente. Desde una perspectiva a largo plazo, podria pensarse que este problema
no es tal pues en algún instante se visualizará el fondo libre de objetos. No obstante, es frecuente
la existencia de objetos estáticos que se quedan parados en la escena, contaminado asi los
modelos de fondo empleados por las tecnicas tradicionales. Por tanto, una generación de fondo
más compleja puede aportar una información muy útil para labores tanto de inicialización al
principio de la escena, como de re-inicialización del modelo a lo largo de la misma.
En este Proyecto Fin de Carrera el principal objetivo es desarrollar un algoritmo de estimación de
fondo de escena para secuencias de video con cámara estática que mejore las aproximaciones
actuales del estado del arte. Para ello se explorarán visiones multi-camino y multi-semilla en el
marco de una reconstrucción espacial iterativa basada en la suposición de fondo homogeneo y
además se introducirá un agrupamiento temporal online que permita modelar las representaciones
de la escena y detectar movimiento. El desarrollo del objetivo principal se desarrollará mediante
los siguientes sub-objetivos:
1. Estudio del estado del arte actual: Se analizarán los algoritmos de estimación de fondo de
escena para comprender los mecanismos tradicionales y sus limitaciones.
2. Implementación de un algoritmo de Inicialización de fondo de escena: Se partirá de un
algoritmo desarrollado en el Grupo de Tratamiento e Interpretación de Video (VPU Lab)
de la Escuela Politecnica Superior de la Universidad Autónoma de Madrid (UAM) y se
desarrollarán mejoras relacionadas con un análisis multi-camino y multi-semilla, asi como
para añadir la posibilidad de trabajar de forma online.
3. Evaluación comparativa de resultados: Se validará el rendimiento del algoritmo
desarrollado evaluando de forma incremental las aportaciones realizadas. Si fuese
necesario, se extenderán tanto el conjunto de datos a emplear como las aproximaciones a
comparar mediante la implementación de algún nuevo metodo.
4. Conclusiones y análisis de resultados: La evaluación incremental permitirá conocer las
capacidades del algoritmo y extraer conclusiones sobre el mismo.
METODOLOGÍA Y PLAN DE TRABAJO
1. Estudio del estado del arte de Inicialización de fondo
•
Estudio de la literatura reciente: Algoritmos y sus propiedades.
•
Estudio del algoritmo previo desarrollado en el VPU Lab.
2. Mejora de algoritmo previo
•
Incorporación de agrupamiento temporal online: Tecnica disponible y mejoras.
•
Desarrollo de tecnica de reconstrucción espacial.
3. Evaluación de resultados
•
Evaluación del algoritmo en competiciones recientes de estimación de fondo.
•
Evaluación del algoritmo y sus distintas partes en un conjunto de datos extenso.
•
Comparación con algoritmos recientes del estado del arte.
4. Redacción del PFC
•
Conclusiones.
•
Futuras lineas de investigación.
MEDIOS
Los medios necesarios para la realización del PFC serán facilitados por el Grupo de Tratamiento e
Interpretación de Video (VPU) de la Escuela Politecnica Superior de la Universidad Autónoma de
Madrid (UAM). De los medios disponibles, cabe mencionar los de aplicación al presente PFC:
•
Un parque de PCs (Windows/Linux) interconectados a traves de la red de área local y con
acceso a Internet.
•
Herramientas de análisis de secuencias de video-seguridad.
•
Rack de PCs servidores de secuencias de video de cámaras de seguridad.
•
Herramientas para el desarrollo de proyectos software.
•
Biblioteca de libros y revistas de Tratamiento Digital de Señal e Imágenes.
REFERENCIAS
[1] J. SanMiguel, J. Bescós, J. Martinez, and A. Garcia, “Diva: A distributed video analysis
framework applied to video-surveillance systems,” Proceedings of IEEE International.
Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS), pp. 207-210,
2008.
[2] T. Bouwmans, “Traditional and recent approaches in background modelling for foreground
detection: An overview,” Computer Science Review, vol. 11-12, pp. 31–66, 2014.
[3] L. Maddalena, A. Petrosino, “Background Model Initialization for Static Cameras”, in T.
Bouwmans, F. Porikli, B. Höferlin, and A. Vacavant (Eds), Background Modeling and
Foreground Detection for Video Surveillance, ch. 3, pp. 1-16, Chapman and Hall/CRC
2014.
[4] C. Chia-Chih and J. Aggarwal, “An adaptive background model initialization algorithm with
objects moving at different depths,” in Proceedings of IEEE International Conference on
Image Processing (ICIP), pp. 2664–2667, 2008.
[5] D. Gutchess, M. Trajkovics, E. Cohen-Solal, D. Lyons, and A. K. Jain, “A background model
initialization algorithm for video surveillance,” in Proceedings of IEEE International
Conference on Computer Vision (ICCV), vol. 1, pp. 733–740, 2001.
[6] H. Hsiao and J. Leou, “Background initialization and foreground segmentation for
bootstrapping video sequences,” EURASIP Journal on Image and Video Processing, vol.
12, pp. 1–19, 2013.
[7] R. Zhang, W. Gong, A. Yaworski, and M. Greenspan, “Nonparametric on-line background
generation for surveillance video,” in Proceedings of International Conference on Pattern
Recognition (ICPR), pp. 1177–1180, 2012.
[8] H. Wang and D. Suter, “A novel robust statistical method for background initialization and
visual surveillance,” in Asian Conference on Computer Vision (ACCV), vol. 3851, pp. 328–
337, 2006.
[9] A. Colombari and A. Fusiello, “Patch-based background initialization in heavily cluttered
video,” IEEE Transactions on Image Processing, vol. 19, no. 4, 2010.
[10] V. Reddy, C. Sanderson, and B. Lovell, “A low-complexity algorithm for static background
estimation from cluttered image sequences in surveillance contexts,” EURASIP Journal on
Image and Video Processing, pp. 1–14, 2011.
[11] D. Park and H. Byun, “A unified approach to background adaptation and initialization in
public scenes,” Pattern Recognition, vol. 46, no. 7, pp. 1985–1997, 2013.
[12] X. Xun and T. Huang, “A loopy belief propagation approach for robust background
estimation,” in Proceedings of IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pp. 1–7, 2008.