Anteproyecto de Fin de Carrera Estimación de fondo de escena en secuencias de vídeo Alumno: Jaime Gallo de Cal Tutor: Ponente: Diego Ortego Hernández Jose Maria Martinez Sánchez INTRODUCCIÓN Actualmente, el avance de la tecnologia y la necesidad de seguridad han provocado la expansión de cámaras de video-vigilancia [1] en todo tipo de entornos públicos y privados. Este nuevo escenario ha provocado la necesidad de automatizar los procesos de monitorización, mediante algoritmos de visión por computador, para ayudar asi a los operadores de seguridad a identificar posibles eventos de interes. Una primera etapa en los algoritmos de monitorización, es la detección de las regiones de interes (objetos o personas). Es habitual realizar esta tarea mediante algoritmos de segmentación fondofrente, conocidos como algoritmos de Background Subtraction (BS) [2]. El objetivo de las tecnicas de BS es obtener una máscara binaria de los objetos de interes o foreground que hay en la escena. Para ello, estos algoritmos construyen un modelo del fondo o background de la escena con el que comparar cada imagen bajo análisis y obtener asi la máscara binaria de objetos de frente. Concretamente, un algoritmo de BS se puede definir en función de la estrategia seguida para abordar las etapas de Modelado del fondo, Inicialización del fondo, Actualización del fondo y Detección de frente [2]. El Modelado del fondo genera un modelo de escena cuyo objetivo es capturar la multimodalidad de la misma, haciendo asi frente a fondos dinámicos (p.ej. árboles, escaleras mecánicas o fuentes). Mediante el modelado de estos movimientos inherentes a la escena, se consiguen evitar gran cantidad de falsas detecciones en la etapa de Detección de frente. Por otro lado, la Inicialización del fondo o Background Initialization (BGI) define los procedimientos seguidos para generar una imagen de fondo de escena o True Background (TB) evitando la aparición de objetos de frente. Esta etapa permite construir un punto de partida adecuado para el Modelado del fondo. La tarea de la Actualización del fondo es adaptar el modelo a las variaciones de la escena a lo largo del tiempo, mientras que la Detección de frente define cómo detectar los objetos de la escena mediante comparaciones entre los frames bajo análisis y el modelo de fondo construido. Es importante diferenciar entre las etapas de Modelado de fondo, donde el principal objetivo es lidiar con fondos dinámicos, de la etapa de BGI cuyo objetivo es generar una imagen de fondo libre de objetos de frente, es decir, el TB. Este Proyecto de Fin de Carrera (PFC) va a abordar la etapa de BGI, pues en el estado de arte es habitual construir un TB de la escena combinando el modelado y la actualización del fondo [3], tecnica que suele generar TB erróneos. La etapa de BGI consiste en generar el TB de la escena a partir de una secuencia de video de entrenamiento en la que generalmente aparecen objetos de frente ocluyendo el fondo. Este proceso es complejo y sufre problemas relacionados con la visibilidad del fondo y con factores fotometricos. Por un lado, la visualización del fondo es un factor clave debido a que ciertas regiones pertenecientes al fondo de la escena pueden ser visibles solo en breves instantes. Este aspecto, limita el rendimiento de tecnicas tradicionales, donde el TB se reconstruye atendiendo a criterios de repetitividad en la visualización. Por otro lado, factores fotometricos como las sombras y los cambios de iluminación dificultan la reconstrucción del fondo de escena, debido a que generan distintas representaciones válidas del mismo. En el estado del arte, la etapa de BGI suele afrontarse empleando información temporal y espacial. La información temporal analiza las variaciones de intensidad a lo largo de la secuencia de entrenamiento, siendo habitual el uso tanto de información de movimiento mediante flujo óptico [4][5] o diferencias entre frames consecutivos [6][7], como de estabilidad temporal mediante tecnicas de intervalos de intensidad estable [5][8] o tecnicas de agrupamiento temporal [9][10]. No obstante, la información temporal no es capaz de discernir entre fondo y frente estático. Para abordar esta limitación se necesita incorporar información espacial, tarea que en la literatura se lleva a cabo basándose en la suposición de homogeneidad del fondo. Esta homogeneidad suele introducirse mayoritariamente mediante esquemas de optimal labeling [11][12] o en esquemas de reconstrucción iterativa del fondo [9][10]. Observando el estado del arte reciente, existen distintas perspectivas para afrontar la tarea de inicializar el fondo de una escena. No obstante, ninguno de ellos ofrece un buen rendimiento en todas las situaciones, ya sea porque no son capaces de hacer frente a objetos parados en la escena durante largos periodos de tiempo o porque no hacen frente a cambios de iluminación en la secuencia de entrenamiento. MOTIVACIÓN Y OBJETIVOS En general, los algoritmos de BS asumen que la obtención del fondo de escena es una tarea sencilla pues este es visible en los primeros instantes de las secuencias de video. Esta asunción no es correcta en muchos entornos, pues son habituales las multitudes de gente que ocluyen el fondo continuadamente. Desde una perspectiva a largo plazo, podria pensarse que este problema no es tal pues en algún instante se visualizará el fondo libre de objetos. No obstante, es frecuente la existencia de objetos estáticos que se quedan parados en la escena, contaminado asi los modelos de fondo empleados por las tecnicas tradicionales. Por tanto, una generación de fondo más compleja puede aportar una información muy útil para labores tanto de inicialización al principio de la escena, como de re-inicialización del modelo a lo largo de la misma. En este Proyecto Fin de Carrera el principal objetivo es desarrollar un algoritmo de estimación de fondo de escena para secuencias de video con cámara estática que mejore las aproximaciones actuales del estado del arte. Para ello se explorarán visiones multi-camino y multi-semilla en el marco de una reconstrucción espacial iterativa basada en la suposición de fondo homogeneo y además se introducirá un agrupamiento temporal online que permita modelar las representaciones de la escena y detectar movimiento. El desarrollo del objetivo principal se desarrollará mediante los siguientes sub-objetivos: 1. Estudio del estado del arte actual: Se analizarán los algoritmos de estimación de fondo de escena para comprender los mecanismos tradicionales y sus limitaciones. 2. Implementación de un algoritmo de Inicialización de fondo de escena: Se partirá de un algoritmo desarrollado en el Grupo de Tratamiento e Interpretación de Video (VPU Lab) de la Escuela Politecnica Superior de la Universidad Autónoma de Madrid (UAM) y se desarrollarán mejoras relacionadas con un análisis multi-camino y multi-semilla, asi como para añadir la posibilidad de trabajar de forma online. 3. Evaluación comparativa de resultados: Se validará el rendimiento del algoritmo desarrollado evaluando de forma incremental las aportaciones realizadas. Si fuese necesario, se extenderán tanto el conjunto de datos a emplear como las aproximaciones a comparar mediante la implementación de algún nuevo metodo. 4. Conclusiones y análisis de resultados: La evaluación incremental permitirá conocer las capacidades del algoritmo y extraer conclusiones sobre el mismo. METODOLOGÍA Y PLAN DE TRABAJO 1. Estudio del estado del arte de Inicialización de fondo • Estudio de la literatura reciente: Algoritmos y sus propiedades. • Estudio del algoritmo previo desarrollado en el VPU Lab. 2. Mejora de algoritmo previo • Incorporación de agrupamiento temporal online: Tecnica disponible y mejoras. • Desarrollo de tecnica de reconstrucción espacial. 3. Evaluación de resultados • Evaluación del algoritmo en competiciones recientes de estimación de fondo. • Evaluación del algoritmo y sus distintas partes en un conjunto de datos extenso. • Comparación con algoritmos recientes del estado del arte. 4. Redacción del PFC • Conclusiones. • Futuras lineas de investigación. MEDIOS Los medios necesarios para la realización del PFC serán facilitados por el Grupo de Tratamiento e Interpretación de Video (VPU) de la Escuela Politecnica Superior de la Universidad Autónoma de Madrid (UAM). De los medios disponibles, cabe mencionar los de aplicación al presente PFC: • Un parque de PCs (Windows/Linux) interconectados a traves de la red de área local y con acceso a Internet. • Herramientas de análisis de secuencias de video-seguridad. • Rack de PCs servidores de secuencias de video de cámaras de seguridad. • Herramientas para el desarrollo de proyectos software. • Biblioteca de libros y revistas de Tratamiento Digital de Señal e Imágenes. REFERENCIAS [1] J. SanMiguel, J. Bescós, J. Martinez, and A. Garcia, “Diva: A distributed video analysis framework applied to video-surveillance systems,” Proceedings of IEEE International. Workshop on Image Analysis for Multimedia Interactive Services (WIAMIS), pp. 207-210, 2008. [2] T. Bouwmans, “Traditional and recent approaches in background modelling for foreground detection: An overview,” Computer Science Review, vol. 11-12, pp. 31–66, 2014. [3] L. Maddalena, A. Petrosino, “Background Model Initialization for Static Cameras”, in T. Bouwmans, F. Porikli, B. Höferlin, and A. Vacavant (Eds), Background Modeling and Foreground Detection for Video Surveillance, ch. 3, pp. 1-16, Chapman and Hall/CRC 2014. [4] C. Chia-Chih and J. Aggarwal, “An adaptive background model initialization algorithm with objects moving at different depths,” in Proceedings of IEEE International Conference on Image Processing (ICIP), pp. 2664–2667, 2008. [5] D. Gutchess, M. Trajkovics, E. Cohen-Solal, D. Lyons, and A. K. Jain, “A background model initialization algorithm for video surveillance,” in Proceedings of IEEE International Conference on Computer Vision (ICCV), vol. 1, pp. 733–740, 2001. [6] H. Hsiao and J. Leou, “Background initialization and foreground segmentation for bootstrapping video sequences,” EURASIP Journal on Image and Video Processing, vol. 12, pp. 1–19, 2013. [7] R. Zhang, W. Gong, A. Yaworski, and M. Greenspan, “Nonparametric on-line background generation for surveillance video,” in Proceedings of International Conference on Pattern Recognition (ICPR), pp. 1177–1180, 2012. [8] H. Wang and D. Suter, “A novel robust statistical method for background initialization and visual surveillance,” in Asian Conference on Computer Vision (ACCV), vol. 3851, pp. 328– 337, 2006. [9] A. Colombari and A. Fusiello, “Patch-based background initialization in heavily cluttered video,” IEEE Transactions on Image Processing, vol. 19, no. 4, 2010. [10] V. Reddy, C. Sanderson, and B. Lovell, “A low-complexity algorithm for static background estimation from cluttered image sequences in surveillance contexts,” EURASIP Journal on Image and Video Processing, pp. 1–14, 2011. [11] D. Park and H. Byun, “A unified approach to background adaptation and initialization in public scenes,” Pattern Recognition, vol. 46, no. 7, pp. 1985–1997, 2013. [12] X. Xun and T. Huang, “A loopy belief propagation approach for robust background estimation,” in Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1–7, 2008.
© Copyright 2024