Download Report

RECONOCIMIENTO FACIAL
[email protected]
@jgongora_id
1 of 2
RECONOCIMIENTO FACIAL
INTELIGENCIA DIGITAL
Por Juan Góngora
Uno de los negocios con mayor crecimiento en las últimas décadas ha sido el de la
seguridad. La necesidad de empresas y particulares de resguardar su patrimonio y su
integridad física. Estamos considerando ciudades regulares que no están en medio de
una guerra. El control de acceso, la identificación y documentación, los sistemas de
identificación de huella dactilar (AFIS), el monitoreo de CCTV, los sensores de
movimiento, de percusión, los dispositivos de rastreo, la espectrografía en aparatos de
detección, registro de iris, de voz, las armas de contención directa como las de
descarga eléctrica, la cibervigilancia… entre muchos otros. Incluso de medición portátil
de ADN. La tecnología ha encontrado un mercado de gran desarrollo en este tema
explorando y perfeccionando los diferentes terrenos. Hoy hablaremos sobre una de las
tecnologías más poderosas: la de reconocimiento facial.
Esta solución se refiere específicamente a la capacidad de una aplicación de software
para identificar un rostro. Su metodología es muy simple y su algoritmo, muy
complicado. Se inscribe en el área de especialidad llamada biometría, donde se
acomodan las mediciones a los seres vivos, principalmente humanos. Por ejemplo,
temperatura, ritmo cardiaco, iris, huella, sangre, ADN, etc.
El procedimiento básico implica una cámara de video digital de alta resolución que
toma un rostro individual o recibe un flujo continuo de gente. El video tiene una
grabación permanente de respaldo para posteriores análisis. La aplicación registra los
rostros en tiempo real. En fracciones de segundo, una vez definido cada rostro, los
contrasta en tiempo real. Primero con una base de datos local para, por ejemplo,
definir si la persona tiene la autorización para encontrarse en ese lugar y, en paralelo,
checa una base de datos policial para encontrar posibles antecedentes delictivos. Los
resultados obtenidos van desde desplegar el nombre de quién se trata hasta disparar
diferentes tipos de alarmas. La secuencia es captura, evaluación, identificación y
reacción. Por ejemplo, en el flujo de una calle determinada o en el pasillo de un
aeropuerto se aplica para identificar delincuentes con antecedentes o incluso posibles
terroristas. De igual forma, su tarea es contrastar contra imágenes e información en
una base de datos central o distribuida. La documentación en migración checará que
el documento sea legítimo, que no tenga prevenciones en la computadora y que
corresponda a la persona indicada al compulsar con la fotografía. Ahora se estila
registrar la fotografía en el momento de la revisión. Sin embargo, su objetivo es integrar
una base con foto y datos. Cuando se han tomado en diferentes aeropuertos dentro de
una red y se presentan varias fotografías, la primera labor del análisis automático es
comprobar que todas las fotos correspondan a los mismos datos. Entonces la
aplicación seleccionará la mejor imagen haciendo un proceso de autodepuración. Esto
implica también un proceso de auditoría. Pero el análisis más importante es cuando el
rostro es comparado con otros en una base y salen incongruencias en los datos o en
la imagen.
El algoritmo establece objetos, distancias, vectores, entre otros recursos, para definir
una imagen y el grado de aproximación a la misma. Lo anterior permite comprimir los
datos y establecer, dentro de un modelo geométrico, una distribución de frecuencias y
RECONOCIMIENTO FACIAL
[email protected]
@jgongora_id
2 of 2
porcentajes de coincidencia. El tipo de ojos, nariz, cachetes, quijadas, forma de la
boca, cejas, orejas. Son elementos que pueden considerarse directamente tomando
su correlación y dimensiones. En la estimación geométrica, los valores están dados en
la configuración de entidades y sus relaciones. En la aproximación fotométrica, la
imagen se descompone en elementos que se estiman estadísticamente y se comparan
con formatos establecidos para definir sus varianzas. En los dos casos la definición de
la imagen es determinante, porque el establecimiento de ambos modelos se realiza
considerando un determinado número de pixeles dentro de un espacio finito para
poder establecer conclusiones. En imágenes de menor calidad que la alta definición,
los cálculos presentarían permanentemente errores por estar fuera de parámetros. En
la parte contraria, o sea una mayor resolución como 4K, solo necesitaría un ajuste de
parámetros. Hay diferentes métodos de proceso de datos, como podría ser el llamado
Linear Disciminate Analysis, el Hidden Markov Model, el Dynamic Link Matching o los
más avanzados como los Algoritmos Neuronales de Aprendizaje (GLVQ). Algunas
aplicaciones tienen la capacidad de hacer prospectiva de rostros con inclinación o giro
de algún tipo, al igual que dispersiones en cambios por cirugía. Los análisis pueden
ser bidimensionales o tridimensionales. Esto permite que medios de gran cobertura,
como los satélites, presenten material útil con fotografías de personas tomadas desde
el espacio.
El National Institute of Standards and Technology (NIST) realiza pruebas periódicas
para determinar las aplicaciones más precisas y rápidas. Es un estándar muy
interesante para tomar decisiones en este sentido. Sin embargo, no todas las
aplicaciones comerciales se someten a tales pruebas por diferentes razones y
definitivamente no se incluyen las que han tenido desarrollo exclusivo, como las que
utiliza la National Security Agency (NSA).
Los trabajos iniciales en esta materia en el contexto de una computadora se remontan
a mediados de los 60’s. La labor inicial de los investigadores Woody Bledsoe, Helen
Chan Wolf y Charles Bisson era para agencias de seguridad, aunque terminó en el
Stanford Research Institute. De allí siguieron experimentos y soluciones en las
principales universidades.
Al comienzo, al igual que el reconocimiento de voz o el reconocimiento óptico de
caracteres (OCR), tenían un grado de confiabilidad muy bajo que se ha ido
incrementando vertiginosamente. El grado actual de eficiencia es muy alto y cada año
surgen propuestas interesantes. Sobre todo, después del trágico evento del 9/11 se
aceleraron el uso y soluciones. Su aplicación policial es muy amplia. Desde el Super
Bowl 35 que se llevó a cabo en Tampa Bay en 2001, esta tecnología se utiliza cada vez
más en eventos públicos para prevenir actos de terrorismo y el análisis de diferentes
tipos de comportamientos. Actualmente ha comenzado a invadir el ámbito comercial,
ya que se emplea para supervisar, medir y acopiar información en un establecimiento
comercial, como edad, género, cantidad, expresiones faciales, tiempos de
permanencia. Estos datos pueden utilizarse para disparar un mensaje en digital
signage, como por ejemplo anuncios de productos para jóvenes cuando en su mayoría
se encuentren en un lugar determinado o bien análisis posteriores que ayuden a tomar
decisiones. [email protected]