inegi

Implementación del modelo de Calidad de Datos
Abril 2015
Situación Actual de la información
clave
Abreviaturas
Nombres de Personas o domicilios en un solo campo
Utilización de Mayúsculas y
Minúsculas
Errores de Captura o Utilización de signos especiales
colonia
0320000101001001000005
AV. MIGUEL ALEMAN No. 1
AGUACATAL, COL.
0320000101001002000008
AV. DE LAS AMERICAS No. 113 FRAC.
AGUACATAL, COL.
0320000101001003000002
BENITO FENTANES No. 4
AGUACATAL, COL.
nombre
calle
JIMENEZ MORA GRACIELA JUANA Y COPS.
AV. MIGUEL ALEMAN No. 1
BORROMEO MOCTEZUMA CESAR
AV. DE LAS AMERICAS No. 113 FRAC.
OLIVA CEDILLO JUAN
BENITO FENTANES No. 4
CLAVE
Espacios a la izquierda o dobles
Espacios.
calle
NOMBRE
0300900101020002000008
BARRADAS GOZALEZ FRANCISCO
0300900101024016000004
LOPEZ SALAS RUTILO Y COOP
0300900102006010000003
VAZQUEZ BARRADAS JUAN
0300901901013001000005
CARREON DIAZ APOLINAR
0300901901023006000001
BAIZABAL MOCTEZUMA CIRILO
0300904501007001000008
VAZQUEZ DOMINGUEZ FORTUNATO
0300904501007002000002
VAZQUEZ DOMINGUEZ VICTOR
0300909401019002000003
Castellanos Viveros Benito
0300909401021004000008
Alarcon Ramirez Alejandro Roberto
CLAVE
NOMBRE
0300900101035036000007
MENDEZ AGUILAR RAUL Y COOP " PASO DE SERVIDUMBRE"
0300907901040003000008
POSEEDOR CALLE
1 DE MAR ESQ 16 DE SEP L 3 M40
0300907901040001000002
VARRADAS AGUILAR IRMA
0300907901034003000009
DOMINGUEZ PE?A FORTUNATO 1 DE MAR ESQ. 16 DE SEP L3 M34
1 DE MAR ESQ CALLE S/N L1 M40
Ventajas de tener datos con calidad
Problemática
Valor de negocio
Información confiable para toma de
decisiones
Información enriquecida y
estandarizada en un solo repositorio
Identificación de criterios de decisión,
desarrollo y evaluación de alternativas
Calidad de datos
Introducción
Introducción
Seis dimensiones de calidad de datos
Para medir la calidad es necesario descomponerla en características observables llamadas dimensiones de
calidad, con las cuales es posible definirla, identificarla y medirla.
La calidad es un concepto multidimensional porque se necesitan varias dimensiones para decir qué tan
correctos‐adecuados son los datos que se van a usar para una aplicación.
Las seis variables de la calidad de datos son:
Completitud
Integridad
Conformidad
Calidad de Datos
Duplicidad
Consistente
Exactitud
Objetivos de la calidad de datos
ELIMINACIÓN DE ERRORES ORTOGRÁFICOS
HOMOLOGACIÓN DE LA INFORMACIÓN
ESTRUCTURACIÓN DE LA INFORMACIÓN
CONFRONTA DE BASES DE DATOS
Etapas
PREPARACIÓN
•
•
•
Verificación y análisis de la información fuente.
Obtención de los datos para iniciar la etapa de análisis de la BD.
Migración de la información original al ambiente de producción. ANÁLISIS
HIGIENE
• Búsqueda de valores y patrones en los campos y número de ocurrencia.
• Validación de valores de los campos y número de ocurrencias.
• Búsqueda de elementos inconsistentes dentro del campo.
• Búsqueda de elementos abreviados, truncos o con contracciones.
• Sustitución de los elementos inconsistentes.
• Remplazar y cortar el dato contenido como consecuencia de la verificación de una regla.
• Convertir todo a mayúsculas.
• Alinear datos a la izquierda.
Etapas
ESTANDARIZACIÓN Y ESTRUCTURACIÓN
•
•
•
•
Separar la información que se encuentra en un solo campo.
Homologación de información.
Establecer un criterio único para el uso de las abreviaturas y caracteres especiales.
Establecer un mismo tipo de campo para la confronta de la información.
VINCULACIÓN
VALIDACIÓN
• Se realiza sobre los campos:
• Clave Catastral
• Nombre
• Domicilio del inmueble
• Superficie
• Se realizan comparativos entre bases de datos contra otra fuente.
• Se realiza mediante la verificación puntual de las reglas de negocio implementadas.
• Porcentaje de error < 1% de una muestra.
Etapas
PREPARACIÓN
ANÁLISIS
HIGIENE
ESTANDARIZACIÓN Y SEGMENTACIÓN
Lineamientos de Calidad de datos tabulares
VINCULACIÓN
VALIDACIÓN
Calidad de la información
Para la implementación del Modelo de Calidad de datos, el INEGI
ofrece talleres a través de los cuales da a conocer los procesos para el
tratamiento de las bases de datos tabulares y cartográficas, con el
objeto de que la información con que cuentan las UE esté higienizadas
y estandarizadas, en los que se establecen además, los lineamientos de
calidad de los datos, los criterios generales que se deberán aplicar en
los datos utilizando atributos o campos auxiliares para lograr su
homogeneidad, comparabilidad, consistencia y completes a fin de lograr
la concordancia en ambas fuentes de datos.
¿A quien va dirigido el taller?
Va dirigido a funcionarios de las dependencias que tengan relación con
actividades de generación de información tabular y cartográfica.
Requisitos para tomar el taller
ƒ Conocimientos básicos en la gestión de información cartográfica y bases de
datos.
ƒ Conocimientos básicos en la gestión de datos espaciales a través del uso de
herramientas SIG (recomendable).
ƒ Conocimiento en manejadores de bases de datos.
ƒ Conocimiento en Sistemas de información Geográfica.