5: Cómo crear un registro – las variables 1. La creación de - Inegi

Curso sobre el aprovechamiento estadístico
de los registros administrativos
Anders y Britt Wallgren
Wallgren,
Oficina de Estadística de Suecia y Universidad de Örebro
[email protected]
INEGI México, junio de 2012
5: Cómo crear un registro – las variables
________________________________________
1. La creación de variables derivadas
2 Caso 5 – La creación de un Registro Integrado
2.
3. La validación de los datos del registro
4. Caso 3 (cont.) – Validación
ó congruente
Pág. 61
Gráfico 3.17
3 17 Función primaria de un registro en el sistema
Tipo de registro
Registro base
Tipos de variables
Variables primarias locales:
‐ Variables identificadoras
‐ Variables de comunicación
‐ Variables de referencia
‐ Referencias temporales
‐
‐
‐
‐
‐
Registro primario
Registro integrado
Variables primarias locales:
‐ Variables identificadoras
‐ Variables estadísticas
Variables importadas:
‐ Variables identificadoras
‐ Variables estadísticas
‐ Variables derivadas localmente,
j
y
variables adjuntas
agregadas
Función y responsabilidad
Recibir datos administrativos
Generar conjuntos de objetos
Definir objetos
Generar algunas variables de
expansión básicas
Producir estadísticas
demográficas
‐
‐
Recibir datos administrativos
Generar las variables
estadísticas reales
‐
Generar nueva información sin
captación de datos
Compilar información de
diferentes campos
Compilar información de
diferentes periodos
‐
‐
Pág. 61
Gráfico 3.17
3 17 Función primaria de un registro en el sistema
Tipo de registro
Registro base
Tipos de variables
Variables primarias locales:
‐ Variables identificadoras
‐ Variables de comunicación
‐ Variables de referencia
‐ Referencias temporales
‐
‐
‐
‐
‐
Registro primario
Registro integrado
Variables primarias locales:
‐ Variables identificadoras
‐ Variables estadísticas
Variables importadas:
‐ Variables identificadoras
‐ Variables estadísticas
‐ Variables derivadas localmente,
j
y
variables adjuntas
agregadas
Función y responsabilidad
Recibir datos administrativos
Generar conjuntos de objetos
Definir objetos
Generar algunas variables de
expansión básicas
Producir estadísticas
demográficas
‐
‐
Recibir datos administrativos
Generar las variables
estadísticas reales
‐
Generar nueva información sin
captación de datos
Compilar información de
diferentes campos
Compilar información de
diferentes periodos
‐
‐
Distinguir entre:
• variables administrativas, con definiciones administrativas
• variables estadísticas,
estadísticas variables derivadas creadas por la
ONE
Distinguir entre:
• variables locales, ¡Usted es el responsable!
• variables importadas,
¡es la responsabilidad de sus colegas!
Variables locales o variables importadas:
Cómo
ó
está
á organizado el trabajo dentro de la ONE: quienes tienen
la responsabilidad de un registro son responsables de sus variables
locales:
• Mantener el contacto con la autoridad administrativa
• Validar, nombrar y elaborar la documentación de sus variables
locales
De esta forma se evita la duplicación del trabajo con las variables
importadas
La creación de variables derivadas
1. Cálculo exacto de valores de las variables utilizando
una regla
2 Estimación
2.
E ti
ió de
d valores
l
d
de llas variables
i bl con una regla
l
3. Estimación de valores de las variables utilizando un
modelo causal
4. Adjunción y agregación de los valores de registros
con distintos tipos de objetos (caso 5)
1. Cálculo exacto de valores de las variables utilizando una regla
a) Variable cualitativa
Pág. 98
Gráfico 6.1 Clasificación de nacidos en el extranjero y nacidos en Suecia
y
Nacido en el extranjero
j
o
en el país
x1
País de
nacimiento
x2
Tiempo
p de
residencia
x3
País de
nacimiento
del padre
x4
País de
nacimiento
de la madre
Nacido en el
extranjero
0–4 años
-
-
Nacido en el
extranjero
5 años o
más
-
-
Nacido en el
país
-
Nacido en el
extranjero
Nacida en el
extranjero
Nacido en el
país
-
Nacido en el
país
-
Nacido en el
extranjero
Nacido en el
país
Nacido en el
país
Nacida en el
país
Nacida en el
extranjero
Nacida en el
país
Código:
1.1
1.2
2.1
2.2
2.3
Nacido en el extranjero
j
con residencia de 0–4
años
Nacido en el extranjero
con más de 5 años de
residencia
Nacido en el país con
ambos padres nacidos
en el extranjero
Nacido en el país con
un padre nacido en el
país y otro nacido en el
extranjero
Nacido en el país con
ambos padres nacidos
en el país
1. Cálculo exacto de valores de las variables utilizando una regla
b) Variable cuantitativa
pág 99
pág.
Ingreso disponible y = ii1 + ii2 + ii3 + … ‐t1 – t2 – t3 …
i1 = ingreso del tipo 1
…
t1 = impuesto del tipo 1
2. Estimación de valores de las variables utilizando una regla
Pág. 99
Ocupación en el sector público, priorizando las fuentes
Los registros de personal del sector público contienen variables
que utiliza
tili lla Ofi
Oficina
i d
de E
Estadística
t dí ti d
de S
Suecia
i para clasificar
l ifi
a llos
empleados por ocupación, de acuerdo con la Clasificación
Internacional Estandarizada de Ocupaciones (ISCO).
Las variables administrativas puesto y código TNS se utilizan de
acuerdo con ciertas reglas. Éstas reglas cambiaron en 2000.
A continuación se puede observar cómo aparecen las reglas
nuevas y viejas cuando la prioridad de las variables
administrativas es distinta.
Aun cuando el código TNS y el puesto sean correctos,
ocasionalmente la ocupación según ISCO puede ser incorrecta.
No hay una relación exacta entre las variables administrativas y la
ocupación real.
Gráfico 6.2 Ocupación en el sector público, priorizando las fuentes pág.99
Hasta 2000
Primera etapa: (Alrededor de 90% de los
casos.) Existen y se usan nombres de
puesto aplicables.
aplicables
Ejemplo:
El nombre del puesto: 93460 “editor de
sitios web” se vuelve
CIUO 2451 “autores,
CIUO:
“ t
periodistas
i di t y otros
t
escritores”
Desde 2001
Primera etapa: (Alrededor de 48% de los
*.
casos.) Existe y se usa el código TNS
Segunda etapa: (Alrededor de 8% de los
casos) No hay nombre de puesto aplicable
casos).
aplicable,
pero existe y se usa el código TNS.
Ejemplo:
TNS: 1316 “diseñar, probar y documentar
programas” se vuelve
CIUO: 3121 “técnico en programación
informática”
Segunda etapa: (Alrededor de 51% de los
casos) No hay código TNS,
casos).
TNS pero existe y
se usa el nombre de puesto aplicable.
Ejemplo:
Nombre del puesto: 93460 “editor de sitios
web” se vuelve
CIUO: 2451 “autores, periodistas y otros
escritores”
Tercera etapa: (Alrededor de 2% de los
casos). No existe un nombre de puesto útil
ni código TNS. Se vuelve no respuesta,
CIUO perdida.
Tercera etapa: (Alrededor de 1% de los
casos). No existe código TNS ni nombre de
puesto aplicable. Se vuelve no respuesta,
CIUO perdida.
Ejemplo:
TNS: 1316 “diseñar, probar y documentar
programas” se vuelve
CIUO 3121 “técnico
CIUO:
“té i en programación
ió
informática”
3. Estimación de valores de la variables utilizando un modelo causal
pág. 100-101
Una alternativa
U
lt
ti
es analizar
li
lla relación
l ió entre
t lla variable
i bl y y las
l variables
i bl
administrativas (x1, x2,…) construyendo un modelo estadístico (causal)
Cuando se crean variables derivadas utilizando un modelo estadístico,
h
hay
dos
d pasos que requieren dos
d matrices d
de datos
d
d
distintas:
1. La primera matriz con datos de prueba que proviene, por ejemplo, de
una encuesta por muestreo que contenga tanto la variable y como las
variables x. Con esta matriz de datos, se arma un modelo que
indique la mejor manera de estimar y para los valores dados de las
variables x.
2. Entonces, el modelo se utiliza en la segunda matriz de datos, la
matriz de datos obtenidos en el registro, donde sólo existen las
variables x. Con el modelo estimado y con la ayuda de los valores x
conocidos
id de
d cada
d uno d
de los
l objetos,
bj t
se calcula
l l un valor
l y para cada
d
objeto en el registro.
Un buen modelo estadístico muestra cómo aprovechar al máximo
muchas variables administrativas.
administrativas
En el Registro de Empleo, se usan de esta forma los datos de la EFL
Caso 5 – La creación de un Registro Integrado
Utilice el Sistema de Registros, aquí los Registros Base
4 Registros Base
3 vínculos: NIP, Código_domicilio, Id_Establecimiento
Registro de Población
NIP Id_vivienda C_domicilio
19181
122
98
19182
192
56
19183
254
57
19184
377
65
19185
52
7
19186
113
18
...
Registro de actividades-empleos
NIP Id_Estab.
Salario
19307
32
27561
19310
22
28404
19311
19
14010
19312
22
11175
19313
44
27457
19315
19
19502
...
Registro de bienes raíces
Id B Raíces
Id-B.Raíces
C domicilio
C_domicilio
1
31
2
47
3
93
4
84
5
26
6
87
...
Registro Empresarial-Establecimientos
Municipio
1
3
1
2
3
3
Id_Estab.
Id
Estab
1
2
3
4
5
6
...
NACE
6
4
6
3
4
9
C_domicilio
C
domicilio
77
57
47
19
90
4
Caso 5 – La creación de un Registro Integrado
Registro de Población
NIP C_domicilio
19307
19310
19311
19312
19313
19315
...
98
56
57
65
7
18
Registro de bienes raíces
Real_Estate_id C_domicilio
1
31
2
47
3
93
4
84
5
26
6
87
...
Municipio
Residencia
3
3
1
3
1
1
Registro de actividades - empleos
NIP Id_EstableciMunicipio
miento
Empleo
19307
32
1
19310
22
1
19311
19
2
19312
22
1
19313
44
1
19315
19
2
...
Municipio
1
3
1
2
3
3
Registro empresarial-Establecimientos
Id_Estab.
C_domicilio
Municipio
1
77
1
2
57
3
3
47
1
4
19
2
5
90
3
6
4
3
...
j
Variables adjuntas
Caso 5 – La creación de un Registro Integrado
Traslados entre localidad de residencia a la localidad de
empleo en 2001
T l d entre
Traslados
t localidad
l
lid d d
de residencia
id
i y llocalidad
lid d d
de empleo
l en 2001
NIP
19307
19310
19311
19312
19313
19315
...
Municipio
Residencia
3
3
1
3
1
1
...
Municipio
Empleo
1
1
2
1
1
2
...
Traslado
GIS: Posible para crear cualquier región geográfica
31
31
12
31
11
12
...
La validación de los datos del registro
Levantamiento
de datos propio
Personas o
empresas
Levantamiento
de datos
Validación de los
datos levantados
Pág. 106
Encuesta basada en registros
Personas o
empresas
Personas o
empresas
Autoridad
administrativa
Levanta, valida
Autoridad
administrativa
Levanta, valida
Fuente 1
Registro
administrativo
Fuente 2
Registro
administrativo
Oficina de
estadística
Recibe los datos
Oficina de
estadística
Recibe los datos
Validación de la
fuente 1
Validación de la
fuente 2
Fuente 3
Registro base
Fuente 4
Registro
estadístico
Los datos validados de las fuentes 1-4 se procesan en conjunto
Validación de consistencia
Procesamiento de
los datos
Procesamiento de los datos
Matriz de datos
final
Registro final
464 567 declaraciones de impuestos de empresas pequeñas
Antes de la validación
Miles de millones ((coronas))
Percepciones
P1
31.017
P2
9.323
P3
0.394
Percepciones totales
40 734
40.734
Costos
C1
-8.845
C2
-0.913
¡Sólo errores
C3
-10.363
en las
C4
-6.871
6 871
variables!
C5
-628.046
C6
-2.254
C7
-7.725
Costos totales
-665.016
D1
-4.078
Depreciaciones, etc.
D2
3.880
D3
-3
3.217
217
D4
-0.975
D5
0.905
D6
0.607
D
Depreciacones,
i
etc.
t ttotales
t l
-2.877
2 877
Ingresos
-8.825
Ajustes
-17.789
Ingresos gravables
-7.053
Pág. 117
Después de la validación
Número de
Miles de millones ((coronas)) correcciones
30.793
115
9.315
23
0.392
4
40 500
40.500
-8.833
22
-0.913
0
-0.961
3
-3.110
3 110
13
-3.006
7
-2.252
6
-7.602
23
-26.676
-4.075
25
3.339
4
-3
3.216
216
3
-0.957
1
0.905
1
0.751
12 855
-3.252
3 252
10.572
-17.628
-7.056
Caso 3 (cont.): Validación de consistencia
Pago anual bruto estimado por sector y rama industrial
Una persona es responsable de la fuente 1
Recibe datos cada mes
Valida (sin contactar a los patrones)
I
Importa
t ell sector
t y NACE del
d lR
Registro
i t Empresarial
E
i l
Informe: Entrega estimados a las Cuentas Nacionales trimestrales
Una persona es responsable de la fuente 2
Recibe datos cada año
Valida (sin contactar a los patrones)
Importa sector y NACE del Registro Empresarial
Informe: Entrega
g estimados a la Cuenta Nacional anual
¿Es una buena práctica? >>> ¡Muestre los datos!
Caso 3 cont.
Mostrar el Registro Empresarial (RE) de patrones en activo
Mostrar la fuente 1, datos mensuales
Mostrar la fuente 2, datos anuales, emparejar con RE
Todos los datos integrados:
exec
'coverage'
Ejec.
“cobertura”
RE
BR
1
2
3
N=
Conteo
Count
34 574
274 232
57 286
366 092
Subcobertura
REBR
Undercoverage
genin
OK
RE
OK en
in BR
Sobrecobertura
enBR
RE
Overcoverage in
Sub/sobre cobertura en RE => !informar a RE!
Under/overcoverage
in valores
BR => report
to BR!
Subcobertura
en RE =>
faltantes,
faltantes
sector y NACE
Undercoverage
in BRde
=>esto!
missing values, sector & NACE
¡RE
debería ocuparse
BR should take care of this!
Caso 3 cont.
Monthly, anual
Yearly,
differentpoblaciones
populations:
Mensual,
Mensual
anual,
diferentes
exec “sueldos”
'wage'
Ejec.
Grupo Conteo
Group
Count
1
6 795
2
98 345
3
154 855
4
45 999
5
2 812
6
57 286
N=
366 092
366 092 -
Mensual Año
Sueldo Anual
MonthlyYear
Sueldo acumulado YearlyWage
Sueldo acumulado
Wage sum
Mill Wage
Millones
d
desum
SEK
Mill
Millones
d
de SEK
Sólo
onlyanual
Yearly
Anual
> Mensual
Yearly
> Monthly
AYearly
Anual
l=M
Mensual
l
= Monthly
Anual
< Mensual
Yearly
< Monthly
Sólo
onlymensual
Monthly
Sobrecobertura
overcoverage
g RE
BR
57286 = 308 806
1
2
3
4
5
6
All
Todo
Millions SEK Millions SEK
270
535 070
540 242
58 889
58 889
314 326
305 103
732
909 017
904 504
Caso 3 cont.
Millions
SEKde SEK
Millones
NACE
SNI
LAPS
LAPS monthly
mensual
KU anual
yearly
dif abs.
-----------------------------------------------------------------------------------------------------------------Insurance
Seguros
66
13075
6672
6402
Business activities
Actividades
empresariales 74
70261
70719
458
Banks
Bancos
65
18937
18515
422
Whole saleal por mayor
Comercio
51
48415
48816
400
Transport
Transporte
60
22133
22522
389
Labour unions
Sindicatos
91
13925
13573
352
Motor vehicles
Vehículos
motores
34
19875
19609
266
IT
Tecnologías
de la Inf.
72
28790
29045
255
Entertainment
Entretenimiento
92
13542
13778
235
Missing due
mismatch
Perdidos
portono
emparejamiento
-1
4746
4516
230