Download Report

DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y
ECONÓMICAS. Ed.2
MÓDULO I: ASPECTOS GENERALES DEL DISEÑO MUESTRAL
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
INDICE
INDICE ......................................................................................................... 2
INTRODUCCIÓN Y OBJETIVOS ......................................................................... 5
Unidad 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS GENERALES DEL
DISEÑO MUESTRAL........................................................................................ 6
1.1. Tipos de operaciones estadísticas ........................................................... 6
1.2. Conceptos generales ............................................................................. 7
1.2.1. Población y Muestra ........................................................................ 7
1.2.2. Tipos de muestreo .......................................................................... 8
1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo ............. 9
1.3. Etapas de una encuesta por muestreo....................................................10
1.4. Esquema general del diseño muestral ....................................................11
1.4.1. Ámbito de estudio ..........................................................................11
1.4.2. Marco .......................................................................................... 12
1.4.3. Variables de estratificación ............................................................ 13
1.4.4. Tamaño de la muestra ...................................................................13
1.4.5. Tipo de muestreo ..........................................................................14
1.4.6. Estimadores .................................................................................14
1.4.7. Evaluación de la calidad de los datos. ..............................................15
1.4.8. La falta de respuesta. ....................................................................16
1.5 Resumen ............................................................................................. 17
Unidad 2.
PRINCIPALES CONCEPTOS DE LA TEORÍA DE MUESTRAS UTILIZADOS
EN EL DISEÑO DE LAS ENCUESTAS ................................................................ 18
2.1. Principios básicos del muestreo probabilístico .........................................18
2.1.1. Unidades de muestreo ....................................................................19
2.1.2. Probabilidades de inclusión de primer y segundo orden ...................... 20
2.1.3. Estimador .....................................................................................21
2.2. Métodos de selección de las unidades ....................................................26
2.2.1. Sin reemplazamiento (SR) .............................................................. 26
2.2.2. Con reemplazamiento ....................................................................27
2.3. Estimadores lineales insesgados ............................................................ 28
Módulo I: Aspectos generales del Diseño Muestral
2
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.4. Tipos de muestreo y estimadores .......................................................... 31
2.4.1. Muestreo de unidades elementales con probabilidades iguales .............31
2.4.2. Muestreo estratificado de unidades elementales con probabilidades
iguales ..................................................................................................34
2.4.3. El estimador de razón bajo muestreo de unidades elementales con
probabilidades iguales .............................................................................37
2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo ............39
2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo .....40
2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo ....42
2.4.5. Muestreo sistemático .....................................................................43
2.5. Errores de muestreo y métodos de estimación ........................................45
2.5.1. Método de los conglomerados últimos ..............................................46
2.5.2. Método de las semimuestras reiteradas ............................................47
2.5.3. Método Jackknife ...........................................................................48
2.5.4. Método Bootstrap ..........................................................................49
2.5.5. Software para el cálculo de errores de muestreo ................................ 50
2.6. Resumen ............................................................................................ 51
UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS ENCUESTAS ....................52
3.1. Definición de marco .............................................................................52
3.2. Características del marco .....................................................................53
3.3. Marco de áreas y marco de listas .......................................................... 54
3.3.1. Descripción del DIRCE. ..................................................................55
3.4. Marco utilizado en las encuestas a hogares del INE ..................................56
3.4.1. Descripción ..................................................................................56
3.4.2. Marco de áreas geográficas ............................................................. 57
3.4.3. Marco de viviendas ........................................................................59
3.5. Fuentes estadísticas utilizadas en la formación del marco ......................... 60
3.5.1. Utilización del Censo de Población y Viviendas ...................................60
3.5.2. Utilización del Padrón Continuo........................................................ 62
3.6. Actualización de las unidades de muestreo .............................................64
3.6.1. Actualización en el marco de viviendas .............................................65
3.6.2. Actualización en el marco de unidades primarias ............................... 66
3.6.3. Actualización de las probabilidades de selección ................................ 68
3.7 Resumen ............................................................................................. 71
Módulo I: Aspectos generales del Diseño Muestral
3
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Unidad 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS ECONÓMICAS ...........72
4.1 Carga Estadística: Directorio de Colaboración con las Unidades Informantes 72
4.2 Marco Muestral: Directorio Central de Empresas.......................................74
4.3 Coordinación muestral ..........................................................................75
4.3.1 Técnica de Números Aleatorios Permanentes ......................................76
4.3.2 Coordinación de muestras para encuestas diferentes .......................... 77
4.3.3 Coordinación de muestras en el tiempo ............................................77
4.3.4 Actualización del marco cuando se aplica coordinación positiva en el
tiempo ...................................................................................................78
4.4 Coordinación muestral en el INE............................................................. 79
4.4.1 Coordinación en un año determinado ................................................79
4.4.2 Coordinación en el tiempo................................................................ 80
4.4.3 Efectividad de la coordinación .......................................................... 80
4.5 Resumen ............................................................................................. 81
Módulo I: Aspectos generales del Diseño Muestral
4
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
INTRODUCCIÓN Y OBJETIVOS
El presente curso se estructura en tres módulos que se imparten a lo largo de tres
semanas.
El módulo I se divide en cuatro unidades e incluye aspectos generales del diseño
muestral, junto con una parte teórica necesaria para realizar de forma eficiente
este tipo de diseño. Los módulos II y III se estructuran en tres unidades cada uno,
presentan los diseños muestrales de las encuestas de hogares y económicas más
importantes y se analiza la problemática que surge en la realización de cada una de
las etapas del diseño.
Se inicia este módulo haciendo una descripción general de las distintas fases una
encuesta por muestreo, definiciones de conceptos utilizados a lo largo del mismo y
se enumeran las distintas etapas del esquema de un diseño muestral, haciendo en
el último apartado un análisis de la falta de respuesta y su tratamiento.
En la segunda unidad se analizan los conceptos básicos de la teoría del muestreo
en poblaciones finitas, en los que se apoya el diseño muestral.
En la tercera unidad, y como un paso previo del cual depende el diseño muestral,
se hace un análisis detallado sobre el marco de muestreo, las distintas fuentes
utilizadas, sus limitaciones y se estudia con detalle los procedimientos que se
aplican para mantener el marco actualizado.
Finalmente en la cuarta unidad se estudia con detalle la teoría utilizada en las
encuestas económicas de la coordinación muestral que afecta a la selección de las
muestras. Con objeto de disminuir la carga de trabajo de las unidades informantes,
intenta controlar el grado de solapamiento entre ellas. Dependiendo de los
objetivos interesará una coordinación muestral positiva, máximo solapamiento, o
una coordinación muestral negativa, mínimo solapamiento.
El objetivo de este primer módulo es proporcionar al alumno unos conocimientos
teóricos generales sobre los distintos aspectos que hay que considerar en la
realización de un diseño muestral, para facilitar la comprensión de la parte práctica
que se presenta en los módulos II y III, en los que se analiza con detalle los
diseños muestrales de las encuestas más importantes.
Módulo I: Aspectos generales del Diseño Muestral
5
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
UNIDAD 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS
GENERALES DEL DISEÑO MUESTRAL
En este capítulo se hace una descripción de una encuesta por muestreo, su
justificación y una descripción de las distintas etapas del diseño muestral.
El objetivo es familiarizar al alumno con los conceptos que se analizan en detalle en
el resto de unidades contenidas en el módulo.
1.1. Tipos de operaciones estadísticas
En el mundo actual los gobiernos, las empresas y las personas, necesitan
información para la toma de decisiones. La información es el resultado de obtener,
clasificar y procesar los datos.
Se entiende por operación estadística el proceso por el cual se obtiene
información estadística. Cualquier estudio estadístico pasa por una fase de
diseño en la que a partir de las necesidades de los usuarios se establece la
necesidad de la información a obtener y su viabilidad, se definen los objetivos del
estudio, la metodología a seguir para alcanzarlos, posibles fuentes de datos, los
costes, y el resto de especificaciones necesarias para la obtención del producto
final.
Una vez decidida la realización de una operación estadística, la producción de la
misma consiste en un proceso de transformación de información numérica que va
desde la recogida de la información hasta la obtención de los resultados finales.
La ley de la función estadística pública regula la actividad estadística para
fines estatales y encomienda al INE la realización de las operaciones
estadísticas de interés nacional: (censos demográficos y económicos, cuentas
nacionales, estadísticas demográficas y sociales, indicadores económicos y sociales,
coordinación y mantenimiento de los directorios de empresas, formación del Censo
Electoral...).
En la ejecución de su actividad estadística el INE, y en general todas las Oficinas
Nacionales de Estadística, realiza dos grandes tipos de operaciones:
Módulo I: Aspectos generales del Diseño Muestral
6
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
•
CENSOS: Son investigaciones de tipo exhaustivo.
•
ENCUESTAS POR MUESTREO: Proceso mediante el cual se obtienen
conclusiones de la población a partir de la información proporcionada por
una parte de ella (muestra). El desarrollo de las técnicas de muestreo ha
permitido el gran incremento de las encuestas. 1.2. Conceptos generales
En el estudio y análisis de una encuesta por muestreo es necesario fijar una serie
de conceptos que nos van a ayudar en el diseño de una buena muestra.
1.2.1. Población y Muestra
Se denomina población objetivo a un conjunto de unidades del que se
desea obtener una información. La unidad de investigación es sobre la que se
realiza la medición y se denomina también elemento.
Las unidades de observación pueden ser hogares, personas, colegios, empresas,
etc. La información deseada puede ser el tamaño del hogar, el gasto medio en
alimentación, etc. A estos valores que se desea conocer se les denominan valores
verdaderos.
En la práctica las limitaciones en los procedimientos diseñados para obtenerlos,
junto con los cometidos en la obtención de los mismos, nos obliga a considerar
valores que no coinciden con los verdaderos y que denominamos valores
observados. Estos serán más precisos cuanto más próximos estén de los
valores verdaderos.
A los errores de tipo sistemático que se comenten en las observaciones se les
denomina sesgos.
Se llama muestra a un subconjunto de la población obtenido con el fin de
investigar algunas características de la misma. Los datos obtenidos a partir de ella,
que nos permite inferir los de la población se denominan estimaciones.
Unidad de muestreo: es la unidad que se utiliza en la selección de la muestra,
que puede ser diferente de la unidad de investigación.
Módulo I: Aspectos generales del Diseño Muestral
7
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Podemos estar interesados en estudiar a los individuos pero solo se dispone
de una lista de viviendas. La vivienda es la unidad de muestreo y las personas de la
vivienda la unidad de investigación.
Marco de muestreo es el conjunto de unidades de muestreo. En una encuesta
ideal el marco de muestreo debe de coincidir con la población objetivo.
Muestras distintas nos dan valores distintos de las estimaciones. La medida de la
variabilidad de las estimaciones en torno a su media se denomina error de
muestreo. Cuanto menor sea esta variabilidad mayor es la precisión de las
estimaciones.
La consideración conjunta de precisión y sesgo nos conduce al concepto de
“acuracidad”.
Una buena muestra debe reproducir las características de interés de la población.
Se suele decir que la muestra ha de ser representativa en el sentido de que cada
unidad muestreada representa las características de una cantidad conocida de
unidades de la población.
1.2.2. Tipos de muestreo
El procedimiento mediante el cual se selecciona una muestra se denomina
Muestreo.
Se distinguen dos grandes tipos de muestreo:
•
Muestreo Probabilístico. Está basado en la estadística matemática, y se
define como el tipo de muestreo en el que se conoce a priori la probabilidad
que tiene cada una de las posibles muestras de ser seleccionada.
Ejemplos de este tipo de muestreo son el muestreo aleatorio simple, muestreo
estratificado, muestreo de conglomerados, etc.
El uso de muestreo probabilístico permite el cálculo de los errores de muestreo.
Módulo I: Aspectos generales del Diseño Muestral
8
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Es el utilizado en los Institutos Nacionales de Estadística para las encuestas
oficiales.
•
Muestreo No probabilístico. En este tipo de muestreo la selección de la
muestra no está sometida a criterios probabilísticos. Los más utilizados son el
muestreo opinático en el que la persona que selecciona la muestra procura
que esta sea representativa, (selección de unidades tipo) y el muestreo por
cuotas en el que la muestra se selecciona en un número proporcional al de los
que cumplen una característica de la población.
SABER +
Las cuotas más utilizadas son las de edad y sexo, por ser
generalmente la información disponible de la población. Se utilizan en las
encuestas de opinión.
1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo
La demanda de información creciente ha hecho casi imprescindible el uso de las
encuestas por muestreo. Las ventajas del muestreo frente a la enumeración
completa (Censo) son las siguientes:
1. Menor coste: Si los datos se obtiene de una pequeña parte de la
población, los gastos son menores que los de realizar una investigación
exhaustiva, aun cuando el coste por unidad pueda ser superior.
2. Errores ajenos al muestreo: Son más fáciles de controlar, y como éstos
suelen ser superiores a los de muestreo, los resultados obtenidos son más
acurados.
Aun cuando una muestra viene afectada de un error de muestreo, el diseñador
dispone de métodos para medirlo y controlarlo.
3. Resultados rápidos: Los datos pueden ser recogidos más rápidamente en
una encuesta por muestreo que en una enumeración completa.
4. Menos limitaciones en las características a investigar: El uso de
equipos más especializados hace que el muestreo tenga más posibilidades y
flexibilidad respecto a la información a obtener.
Módulo I: Aspectos generales del Diseño Muestral
9
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
RESUMEN
A pesar de las ventajas antes mencionadas, el Censo es necesario
porque es la única oportunidad de tener una gran cantidad de información a un
nivel muy elevado de desagregación. En este sentido se puede decir que el censo
complementa a las encuestas por muestreo en el sentido de que proporciona
información necesaria para:
•
Preparación de las Bases de Muestreo (MARCOS)
•
Procesos de ESTRATIFICACIÓN
•
Procesos de ESTIMACIÓN
Y por tanto permite una notable mejora en la calidad de las encuestas.
1.3. Etapas de una encuesta por muestreo
La realización de una encuesta por muestreo se extiende sobre un largo periodo de
tiempo que abarca desde la planificación del proyecto hasta la publicación de los
resultados.
Previamente a la descripción de los aspectos más importantes del diseño muestral y
el papel que juega la teoría estadística en una encuesta por muestreo, es
importante describir cuales son los pasos involucrados en la ejecución de un
proyecto estadístico.
Estos pasos pueden agruparse en los siguientes:
1. Determinación de los objetivos: Es necesario establecer de una manera
clara y precisa cuales son los objetivos de la encuesta y una justificación de
la necesidad de la misma. Esto implica una definición de la población que se
va a investigar, y de la población a muestrear, la especificación de las
características a estimar, diseñar un modelo de tablas de resultados y fijar
los niveles de precisión requeridos para las estimaciones.
2. Diseño de la muestra. Esta fase que se describe con más detalle en el
último apartado de esta unidad, analiza entre otros el establecimiento del
plan de muestreo y los métodos de estimación.
3. Trabajos de campo. Comprende esta fase todas las actividades necesarias
para la elaboración del cuestionario, establecimiento del método de
recogida, selección y formación de entrevistadores, y la organización de la
recogida de los datos.
Módulo I: Aspectos generales del Diseño Muestral
10
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
4. Tratamiento de la información. Incluye esta fase las operaciones de
depuración e Imputación a que son sometidos los datos con objeto de
obtener un fichero de datos completo y consistente. La fase de depuración
consiste en el establecimiento de controles y reglas que permitan detectar
inconsistencias o datos potencialmente erróneos. La fase de imputación se
utiliza para corregir los errores detectados en la fase de depuración.
5. Difusión de los datos. Consiste en determinar el procedimiento para
hacer llegar los resultados de una operación estadística a los usuarios. En
esta fase se habrá de tener en cuenta las necesidades de los usuarios y se
procurará que la información facilitada sea acurada, completa, accesible y
oportuna.
En las publicaciones en que se vayan a difundir los resultados, deberá
figurar además una descripción de la metodología, conceptos, variables y
clasificaciones utilizadas.
1.4. Esquema general del diseño muestral
El diseño muestral en una encuesta comprende una serie de fases que van desde la
elección del método de muestreo hasta la formulación del procedimiento de
estimación y cálculo del nivel de precisión de las estimaciones.
En la toma de decisiones en las distintas fases, influyen diversos factores como son
la disponibilidad de marcos apropiados, grado de conocimiento de la población
investigada que permita disponer de variables adecuadas para la estratificación y
estimación; y finalmente, del presupuesto disponible.
1.4.1. Ámbito de estudio
El ámbito en una encuesta se contempla desde una triple óptica: poblacional,
geográfico y temporal. Viene determinado por los objetivos de la encuesta, y es
el punto de partida para el resto de las etapas del diseño muestral.
El ámbito poblacional se refiere a la población objeto de estudio.
Módulo I: Aspectos generales del Diseño Muestral
11
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
El ámbito poblacional en la encuesta industrial es el conjunto de empresas
con una o más personas remuneradas y cuya actividad principal está incluida en las
secciones B a E de la CNAE-09.
El ámbito geográfico es el territorio abarcado por el objetivo de la encuesta,
puede ser una provincia, una región o el total nacional.
El ámbito temporal tiene un doble aspecto: el de referencia de la encuesta y el de
referencia de la toma de datos.
En la Encuesta de Población Activa (EPA), la referencia de la encuesta es el
trimestre y los datos van referidos a la semana anterior a la de la entrevista.
1.4.2. Marco
Es el conjunto de información útil en cualquier etapa del diseño muestral.
En el marco se debe de distinguir entre la lista de unidades y la
información complementaria.
El marco, en sentido estricto, es la lista de las unidades de muestreo, y debe ser
un fiel reflejo de la población objetivo. En las encuestas por muestreo se pueden
utilizar marcos de áreas o marco de listas, lo que nos conduce a muestreos en una
o en varias etapas.
Si el marco es de áreas geográficas, éstas deben tener los límites perfectamente
definidos e identificables sobre el terreno para evitar omisiones, inclusiones
erróneas, etc. Si el marco es de lista, es decir, formado por las unidades
elementales, la falta de actualización puede producir una muestra sesgada.
La formación del marco puede tener un impacto importante en el coste de la
encuesta. Generalmente se recurre a formar los marcos a partir de otras fuentes ya
existentes.
La información complementaria se refiere a toda aquella información que puede
utilizarse para
la
mejora
del
diseño muestral, tanto en los procesos de
estratificación, de estimación, ajuste de la falta de respuesta, etc.
Módulo I: Aspectos generales del Diseño Muestral
12
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
1.4.3. Variables de estratificación
Con la estratificación o división de la población en subpoblaciones o estratos se
persiguen diversos fines:
1. Dar estimaciones separadas para ciertas subpoblaciones
2. Agrupar unidades homogéneas entre sí para mejorar la precisión de las
estimaciones globales.
3. Posibilidad de utilizar diferentes métodos de muestreo en los distintos
estratos.
SABER +
En esta línea, el INE ha realizado el diseño muestral de la Encuesta
Financiera de las Familias que lleva a cabo el Banco de España. En los estratos
donde se agrupan los municipios de mayor tamaño se ha realizado un muestreo
aleatorio simple, en el resto de los estratos el tipo de muestreo utilizado ha sido
bietápico estratificado.
Generalmente, las variables disponibles en las unidades del marco de población y
que son utilizadas en el proceso de estratificación, proceden de los censos de
población.
SABER +
Anteriormente los censos eran la única oportunidad para formar los
marcos y disponer de información desagregada a nivel de unidad primaria de
muestreo. Actualmente la existencia de Registros Administrativos, actualizados y
depurados ha facilitado esta tarea como se verá a lo largo del curso.
1.4.4. Tamaño de la muestra
El tamaño de la muestra en una encuesta se establece en función de:
El nivel de precisión requerido para las estimaciones de las características
más importantes a estimar en la encuesta.
El nivel de desagregación de las variables objetivo.
Otros límites como el presupuesto disponible.
Resulta muy útil la experiencia de otras encuestas anteriores o similares.
Módulo I: Aspectos generales del Diseño Muestral
13
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
1.4.5. Tipo de muestreo
Es el proceso mediante el cual se selecciona la muestra. En la elección del método
de muestreo influyen diversos factores como son: el nivel de precisión deseado
para los resultados finales, la disponibilidad de marcos, el grado de conocimiento de
la población objetivo que permita el uso de la estratificación, así como del
presupuesto disponible.
RESUMEN
En la práctica puede no ser conveniente seleccionar directamente las
unidades elementales de estudio, bien porque no se dispone de la lista de donde
realizar la selección o bien por razones de coste y tiempo. En estos casos debe de
utilizarse un muestreo en dos o más etapas, mediante la utilización de
conglomerados. En este tipo de muestreo la lista de unidades elementales solo es
necesario disponerla para los conglomerados seleccionados en la muestra.
1.4.6. Estimadores
El estimador es la expresión matemática que nos permite inferir las
características de la población a partir de los datos de una muestra. El valor que
toma el estimador en una determinada muestra, o valor inferido, se conoce como
estimación.
La utilización de métodos de estimación adecuados permite obtener estimaciones
consistentes en ausencia de casos de no respuesta.
El estimador de Horvitz -Thompson es el estimador básico que pondera cada unidad
de la muestra con la inversa de la probabilidad de selección. Generalmente debido a
la presencia de falta de respuesta o, con objeto de incorporar la información
auxiliar para mejorar la precisión del estimador, se aplican técnicas de calibrado.
Los factores resultantes se denominan factores de calibrado.
En general, estos ajustes dan lugar a estimaciones aproximadamente consistentes
y sesgos despreciables.
Módulo I: Aspectos generales del Diseño Muestral
14
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
RESUMEN
En las encuestas de hogares, el estimador se obtiene siguiendo los
siguientes pasos:
1. Obtención del peso de diseño: Estimador de Horvitz -Thompson.
2. Corrección de falta de respuesta: Corrección del sesgo en las estimaciones.
3. Aplicación de Técnicas de calibrado: Mejora la precisión de las estimaciones,
con la información proporcionada por fuentes externas.
SABER +
En las encuestas económicas no está muy extendido el uso de
técnicas de calibrado debido a la no disponibilidad de fuentes externas fiables.
1.4.7. Evaluación de la calidad de los datos.
La evaluación de la calidad de los datos es el proceso de valoración del producto
final de un proceso estadístico. Esta fase pasa por la medición de los principales
tipos de error de las encuestas.
Los errores que afectan a las encuestas se clasifican en dos grandes grupos:
•
Errores de muestreo: Son debidos al hecho de estimar las características
de la población a partir del estudio de una muestra.
Para su cálculo se utilizan procedimientos directos e indirectos. A partir del
error de muestreo se calcula el intervalo de confianza que con una
probabilidad prefijada contiene al verdadero valor del parámetro.
• Errores ajenos al muestreo: Son errores que se presentan en cualquiera
de las etapas del desarrollo de una encuesta. Introducen sesgos en las
estimaciones generalmente difíciles de cuantificar. Los métodos para la
evaluación de estos errores son generalmente costosos y difíciles de llevar a
la práctica.
SABER +
Las oficinas de estadística deben de ser las responsables de llevar a
cabo la evaluación de la calidad de los datos, así como la difusión de los mismos.
Los usuarios deben de conocer en qué medida los errores pueden limitar la
utilización de la información estadística.
La evaluación de la calidad puede servir para mejorar la calidad de otros estudios.
Módulo I: Aspectos generales del Diseño Muestral
15
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
1.4.8. La falta de respuesta.
Entre los errores ajenos al muestreo que afectan a las encuestas se presenta la
falta de respuesta en las unidades seleccionadas.
La planificación inicial del diseño muestral se ve modificada cuando se realiza la
encuesta debido a la presencia de una serie de incidencias que dan lugar a la falta
de respuesta y por tanto el tamaño muestral teórico es inferior al tamaño de
muestra efectivo. El trabajo de campo es clave para que el diseño inicial no se aleje
del resultado final.
DEFINICIÓN:
De acuerdo con el diseño de la muestra, en un determinado número de unidades
u1, u2, u3, ……un deben ser observadas k variables y1,,y2,…. yk.
Este plan no puede llevarse a cabo por:
1. Una o más unidades no pueden ser observadas: Falta de respuesta total.
2. En una o más unidades solamente son observadas h < k variables: Falta de
respuesta parcial.
Las incidencias que dan lugar a la falta de respuesta son:
•
Unidades no encuestables: Son unidades seleccionadas para la muestra que
no pertenecen a la población objeto de estudio. Son debidas a errores en los
marcos.
•
Unidades ausentes o no contactadas: Son aquellas que pertenecen a la
población objetivo pero con las que no se ha podido establecer contacto. Su
existencia depende en cierta medida de la organización del trabajo de campo.
•
Unidades negativas a contestar: Son aquellas que rechazan colaborar en la
encuesta. Pueden ser negativas en el contacto inicial o posterior al contacto.
•
Unidades incapaces de contestar: Son aquellas que por enfermedad,
desconocimiento del idioma, no colaboran en la encuesta.
Módulo I: Aspectos generales del Diseño Muestral
16
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
La presencia en la encuesta de los distintos tipos de unidades produce:
•
Presencia de sesgos en las estimaciones, por no ser aleatoria la muestra de
unidades que no responden.
•
Incremento de la varianza, por producir disminución en el tamaño de la
muestra.
•
Incremento del coste. Es necesario incrementar la muestra para mantener los
niveles de precisión exigidos.
Con una previsión inicial de la falta de respuesta, se podría incrementar el tamaño
muestral teórico para que el tamaño muestral efectivo cumpliera con nuestras
expectativas. Lo que no podemos eliminar es el sesgo por falta de respuesta. Si las
unidades que no contestan se comportan de manera marcadamente diferente a las
que contestan, por mucho que aumentáramos el tamaño muestral, no se eliminará
el sesgo.
Si se dispone de información auxiliar conveniente, se puede reducir el sesgo
aplicando las técnicas de calibrado, como se verá en las unidades de los siguientes
módulos.
Asimismo se analizará en cada encuesta los distintos tratamientos que se dan ante
la presencia de falta de respuesta y los procedimientos que se utilizan para reducir
la misma.
1.5 Resumen
Esta unidad sólo intenta ser una introducción para el resto de las unidades, tanto
de este módulo como de los siguientes. En ella se definen una serie de conceptos
necesarios en la utilización y entendimiento de las técnicas de muestreo, se
describen las diferentes etapas de una encuesta por muestreo, y finalmente se
describen los distintos apartados necesarios para llevar a cabo un diseño muestral.
Módulo I: Aspectos generales del Diseño Muestral
17
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
UNIDAD 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE
MUESTRAS UTILIZADOS EN EL DISEÑO DE LAS ENCUESTAS
Algunos conceptos de la Teoría de Muestras que son imprescindibles para el diseño
de las encuestas basadas en el muestreo probabilístico (población, marco, muestra,
estimador, error,...) ya han sido introducidos en la unidad 1.
Ahora vamos a desarrollar brevemente algunos de ellos junto con los diferentes
tipos de muestreo y sus estimadores.
2.1. Principios básicos del muestreo probabilístico
El muestreo es un proceso utilizado desde hace muchos años para seleccionar una
parte representativa o muestra de un conjunto que llamamos población y, de esta
manera, obtener información sobre una característica definida en ésta. A partir de
la información proporcionada por la muestra, estimamos el valor del dato
poblacional que nos interesa.
Si la muestra procede de una población homogénea, cualquier parte seleccionada
es representativa del total siempre que no sea excesivamente pequeña y, en este
caso, el muestreo tiene poca importancia. El problema se plantea cuando tratamos
de muestrear poblaciones no homogéneas. En este caso es cuando nos
preocupa el muestreo, ya que tenemos que conseguir que la muestra tenga
representación de un gran número de unidades que difieren extraordinariamente.
En (1.2.2) visteis dos grandes tipos de muestreo: el muestreo
probabilístico y el muestreo no probabilístico (por cuotas, opinático,...). El
primero es el tipo de muestreo utilizado en las encuestas oficiales realizadas por los
Institutos Nacionales de Estadística.
Para seleccionar de forma aleatoria los elementos de la población que van a
formar la muestra es necesario elaborar un marco de muestreo (lista de unidades a
partir de la cual se selecciona la muestra).
Módulo I: Aspectos generales del Diseño Muestral
18
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.1.1. Unidades de muestreo
En (1.2.1) apareció el concepto de unidad de muestreo como la
unidad que se utiliza en la selección de la muestra, que puede ser diferente de la
unidad de investigación. Además definíamos el marco de muestreo como el
conjunto de unidades de muestreo.
Hay dos grandes tipos de unidades de muestreo:

Unidades elementales: son las unidades de las que tratamos de obtener
información, por lo tanto, son las unidades últimas en el proceso de selección y
coinciden con las unidades de investigación.

Conglomerados: son grupos de unidades elementales.
Estamos interesados en estudiar el precio de alquiler de la vivienda y
disponemos
de
una
lista
de
municipios.
Entonces
seleccionamos
primero
municipios, elaboramos una lista de viviendas para aquellos municipios elegidos y
seleccionamos viviendas en cada uno de ellos. En esta situación estamos
trabajando
con
dos
marcos:
primero
utilizamos
un
marco
de
municipios
(conglomerados) y después un marco de viviendas (unidades elementales)
construido sólo para aquellos municipios seleccionados.
A veces el marco de muestreo no es una simple lista que enumera las unidades de
muestreo, sino que contiene información sobre las mismas que podemos utilizar
para aplicar técnicas especiales de muestreo (estratificación, probabilidades
desiguales de selección,...) o de estimación (estimador de razón), que veremos a lo
largo del desarrollo de esta unidad.
Partiendo
de
un
marco,
el
muestreo
probabilístico
verifica
las
siguientes
propiedades:

El conjunto formado por todas las muestras posibles que el procedimiento
aleatorio es capaz de elegir del marco, es conocido

Cada muestra posible s tiene asignada una probabilidad p(s) conocida de
selección
En la práctica no es imprescindible construir todas las muestras posibles, sólo es
necesario que supiésemos cómo hacerlo si contásemos con el tiempo y los medios
necesarios.
Módulo I: Aspectos generales del Diseño Muestral
19
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
En una población formada por 3 unidades (u1, u2, u3) vamos a seleccionar
una muestra de dos unidades, de manera que todas las unidades de la población
tienen la misma probabilidad de ser elegidas y no hay unidades repetidas.
Entonces, bajo este esquema de muestreo, el conjunto formado por todas las
muestras posibles es
{(u1, u 2 )(u1, u 3 )(u 2 , u 3 )} y la probabilidad de selección de cada una
de las tres muestras posibles es 1/3. Por lo tanto podemos afirmar que este tipo de
muestreo es probabilístico.
Si utilizamos dos marcos, como en el ejemplo de las viviendas, los municipios son
las unidades de muestreo correspondientes a la primera etapa y las viviendas son
las unidades de muestreo correspondientes a la segunda etapa. Es decir el
muestreo lo hemos realizado en dos etapas. Podemos generalizar la idea a varias
etapas (muestreo polietápico) en el que seleccionamos conglomerados en una
primera etapa y submuestreamos los conglomerados en etapas posteriores hasta
seleccionar las unidades elementales en una última etapa.
Para que el muestreo sea probabilístico, las propiedades anteriores deben de
verificarse en cada etapa.
2.1.2. Probabilidades de inclusión de primer y segundo orden
Partiendo de una población formada por N unidades (u1,..., uN), si el muestreo es
probabilístico, podemos calcular las probabilidades de inclusión siguientes:

De primer orden asociada a cada unidad ui de la población: es la
probabilidad que tiene ui de pertenecer a la muestra. Se denomina πi y es la
suma de las probabilidades de selección en el subconjunto formado por las
muestras posibles que contienen a ui. Es decir:
πi =
∑ p(s)
u i ∈s
Módulo I: Aspectos generales del Diseño Muestral
20
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2

De segundo orden asociada al par de unidades (ui, uj) de la población: es
la probabilidad que tiene el par (ui, uj) de pertenecer a la muestra. Se denomina
πij es la suma de las probabilidades de selección en el subconjunto formado por
las muestras posibles que contienen a (ui, uj). Es decir:
πij =
∑ p(s)
u i , u j ∈s
Obviamente las probabilidades de inclusión de segundo orden asociadas a los pares
(ui, uj) y (uj, ui) coinciden, es decir: π ij = π ji .
En el ejemplo último, cada unidad de la población pertenece a dos muestras
posibles por lo que π1 = π 2 = π3 =
1 1 2
son las probabilidades de inclusión de
+ =
3 3 3
primer orden. Por otra parte, cada par de unidades es una muestra posible y
consecuentemente pertenece a una única muestra. Entonces las probabilidades de
inclusión de segundo orden son π12 = π13 = π 23 =
1
.
3
2.1.3. Estimador
En (1.4.6) apareció la definición de estimador como la expresión
matemática que nos permite inferir las características de la población a partir de la
muestra. El valor que toma el estimador en una determinada muestra, se conoce
como estimación.
Es decir, en la práctica, seleccionamos una única muestra de tamaño n y aplicamos
un estimador, que no es más que una función matemática, a los valores muestrales
observados.
Módulo I: Aspectos generales del Diseño Muestral
21
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Supongamos que en el ejemplo anterior queremos investigar el valor medio
de una característica que toma los valores x1=x2=2 y x3=5 y la muestra
seleccionada resulta ser la formada por las unidades (u2, u3) siendo (2,5) los
valores observados. Entonces un estimador del valor medio poblacional viene dado
por la media muestral definida por la expresión matemática
1
2
muestra seleccionada, proporciona la estimación dada por el valor
∑x
i
que, en la
i∈s
2+5
= 3,5 .
2
Repitiendo el proceso de muestreo todas las veces posibles, el estimador
proporciona diferentes estimaciones, cada una de ellas con una probabilidad igual a
la de la muestra sobre la que la estimación es calculada. El estimador es por
consiguiente
una
estimaciones,
y
()
variable
tiene
aleatoria,
sentido
hablar
()
cuyos
de
valores
la
particulares
esperanza
son
las
matemática
del
estimador, E θ̂ , y de su varianza V θ̂ .
La esperanza del estimador es la media de todas las estimaciones posibles y la
varianza del estimador es una medida del grado de dispersión de éstas alrededor
de su media.
En el ejemplo anterior, el estimador media muestral es una variable
aleatoria discreta que proporciona dos estimaciones posibles: el valor 2 si la
muestra (u1, u2) es seleccionada y el valor 3,5 si seleccionamos cualquiera de las
otras dos muestras posibles. Por lo tanto, el estimador media muestral toma dos
valores, el 2 con probabilidad 1/3 y el 3,5 con probabilidad 2/3.
Fijaros que en este ejemplo ninguna de las dos estimaciones posibles coincide con
la media poblacional a estimar
2+2+5
= 3.
3
Siempre que utilizamos una muestra para estimar datos de una población,
cometemos algo de error pues no podemos esperar que la muestra sea una
reproducción perfecta de la población de que procede. Este error es propio del
muestreo y no existen en los censos.
Módulo I: Aspectos generales del Diseño Muestral
22
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Veamos los siguientes gráficos que representan para tres situaciones diferentes, los
valores de las estimaciones posibles (azul), el valor de su media (verde) y el valor
del parámetro poblacional a estimar (rojo):
1)
2)
3)
En la primera situación hay un sesgo representado por la distancia entre el punto
verde (media de las estimaciones) y el punto rojo (parámetro poblacional), además
de un error representado por las oscilaciones de los puntos azules (estimaciones).
En la segunda el sesgo es el mismo que en la primera pero tiene menor error ya
que los puntos azules (estimaciones) están menos dispersos. La situación ideal es
la tercera, es decir, el sesgo prácticamente no existe y el error se ha reducido.
Si mediante el estimador θ̂ pretendemos estimar el parámetro poblacional θ ,
()
()
pueden ocurrir dos cosas: E θ̂ = θ ó E θ̂ ≠ θ . En el primer caso decimos que θ̂ es un
estimador insesgado para el parámetro θ , y en el segundo caso decimos que el
()
estimador es sesgado. Podemos calcular el sesgo del estimador B θ̂
como la
diferencia entre la esperanza del estimador y el parámetro que trata de estimar. Es
() ()
decir, B θˆ = E θˆ − θ.
Continuando con el ejemplo anterior, la esperanza de la media muestral es
()
2
1
E θˆ = 2 + 3,5 = 3 que coincide con la media poblacional. Por lo tanto, en este caso,
3
3
la media muestral es un estimador insesgado de la media poblacional (aunque la
estimación sobre una determinada muestra no coincide con la media poblacional, la
media de las estimaciones sí coincide).
Módulo I: Aspectos generales del Diseño Muestral
23
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
En general trabajaremos con estimadores insesgados.
El error del estimador viene dado por la dispersión de las estimaciones posibles
alrededor del parámetro poblacional a estimar. A este error de carácter aleatorio se
le conoce como el error cuadrático medio del estimador (ECM) y se define
como la media de las desviaciones entre las estimaciones y el parámetro al
cuadrado:
() (
ECM θˆ = E θˆ − θ
)
2
El error cuadrático medio del estimador se puede desglosar en dos componentes,
ya que
() () ()
2
ECM θˆ = V θˆ + B θˆ
En donde el primer término es la varianza y el segundo es el cuadrado del sesgo.
En el caso de los estimadores insesgados, el error del estimador viene dado
sólo por la varianza. Para comparar dos estimadores insesgados, un criterio útil es
el de comparar sus varianzas pues a menor varianza, menor error y mayor
precisión.
Continuando con el ejemplo último, el error de la media muestral es
()
2 1
1
que coincide con la varianza del estimador, lo que
ECM θˆ = (2 − 3) 2 + (3,5 − 3)2 =
3
3 2
resulta lógico pues es insesgado.
En la práctica, como trabajaremos con estimadores insesgados, el error de
muestreo se mide con la raíz cuadrada de la varianza para expresar el error en las
mismas unidades que la característica estudiada. A este error se le conoce como el
error absoluto de muestreo del estimador.
Módulo I: Aspectos generales del Diseño Muestral
24
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Ahora bien, el error absoluto no nos proporciona una idea de la magnitud del
mismo en el sentido de si es grande o pequeño respecto al dato poblacional a
estimar (no es lo mismo un error absoluto de 1000 cuando el dato poblacional a
estimar vale 1000000 que cuando
vale 10). Entonces, con el fin de limitar la
utilización de los datos estadísticos, es más útil el cociente entre el error absoluto y
el dato poblacional que estima, es decir, el error relativo de muestreo del
estimador o coeficiente de variación.
Continuando con el mismo ejemplo, el error absoluto de la media muestral
es
1
= 0,707 y su error relativo es
2
1
2
3
= 0,2357 , es decir, el coeficiente de variación
es del 23,57%.
Observar que, en este ejemplo, es posible calcular los errores porque conocemos
los datos poblacionales pero en el mundo real sólo vamos a conocer los datos de las
unidades investigadas en la muestra por lo que será imposible calcular su valor
exacto.
En la práctica el error de un estimador insesgado, tanto absoluto como
relativo, es estimado en base a los datos proporcionados por la muestra
seleccionada.
Otro indicador de la exactitud de las estimaciones vine dado por el intervalo de
()
()
confianza  θˆ − 2 V̂ θˆ , θˆ + 2 V̂ θˆ  que cubrirá al verdadero valor de θ con una


probabilidad de más del 95%, si θ̂ se distribuye aproximadamente como una
()
normal y V̂ θ̂ es un estimador consistente para la varianza del estimador. Entonces
cuanta menos amplitud tenga, más informativo será.
Módulo I: Aspectos generales del Diseño Muestral
25
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.2. Métodos de selección de las unidades
En general existen dos métodos para seleccionar las unidades de la población:

Sin reemplazamiento que es cuando la unidad seleccionada no se devuelve a
la población

Con reemplazamiento que es cuando la unidad seleccionada se devuelve a la
población manteniendo constante la estructura de ésta
Con el primer método no hay unidades repetidas en la muestra mientras que con el
segundo puede haberlas.
Supongamos que P1, P2,..., PN (P1+P2+... +PN=1) son las probabilidades de
selección que tienen las unidades de la población al iniciar la selección de las n
unidades que formarán la muestra.
No confundir las probabilidades de selección P1,..., PN con las probabilidades
de inclusión π1 ,  , π N , son diferentes.
En el último ejemplo π1 = π 2 = π 3 =
2
3
y P1=P2=P3=1/3 ya que las tres
unidades de la población tienen la misma probabilidad de ser elegidas.
2.2.1. Sin reemplazamiento (SR)
Al no devolver la unidad seleccionada, la estructura de la población no es constante
y las probabilidades de selección varían a medida que vamos construyendo la
muestra de tamaño n. De esta forma, las extracciones sucesivas hasta completar la
muestra no son independientes.
En el último ejemplo, inicialmente la población consta de tres unidades (u1,
u2, u3) y cada una tiene una probabilidad de selección igual a 1/3. Después de
seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y no
devolverla a la población, la población inicial ha variado y ahora está formada sólo
por dos unidades con una probabilidad de selección igual a 1/2 cada una de ellas.
Además el resultado de la primera extracción influye en el resultado de la segunda,
es decir, los dos pasos realizados para completar la muestra no son independientes.
Módulo I: Aspectos generales del Diseño Muestral
26
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
En los métodos de selección de la muestra “sin reemplazamiento”, lo
importante es conocer las probabilidades de inclusión de primer y segundo
orden, πi para cada i=1,..., N y πij con i ≠ j , pues son imprescindibles para construir
los estimadores usuales (por ejemplo, el estimador de Horvitz-Thompson).
2.2.2. Con reemplazamiento
Al devolver la unidad seleccionada, a medida que vamos construyendo la muestra
de tamaño n, la estructura de la población es constante al igual que las
probabilidades de selección y las extracciones sucesivas hasta completar la muestra
son independientes.
Pensemos en el ejemplo anterior seleccionando una muestra de la misma
manera pero con reemplazamiento. Entonces inicialmente la población consta de
tres unidades y cada una tiene una probabilidad de selección igual a 1/3. Después
de seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y
devolverla a la población, quedan otra vez las tres unidades con una probabilidad
de selección igual a 1/3 cada una de ellas. Al ir a seleccionar la segunda unidad que
pertenecerá a la muestra, la población inicial no ha variado. Además el resultado de
la primera extracción no influye en el resultado de la segunda ya que siempre
partimos de la misma población compuesta por las tres unidades, es decir, los dos
pasos realizados para completar la muestra son independientes.
En los métodos de selección de la muestra “con reemplazamiento”, lo
importante es conocer las probabilidades de selección iniciales P1,..., PN con
P1+P2+... +PN=1, pues son imprescindibles para construir los estimadores usuales
(por ejemplo, el estimador de Hansen-Hurwitz).
Módulo I: Aspectos generales del Diseño Muestral
27
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.3. Estimadores lineales insesgados
En cualquier proceso de muestreo el objetivo es estimar el valor de un parámetro o
dato poblacional asociado a una característica definida en la población, a partir de
los datos muestrales.
Podemos distinguir dos tipos de características a investigar en la población:

Cuantitativa (si se puede medir y a cada unidad de la población le
asignamos un número)

Cualitativa (en caso contrario y a cada unidad le asignamos una cualidad)
Cuantitativa son la edad de la persona, el número de hijos o el gasto
realizado en una familia y cualitativas son el sexo, el estado civil o la situación
laboral de la persona.
Entonces, según sea la característica estudiada, los parámetros poblacionales a
estimar más frecuentes son los siguientes:

El total poblacional (X) de una característica cuantitativa, que es la suma de
los valores en la población, es decir,
X=x1+... +xN
Por ejemplo, el total del gasto en educación generado por las familias.

La media poblacional ( X ) de una característica cuantitativa que es un
promedio de los valores en la población, es decir,
X=
(x1 +  + x N )
N
Por ejemplo, el gasto medio en educación de las familias.

La razón o cociente entre los totales o medias poblacionales de dos
características cuantitativas, es decir,
R=X
Y
=X
Y
Por ejemplo, la proporción que representa el gasto en educación en relación al
gasto total de las familias.
Módulo I: Aspectos generales del Diseño Muestral
28
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2

El total de clase (A) asociado a una característica cualitativa es el total de
unidades en la población que pertenecen a una determinada clase definida por
una o varias cualidades.
Por ejemplo, el total de individuos en paro.

La proporción poblacional (P) asociada a una característica cualitativa es el
cociente entre un total de clase y el total de unidades en la población.
Por ejemplo, la proporción de individuos en paro.

La tasa (T) es el cociente entre dos totales de clase o entre dos proporciones,
es deciR, T = A ′ = P ′ .
A
P
Por ejemplo la tasa de paro definida como el cociente entre el total de parados y
el total de activos (parados y ocupados).
Por su sencillez y fácil manejo, en la práctica, para la estimación de totales,
medias o proporciones aplicamos estimadores lineales insesgados que se pueden
expresar en base a los valores muestrales como
∑w x
i i
con s la muestra
i∈s
seleccionada, xi es el valor de la característica estudiada en la unidad ui y wi es el
coeficiente que lo multiplica.
Obsérvese que, en el caso de estudiar una característica cuantitativa, si
X̂ =
∑w x
i i
es el estimador lineal insesgado para el total poblacional
i∈s
(X), entonces
ˆ
X = X̂
N es el estimador lineal insesgado para la media poblacional
(X ) si el valor de N es conocido.
Finalmente, el estimador de la razón R se construye de forma natural como el
cociente entre las estimaciones insesgadas del numerador y del denominador,
R̂ =
X̂
Ŷ
=
ˆ
X
ˆ
Y
pero este estimador no es una combinación lineal de las observaciones muestrales
y tampoco es insesgado.
Módulo I: Aspectos generales del Diseño Muestral
29
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Cuando se trata de estudiar una característica cualitativa definimos en la
población una característica que toma el valor 1 si la unidad posee la condición que
define a la clase (A) o proporción (P) a estimar, y toma el valor 0 en caso contrario.
El total poblacional de esta nueva característica cuantitativa es X=x1+ ... +xN , una
suma de unos y ceros, que coincide con el total de clase (A=X). Además la media
poblacional de esta nueva característica es X =
(x1 +  + x N )
N
y coincide con la
proporción (P= X ). Igualmente podemos deducir que una tasa es una razón de
totales para variables cuantitativas que sólo toman los valores 1 ó 0 según la
unidad de la población posea o no la cualidad que define al total de clase del
numerador o del denominador.
El estudio de una característica cualitativa es un caso particular del
estudio de una característica cuantitativa. Por otra parte, la estimación
( )
insesgada de una media poblacional X se puede derivar dividiendo la estimación
insesgada del total poblacional (X) por el valor de N que se supone conocido.
Entonces los estimadores lineales insesgados de la media, el total de clase o
de una proporción y su error se pueden deducir a partir del estimador
lineal insesgado del total y su error.
A partir de ahora y para los diferentes tipos de muestreo que vamos a estudiar,
analizaremos el estimador lineal insesgado X̂ para el total poblacional (X) de una
característica cuantitativa. También estudiaremos el estimador de la razón y
aquellas situaciones en las que su sesgo es despreciable que es cuando debemos
utilizar este estimador.
En el libro de Cochran, o en el de Lohr o en el de Särndal, Swensson,
Wretman
indicados
en
la
bibliografía
se pueden
encontrar
los
desarrollos
matemáticos para cada uno de los estimadores y tipos de muestreo resumidos en
los siguientes apartados.
Módulo I: Aspectos generales del Diseño Muestral
30
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.4. Tipos de muestreo y estimadores
Hasta ahora hemos visto que, dependiendo del método de selección de las
unidades, el tipo de muestreo puede ser sin reemplazamiento (SR) o con
reemplazamiento (CR).
Otra clasificación que podemos considerar dependiendo de las unidades de
muestreo es el muestreo de unidades elementales o de conglomerados y, en
este último caso, se suele distinguir entre un muestreo de conglomerados sin
submuestreo (monoetápico) y con submuestreo (multietápico).
Finalmente, según la información disponible en el marco del que vamos a
seleccionar la muestra, distinguimos los siguientes tipos de muestreo: sin
información auxiliar y con información auxiliar. En este último caso la
información auxiliar disponible en el marco puede ser utilizada para mejorar la
selección de la muestra o para mejorar el estimador.
Combinando los tres criterios obtenemos una gran variedad de tipos de muestreo.
Nosotros estudiaremos los casos SR, comenzando por el más sencillo que es la
selección de unidades elementales sin información auxiliar en el marco y
terminando con la selección de conglomerados en dos o más etapas. También
veremos cómo mejorar el estimador usual cuando disponemos de la necesaria
información auxiliar y, más concretamente, la estimación de una razón.
En algunos casos desarrollaremos las expresiones bajo muestreo CR ya que son
más sencillas y para poblaciones grandes, como suelen ser las manejadas por las
oficinas de estadística, podemos aplicarlas aunque la selección haya sido realizada
SR pues ambos esquemas de muestreo resultan equivalentes.
2.4.1. Muestreo de unidades elementales con probabilidades iguales
Partimos de un marco que es una lista de N unidades elementales, sin información
auxiliar disponible. A las unidades u1,..., uN les asociamos respectivamente los
valores desconocidos x1,..., xN de la característica cuantitativa que vamos a
investigar y el objetivo es estimar el total poblacional X=x1 + ... + xN.
Módulo I: Aspectos generales del Diseño Muestral
31
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Seleccionamos n unidades con probabilidades iguales y SR. A este tipo de muestreo
se le denomina muestreo aleatorio simple “sin reemplazamiento”, m.a.s.(n) SR, y el
estimador lineal insesgado para el total poblacional viene dado por la
expresión:
X̂ =
N
n
∑x
i
i∈s
Al cociente N/n se le llama factor de elevación e indica el total de unidades en la
población que están representadas por una unidad de la muestra.
()
La varianza de este estimador es V X̂ = N 2 (1 − f )
S2
n
donde f=n/N representa la
fracción de muestreo y S2 es una medida de la variabilidad de la propia
característica estudiada, que se denomina cuasivarianza poblacional, con
S2 =
1
N −1
∑ (x
N
i
)2
−X .
i =1
Si estudiamos el gasto de las familias y todas las familias gastan lo mismo,
entonces la cuasivarianza poblacional vale cero (S2=0) ya que el valor de xi sería
igual para todas las unidades de la población. Es decir, en este caso la
característica estudiada (gasto de las familias) es muy homogénea.
A mayor homogeneidad de la característica estudiada en la población, menor
varianza del estimador y por tanto menor error en la estimación. El caso extremo
es el ejemplo anterior con S2=0 y error de muestreo nulo.
A mayor tamaño de la muestra, menor varianza y por tanto menor error en
la estimación. El caso extremo es cuando realizamos un censo (n=N) y por tanto
f=1 con error de muestreo nulo.
En la práctica, después de seleccionar la muestra, únicamente conocemos los
valores de la característica estudiada en las unidades muestrales y no en toda la
población. Consecuentemente es imposible conocer el valor exacto de S2 para
calcular la varianza del estimador y ésta es estimada en base a la información
proporcionada por la propia muestra.
Módulo I: Aspectos generales del Diseño Muestral
32
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
()
V̂ X̂ = N 2 (1 − f )
El estimador de la varianza es:
cuasivarianza
Ŝ2 =
x=
1
n −1
1
n
∑ (x
∑x
i
muestral,
un
estimador
Ŝ2
n
insesgado
es
donde
Ŝ 2
S2
definido
de
la
como
− x )2 con x la media de los valores muestrales observados. Es decir,
i∈s
i
es la media muestral.
i∈s
En una población de 100 familias seleccionamos una m.a.s. (10) SR y
obtenemos los gastos siguientes: 400, 400, 260, 450, 580, 600, 500, 420, 700 y
200. Entonces la estimación del gasto total es X̂ =
100
(400 + 400 +  + 200) , es decir,
10
de 45.100 euros. El factor de elevación es 100/10, es decir, cada unidad de la
muestra representa a 10 unidades de la población y el gasto realizado por la unidad
()
muestral se multiplica por 10. La varianza estimada es V̂ X̂ = (4.570,45)
relativo de muestreo es del 10% ya que
2
y el error
4.570,45
= 0,101 .
45.100
Si la selección de las unidades se hubiera realizado con m.a.s.(n) CR, entonces las
expresiones para el estimador del total poblacional y de su varianza son:
X̂ =
N
n
∑
xi
y
()
V̂ X̂ = N 2
i∈s
Ŝ2
n
La selección de unidades elementales con probabilidades iguales tiene las siguientes
ventajas:

Marco sencillo, sin necesidad de información auxiliar

Cálculo sencillo del tamaño de la muestra necesario para una precisión
dada

Fácil programación de la selección de la muestra, los factores de
elevación y los errores de muestreo

Dispersión de la muestra y garantía de representatividad de la misma
para tamaños muestrales adecuados.
Módulo I: Aspectos generales del Diseño Muestral
33
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Sin embargo, también tiene inconvenientes:

Coste elevado de los trabajos de campo por la dispersión muestral, sobre
todo si se hacen mediante entrevista personal

La
no
disponibilidad
de
información
auxiliar
impide
mejorar la
representatividad de la muestra o la precisión del estimador
2.4.2. Muestreo estratificado de unidades elementales con probabilidades
iguales
Partimos de un marco de N unidades elementales que contiene información auxiliar
suficiente para dividirlo en L subpoblaciones o estratos de N1, N2,..., NL unidades
cada uno con N=N1+N2+... +NL.
A cada unidad del marco la llamamos uhi con h=1, ..., L (representa el estrato al
que pertenece) e i=1,..., Nh (representa el lugar que ocupa dentro del estrato) y el
valor desconocido de la característica estudiada es xhi. El objetivo es estimar el total
poblacional X=x1+...+xN que ahora podemos expresar teniendo en cuenta los
(
)
estratos como X = ( x11 +  + x1N1 ) +  + x L1 +  x LN L = X1 +  + X L , es decir, como la
suma de los totales poblacionales en cada estrato X1,..., XL.
Entonces seleccionamos una m.a.s.(nh) SR en cada estrato de manera que las
muestras sean independientes. Es decir, obtenemos L muestras independientes de
tamaños n1, n2,..., nL de manera que el número total de observaciones, n, verifica
que n=n1+n2+... +nL. .
En cada estrato, haciendo uso de los resultados del apartado anterior, construimos
los estimadores
X̂1 =
∑
N1
x1i ,...,
n1 i∈s
X̂ L =
1
NL
nL
∑x
Li
insesgados para los totales
i∈s L
poblacionales X1, ..., XL respectivamente. Entonces, el estimador insesgado del
total poblacional viene dado por la expresión
L
X̂ st =
∑ X̂
h =1
h
con X̂ h =
Nh
nh
∑x
hi
i∈s h
La varianza de este estimador, por ser las muestras independientes, es la suma de
las varianzas de los estimadores construidos en cada estrato.
Módulo I: Aspectos generales del Diseño Muestral
34
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
( ) ∑ V(X̂ )
Es decir, V X̂ st =
L
h
pero cada sumando o varianza, en la práctica, no lo
H =1
podemos calcular con la información de la muestra aunque podemos estimarlo y
( )
construir V̂ X̂ h = N 2h (1 − f h )
Ŝ2h
estimador insesgado de la varianza en el estrato h.
nh
Entonces el estimador de la varianza del estimador X̂ st es:
( ) ∑ V̂(X̂ )
L
V̂ X̂ st =
h
( )
con V̂ X̂ h = N 2h (1 − f h )
h =1
Ŝ2h
nh
La ganancia en precisión con la estratificación será tanto mayor si los
estratos agrupan unidades con un comportamiento similar en relación a la
característica estudiada. De esta manera la varianza aportada por cada estrato será
pequeña y también la varianza del estimador basado en toda la muestra.
Este
tipo
de
muestreo
permite
obtener
estimaciones
insesgadas
separadas en los estratos. Cada estrato puede tener una fracción de muestreo
fh=nh/Nh diferente y, por tanto, un factor de elevación, Nh/nh, también diferente.
Un marco de personas que contenga la característica sexo permite formar
dos estratos, hombres y mujeres, y seleccionar una muestra de cada uno. Si se
desea estimar el total del gasto en bebidas alcohólicas, podemos estimar por
separado el gasto realizado por los hombres y por las mujeres, y obtener una
estimación del gasto total conjunto como suma de ambas estimaciones.
Un aspecto fundamental es la afijación de la muestra, es decir, cómo distribuir la
muestra entre los diferentes estratos. Esto es, determinar los valores de n1,..., nL
verificando que n=n1+...+nL. Existen varios criterios, entre ellos:

Uniforme: supuesto n conocido consiste en asignar el mismo tamaño muestral
para todos los estratos, es decir, nh=n/L. Tiene la ventaja de que es fácil de
aplicar pero pudiera ocurrir que un estrato pequeño resultase muestreado al
100% mientras que un estrato grande tuviera una fracción de muestreo
demasiado pequeña.
Módulo I: Aspectos generales del Diseño Muestral
35
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2

Proporcional: supuesto n conocido consiste en distribuir las n unidades
proporcionalmente a los tamaños de los estratos, es decir, nh=nWh donde
Wh=Nh/N es el peso del estrato h. Tiene la ventaja de que cada estrato aparece
representado en la muestra total, con el mismo peso que dicho estrato figura en
la población total. Sin embargo tiene la desventaja de que estratos con muy
poco peso en la población pero cuya estimación separada es necesaria, pueden
no tener muestra afijada.
Con la afijación proporcional se simplifican los cálculos porque todos los estratos
tienen la misma fracción de muestreo (fh=n/N) y el mismo factor de elevación
(N/n). De esta manera el estimador del total poblacional es dicho factor común
por
la
suma
de
los
valores
observados
en
la
muestra
completa


N L
 X̂ st = ∑∑ x hi  . Se dice entonces que la muestra es autoponderada.

n h=1 i∈sh 


De mínima varianza o de Neyman: supuesto n conocido consiste en
determinar los valores de nh de forma que la varianza del estimador sea
mínima. El resultado es que el tamaño muestral en cada estrato es proporcional
al peso del estrato y a la variabilidad de la característica en el estrato, es decir:
nh = n
Wh Sh
L
∑W S
h h
h =1
donde
S 2h =
1
Nh
Nh
(x
−1 ∑
hi
− Xh
)2
es
la
cuasivarianza
poblacional
de
la
i =1
característica estudiada en el estrato h.
Entonces a mayor peso y variabilidad, mayor tamaño muestral para representar
a ese estrato.

Óptima considerando costes, podemos minimizar el coste de los trabajos de
campo para una precisión dada del estimador global o viceversa, es decir o
minimizar la varianza para un coste dado. Los valores de nh resultantes son:
nh = n
Wh S h
ch
L
∑W S
h
h
donde ch es el coste por cuestionario en el
ch
h =1
estrato h.
Módulo I: Aspectos generales del Diseño Muestral
36
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
En la práctica desconocemos los valores de las cuasivarianzas poblacionales
S12 ,  , S2L , ¿sabías que entonces se suelen utilizar los valores conocidos asociados a
una característica correlada con la que es investigada o las estimaciones insesgadas
obtenidas en un periodo anterior?
La selección de muestras independientes en estratos tiene varias ventajas como
son:

Mejora la representatividad de la muestra, en lo que se refiere a las
variables utilizadas en la estratificación

Si la estratificación construye agrupaciones homogéneas de las unidades
elementales, mejora la precisión del estimador global

Permite un reparto óptimo de la muestra por estratos en cuanto a la
precisión del estimador global y a los costes de los trabajos de campo
El único inconveniente es la necesidad de información auxiliar disponible en el
marco para poder aplicarlo pero con la mejora actual de las bases de datos gracias
a los ordenadores y las nuevas tecnologías, en la práctica, se utiliza con mucha
frecuencia.
2.4.3. El estimador de razón bajo muestreo de unidades elementales con
probabilidades iguales
Partimos de un
marco de N unidades elementales del que seleccionamos una
m.a.s.(n) en la que investigamos dos características cuantitativas obteniendo los
valores (x1,y1), ..., (xn,yn). Entonces el estimador de la razón (R=X/Y) bajo
m.a.s.(n) vienen dado por la expresión:
R̂ =
X̂
Ŷ
con
X̂ =
N
n
∑x
i∈s
i
, Ŷ =
N
n
∑y
i
i∈s
El estimador de la razón es sesgado aunque hay 2 situaciones en las que su
sesgo es despreciable: cuando el tamaño de la muestra es grande y cuando la
relación entre ambas características cuantitativas es una recta que pasa por el
origen (yi=Cxi para cada i=1,..., N).
Módulo I: Aspectos generales del Diseño Muestral
37
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Para el cálculo de la varianza se utiliza el método general de linearización de Taylor,
válido cuando el sesgo es despreciable, que proporciona una expresión aproximada
en función de la propia razón R. Entonces, como en ocasiones anteriores, la
varianza del estimador es estimada en base a la propia muestra.
A veces sólo deseamos estimar el total poblacional (X) de una característica
cuantitativa pero disponemos del total poblacional (Y) de otra característica
cuantitativa correlada positivamente con la anterior. Entonces, podemos mejorar el
estimador X̂ y en su lugar aplicamos el llamado estimador del total por el
método de la razón que viene dado por la expresión X̂ R = R̂Y . Este estimador
será insesgado cuando lo sea el estimador R̂ .
La ganancia en precisión con el estimador del total por el método de la razón
frente al estimador usual del total es tanto mayor si la correlación entre ambas
variables cuantitativas es alta y positiva. Si la correlación es negativa, no debe
aplicarse este método.
Si en el marco tenemos las unidades agrupadas en L estratos y obtenemos una
muestra estratificada, hay dos formas de obtener el estimador del total por el
método de la razón bajo muestreo aleatorio estratificado:

Separado: obtenemos la estimación separada del total en cada estrato por el
(
)
método de la razón X̂ Rh = R̂ h Yh y sumamos. Es decir X̂ RS =
L
∑ X̂
Rh
.
h =1

Combinado: obtenemos la estimación de R como cociente de los estimadores
insesgados del numerador y del denominador bajo muestreo estratificado


 R̂ st = X̂ st
 y la multiplicamos por el total Y. Es decir X̂ RC = R̂ st Y .
Ŷ
st 

El estimador separado requiere una información auxiliar más desagregada y tiene el
riesgo de acumular el sesgo a lo largo de los estratos si éste existiese y fuera
siempre del mismo signo, positivo o negativo. Sin embargo, el estimador separado
permite dar estimaciones separadas para cada estrato y tiene menor variabilidad
generalmente al suponer que la verdadera razón no permanece constante de un
estrato a otro.
Módulo I: Aspectos generales del Diseño Muestral
38
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Si está disponible la información auxiliar necesaria y no hay riesgo de sesgos
acumulados, es preferible el estimador separado.
En muchas de las encuestas a hogares realizadas por el INE se utiliza el
estimador de razón separado, tomando como variable auxiliar la población de 16 y
más años.
2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo
Partimos de un marco formado por K conglomerados, C1,..., Ck, que contiene
información auxiliar relativa al tamaño del conglomerado medido por el total Mi de
unidades elementales que contiene. Supongamos que todos los conglomerados
tienen el mismo tamaño, es decir, Mi= M y N=K M .
A cada unidad elemental la llamamos uij con i=1, ..., K (representa el conglomerado
al que pertenece) y j=1, ..., M (representa el lugar que ocupa dentro del
conglomerado), y el valor desconocido de la característica estudiada es xij .
Deseamos estimar el total poblacional que, expresado teniendo en cuenta los
conglomerados, es X = (x11 +  + x1M ) +  + (x K1 +  + x KM ) = X1 +  + X K . Es decir, es la
suma de los totales poblacionales en cada conglomerado X1,..., XK.
Seleccionamos una m.a.s.(n) SR de conglomerados e investigamos en cada uno las
M unidades elementales que contiene, por lo tanto, conocemos el total poblacional
Xi en cada conglomerado seleccionado. Entonces, el estimador insesgado del
total poblacional viene dado por X̂ =
K
n
∑X
i
. Existe una fórmula directa para el
i∈s
cálculo de su varianza que, como siempre, debemos estimar en base a la muestra
seleccionada.
Si comparamos este tipo de muestreo con un m.a.s.(n M ) SR de unidades
elementales con el que obtendríamos una muestra más dispersa, obtenemos que
()
( )[ (
)]
VC X̂ = VMAS X̂ 1 + δ M − 1
(
)
donde el factor 1 + δ M − 1
representa el efecto del
diseño y muestra la magnitud del cambio de la varianza al usar el conglomerado
en lugar de la unidad elemental como unidad de muestreo.
Módulo I: Aspectos generales del Diseño Muestral
39
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
La ganancia en precisión con la selección de conglomerados se produce si el
efecto del diseño es menor que uno. Esto ocurre cuando los conglomerados
agrupan unidades con un comportamiento muy diferente en relación a la
característica investigada. El caso ideal sería si cada conglomerado fuera una copia
reducida de la población de manera que las medias poblacionales en los
conglomerados fueran idénticas.
¿Sabrías decirme la diferencia entre estratos y conglomerados?
Hay dos razones principales para la aplicación del muestreo de conglomerados:

menor coste de los trabajos de campos debido a la menor dispersión de la
muestra, sobre todo en el caso de la entrevista personal

la imposibilidad de aplicar otro tipo de muestreo al no existir un marco de
unidades elementales.
2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo
Partimos de la situación anterior pero ahora los conglomerados no tienen todos el
mismo tamaño y N=M1+ ... +MK.
Seleccionamos n conglomerados con probabilidades desiguales SR e investigamos
en cada uno las Mi unidades elementales que contiene. El estimador insesgado
del total poblacional viene dado por la expresión del estimador de HorvitzThompson X̂ =
∑π
Xi
i∈s
donde π i es la probabilidad de inclusión del conglomerado i
i
en la muestra de conglomerados.
Si el tamaño Mi del conglomerado está relacionado con el valor del total
pobalcional Xi, la selección de la muestra con probabilidades proporcionales a dicho
tamaño (ppt) permite mejorar los estimadores. En este caso es πi = n
Mi
y los
N
conglomerados más grandes tienen mayor probabilidad de ser seleccionados y los
pequeños tienen menos.
Módulo I: Aspectos generales del Diseño Muestral
40
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Supongamos deseamos estimar el gasto total en alimentación y partimos de
un marco de municipios (conglomerado) de los que sabemos el total de viviendas
(unidades elementales) en cada uno de ellos. Supongamos que se cumple, en cada
municipio, que el gasto total es 100 veces el total de viviendas. Es decir, Xi=100Mi,
entonces con una selección ppt de municipios el estimador del total sería
Xˆ = ∑
i∈s
Xi
nM i
=
N
N 100 M i
= 100 N = X y el error sería nulo.
∑
n i∈s M i
Si la selección de los n conglomerados se realiza CR y probabilidades desiguales, el
estimador insesgado del total poblacional viene dado por la expresión del
estimador de Hansen-Hurwitz X̂ =
∑ nP
Xi
i∈s
donde Pi es la probabilidad de selección
i
del conglomerado i. Si la selección se realiza con ppt es Pi=Mi/N.
Una ventaja del muestreo de conglomerados sin submuestreo es la mejora de la
precisión del estimador global si aplicamos probabilidades proporcionales al tamaño
del conglomerado (ppt). Sin embargo, conlleva una desventaja importante ya que
puede disminuir la precisión del estimador si las unidades elementales dentro de
cada conglomerado son homogéneas respecto a la característica estudiada.
En las encuestas de hogares realizadas por el INE se realiza un muestreo de
secciones censales (conglomerados), que son áreas geográficas que incluye un
máximo de 2.000 electores y un mínimo de 500, lo que permite reducir los costes
de los trabajos de campo. Sin embargo, en general, las personas que viven en una
misma sección censal suelen ser de la misma clase social por lo que su
comportamiento es muy similar en relación a las variables sociodemográficas
estudiadas (educación, actividad laboral,...).
Módulo I: Aspectos generales del Diseño Muestral
41
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo
En el caso anterior, si las unidades elementales de un conglomerado seleccionado
dan
valores
similares de la
característica
investigada, no parece rentable
observarlas todas. Entonces, una práctica común consiste en observar una muestra
de unidades elementales en cada conglomerado seleccionado.
Es decir, submuestreamos los conglomerados seleccionados o, dicho de otra
manera, realizamos un muestreo en dos etapas:

En la primera etapa seleccionamos n conglomerados con cualquier tipo de
muestreo aunque generalmente trabajamos con probabilidades proporcionales
al tamaño (ppt). Entonces a las unidades de muestreo de esta etapa se las
denomina unidades primarias o de primera etapa.

En la segunda etapa seleccionamos de forma independiente una m.a.s. (mi)
SR de unidades elementales en cada unidad primaria seleccionada. Entonces a
las unidades de muestreo de esta etapa se las denomina unidades secundarias
o de segunda etapa.
Es decir, si en la primera etapa la selección se hubiera realizado CR y una unidad
primaria saliese repetida dos veces, en la segunda etapa obtendríamos dos
muestras independientes de unidades elementales en esa unidad primaria.
Debido al submuestreo, el total poblacional Xi en cada conglomerado seleccionado
no es conocido y tenemos que estimarlo en base a la m.a.s. (mi) seleccionada. Con
las estimaciones X̂ i obtenidas podemos construir el estimador del total poblacional
de igual manera que en el caso anterior, dependiendo de que la selección de los
conglomerados haya sido realizada SR o CR. El resultado es un estimador
insesgado para el total poblacional dado por la expresión:
X̂ =
∑π
X̂ i
i∈s
donde X̂ i =
Mi
mi
mi
∑x
ij
(SR )
siendo πi = n
i
Mi
y
N
X̂ =
∑ nP
X̂ i
i∈s
(CR )
con Pi=Mi/N
i
es un estimador insesgado del total poblacional Xi en el
J =1
conglomerado seleccionado en la primera etapa.
Módulo I: Aspectos generales del Diseño Muestral
42
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Como siempre es posible obtener la expresión de la varianza de este estimador
que, aparte de resultar compleja, depende de los totales poblacionales en los
conglomerados X1,..., XK, cuyos valores desconocemos, por lo que debemos estimar
la varianza en base a la muestra.
El muestreo en dos etapas o bietápico se puede extender al muestreo en varias
etapas o polietápico. También se puede combinar con un muestreo estratificado con
estratificación de las unidades primarias y con un estimador del total por el método
de la razón si se dispone de la información auxiliar necesaria. Todo ello contribuye a
la mejora de los resultados pero, por otra parte, complica los cálculos para la
aplicación de las fórmulas directas que estiman los errores.
2.4.5. Muestreo sistemático
El muestreo sistemático se refiere a un conjunto de procedimientos para
seleccionar muestras de forma rápida y sencilla. La unidad de muestreo puede ser
tanto la unidad elemental como el conglomerado.

Muestreo sistemático de unidades elementales con probabilidades
iguales (SR):
Es la versión más sencilla del muestreo sistemático y sustituye frecuentemente al
muestreo aleatorio simple de unidades elementales.
Para obtener una muestra sistemática de tamaño n y probabilidades iguales de un
marco
de
N
unidades
elementales,
determinamos
un
periodo
k=N/n
y
seleccionamos un número aleatorio R del conjunto 1,2,..., k. Este número R
determina que la muestra esté formada por las unidades del marco numeradas
como R, R+k, R+2k,..., R+(n-1)K.
Para elegir una muestra de 100 viviendas de una lista de 2.000, el periodo
es k=20 y R ∈ {1,2,  ,20} . Supongamos que R=7, entonces las viviendas numeradas
como 7, 27, 37,..., 1.987 estarían en la muestra.
Si las unidades del marco tiene un orden aleatorio, el muestreo sistemático
es similar a un m.a.s. (n) SR y se aplican los mismos estimadores aunque no sea
exactamente lo mismo (en el ejemplo anterior, es imposible que las viviendas 125 y
Módulo I: Aspectos generales del Diseño Muestral
43
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
126 aparezcan en la misma muestra sistemática pero si es posible que formen
parte de la misma muestra aleatoria simple).
Por otra parte, si el marco tiene un orden creciente o decreciente según una
variable correlada con la estudiada, es probable que el muestreo sistemático sea
más preciso que el m.a.s. (n) SR y al utilizar la fórmula de la muestra aleatoria
simple para la estimación de la varianza, es posible que estemos dando una
sobreestimación del error.
Una lista de viviendas ordenadas según el número de personas que la
habitan y queremos estimar el gasto total en alimentación. La muestra sistemática
contiene viviendas de todos los tamaños y, por tanto, gastos pequeños y grandes
(efecto similar a la estratificación del marco según el tamaño de la vivienda). La
muestra aleatoria simple puede contener sólo viviendas pequeñas o sólo grandes,
de modo que haya más variabilidad entre sus estimaciones que entre las
estimaciones basadas en las muestras sistemáticas.
Si la lista de unidades del marco tiene algún orden periódico o cíclico, el muestreo
sistemático no proporciona necesariamente una muestra representativa. Por
ejemplo, si los hombres y las mujeres se alternan en la lista y k es par, la muestra
sistemática sólo tendrá hombres o mujeres, lo que no es una parte representativa
de la población estudiada.

Muestreo
sistemático
de
conglomerados
con
probabilidades
proporcionales al tamaño (ppt):
Es la generalización de la versión anterior. En un marco de K conglomerados, para
obtener una muestra sistemática de tamaño n y probabilidades proporcionales al
tamaño Mi del conglomerado, consideramos una lista numerada de 1 a N con N=M1
+.... + Mk , en la que los M1 primeros números representan al conglomerado 1º, los
M2 siguientes números representan al conglomerado 2º y así sucesivamente.
Entonces determinamos un periodo k=N/n y seleccionamos un número aleatorio R
del conjunto 1,2,..., k. Se seleccionan los conglomerados que contienen a los
números R, R+k, R+2k,..., R+(n-1)K.
Cuando los conglomerados tienen tamaños muy diferentes siendo unos muy
grandes y otros muy pequeños, al sumar el periodo k al número correspondiente,
seguramente el número resultante sigue representando al mismo conglomerado si
éste es grande, por lo que estará repetido en la muestra.
Módulo I: Aspectos generales del Diseño Muestral
44
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Si se verifica la condición Mi<N/n para cualquier conglomerado, entonces no
habrá conglomerados repetidos en la muestra (SR).
En el libro de Särndal, Swensson, Wretman indicado en la bibliografía
se puede encontrar una discusión detallada del muestreo sistemático.
2.5. Errores de muestreo y métodos de estimación
Hemos visto que el error de muestreo en el caso de estimadores insesgados o
aproximadamente insesgados es medido por la varianza del estimador que es
función tanto de la forma del estimador como de la selección de la muestra.
Para calcular la varianza necesitamos información de la población que no está
disponible, por lo que debemos estimarla en base a la información proporcionada
por la muestra seleccionada.
Un estimador de la varianza debería ser: insesgado o casi insesgado, estable (su
propia varianza debe ser pequeña), no negativo y consistente. Además de estos
criterios una característica deseable de los métodos de estimación de las varianzas
es su aplicabilidad, a veces incluso por encima de su exactitud o insesgadez.
Sin embargo, la aplicación de fórmulas directas para estimar la varianza puede
resultar bastante complicada en diseños complejos como por ejemplo los muestreos
multietápicos con estratificación de las unidades de primera etapa. Y más aún si se
hace uso de estimadores no lineales y de técnicas de calibración actualmente tan
utilizadas.
Una alternativa son los métodos indirectos que permiten la estimación de la
varianza
mediante
fórmulas
más
sencillas
y
suelen
ser
aproximadamente
insesgados para muestras grandes. Hay dos métodos indirectos principalmente: la
linearización y la replicación.
En muchas ocasiones los valores a estimar en las encuestas son estadísticos no
lineales (razones, índices de desigualdad como los índices de Gini,...) y lo que
tratamos es de simplificar la expresión del estimador antes de estimar su varianza.
Esta es la idea básica del método de la linearización por series de Taylor que
consiste en reemplazar el estimador por su aproximación lineal dada por el primer
término de la serie de Taylor. Posteriormente la varianza del estimador linearizado
se puede calcular con los métodos estándar.
Módulo I: Aspectos generales del Diseño Muestral
45
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Otra idea consiste en simplificar el procedimiento de cálculo del error de muestreo
mediante la replicación. En el siguiente esquema se presenta los métodos más
habituales bajo esta perspectiva:
- Basados en
•
método de replicaciones de Deming
Replicaciones
•
“
grupos aleatorios
del diseño
•
“
conglomerados últimos
- Basados en
•
métodos bootstrap
replicaciones de
•
“
jackknife
la muestra
•
“
semimuestras reiteradas
(submuestreos replicados)
A continuación vamos a describir brevemente algunos de los métodos basados en
replicaciones que se suelen utilizar cuando las unidades de primera etapa o
conglomerados son seleccionadas CR.
En el libro de Lohr o en el de Särndal, Swensson, Wretman indicados
en la bibliografía se pueden encontrar los principios matemáticos en los que están
basados así como la adaptación de sus expresiones a diseños complejos.
2.5.1. Método de los conglomerados últimos
En el muestreo polietápico el término conglomerado último representa el
conjunto de unidades de última etapa seleccionadas en una unidad primaria (por
ejemplo el conjunto de viviendas seleccionadas en un municipio seleccionado en
una primera etapa).
Módulo I: Aspectos generales del Diseño Muestral
46
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Con cada conglomerado último obtenemos una estimación θ̂ i insesgada para el
parámetro
objeto de estudio, de manera que el estimador insesgado
θ
1
construido con la muestra completa verifica que θˆ =
n
n
∑ θˆ
i
θ̂
. Así el estimador de la
i =1
varianza por este método es:
()
V̂ θˆ =
1
n (n − 1)
∑ (θˆ
n
− θˆ
i
)
2
con n el número de conglomerados últimos.
i =1
Aplicado al muestreo bietápico con selección de n conglomerados CR en la primera
etapa, donde cada conglomerado seleccionado en la primera etapa representa un
conglomerado último, el estimador de la varianza viene dado por la expresión
()
1
V̂ X̂ =
n (n − 1)


 X̂ i − X̂ 
P

i =1  i

n
∑
2
2.5.2. Método de las semimuestras reiteradas
Partimos de θ̂ estimador insesgado del parámetro poblacional θ basado en la
muestra completa de tamaño n. La idea es seleccionar de dicha muestra completa
una submuestra de tamaño n/2 (supuesto n es par) que llamamos semimuestra y
repetirlo
K
veces
de
forma
independiente.
De
esta
forma
obtenemos
K
semimuestras y construimos K estimadores que verifiquen las condiciones
siguientes:

El estimador θ̂ r obtenido con la r-ésima semimuestra debe ser insesgado si la
( )
semimuestra fuera considerada como una muestra, E θˆ r = θ , y por otro lado si
consideramos la muestra como población y la semimuestra como muestra el
( )
estimador también debe ser insesgado, E 2 θˆ r = θˆ donde la segunda esperanza
es considerando la muestra como población.

( )
()
Por otra parte, se supone que V θˆ r = 2V θˆ lo cual es en general será cierto
debido a la construcción de las semimuestra.
Entonces la expresión del estimador de la varianza viene dada por:
()
1
V̂ θˆ =
K
∑ (θˆ
K
r
− θˆ
)
2
r =1
Módulo I: Aspectos generales del Diseño Muestral
47
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Este es el método usado en la Encuesta de Población Activa (EPA) del INEEspaña. Concretamente se usan 40 reiteraciones. Primero se agrupan todas las
secciones de cada estrato por pares, procurando que las dos secciones de cada par
pertenecieran al mismo turno de rotación de la encuesta. Seguidamente se asigna
aleatoriamente la primera sección de cada par a 20 reiteraciones y la otra sección a
las otras 20 reiteraciones. De esta forma cada reiteración queda constituida por un
número de secciones equivalente al 50 por ciento de la muestra (semimuestra) y
cada sección aparece en la mitad de las reiteraciones.
2.5.3. Método Jackknife
Se trata de una técnica desarrollada fuera del ámbito de las encuestas por
muestreo. La primera aplicación fué realizada por Quenouille (1949) para reducir el
sesgo de un estimador en el contexto de poblaciones infinitas. Tukey (1958) sugirió
que esta técnica podría ser útil para estimar varianzas. Durban (1959) utilizó esta
técnica por vez primera en poblaciones finitas.
La idea es la siguiente: tenemos la muestra con n elementos y para el parámetro θ
tenemos el estimador θ̂
cuya varianza queremos estimar. Llamamos θ̂ ( j) al
estimador basado en la muestra jackknife de tamaño n-1 que resulta de eliminar
la unidad j en la muestra completa y que se calcula de la misma manera que θ̂ .
Definimos para cada j=1 ..., n el pseudovalor
~
θ j = nθˆ − (n − 1)θˆ ( j) . Entonces el
estimador Jackknife de la varianza es
()
V̂JK θˆ =
1
donde θˆ JK =
n
n
∑
1
n (n − 1)
~
∑ (θ
~
1
θ n y θˆ (.) =
n
j=1
n
ˆ
j − θ JK
)
2
j=1
=
n −1
n
∑ (θˆ ( ) − θˆ ( ) )
n
2
j
.
j=1
n
∑ θˆ ( ) .
j
j=1
Una expresión alternativa es restando el estimador θ̂ basado en la muestra original
cuyo valor es claramente superior al de la anterior.
En el caso de muestreo multietápico con estratificación de las unidades de primera
etapa, se eliminan en cada ocasión todas las unidades pertenecientes a una unidad
de muestreo en primera etapa (conglomerado).
Módulo I: Aspectos generales del Diseño Muestral
48
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Uno de los problemas de este método es la necesidad de repetir para cada una de
las muestras jackknife el proceso de estimación llevado a cabo sobre la muestra
completa. En muchos casos, ésto implica un proceso complejo de recalcular los
factores de elevación (correcciones de falta de respuestas, estimadores complejos,
calibrados...) y requiere una gran potencia de cálculo, por ello estos métodos eran
impensables hasta la llegada de ordenadores potentes y accesibles para los técnicos
de análisis de encuestas.
Para resolver la dificultad anterior una posibilidad es, en vez de recalcular los
factores de elevación, multiplicar los factores originales por el factor
nh
en el
n h −1
estrato donde se ha quitado el conglomerado.
Una forma alternativa del método jackknife consiste en eliminar un grupo se
unidades en lugar de eliminar una única unidad.
Este método se ha usado recientemente en el INE-España en varias
encuestas dirigidas a los hogares, como la Encuesta de Empleo del Tiempo 2003, la
Encuesta Nacional de Salud 2006 y la Encuesta sobre la Participación de la
Población Adulta en las Actividades de Aprendizaje 2007.
2.5.4. Método Bootstrap
El método bootstrap para la estimación de la varianza de un estimador con
observaciones independientes fue presentado Efron (1979, 1982,...). De momento
no hay una respuesta definitiva acerca del comportamiento en el caso del muestreo
sin reemplazamiento en poblaciones finitas.
La idea es extraer una muestra bootstrap
de la muestra
original
con
reemplazamiento, probabilidades iguales e igual tamaño que ésta, y obtener el
estimador θˆ ∗b de la misma forma que el estimador sobre la muestra original.
Repetimos el proceso B veces de forma independiente y obtenemos B estimadores
independientes cuya distribución imita a la distribución del estimador
θ̂ . El
estimador bootstrap de la varianza es:
B
V̂BOOT (θˆ ) =
∑
1
1
(θˆ ∗b − θˆ ∗• ) 2 donde θˆ ∗• =
B
B − 1 b =1
Módulo I: Aspectos generales del Diseño Muestral
B
∑ θˆ
∗
b
b =1
49
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
En el INE-España se ha utilizado para el cálculo de los errores de muestreo
de los indicadores de exclusión social (indicadores de “Laeken”) obtenidos
de la Encuesta de Condiciones de Vida. Estos indicadores, medidas de pobreza y
desigualdad en su mayor parte, son estimadores muy complejos y no lineales
(funciones de quantiles) por lo que el método Jackknife no es adecuado. Debido a
esto se ha utilizado el método bootstrap. Hay que destacar que a pesar del carácter
casi experimental del procedimiento, los resultados obtenidos por nosotros (con
2000 replicaciones bootstrap) son muy similares a los resultados obtenidos por
Eurostat, que utiliza primero una linearización de los estimadores y después aplica
el software POULPE francés para estimar errores de muestreo en encuestas con
diseño complejo.
2.5.5. Software para el cálculo de errores de muestreo
Como hemos visto en los puntos anteriores, los procedimientos de cálculo de los
errores de muestreo requieren, en general, repetir un mismo procedimiento un
gran número de ocasiones. Por ello, se necesitan programas informáticos para su
cálculo. Por suerte, aparte de la posibilidad de programaciones adhoc, hay gran
variedad de software diseñado específicamente para el cálculo de errores de
muestreo en encuestas complejas. Entre los más usados podemos citar:

Bascula de Statistics Netherlands.

CalJack desarrollado por P. Lavallée

Generalized Estimation System (GES) de Statistics Canada.

IVEware de la Universidad de Michigan.

PCCARP de la Iowa State University.

POULPE, del INSEE Francia.

R survey package del R Project.

SAS/STAT
del
Instituto
SAS
(Survey
Procedures,
especialmente
el
SURVEYMEANS)

SPSS Complex Samples de SPSS Inc.

Stata de Stata Corporation.

SUDAAN de Research Triangle Institute.

WesVar de Westat, Inc.
Módulo I: Aspectos generales del Diseño Muestral
50
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2.6. Resumen

El muestreo probabilístico es el utilizado en las oficinas de estadística.

El muestreo probabilístico necesita de un marco para seleccionar la muestra.

Buscamos estimadores insesgados o aproximadamente insesgados. El error
de este tipo de estimadores viene dado sólo por la varianza que
estimaremos en base a la muestra seleccionada.

La selección de unidades elementales con probabilidades iguales tiene la
ventaja de la sencillez del método pero la no utilización de información
auxiliar impide la mejora de la selección de la muestra o de la precisión del
estimador.

Una
mejora
inmediata,
si
existe
la
información
necesaria,
es
la
estratificación de la muestra o el uso del estimador por el método de la
razón.

La selección de conglomerados con probabilidades proporcionales al tamaño
reduce costes y puede mejorar la precisión del estimador pero es más
complicado el proceso tanto de la selección de la muestra como del cálculo
de los errores.

Los métodos indirectos para la estimación de los errores proporcionan
fórmulas sencillas y, para muestras grandes, resultados similares

Una manera fácil de seleccionar muestras es aplicando, cuando las
condiciones son las adecuadas, el muestreo sistemático.
Módulo I: Aspectos generales del Diseño Muestral
51
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS
ENCUESTAS
3.1. Definición de marco
En cualquier investigación estadística, tanto si es una investigación de tipo
exhaustivo, como si se trata de una encuesta por muestreo es necesario disponer
de una información previa en forma de listas, mapas, etc que nos permita llegar a
todos los elementos de la población.
Desde un punto de vista estricto se define el MARCO como la relación de
unidades de donde se selecciona la muestra. En un sentido amplio, el marco se
considera a la lista de unidades, junto con toda la información complementaria que
se puede utilizar en el diseño de la encuesta.
El marco nos va a proporcionar información auxiliar imprescindible para
utilizarla en:
•Formación de los estratos: La información disponible sobre las unidades de
muestreo, nos va a permitir la división de la población en estratos y la utilización
del muestreo estratificado en la selección de la muestra.
•Formación de los estimadores: El marco permite asignar a priori a cada unidad
de muestreo una probabilidad de formar parte de la muestra. La inversa de esta
probabilidad de selección representa el factor de elevación de diseño.
•Realización de trabajos de campo: La información sobre la dirección postal de
la unidad seleccionada, facilita el acceso a la población objetivo.
•Otros usos: Tratamiento de la falta de respuesta, selección controlada, calibrado,
simulaciones,…
La disponibilidad del marco es fundamental para la aplicación de los
muestreos probabilísticos.
RESUMEN
El marco en una encuesta por muestreo juega un papel fundamental,
hasta el punto de que de él puede depender el éxito o fracaso de la misma.
Módulo I: Aspectos generales del Diseño Muestral
52
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
3.2. Características del marco
En una encuesta ideal, la población muestreada ha de ser idéntica a la población
investigada. El marco como relación de unidades de donde se va a seleccionar la
muestra debe de reunir las siguientes características:
•Buena cobertura: lo que es equivalente a decir que la Población
Objetivo=Población Investigada. Para ello se requiere que:
• Cada elemento debe estar presente una sola vez. El marco debe ser
depurado previamente para evitar que haya unidades duplicadas en él.
La existencia de unidades repetidas en el marco proporciona
estimadores sesgados. El problema no se resuelve eliminando las que
aparecen en la muestra y sustituyéndolas por otra. Es imprescindible
depurar el marco.
• No debe tener elementos que no pertenecen a la población
objetivo. Por ejemplo, en una encuesta dirigida a los hogares no deben de
aparecer hogares vacíos.
La existencia en el marco de unidades no encuestables, no introduce
sesgos pero aumenta la variabilidad de la estimación.
•Todos los elementos de la población objetivo deben de estar en el
marco. La ausencia en el marco de una parte de la población investigada
proporciona una subestimación de las características investigadas.
Por último y para facilitar los trabajos de recogida de la información:
Las unidades del marco deben estar identificadas y ser localizadas si son
seleccionadas para la muestra.
Módulo I: Aspectos generales del Diseño Muestral
53
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
El siguiente ejemplo pone de relieve la importancia del marco en una
encuesta.
Supongamos que se va a realizar una encuesta por muestreo en una determinada
provincia dirigida a los hogares para lo cual se va a utilizar un marco de viviendas
confeccionado a partir del último censo de población 2011. Esta provincia ha tenido
recientemente un fuerte proceso de inmigración procedente del extranjero, la cual
no está recogida en el Censo, por lo tanto esta población no va a tener nunca
probabilidad de pertenecer a la muestra. Esto indica que se va a introducir un sesgo
que será tanto mayor cuanto mayor sea el tamaño de esta población y mayor sea
la diferencia en el comportamiento de ambas poblaciones.
En realidad un marco deficiente no solo afecta a la cobertura de la
muestra, y a la introducción de sesgos cuando la población omitida en el mismo
tiene un comportamiento muy diferente de la que figura en él, sino también a otros
aspectos del diseño muestral como son la estratificación, determinación del tamaño
de la muestra, afijación, cálculo de los factores de elevación, etc
Por tanto, antes de acometer el diseño de una muestra es necesario proceder a la
actualización del marco para garantizar una buena cobertura de la misma.
RESUMEN
Como conclusión podemos decir que, sin un buen marco no se puede
diseñar una buena muestra. Por tanto, para la realización de una buena encuesta
es necesario disponer de un marco adecuado a la población objetivo, que esté
actualizado, o al menos que sea posible su actualización.
3.3. Marco de áreas y marco de listas
En las encuestas por muestreo se pueden utilizar dos tipos de marcos:

Marco de áreas: utilizados en los muestreos en varias etapas

Marco de listas o de unidades elementales, utilizado en el muestreo en una
etapa.
Módulo I: Aspectos generales del Diseño Muestral
54
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
El uso de uno u otro tipo de marco viene determinado por la disponibilidad de los
mismos y por razones de coste.
Las encuestas económicas utilizan muestreos en una etapa y por tanto un
marco de unidades elementales, mientras que en las encuestas dirigidas a
los hogares se utiliza un muestreo en varias etapas y por tanto una combinación de
marco de áreas y marco de listas.
A continuación hacemos una breve descripción del marco utilizado en las encuestas
económicas, y en el resto del tema se describe con detalle el marco utilizado en las
encuestas de hogares y su actualización.
3.3.1. Descripción del DIRCE.
El DIRCE, Directorio Central de Empresas, es el marco de referencia para el
desarrollo, ejecución y coordinación de las encuestas económicas del INE.
Tiene las siguientes características:
•
Reúne en un sistema de información único a todas las empresas y a sus
unidades locales ubicadas en el territorio nacional.
•
Se fundamenta en el Proyecto PIDE (Proyecto de Integración de Directorios
Económicos). Su modelo de gestión se basa en el aprovechamiento de
fuentes externas de diversa naturaleza
•
El sistema DIRCE se mantiene y actualiza con periodicidad anual y con base
a 15 fuentes externas de origen administrativo y/o privado, más las propias
operaciones estadísticas.
•
Cada fuente es sometida a procesos específicos de depuración y control de
calidad, antes de ser incorporada en el proceso de integración.
•
Contiene más de seis millones de registros.(3,2 millones de empresas).
•
Se publica una explotación estadística de los resultados para empresas y sus
unidades locales, desglosados por CCAA según la condición jurídica,
actividad económica principal y estrato de asalariados.
•
Las variables que contiene y utilizadas en el diseño muestral son: Provincia,
Actividad, Nº de asalariados y facturación.
•
Genera información asociada a altas, permanencias y bajas, clasificadas
éstas según sector económico, condición jurídica y estrato de asalariados.
Módulo I: Aspectos generales del Diseño Muestral
55
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
•
Las empresas están clasificadas de acuerdo a la Clasificación Nacional de
Actividades Económicas- CNAE-2009
SABER +
Toda la información sobre el mismo y su explotación estadística están
disponibles en la página WEB del INE.
3.4. Marco utilizado en las encuestas a hogares del INE
3.4.1. Descripción
En principio, para realizar una encuesta dirigida a los hogares lo ideal sería disponer
de una lista de hogares actualizada, y utilizar para la selección de la muestra un
muestreo aleatorio simple. No obstante el coste de visitar estas unidades
elementales esparcidas por un área geográfica extensa, nos hace renunciar a este
tipo de muestreo y utilizar, en lugar de marcos de unidades elementales, listas de
conglomerados y éstos como unidades de muestreo.
El muestreo de conglomerados bietápico es generalmente utilizado en las
encuestas dirigidas a la población que realiza el INE.
Un ejemplo clásico es disponer de una lista de manzanas de una ciudad, y
utilizar
éstas
como
unidades
de
muestreo.
La
manzana
es
un
conglomerado de viviendas.
Con la formación de los conglomerados se obtiene una muestra de hogares
mucho menos esparcidos con el consiguiente ahorro del coste.
Otro aspecto importante a considerar es el hecho de ser más fácil disponer de una
lista de manzanas que de una lista de viviendas. Si no se dispone de ésta última,
con el uso de las manzanas como unidades de muestreo podemos reducir la
formación de la lista de viviendas a las manzanas seleccionadas para la muestra.
Módulo I: Aspectos generales del Diseño Muestral
56
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
3.4.2. Marco de áreas geográficas
Para definir el marco de las encuestas a hogares, es necesario partir de la división
administrativa de España, que aparece de la forma siguiente:
Toda la Nación se encuentra dividida en 17 comunidades autónomas y dos ciudades
autónomas, que constituyen los NUTS 2 (Nomenclature of Territorial Units for
Statistics) aprobados por el Parlamento europeo. Las comunidades autónomas se
dividen a su vez en 50 provincias (NUTS 3) de las cuales 47 son peninsulares y 3
insulares. Las provincias se encuentran divididas en municipios y éstos en distritos
municipales.
A partir de la división anterior, el INE juntamente con los Ayuntamientos hace una
nueva subdivisión de los distritos municipales en secciones censales.
Las secciones se utilizan para todos los trabajos encomendados al INE en los que es
necesaria una división inframunicipal, entre otros para fines electorales como
secciones electorales, lo cual exige de acuerdo con la Ley Electoral que cada
sección incluya un máximo de 2.000 electores y un mínimo de 500.
La sección censal puede considerarse como un área geográfica con límites
perfectamente definidos, cuyo tamaño de población viene limitado por las
condiciones antes expuestas.
La sección censal constituye la unidad primaria de muestreo en las encuestas de
hogares.
SABER +
Cualquier parte del territorio nacional pertenece a una sección censal.
Actualmente el número total de secciones censales existentes en el país es de
aproximadamente unas 36.000.
En la página siguiente aparece el mapa de España con la división en comunidades
autónomas (CCAA) y provincias. Las CCAA están formadas por el conjunto de
provincias que están coloreadas con el mismo color. A continuación, el detalle de
una provincia con la división en municipios y finalmente la división en secciones
censales
Módulo I: Aspectos generales del Diseño Muestral
57
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Módulo I: Aspectos generales del Diseño Muestral
58
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
SABER +
Puede observarse que la superficie de las secciones es muy distinta
de unas a otras, ello es debido a que la única restricción en cuanto a su formación
es el tamaño medido en número de electores.
En España los electores, personas en edad legal para votar, son la población
con 18 y más años.
El seccionado y su número varían considerablemente a lo largo del tiempo, por lo
que con referencia 1 de enero de cada año, coincidiendo con la revisión del Censo
Electoral, y en cada Censo de Población, se realiza una actualización del mismo. En
el último apartado de esta unidad se analiza en detalle cómo se tratan las
variaciones del marco de secciones, en el caso que afecten a secciones
seleccionadas para la muestra de alguna encuesta continua.
RESUMEN
El marco de unidades primarias de muestreo está formado por la
lista de las 36.000 secciones censales en que se encuentra dividido el país.
3.4.3. Marco de viviendas
Las viviendas constituyen las unidades de segunda etapa en las
encuestas dirigidas a los hogares.
El marco de muestreo de las unidades de segunda etapa está formado por la
relación de todas las viviendas familiares con sus direcciones postales, en cada
una de las secciones censales seleccionadas para la encuesta.
En el caso de la EPA el marco se obtiene en cada censo a partir de los
resultados de los recorridos que se realizan en campo durante los trabajos
censales. Se actualiza periódicamente.
En las encuestas esporádicas se obtiene de la explotación del Padrón Continuo.
Módulo I: Aspectos generales del Diseño Muestral
59
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
3.5. Fuentes estadísticas utilizadas en la formación del marco
Tradicionalmente la única fuente para la formación de los marcos en las
encuestas de hogares ha sido el Censo de Población y Viviendas que se realiza cada
10 años, en los años terminados en 1.
Actualmente la disponibilidad de otras fuentes administrativas ha hecho que la
situación cambie, y se ha introducido el uso del Padrón Continuo (Registro de
Población) en la obtención del marco de viviendas. A continuación se presentan
como se utilizan estas fuentes en las distintas encuestas del INE.
3.5.1. Utilización del Censo de Población y Viviendas
El censo de población desempeña un papel fundamental en la formación del marco
para las encuestas de hogares por las siguientes razones:
•
Es la única fuente de información desagregada a nivel de unidades
primarias de muestreo. El censo proporciona para cada una de las secciones
censales, unidades primarias de muestreo, su tamaño medido en número de
personas y en número de viviendas. Esto nos permite conocer la
probabilidad de selección de cada una de las secciones censales. Asimismo,
proporciona información de otras características de tipo sociodemográfico de
la población que vive en la misma, como son el nivel de instrucción, relación
con la actividad, nacionalidad, condición socioeconómica, etc, que son
utilizadas como variables de estratificación.
 Instrumento para la formación del marco de viviendas. Como
consecuencia de los trabajos censales, se obtiene la relación de todas las
unidades contenidas dentro de una sección censal y su situación en el
momento del censo. Dichas unidades se clasifican de acuerdo a su uso en:
viviendas que pueden ser habitadas o desocupadas, hogares colectivos y
locales comerciales.
Lo comentado anteriormente es fundamental en la formación del
marco, ya que, por una parte, se recoge la relación de todas las unidades
que son susceptibles de ser habitadas, y por otra, se distinguen éstas según
su uso. Hay que recordar que en las encuestas de hogares solo son
encuestables las viviendas que son habitadas.
Módulo I: Aspectos generales del Diseño Muestral
60
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
 Actualización de la cartografía. Con objeto de facilitar y garantizar una
buena cobertura de los trabajos censales, se actualiza la cartografía de las
secciones censales. Esta labor es posteriormente aprovechada para el uso de
la misma en las encuestas.
CURIOSIDAD
A continuación se presenta un modelo de marco de viviendas
correspondiente a una sección censal. Se observa que es una relación de todas las
unidades censales, clasificadas según su uso. Solo van a ser objeto de estudio y por
tanto tienen probabilidad de ser seleccionadas las viviendas que contiene una H en
la columna de viviendas.
EGP-A2
Instituto Nacional de Estadística
Ent. Colectiva
0
Ent. Singular
Núcleo/Dis
2
1
Num de
m anz
TVIA
Encuesta de Población Activa
SEVILLA
Código de encuesta4102106 2
Dirección Postal
NVIA
TP
NUM
Provincia
Municipio
Sección
BQ PR ES
PLN PUER
Núm .
de orden
Cod de
Hueco
006
0045
Viviendas
Colectivos
41
91
25
S
S
Locales Ocupante Principal
ARRIAZA BARRIO,
REGLA
GARCIA CUBILLO,
FRANCISCA
1
CALLE ANICETO SAENZ
N
9Z
PBJ
C
1
CALLE ANICETO SAENZ
N
21
1
P01
F
0013
00100
H
1
CALLE ANICETO SAENZ
N
21
1
P01
G
0013
00101
H
ABSALOM , KEITH
1
CALLE ANICETO SAENZ
N
21
1
P02
G
0013
00102
S
,
1
CALLE ANICETO SAENZ
N
21
1
P02
IZ
0013
00103
H
1
CALLE ANICETO SAENZ
N
21
1
P02
J1
0013
00104
H
1
CALLE ANICETO SAENZ
N
21
1
PBJ
1
0013
0099
1
CALLE ANICETO SAENZ
N
21
1
PBJ
A1
0013
0097
H
GALLARDO GODOY,
EMILIO JOSE
1
CALLE ANICETO SAENZ
N
21
1
PBJ
B1
0013
0098
V
,
1
CALLE ANICETO SAENZ
N
21
2
P01
DR
0013
109
H
1
CALLE ANICETO SAENZ
N
21
2
P02
D
0013
00110
H
1
CALLE ANICETO SAENZ
N
21
2
P02
H
0013
00111
H
1
CALLE ANICETO SAENZ
N
21
2
P02
IZ
0013
00112
H
1
CALLE ANICETO SAENZ
N
21
2
PBJ
A
0013
00106
H
1
CALLE ANICETO SAENZ
N
21
2
PBJ
B2
0013
00105
H
RIAO VILLALOBOS,
RAFAEL
NIETO MARTINEZ,
FRANCISCO
L
,
HIDALGO BOTELLO,
FRANCISCO
LOPEZ ARNESTO,
ISABEL
RODRIGUEZ
VIVERO, DAVID
BARRERA
MARQUEZ, MANUEL
GARCIA PAREDES
FRAILE, PATRICIA
ZAMORA ANGULO,
JUAN ANTONIO
La forma de obtención del marco a partir del Censo ha sido el procedimiento
habitual utilizado en la formación del marco para las encuestas de hogares. Hasta
la disponibilidad del Padrón Continuo, se disponía de una muestra maestra formada
por 3500 unidades de primera etapa, que se mantenía continuamente actualizada y
que servían como marco de referencia para todas las encuestas dirigidas a los
hogares que realizaba el INE. Considerando que el tamaño medio de una sección
censal es de, aproximadamente, 400 viviendas este procedimiento nos permitía
disponer de una marco actualizado de 1.400.000 viviendas representativo de la
población y sobre el que se seleccionaba la muestra para cualquier encuesta.
Módulo I: Aspectos generales del Diseño Muestral
61
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Actualmente este marco solo se utiliza para la EPA, encuesta continua cuyo diseño
muestral se analiza en detalle la unidad 5 de este curso. En el último apartado de
esta unidad se explican los procedimientos utilizados para mantener el marco
actualizado.
3.5.2. Utilización del Padrón Continuo
El Padrón Municipal es un Registro Administrativo donde figuran todos los
habitantes del País y se
revisa el 1 de enero de cada año. La formación,
mantenimiento, revisión y custodia corresponde a los Ayuntamientos.
En 1996 se aprueba la nueva normativa padronal y se establece un nuevo sistema
de gestión continua de los padrones coordinada por el INE. Este nuevo sistema
tiene como punto de arranque el Padrón Municipal con referencia a 1 de Mayo de
1996.
A partir de los datos contenidos en él, se obtienen cifras oficiales a primeros de
cada año.
SABER +
En la página web del INE: WWW.INE.ES y en el apartado Demografía
y Población, viene los principales aspectos metodológicos de esta operación.La
disponibilidad de un registro de población permanentemente actualizado ha
permitido, por una parte, disponer de una lista actualizada de viviendas, y por otra,
su utilización como fuente para generar marcos para las encuestas dirigidas a la
población.
Desde el año 2002, el PC se está utilizando como marco de muestreo para
todas las encuestas del INE, salvo la EPA.
El uso de esta fuente en la obtención de un marco de viviendas, unidad de
muestreo de segunda etapa presenta ventajas e inconvenientes. Entre las
ventajas cabe destacar:
1. Es una fuente disponible de forma inmediata sin necesidad de tener que
actualizarla previamente.
2. Permite disponer de los nombres actualizados de las personas que habitan
las viviendas.
Módulo I: Aspectos generales del Diseño Muestral
62
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
3. Al ser el Padrón Continuo un fichero de habitantes se puede utilizar como marco
de personas.
Entre los inconvenientes hay que señalar:
1. No es una fuente de información tan completa
como es el censo de
población.
Al ser un documento público la información de tipo sociodemográfico
contenida en el mismo es muy escasa. Se limita al sexo, edad, nacionalidad
y nivel de instrucción, pero éste al no estar depurado no debe de ser
utilizado.
2. Es un fichero de personas.
En las encuestas dirigidas a la población, la unidad de muestreo es la
vivienda, por tanto es necesario formar un fichero de viviendas a partir de
un fichero de personas. Para ello el INE ha desarrollado un programa
informático, ad hoc, que consiste en formar una vivienda a partir del
grupo de personas que tienen una misma dirección postal. Dado que las
direcciones postales no están completamente normalizadas se producen
errores en la generación del fichero de viviendas. No obstante las ventajas
que presenta su uso compensan con creces al nivel de errores que pueda
tener. Este problema se va subsanando en la medida
que se presta una
especial atención al asunto de la normalización.
3. Las personas mal empadronadas no tiene probabilidad de pertenecer
a la muestra.
Esta situación se presenta por el hecho de que hay personas que
están empadronadas en un municipio diferente al que tienen su residencia
principal.
Como
consecuencia
de
este
hecho,
al
realizar
una
encuesta
nos
encontramos con que en el marco aparece un porcentaje, que está en torno
al 10 por ciento, de viviendas que realmente están vacías pero que hay
población empadronada en ellas.
Módulo I: Aspectos generales del Diseño Muestral
63
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Como aprovechamiento de distintas fuentes administrativas, el INE comenzó
a desarrollar un proyecto que se denominó Estudio Demográfico Longitudinal
(EDL), y cuyos objetivos principales eran:
•
Proporcionar información demográfica de tipo longitudinal. Acumular
información longitudinal de personas , viviendas, procedente de encuestas o
de otros registros administrativos con objeto de poner a disposición de los
usuarios un mecanismo que permita hacer un seguimiento de la población,
bien en su conjunto, bien a partir de una muestra.
•
Ofrecer un marco muestral óptimo para las encuestas dirigidas a los
hogares o personas, que esté permanentemente actualizado y que disponga
de una gran cantidad de información auxiliar.
•
Crear la infraestructura necesaria para la elaboración del censo de
población. Concretamente ha sido utilizado en la realización del Censo de
Población 2011.
Actualmente, siguiendo esta línea, el INE está trabajando en un proyecto más
ambicioso denominado SIGPT, Sistema de Información georreferenciado de
Población y Territorio, que con la misma idea de EDL pretende crear unas bases
de datos integradas de población y territorio que pueda ser utilizado en el
proceso de producción estadística del INE.
3.6. Actualización de las unidades de muestreo
La actualización de las unidades de muestreo es un procedimiento que se utiliza en
las encuestas continuas
que realiza el INE y tiene como objetivo el mantener la
muestra actualizada, y por tanto, representativa de la población.
Para analizar con detalle estos procesos es necesario conocer el
modelo
probabilístico con que se realiza la selección de la muestra.
SABER +
La selección de la muestra en las encuestas de hogares se realiza de
tal forma que dentro de cada estrato cualquier vivienda familiar tenga la misma
probabilidad de ser seleccionada, es decir, se tengan muestras autoponderadas
dentro de cada estrato.
Módulo I: Aspectos generales del Diseño Muestral
64
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Para ello, las unidades de primera etapa (secciones censales) se seleccionan con
probabilidad proporcional al número de viviendas familiares principales, según los
datos del último Censo o Padrón. Dentro de cada sección seleccionada en primera
etapa, se selecciona un número fijo, m, de viviendas familiares con igual
probabilidad mediante la aplicación de un muestreo sistemático con arranque
aleatorio.
De acuerdo a lo anterior, la probabilidad de selección de la vivienda i, perteneciente
a la sección s del estrato h, donde se han afijado Kh secciones es
P( V ish ) = P( Sh ) ⋅ P( V ish / Sh ) = K h ⋅
m
V sh m
= Kh ⋅
⋅
V h V sh
Vh
Se consideran tres tipos de actualizaciones:
3.6.1. Actualización en el marco de viviendas
Esta actualización se realiza en las secciones censales y está restringida a las
secciones de la muestra.
El objetivo es dar probabilidad de selección a la población que ha ocupado viviendas
de la sección que se encontraban vacías cuando ésta
fue seleccionada. Para
alcanzar este objetivo, se realiza un recorrido completo de la sección con objeto de:
• Dar de alta a edificios y viviendas de nueva creación.
• Visitar las viviendas vacías, locales o establecimientos colectivos por si hubiera
cambiado su situación para asignarle probabilidad de selección.
• Verificar los límites de la sección, nuevos caminos, etc.
Cuando corresponda renovar la muestra en alguna encuesta continua, la
forma de proceder es la siguiente:
Después de la actualización, como se han dado de alta algunas viviendas,
el
tamaño de la sección es VS' .Para que la muestra siga siendo autoponderada, hay
que seleccionar m ⋅ V
'
S
VS
viviendas.
Módulo I: Aspectos generales del Diseño Muestral
65
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
De esta forma, la probabilidad de una vivienda seleccionada después de actualizar
la sección es:
( ) . P(Vis / S) = K
P (Vis ) = P S
RESUMEN
m.
.
Vs'
Vs
Vs
.
V
Vs'
=
K. m
V
Como puede observarse las viviendas se incorporan a la muestra con
la misma probabilidad que habrían tenido en caso de existir en el momento en que
fue seleccionada la sección.
3.6.2. Actualización en el marco de unidades primarias
Esta actualización es la que se produce en los periodos intercensales como
consecuencia de modificaciones en las unidades primarias seleccionadas para la
muestra.
SABER +
Estas modificaciones se producen con motivo de las revisiones que a
1 de enero se realizan sobre el seccionado para cumplir con las exigencias legales
de la Ley Electoral General.
Como consecuencia de los continuos movimientos de la población, se producen
distintos tipos de incidencias sobre las secciones censales como son: cambios de
denominación, partición de una sección en dos o más secciones, fusión y variación
en los límites de la misma.
En cada uno de estos casos, y para mantener el modelo probabilístico que subyace,
es necesario realizar el cálculo de la probabilidad de selección de la nueva o nuevas
secciones, la selección de la nueva sección que va a formar parte de la muestra,
así como determinar el número de entrevistas a realizar en la misma.
1. Partición de una sección: Es el caso de una sección S en la que el
crecimiento del número de viviendas principales exige que se escinda en diversas
partes S1, S2... SK, bien para formar nuevas secciones o para incorporarse a otras
ya existentes.
Módulo I: Aspectos generales del Diseño Muestral
66
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Consideremos el caso particular en que la sección S de la muestra se divide en dos
partes para formar las nuevas secciones S1 y S 2 . La forma de proceder es la
siguiente:
1. Se selecciona una de las nuevas secciones con probabilidad proporcional a
su tamaño actualizado.
2. Se calcula el número de viviendas que hay que seleccionar en la sección.
3. Se incorpora a la muestra de la encuesta cuando corresponda renovar las
unidades de segunda etapa.
La
probabilidad de pertenecer a la muestra de una vivienda en la sección
S 1 seleccionada será:
( )
( ) .P (S1 / S) P(Vis
P Vis1 = P S
1
)
/ S1 = K
'
Vs Vs1
.
.
V Vs'
m.
.
Vs'
Vs
Vs' 1
=
K. m
V
Donde: VS' son las viviendas actualizadas de la sección S, y VS' 1 las viviendas
actualizadas de la sección S1
Como se observa, el número de viviendas que deben ser entrevistadas se
incrementa proporcionalmente al crecimiento de la sección S.
2. Fusión de dos
o más secciones. Debido a que algunas secciones, por los
movimientos migratorios y naturales de la población, van quedando vacías se
procede a su fusión con otra u otras, de forma que en caso de ser seleccionada
tengan unidades que investigar.
Si la sección Sj seleccionada se fusiona con otra para formar la nueva sección S,
ésta queda incorporada automáticamente a la muestra y el número de viviendas a
entrevistar es m ⋅
V 'S
VS
siendo:
V'S = Número de viviendas principales en la actualidad en la nueva sección S
VS = Número de viviendas principales, según último Censo o Padrón, dentro de los
límites de la nueva sección S.
Módulo I: Aspectos generales del Diseño Muestral
67
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
3.6.3. Actualización de las probabilidades de selección
Es una actualización con carácter general, relativa a todas las secciones y
viviendas,
que
se
realiza
periódicamente
y
en
la
que
se
actualizan
las
probabilidades de selección de las secciones.
Cuando se dispone de información procedente de los ficheros electorales,
Censos de Población ó Padrón, se procede a actualizar las probabilidades de
selección de las secciones y a ajustar el número de entrevistas por sección.
Este procedimiento se realiza de tal forma que las probabilidades de selección de
las secciones sean proporcionales al número de viviendas que en ese momento
tenga cada una. En principio esto podría lograrse partiendo de cero y seleccionando
una muestra nueva, pero ello provocaría una ruptura total con la muestra antigua,
lo cual es arriesgado en el caso de encuestas continuas. Por ello se arbitra un
procedimiento que, sin distorsionar las probabilidades de selección que realmente
corresponden a cada sección, mantenga la muestra con las mínimas variaciones.
Este procedimiento, debido a Kish (1971), es el siguiente:
Sea S una sección perteneciente al estrato h, seleccionada en un Censo o Padrón C,
con probabilidad:
C
PS =
VS
C
Vh
=
Viviendas en S segun Censo C
Viviendas en el estrato h segun Censo C
y supongamos que en el siguiente Censo o Padrón C', le corresponde una
probabilidad de selección dada por:
C′
P' S
=
VS
C'
Vh
=
Viviendas en S segun Censo C′
Viviendas en el estrato h segun Censo C′
Se compara PS con P'S pudiendo ocurrir uno de los dos siguientes casos:
1) Si P'S> PS la sección S permanece en la muestra con probabilidad P'S, ya que si
fue seleccionada con una probabilidad PS , inferior a la que actualmente le
corresponde, con mayor motivo hubiera salido seleccionada aplicándole su
probabilidad actual P'S.
Módulo I: Aspectos generales del Diseño Muestral
68
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
2) Si P'S< PS la sección permanece en la muestra con probabilidad
PS'
y sale de la
PS
P'
muestra con probabilidad 1- S .
PS
Este criterio motivará la salida de la muestra de un cierto número de secciones.
Estas serán sustituidas por otras secciones del mismo estrato pero
seleccionadas de entre las que no perteneciendo a la muestra hayan
aumentado de probabilidad.
Con este criterio se mantiene el esquema de que la probabilidad que tiene
una sección de pertenecer a la muestra es la que realmente le corresponde, es
decir, proporcional al número de viviendas actuales.
Vamos a verificar que efectivamente las secciones se mantienen en la muestra
con su probabilidad actualizada.
Forma de actuar. Se consideran las secciones actuales divididas en dos
subconjuntos:
Secciones
que
aumentan
de
probabilidad
y
secciones
que
disminuyen.
1. Si la sección de la muestra pertenece al grupo de las que aumentan dicha
sección permanece con probabilidad 1, y por tanto con su probabilidad
actualizada PS' .
2. Si la sección pertenece al subconjunto de las que disminuyen:
a. Permanece en la muestra con probabilidad
PS'
PS
P'
b. Sale de la muestra con probabilidad 1- S
PS
3. Sustitución de secciones que salen de la muestra:Las secciones que
salen de la muestra sólo pueden ser sustituidas por secciones seleccionadas
de entre las que aumentan de probabilidad.
Dentro de este grupo las secciones se seleccionan con probabilidad
proporcional a
PS' − PS
PS' − PS
∑
S∈∆
Módulo I: Aspectos generales del Diseño Muestral
69
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Comprobación: Calculamos la probabilidad que tiene una unidad de pertenecer a
la muestra:
Si la sección pertenece al subconjunto de las que disminuyen de
•
probabilidad, la probabilidad de pertenecer a la nueva muestra será la
probabilidad de pertenecer a la antigua muestra
por la probabilidad de
P'
permanecer, es decir, PS ⋅ S = PS'
PS
Si la sección S* pertenece al subconjunto de las que aumentan de
•
probabilidad, la probabilidad de pertenecer a la muestra tiene en este caso
dos componentes:
•
Haber sido seleccionada para la muestra antigua, con probabilidad PS*
•
Ser seleccionada ahora sin haber sido seleccionada antes. Para que esto
ocurra, tienen que darse tres circunstancias:
1. Existencia en la muestra antigua de alguna sección S, seleccionada
con probabilidad PS y que disminuye de probabilidad.
2. Que en el sorteo de permanencia salga de la muestra con
P'
probabilidad 1- S .Que la sección S*
PS
probabilidad
asignada
a
las
sea seleccionada con la
secciones
de
este
subconjunto
PS' − PS
.
PS' − PS
∑
S∈∆
La probabilidad de esta segunda componente es la siguiente:

P'
PS 1 − S

PS

S∈∂
 P' ^ − P *
S
S

= PS' * − PS*
'

P
* −P *

S
S
∑
donde el
∑
S∈∆
∑
es el sumatorio extendido sobre todas las secciones que
S∈δ
disminuyen de probabilidad y el
∑
es el sumatorio extendido a todas las
S∈∆
secciones que aumentan de probabilidad.
La
probabilidad
(
)
final
será
la
suma
de
la
de
las
dos
componentes:
PS* + PS' * − PS* = PS' *
Módulo I: Aspectos generales del Diseño Muestral
70
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Puede observarse que procediendo de esta manera las secciones quedan
incorporadas a la muestra con su probabilidad actualizada.
3.7 Resumen
En esta unidad se ha presentado lo que es el marco y el papel que desempeña en el
diseño de una encuestas, describiendo el procedimiento seguido en la formación del
marco de las encuestas de hogares y haciendo especial hincapié en las fuentes
administrativas que se utilizan
lo que ha permitido introducir una alternativa al
procedimiento tradicional de selección de las muestras de viviendas.
Se han analizado en detalle las distintas formas de actualización, aspecto
fundamental del marco para que cumpla el requisito de ser un reflejo de la
población objetivo, y finalmente se ha hecho una breve referencia al proyecto
futuro en el que se está trabajando, con objeto de conseguir una mejora del marco.
Módulo I: Aspectos generales del Diseño Muestral
71
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
UNIDAD 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS
ECONÓMICAS
La coordinación muestral consiste en la manera de seleccionar muestras aleatorias,
intentando controlar el grado de solapamiento entre ellas. Dependiendo de los
objetivos interesará una coordinación muestral positiva, máximo solapamiento, o
una coordinación muestral negativa, mínimo solapamiento.
La coordinación muestral, aun tratándose de un tema general, en el caso del INE
se centra en las encuestas económicas pues es donde aparece el problema de que
una unidad informante, empresa o establecimiento, tiene que realizar varias
encuestas a la vez. Las empresas grandes se estudian de manera censal y las
medianas tienen una gran probabilidad de ser seleccionadas en varias muestras.
Además, las encuestas económicas son de obligado cumplimiento y la negativa a
cumplimentarlas conlleva una sanción económica.
Todo ello hace que la carga estadística que soportan las empresas sea relevante y
que una de las preocupaciones de las oficinas de estadística sea reducirla.
Este capítulo comienza con la medición de la carga estadística, cuyo incremento
en los últimos años ha llevado al uso de técnicas de coordinación muestral. En
segundo lugar, se comenta el marco muestral disponible, que permite la aplicación
de técnicas de coordinación. En el apartado 3, se presenta la técnica de los
números aleatorios permanentes usada para la coordinación muestral y por último,
se detalla la coordinación muestral de las encuestas económicas realizada en el
INE.
4.1
Carga Estadística: Directorio
de
Colaboración con las
Unidades
Informantes
Se entiende como carga estadística el esfuerzo que realizan las unidades
informantes al cumplimentar las encuestas. Se mide por el número de
encuestas que realizan y el tiempo estimado para cumplimentarlas.
Módulo I: Aspectos generales del Diseño Muestral
72
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Anualmente se elabora el Directorio de Colaboración de las Unidades
Informantes (DICOIN) que recoge, para cada empresa identificada por su
Número de Identificación Fiscal (NIF), el número de encuestas económicas que
realiza durante el año, sus incidencias o estados de recogida (responde, negativa,
ilocalizable, cierre...) y el tiempo estimado para cumplimentarlas. La unidad de
registro es el NIF. Cuando una encuesta va dirigida al establecimiento o centro de
cotización, la información se agrega por NIF.
A partir del DICOIN, se calculan diversas tablas que reflejan la carga estadística de
las empresas.
Por ejemplo, en la siguiente tabla se presenta la distribución de las
empresas, por tamaño y número de encuestas en las que participa, durante el año
2012.
Distribución de las empresas por tamaño y número de encuestas en las que participa.
Porcentaje respecto al tamaño. Año 2012.
TOTAL
TAMAÑO (NÚMERO DE ASALARIADOS)
De 1 a 9
De 10 a 19
De 20 a 49
De 50 a 99
De 0
Número de
encuestas
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
TOTAL
Empresas
%
Empresas
%
Empresas
%
Empresas
%
Empresas
%
Empresas
240357 74 60500 98 125073 87 33234 63 17444 44
2658
37973 12
694
1
10104
7 12833 24 10069 25
3031
19519
6
205
0
7092
5
3484
7
4693 12
2369
8808
3
37
0
1836
1
1609
3
2814
7
1230
5729
2
10
0
357
0
1087
2
2199
6
874
3329
1
5
0
39
0
355
1
1250
3
792
2171
1
1
0
9
0
86
0
618
2
671
1607
0
1
0
9
0
38
0
300
1
470
1156
0
2
0.
.
15
0
137
0
227
824
0.
.
.
.
4
0
68
0
171
484
0.
.
.
.
.
.
27
0
115
351
0.
.
.
.
.
.
4
0
54
306
0.
.
.
.
.
.
.
.
11
297
0.
.
.
.
.
.
1
0.
.
76
0.
.
.
.
.
.
.
.
.
.
322987 100 61455 100 144519 100 52745 100 39624 100 12673
%
21
24
19
10
7
6
5
4
2
1
1
0
0
100
Más de 99
Empresas
1448 12
1242 10
1676 14
1282 11
1202 10
888
7
786
7
789
7
775
6
581
5
342
3
293
2
295
2
296
2
76
1
11971 100
En los últimos años ha habido una gran demanda de información económica más
detallada que ha hecho aumentar los tamaños muestrales, o de nueva información
que ha dado lugar a nuevas encuestas. En el siguiente gráfico se muestra la
Módulo I: Aspectos generales del Diseño Muestral
%
73
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
evolución del número de cuestionarios enviados a las unidades informantes, desde el
año 2001 al 2012, de las encuestas recogidas en el DICOIN.
cuestionarios
2000000
1500000
1000000
500000
0
1
2
3
4
5
6
7
8
9
10 11 12
años
Este incremento ha llevado a considerar diversas alternativas para disminuir la
carga estadística. Entre ellas destacamos:
 Acortamiento de los cuestionarios
 Uso de datos administrativos
 Selección coordinada de muestras teniendo en cuenta la carga estadística
Desde el 2000, el INE ha empezado a aplicar técnicas de coordinación muestral
para conseguir una distribución más equitativa de la carga de respuesta, aunque
para las grandes empresas esta coordinación no es efectiva, pues siempre
pertenecen al estrato exhaustivo de cualquier encuesta económica, por lo que se
estudian de manera censal.
En estos casos se ha intentando compensar la carga estadística ofreciendo a las
empresas información gratuita, hecha a medida, que le pueda interesar. Entre
dicha información se destaca: ratios del sector, cuota de mercado y análisis de la
estructura del sector.
4.2 Marco Muestral: Directorio Central de Empresas
El Directorio Central de Empresas (DIRCE) reúne, en un sistema de
información único, a todas las empresas españolas y a sus unidades locales
ubicadas en el territorio nacional. Se construye y se actualiza cada año a partir de
información procedente de diversas fuentes administrativas: tributarias, de la
seguridad social, jurídicas, privadas (WordlBase de Dun&Bradsreet) y estadísticas
Módulo I: Aspectos generales del Diseño Muestral
74
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
(encuestas
de
mejora
del
directorio
y
encuestas
económicas).
Toda
esta
información es depurada, armonizada, contrastada e integrada con el objeto de
conseguir una cobertura nacional total.
El objetivo básico del DIRCE es proporcionar el marco muestral de las encuestas
económicas. Entre la información que contiene destacamos las variables usadas
para la estratificación: la actividad económica y el número de asalariados.
La unicidad del marco muestral y la identificación de cada empresa por su
NIF, han posibilitado el uso de técnicas de coordinación muestral.
No obstante, la asimetría de la distribución de las empresas por tamaño, medido en
número de asalariados, en el sentido de que hay muchas empresas pequeñas y
muy pocas medianas y grandes, hace que la efectividad de la coordinación muestral
sea alta en la población de empresas pequeñas pero baja en la de empresas
medianas. En el caso de las grandes empresas, la efectividad es nula pues éstas,
por su importancia económica, siempre se estudian de manera censal.
La distribución, por tamaño, de las empresas en el DIRCE es la siguiente:
Número total Distribución de las empresas por tamaño, número de asalariados
%
%
%
%
de empresas
%
De 10 a 49
De 50 a 199
Más de 199
Año 2012
0
De 1 a 9
54
41,3
3,9
0,6
0,2
3.569.663
SABER +
Para conocer más detalles del DIRCE pueden leer la información
disponible en la página web del INE:
http://www.ine.es/metodologia/t37/t3730201.htm
4.3 Coordinación muestral
Las técnicas de coordinación muestral intentan controlar el grado de solapamiento
entre las muestras, en un momento dado o a lo largo del tiempo. Diferenciamos
entre coordinación positiva, máximo solapamiento y coordinación negativa,
mínimo solapamiento. Dependiendo de los objetivos, será conveniente aplicar una u
otra.
Módulo I: Aspectos generales del Diseño Muestral
75
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
¿Cuándo será conveniente aplicar coordinación positiva?
Cuando se quiera estimar la tasa de cambio es mejor aplicar coordinación
positiva. De hecho, en las encuestas coyunturales centradas en estimar el cambio,
las muestras son prácticamente fijas, rotando una parte mínima para su
actualización.
¿
¿Cuándo será conveniente aplicar coordinación negativa?
En las encuestas estructurales donde el objetivo no sea estimaciones del cambio y
la principal preocupación sea reducir la carga estadística, la coordinación a
aplicar es la negativa. Con ella se consigue una distribución más equitativa de dicha
carga.
4.3.1 Técnica de Números Aleatorios Permanentes
La técnica que empezamos a usar para la coordinación de muestras es la conocida
Técnica de Números Aleatorios Permanentes (o PRN, Permanent Randon
Numbers). Es una técnica sencilla que se puede utilizar tanto para coordinación
positiva como negativa y consiste en lo siguiente.
A cada unidad del marco se le asocia un número aleatorio xi obtenido de manera
independiente de una distribución uniforme U[0,1]. Estos números aleatorios xi’s
llamados PRNs se generan una vez y se guardan junto al resto de información del
marco muestral, para usarlos en todas las extracciones muestrales que se realicen.
Supongamos que queremos obtener una muestra aleatoria simple de tamaño n de
una población con N unidades. Primero, ordenamos las unidades del marco, en
orden creciente o decreciente, según estos PRNs. Segundo, se elige un punto de
partida u origen de selección ‘a’ en el intervalo [0,1] y una dirección (derecha o
izquierda). Entonces, las n unidades primeras de esta lista ordenada forman la
muestra aleatoria simple.
El marco es tratado como una lista circular. Si no hay suficientes unidades a la
derecha (izquierda) del origen ‘a’, la selección continua a la derecha (izquierda) del
punto 0.
Módulo I: Aspectos generales del Diseño Muestral
76
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
4.3.2 Coordinación de muestras para encuestas diferentes
Para controlar el solapamiento de dos muestras obtenidas de manera aleatoria,
de tamaños n1 y n2, se ordenan las unidades del marco según los PRNs y se eligen
dos orígenes a1 y a2 en [0,1] entonces, para la primera muestra, se eligen las n1
con los PRNs más cercanos a la derecha (o izquierda) de a1 y para la segunda
muestra se eligen los n2 con los PRNs más cercanos a la derecha (o izquierda) de
a2.
Si los orígenes a1 y a2 y las direcciones de selección son escogidos apropiadamente,
las
muestras
estarán
coordinadas
negativamente.
Cuando
la
población
es
suficientemente grande (N>>n1+n2), las muestras pueden llegar a ser distintas.
Cuando N< n1+n2 las muestras no pueden ser distintas pero su solapamiento se
reduce.
La coordinación positiva de dos muestras es máxima usando los mismos orígenes y
direcciones de selección.
4.3.3 Coordinación de muestras en el tiempo
Las unidades que permanecen en el marco (unidades permanentes) mantienen el
número aleatorio asociado la primera vez. Cuando una unidad es añadida al marco
(alta), un número aleatorio nuevo es obtenido dependiendo del último aleatorio
generado y cuando una unidad desaparece (baja), se elimina del marco junto a su
número aleatorio.
En cada ocasión, la muestra es obtenida haciendo uso de estos números aleatorios.
El grado de solapamiento de la muestra entre períodos diferentes
dependerá de las unidades que permanecen, del número de altas y de bajas que
haya en la muestra antigua.
Módulo I: Aspectos generales del Diseño Muestral
77
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
4.3.4 Actualización del marco cuando se aplica coordinación positiva en el
tiempo
Una cuestión fundamental a tener en cuenta cuando se obtienen las muestras
aplicando coordinación positiva a lo largo del tiempo es que el marco no debe ser
actualizado con la información obtenida de las encuestas.
Sólo se puede actualizar el marco con la información procedente de
fuentes externas, como por ejemplo, de ficheros administrativos.
Cuando las muestras son obtenidas de manera independiente, las actualizaciones
del marco a partir de la información muestral en cuanto bajas, cambios de actividad
y tamaño, no introducen sesgo y son útiles para reducir el exceso de cobertura y
los cambios de estrato en futuras muestras. Pero si las muestras se coordinan
positivamente y se actualiza el marco con la información procedente de las
encuestas, es posible que podamos introducir algún tipo de sesgo.
Si actualizamos el marco con información muestral y obtenemos una
muestra coordinada positivamente con las de años anteriores, ¿Qué tipo
de sesgo podríamos estar introduciendo a la hora de estimar las
unidades activas?
En el caso de las bajas, suele existir un desfase entre el suceso de baja y la
comunicación administrativa de la misma, desfase que es menor en la encuesta.
Entonces, si damos de baja en el marco a las unidades de la muestra que han sido
bajas, y obtenemos una muestra coordinada positivamente con la anterior, se
tenderá a una sobreestimación del número de unidades activas.
SABER +
Pueden consultar a: Ohlsson, E. (1995). Coordination of Samples
using Permanent Random Numbers. Chapter 9 of Business Survey Methods,
edited by Cox, Binder, Chinnappa, Colledge, Kott. John Wiley & Sons, Inc.
Módulo I: Aspectos generales del Diseño Muestral
78
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
4.4 Coordinación muestral en el INE
Cada año generamos un número aleatorio para cada una de las unidades del marco
(DIRCE). Este número será permanente durante el año. Además, construímos una
función de carga estadística que viene determinada por el tiempo estimado para
cumplimentar el cuestionario y por el número de encuestas que realiza la empresa
ese año.
4.4.1 Coordinación en un año determinado
Inicialmente todas las unidades del marco tienen carga (0,0). La primera muestra
se obtiene de manera independiente, utilizando un muestreo aleatorio simple
dentro de cada estrato. Las unidades que han sido seleccionadas en la muestra
pasan a tener una función de carga igual al tiempo necesario para cumplimentar el
cuestionario y al número de encuestas que realiza la empresa, que en este caso es
igual a 1.
Primera encuesta: tiempo para cumplimentar el cuestionario =60’
f: Marco muestral →R2
ui
→
f(ui)=(x, y)=(tiempo, número)=(60’,1) si ui ∈ s1
f(ui)=(0, 0)
si ui ∉ s1
A partir de la segunda muestra, se coordinan con las anteriores utilizando los
mismos números aleatorios y la función de carga. Antes de obtener la siguiente
muestra, se ordenan las unidades por orden creciente respecto a la primera
componente de la función de carga (tiempo), la segunda componente (número de
encuestas) y el número aleatorio. Para las unidades seleccionadas en esta muestra,
la función de carga se actualiza acumulando el tiempo y el número de encuestas.
Segunda encuesta: tiempo para cumplimentar el cuestionario =120’
f: Marco muestral →R2
ui →f(ui)=(x, y)=(tiempo acumulado, número acumulado)=(180’, 2) si ui ∈ s2 ∩s1
f(ui)=(x, y)=(60’,1)
si u i ∈ s1
f(ui)=(x, y)=(120’,1)
si ui ∈ s2
f(ui)=(0, 0)
si u i ∉ s1, s2
Módulo I: Aspectos generales del Diseño Muestral
79
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
4.4.2 Coordinación en el tiempo
La coordinación muestral en el tiempo, con objeto de reducir la carga
estadística, se aplica para evitar, si es posible, que una empresa sea seleccionada
más de 2 años consecutivos para la misma encuesta.
En este caso, la función de carga estadística tiene una tercera componente a la que
se asigna 1 si la empresa lleva 2 o más años consecutivos en la misma encuesta y
0 en los demás casos. Antes de obtener la muestra, se ordenan las unidades en
orden creciente respecto a la tercera componente de la función de carga, a la
primera, a la segunda y al número aleatorio.
4.4.3 Efectividad de la coordinación
Para que sea efectiva la coordinación entre encuestas diferentes, es conveniente
que los estratos se definan de manera similar en cada una de ellas. Especial
atención se debe prestar cuando los estratos sean diferentes.
Por ejemplo, en la Encuesta Anual de Servicios se definía como estratos de
tamaño los siguientes tramos de asalariados: 0, [1,2], [3,5], [6,9], [10,19]. A
partir de 20 asalariados el estrato era exhaustivo. Mientras que para la Encuesta de
Innovación Tecnológica los estratos eran: [10,49], [50,199]. A partir de 200
asalariados el estrato era exhaustivo. Supongamos que obtenemos la muestra de la
Encuesta de Innovación Tecnológica coordinada negativamente con la muestra de
la Encuesta Anual de Servicios siguiendo los pasos dados anteriormente.
¿Qué le ocurriría a la muestra de la Encuesta de Innovación
Tecnológica?
Tendríamos una sobre-representación de empresas entre 10 a 19 asalariados. En el
momento de obtener la muestra en el estrato [10,49] de manera coordinada con la
de servicios, como todas las empresas de más de 19 trabajadores tienen carga
distinta de cero pues son exhaustivas para esta encuesta, al ordenarlas por la
función de carga estadística y número aleatorio, todas ellas quedarán al final de la
lista ordenada y se escogerían las primeras unidades, produciendo una muestra
sesgada donde las empresas entre 10-19 asalariados estarían sobre-representadas.
Módulo I: Aspectos generales del Diseño Muestral
80
DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2
Aplicando la coordinación temporal ¿están las unidades nuevas
(altas) correctamente representadas en las muestras?
Cuando se aplica coordinación temporal existe la posibilidad de que las unidades
nuevas queden sobre-representadas. Todas las altas tienen carga temporal nula y
por tanto, irán al principio de las listas ordenadas por la tercera componente de la
función de carga. Una solución sería imputarles una carga ficticia. Nosotros no lo
hacemos, pues con la coordinación temporal que realizamos, no tenemos el
problema de la sobre-representación de las altas.
SABER +
Pueden leer el documento de trabajo 06/2010 ‘Sampling coordination
of business surveys in the Spanish National Statistics Institute’, disponible en
nuestra página WEB:
http://www.ine.es/ss/Satellite?L=es_ES&c=INEDocTrabajo_C&cid=1259931238095
&p=1254735839320&pagename=MetodologiaYEstandares%2FINELayout
4.5 Resumen
Las ideas más relevantes en este capítulo son:
 El incremento de la demanda de información económica ha llevado a que
una de las preocupaciones de las oficinas de estadística sea intentar
disminuir la carga estadística.

La disponibilidad de un marco muestral único es una de las claves que
nos permite el uso de técnicas de coordinación muestral.
 La identificación de la unidad muestral, como el caso de la empresa
identificada por su NIF,
es la otra clave que permite la coordinación
muestral.
 Según los objetivos de la encuesta, se utilizará coordinación muestral
positiva o negativa. Para estimar la tasa de cambio es preferible usar
coordinación positiva y para conseguir una distribución más equitativa de la
carga estadística se usará coordinación negativa.
 Cuando se aplica coordinación muestral positiva en el tiempo no es
conveniente actualizar el marco con la información obtenida a partir de las
encuestas.
 Especial atención cuando se coordinan muestras con distinta estratificación.
Módulo I: Aspectos generales del Diseño Muestral
81

Figura 1.- Localización de las zonas de muestreo

DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y

Figura 1.- Localización de las zonas de muestreo

EsDocs.com