DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 MÓDULO I: ASPECTOS GENERALES DEL DISEÑO MUESTRAL DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 INDICE INDICE ......................................................................................................... 2 INTRODUCCIÓN Y OBJETIVOS ......................................................................... 5 Unidad 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS GENERALES DEL DISEÑO MUESTRAL........................................................................................ 6 1.1. Tipos de operaciones estadísticas ........................................................... 6 1.2. Conceptos generales ............................................................................. 7 1.2.1. Población y Muestra ........................................................................ 7 1.2.2. Tipos de muestreo .......................................................................... 8 1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo ............. 9 1.3. Etapas de una encuesta por muestreo....................................................10 1.4. Esquema general del diseño muestral ....................................................11 1.4.1. Ámbito de estudio ..........................................................................11 1.4.2. Marco .......................................................................................... 12 1.4.3. Variables de estratificación ............................................................ 13 1.4.4. Tamaño de la muestra ...................................................................13 1.4.5. Tipo de muestreo ..........................................................................14 1.4.6. Estimadores .................................................................................14 1.4.7. Evaluación de la calidad de los datos. ..............................................15 1.4.8. La falta de respuesta. ....................................................................16 1.5 Resumen ............................................................................................. 17 Unidad 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE MUESTRAS UTILIZADOS EN EL DISEÑO DE LAS ENCUESTAS ................................................................ 18 2.1. Principios básicos del muestreo probabilístico .........................................18 2.1.1. Unidades de muestreo ....................................................................19 2.1.2. Probabilidades de inclusión de primer y segundo orden ...................... 20 2.1.3. Estimador .....................................................................................21 2.2. Métodos de selección de las unidades ....................................................26 2.2.1. Sin reemplazamiento (SR) .............................................................. 26 2.2.2. Con reemplazamiento ....................................................................27 2.3. Estimadores lineales insesgados ............................................................ 28 Módulo I: Aspectos generales del Diseño Muestral 2 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.4. Tipos de muestreo y estimadores .......................................................... 31 2.4.1. Muestreo de unidades elementales con probabilidades iguales .............31 2.4.2. Muestreo estratificado de unidades elementales con probabilidades iguales ..................................................................................................34 2.4.3. El estimador de razón bajo muestreo de unidades elementales con probabilidades iguales .............................................................................37 2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo ............39 2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo .....40 2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo ....42 2.4.5. Muestreo sistemático .....................................................................43 2.5. Errores de muestreo y métodos de estimación ........................................45 2.5.1. Método de los conglomerados últimos ..............................................46 2.5.2. Método de las semimuestras reiteradas ............................................47 2.5.3. Método Jackknife ...........................................................................48 2.5.4. Método Bootstrap ..........................................................................49 2.5.5. Software para el cálculo de errores de muestreo ................................ 50 2.6. Resumen ............................................................................................ 51 UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS ENCUESTAS ....................52 3.1. Definición de marco .............................................................................52 3.2. Características del marco .....................................................................53 3.3. Marco de áreas y marco de listas .......................................................... 54 3.3.1. Descripción del DIRCE. ..................................................................55 3.4. Marco utilizado en las encuestas a hogares del INE ..................................56 3.4.1. Descripción ..................................................................................56 3.4.2. Marco de áreas geográficas ............................................................. 57 3.4.3. Marco de viviendas ........................................................................59 3.5. Fuentes estadísticas utilizadas en la formación del marco ......................... 60 3.5.1. Utilización del Censo de Población y Viviendas ...................................60 3.5.2. Utilización del Padrón Continuo........................................................ 62 3.6. Actualización de las unidades de muestreo .............................................64 3.6.1. Actualización en el marco de viviendas .............................................65 3.6.2. Actualización en el marco de unidades primarias ............................... 66 3.6.3. Actualización de las probabilidades de selección ................................ 68 3.7 Resumen ............................................................................................. 71 Módulo I: Aspectos generales del Diseño Muestral 3 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Unidad 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS ECONÓMICAS ...........72 4.1 Carga Estadística: Directorio de Colaboración con las Unidades Informantes 72 4.2 Marco Muestral: Directorio Central de Empresas.......................................74 4.3 Coordinación muestral ..........................................................................75 4.3.1 Técnica de Números Aleatorios Permanentes ......................................76 4.3.2 Coordinación de muestras para encuestas diferentes .......................... 77 4.3.3 Coordinación de muestras en el tiempo ............................................77 4.3.4 Actualización del marco cuando se aplica coordinación positiva en el tiempo ...................................................................................................78 4.4 Coordinación muestral en el INE............................................................. 79 4.4.1 Coordinación en un año determinado ................................................79 4.4.2 Coordinación en el tiempo................................................................ 80 4.4.3 Efectividad de la coordinación .......................................................... 80 4.5 Resumen ............................................................................................. 81 Módulo I: Aspectos generales del Diseño Muestral 4 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 INTRODUCCIÓN Y OBJETIVOS El presente curso se estructura en tres módulos que se imparten a lo largo de tres semanas. El módulo I se divide en cuatro unidades e incluye aspectos generales del diseño muestral, junto con una parte teórica necesaria para realizar de forma eficiente este tipo de diseño. Los módulos II y III se estructuran en tres unidades cada uno, presentan los diseños muestrales de las encuestas de hogares y económicas más importantes y se analiza la problemática que surge en la realización de cada una de las etapas del diseño. Se inicia este módulo haciendo una descripción general de las distintas fases una encuesta por muestreo, definiciones de conceptos utilizados a lo largo del mismo y se enumeran las distintas etapas del esquema de un diseño muestral, haciendo en el último apartado un análisis de la falta de respuesta y su tratamiento. En la segunda unidad se analizan los conceptos básicos de la teoría del muestreo en poblaciones finitas, en los que se apoya el diseño muestral. En la tercera unidad, y como un paso previo del cual depende el diseño muestral, se hace un análisis detallado sobre el marco de muestreo, las distintas fuentes utilizadas, sus limitaciones y se estudia con detalle los procedimientos que se aplican para mantener el marco actualizado. Finalmente en la cuarta unidad se estudia con detalle la teoría utilizada en las encuestas económicas de la coordinación muestral que afecta a la selección de las muestras. Con objeto de disminuir la carga de trabajo de las unidades informantes, intenta controlar el grado de solapamiento entre ellas. Dependiendo de los objetivos interesará una coordinación muestral positiva, máximo solapamiento, o una coordinación muestral negativa, mínimo solapamiento. El objetivo de este primer módulo es proporcionar al alumno unos conocimientos teóricos generales sobre los distintos aspectos que hay que considerar en la realización de un diseño muestral, para facilitar la comprensión de la parte práctica que se presenta en los módulos II y III, en los que se analiza con detalle los diseños muestrales de las encuestas más importantes. Módulo I: Aspectos generales del Diseño Muestral 5 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 UNIDAD 1. FASES DE UNA ENCUESTA POR MUESTREO. ASPECTOS GENERALES DEL DISEÑO MUESTRAL En este capítulo se hace una descripción de una encuesta por muestreo, su justificación y una descripción de las distintas etapas del diseño muestral. El objetivo es familiarizar al alumno con los conceptos que se analizan en detalle en el resto de unidades contenidas en el módulo. 1.1. Tipos de operaciones estadísticas En el mundo actual los gobiernos, las empresas y las personas, necesitan información para la toma de decisiones. La información es el resultado de obtener, clasificar y procesar los datos. Se entiende por operación estadística el proceso por el cual se obtiene información estadística. Cualquier estudio estadístico pasa por una fase de diseño en la que a partir de las necesidades de los usuarios se establece la necesidad de la información a obtener y su viabilidad, se definen los objetivos del estudio, la metodología a seguir para alcanzarlos, posibles fuentes de datos, los costes, y el resto de especificaciones necesarias para la obtención del producto final. Una vez decidida la realización de una operación estadística, la producción de la misma consiste en un proceso de transformación de información numérica que va desde la recogida de la información hasta la obtención de los resultados finales. La ley de la función estadística pública regula la actividad estadística para fines estatales y encomienda al INE la realización de las operaciones estadísticas de interés nacional: (censos demográficos y económicos, cuentas nacionales, estadísticas demográficas y sociales, indicadores económicos y sociales, coordinación y mantenimiento de los directorios de empresas, formación del Censo Electoral...). En la ejecución de su actividad estadística el INE, y en general todas las Oficinas Nacionales de Estadística, realiza dos grandes tipos de operaciones: Módulo I: Aspectos generales del Diseño Muestral 6 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 • CENSOS: Son investigaciones de tipo exhaustivo. • ENCUESTAS POR MUESTREO: Proceso mediante el cual se obtienen conclusiones de la población a partir de la información proporcionada por una parte de ella (muestra). El desarrollo de las técnicas de muestreo ha permitido el gran incremento de las encuestas. 1.2. Conceptos generales En el estudio y análisis de una encuesta por muestreo es necesario fijar una serie de conceptos que nos van a ayudar en el diseño de una buena muestra. 1.2.1. Población y Muestra Se denomina población objetivo a un conjunto de unidades del que se desea obtener una información. La unidad de investigación es sobre la que se realiza la medición y se denomina también elemento. Las unidades de observación pueden ser hogares, personas, colegios, empresas, etc. La información deseada puede ser el tamaño del hogar, el gasto medio en alimentación, etc. A estos valores que se desea conocer se les denominan valores verdaderos. En la práctica las limitaciones en los procedimientos diseñados para obtenerlos, junto con los cometidos en la obtención de los mismos, nos obliga a considerar valores que no coinciden con los verdaderos y que denominamos valores observados. Estos serán más precisos cuanto más próximos estén de los valores verdaderos. A los errores de tipo sistemático que se comenten en las observaciones se les denomina sesgos. Se llama muestra a un subconjunto de la población obtenido con el fin de investigar algunas características de la misma. Los datos obtenidos a partir de ella, que nos permite inferir los de la población se denominan estimaciones. Unidad de muestreo: es la unidad que se utiliza en la selección de la muestra, que puede ser diferente de la unidad de investigación. Módulo I: Aspectos generales del Diseño Muestral 7 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Podemos estar interesados en estudiar a los individuos pero solo se dispone de una lista de viviendas. La vivienda es la unidad de muestreo y las personas de la vivienda la unidad de investigación. Marco de muestreo es el conjunto de unidades de muestreo. En una encuesta ideal el marco de muestreo debe de coincidir con la población objetivo. Muestras distintas nos dan valores distintos de las estimaciones. La medida de la variabilidad de las estimaciones en torno a su media se denomina error de muestreo. Cuanto menor sea esta variabilidad mayor es la precisión de las estimaciones. La consideración conjunta de precisión y sesgo nos conduce al concepto de “acuracidad”. Una buena muestra debe reproducir las características de interés de la población. Se suele decir que la muestra ha de ser representativa en el sentido de que cada unidad muestreada representa las características de una cantidad conocida de unidades de la población. 1.2.2. Tipos de muestreo El procedimiento mediante el cual se selecciona una muestra se denomina Muestreo. Se distinguen dos grandes tipos de muestreo: • Muestreo Probabilístico. Está basado en la estadística matemática, y se define como el tipo de muestreo en el que se conoce a priori la probabilidad que tiene cada una de las posibles muestras de ser seleccionada. Ejemplos de este tipo de muestreo son el muestreo aleatorio simple, muestreo estratificado, muestreo de conglomerados, etc. El uso de muestreo probabilístico permite el cálculo de los errores de muestreo. Módulo I: Aspectos generales del Diseño Muestral 8 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Es el utilizado en los Institutos Nacionales de Estadística para las encuestas oficiales. • Muestreo No probabilístico. En este tipo de muestreo la selección de la muestra no está sometida a criterios probabilísticos. Los más utilizados son el muestreo opinático en el que la persona que selecciona la muestra procura que esta sea representativa, (selección de unidades tipo) y el muestreo por cuotas en el que la muestra se selecciona en un número proporcional al de los que cumplen una característica de la población. SABER + Las cuotas más utilizadas son las de edad y sexo, por ser generalmente la información disponible de la población. Se utilizan en las encuestas de opinión. 1.2.3. Ventajas y limitaciones del uso de las encuestas por muestreo La demanda de información creciente ha hecho casi imprescindible el uso de las encuestas por muestreo. Las ventajas del muestreo frente a la enumeración completa (Censo) son las siguientes: 1. Menor coste: Si los datos se obtiene de una pequeña parte de la población, los gastos son menores que los de realizar una investigación exhaustiva, aun cuando el coste por unidad pueda ser superior. 2. Errores ajenos al muestreo: Son más fáciles de controlar, y como éstos suelen ser superiores a los de muestreo, los resultados obtenidos son más acurados. Aun cuando una muestra viene afectada de un error de muestreo, el diseñador dispone de métodos para medirlo y controlarlo. 3. Resultados rápidos: Los datos pueden ser recogidos más rápidamente en una encuesta por muestreo que en una enumeración completa. 4. Menos limitaciones en las características a investigar: El uso de equipos más especializados hace que el muestreo tenga más posibilidades y flexibilidad respecto a la información a obtener. Módulo I: Aspectos generales del Diseño Muestral 9 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 RESUMEN A pesar de las ventajas antes mencionadas, el Censo es necesario porque es la única oportunidad de tener una gran cantidad de información a un nivel muy elevado de desagregación. En este sentido se puede decir que el censo complementa a las encuestas por muestreo en el sentido de que proporciona información necesaria para: • Preparación de las Bases de Muestreo (MARCOS) • Procesos de ESTRATIFICACIÓN • Procesos de ESTIMACIÓN Y por tanto permite una notable mejora en la calidad de las encuestas. 1.3. Etapas de una encuesta por muestreo La realización de una encuesta por muestreo se extiende sobre un largo periodo de tiempo que abarca desde la planificación del proyecto hasta la publicación de los resultados. Previamente a la descripción de los aspectos más importantes del diseño muestral y el papel que juega la teoría estadística en una encuesta por muestreo, es importante describir cuales son los pasos involucrados en la ejecución de un proyecto estadístico. Estos pasos pueden agruparse en los siguientes: 1. Determinación de los objetivos: Es necesario establecer de una manera clara y precisa cuales son los objetivos de la encuesta y una justificación de la necesidad de la misma. Esto implica una definición de la población que se va a investigar, y de la población a muestrear, la especificación de las características a estimar, diseñar un modelo de tablas de resultados y fijar los niveles de precisión requeridos para las estimaciones. 2. Diseño de la muestra. Esta fase que se describe con más detalle en el último apartado de esta unidad, analiza entre otros el establecimiento del plan de muestreo y los métodos de estimación. 3. Trabajos de campo. Comprende esta fase todas las actividades necesarias para la elaboración del cuestionario, establecimiento del método de recogida, selección y formación de entrevistadores, y la organización de la recogida de los datos. Módulo I: Aspectos generales del Diseño Muestral 10 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 4. Tratamiento de la información. Incluye esta fase las operaciones de depuración e Imputación a que son sometidos los datos con objeto de obtener un fichero de datos completo y consistente. La fase de depuración consiste en el establecimiento de controles y reglas que permitan detectar inconsistencias o datos potencialmente erróneos. La fase de imputación se utiliza para corregir los errores detectados en la fase de depuración. 5. Difusión de los datos. Consiste en determinar el procedimiento para hacer llegar los resultados de una operación estadística a los usuarios. En esta fase se habrá de tener en cuenta las necesidades de los usuarios y se procurará que la información facilitada sea acurada, completa, accesible y oportuna. En las publicaciones en que se vayan a difundir los resultados, deberá figurar además una descripción de la metodología, conceptos, variables y clasificaciones utilizadas. 1.4. Esquema general del diseño muestral El diseño muestral en una encuesta comprende una serie de fases que van desde la elección del método de muestreo hasta la formulación del procedimiento de estimación y cálculo del nivel de precisión de las estimaciones. En la toma de decisiones en las distintas fases, influyen diversos factores como son la disponibilidad de marcos apropiados, grado de conocimiento de la población investigada que permita disponer de variables adecuadas para la estratificación y estimación; y finalmente, del presupuesto disponible. 1.4.1. Ámbito de estudio El ámbito en una encuesta se contempla desde una triple óptica: poblacional, geográfico y temporal. Viene determinado por los objetivos de la encuesta, y es el punto de partida para el resto de las etapas del diseño muestral. El ámbito poblacional se refiere a la población objeto de estudio. Módulo I: Aspectos generales del Diseño Muestral 11 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 El ámbito poblacional en la encuesta industrial es el conjunto de empresas con una o más personas remuneradas y cuya actividad principal está incluida en las secciones B a E de la CNAE-09. El ámbito geográfico es el territorio abarcado por el objetivo de la encuesta, puede ser una provincia, una región o el total nacional. El ámbito temporal tiene un doble aspecto: el de referencia de la encuesta y el de referencia de la toma de datos. En la Encuesta de Población Activa (EPA), la referencia de la encuesta es el trimestre y los datos van referidos a la semana anterior a la de la entrevista. 1.4.2. Marco Es el conjunto de información útil en cualquier etapa del diseño muestral. En el marco se debe de distinguir entre la lista de unidades y la información complementaria. El marco, en sentido estricto, es la lista de las unidades de muestreo, y debe ser un fiel reflejo de la población objetivo. En las encuestas por muestreo se pueden utilizar marcos de áreas o marco de listas, lo que nos conduce a muestreos en una o en varias etapas. Si el marco es de áreas geográficas, éstas deben tener los límites perfectamente definidos e identificables sobre el terreno para evitar omisiones, inclusiones erróneas, etc. Si el marco es de lista, es decir, formado por las unidades elementales, la falta de actualización puede producir una muestra sesgada. La formación del marco puede tener un impacto importante en el coste de la encuesta. Generalmente se recurre a formar los marcos a partir de otras fuentes ya existentes. La información complementaria se refiere a toda aquella información que puede utilizarse para la mejora del diseño muestral, tanto en los procesos de estratificación, de estimación, ajuste de la falta de respuesta, etc. Módulo I: Aspectos generales del Diseño Muestral 12 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 1.4.3. Variables de estratificación Con la estratificación o división de la población en subpoblaciones o estratos se persiguen diversos fines: 1. Dar estimaciones separadas para ciertas subpoblaciones 2. Agrupar unidades homogéneas entre sí para mejorar la precisión de las estimaciones globales. 3. Posibilidad de utilizar diferentes métodos de muestreo en los distintos estratos. SABER + En esta línea, el INE ha realizado el diseño muestral de la Encuesta Financiera de las Familias que lleva a cabo el Banco de España. En los estratos donde se agrupan los municipios de mayor tamaño se ha realizado un muestreo aleatorio simple, en el resto de los estratos el tipo de muestreo utilizado ha sido bietápico estratificado. Generalmente, las variables disponibles en las unidades del marco de población y que son utilizadas en el proceso de estratificación, proceden de los censos de población. SABER + Anteriormente los censos eran la única oportunidad para formar los marcos y disponer de información desagregada a nivel de unidad primaria de muestreo. Actualmente la existencia de Registros Administrativos, actualizados y depurados ha facilitado esta tarea como se verá a lo largo del curso. 1.4.4. Tamaño de la muestra El tamaño de la muestra en una encuesta se establece en función de: El nivel de precisión requerido para las estimaciones de las características más importantes a estimar en la encuesta. El nivel de desagregación de las variables objetivo. Otros límites como el presupuesto disponible. Resulta muy útil la experiencia de otras encuestas anteriores o similares. Módulo I: Aspectos generales del Diseño Muestral 13 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 1.4.5. Tipo de muestreo Es el proceso mediante el cual se selecciona la muestra. En la elección del método de muestreo influyen diversos factores como son: el nivel de precisión deseado para los resultados finales, la disponibilidad de marcos, el grado de conocimiento de la población objetivo que permita el uso de la estratificación, así como del presupuesto disponible. RESUMEN En la práctica puede no ser conveniente seleccionar directamente las unidades elementales de estudio, bien porque no se dispone de la lista de donde realizar la selección o bien por razones de coste y tiempo. En estos casos debe de utilizarse un muestreo en dos o más etapas, mediante la utilización de conglomerados. En este tipo de muestreo la lista de unidades elementales solo es necesario disponerla para los conglomerados seleccionados en la muestra. 1.4.6. Estimadores El estimador es la expresión matemática que nos permite inferir las características de la población a partir de los datos de una muestra. El valor que toma el estimador en una determinada muestra, o valor inferido, se conoce como estimación. La utilización de métodos de estimación adecuados permite obtener estimaciones consistentes en ausencia de casos de no respuesta. El estimador de Horvitz -Thompson es el estimador básico que pondera cada unidad de la muestra con la inversa de la probabilidad de selección. Generalmente debido a la presencia de falta de respuesta o, con objeto de incorporar la información auxiliar para mejorar la precisión del estimador, se aplican técnicas de calibrado. Los factores resultantes se denominan factores de calibrado. En general, estos ajustes dan lugar a estimaciones aproximadamente consistentes y sesgos despreciables. Módulo I: Aspectos generales del Diseño Muestral 14 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 RESUMEN En las encuestas de hogares, el estimador se obtiene siguiendo los siguientes pasos: 1. Obtención del peso de diseño: Estimador de Horvitz -Thompson. 2. Corrección de falta de respuesta: Corrección del sesgo en las estimaciones. 3. Aplicación de Técnicas de calibrado: Mejora la precisión de las estimaciones, con la información proporcionada por fuentes externas. SABER + En las encuestas económicas no está muy extendido el uso de técnicas de calibrado debido a la no disponibilidad de fuentes externas fiables. 1.4.7. Evaluación de la calidad de los datos. La evaluación de la calidad de los datos es el proceso de valoración del producto final de un proceso estadístico. Esta fase pasa por la medición de los principales tipos de error de las encuestas. Los errores que afectan a las encuestas se clasifican en dos grandes grupos: • Errores de muestreo: Son debidos al hecho de estimar las características de la población a partir del estudio de una muestra. Para su cálculo se utilizan procedimientos directos e indirectos. A partir del error de muestreo se calcula el intervalo de confianza que con una probabilidad prefijada contiene al verdadero valor del parámetro. • Errores ajenos al muestreo: Son errores que se presentan en cualquiera de las etapas del desarrollo de una encuesta. Introducen sesgos en las estimaciones generalmente difíciles de cuantificar. Los métodos para la evaluación de estos errores son generalmente costosos y difíciles de llevar a la práctica. SABER + Las oficinas de estadística deben de ser las responsables de llevar a cabo la evaluación de la calidad de los datos, así como la difusión de los mismos. Los usuarios deben de conocer en qué medida los errores pueden limitar la utilización de la información estadística. La evaluación de la calidad puede servir para mejorar la calidad de otros estudios. Módulo I: Aspectos generales del Diseño Muestral 15 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 1.4.8. La falta de respuesta. Entre los errores ajenos al muestreo que afectan a las encuestas se presenta la falta de respuesta en las unidades seleccionadas. La planificación inicial del diseño muestral se ve modificada cuando se realiza la encuesta debido a la presencia de una serie de incidencias que dan lugar a la falta de respuesta y por tanto el tamaño muestral teórico es inferior al tamaño de muestra efectivo. El trabajo de campo es clave para que el diseño inicial no se aleje del resultado final. DEFINICIÓN: De acuerdo con el diseño de la muestra, en un determinado número de unidades u1, u2, u3, ……un deben ser observadas k variables y1,,y2,…. yk. Este plan no puede llevarse a cabo por: 1. Una o más unidades no pueden ser observadas: Falta de respuesta total. 2. En una o más unidades solamente son observadas h < k variables: Falta de respuesta parcial. Las incidencias que dan lugar a la falta de respuesta son: • Unidades no encuestables: Son unidades seleccionadas para la muestra que no pertenecen a la población objeto de estudio. Son debidas a errores en los marcos. • Unidades ausentes o no contactadas: Son aquellas que pertenecen a la población objetivo pero con las que no se ha podido establecer contacto. Su existencia depende en cierta medida de la organización del trabajo de campo. • Unidades negativas a contestar: Son aquellas que rechazan colaborar en la encuesta. Pueden ser negativas en el contacto inicial o posterior al contacto. • Unidades incapaces de contestar: Son aquellas que por enfermedad, desconocimiento del idioma, no colaboran en la encuesta. Módulo I: Aspectos generales del Diseño Muestral 16 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 La presencia en la encuesta de los distintos tipos de unidades produce: • Presencia de sesgos en las estimaciones, por no ser aleatoria la muestra de unidades que no responden. • Incremento de la varianza, por producir disminución en el tamaño de la muestra. • Incremento del coste. Es necesario incrementar la muestra para mantener los niveles de precisión exigidos. Con una previsión inicial de la falta de respuesta, se podría incrementar el tamaño muestral teórico para que el tamaño muestral efectivo cumpliera con nuestras expectativas. Lo que no podemos eliminar es el sesgo por falta de respuesta. Si las unidades que no contestan se comportan de manera marcadamente diferente a las que contestan, por mucho que aumentáramos el tamaño muestral, no se eliminará el sesgo. Si se dispone de información auxiliar conveniente, se puede reducir el sesgo aplicando las técnicas de calibrado, como se verá en las unidades de los siguientes módulos. Asimismo se analizará en cada encuesta los distintos tratamientos que se dan ante la presencia de falta de respuesta y los procedimientos que se utilizan para reducir la misma. 1.5 Resumen Esta unidad sólo intenta ser una introducción para el resto de las unidades, tanto de este módulo como de los siguientes. En ella se definen una serie de conceptos necesarios en la utilización y entendimiento de las técnicas de muestreo, se describen las diferentes etapas de una encuesta por muestreo, y finalmente se describen los distintos apartados necesarios para llevar a cabo un diseño muestral. Módulo I: Aspectos generales del Diseño Muestral 17 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 UNIDAD 2. PRINCIPALES CONCEPTOS DE LA TEORÍA DE MUESTRAS UTILIZADOS EN EL DISEÑO DE LAS ENCUESTAS Algunos conceptos de la Teoría de Muestras que son imprescindibles para el diseño de las encuestas basadas en el muestreo probabilístico (población, marco, muestra, estimador, error,...) ya han sido introducidos en la unidad 1. Ahora vamos a desarrollar brevemente algunos de ellos junto con los diferentes tipos de muestreo y sus estimadores. 2.1. Principios básicos del muestreo probabilístico El muestreo es un proceso utilizado desde hace muchos años para seleccionar una parte representativa o muestra de un conjunto que llamamos población y, de esta manera, obtener información sobre una característica definida en ésta. A partir de la información proporcionada por la muestra, estimamos el valor del dato poblacional que nos interesa. Si la muestra procede de una población homogénea, cualquier parte seleccionada es representativa del total siempre que no sea excesivamente pequeña y, en este caso, el muestreo tiene poca importancia. El problema se plantea cuando tratamos de muestrear poblaciones no homogéneas. En este caso es cuando nos preocupa el muestreo, ya que tenemos que conseguir que la muestra tenga representación de un gran número de unidades que difieren extraordinariamente. En (1.2.2) visteis dos grandes tipos de muestreo: el muestreo probabilístico y el muestreo no probabilístico (por cuotas, opinático,...). El primero es el tipo de muestreo utilizado en las encuestas oficiales realizadas por los Institutos Nacionales de Estadística. Para seleccionar de forma aleatoria los elementos de la población que van a formar la muestra es necesario elaborar un marco de muestreo (lista de unidades a partir de la cual se selecciona la muestra). Módulo I: Aspectos generales del Diseño Muestral 18 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.1.1. Unidades de muestreo En (1.2.1) apareció el concepto de unidad de muestreo como la unidad que se utiliza en la selección de la muestra, que puede ser diferente de la unidad de investigación. Además definíamos el marco de muestreo como el conjunto de unidades de muestreo. Hay dos grandes tipos de unidades de muestreo: Unidades elementales: son las unidades de las que tratamos de obtener información, por lo tanto, son las unidades últimas en el proceso de selección y coinciden con las unidades de investigación. Conglomerados: son grupos de unidades elementales. Estamos interesados en estudiar el precio de alquiler de la vivienda y disponemos de una lista de municipios. Entonces seleccionamos primero municipios, elaboramos una lista de viviendas para aquellos municipios elegidos y seleccionamos viviendas en cada uno de ellos. En esta situación estamos trabajando con dos marcos: primero utilizamos un marco de municipios (conglomerados) y después un marco de viviendas (unidades elementales) construido sólo para aquellos municipios seleccionados. A veces el marco de muestreo no es una simple lista que enumera las unidades de muestreo, sino que contiene información sobre las mismas que podemos utilizar para aplicar técnicas especiales de muestreo (estratificación, probabilidades desiguales de selección,...) o de estimación (estimador de razón), que veremos a lo largo del desarrollo de esta unidad. Partiendo de un marco, el muestreo probabilístico verifica las siguientes propiedades: El conjunto formado por todas las muestras posibles que el procedimiento aleatorio es capaz de elegir del marco, es conocido Cada muestra posible s tiene asignada una probabilidad p(s) conocida de selección En la práctica no es imprescindible construir todas las muestras posibles, sólo es necesario que supiésemos cómo hacerlo si contásemos con el tiempo y los medios necesarios. Módulo I: Aspectos generales del Diseño Muestral 19 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 En una población formada por 3 unidades (u1, u2, u3) vamos a seleccionar una muestra de dos unidades, de manera que todas las unidades de la población tienen la misma probabilidad de ser elegidas y no hay unidades repetidas. Entonces, bajo este esquema de muestreo, el conjunto formado por todas las muestras posibles es {(u1, u 2 )(u1, u 3 )(u 2 , u 3 )} y la probabilidad de selección de cada una de las tres muestras posibles es 1/3. Por lo tanto podemos afirmar que este tipo de muestreo es probabilístico. Si utilizamos dos marcos, como en el ejemplo de las viviendas, los municipios son las unidades de muestreo correspondientes a la primera etapa y las viviendas son las unidades de muestreo correspondientes a la segunda etapa. Es decir el muestreo lo hemos realizado en dos etapas. Podemos generalizar la idea a varias etapas (muestreo polietápico) en el que seleccionamos conglomerados en una primera etapa y submuestreamos los conglomerados en etapas posteriores hasta seleccionar las unidades elementales en una última etapa. Para que el muestreo sea probabilístico, las propiedades anteriores deben de verificarse en cada etapa. 2.1.2. Probabilidades de inclusión de primer y segundo orden Partiendo de una población formada por N unidades (u1,..., uN), si el muestreo es probabilístico, podemos calcular las probabilidades de inclusión siguientes: De primer orden asociada a cada unidad ui de la población: es la probabilidad que tiene ui de pertenecer a la muestra. Se denomina πi y es la suma de las probabilidades de selección en el subconjunto formado por las muestras posibles que contienen a ui. Es decir: πi = ∑ p(s) u i ∈s Módulo I: Aspectos generales del Diseño Muestral 20 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 De segundo orden asociada al par de unidades (ui, uj) de la población: es la probabilidad que tiene el par (ui, uj) de pertenecer a la muestra. Se denomina πij es la suma de las probabilidades de selección en el subconjunto formado por las muestras posibles que contienen a (ui, uj). Es decir: πij = ∑ p(s) u i , u j ∈s Obviamente las probabilidades de inclusión de segundo orden asociadas a los pares (ui, uj) y (uj, ui) coinciden, es decir: π ij = π ji . En el ejemplo último, cada unidad de la población pertenece a dos muestras posibles por lo que π1 = π 2 = π3 = 1 1 2 son las probabilidades de inclusión de + = 3 3 3 primer orden. Por otra parte, cada par de unidades es una muestra posible y consecuentemente pertenece a una única muestra. Entonces las probabilidades de inclusión de segundo orden son π12 = π13 = π 23 = 1 . 3 2.1.3. Estimador En (1.4.6) apareció la definición de estimador como la expresión matemática que nos permite inferir las características de la población a partir de la muestra. El valor que toma el estimador en una determinada muestra, se conoce como estimación. Es decir, en la práctica, seleccionamos una única muestra de tamaño n y aplicamos un estimador, que no es más que una función matemática, a los valores muestrales observados. Módulo I: Aspectos generales del Diseño Muestral 21 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Supongamos que en el ejemplo anterior queremos investigar el valor medio de una característica que toma los valores x1=x2=2 y x3=5 y la muestra seleccionada resulta ser la formada por las unidades (u2, u3) siendo (2,5) los valores observados. Entonces un estimador del valor medio poblacional viene dado por la media muestral definida por la expresión matemática 1 2 muestra seleccionada, proporciona la estimación dada por el valor ∑x i que, en la i∈s 2+5 = 3,5 . 2 Repitiendo el proceso de muestreo todas las veces posibles, el estimador proporciona diferentes estimaciones, cada una de ellas con una probabilidad igual a la de la muestra sobre la que la estimación es calculada. El estimador es por consiguiente una estimaciones, y () variable tiene aleatoria, sentido hablar () cuyos de valores la particulares esperanza son las matemática del estimador, E θ̂ , y de su varianza V θ̂ . La esperanza del estimador es la media de todas las estimaciones posibles y la varianza del estimador es una medida del grado de dispersión de éstas alrededor de su media. En el ejemplo anterior, el estimador media muestral es una variable aleatoria discreta que proporciona dos estimaciones posibles: el valor 2 si la muestra (u1, u2) es seleccionada y el valor 3,5 si seleccionamos cualquiera de las otras dos muestras posibles. Por lo tanto, el estimador media muestral toma dos valores, el 2 con probabilidad 1/3 y el 3,5 con probabilidad 2/3. Fijaros que en este ejemplo ninguna de las dos estimaciones posibles coincide con la media poblacional a estimar 2+2+5 = 3. 3 Siempre que utilizamos una muestra para estimar datos de una población, cometemos algo de error pues no podemos esperar que la muestra sea una reproducción perfecta de la población de que procede. Este error es propio del muestreo y no existen en los censos. Módulo I: Aspectos generales del Diseño Muestral 22 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Veamos los siguientes gráficos que representan para tres situaciones diferentes, los valores de las estimaciones posibles (azul), el valor de su media (verde) y el valor del parámetro poblacional a estimar (rojo): 1) 2) 3) En la primera situación hay un sesgo representado por la distancia entre el punto verde (media de las estimaciones) y el punto rojo (parámetro poblacional), además de un error representado por las oscilaciones de los puntos azules (estimaciones). En la segunda el sesgo es el mismo que en la primera pero tiene menor error ya que los puntos azules (estimaciones) están menos dispersos. La situación ideal es la tercera, es decir, el sesgo prácticamente no existe y el error se ha reducido. Si mediante el estimador θ̂ pretendemos estimar el parámetro poblacional θ , () () pueden ocurrir dos cosas: E θ̂ = θ ó E θ̂ ≠ θ . En el primer caso decimos que θ̂ es un estimador insesgado para el parámetro θ , y en el segundo caso decimos que el () estimador es sesgado. Podemos calcular el sesgo del estimador B θ̂ como la diferencia entre la esperanza del estimador y el parámetro que trata de estimar. Es () () decir, B θˆ = E θˆ − θ. Continuando con el ejemplo anterior, la esperanza de la media muestral es () 2 1 E θˆ = 2 + 3,5 = 3 que coincide con la media poblacional. Por lo tanto, en este caso, 3 3 la media muestral es un estimador insesgado de la media poblacional (aunque la estimación sobre una determinada muestra no coincide con la media poblacional, la media de las estimaciones sí coincide). Módulo I: Aspectos generales del Diseño Muestral 23 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 En general trabajaremos con estimadores insesgados. El error del estimador viene dado por la dispersión de las estimaciones posibles alrededor del parámetro poblacional a estimar. A este error de carácter aleatorio se le conoce como el error cuadrático medio del estimador (ECM) y se define como la media de las desviaciones entre las estimaciones y el parámetro al cuadrado: () ( ECM θˆ = E θˆ − θ ) 2 El error cuadrático medio del estimador se puede desglosar en dos componentes, ya que () () () 2 ECM θˆ = V θˆ + B θˆ En donde el primer término es la varianza y el segundo es el cuadrado del sesgo. En el caso de los estimadores insesgados, el error del estimador viene dado sólo por la varianza. Para comparar dos estimadores insesgados, un criterio útil es el de comparar sus varianzas pues a menor varianza, menor error y mayor precisión. Continuando con el ejemplo último, el error de la media muestral es () 2 1 1 que coincide con la varianza del estimador, lo que ECM θˆ = (2 − 3) 2 + (3,5 − 3)2 = 3 3 2 resulta lógico pues es insesgado. En la práctica, como trabajaremos con estimadores insesgados, el error de muestreo se mide con la raíz cuadrada de la varianza para expresar el error en las mismas unidades que la característica estudiada. A este error se le conoce como el error absoluto de muestreo del estimador. Módulo I: Aspectos generales del Diseño Muestral 24 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Ahora bien, el error absoluto no nos proporciona una idea de la magnitud del mismo en el sentido de si es grande o pequeño respecto al dato poblacional a estimar (no es lo mismo un error absoluto de 1000 cuando el dato poblacional a estimar vale 1000000 que cuando vale 10). Entonces, con el fin de limitar la utilización de los datos estadísticos, es más útil el cociente entre el error absoluto y el dato poblacional que estima, es decir, el error relativo de muestreo del estimador o coeficiente de variación. Continuando con el mismo ejemplo, el error absoluto de la media muestral es 1 = 0,707 y su error relativo es 2 1 2 3 = 0,2357 , es decir, el coeficiente de variación es del 23,57%. Observar que, en este ejemplo, es posible calcular los errores porque conocemos los datos poblacionales pero en el mundo real sólo vamos a conocer los datos de las unidades investigadas en la muestra por lo que será imposible calcular su valor exacto. En la práctica el error de un estimador insesgado, tanto absoluto como relativo, es estimado en base a los datos proporcionados por la muestra seleccionada. Otro indicador de la exactitud de las estimaciones vine dado por el intervalo de () () confianza θˆ − 2 V̂ θˆ , θˆ + 2 V̂ θˆ que cubrirá al verdadero valor de θ con una probabilidad de más del 95%, si θ̂ se distribuye aproximadamente como una () normal y V̂ θ̂ es un estimador consistente para la varianza del estimador. Entonces cuanta menos amplitud tenga, más informativo será. Módulo I: Aspectos generales del Diseño Muestral 25 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.2. Métodos de selección de las unidades En general existen dos métodos para seleccionar las unidades de la población: Sin reemplazamiento que es cuando la unidad seleccionada no se devuelve a la población Con reemplazamiento que es cuando la unidad seleccionada se devuelve a la población manteniendo constante la estructura de ésta Con el primer método no hay unidades repetidas en la muestra mientras que con el segundo puede haberlas. Supongamos que P1, P2,..., PN (P1+P2+... +PN=1) son las probabilidades de selección que tienen las unidades de la población al iniciar la selección de las n unidades que formarán la muestra. No confundir las probabilidades de selección P1,..., PN con las probabilidades de inclusión π1 , , π N , son diferentes. En el último ejemplo π1 = π 2 = π 3 = 2 3 y P1=P2=P3=1/3 ya que las tres unidades de la población tienen la misma probabilidad de ser elegidas. 2.2.1. Sin reemplazamiento (SR) Al no devolver la unidad seleccionada, la estructura de la población no es constante y las probabilidades de selección varían a medida que vamos construyendo la muestra de tamaño n. De esta forma, las extracciones sucesivas hasta completar la muestra no son independientes. En el último ejemplo, inicialmente la población consta de tres unidades (u1, u2, u3) y cada una tiene una probabilidad de selección igual a 1/3. Después de seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y no devolverla a la población, la población inicial ha variado y ahora está formada sólo por dos unidades con una probabilidad de selección igual a 1/2 cada una de ellas. Además el resultado de la primera extracción influye en el resultado de la segunda, es decir, los dos pasos realizados para completar la muestra no son independientes. Módulo I: Aspectos generales del Diseño Muestral 26 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 En los métodos de selección de la muestra “sin reemplazamiento”, lo importante es conocer las probabilidades de inclusión de primer y segundo orden, πi para cada i=1,..., N y πij con i ≠ j , pues son imprescindibles para construir los estimadores usuales (por ejemplo, el estimador de Horvitz-Thompson). 2.2.2. Con reemplazamiento Al devolver la unidad seleccionada, a medida que vamos construyendo la muestra de tamaño n, la estructura de la población es constante al igual que las probabilidades de selección y las extracciones sucesivas hasta completar la muestra son independientes. Pensemos en el ejemplo anterior seleccionando una muestra de la misma manera pero con reemplazamiento. Entonces inicialmente la población consta de tres unidades y cada una tiene una probabilidad de selección igual a 1/3. Después de seleccionar la primera unidad que formará parte de la muestra de tamaño n=2 y devolverla a la población, quedan otra vez las tres unidades con una probabilidad de selección igual a 1/3 cada una de ellas. Al ir a seleccionar la segunda unidad que pertenecerá a la muestra, la población inicial no ha variado. Además el resultado de la primera extracción no influye en el resultado de la segunda ya que siempre partimos de la misma población compuesta por las tres unidades, es decir, los dos pasos realizados para completar la muestra son independientes. En los métodos de selección de la muestra “con reemplazamiento”, lo importante es conocer las probabilidades de selección iniciales P1,..., PN con P1+P2+... +PN=1, pues son imprescindibles para construir los estimadores usuales (por ejemplo, el estimador de Hansen-Hurwitz). Módulo I: Aspectos generales del Diseño Muestral 27 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.3. Estimadores lineales insesgados En cualquier proceso de muestreo el objetivo es estimar el valor de un parámetro o dato poblacional asociado a una característica definida en la población, a partir de los datos muestrales. Podemos distinguir dos tipos de características a investigar en la población: Cuantitativa (si se puede medir y a cada unidad de la población le asignamos un número) Cualitativa (en caso contrario y a cada unidad le asignamos una cualidad) Cuantitativa son la edad de la persona, el número de hijos o el gasto realizado en una familia y cualitativas son el sexo, el estado civil o la situación laboral de la persona. Entonces, según sea la característica estudiada, los parámetros poblacionales a estimar más frecuentes son los siguientes: El total poblacional (X) de una característica cuantitativa, que es la suma de los valores en la población, es decir, X=x1+... +xN Por ejemplo, el total del gasto en educación generado por las familias. La media poblacional ( X ) de una característica cuantitativa que es un promedio de los valores en la población, es decir, X= (x1 + + x N ) N Por ejemplo, el gasto medio en educación de las familias. La razón o cociente entre los totales o medias poblacionales de dos características cuantitativas, es decir, R=X Y =X Y Por ejemplo, la proporción que representa el gasto en educación en relación al gasto total de las familias. Módulo I: Aspectos generales del Diseño Muestral 28 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 El total de clase (A) asociado a una característica cualitativa es el total de unidades en la población que pertenecen a una determinada clase definida por una o varias cualidades. Por ejemplo, el total de individuos en paro. La proporción poblacional (P) asociada a una característica cualitativa es el cociente entre un total de clase y el total de unidades en la población. Por ejemplo, la proporción de individuos en paro. La tasa (T) es el cociente entre dos totales de clase o entre dos proporciones, es deciR, T = A ′ = P ′ . A P Por ejemplo la tasa de paro definida como el cociente entre el total de parados y el total de activos (parados y ocupados). Por su sencillez y fácil manejo, en la práctica, para la estimación de totales, medias o proporciones aplicamos estimadores lineales insesgados que se pueden expresar en base a los valores muestrales como ∑w x i i con s la muestra i∈s seleccionada, xi es el valor de la característica estudiada en la unidad ui y wi es el coeficiente que lo multiplica. Obsérvese que, en el caso de estudiar una característica cuantitativa, si X̂ = ∑w x i i es el estimador lineal insesgado para el total poblacional i∈s (X), entonces ˆ X = X̂ N es el estimador lineal insesgado para la media poblacional (X ) si el valor de N es conocido. Finalmente, el estimador de la razón R se construye de forma natural como el cociente entre las estimaciones insesgadas del numerador y del denominador, R̂ = X̂ Ŷ = ˆ X ˆ Y pero este estimador no es una combinación lineal de las observaciones muestrales y tampoco es insesgado. Módulo I: Aspectos generales del Diseño Muestral 29 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Cuando se trata de estudiar una característica cualitativa definimos en la población una característica que toma el valor 1 si la unidad posee la condición que define a la clase (A) o proporción (P) a estimar, y toma el valor 0 en caso contrario. El total poblacional de esta nueva característica cuantitativa es X=x1+ ... +xN , una suma de unos y ceros, que coincide con el total de clase (A=X). Además la media poblacional de esta nueva característica es X = (x1 + + x N ) N y coincide con la proporción (P= X ). Igualmente podemos deducir que una tasa es una razón de totales para variables cuantitativas que sólo toman los valores 1 ó 0 según la unidad de la población posea o no la cualidad que define al total de clase del numerador o del denominador. El estudio de una característica cualitativa es un caso particular del estudio de una característica cuantitativa. Por otra parte, la estimación ( ) insesgada de una media poblacional X se puede derivar dividiendo la estimación insesgada del total poblacional (X) por el valor de N que se supone conocido. Entonces los estimadores lineales insesgados de la media, el total de clase o de una proporción y su error se pueden deducir a partir del estimador lineal insesgado del total y su error. A partir de ahora y para los diferentes tipos de muestreo que vamos a estudiar, analizaremos el estimador lineal insesgado X̂ para el total poblacional (X) de una característica cuantitativa. También estudiaremos el estimador de la razón y aquellas situaciones en las que su sesgo es despreciable que es cuando debemos utilizar este estimador. En el libro de Cochran, o en el de Lohr o en el de Särndal, Swensson, Wretman indicados en la bibliografía se pueden encontrar los desarrollos matemáticos para cada uno de los estimadores y tipos de muestreo resumidos en los siguientes apartados. Módulo I: Aspectos generales del Diseño Muestral 30 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.4. Tipos de muestreo y estimadores Hasta ahora hemos visto que, dependiendo del método de selección de las unidades, el tipo de muestreo puede ser sin reemplazamiento (SR) o con reemplazamiento (CR). Otra clasificación que podemos considerar dependiendo de las unidades de muestreo es el muestreo de unidades elementales o de conglomerados y, en este último caso, se suele distinguir entre un muestreo de conglomerados sin submuestreo (monoetápico) y con submuestreo (multietápico). Finalmente, según la información disponible en el marco del que vamos a seleccionar la muestra, distinguimos los siguientes tipos de muestreo: sin información auxiliar y con información auxiliar. En este último caso la información auxiliar disponible en el marco puede ser utilizada para mejorar la selección de la muestra o para mejorar el estimador. Combinando los tres criterios obtenemos una gran variedad de tipos de muestreo. Nosotros estudiaremos los casos SR, comenzando por el más sencillo que es la selección de unidades elementales sin información auxiliar en el marco y terminando con la selección de conglomerados en dos o más etapas. También veremos cómo mejorar el estimador usual cuando disponemos de la necesaria información auxiliar y, más concretamente, la estimación de una razón. En algunos casos desarrollaremos las expresiones bajo muestreo CR ya que son más sencillas y para poblaciones grandes, como suelen ser las manejadas por las oficinas de estadística, podemos aplicarlas aunque la selección haya sido realizada SR pues ambos esquemas de muestreo resultan equivalentes. 2.4.1. Muestreo de unidades elementales con probabilidades iguales Partimos de un marco que es una lista de N unidades elementales, sin información auxiliar disponible. A las unidades u1,..., uN les asociamos respectivamente los valores desconocidos x1,..., xN de la característica cuantitativa que vamos a investigar y el objetivo es estimar el total poblacional X=x1 + ... + xN. Módulo I: Aspectos generales del Diseño Muestral 31 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Seleccionamos n unidades con probabilidades iguales y SR. A este tipo de muestreo se le denomina muestreo aleatorio simple “sin reemplazamiento”, m.a.s.(n) SR, y el estimador lineal insesgado para el total poblacional viene dado por la expresión: X̂ = N n ∑x i i∈s Al cociente N/n se le llama factor de elevación e indica el total de unidades en la población que están representadas por una unidad de la muestra. () La varianza de este estimador es V X̂ = N 2 (1 − f ) S2 n donde f=n/N representa la fracción de muestreo y S2 es una medida de la variabilidad de la propia característica estudiada, que se denomina cuasivarianza poblacional, con S2 = 1 N −1 ∑ (x N i )2 −X . i =1 Si estudiamos el gasto de las familias y todas las familias gastan lo mismo, entonces la cuasivarianza poblacional vale cero (S2=0) ya que el valor de xi sería igual para todas las unidades de la población. Es decir, en este caso la característica estudiada (gasto de las familias) es muy homogénea. A mayor homogeneidad de la característica estudiada en la población, menor varianza del estimador y por tanto menor error en la estimación. El caso extremo es el ejemplo anterior con S2=0 y error de muestreo nulo. A mayor tamaño de la muestra, menor varianza y por tanto menor error en la estimación. El caso extremo es cuando realizamos un censo (n=N) y por tanto f=1 con error de muestreo nulo. En la práctica, después de seleccionar la muestra, únicamente conocemos los valores de la característica estudiada en las unidades muestrales y no en toda la población. Consecuentemente es imposible conocer el valor exacto de S2 para calcular la varianza del estimador y ésta es estimada en base a la información proporcionada por la propia muestra. Módulo I: Aspectos generales del Diseño Muestral 32 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 () V̂ X̂ = N 2 (1 − f ) El estimador de la varianza es: cuasivarianza Ŝ2 = x= 1 n −1 1 n ∑ (x ∑x i muestral, un estimador Ŝ2 n insesgado es donde Ŝ 2 S2 definido de la como − x )2 con x la media de los valores muestrales observados. Es decir, i∈s i es la media muestral. i∈s En una población de 100 familias seleccionamos una m.a.s. (10) SR y obtenemos los gastos siguientes: 400, 400, 260, 450, 580, 600, 500, 420, 700 y 200. Entonces la estimación del gasto total es X̂ = 100 (400 + 400 + + 200) , es decir, 10 de 45.100 euros. El factor de elevación es 100/10, es decir, cada unidad de la muestra representa a 10 unidades de la población y el gasto realizado por la unidad () muestral se multiplica por 10. La varianza estimada es V̂ X̂ = (4.570,45) relativo de muestreo es del 10% ya que 2 y el error 4.570,45 = 0,101 . 45.100 Si la selección de las unidades se hubiera realizado con m.a.s.(n) CR, entonces las expresiones para el estimador del total poblacional y de su varianza son: X̂ = N n ∑ xi y () V̂ X̂ = N 2 i∈s Ŝ2 n La selección de unidades elementales con probabilidades iguales tiene las siguientes ventajas: Marco sencillo, sin necesidad de información auxiliar Cálculo sencillo del tamaño de la muestra necesario para una precisión dada Fácil programación de la selección de la muestra, los factores de elevación y los errores de muestreo Dispersión de la muestra y garantía de representatividad de la misma para tamaños muestrales adecuados. Módulo I: Aspectos generales del Diseño Muestral 33 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Sin embargo, también tiene inconvenientes: Coste elevado de los trabajos de campo por la dispersión muestral, sobre todo si se hacen mediante entrevista personal La no disponibilidad de información auxiliar impide mejorar la representatividad de la muestra o la precisión del estimador 2.4.2. Muestreo estratificado de unidades elementales con probabilidades iguales Partimos de un marco de N unidades elementales que contiene información auxiliar suficiente para dividirlo en L subpoblaciones o estratos de N1, N2,..., NL unidades cada uno con N=N1+N2+... +NL. A cada unidad del marco la llamamos uhi con h=1, ..., L (representa el estrato al que pertenece) e i=1,..., Nh (representa el lugar que ocupa dentro del estrato) y el valor desconocido de la característica estudiada es xhi. El objetivo es estimar el total poblacional X=x1+...+xN que ahora podemos expresar teniendo en cuenta los ( ) estratos como X = ( x11 + + x1N1 ) + + x L1 + x LN L = X1 + + X L , es decir, como la suma de los totales poblacionales en cada estrato X1,..., XL. Entonces seleccionamos una m.a.s.(nh) SR en cada estrato de manera que las muestras sean independientes. Es decir, obtenemos L muestras independientes de tamaños n1, n2,..., nL de manera que el número total de observaciones, n, verifica que n=n1+n2+... +nL. . En cada estrato, haciendo uso de los resultados del apartado anterior, construimos los estimadores X̂1 = ∑ N1 x1i ,..., n1 i∈s X̂ L = 1 NL nL ∑x Li insesgados para los totales i∈s L poblacionales X1, ..., XL respectivamente. Entonces, el estimador insesgado del total poblacional viene dado por la expresión L X̂ st = ∑ X̂ h =1 h con X̂ h = Nh nh ∑x hi i∈s h La varianza de este estimador, por ser las muestras independientes, es la suma de las varianzas de los estimadores construidos en cada estrato. Módulo I: Aspectos generales del Diseño Muestral 34 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 ( ) ∑ V(X̂ ) Es decir, V X̂ st = L h pero cada sumando o varianza, en la práctica, no lo H =1 podemos calcular con la información de la muestra aunque podemos estimarlo y ( ) construir V̂ X̂ h = N 2h (1 − f h ) Ŝ2h estimador insesgado de la varianza en el estrato h. nh Entonces el estimador de la varianza del estimador X̂ st es: ( ) ∑ V̂(X̂ ) L V̂ X̂ st = h ( ) con V̂ X̂ h = N 2h (1 − f h ) h =1 Ŝ2h nh La ganancia en precisión con la estratificación será tanto mayor si los estratos agrupan unidades con un comportamiento similar en relación a la característica estudiada. De esta manera la varianza aportada por cada estrato será pequeña y también la varianza del estimador basado en toda la muestra. Este tipo de muestreo permite obtener estimaciones insesgadas separadas en los estratos. Cada estrato puede tener una fracción de muestreo fh=nh/Nh diferente y, por tanto, un factor de elevación, Nh/nh, también diferente. Un marco de personas que contenga la característica sexo permite formar dos estratos, hombres y mujeres, y seleccionar una muestra de cada uno. Si se desea estimar el total del gasto en bebidas alcohólicas, podemos estimar por separado el gasto realizado por los hombres y por las mujeres, y obtener una estimación del gasto total conjunto como suma de ambas estimaciones. Un aspecto fundamental es la afijación de la muestra, es decir, cómo distribuir la muestra entre los diferentes estratos. Esto es, determinar los valores de n1,..., nL verificando que n=n1+...+nL. Existen varios criterios, entre ellos: Uniforme: supuesto n conocido consiste en asignar el mismo tamaño muestral para todos los estratos, es decir, nh=n/L. Tiene la ventaja de que es fácil de aplicar pero pudiera ocurrir que un estrato pequeño resultase muestreado al 100% mientras que un estrato grande tuviera una fracción de muestreo demasiado pequeña. Módulo I: Aspectos generales del Diseño Muestral 35 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Proporcional: supuesto n conocido consiste en distribuir las n unidades proporcionalmente a los tamaños de los estratos, es decir, nh=nWh donde Wh=Nh/N es el peso del estrato h. Tiene la ventaja de que cada estrato aparece representado en la muestra total, con el mismo peso que dicho estrato figura en la población total. Sin embargo tiene la desventaja de que estratos con muy poco peso en la población pero cuya estimación separada es necesaria, pueden no tener muestra afijada. Con la afijación proporcional se simplifican los cálculos porque todos los estratos tienen la misma fracción de muestreo (fh=n/N) y el mismo factor de elevación (N/n). De esta manera el estimador del total poblacional es dicho factor común por la suma de los valores observados en la muestra completa N L X̂ st = ∑∑ x hi . Se dice entonces que la muestra es autoponderada. n h=1 i∈sh De mínima varianza o de Neyman: supuesto n conocido consiste en determinar los valores de nh de forma que la varianza del estimador sea mínima. El resultado es que el tamaño muestral en cada estrato es proporcional al peso del estrato y a la variabilidad de la característica en el estrato, es decir: nh = n Wh Sh L ∑W S h h h =1 donde S 2h = 1 Nh Nh (x −1 ∑ hi − Xh )2 es la cuasivarianza poblacional de la i =1 característica estudiada en el estrato h. Entonces a mayor peso y variabilidad, mayor tamaño muestral para representar a ese estrato. Óptima considerando costes, podemos minimizar el coste de los trabajos de campo para una precisión dada del estimador global o viceversa, es decir o minimizar la varianza para un coste dado. Los valores de nh resultantes son: nh = n Wh S h ch L ∑W S h h donde ch es el coste por cuestionario en el ch h =1 estrato h. Módulo I: Aspectos generales del Diseño Muestral 36 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 En la práctica desconocemos los valores de las cuasivarianzas poblacionales S12 , , S2L , ¿sabías que entonces se suelen utilizar los valores conocidos asociados a una característica correlada con la que es investigada o las estimaciones insesgadas obtenidas en un periodo anterior? La selección de muestras independientes en estratos tiene varias ventajas como son: Mejora la representatividad de la muestra, en lo que se refiere a las variables utilizadas en la estratificación Si la estratificación construye agrupaciones homogéneas de las unidades elementales, mejora la precisión del estimador global Permite un reparto óptimo de la muestra por estratos en cuanto a la precisión del estimador global y a los costes de los trabajos de campo El único inconveniente es la necesidad de información auxiliar disponible en el marco para poder aplicarlo pero con la mejora actual de las bases de datos gracias a los ordenadores y las nuevas tecnologías, en la práctica, se utiliza con mucha frecuencia. 2.4.3. El estimador de razón bajo muestreo de unidades elementales con probabilidades iguales Partimos de un marco de N unidades elementales del que seleccionamos una m.a.s.(n) en la que investigamos dos características cuantitativas obteniendo los valores (x1,y1), ..., (xn,yn). Entonces el estimador de la razón (R=X/Y) bajo m.a.s.(n) vienen dado por la expresión: R̂ = X̂ Ŷ con X̂ = N n ∑x i∈s i , Ŷ = N n ∑y i i∈s El estimador de la razón es sesgado aunque hay 2 situaciones en las que su sesgo es despreciable: cuando el tamaño de la muestra es grande y cuando la relación entre ambas características cuantitativas es una recta que pasa por el origen (yi=Cxi para cada i=1,..., N). Módulo I: Aspectos generales del Diseño Muestral 37 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Para el cálculo de la varianza se utiliza el método general de linearización de Taylor, válido cuando el sesgo es despreciable, que proporciona una expresión aproximada en función de la propia razón R. Entonces, como en ocasiones anteriores, la varianza del estimador es estimada en base a la propia muestra. A veces sólo deseamos estimar el total poblacional (X) de una característica cuantitativa pero disponemos del total poblacional (Y) de otra característica cuantitativa correlada positivamente con la anterior. Entonces, podemos mejorar el estimador X̂ y en su lugar aplicamos el llamado estimador del total por el método de la razón que viene dado por la expresión X̂ R = R̂Y . Este estimador será insesgado cuando lo sea el estimador R̂ . La ganancia en precisión con el estimador del total por el método de la razón frente al estimador usual del total es tanto mayor si la correlación entre ambas variables cuantitativas es alta y positiva. Si la correlación es negativa, no debe aplicarse este método. Si en el marco tenemos las unidades agrupadas en L estratos y obtenemos una muestra estratificada, hay dos formas de obtener el estimador del total por el método de la razón bajo muestreo aleatorio estratificado: Separado: obtenemos la estimación separada del total en cada estrato por el ( ) método de la razón X̂ Rh = R̂ h Yh y sumamos. Es decir X̂ RS = L ∑ X̂ Rh . h =1 Combinado: obtenemos la estimación de R como cociente de los estimadores insesgados del numerador y del denominador bajo muestreo estratificado R̂ st = X̂ st y la multiplicamos por el total Y. Es decir X̂ RC = R̂ st Y . Ŷ st El estimador separado requiere una información auxiliar más desagregada y tiene el riesgo de acumular el sesgo a lo largo de los estratos si éste existiese y fuera siempre del mismo signo, positivo o negativo. Sin embargo, el estimador separado permite dar estimaciones separadas para cada estrato y tiene menor variabilidad generalmente al suponer que la verdadera razón no permanece constante de un estrato a otro. Módulo I: Aspectos generales del Diseño Muestral 38 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Si está disponible la información auxiliar necesaria y no hay riesgo de sesgos acumulados, es preferible el estimador separado. En muchas de las encuestas a hogares realizadas por el INE se utiliza el estimador de razón separado, tomando como variable auxiliar la población de 16 y más años. 2.4.4. Muestreo de conglomerados de igual tamaño sin submuestreo Partimos de un marco formado por K conglomerados, C1,..., Ck, que contiene información auxiliar relativa al tamaño del conglomerado medido por el total Mi de unidades elementales que contiene. Supongamos que todos los conglomerados tienen el mismo tamaño, es decir, Mi= M y N=K M . A cada unidad elemental la llamamos uij con i=1, ..., K (representa el conglomerado al que pertenece) y j=1, ..., M (representa el lugar que ocupa dentro del conglomerado), y el valor desconocido de la característica estudiada es xij . Deseamos estimar el total poblacional que, expresado teniendo en cuenta los conglomerados, es X = (x11 + + x1M ) + + (x K1 + + x KM ) = X1 + + X K . Es decir, es la suma de los totales poblacionales en cada conglomerado X1,..., XK. Seleccionamos una m.a.s.(n) SR de conglomerados e investigamos en cada uno las M unidades elementales que contiene, por lo tanto, conocemos el total poblacional Xi en cada conglomerado seleccionado. Entonces, el estimador insesgado del total poblacional viene dado por X̂ = K n ∑X i . Existe una fórmula directa para el i∈s cálculo de su varianza que, como siempre, debemos estimar en base a la muestra seleccionada. Si comparamos este tipo de muestreo con un m.a.s.(n M ) SR de unidades elementales con el que obtendríamos una muestra más dispersa, obtenemos que () ( )[ ( )] VC X̂ = VMAS X̂ 1 + δ M − 1 ( ) donde el factor 1 + δ M − 1 representa el efecto del diseño y muestra la magnitud del cambio de la varianza al usar el conglomerado en lugar de la unidad elemental como unidad de muestreo. Módulo I: Aspectos generales del Diseño Muestral 39 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 La ganancia en precisión con la selección de conglomerados se produce si el efecto del diseño es menor que uno. Esto ocurre cuando los conglomerados agrupan unidades con un comportamiento muy diferente en relación a la característica investigada. El caso ideal sería si cada conglomerado fuera una copia reducida de la población de manera que las medias poblacionales en los conglomerados fueran idénticas. ¿Sabrías decirme la diferencia entre estratos y conglomerados? Hay dos razones principales para la aplicación del muestreo de conglomerados: menor coste de los trabajos de campos debido a la menor dispersión de la muestra, sobre todo en el caso de la entrevista personal la imposibilidad de aplicar otro tipo de muestreo al no existir un marco de unidades elementales. 2.4.5. Muestreo de conglomerados de diferentes tamaño sin submuestreo Partimos de la situación anterior pero ahora los conglomerados no tienen todos el mismo tamaño y N=M1+ ... +MK. Seleccionamos n conglomerados con probabilidades desiguales SR e investigamos en cada uno las Mi unidades elementales que contiene. El estimador insesgado del total poblacional viene dado por la expresión del estimador de HorvitzThompson X̂ = ∑π Xi i∈s donde π i es la probabilidad de inclusión del conglomerado i i en la muestra de conglomerados. Si el tamaño Mi del conglomerado está relacionado con el valor del total pobalcional Xi, la selección de la muestra con probabilidades proporcionales a dicho tamaño (ppt) permite mejorar los estimadores. En este caso es πi = n Mi y los N conglomerados más grandes tienen mayor probabilidad de ser seleccionados y los pequeños tienen menos. Módulo I: Aspectos generales del Diseño Muestral 40 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Supongamos deseamos estimar el gasto total en alimentación y partimos de un marco de municipios (conglomerado) de los que sabemos el total de viviendas (unidades elementales) en cada uno de ellos. Supongamos que se cumple, en cada municipio, que el gasto total es 100 veces el total de viviendas. Es decir, Xi=100Mi, entonces con una selección ppt de municipios el estimador del total sería Xˆ = ∑ i∈s Xi nM i = N N 100 M i = 100 N = X y el error sería nulo. ∑ n i∈s M i Si la selección de los n conglomerados se realiza CR y probabilidades desiguales, el estimador insesgado del total poblacional viene dado por la expresión del estimador de Hansen-Hurwitz X̂ = ∑ nP Xi i∈s donde Pi es la probabilidad de selección i del conglomerado i. Si la selección se realiza con ppt es Pi=Mi/N. Una ventaja del muestreo de conglomerados sin submuestreo es la mejora de la precisión del estimador global si aplicamos probabilidades proporcionales al tamaño del conglomerado (ppt). Sin embargo, conlleva una desventaja importante ya que puede disminuir la precisión del estimador si las unidades elementales dentro de cada conglomerado son homogéneas respecto a la característica estudiada. En las encuestas de hogares realizadas por el INE se realiza un muestreo de secciones censales (conglomerados), que son áreas geográficas que incluye un máximo de 2.000 electores y un mínimo de 500, lo que permite reducir los costes de los trabajos de campo. Sin embargo, en general, las personas que viven en una misma sección censal suelen ser de la misma clase social por lo que su comportamiento es muy similar en relación a las variables sociodemográficas estudiadas (educación, actividad laboral,...). Módulo I: Aspectos generales del Diseño Muestral 41 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.4.7. Muestreo de conglomerados de diferentes tamaño con submuestreo En el caso anterior, si las unidades elementales de un conglomerado seleccionado dan valores similares de la característica investigada, no parece rentable observarlas todas. Entonces, una práctica común consiste en observar una muestra de unidades elementales en cada conglomerado seleccionado. Es decir, submuestreamos los conglomerados seleccionados o, dicho de otra manera, realizamos un muestreo en dos etapas: En la primera etapa seleccionamos n conglomerados con cualquier tipo de muestreo aunque generalmente trabajamos con probabilidades proporcionales al tamaño (ppt). Entonces a las unidades de muestreo de esta etapa se las denomina unidades primarias o de primera etapa. En la segunda etapa seleccionamos de forma independiente una m.a.s. (mi) SR de unidades elementales en cada unidad primaria seleccionada. Entonces a las unidades de muestreo de esta etapa se las denomina unidades secundarias o de segunda etapa. Es decir, si en la primera etapa la selección se hubiera realizado CR y una unidad primaria saliese repetida dos veces, en la segunda etapa obtendríamos dos muestras independientes de unidades elementales en esa unidad primaria. Debido al submuestreo, el total poblacional Xi en cada conglomerado seleccionado no es conocido y tenemos que estimarlo en base a la m.a.s. (mi) seleccionada. Con las estimaciones X̂ i obtenidas podemos construir el estimador del total poblacional de igual manera que en el caso anterior, dependiendo de que la selección de los conglomerados haya sido realizada SR o CR. El resultado es un estimador insesgado para el total poblacional dado por la expresión: X̂ = ∑π X̂ i i∈s donde X̂ i = Mi mi mi ∑x ij (SR ) siendo πi = n i Mi y N X̂ = ∑ nP X̂ i i∈s (CR ) con Pi=Mi/N i es un estimador insesgado del total poblacional Xi en el J =1 conglomerado seleccionado en la primera etapa. Módulo I: Aspectos generales del Diseño Muestral 42 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Como siempre es posible obtener la expresión de la varianza de este estimador que, aparte de resultar compleja, depende de los totales poblacionales en los conglomerados X1,..., XK, cuyos valores desconocemos, por lo que debemos estimar la varianza en base a la muestra. El muestreo en dos etapas o bietápico se puede extender al muestreo en varias etapas o polietápico. También se puede combinar con un muestreo estratificado con estratificación de las unidades primarias y con un estimador del total por el método de la razón si se dispone de la información auxiliar necesaria. Todo ello contribuye a la mejora de los resultados pero, por otra parte, complica los cálculos para la aplicación de las fórmulas directas que estiman los errores. 2.4.5. Muestreo sistemático El muestreo sistemático se refiere a un conjunto de procedimientos para seleccionar muestras de forma rápida y sencilla. La unidad de muestreo puede ser tanto la unidad elemental como el conglomerado. Muestreo sistemático de unidades elementales con probabilidades iguales (SR): Es la versión más sencilla del muestreo sistemático y sustituye frecuentemente al muestreo aleatorio simple de unidades elementales. Para obtener una muestra sistemática de tamaño n y probabilidades iguales de un marco de N unidades elementales, determinamos un periodo k=N/n y seleccionamos un número aleatorio R del conjunto 1,2,..., k. Este número R determina que la muestra esté formada por las unidades del marco numeradas como R, R+k, R+2k,..., R+(n-1)K. Para elegir una muestra de 100 viviendas de una lista de 2.000, el periodo es k=20 y R ∈ {1,2, ,20} . Supongamos que R=7, entonces las viviendas numeradas como 7, 27, 37,..., 1.987 estarían en la muestra. Si las unidades del marco tiene un orden aleatorio, el muestreo sistemático es similar a un m.a.s. (n) SR y se aplican los mismos estimadores aunque no sea exactamente lo mismo (en el ejemplo anterior, es imposible que las viviendas 125 y Módulo I: Aspectos generales del Diseño Muestral 43 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 126 aparezcan en la misma muestra sistemática pero si es posible que formen parte de la misma muestra aleatoria simple). Por otra parte, si el marco tiene un orden creciente o decreciente según una variable correlada con la estudiada, es probable que el muestreo sistemático sea más preciso que el m.a.s. (n) SR y al utilizar la fórmula de la muestra aleatoria simple para la estimación de la varianza, es posible que estemos dando una sobreestimación del error. Una lista de viviendas ordenadas según el número de personas que la habitan y queremos estimar el gasto total en alimentación. La muestra sistemática contiene viviendas de todos los tamaños y, por tanto, gastos pequeños y grandes (efecto similar a la estratificación del marco según el tamaño de la vivienda). La muestra aleatoria simple puede contener sólo viviendas pequeñas o sólo grandes, de modo que haya más variabilidad entre sus estimaciones que entre las estimaciones basadas en las muestras sistemáticas. Si la lista de unidades del marco tiene algún orden periódico o cíclico, el muestreo sistemático no proporciona necesariamente una muestra representativa. Por ejemplo, si los hombres y las mujeres se alternan en la lista y k es par, la muestra sistemática sólo tendrá hombres o mujeres, lo que no es una parte representativa de la población estudiada. Muestreo sistemático de conglomerados con probabilidades proporcionales al tamaño (ppt): Es la generalización de la versión anterior. En un marco de K conglomerados, para obtener una muestra sistemática de tamaño n y probabilidades proporcionales al tamaño Mi del conglomerado, consideramos una lista numerada de 1 a N con N=M1 +.... + Mk , en la que los M1 primeros números representan al conglomerado 1º, los M2 siguientes números representan al conglomerado 2º y así sucesivamente. Entonces determinamos un periodo k=N/n y seleccionamos un número aleatorio R del conjunto 1,2,..., k. Se seleccionan los conglomerados que contienen a los números R, R+k, R+2k,..., R+(n-1)K. Cuando los conglomerados tienen tamaños muy diferentes siendo unos muy grandes y otros muy pequeños, al sumar el periodo k al número correspondiente, seguramente el número resultante sigue representando al mismo conglomerado si éste es grande, por lo que estará repetido en la muestra. Módulo I: Aspectos generales del Diseño Muestral 44 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Si se verifica la condición Mi<N/n para cualquier conglomerado, entonces no habrá conglomerados repetidos en la muestra (SR). En el libro de Särndal, Swensson, Wretman indicado en la bibliografía se puede encontrar una discusión detallada del muestreo sistemático. 2.5. Errores de muestreo y métodos de estimación Hemos visto que el error de muestreo en el caso de estimadores insesgados o aproximadamente insesgados es medido por la varianza del estimador que es función tanto de la forma del estimador como de la selección de la muestra. Para calcular la varianza necesitamos información de la población que no está disponible, por lo que debemos estimarla en base a la información proporcionada por la muestra seleccionada. Un estimador de la varianza debería ser: insesgado o casi insesgado, estable (su propia varianza debe ser pequeña), no negativo y consistente. Además de estos criterios una característica deseable de los métodos de estimación de las varianzas es su aplicabilidad, a veces incluso por encima de su exactitud o insesgadez. Sin embargo, la aplicación de fórmulas directas para estimar la varianza puede resultar bastante complicada en diseños complejos como por ejemplo los muestreos multietápicos con estratificación de las unidades de primera etapa. Y más aún si se hace uso de estimadores no lineales y de técnicas de calibración actualmente tan utilizadas. Una alternativa son los métodos indirectos que permiten la estimación de la varianza mediante fórmulas más sencillas y suelen ser aproximadamente insesgados para muestras grandes. Hay dos métodos indirectos principalmente: la linearización y la replicación. En muchas ocasiones los valores a estimar en las encuestas son estadísticos no lineales (razones, índices de desigualdad como los índices de Gini,...) y lo que tratamos es de simplificar la expresión del estimador antes de estimar su varianza. Esta es la idea básica del método de la linearización por series de Taylor que consiste en reemplazar el estimador por su aproximación lineal dada por el primer término de la serie de Taylor. Posteriormente la varianza del estimador linearizado se puede calcular con los métodos estándar. Módulo I: Aspectos generales del Diseño Muestral 45 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Otra idea consiste en simplificar el procedimiento de cálculo del error de muestreo mediante la replicación. En el siguiente esquema se presenta los métodos más habituales bajo esta perspectiva: - Basados en • método de replicaciones de Deming Replicaciones • “ grupos aleatorios del diseño • “ conglomerados últimos - Basados en • métodos bootstrap replicaciones de • “ jackknife la muestra • “ semimuestras reiteradas (submuestreos replicados) A continuación vamos a describir brevemente algunos de los métodos basados en replicaciones que se suelen utilizar cuando las unidades de primera etapa o conglomerados son seleccionadas CR. En el libro de Lohr o en el de Särndal, Swensson, Wretman indicados en la bibliografía se pueden encontrar los principios matemáticos en los que están basados así como la adaptación de sus expresiones a diseños complejos. 2.5.1. Método de los conglomerados últimos En el muestreo polietápico el término conglomerado último representa el conjunto de unidades de última etapa seleccionadas en una unidad primaria (por ejemplo el conjunto de viviendas seleccionadas en un municipio seleccionado en una primera etapa). Módulo I: Aspectos generales del Diseño Muestral 46 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Con cada conglomerado último obtenemos una estimación θ̂ i insesgada para el parámetro objeto de estudio, de manera que el estimador insesgado θ 1 construido con la muestra completa verifica que θˆ = n n ∑ θˆ i θ̂ . Así el estimador de la i =1 varianza por este método es: () V̂ θˆ = 1 n (n − 1) ∑ (θˆ n − θˆ i ) 2 con n el número de conglomerados últimos. i =1 Aplicado al muestreo bietápico con selección de n conglomerados CR en la primera etapa, donde cada conglomerado seleccionado en la primera etapa representa un conglomerado último, el estimador de la varianza viene dado por la expresión () 1 V̂ X̂ = n (n − 1) X̂ i − X̂ P i =1 i n ∑ 2 2.5.2. Método de las semimuestras reiteradas Partimos de θ̂ estimador insesgado del parámetro poblacional θ basado en la muestra completa de tamaño n. La idea es seleccionar de dicha muestra completa una submuestra de tamaño n/2 (supuesto n es par) que llamamos semimuestra y repetirlo K veces de forma independiente. De esta forma obtenemos K semimuestras y construimos K estimadores que verifiquen las condiciones siguientes: El estimador θ̂ r obtenido con la r-ésima semimuestra debe ser insesgado si la ( ) semimuestra fuera considerada como una muestra, E θˆ r = θ , y por otro lado si consideramos la muestra como población y la semimuestra como muestra el ( ) estimador también debe ser insesgado, E 2 θˆ r = θˆ donde la segunda esperanza es considerando la muestra como población. ( ) () Por otra parte, se supone que V θˆ r = 2V θˆ lo cual es en general será cierto debido a la construcción de las semimuestra. Entonces la expresión del estimador de la varianza viene dada por: () 1 V̂ θˆ = K ∑ (θˆ K r − θˆ ) 2 r =1 Módulo I: Aspectos generales del Diseño Muestral 47 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Este es el método usado en la Encuesta de Población Activa (EPA) del INEEspaña. Concretamente se usan 40 reiteraciones. Primero se agrupan todas las secciones de cada estrato por pares, procurando que las dos secciones de cada par pertenecieran al mismo turno de rotación de la encuesta. Seguidamente se asigna aleatoriamente la primera sección de cada par a 20 reiteraciones y la otra sección a las otras 20 reiteraciones. De esta forma cada reiteración queda constituida por un número de secciones equivalente al 50 por ciento de la muestra (semimuestra) y cada sección aparece en la mitad de las reiteraciones. 2.5.3. Método Jackknife Se trata de una técnica desarrollada fuera del ámbito de las encuestas por muestreo. La primera aplicación fué realizada por Quenouille (1949) para reducir el sesgo de un estimador en el contexto de poblaciones infinitas. Tukey (1958) sugirió que esta técnica podría ser útil para estimar varianzas. Durban (1959) utilizó esta técnica por vez primera en poblaciones finitas. La idea es la siguiente: tenemos la muestra con n elementos y para el parámetro θ tenemos el estimador θ̂ cuya varianza queremos estimar. Llamamos θ̂ ( j) al estimador basado en la muestra jackknife de tamaño n-1 que resulta de eliminar la unidad j en la muestra completa y que se calcula de la misma manera que θ̂ . Definimos para cada j=1 ..., n el pseudovalor ~ θ j = nθˆ − (n − 1)θˆ ( j) . Entonces el estimador Jackknife de la varianza es () V̂JK θˆ = 1 donde θˆ JK = n n ∑ 1 n (n − 1) ~ ∑ (θ ~ 1 θ n y θˆ (.) = n j=1 n ˆ j − θ JK ) 2 j=1 = n −1 n ∑ (θˆ ( ) − θˆ ( ) ) n 2 j . j=1 n ∑ θˆ ( ) . j j=1 Una expresión alternativa es restando el estimador θ̂ basado en la muestra original cuyo valor es claramente superior al de la anterior. En el caso de muestreo multietápico con estratificación de las unidades de primera etapa, se eliminan en cada ocasión todas las unidades pertenecientes a una unidad de muestreo en primera etapa (conglomerado). Módulo I: Aspectos generales del Diseño Muestral 48 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Uno de los problemas de este método es la necesidad de repetir para cada una de las muestras jackknife el proceso de estimación llevado a cabo sobre la muestra completa. En muchos casos, ésto implica un proceso complejo de recalcular los factores de elevación (correcciones de falta de respuestas, estimadores complejos, calibrados...) y requiere una gran potencia de cálculo, por ello estos métodos eran impensables hasta la llegada de ordenadores potentes y accesibles para los técnicos de análisis de encuestas. Para resolver la dificultad anterior una posibilidad es, en vez de recalcular los factores de elevación, multiplicar los factores originales por el factor nh en el n h −1 estrato donde se ha quitado el conglomerado. Una forma alternativa del método jackknife consiste en eliminar un grupo se unidades en lugar de eliminar una única unidad. Este método se ha usado recientemente en el INE-España en varias encuestas dirigidas a los hogares, como la Encuesta de Empleo del Tiempo 2003, la Encuesta Nacional de Salud 2006 y la Encuesta sobre la Participación de la Población Adulta en las Actividades de Aprendizaje 2007. 2.5.4. Método Bootstrap El método bootstrap para la estimación de la varianza de un estimador con observaciones independientes fue presentado Efron (1979, 1982,...). De momento no hay una respuesta definitiva acerca del comportamiento en el caso del muestreo sin reemplazamiento en poblaciones finitas. La idea es extraer una muestra bootstrap de la muestra original con reemplazamiento, probabilidades iguales e igual tamaño que ésta, y obtener el estimador θˆ ∗b de la misma forma que el estimador sobre la muestra original. Repetimos el proceso B veces de forma independiente y obtenemos B estimadores independientes cuya distribución imita a la distribución del estimador θ̂ . El estimador bootstrap de la varianza es: B V̂BOOT (θˆ ) = ∑ 1 1 (θˆ ∗b − θˆ ∗• ) 2 donde θˆ ∗• = B B − 1 b =1 Módulo I: Aspectos generales del Diseño Muestral B ∑ θˆ ∗ b b =1 49 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 En el INE-España se ha utilizado para el cálculo de los errores de muestreo de los indicadores de exclusión social (indicadores de “Laeken”) obtenidos de la Encuesta de Condiciones de Vida. Estos indicadores, medidas de pobreza y desigualdad en su mayor parte, son estimadores muy complejos y no lineales (funciones de quantiles) por lo que el método Jackknife no es adecuado. Debido a esto se ha utilizado el método bootstrap. Hay que destacar que a pesar del carácter casi experimental del procedimiento, los resultados obtenidos por nosotros (con 2000 replicaciones bootstrap) son muy similares a los resultados obtenidos por Eurostat, que utiliza primero una linearización de los estimadores y después aplica el software POULPE francés para estimar errores de muestreo en encuestas con diseño complejo. 2.5.5. Software para el cálculo de errores de muestreo Como hemos visto en los puntos anteriores, los procedimientos de cálculo de los errores de muestreo requieren, en general, repetir un mismo procedimiento un gran número de ocasiones. Por ello, se necesitan programas informáticos para su cálculo. Por suerte, aparte de la posibilidad de programaciones adhoc, hay gran variedad de software diseñado específicamente para el cálculo de errores de muestreo en encuestas complejas. Entre los más usados podemos citar: Bascula de Statistics Netherlands. CalJack desarrollado por P. Lavallée Generalized Estimation System (GES) de Statistics Canada. IVEware de la Universidad de Michigan. PCCARP de la Iowa State University. POULPE, del INSEE Francia. R survey package del R Project. SAS/STAT del Instituto SAS (Survey Procedures, especialmente el SURVEYMEANS) SPSS Complex Samples de SPSS Inc. Stata de Stata Corporation. SUDAAN de Research Triangle Institute. WesVar de Westat, Inc. Módulo I: Aspectos generales del Diseño Muestral 50 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2.6. Resumen El muestreo probabilístico es el utilizado en las oficinas de estadística. El muestreo probabilístico necesita de un marco para seleccionar la muestra. Buscamos estimadores insesgados o aproximadamente insesgados. El error de este tipo de estimadores viene dado sólo por la varianza que estimaremos en base a la muestra seleccionada. La selección de unidades elementales con probabilidades iguales tiene la ventaja de la sencillez del método pero la no utilización de información auxiliar impide la mejora de la selección de la muestra o de la precisión del estimador. Una mejora inmediata, si existe la información necesaria, es la estratificación de la muestra o el uso del estimador por el método de la razón. La selección de conglomerados con probabilidades proporcionales al tamaño reduce costes y puede mejorar la precisión del estimador pero es más complicado el proceso tanto de la selección de la muestra como del cálculo de los errores. Los métodos indirectos para la estimación de los errores proporcionan fórmulas sencillas y, para muestras grandes, resultados similares Una manera fácil de seleccionar muestras es aplicando, cuando las condiciones son las adecuadas, el muestreo sistemático. Módulo I: Aspectos generales del Diseño Muestral 51 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 UNIDAD 3. MARCOS DE MUESTREO UTILIZADOS EN LAS ENCUESTAS 3.1. Definición de marco En cualquier investigación estadística, tanto si es una investigación de tipo exhaustivo, como si se trata de una encuesta por muestreo es necesario disponer de una información previa en forma de listas, mapas, etc que nos permita llegar a todos los elementos de la población. Desde un punto de vista estricto se define el MARCO como la relación de unidades de donde se selecciona la muestra. En un sentido amplio, el marco se considera a la lista de unidades, junto con toda la información complementaria que se puede utilizar en el diseño de la encuesta. El marco nos va a proporcionar información auxiliar imprescindible para utilizarla en: •Formación de los estratos: La información disponible sobre las unidades de muestreo, nos va a permitir la división de la población en estratos y la utilización del muestreo estratificado en la selección de la muestra. •Formación de los estimadores: El marco permite asignar a priori a cada unidad de muestreo una probabilidad de formar parte de la muestra. La inversa de esta probabilidad de selección representa el factor de elevación de diseño. •Realización de trabajos de campo: La información sobre la dirección postal de la unidad seleccionada, facilita el acceso a la población objetivo. •Otros usos: Tratamiento de la falta de respuesta, selección controlada, calibrado, simulaciones,… La disponibilidad del marco es fundamental para la aplicación de los muestreos probabilísticos. RESUMEN El marco en una encuesta por muestreo juega un papel fundamental, hasta el punto de que de él puede depender el éxito o fracaso de la misma. Módulo I: Aspectos generales del Diseño Muestral 52 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 3.2. Características del marco En una encuesta ideal, la población muestreada ha de ser idéntica a la población investigada. El marco como relación de unidades de donde se va a seleccionar la muestra debe de reunir las siguientes características: •Buena cobertura: lo que es equivalente a decir que la Población Objetivo=Población Investigada. Para ello se requiere que: • Cada elemento debe estar presente una sola vez. El marco debe ser depurado previamente para evitar que haya unidades duplicadas en él. La existencia de unidades repetidas en el marco proporciona estimadores sesgados. El problema no se resuelve eliminando las que aparecen en la muestra y sustituyéndolas por otra. Es imprescindible depurar el marco. • No debe tener elementos que no pertenecen a la población objetivo. Por ejemplo, en una encuesta dirigida a los hogares no deben de aparecer hogares vacíos. La existencia en el marco de unidades no encuestables, no introduce sesgos pero aumenta la variabilidad de la estimación. •Todos los elementos de la población objetivo deben de estar en el marco. La ausencia en el marco de una parte de la población investigada proporciona una subestimación de las características investigadas. Por último y para facilitar los trabajos de recogida de la información: Las unidades del marco deben estar identificadas y ser localizadas si son seleccionadas para la muestra. Módulo I: Aspectos generales del Diseño Muestral 53 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 El siguiente ejemplo pone de relieve la importancia del marco en una encuesta. Supongamos que se va a realizar una encuesta por muestreo en una determinada provincia dirigida a los hogares para lo cual se va a utilizar un marco de viviendas confeccionado a partir del último censo de población 2011. Esta provincia ha tenido recientemente un fuerte proceso de inmigración procedente del extranjero, la cual no está recogida en el Censo, por lo tanto esta población no va a tener nunca probabilidad de pertenecer a la muestra. Esto indica que se va a introducir un sesgo que será tanto mayor cuanto mayor sea el tamaño de esta población y mayor sea la diferencia en el comportamiento de ambas poblaciones. En realidad un marco deficiente no solo afecta a la cobertura de la muestra, y a la introducción de sesgos cuando la población omitida en el mismo tiene un comportamiento muy diferente de la que figura en él, sino también a otros aspectos del diseño muestral como son la estratificación, determinación del tamaño de la muestra, afijación, cálculo de los factores de elevación, etc Por tanto, antes de acometer el diseño de una muestra es necesario proceder a la actualización del marco para garantizar una buena cobertura de la misma. RESUMEN Como conclusión podemos decir que, sin un buen marco no se puede diseñar una buena muestra. Por tanto, para la realización de una buena encuesta es necesario disponer de un marco adecuado a la población objetivo, que esté actualizado, o al menos que sea posible su actualización. 3.3. Marco de áreas y marco de listas En las encuestas por muestreo se pueden utilizar dos tipos de marcos: Marco de áreas: utilizados en los muestreos en varias etapas Marco de listas o de unidades elementales, utilizado en el muestreo en una etapa. Módulo I: Aspectos generales del Diseño Muestral 54 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 El uso de uno u otro tipo de marco viene determinado por la disponibilidad de los mismos y por razones de coste. Las encuestas económicas utilizan muestreos en una etapa y por tanto un marco de unidades elementales, mientras que en las encuestas dirigidas a los hogares se utiliza un muestreo en varias etapas y por tanto una combinación de marco de áreas y marco de listas. A continuación hacemos una breve descripción del marco utilizado en las encuestas económicas, y en el resto del tema se describe con detalle el marco utilizado en las encuestas de hogares y su actualización. 3.3.1. Descripción del DIRCE. El DIRCE, Directorio Central de Empresas, es el marco de referencia para el desarrollo, ejecución y coordinación de las encuestas económicas del INE. Tiene las siguientes características: • Reúne en un sistema de información único a todas las empresas y a sus unidades locales ubicadas en el territorio nacional. • Se fundamenta en el Proyecto PIDE (Proyecto de Integración de Directorios Económicos). Su modelo de gestión se basa en el aprovechamiento de fuentes externas de diversa naturaleza • El sistema DIRCE se mantiene y actualiza con periodicidad anual y con base a 15 fuentes externas de origen administrativo y/o privado, más las propias operaciones estadísticas. • Cada fuente es sometida a procesos específicos de depuración y control de calidad, antes de ser incorporada en el proceso de integración. • Contiene más de seis millones de registros.(3,2 millones de empresas). • Se publica una explotación estadística de los resultados para empresas y sus unidades locales, desglosados por CCAA según la condición jurídica, actividad económica principal y estrato de asalariados. • Las variables que contiene y utilizadas en el diseño muestral son: Provincia, Actividad, Nº de asalariados y facturación. • Genera información asociada a altas, permanencias y bajas, clasificadas éstas según sector económico, condición jurídica y estrato de asalariados. Módulo I: Aspectos generales del Diseño Muestral 55 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 • Las empresas están clasificadas de acuerdo a la Clasificación Nacional de Actividades Económicas- CNAE-2009 SABER + Toda la información sobre el mismo y su explotación estadística están disponibles en la página WEB del INE. 3.4. Marco utilizado en las encuestas a hogares del INE 3.4.1. Descripción En principio, para realizar una encuesta dirigida a los hogares lo ideal sería disponer de una lista de hogares actualizada, y utilizar para la selección de la muestra un muestreo aleatorio simple. No obstante el coste de visitar estas unidades elementales esparcidas por un área geográfica extensa, nos hace renunciar a este tipo de muestreo y utilizar, en lugar de marcos de unidades elementales, listas de conglomerados y éstos como unidades de muestreo. El muestreo de conglomerados bietápico es generalmente utilizado en las encuestas dirigidas a la población que realiza el INE. Un ejemplo clásico es disponer de una lista de manzanas de una ciudad, y utilizar éstas como unidades de muestreo. La manzana es un conglomerado de viviendas. Con la formación de los conglomerados se obtiene una muestra de hogares mucho menos esparcidos con el consiguiente ahorro del coste. Otro aspecto importante a considerar es el hecho de ser más fácil disponer de una lista de manzanas que de una lista de viviendas. Si no se dispone de ésta última, con el uso de las manzanas como unidades de muestreo podemos reducir la formación de la lista de viviendas a las manzanas seleccionadas para la muestra. Módulo I: Aspectos generales del Diseño Muestral 56 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 3.4.2. Marco de áreas geográficas Para definir el marco de las encuestas a hogares, es necesario partir de la división administrativa de España, que aparece de la forma siguiente: Toda la Nación se encuentra dividida en 17 comunidades autónomas y dos ciudades autónomas, que constituyen los NUTS 2 (Nomenclature of Territorial Units for Statistics) aprobados por el Parlamento europeo. Las comunidades autónomas se dividen a su vez en 50 provincias (NUTS 3) de las cuales 47 son peninsulares y 3 insulares. Las provincias se encuentran divididas en municipios y éstos en distritos municipales. A partir de la división anterior, el INE juntamente con los Ayuntamientos hace una nueva subdivisión de los distritos municipales en secciones censales. Las secciones se utilizan para todos los trabajos encomendados al INE en los que es necesaria una división inframunicipal, entre otros para fines electorales como secciones electorales, lo cual exige de acuerdo con la Ley Electoral que cada sección incluya un máximo de 2.000 electores y un mínimo de 500. La sección censal puede considerarse como un área geográfica con límites perfectamente definidos, cuyo tamaño de población viene limitado por las condiciones antes expuestas. La sección censal constituye la unidad primaria de muestreo en las encuestas de hogares. SABER + Cualquier parte del territorio nacional pertenece a una sección censal. Actualmente el número total de secciones censales existentes en el país es de aproximadamente unas 36.000. En la página siguiente aparece el mapa de España con la división en comunidades autónomas (CCAA) y provincias. Las CCAA están formadas por el conjunto de provincias que están coloreadas con el mismo color. A continuación, el detalle de una provincia con la división en municipios y finalmente la división en secciones censales Módulo I: Aspectos generales del Diseño Muestral 57 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Módulo I: Aspectos generales del Diseño Muestral 58 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 SABER + Puede observarse que la superficie de las secciones es muy distinta de unas a otras, ello es debido a que la única restricción en cuanto a su formación es el tamaño medido en número de electores. En España los electores, personas en edad legal para votar, son la población con 18 y más años. El seccionado y su número varían considerablemente a lo largo del tiempo, por lo que con referencia 1 de enero de cada año, coincidiendo con la revisión del Censo Electoral, y en cada Censo de Población, se realiza una actualización del mismo. En el último apartado de esta unidad se analiza en detalle cómo se tratan las variaciones del marco de secciones, en el caso que afecten a secciones seleccionadas para la muestra de alguna encuesta continua. RESUMEN El marco de unidades primarias de muestreo está formado por la lista de las 36.000 secciones censales en que se encuentra dividido el país. 3.4.3. Marco de viviendas Las viviendas constituyen las unidades de segunda etapa en las encuestas dirigidas a los hogares. El marco de muestreo de las unidades de segunda etapa está formado por la relación de todas las viviendas familiares con sus direcciones postales, en cada una de las secciones censales seleccionadas para la encuesta. En el caso de la EPA el marco se obtiene en cada censo a partir de los resultados de los recorridos que se realizan en campo durante los trabajos censales. Se actualiza periódicamente. En las encuestas esporádicas se obtiene de la explotación del Padrón Continuo. Módulo I: Aspectos generales del Diseño Muestral 59 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 3.5. Fuentes estadísticas utilizadas en la formación del marco Tradicionalmente la única fuente para la formación de los marcos en las encuestas de hogares ha sido el Censo de Población y Viviendas que se realiza cada 10 años, en los años terminados en 1. Actualmente la disponibilidad de otras fuentes administrativas ha hecho que la situación cambie, y se ha introducido el uso del Padrón Continuo (Registro de Población) en la obtención del marco de viviendas. A continuación se presentan como se utilizan estas fuentes en las distintas encuestas del INE. 3.5.1. Utilización del Censo de Población y Viviendas El censo de población desempeña un papel fundamental en la formación del marco para las encuestas de hogares por las siguientes razones: • Es la única fuente de información desagregada a nivel de unidades primarias de muestreo. El censo proporciona para cada una de las secciones censales, unidades primarias de muestreo, su tamaño medido en número de personas y en número de viviendas. Esto nos permite conocer la probabilidad de selección de cada una de las secciones censales. Asimismo, proporciona información de otras características de tipo sociodemográfico de la población que vive en la misma, como son el nivel de instrucción, relación con la actividad, nacionalidad, condición socioeconómica, etc, que son utilizadas como variables de estratificación. Instrumento para la formación del marco de viviendas. Como consecuencia de los trabajos censales, se obtiene la relación de todas las unidades contenidas dentro de una sección censal y su situación en el momento del censo. Dichas unidades se clasifican de acuerdo a su uso en: viviendas que pueden ser habitadas o desocupadas, hogares colectivos y locales comerciales. Lo comentado anteriormente es fundamental en la formación del marco, ya que, por una parte, se recoge la relación de todas las unidades que son susceptibles de ser habitadas, y por otra, se distinguen éstas según su uso. Hay que recordar que en las encuestas de hogares solo son encuestables las viviendas que son habitadas. Módulo I: Aspectos generales del Diseño Muestral 60 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Actualización de la cartografía. Con objeto de facilitar y garantizar una buena cobertura de los trabajos censales, se actualiza la cartografía de las secciones censales. Esta labor es posteriormente aprovechada para el uso de la misma en las encuestas. CURIOSIDAD A continuación se presenta un modelo de marco de viviendas correspondiente a una sección censal. Se observa que es una relación de todas las unidades censales, clasificadas según su uso. Solo van a ser objeto de estudio y por tanto tienen probabilidad de ser seleccionadas las viviendas que contiene una H en la columna de viviendas. EGP-A2 Instituto Nacional de Estadística Ent. Colectiva 0 Ent. Singular Núcleo/Dis 2 1 Num de m anz TVIA Encuesta de Población Activa SEVILLA Código de encuesta4102106 2 Dirección Postal NVIA TP NUM Provincia Municipio Sección BQ PR ES PLN PUER Núm . de orden Cod de Hueco 006 0045 Viviendas Colectivos 41 91 25 S S Locales Ocupante Principal ARRIAZA BARRIO, REGLA GARCIA CUBILLO, FRANCISCA 1 CALLE ANICETO SAENZ N 9Z PBJ C 1 CALLE ANICETO SAENZ N 21 1 P01 F 0013 00100 H 1 CALLE ANICETO SAENZ N 21 1 P01 G 0013 00101 H ABSALOM , KEITH 1 CALLE ANICETO SAENZ N 21 1 P02 G 0013 00102 S , 1 CALLE ANICETO SAENZ N 21 1 P02 IZ 0013 00103 H 1 CALLE ANICETO SAENZ N 21 1 P02 J1 0013 00104 H 1 CALLE ANICETO SAENZ N 21 1 PBJ 1 0013 0099 1 CALLE ANICETO SAENZ N 21 1 PBJ A1 0013 0097 H GALLARDO GODOY, EMILIO JOSE 1 CALLE ANICETO SAENZ N 21 1 PBJ B1 0013 0098 V , 1 CALLE ANICETO SAENZ N 21 2 P01 DR 0013 109 H 1 CALLE ANICETO SAENZ N 21 2 P02 D 0013 00110 H 1 CALLE ANICETO SAENZ N 21 2 P02 H 0013 00111 H 1 CALLE ANICETO SAENZ N 21 2 P02 IZ 0013 00112 H 1 CALLE ANICETO SAENZ N 21 2 PBJ A 0013 00106 H 1 CALLE ANICETO SAENZ N 21 2 PBJ B2 0013 00105 H RIAO VILLALOBOS, RAFAEL NIETO MARTINEZ, FRANCISCO L , HIDALGO BOTELLO, FRANCISCO LOPEZ ARNESTO, ISABEL RODRIGUEZ VIVERO, DAVID BARRERA MARQUEZ, MANUEL GARCIA PAREDES FRAILE, PATRICIA ZAMORA ANGULO, JUAN ANTONIO La forma de obtención del marco a partir del Censo ha sido el procedimiento habitual utilizado en la formación del marco para las encuestas de hogares. Hasta la disponibilidad del Padrón Continuo, se disponía de una muestra maestra formada por 3500 unidades de primera etapa, que se mantenía continuamente actualizada y que servían como marco de referencia para todas las encuestas dirigidas a los hogares que realizaba el INE. Considerando que el tamaño medio de una sección censal es de, aproximadamente, 400 viviendas este procedimiento nos permitía disponer de una marco actualizado de 1.400.000 viviendas representativo de la población y sobre el que se seleccionaba la muestra para cualquier encuesta. Módulo I: Aspectos generales del Diseño Muestral 61 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Actualmente este marco solo se utiliza para la EPA, encuesta continua cuyo diseño muestral se analiza en detalle la unidad 5 de este curso. En el último apartado de esta unidad se explican los procedimientos utilizados para mantener el marco actualizado. 3.5.2. Utilización del Padrón Continuo El Padrón Municipal es un Registro Administrativo donde figuran todos los habitantes del País y se revisa el 1 de enero de cada año. La formación, mantenimiento, revisión y custodia corresponde a los Ayuntamientos. En 1996 se aprueba la nueva normativa padronal y se establece un nuevo sistema de gestión continua de los padrones coordinada por el INE. Este nuevo sistema tiene como punto de arranque el Padrón Municipal con referencia a 1 de Mayo de 1996. A partir de los datos contenidos en él, se obtienen cifras oficiales a primeros de cada año. SABER + En la página web del INE: WWW.INE.ES y en el apartado Demografía y Población, viene los principales aspectos metodológicos de esta operación.La disponibilidad de un registro de población permanentemente actualizado ha permitido, por una parte, disponer de una lista actualizada de viviendas, y por otra, su utilización como fuente para generar marcos para las encuestas dirigidas a la población. Desde el año 2002, el PC se está utilizando como marco de muestreo para todas las encuestas del INE, salvo la EPA. El uso de esta fuente en la obtención de un marco de viviendas, unidad de muestreo de segunda etapa presenta ventajas e inconvenientes. Entre las ventajas cabe destacar: 1. Es una fuente disponible de forma inmediata sin necesidad de tener que actualizarla previamente. 2. Permite disponer de los nombres actualizados de las personas que habitan las viviendas. Módulo I: Aspectos generales del Diseño Muestral 62 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 3. Al ser el Padrón Continuo un fichero de habitantes se puede utilizar como marco de personas. Entre los inconvenientes hay que señalar: 1. No es una fuente de información tan completa como es el censo de población. Al ser un documento público la información de tipo sociodemográfico contenida en el mismo es muy escasa. Se limita al sexo, edad, nacionalidad y nivel de instrucción, pero éste al no estar depurado no debe de ser utilizado. 2. Es un fichero de personas. En las encuestas dirigidas a la población, la unidad de muestreo es la vivienda, por tanto es necesario formar un fichero de viviendas a partir de un fichero de personas. Para ello el INE ha desarrollado un programa informático, ad hoc, que consiste en formar una vivienda a partir del grupo de personas que tienen una misma dirección postal. Dado que las direcciones postales no están completamente normalizadas se producen errores en la generación del fichero de viviendas. No obstante las ventajas que presenta su uso compensan con creces al nivel de errores que pueda tener. Este problema se va subsanando en la medida que se presta una especial atención al asunto de la normalización. 3. Las personas mal empadronadas no tiene probabilidad de pertenecer a la muestra. Esta situación se presenta por el hecho de que hay personas que están empadronadas en un municipio diferente al que tienen su residencia principal. Como consecuencia de este hecho, al realizar una encuesta nos encontramos con que en el marco aparece un porcentaje, que está en torno al 10 por ciento, de viviendas que realmente están vacías pero que hay población empadronada en ellas. Módulo I: Aspectos generales del Diseño Muestral 63 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Como aprovechamiento de distintas fuentes administrativas, el INE comenzó a desarrollar un proyecto que se denominó Estudio Demográfico Longitudinal (EDL), y cuyos objetivos principales eran: • Proporcionar información demográfica de tipo longitudinal. Acumular información longitudinal de personas , viviendas, procedente de encuestas o de otros registros administrativos con objeto de poner a disposición de los usuarios un mecanismo que permita hacer un seguimiento de la población, bien en su conjunto, bien a partir de una muestra. • Ofrecer un marco muestral óptimo para las encuestas dirigidas a los hogares o personas, que esté permanentemente actualizado y que disponga de una gran cantidad de información auxiliar. • Crear la infraestructura necesaria para la elaboración del censo de población. Concretamente ha sido utilizado en la realización del Censo de Población 2011. Actualmente, siguiendo esta línea, el INE está trabajando en un proyecto más ambicioso denominado SIGPT, Sistema de Información georreferenciado de Población y Territorio, que con la misma idea de EDL pretende crear unas bases de datos integradas de población y territorio que pueda ser utilizado en el proceso de producción estadística del INE. 3.6. Actualización de las unidades de muestreo La actualización de las unidades de muestreo es un procedimiento que se utiliza en las encuestas continuas que realiza el INE y tiene como objetivo el mantener la muestra actualizada, y por tanto, representativa de la población. Para analizar con detalle estos procesos es necesario conocer el modelo probabilístico con que se realiza la selección de la muestra. SABER + La selección de la muestra en las encuestas de hogares se realiza de tal forma que dentro de cada estrato cualquier vivienda familiar tenga la misma probabilidad de ser seleccionada, es decir, se tengan muestras autoponderadas dentro de cada estrato. Módulo I: Aspectos generales del Diseño Muestral 64 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Para ello, las unidades de primera etapa (secciones censales) se seleccionan con probabilidad proporcional al número de viviendas familiares principales, según los datos del último Censo o Padrón. Dentro de cada sección seleccionada en primera etapa, se selecciona un número fijo, m, de viviendas familiares con igual probabilidad mediante la aplicación de un muestreo sistemático con arranque aleatorio. De acuerdo a lo anterior, la probabilidad de selección de la vivienda i, perteneciente a la sección s del estrato h, donde se han afijado Kh secciones es P( V ish ) = P( Sh ) ⋅ P( V ish / Sh ) = K h ⋅ m V sh m = Kh ⋅ ⋅ V h V sh Vh Se consideran tres tipos de actualizaciones: 3.6.1. Actualización en el marco de viviendas Esta actualización se realiza en las secciones censales y está restringida a las secciones de la muestra. El objetivo es dar probabilidad de selección a la población que ha ocupado viviendas de la sección que se encontraban vacías cuando ésta fue seleccionada. Para alcanzar este objetivo, se realiza un recorrido completo de la sección con objeto de: • Dar de alta a edificios y viviendas de nueva creación. • Visitar las viviendas vacías, locales o establecimientos colectivos por si hubiera cambiado su situación para asignarle probabilidad de selección. • Verificar los límites de la sección, nuevos caminos, etc. Cuando corresponda renovar la muestra en alguna encuesta continua, la forma de proceder es la siguiente: Después de la actualización, como se han dado de alta algunas viviendas, el tamaño de la sección es VS' .Para que la muestra siga siendo autoponderada, hay que seleccionar m ⋅ V ' S VS viviendas. Módulo I: Aspectos generales del Diseño Muestral 65 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 De esta forma, la probabilidad de una vivienda seleccionada después de actualizar la sección es: ( ) . P(Vis / S) = K P (Vis ) = P S RESUMEN m. . Vs' Vs Vs . V Vs' = K. m V Como puede observarse las viviendas se incorporan a la muestra con la misma probabilidad que habrían tenido en caso de existir en el momento en que fue seleccionada la sección. 3.6.2. Actualización en el marco de unidades primarias Esta actualización es la que se produce en los periodos intercensales como consecuencia de modificaciones en las unidades primarias seleccionadas para la muestra. SABER + Estas modificaciones se producen con motivo de las revisiones que a 1 de enero se realizan sobre el seccionado para cumplir con las exigencias legales de la Ley Electoral General. Como consecuencia de los continuos movimientos de la población, se producen distintos tipos de incidencias sobre las secciones censales como son: cambios de denominación, partición de una sección en dos o más secciones, fusión y variación en los límites de la misma. En cada uno de estos casos, y para mantener el modelo probabilístico que subyace, es necesario realizar el cálculo de la probabilidad de selección de la nueva o nuevas secciones, la selección de la nueva sección que va a formar parte de la muestra, así como determinar el número de entrevistas a realizar en la misma. 1. Partición de una sección: Es el caso de una sección S en la que el crecimiento del número de viviendas principales exige que se escinda en diversas partes S1, S2... SK, bien para formar nuevas secciones o para incorporarse a otras ya existentes. Módulo I: Aspectos generales del Diseño Muestral 66 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Consideremos el caso particular en que la sección S de la muestra se divide en dos partes para formar las nuevas secciones S1 y S 2 . La forma de proceder es la siguiente: 1. Se selecciona una de las nuevas secciones con probabilidad proporcional a su tamaño actualizado. 2. Se calcula el número de viviendas que hay que seleccionar en la sección. 3. Se incorpora a la muestra de la encuesta cuando corresponda renovar las unidades de segunda etapa. La probabilidad de pertenecer a la muestra de una vivienda en la sección S 1 seleccionada será: ( ) ( ) .P (S1 / S) P(Vis P Vis1 = P S 1 ) / S1 = K ' Vs Vs1 . . V Vs' m. . Vs' Vs Vs' 1 = K. m V Donde: VS' son las viviendas actualizadas de la sección S, y VS' 1 las viviendas actualizadas de la sección S1 Como se observa, el número de viviendas que deben ser entrevistadas se incrementa proporcionalmente al crecimiento de la sección S. 2. Fusión de dos o más secciones. Debido a que algunas secciones, por los movimientos migratorios y naturales de la población, van quedando vacías se procede a su fusión con otra u otras, de forma que en caso de ser seleccionada tengan unidades que investigar. Si la sección Sj seleccionada se fusiona con otra para formar la nueva sección S, ésta queda incorporada automáticamente a la muestra y el número de viviendas a entrevistar es m ⋅ V 'S VS siendo: V'S = Número de viviendas principales en la actualidad en la nueva sección S VS = Número de viviendas principales, según último Censo o Padrón, dentro de los límites de la nueva sección S. Módulo I: Aspectos generales del Diseño Muestral 67 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 3.6.3. Actualización de las probabilidades de selección Es una actualización con carácter general, relativa a todas las secciones y viviendas, que se realiza periódicamente y en la que se actualizan las probabilidades de selección de las secciones. Cuando se dispone de información procedente de los ficheros electorales, Censos de Población ó Padrón, se procede a actualizar las probabilidades de selección de las secciones y a ajustar el número de entrevistas por sección. Este procedimiento se realiza de tal forma que las probabilidades de selección de las secciones sean proporcionales al número de viviendas que en ese momento tenga cada una. En principio esto podría lograrse partiendo de cero y seleccionando una muestra nueva, pero ello provocaría una ruptura total con la muestra antigua, lo cual es arriesgado en el caso de encuestas continuas. Por ello se arbitra un procedimiento que, sin distorsionar las probabilidades de selección que realmente corresponden a cada sección, mantenga la muestra con las mínimas variaciones. Este procedimiento, debido a Kish (1971), es el siguiente: Sea S una sección perteneciente al estrato h, seleccionada en un Censo o Padrón C, con probabilidad: C PS = VS C Vh = Viviendas en S segun Censo C Viviendas en el estrato h segun Censo C y supongamos que en el siguiente Censo o Padrón C', le corresponde una probabilidad de selección dada por: C′ P' S = VS C' Vh = Viviendas en S segun Censo C′ Viviendas en el estrato h segun Censo C′ Se compara PS con P'S pudiendo ocurrir uno de los dos siguientes casos: 1) Si P'S> PS la sección S permanece en la muestra con probabilidad P'S, ya que si fue seleccionada con una probabilidad PS , inferior a la que actualmente le corresponde, con mayor motivo hubiera salido seleccionada aplicándole su probabilidad actual P'S. Módulo I: Aspectos generales del Diseño Muestral 68 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 2) Si P'S< PS la sección permanece en la muestra con probabilidad PS' y sale de la PS P' muestra con probabilidad 1- S . PS Este criterio motivará la salida de la muestra de un cierto número de secciones. Estas serán sustituidas por otras secciones del mismo estrato pero seleccionadas de entre las que no perteneciendo a la muestra hayan aumentado de probabilidad. Con este criterio se mantiene el esquema de que la probabilidad que tiene una sección de pertenecer a la muestra es la que realmente le corresponde, es decir, proporcional al número de viviendas actuales. Vamos a verificar que efectivamente las secciones se mantienen en la muestra con su probabilidad actualizada. Forma de actuar. Se consideran las secciones actuales divididas en dos subconjuntos: Secciones que aumentan de probabilidad y secciones que disminuyen. 1. Si la sección de la muestra pertenece al grupo de las que aumentan dicha sección permanece con probabilidad 1, y por tanto con su probabilidad actualizada PS' . 2. Si la sección pertenece al subconjunto de las que disminuyen: a. Permanece en la muestra con probabilidad PS' PS P' b. Sale de la muestra con probabilidad 1- S PS 3. Sustitución de secciones que salen de la muestra:Las secciones que salen de la muestra sólo pueden ser sustituidas por secciones seleccionadas de entre las que aumentan de probabilidad. Dentro de este grupo las secciones se seleccionan con probabilidad proporcional a PS' − PS PS' − PS ∑ S∈∆ Módulo I: Aspectos generales del Diseño Muestral 69 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Comprobación: Calculamos la probabilidad que tiene una unidad de pertenecer a la muestra: Si la sección pertenece al subconjunto de las que disminuyen de • probabilidad, la probabilidad de pertenecer a la nueva muestra será la probabilidad de pertenecer a la antigua muestra por la probabilidad de P' permanecer, es decir, PS ⋅ S = PS' PS Si la sección S* pertenece al subconjunto de las que aumentan de • probabilidad, la probabilidad de pertenecer a la muestra tiene en este caso dos componentes: • Haber sido seleccionada para la muestra antigua, con probabilidad PS* • Ser seleccionada ahora sin haber sido seleccionada antes. Para que esto ocurra, tienen que darse tres circunstancias: 1. Existencia en la muestra antigua de alguna sección S, seleccionada con probabilidad PS y que disminuye de probabilidad. 2. Que en el sorteo de permanencia salga de la muestra con P' probabilidad 1- S .Que la sección S* PS probabilidad asignada a las sea seleccionada con la secciones de este subconjunto PS' − PS . PS' − PS ∑ S∈∆ La probabilidad de esta segunda componente es la siguiente: P' PS 1 − S PS S∈∂ P' ^ − P * S S = PS' * − PS* ' P * −P * S S ∑ donde el ∑ S∈∆ ∑ es el sumatorio extendido sobre todas las secciones que S∈δ disminuyen de probabilidad y el ∑ es el sumatorio extendido a todas las S∈∆ secciones que aumentan de probabilidad. La probabilidad ( ) final será la suma de la de las dos componentes: PS* + PS' * − PS* = PS' * Módulo I: Aspectos generales del Diseño Muestral 70 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Puede observarse que procediendo de esta manera las secciones quedan incorporadas a la muestra con su probabilidad actualizada. 3.7 Resumen En esta unidad se ha presentado lo que es el marco y el papel que desempeña en el diseño de una encuestas, describiendo el procedimiento seguido en la formación del marco de las encuestas de hogares y haciendo especial hincapié en las fuentes administrativas que se utilizan lo que ha permitido introducir una alternativa al procedimiento tradicional de selección de las muestras de viviendas. Se han analizado en detalle las distintas formas de actualización, aspecto fundamental del marco para que cumpla el requisito de ser un reflejo de la población objetivo, y finalmente se ha hecho una breve referencia al proyecto futuro en el que se está trabajando, con objeto de conseguir una mejora del marco. Módulo I: Aspectos generales del Diseño Muestral 71 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 UNIDAD 4. COORDINACIÓN MUESTRAL DE LAS ENCUESTAS ECONÓMICAS La coordinación muestral consiste en la manera de seleccionar muestras aleatorias, intentando controlar el grado de solapamiento entre ellas. Dependiendo de los objetivos interesará una coordinación muestral positiva, máximo solapamiento, o una coordinación muestral negativa, mínimo solapamiento. La coordinación muestral, aun tratándose de un tema general, en el caso del INE se centra en las encuestas económicas pues es donde aparece el problema de que una unidad informante, empresa o establecimiento, tiene que realizar varias encuestas a la vez. Las empresas grandes se estudian de manera censal y las medianas tienen una gran probabilidad de ser seleccionadas en varias muestras. Además, las encuestas económicas son de obligado cumplimiento y la negativa a cumplimentarlas conlleva una sanción económica. Todo ello hace que la carga estadística que soportan las empresas sea relevante y que una de las preocupaciones de las oficinas de estadística sea reducirla. Este capítulo comienza con la medición de la carga estadística, cuyo incremento en los últimos años ha llevado al uso de técnicas de coordinación muestral. En segundo lugar, se comenta el marco muestral disponible, que permite la aplicación de técnicas de coordinación. En el apartado 3, se presenta la técnica de los números aleatorios permanentes usada para la coordinación muestral y por último, se detalla la coordinación muestral de las encuestas económicas realizada en el INE. 4.1 Carga Estadística: Directorio de Colaboración con las Unidades Informantes Se entiende como carga estadística el esfuerzo que realizan las unidades informantes al cumplimentar las encuestas. Se mide por el número de encuestas que realizan y el tiempo estimado para cumplimentarlas. Módulo I: Aspectos generales del Diseño Muestral 72 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Anualmente se elabora el Directorio de Colaboración de las Unidades Informantes (DICOIN) que recoge, para cada empresa identificada por su Número de Identificación Fiscal (NIF), el número de encuestas económicas que realiza durante el año, sus incidencias o estados de recogida (responde, negativa, ilocalizable, cierre...) y el tiempo estimado para cumplimentarlas. La unidad de registro es el NIF. Cuando una encuesta va dirigida al establecimiento o centro de cotización, la información se agrega por NIF. A partir del DICOIN, se calculan diversas tablas que reflejan la carga estadística de las empresas. Por ejemplo, en la siguiente tabla se presenta la distribución de las empresas, por tamaño y número de encuestas en las que participa, durante el año 2012. Distribución de las empresas por tamaño y número de encuestas en las que participa. Porcentaje respecto al tamaño. Año 2012. TOTAL TAMAÑO (NÚMERO DE ASALARIADOS) De 1 a 9 De 10 a 19 De 20 a 49 De 50 a 99 De 0 Número de encuestas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 TOTAL Empresas % Empresas % Empresas % Empresas % Empresas % Empresas 240357 74 60500 98 125073 87 33234 63 17444 44 2658 37973 12 694 1 10104 7 12833 24 10069 25 3031 19519 6 205 0 7092 5 3484 7 4693 12 2369 8808 3 37 0 1836 1 1609 3 2814 7 1230 5729 2 10 0 357 0 1087 2 2199 6 874 3329 1 5 0 39 0 355 1 1250 3 792 2171 1 1 0 9 0 86 0 618 2 671 1607 0 1 0 9 0 38 0 300 1 470 1156 0 2 0. . 15 0 137 0 227 824 0. . . . 4 0 68 0 171 484 0. . . . . . 27 0 115 351 0. . . . . . 4 0 54 306 0. . . . . . . . 11 297 0. . . . . . 1 0. . 76 0. . . . . . . . . . 322987 100 61455 100 144519 100 52745 100 39624 100 12673 % 21 24 19 10 7 6 5 4 2 1 1 0 0 100 Más de 99 Empresas 1448 12 1242 10 1676 14 1282 11 1202 10 888 7 786 7 789 7 775 6 581 5 342 3 293 2 295 2 296 2 76 1 11971 100 En los últimos años ha habido una gran demanda de información económica más detallada que ha hecho aumentar los tamaños muestrales, o de nueva información que ha dado lugar a nuevas encuestas. En el siguiente gráfico se muestra la Módulo I: Aspectos generales del Diseño Muestral % 73 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 evolución del número de cuestionarios enviados a las unidades informantes, desde el año 2001 al 2012, de las encuestas recogidas en el DICOIN. cuestionarios 2000000 1500000 1000000 500000 0 1 2 3 4 5 6 7 8 9 10 11 12 años Este incremento ha llevado a considerar diversas alternativas para disminuir la carga estadística. Entre ellas destacamos: Acortamiento de los cuestionarios Uso de datos administrativos Selección coordinada de muestras teniendo en cuenta la carga estadística Desde el 2000, el INE ha empezado a aplicar técnicas de coordinación muestral para conseguir una distribución más equitativa de la carga de respuesta, aunque para las grandes empresas esta coordinación no es efectiva, pues siempre pertenecen al estrato exhaustivo de cualquier encuesta económica, por lo que se estudian de manera censal. En estos casos se ha intentando compensar la carga estadística ofreciendo a las empresas información gratuita, hecha a medida, que le pueda interesar. Entre dicha información se destaca: ratios del sector, cuota de mercado y análisis de la estructura del sector. 4.2 Marco Muestral: Directorio Central de Empresas El Directorio Central de Empresas (DIRCE) reúne, en un sistema de información único, a todas las empresas españolas y a sus unidades locales ubicadas en el territorio nacional. Se construye y se actualiza cada año a partir de información procedente de diversas fuentes administrativas: tributarias, de la seguridad social, jurídicas, privadas (WordlBase de Dun&Bradsreet) y estadísticas Módulo I: Aspectos generales del Diseño Muestral 74 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 (encuestas de mejora del directorio y encuestas económicas). Toda esta información es depurada, armonizada, contrastada e integrada con el objeto de conseguir una cobertura nacional total. El objetivo básico del DIRCE es proporcionar el marco muestral de las encuestas económicas. Entre la información que contiene destacamos las variables usadas para la estratificación: la actividad económica y el número de asalariados. La unicidad del marco muestral y la identificación de cada empresa por su NIF, han posibilitado el uso de técnicas de coordinación muestral. No obstante, la asimetría de la distribución de las empresas por tamaño, medido en número de asalariados, en el sentido de que hay muchas empresas pequeñas y muy pocas medianas y grandes, hace que la efectividad de la coordinación muestral sea alta en la población de empresas pequeñas pero baja en la de empresas medianas. En el caso de las grandes empresas, la efectividad es nula pues éstas, por su importancia económica, siempre se estudian de manera censal. La distribución, por tamaño, de las empresas en el DIRCE es la siguiente: Número total Distribución de las empresas por tamaño, número de asalariados % % % % de empresas % De 10 a 49 De 50 a 199 Más de 199 Año 2012 0 De 1 a 9 54 41,3 3,9 0,6 0,2 3.569.663 SABER + Para conocer más detalles del DIRCE pueden leer la información disponible en la página web del INE: http://www.ine.es/metodologia/t37/t3730201.htm 4.3 Coordinación muestral Las técnicas de coordinación muestral intentan controlar el grado de solapamiento entre las muestras, en un momento dado o a lo largo del tiempo. Diferenciamos entre coordinación positiva, máximo solapamiento y coordinación negativa, mínimo solapamiento. Dependiendo de los objetivos, será conveniente aplicar una u otra. Módulo I: Aspectos generales del Diseño Muestral 75 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 ¿Cuándo será conveniente aplicar coordinación positiva? Cuando se quiera estimar la tasa de cambio es mejor aplicar coordinación positiva. De hecho, en las encuestas coyunturales centradas en estimar el cambio, las muestras son prácticamente fijas, rotando una parte mínima para su actualización. ¿ ¿Cuándo será conveniente aplicar coordinación negativa? En las encuestas estructurales donde el objetivo no sea estimaciones del cambio y la principal preocupación sea reducir la carga estadística, la coordinación a aplicar es la negativa. Con ella se consigue una distribución más equitativa de dicha carga. 4.3.1 Técnica de Números Aleatorios Permanentes La técnica que empezamos a usar para la coordinación de muestras es la conocida Técnica de Números Aleatorios Permanentes (o PRN, Permanent Randon Numbers). Es una técnica sencilla que se puede utilizar tanto para coordinación positiva como negativa y consiste en lo siguiente. A cada unidad del marco se le asocia un número aleatorio xi obtenido de manera independiente de una distribución uniforme U[0,1]. Estos números aleatorios xi’s llamados PRNs se generan una vez y se guardan junto al resto de información del marco muestral, para usarlos en todas las extracciones muestrales que se realicen. Supongamos que queremos obtener una muestra aleatoria simple de tamaño n de una población con N unidades. Primero, ordenamos las unidades del marco, en orden creciente o decreciente, según estos PRNs. Segundo, se elige un punto de partida u origen de selección ‘a’ en el intervalo [0,1] y una dirección (derecha o izquierda). Entonces, las n unidades primeras de esta lista ordenada forman la muestra aleatoria simple. El marco es tratado como una lista circular. Si no hay suficientes unidades a la derecha (izquierda) del origen ‘a’, la selección continua a la derecha (izquierda) del punto 0. Módulo I: Aspectos generales del Diseño Muestral 76 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 4.3.2 Coordinación de muestras para encuestas diferentes Para controlar el solapamiento de dos muestras obtenidas de manera aleatoria, de tamaños n1 y n2, se ordenan las unidades del marco según los PRNs y se eligen dos orígenes a1 y a2 en [0,1] entonces, para la primera muestra, se eligen las n1 con los PRNs más cercanos a la derecha (o izquierda) de a1 y para la segunda muestra se eligen los n2 con los PRNs más cercanos a la derecha (o izquierda) de a2. Si los orígenes a1 y a2 y las direcciones de selección son escogidos apropiadamente, las muestras estarán coordinadas negativamente. Cuando la población es suficientemente grande (N>>n1+n2), las muestras pueden llegar a ser distintas. Cuando N< n1+n2 las muestras no pueden ser distintas pero su solapamiento se reduce. La coordinación positiva de dos muestras es máxima usando los mismos orígenes y direcciones de selección. 4.3.3 Coordinación de muestras en el tiempo Las unidades que permanecen en el marco (unidades permanentes) mantienen el número aleatorio asociado la primera vez. Cuando una unidad es añadida al marco (alta), un número aleatorio nuevo es obtenido dependiendo del último aleatorio generado y cuando una unidad desaparece (baja), se elimina del marco junto a su número aleatorio. En cada ocasión, la muestra es obtenida haciendo uso de estos números aleatorios. El grado de solapamiento de la muestra entre períodos diferentes dependerá de las unidades que permanecen, del número de altas y de bajas que haya en la muestra antigua. Módulo I: Aspectos generales del Diseño Muestral 77 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 4.3.4 Actualización del marco cuando se aplica coordinación positiva en el tiempo Una cuestión fundamental a tener en cuenta cuando se obtienen las muestras aplicando coordinación positiva a lo largo del tiempo es que el marco no debe ser actualizado con la información obtenida de las encuestas. Sólo se puede actualizar el marco con la información procedente de fuentes externas, como por ejemplo, de ficheros administrativos. Cuando las muestras son obtenidas de manera independiente, las actualizaciones del marco a partir de la información muestral en cuanto bajas, cambios de actividad y tamaño, no introducen sesgo y son útiles para reducir el exceso de cobertura y los cambios de estrato en futuras muestras. Pero si las muestras se coordinan positivamente y se actualiza el marco con la información procedente de las encuestas, es posible que podamos introducir algún tipo de sesgo. Si actualizamos el marco con información muestral y obtenemos una muestra coordinada positivamente con las de años anteriores, ¿Qué tipo de sesgo podríamos estar introduciendo a la hora de estimar las unidades activas? En el caso de las bajas, suele existir un desfase entre el suceso de baja y la comunicación administrativa de la misma, desfase que es menor en la encuesta. Entonces, si damos de baja en el marco a las unidades de la muestra que han sido bajas, y obtenemos una muestra coordinada positivamente con la anterior, se tenderá a una sobreestimación del número de unidades activas. SABER + Pueden consultar a: Ohlsson, E. (1995). Coordination of Samples using Permanent Random Numbers. Chapter 9 of Business Survey Methods, edited by Cox, Binder, Chinnappa, Colledge, Kott. John Wiley & Sons, Inc. Módulo I: Aspectos generales del Diseño Muestral 78 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 4.4 Coordinación muestral en el INE Cada año generamos un número aleatorio para cada una de las unidades del marco (DIRCE). Este número será permanente durante el año. Además, construímos una función de carga estadística que viene determinada por el tiempo estimado para cumplimentar el cuestionario y por el número de encuestas que realiza la empresa ese año. 4.4.1 Coordinación en un año determinado Inicialmente todas las unidades del marco tienen carga (0,0). La primera muestra se obtiene de manera independiente, utilizando un muestreo aleatorio simple dentro de cada estrato. Las unidades que han sido seleccionadas en la muestra pasan a tener una función de carga igual al tiempo necesario para cumplimentar el cuestionario y al número de encuestas que realiza la empresa, que en este caso es igual a 1. Primera encuesta: tiempo para cumplimentar el cuestionario =60’ f: Marco muestral →R2 ui → f(ui)=(x, y)=(tiempo, número)=(60’,1) si ui ∈ s1 f(ui)=(0, 0) si ui ∉ s1 A partir de la segunda muestra, se coordinan con las anteriores utilizando los mismos números aleatorios y la función de carga. Antes de obtener la siguiente muestra, se ordenan las unidades por orden creciente respecto a la primera componente de la función de carga (tiempo), la segunda componente (número de encuestas) y el número aleatorio. Para las unidades seleccionadas en esta muestra, la función de carga se actualiza acumulando el tiempo y el número de encuestas. Segunda encuesta: tiempo para cumplimentar el cuestionario =120’ f: Marco muestral →R2 ui →f(ui)=(x, y)=(tiempo acumulado, número acumulado)=(180’, 2) si ui ∈ s2 ∩s1 f(ui)=(x, y)=(60’,1) si u i ∈ s1 f(ui)=(x, y)=(120’,1) si ui ∈ s2 f(ui)=(0, 0) si u i ∉ s1, s2 Módulo I: Aspectos generales del Diseño Muestral 79 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 4.4.2 Coordinación en el tiempo La coordinación muestral en el tiempo, con objeto de reducir la carga estadística, se aplica para evitar, si es posible, que una empresa sea seleccionada más de 2 años consecutivos para la misma encuesta. En este caso, la función de carga estadística tiene una tercera componente a la que se asigna 1 si la empresa lleva 2 o más años consecutivos en la misma encuesta y 0 en los demás casos. Antes de obtener la muestra, se ordenan las unidades en orden creciente respecto a la tercera componente de la función de carga, a la primera, a la segunda y al número aleatorio. 4.4.3 Efectividad de la coordinación Para que sea efectiva la coordinación entre encuestas diferentes, es conveniente que los estratos se definan de manera similar en cada una de ellas. Especial atención se debe prestar cuando los estratos sean diferentes. Por ejemplo, en la Encuesta Anual de Servicios se definía como estratos de tamaño los siguientes tramos de asalariados: 0, [1,2], [3,5], [6,9], [10,19]. A partir de 20 asalariados el estrato era exhaustivo. Mientras que para la Encuesta de Innovación Tecnológica los estratos eran: [10,49], [50,199]. A partir de 200 asalariados el estrato era exhaustivo. Supongamos que obtenemos la muestra de la Encuesta de Innovación Tecnológica coordinada negativamente con la muestra de la Encuesta Anual de Servicios siguiendo los pasos dados anteriormente. ¿Qué le ocurriría a la muestra de la Encuesta de Innovación Tecnológica? Tendríamos una sobre-representación de empresas entre 10 a 19 asalariados. En el momento de obtener la muestra en el estrato [10,49] de manera coordinada con la de servicios, como todas las empresas de más de 19 trabajadores tienen carga distinta de cero pues son exhaustivas para esta encuesta, al ordenarlas por la función de carga estadística y número aleatorio, todas ellas quedarán al final de la lista ordenada y se escogerían las primeras unidades, produciendo una muestra sesgada donde las empresas entre 10-19 asalariados estarían sobre-representadas. Módulo I: Aspectos generales del Diseño Muestral 80 DISEÑO MUESTRAL DE LAS ENCUESTAS DE POBLACIÓN Y ECONÓMICAS. Ed.2 Aplicando la coordinación temporal ¿están las unidades nuevas (altas) correctamente representadas en las muestras? Cuando se aplica coordinación temporal existe la posibilidad de que las unidades nuevas queden sobre-representadas. Todas las altas tienen carga temporal nula y por tanto, irán al principio de las listas ordenadas por la tercera componente de la función de carga. Una solución sería imputarles una carga ficticia. Nosotros no lo hacemos, pues con la coordinación temporal que realizamos, no tenemos el problema de la sobre-representación de las altas. SABER + Pueden leer el documento de trabajo 06/2010 ‘Sampling coordination of business surveys in the Spanish National Statistics Institute’, disponible en nuestra página WEB: http://www.ine.es/ss/Satellite?L=es_ES&c=INEDocTrabajo_C&cid=1259931238095 &p=1254735839320&pagename=MetodologiaYEstandares%2FINELayout 4.5 Resumen Las ideas más relevantes en este capítulo son: El incremento de la demanda de información económica ha llevado a que una de las preocupaciones de las oficinas de estadística sea intentar disminuir la carga estadística. La disponibilidad de un marco muestral único es una de las claves que nos permite el uso de técnicas de coordinación muestral. La identificación de la unidad muestral, como el caso de la empresa identificada por su NIF, es la otra clave que permite la coordinación muestral. Según los objetivos de la encuesta, se utilizará coordinación muestral positiva o negativa. Para estimar la tasa de cambio es preferible usar coordinación positiva y para conseguir una distribución más equitativa de la carga estadística se usará coordinación negativa. Cuando se aplica coordinación muestral positiva en el tiempo no es conveniente actualizar el marco con la información obtenida a partir de las encuestas. Especial atención cuando se coordinan muestras con distinta estratificación. Módulo I: Aspectos generales del Diseño Muestral 81
© Copyright 2024