Arqueología del muestreo estadístico: de Arthur L. Bowley a los Big Data - José M. Arribas Macho - Departamento de Sociología I (Teoría, Metodología y Cambio Social) - Facultad de Ciencias Políticas y Sociología - UNIVERSIDAD NACIONAL DE EDUCACIÓN A DISTANCIA Arquelogía del conocimiento estadístico - Michel Foucault (1969) “L’arqueologie du savoir”, Éditions Gallimar, 1969, Paris. - Ian Hackink (1975) “The emergence of probability” - Donald Mackencie (1981) “Statistics in Britain, 1865-1930” - Stephen Stigler (1986) “The History of Statistics: The meausurement of Uncerrttainty before 1900 - Theodor Porter (1986) “The emergence of probability” - Gerd Gigerenzer (1986) “Probabilistic thinking and the Fight against Subjectivity” - Lorrain Daston (1987) Classical Probability in the Enlightenment Foucault: cuestiones de método - Los diferentes enunciados, dispersos en el tiempo, forman un conjunto si se refieren a un único y mismo objeto. - El estilo (mismo vocabulario, mismo juego de metáforas) da un cierto carácter a la enunciación. - Además del discurso cuentan otras cosas: por ejemplo, el discurso clínico es un conjunto de hipótesis sobre la vida y la muerte, de decisiones éticas, de decisiones terapéuticas, de reglamentos institucionales y de modelos de enseñanza, mas que un conjunto de prescripciones Una arqueología de los discursos -La arqueología que propone Foucault trata de definir discursos por su especificidad, es, en realidad, un análisis diferencial de las modalidades discursivas. -Define los tipos y reglas de las prácticas discursivas que atraviesan las obras individuales. - Es la descripción sistemática de un discursoobjeto. Muestreo estadístico -Arribas J.M.: «Les débuts de la statistique mathématique en Espagne (1914-1936) » Mathématiques et Sciences Humaines, nº 166, CAMS. École des Hautes Études en Sciences Sociales, París, 2004. http://msh.revues.org/2895 -Presentación del texto de Arthur L. Bowley, “Sampling (an elementary manual of statistics).Sección “Texto clásico”, Empiria nº 10, juliodiciembre 2005. http://e-spacio.uned.es/revistasuned/index.php/empiria/article/view/1049/965 -Presentación y traducción del texto de Arthur L. Bowley: La aplicación del muestreo a los problemas económicos y sociológicos. Empiria nº 5 http://espacio.uned.es/revistasuned/index.php/empiria/article/view/918/839 -Michel Armatte: « La introducción en Francia de los métodos de sondeo aleatorio”, Empiria nº8,2004 http://revistas.uned.es/index.php/empiria/article/view/980/897 Bibliografía complementaria -Martine Mespoulet “La edad de oro del sondeo en Rusia (18851924)”, Empiria nº 7, http://revistas.uned.es/index.php/empiria/article/view/965/884 - José M. Arribas: Presentación del texto de William F. Ogburn “The folkways of a scientific Sociology”, Empiria Nº 17. http://e-spacio.uned.es/revistasuned/index.php/empiria/article/view/1992/1867 - Emmanuel Didier (2009). “En quoi consiste l’Amerique? Les statistiques, le New Deal et la démocratie, Paris, Editions la découverte. Antecedentes del Muestreo estadístico -Laplace estima la población de Francia (muestra intencionada) siglo XVIII -Investigaciones agrícolas en USA desde 1863 «crop reporters». Encuestas agrarias en Noruega desde 1870 (Kiaer) -En Rusia Kaufman y Chuprov practica desde 1880 extracciones sistemáticas. En 1900 Gurev utiliza la selección razonada en la encuesta de Vjatka. -Todavía existen dudas sobre la representatividad del individuo seleccionado al azar o de forma sistemática hasta 1925 Muestreo estadístico y cuestión social -Con el cambio al siglo XX, las encuestas parciales sobre pobreza, salarios, condiciones de vida de los trabajadores, presupuestos, consumo, seguros son el sustrato de la reflexión sobre la representatividad de los datos obtenidos a partir de sub-poblaciones, que no se presentan todavía como muestras: ENCUESTAS SOCIALES: -Inglaterra: Las encuestas Booth y Rowntree (1887) condiciones de la pobreza, Encuesta del Board of Trade (1909) sobre costes laborales, Encuesta de Bowley en Reading (1913) -Noruega: Strom 1888(18.000 hogares) y Kiaer 1890 (11.500 personas) -Alemania: Encuestas utilizadas por Halbwachs en su tesis de 1913 utilizan grandes muestras pero en las ciudades -Francia: (1913-14)Encuesta de la SGF no aleatoria dirigida a familias de obreros, empleados, artesanos, asalariados agrícolas (12.550 cuestionarios distribuidos, 2000 explotados) Debate sobre la legitimidad de las encuestas parciales -La historia de los sondeos corre un camino paralelo a las prácticas administrativas: Kiaer: 1895 IIEBerna;1897 San Petesburgo,Instituto Internacional de Estadística; 1901 Budapest (carta del USA Department of Labor) -Bowley: 1906 Presidential Adress to the Economic Section of the British Association for the Advanced Sciences -Edgewort, IIE Paris 1909 «On the application of the calculus of probabilities to statitics» -Entre 1920 y 1925 la teoría de sondeos se ve enriquecida por las aportaciones de R. Fisher: Statistical methods for research workers (1925) (introduce la distinción entre parámetros de la población y estadísticos de la muestra, la propiedades de estos cuando son tomados como estimadores, su formalización para pequeñas muestras) Debates en el Instituto Internacional de Estadística • Kiaer, 1895, 1897 sesión del IIE en San Petersburgo • Edgeworth, XII Sesión Paris, 1909 “On the application of the calculus of probabilities to statistics” • En los años 1920 hay un profundo debate entre los partidarios de la selección razonada y los partidarios de la selección al azar. • En 1925 el IIE sanciona la validez de los dos metodos, «el método representativo» y «el método tipológico» Arthur Lyon Bowley Arthur Lyon Bowley. (1868-1957) -Nace en Bristol, England, en la familia de un ministro de la iglesia anglicana. Queda huérfano de padre con 2 años de edad -Estudia matemáticas como becario -Se orienta hacia la aplicación de las matemáticas en economía y sociología bajo la influencia de Edgeworth y Marshall. -1915 comienza a impartir clases de Estadística Económica -1919 ocupa la primera cátedra de Estadística en la Universidad de Londres -Ocupa puestos de responsabildad en la London School of Economics. -Es uno de los fundadores de la International Econometric Society Principales trabajos -Livelihood and Poverty: a study in the economic conditions of working-class households, with A.R. Bennett-Hurst, 1915. -Has Poverty Diminished? with M.Hogg, 1925. -The National Income 1924 with J. Stamp, 1927. -Measurement of Precision attained in Sampling Bulletin de l'Institut International de Statistique, 1926. -New Survey of London Life and Labour, 1930-35. -Three Studies in National Income, 1939. Discurso en la Association Britannique pour l’Avancement de la Science (1906) (1) (Publicado en el boletín de la Royal Statistical Society) -A comienzos del siglo XX la estadística en Gran Bretaña es casi inexistente. No hay matemáticos capaces de aplicar sus conocimientos a los asuntos públicos, por lo que propone desarrollar un amplio programa que una matemáticas y ciencias sociales. -La característica fundamental de una ciencia es el método (un método de medida que permita diferenciar lo verdadero de lo falso en cualquier razonamiento basado en la construcción de tablas estadísticas) Discurso en la Association Britannique pour l’Avancement de la Science (1906) (2) -Las técnicas de recuento existentes son un oficio estadístico (ars statistique) -La nueva ciencia estadística, la estadística matemática, se parece a las ciencias naturales en el sentido de que sus desarrollos teóricos tiene aplicaciones prácticas (estudios sobre gradación de impuestos o estimación del coste de la vida de los trabajadores) -Hace de la Estadística una disciplina que incluye la idea de precisión, para lo cual, toma de la astronomía la idea de error probable. Discurso en la Association Britannique pour l’Avancement de la Science (1906) (3) No obstante su posición es muy moderada: «Hay que reconocer que muchas estadísticas son necesariamente aproximadas. En Estadística, la exactitud y la precisión consisten en estimar los límites (bornes) del error probable y posible, la falsa apariencia de pretendida exactitud matemática debe abandonarse» Bowley sitúa el método muestral en el núcleo de la nueva ciencia estadística (1) -La consistencia de las estimaciones estadísticas puede mejorarse mediante la utilización de muestras cuidadosamente seleccionadas. -Otros elementos que potencian a la nueva ciencia: -El interés de las clases populares y los sindicatos por la estadística. -Interés de la prensa por la publicación de datos estadísticos (la prensa comienza a jugar un importante papel en la elaboración del nuevo discurso estadístico) Bowley sitúa el método muestral en el núcleo de la nueva ciencia estadística (2) -El método de muestreo disponía de materiales suficientes a partir de los trabajos realizados por Edgeworth en 1885. -Para controlar una medida propone la estimación más probable, por ejemplo, en una media de salarios propone enunciados del tipo 24s. + 6d., adoptando la desviación típica como medida de seguridad (en una curva normal de frecuencias, dos tercios del área, están en la desviación tipo) Bowley sitúa el método muestral en el núcleo de la nueva ciencia estadística (3) Propone dos vías para aplicar el nuevo método: -La de Pearson: una fórmula empírica y el ajuste de observaciones determinando una curva de frecuencias apropiada paa asignar la probabilidad de las observaciones. -O la de Edgeworth que consiste en aceptar la ley de los grandes números y de terminar a priori los fenómenos en los que se puede aplicar esta ley. Con un ejemplo de datos facilitados por el Investor’s Record y del Almanach Nautique, muestra que todos los elementos del conjunto deben tener la misma probabilidad de selección y que la precisión no depende del tamaño de la población a muestrear, sino de su naturaleza, y del tamaño de las muestras Manuales que incluyen muestreo -Bowley 1909 “An Elementary manual of statistics” Ocho páginas sobre muestreo de un total de 247. -Yule 1911 “An introduction to the theory of statistics” Texto de referencia hasta 1937.(La teoría muestral ocupa la tercera parte del texto) -Kovalevskii 1924 Fundamentos de la teoría del método de los sondeos (afijación óptima por estrato) a partir del sondeo por estratos propuesto por Chuprov en 1910 -Fisher 1925 «Statistical methods for research workers» 1923:Encuesta sobre parados -El Ministerio de trabajo británico necesitaba una «fotografía detallada» de 1.250.000 parados -John Hilton analiza una de cada tres solicitudes y realizaron el análisis sobre 372.857 personas. -Los clasificaron por edad, sexo, estado civil, industria,número de dependientes a su cargo, días que había cobrado subsidio, días cotizados, etc. -Pero hacía falta una entrevista personal para obtener información adicional. -Según la reomendación de Bowley, para el siguiente informe analizaron uno de cada 10.000 casos. Que tamaño debe tener n • «Podemos formarnos una idea preliminar de la magnitud p o S en el universo, y podemos decidir que precisión deseamos obtener. Si esperamos que p sea alrededor de 0,3 y deseamos un error típico de estimación más pequeño de 0,01, la respuesta es de naturaleza 30 + 1 por ciento, entonces la solución es 0,01 = 𝑝𝑞/𝑛 de modo que n=2.100». 1925: aceptación oficial del muestreo representativo -Jensen A (1926) Report on the representative method in statistics, Bulletin IIS XXII -Bowley A.L. (1926) Measurement of the precision attained in sampling, Bulletin IIS XXII-I -Kovalevskii 1924 Fundamentos de la teoría del método de los sondeos (afijación óptima por estrato) a partir del sondeo por estratos propuesto por Chuprov en 1910 -Fisher 1925 «Statistical methods for research workers -William F. Ogburn (1929)“The folkways of a scientific Sociology”. Presidencial Adress leída ante la Asociación de Sociogía Norteamericana http://revistas.uned.es/index.php/empiria/article/view/ 1992/1867 Consolidación después de la II Guerra mundial -Creación de Oficinas centrales de Estadística en los países europeos y en los países que han participado en la Guerra. -Creación del INE en 1945 -Viaje de Levi-Bruhl por parte del INSEE a la Oficina del Censo de EEUU. -(1949) Viaje de Enrique Cansado por parte del INE a la Oficina del Censo de EEUU,(1950) Curso Inicial sobre Muestras y sus Fundamentos. -Explotación muestral del Censo de 1950. Nuevas tecnología y Big Data -La aparición de las nuevas tecnologías de la información ha hecho posible el tratamiento masivo de datos. La digitalización supone un cambio radical. -Las muestras vuelven a ocupar un lugar residual -Frente a la idea de precisión y error de medida, aparece la inmediatez de los tratamientos masivos de datos. Google procesa al día mas de 24 petabytes. -Internet ha hecho que surja un nuevo modo de hacer estudios de mercado y de opinión publica. Twitter, Linkedin y Facebook trazan la “gráfica social” de relaciones de los usuarios. -La informática importa tanto como la estadística. -Desarrollo de la minería de datos La revolución del Big Data -En el siglo XX el valor de la economía se desplaza hacia intangibles como la marca y la propiedad intelectual. -En el siglo XXI, se desplaza hacia los datos -Aparición de nuevos modelo predictivos - Herramientas que comenzaron a ser usadas por compañías como Walmart o Capital One, ahora se han democratizado y son accesibles a mucha gente. Análisis del 15 M (twitter) Javier Toret Medir y monitorizar con pirendo iván rodríguez 2014 ¿Qué podemos monitorizar? • TWITTER: • @Usuarios (propio, competencia, expertos…) • #Hashtags (propios, de la competencia, del sector…) • Palabras (marca, empresa, sector…) • Cadenas de palabras (producto, caso, personaje, lugar…) • FACEBOOK: • Páginas (propia, competencia, expertas, promociones, productos…) • Palabras y cadenas de palabras (marca, empresa, sector…) • Publicaciones concretas (producto, caso, campañas…) ¿Qué obtenemos? • Usuario-página-canal, actividad, contenidos, horarios, efectividad, influencia, alcance, costumbres… • Comunidad, clasificación por localización, género, edad o segmentación por influencia, tema, compromiso… • Citas, comportamiento y conducta de los usuarios hacia la empresa, qué opinan, cómo, cuándo… • Menciones a la marca, usuario, hashtag, producto, dónde, cuánto, quién, por qué… • Alcance, difusión, impresiones, potenciales, mercado… #Hotelfacts V. Mayer-Schönberger, K. Cukier (2013): “Big Data. La revolución de los datos masivos”, Turner Noema “La mayor parte de nuestras instituciones han sido creadas bajo la presunción de que las decisiones humanas se basan en una información contada, exacta y de naturaleza causal. Pero la situación cambia cuando los datos son enormes, pueden procesarse rápidamente y admiten la inexactitud. Es mas, debido al vasto tamaño de la información, muy a menudo las decisiones no las tomarán los seres humanos, sino las máquinas”, p.29 V. Mayer-Schönberger, K. Cukier (2013): “Big Data. La revolución de los datos masivos”, Turner Noema “El muestreo aleatorio ha constituido un tremendo éxito, y es la espina dorsal de la medición a escala moderna. Pero no deja de ser un atajo, una alternativa de segundo orden a recopilar y analizar el conjunto entero de datos. Trae consigo una serie de debilidades inherentes. Su exactitud depende de que se haya garantizado la aleatoriedad al recopilar los datos de la muestra, pero el logro de esa aleatoriedad resulta peliagudo. Se producen sesgos sitemáticos en la forma de recopilar los datos que pueden hacer que los resultados extrapolados sean muy incorrectos” ) p.38. Arqueología del muestreo estadístico: de Arthur L. Bowley a los Big Data MUCHAS GRACIAS (*) Viktor Mayer-Schönberger, Kenneth Cukier (2013), “Big Data. La revolución de los datos masivos”, Turner Noema
© Copyright 2024