Arqueología del muestreo estadístico: de Arthur L. Bowley a los Big

Arqueología del muestreo estadístico:
de Arthur L. Bowley a los Big Data
- José M. Arribas Macho
- Departamento de Sociología I (Teoría,
Metodología y Cambio Social)
- Facultad de Ciencias Políticas y Sociología
- UNIVERSIDAD NACIONAL DE EDUCACIÓN A
DISTANCIA
Arquelogía del conocimiento estadístico
- Michel Foucault (1969) “L’arqueologie du savoir”, Éditions
Gallimar, 1969, Paris.
- Ian Hackink (1975) “The emergence of probability”
- Donald Mackencie (1981) “Statistics in Britain, 1865-1930”
- Stephen Stigler (1986) “The History of Statistics: The
meausurement of Uncerrttainty before 1900
- Theodor Porter (1986) “The emergence of probability”
- Gerd Gigerenzer (1986) “Probabilistic thinking and the Fight
against Subjectivity”
- Lorrain Daston (1987) Classical Probability in the
Enlightenment
Foucault: cuestiones de método
- Los diferentes enunciados, dispersos en el
tiempo, forman un conjunto si se refieren a un
único y mismo objeto.
- El estilo (mismo vocabulario, mismo juego de
metáforas) da un cierto carácter a la enunciación.
- Además del discurso cuentan otras cosas: por
ejemplo, el discurso clínico es un conjunto de
hipótesis sobre la vida y la muerte, de decisiones
éticas, de decisiones terapéuticas, de
reglamentos institucionales y de modelos de
enseñanza, mas que un conjunto de
prescripciones
Una arqueología de los discursos
-La arqueología que propone Foucault trata de
definir discursos por su especificidad, es, en
realidad, un análisis diferencial de las
modalidades discursivas.
-Define los tipos y reglas de las prácticas
discursivas que atraviesan las obras individuales.
- Es la descripción sistemática de un discursoobjeto.
Muestreo estadístico
-Arribas J.M.: «Les débuts de la statistique mathématique en Espagne
(1914-1936) » Mathématiques et Sciences Humaines, nº 166,
CAMS. École des Hautes Études en Sciences Sociales, París,
2004. http://msh.revues.org/2895
-Presentación del texto de Arthur L. Bowley, “Sampling (an elementary
manual of statistics).Sección “Texto clásico”, Empiria nº 10, juliodiciembre 2005.
http://e-spacio.uned.es/revistasuned/index.php/empiria/article/view/1049/965
-Presentación y traducción del texto de Arthur L. Bowley: La aplicación
del muestreo a los problemas económicos y sociológicos. Empiria nº 5
http://espacio.uned.es/revistasuned/index.php/empiria/article/view/918/839
-Michel Armatte: « La introducción en Francia de los métodos de
sondeo aleatorio”, Empiria nº8,2004
http://revistas.uned.es/index.php/empiria/article/view/980/897
Bibliografía complementaria
-Martine Mespoulet “La edad de oro del sondeo en Rusia (18851924)”, Empiria nº 7,
http://revistas.uned.es/index.php/empiria/article/view/965/884
- José M. Arribas: Presentación del texto de William F. Ogburn
“The folkways of a scientific Sociology”, Empiria Nº 17.
http://e-spacio.uned.es/revistasuned/index.php/empiria/article/view/1992/1867
- Emmanuel Didier (2009). “En quoi consiste l’Amerique? Les
statistiques, le New Deal et la démocratie, Paris, Editions la
découverte.
Antecedentes del Muestreo estadístico
-Laplace estima la población de Francia (muestra
intencionada) siglo XVIII
-Investigaciones agrícolas en USA desde 1863 «crop
reporters». Encuestas agrarias en Noruega desde
1870 (Kiaer)
-En Rusia Kaufman y Chuprov practica desde 1880
extracciones sistemáticas. En 1900 Gurev utiliza la
selección razonada en la encuesta de Vjatka.
-Todavía existen dudas sobre la representatividad del
individuo seleccionado al azar o de forma sistemática
hasta 1925
Muestreo estadístico y cuestión social
-Con el cambio al siglo XX, las encuestas parciales sobre pobreza,
salarios, condiciones de vida de los trabajadores, presupuestos,
consumo, seguros son el sustrato de la reflexión sobre la
representatividad de los datos obtenidos a partir de sub-poblaciones,
que no se presentan todavía como muestras:
ENCUESTAS SOCIALES:
-Inglaterra: Las encuestas Booth y Rowntree (1887) condiciones de la
pobreza, Encuesta del Board of Trade (1909) sobre costes laborales,
Encuesta de Bowley en Reading (1913)
-Noruega: Strom 1888(18.000 hogares) y Kiaer 1890 (11.500 personas)
-Alemania: Encuestas utilizadas por Halbwachs en su tesis de 1913
utilizan grandes muestras pero en las ciudades
-Francia: (1913-14)Encuesta de la SGF no aleatoria dirigida a familias de
obreros, empleados, artesanos, asalariados agrícolas (12.550
cuestionarios distribuidos, 2000 explotados)
Debate sobre la legitimidad de las
encuestas parciales
-La historia de los sondeos corre un camino paralelo a las
prácticas administrativas:
Kiaer: 1895 IIEBerna;1897 San Petesburgo,Instituto
Internacional de Estadística; 1901 Budapest (carta del USA
Department of Labor)
-Bowley: 1906 Presidential Adress to the Economic Section of
the British Association for the Advanced Sciences
-Edgewort, IIE Paris 1909 «On the application of the calculus of
probabilities to statitics»
-Entre 1920 y 1925 la teoría de sondeos se ve enriquecida por
las aportaciones de R. Fisher: Statistical methods for research
workers (1925) (introduce la distinción entre parámetros de la
población y estadísticos de la muestra, la propiedades de estos
cuando son tomados como estimadores, su formalización para
pequeñas muestras)
Debates en el Instituto Internacional de Estadística
• Kiaer, 1895, 1897 sesión del IIE en San Petersburgo
• Edgeworth, XII Sesión Paris, 1909 “On the
application of the calculus of probabilities to
statistics”
• En los años 1920 hay un profundo debate entre los
partidarios de la selección razonada y los
partidarios de la selección al azar.
• En 1925 el IIE sanciona la validez de los dos
metodos, «el método representativo» y «el
método tipológico»
Arthur Lyon Bowley
Arthur Lyon Bowley. (1868-1957)
-Nace en Bristol, England, en la familia de un ministro de la
iglesia anglicana. Queda huérfano de padre con 2 años de
edad
-Estudia matemáticas como becario
-Se orienta hacia la aplicación de las matemáticas en
economía y sociología bajo la influencia de Edgeworth y
Marshall.
-1915 comienza a impartir clases de Estadística Económica
-1919 ocupa la primera cátedra de Estadística en la
Universidad de Londres
-Ocupa puestos de responsabildad en la London School of
Economics.
-Es uno de los fundadores de la International Econometric
Society
Principales trabajos
-Livelihood and Poverty: a study in the economic
conditions of working-class households, with A.R.
Bennett-Hurst, 1915.
-Has Poverty Diminished? with M.Hogg, 1925.
-The National Income 1924 with J. Stamp, 1927.
-Measurement of Precision attained in Sampling
Bulletin de l'Institut International de Statistique,
1926.
-New Survey of London Life and Labour, 1930-35.
-Three Studies in National Income, 1939.
Discurso en la Association Britannique pour
l’Avancement de la Science (1906) (1)
(Publicado en el boletín de la Royal Statistical Society)
-A comienzos del siglo XX la estadística en Gran
Bretaña es casi inexistente. No hay matemáticos
capaces de aplicar sus conocimientos a los asuntos
públicos, por lo que propone desarrollar un amplio
programa que una matemáticas y ciencias sociales.
-La característica fundamental de una ciencia es el
método (un método de medida que permita
diferenciar lo verdadero de lo falso en cualquier
razonamiento basado en la construcción de tablas
estadísticas)
Discurso en la Association Britannique pour
l’Avancement de la Science (1906) (2)
-Las técnicas de recuento existentes son un oficio
estadístico (ars statistique)
-La nueva ciencia estadística, la estadística
matemática, se parece a las ciencias naturales en el
sentido de que sus desarrollos teóricos tiene
aplicaciones prácticas (estudios sobre gradación de
impuestos o estimación del coste de la vida de los
trabajadores)
-Hace de la Estadística una disciplina que incluye la
idea de precisión, para lo cual, toma de la astronomía
la idea de error probable.
Discurso en la Association Britannique pour
l’Avancement de la Science (1906) (3)
No obstante su posición es muy moderada:
«Hay que reconocer que muchas estadísticas son
necesariamente aproximadas. En Estadística, la
exactitud y la precisión consisten en estimar los
límites (bornes) del error probable y posible, la falsa
apariencia de pretendida exactitud matemática debe
abandonarse»
Bowley sitúa el método muestral en el
núcleo de la nueva ciencia estadística (1)
-La consistencia de las estimaciones estadísticas
puede mejorarse mediante la utilización de muestras
cuidadosamente seleccionadas.
-Otros elementos que potencian a la nueva ciencia:
-El interés de las clases populares y los sindicatos por
la estadística.
-Interés de la prensa por la publicación de datos
estadísticos (la prensa comienza a jugar un
importante papel en la elaboración del nuevo
discurso estadístico)
Bowley sitúa el método muestral en el
núcleo de la nueva ciencia estadística (2)
-El método de muestreo disponía de materiales
suficientes a partir de los trabajos realizados por
Edgeworth en 1885.
-Para controlar una medida propone la estimación
más probable, por ejemplo, en una media de salarios
propone enunciados del tipo 24s. + 6d., adoptando la
desviación típica como medida de seguridad (en una
curva normal de frecuencias, dos tercios del área,
están en la desviación tipo)
Bowley sitúa el método muestral en el
núcleo de la nueva ciencia estadística (3)
Propone dos vías para aplicar el nuevo método:
-La de Pearson: una fórmula empírica y el ajuste de
observaciones determinando una curva de frecuencias
apropiada paa asignar la probabilidad de las
observaciones.
-O la de Edgeworth que consiste en aceptar la ley de los
grandes números y de terminar a priori los fenómenos en
los que se puede aplicar esta ley.
Con un ejemplo de datos facilitados por el Investor’s Record y del
Almanach Nautique, muestra que todos los elementos del conjunto
deben tener la misma probabilidad de selección y que la precisión no
depende del tamaño de la población a muestrear, sino de su naturaleza,
y del tamaño de las muestras
Manuales que incluyen muestreo
-Bowley 1909 “An Elementary manual of statistics”
Ocho páginas sobre muestreo de un total de 247.
-Yule 1911 “An introduction to the theory of
statistics” Texto de referencia hasta 1937.(La teoría
muestral ocupa la tercera parte del texto)
-Kovalevskii 1924 Fundamentos de la teoría del
método de los sondeos (afijación óptima por
estrato) a partir del sondeo por estratos propuesto
por Chuprov en 1910
-Fisher 1925 «Statistical methods for research
workers»
1923:Encuesta sobre parados
-El Ministerio de trabajo británico necesitaba una
«fotografía detallada» de 1.250.000 parados
-John Hilton analiza una de cada tres solicitudes y
realizaron el análisis sobre 372.857 personas.
-Los clasificaron por edad, sexo, estado civil,
industria,número de dependientes a su cargo, días
que había cobrado subsidio, días cotizados, etc.
-Pero hacía falta una entrevista personal para
obtener información adicional.
-Según la reomendación de Bowley, para el siguiente
informe analizaron uno de cada 10.000 casos.
Que tamaño debe tener n
• «Podemos formarnos una idea preliminar de la
magnitud p o S en el universo, y podemos decidir
que precisión deseamos obtener. Si esperamos que
p sea alrededor de 0,3 y deseamos un error típico de
estimación más pequeño de 0,01, la respuesta es de
naturaleza 30 + 1 por ciento, entonces la solución es
0,01 = 𝑝𝑞/𝑛 de modo que n=2.100».
1925: aceptación oficial del muestreo
representativo
-Jensen A (1926) Report on the representative method in
statistics, Bulletin IIS XXII
-Bowley A.L. (1926) Measurement of the precision
attained in sampling, Bulletin IIS XXII-I
-Kovalevskii 1924 Fundamentos de la teoría del método
de los sondeos (afijación óptima por estrato) a partir del
sondeo por estratos propuesto por Chuprov en 1910
-Fisher 1925 «Statistical methods for research workers
-William F. Ogburn (1929)“The folkways of a scientific
Sociology”. Presidencial Adress leída ante la Asociación
de Sociogía Norteamericana
http://revistas.uned.es/index.php/empiria/article/view/
1992/1867
Consolidación después de la II Guerra mundial
-Creación de Oficinas centrales de Estadística en los
países europeos y en los países que han participado
en la Guerra.
-Creación del INE en 1945
-Viaje de Levi-Bruhl por parte del INSEE a la Oficina
del Censo de EEUU.
-(1949) Viaje de Enrique Cansado por parte del INE a
la Oficina del Censo de EEUU,(1950) Curso Inicial
sobre Muestras y sus Fundamentos.
-Explotación muestral del Censo de 1950.
Nuevas tecnología y Big Data
-La aparición de las nuevas tecnologías de la información
ha hecho posible el tratamiento masivo de datos. La
digitalización supone un cambio radical.
-Las muestras vuelven a ocupar un lugar residual
-Frente a la idea de precisión y error de medida, aparece
la inmediatez de los tratamientos masivos de datos.
Google procesa al día mas de 24 petabytes.
-Internet ha hecho que surja un nuevo modo de hacer
estudios de mercado y de opinión publica. Twitter,
Linkedin y Facebook trazan la “gráfica social” de
relaciones de los usuarios.
-La informática importa tanto como la estadística.
-Desarrollo de la minería de datos
La revolución del Big Data
-En el siglo XX el valor de la economía se
desplaza hacia intangibles como la marca y la
propiedad intelectual.
-En el siglo XXI, se desplaza hacia los datos
-Aparición de nuevos modelo predictivos
- Herramientas que comenzaron a ser usadas
por compañías como Walmart o Capital One,
ahora se han democratizado y son accesibles a
mucha gente.
Análisis del 15 M (twitter) Javier Toret
Medir y monitorizar con pirendo iván
rodríguez 2014
¿Qué podemos monitorizar?
• TWITTER:
• @Usuarios (propio, competencia, expertos…)
• #Hashtags (propios, de la competencia, del sector…)
• Palabras (marca, empresa, sector…)
• Cadenas de palabras (producto, caso, personaje, lugar…)
• FACEBOOK:
• Páginas (propia, competencia, expertas, promociones,
productos…)
• Palabras y cadenas de palabras (marca, empresa, sector…)
• Publicaciones concretas (producto, caso, campañas…)
¿Qué obtenemos?
• Usuario-página-canal, actividad, contenidos, horarios, efectividad,
influencia, alcance, costumbres…
• Comunidad, clasificación por localización, género, edad o segmentación
por influencia, tema, compromiso…
• Citas, comportamiento y conducta de los usuarios hacia la empresa, qué
opinan, cómo, cuándo…
• Menciones a la marca, usuario, hashtag, producto, dónde, cuánto, quién,
por qué…
• Alcance, difusión, impresiones, potenciales, mercado…
#Hotelfacts
V. Mayer-Schönberger, K. Cukier (2013): “Big Data. La revolución de
los datos masivos”, Turner Noema
“La mayor parte de nuestras instituciones han sido creadas
bajo la presunción de que las decisiones humanas se basan
en una información contada, exacta y de naturaleza causal.
Pero la situación cambia cuando los datos son enormes,
pueden procesarse rápidamente y admiten la inexactitud.
Es mas, debido al vasto tamaño de la información, muy a
menudo las decisiones no las tomarán los seres humanos,
sino las máquinas”, p.29
V. Mayer-Schönberger, K. Cukier (2013): “Big Data. La revolución de
los datos masivos”, Turner Noema
“El muestreo aleatorio ha constituido un tremendo éxito, y
es la espina dorsal de la medición a escala moderna. Pero
no deja de ser un atajo, una alternativa de segundo orden
a recopilar y analizar el conjunto entero de datos. Trae
consigo una serie de debilidades inherentes. Su exactitud
depende de que se haya garantizado la aleatoriedad al
recopilar los datos de la muestra, pero el logro de esa
aleatoriedad resulta peliagudo. Se producen sesgos
sitemáticos en la forma de recopilar los datos que pueden
hacer que los resultados extrapolados sean muy
incorrectos” ) p.38.
Arqueología del muestreo estadístico:
de Arthur L. Bowley a los Big Data
MUCHAS GRACIAS
(*) Viktor Mayer-Schönberger, Kenneth Cukier
(2013), “Big Data. La revolución de los datos
masivos”, Turner Noema