Resúmenes ponencias III Jornadas de Estadística - MAREN

Resúmenes ponencias III Jornadas de Estadística Aplicada
Noviembre 2015, La Paloma, Rocha
1.- Procesos de Ornstein Uhlenbeck fraccionarios
Juan Kalemkerian
CMAT-FCIEN-UdelaR, [email protected]
Los procesos estocásticos estacionarios llamados de memoria larga tienen una estructura de
covarianzas que tiende a cero lentamente, de tal forma que su serie es divergente. Los
procesos de Ornstein Uhlenbeck fraccionarios, son procesos gaussianos de memoria larga y
han tenido un amplio desarrollo tanto teórico como práctico desde comienzos del siglo
XXI. Se han encontrado buenas aplicaciones de estos procesos en áreas tan dispares como
hidrología, física, medicina, genética, tráfico de internet y finanzas.
En esta charla, daremos la definición de estos procesos, sus principales propiedades
teóricas, los métodos de estimación de sus parámetros, y también la generación de nuevos
procesos de memoria larga, componiendo una cantidad finita de procesos Ornstein
Uhlenbeck fraccionarios.
2.- Coexistencia de especies: Incorporando la variabilidad intraespecífica
Lucía Rodríguez-Tricot* y Matías Arim
*FCIEN y CURE- UdelaR, [email protected]
El tamaño corporal es un atributo básico de los organismos que afecta su percepción y
utilización del ambiente. La distribución de tamaños en una comunidad reflejaría la acción
de los principales mecanismos ecológicos y evolutivos. La idea de similitudes límites en el
tamaño de especies coexistentes es central a teorías clásicas y contemporáneas donde ha
predominado una visión tipológica considerándose el efecto del tamaño corporal promedio
en la coexistencia. A pesar de ser generalmente ignorada, la varianza participa en los
procesos de coexistencia afectando el grado de sobreposición entre especies. En este trabajo
reportamos un escalamiento varianza=a.mediab en los tamaños de invertebrados de una
metacomunidad de charcos temporales. Esto permite estimar un segundo escalamiento: la
relación entre la diferencia en tamaño corporal de especies adyacentes y su tamaño corporal
promedio, tal que se mantenga constante el grado de sobreposición entre especies. El
intercepto de este escalamiento representa la sobreposición promedio y la pendiente si esta
sobreposición es independiente al tamaño corporal o si aumenta o disminuye con este;
como fuera sugerido por predicciones antagónicas de la teoría disponible. Esto permite un
nuevo abordaje al análisis empírico de patrones de coexistencia de especies.
3.- Combinación de métodos para predicción de características complejas basado en
la complementariedad en los datos
María Inés Fariello
Instituto Pasteur, [email protected]
En producción animal y vegetal, una de las áreas que se ha desarrollado en los últimos
tiempos es la predicción genómica. Esta área trata de predecir, basándose en el genoma de
los individuos, cuáles van a ser mejores que otros basándose en ciertas características. En
general varios genes influyen estas características, por lo que se les llama características
complejas. Las bases de datos que podrían usarse, en general tienen muchas variables
respecto a la cantidad de individuos (n<<p), por lo tanto es muy difícil encontrar
precisamente cuáles de las variables influyen en la característica, pero, tomando un
conjunto de animales como muestra de entrenamiento, se puede, en general predecir qué
animales de la muestra de testeo serán los mejores. Para ello, diversos métodos se han
utilizado: existe toda una batería de métodos bayesianos, pero también se han aplicado
métodos de reconocimiento de patrones, por ejemplo support vector machines, uso de
núcleos o redes neuronales. En la literatura se ha comprobado, que no hay un método que
sea mejor que otro, y que en general depende de la característica que se quiera predecir.
Este resultado muestra por lo tanto que los métodos trabajan de distinta manera y que
tienen cierta complementariedad a la hora de aprovechar la información.
En este trabajo proponemos combinar los métodos que parezcan ser complementarios (los
menos correlacionados), aprendiendo los coeficientes de la combinación lineal de los datos
mismos. Por lo tanto, agregando un tercer conjunto al de entrenamiento y al de testeo, que
es el de validación.
4.- Graph Fragmentation Problem
Juan Piccini
IMERL-FING-UdelaR, [email protected]
A combinatorial optimization problem called Graph Fragmentation Problem (GFP) is
introduced. The decision variable is a set of protected nodes, which are deleted from the
graph. An attacker picks a non-protected node at random from the resulting subgraph, and it
completely affects the corresponding connected component. The goal is to minimize the
expected number of affected nodes. The GFP finds applications in fire fighting,
epidemiology and robust network design. A Greedy notion for the GFP is presented. Then,
we develop a GRASP heuristic enriched with a Path-Relinking post-optimization phase.
5.- Análisis no lineal de series temporales en espacios de estados de alta dimensión
Diego Gabriel Fernández
UdelaR y BCU, [email protected]
En este artículo se desarrolla una metodología para el estudio de series temporales en
espacios de estados de altas dimensiones mediante herramientas de dinámica caótica.
En primer lugar se plantea un índice de inestabilidad multivariada en n dimensiones y se
compara con la varianza para el caso n = 1. En segundo lugar se estudia la sincronización
entre espacios de estados de forma de medir la evolución conjunta de series de tiempo.
Se realiza una aplicación a series simuladas y series financieras de frecuencia diaria.
6.- Dinámica espacio-temporal de genotipos tóxicos de Microcystis spp. en el gradiente
Río Uruguay-Río de la Plata
Gabriela Martínez de la Escalera*; Angel Segura; Carla Kruk; Claudia Piccini
*IIBCE-MEC, [email protected]
Las floraciones de cianobacterias potencialmente tóxicas en ecosistemas acuáticos son un
problema ambiental preocupante a nivel mundial. Si bien en Uruguay las floraciones de
cianobacterias son un fenómeno cada vez más frecuente, no existen en la actualidad
herramientas de fácil implementación para la predicción de su abundancia y toxicidad que
sean aplicables a la gestión. Esta propuesta plantea estudiar la distribución y diversidad de
cianobacterias productoras de microcistinas en el ecosistema acuático Río Uruguay-Río de
la Plata utilizando una aproximación basada en la evaluación genética de alta sensibilidad.
Para llevar a cabo el estudio se realizaron seis campañas de muestreo bimensuales (20132014) en 6 localidades evaluando dos sitios en cada una desde Salto hasta Punta del Este.
Se determinó la abundancia de genotipo tóxicos mediante PCR cuantitativo en tiempo real
dirigido a genes del cluster mcy (mcyB, mcyD, mcyE y mcyJ) involucrados en la síntesis
de microcistinas. Para estudiar la diversidad de genotipos tóxicos se analizó la variabilidad
del gen mcyJ mediante la técnica High Resolution Melting Analysis (HRMA). Se
encontraron genotipos tóxicos en todo el gradiente, con mayor abundancia en Salto
disminuyendo hacia Punta del Este. Asimismo, su concentración fue mayor en los meses de
verano. Un patrón diferente presentó el gen mcyD, el cual tuvo máximos valores de
abundancia en invierno sugiriendo que podría tratarse de un marcador de genotipos tóxicos
que proliferarían a bajas temperaturas (rs=-0,33 p&lt;0,05). En base a diversos análisis
estadísticos (modelos lineales generalizados, CART y bosques aleatorios) se halló que las
variables ambientales más importantes en determinar la distribución de genotipos tóxicos
fueron la conductividad y la temperatura. Las estaciones de Salto y Punta del Este, los
extremos de salinidad, presentaron comunidades de genotipos mcyJ diferentes al resto de
los sitios (análisis de custer). Los sitios estuarinos (Colonia y Montevideo) tuvieron una
mayor variabilidad temporal de genotipos mcyJ, lo cual se correspondió con la variabilidad
observada en la salinidad para ambos sitios. Además de los resultados ecológicos
obtenidos, se generó un modelo de predicción basado en bosques aleatorios del nivel de la
abundancia de genotipos tóxicos el cual puede ser entrenado con nuevas bases de datos y
utilizado para el monitoreo y gestión del ecosistema Río Uruguay-Río de la Plata.
7.- Un método no lineal de agregación de clasificadores
Alejandro Cholaquidis
CMAT-FCIEN-UdelaR, [email protected]
Dada una muesta D_n={(X_1,Y_1),...,(X_n,Y_n)} iid de (X,Y), con X una variable
aleatoria a valores en un espacio finito o infinito dimensional e Y a valores en {0,1}, y un
conjunto de clasificadores binarios g_1,...,g_M construidos a partir de un subconjunto de
dicha muestra, veremos que es posible combinarlos de forma no lineal y obtener un nuevo
clasificador, basado en D_n, consistente (si alguno de los g_i lo era) y asintóticamente tan
bueno como el mejor de los M clasificadores. Veremos además que es posible asignarle
pesos a los clasificadores, de modo de penalizar aquellos cuya performance es peor.
8.- Modelo de estimación del biovolumen para colonias del Complejo Microcystis
aeruginosa
Ignacio Alcátnara*, Segura, A.; Calliari, D.; Piccini, C; Kruk, C.
*FCIEN-UdelaR, [email protected]
Dentro de los grupos de cianobacterias que comúnmente forman floraciones se encuentra el
Complejo Microcystis aeruginosa (CMA). Este incluye a los organismos del género
Microcystis y afines (e.g.: Sphaerocavum y Radiocystis). Es uno de los más comunes
gracias a su capacidad de acumular grandes biomasas superficiales, y soportar el arrastre y
la mezcla intermitente en ecosistemas con alta carga de nutrientes y embalsados,
condiciones cada vez más comunes en el mundo. En los monitoreos de calidad de agua y
floraciones de cianobacterias se utilizan distintos indicadores de biomasa incluyendo la
clorofila-a, el número de células y el biovolumen. Este último en el caso de los organismos
del CMA, puede variar mucho con el tamaño que alcanzan las colonias. La estimaciones de
volumen para organismos grandes como los del CMA son dificultosas debido a que en los
microscopios convencionales no es posible medir en profundidad por lo que se recurre a
realizar medidas simplificadas mediante esferas obteniéndose así sobre-estimaciones del
volumen real. En este trabajo se generó un modelo de regresión lineal que permite estimar
la profundidad de las colonias del CMA a partir de las medidas del largo y ancho (LogProf
= 0,95 + 0,37 * LogLargo + 0,08*LogAncho; R2= 0,31, p&lt; 0,001). Esto fue posible
gracias a la utilización de un microscopio con software acoplado que permite medir la
profundidad. Para la construcción del modelo se utilizaron datos provenientes de una
campaña realizada en 6 estaciones en el sistema Río Uruguay-Río de la Plata (Salto Grande
hasta Punta del Este) durante el 2013. Posteriormente y con una nueva serie de datos
obtenidos unicamente para el Río Uruguay en el año 2015 se procedió a la validación del
mismo. La correlación entre los datos observados y modelados fue muy fuerte (rs=0,96,
p&lt;0,01)
indicando
una
buena
respuesta
del
modelo
obtenido.
Contar con una herramienta que permite calcular la profundidad facilita el trabajo
reduciendo el tiempo de toma de medidas y evita la sobreestimación del volumen
individual y por lo tanto del biovolumen en el agua. La generación de un protocolo de
monitorio en base a estas herramientas tiene la ventaja de su fácil implementación siendo
factible incluso su automatización mediante un software.
9.- Downscaling of extremes: empirical and theoretical issues. Application to severe
precipitation.
Liliane Bel*, A.Béchler, C. Lantuéjoul, M.Oesting, M.Vrac
*Paris Agrotech, [email protected]
General Climate Models (GCM) widely used for projections from scenarios usually have a
very coarse resolution (up to 250 km grid cells) and cannot reproduce local behavior such
as extreme events. Downscaling techniques have to be used to produce features at a lower
scale. In these works we focus on spatial downscaling techniques that provide simulations
on extremes at a local scale according to some information given by GCMs. An empirical
approach based on well-known downscaling methods and conditional simulations of maxstable random fields will be presented together with some theoretical considerations.
10.- Segmentación por beneficios buscados - el caso del Departamento de Rocha
Martín Sprechmann
CURE-UdelaR, [email protected]
La investigación segmenta los turistas residentes en Montevideo que visitan Rocha en
verano de acuerdo a los beneficios buscados. Contrariamente a las segmentaciones “a
priori”, estos estudios tienen como objetivo descubrir la información (en este caso los
beneficios buscados) en función de las respuestas a un cuestionario con la menor cantidad
posible de supuestos. Se realizó una encuesta online compuesta por residentes de
Montevideo que visitaron el Departamento en el verano de 2013 con fines de ocio y
turismo. Primeramente se realizó un análisis factorial de componentes principales (AFCP)
para detectar la estructura subyacente de los datos en términos de unos pocos factores
explicativos de la vacación. En segundo lugar se efectuó un análisis cluster jerárquico y uno
de K-medias para agrupar a los turistas en segmentos de turistas. Éstos fueron clasificados
según variables sociodemográficas, de comportamiento y organización del viaje y de gasto
individual diario en el territorio. Se obtuvieron cuatro segmentos de visitantes. Los
resultados pueden ser útiles para la Corporación Rochense de Turismo a efectos de elaborar
mensajes que permitan una comunicación más eficaz y eficiente con estos segmentos.
La exposición es un trabajo conjunto con mi tutor de Maestría Carlos Scarone y extensiones
realizadas en el Observatorio Turístico de Rocha con Gonzalo Perera.
11.- El clima y la estadística: Una relación significativa al 99 %
Madelaine Renom
Departamento de Ciencias
[email protected]
de
la
Atmósfera,
Instituto
de
Física,
FCIEN,
Los informes del Panel Intergubernamental de Cambio Climático son recordados por la
frase de atribución del efecto antropogénico al cambio climático con expresiones como: es
“altamente probable” haciendo referencia a la probabilidad de que el hombre este afectando
el clima. Pero en la investigación del clima la estadística es una herramienta fundamental
para comenzar a comprender ciertos estados así como poder compararlo entre las
observaciones y los modelos dinámicos. En la charla hablaremos de las técnicas más
utilizadas en las ciencias del clima para definir patrones de circulación (por ej. El Niño,
Modo Anular del Sur, etc) y su relación con variables atmosféricas (temperatura,
precipitación etc). Por otro lado, una de las ramas de investigación en la que estadísticos y
climatólogos deben trabajar en conjunto es sobre el estudio de extremos climáticos. Esta
nueva línea de investigación abarca desde las diferentes técnicas estadísticas para realizar
control de calidad de los datos, hasta diferentes métricas para definir los eventos. Aprender
a interpretar y leer los resultados y análisis estadísticos es todo un desafío en las ciencias
del clima.
12.- Estadística sobre datos turísticos
Gonzalo Perera
Modelización y Análisis de Recursos Naturales, CURE, [email protected]
EL Turismo es una actividad económica de gran importancia a nivel mundial y muy
particularmente
en
los
departamentos
de
Maldonado
y
Rocha.
Los datos posibles de obtener por mecanismos de muy diversa índole, por referir a
actividades de personas, y personas en periodo de esparcimiento, son particularmente
parciales e incompletos, carecen de trazabilidad, etc., dando lugar a un conjunto de datos
con fuertes y variados mecanismos de censura, sesgos, etc. Esto genera interesantes
desafíos estadísticos a la hora de realizar estudios técnicos de soporte a la toma de
decisiones en dicha actividad. Compartiremos un ejemplo suscitado en la experiencia
concreta del departamento de Rocha.
13.- Reduciendo eficientemente la aleatoriedad de una muestra
Carlos Matrán BEA
IMUVA. Universidad de Valladolid, [email protected]
La exposición incluirá unas consideraciones previas sobre los contrastes de validez
aproximada de una hipótesis estadística, introducidos en Hodges y Lehmann (1954) en
modelos paramétricos. Como aproximación alternativa a este tipo de problema, nosotros
recurriremos a la idea de similitud de dos distribuciones, que puede describirse
adecuadamente en términos probabilísticos recurriendo a un modelo de contaminación.
Este modelo admite una representación dual en términos de recortes, que permite diseñar
procedimientos basados en buscar la submuestra más acorde al modelo ideal. La
metodología está basada en la idea de que los "retoques” de una muestra obtenida del
modelo ideal producen muestras demasiado perfectas que las hace detectables. Esta idea se
sustenta en un sobre-ajuste que puede describirse en términos de tasas de convergencia, un
resultado que obtenemos a partir de argumentos de colocación aleatoria de bolas en urnas,
recurriendo a particiones adecuadas del espacio. Mostraremos además las tasas óptimas y
su relación con el famoso problema del transporte óptimo.
14.- Caracterización morfológica, genética y óptica de floraciones tóxicas y no tóxicas
del Complejo Microcystis aeruginosa
Susana Deus Álvarez
IIBCE, MEC, [email protected]
Las floraciones de fitoplancton nocivas y potencialmente tóxicas son un serio problema
ambiental de amplia distribución mundial. Entre las floraciones más frecuentes en nuestro
país se encuentran las que forman las especies del género Microcystis y afines. Éstas
forman densas masas superficiales que muchas veces son multiespecíficas y difíciles de
distinguir taxonómicamente. Sin embargo, tienen similares composición genética y rasgos
funcionales (morfológicos y fisiológicos), así como similares respuestas a los cambios
ambientales. Por esta razón se las agrupa en el complejo Microcystis aeruginosa (CMA) y
se les puede asignar a un mismo grupo funcional en base a su morfología. Esta agrupación
simplifica el monitoreo, la predictibilidad y la generación de medidas de manejo, siendo de
fácil aplicación para cualquier especie u organismo en base a su morfología.
Las cianobacterias del CMA producen microcistinas, un tipo de cianotoxinas que producen
en los humanos gastroenteritis, daño en el hígado y hasta la muerte. No se conocen a día de
hoy los mecanismos por los cuales algunas cepas desarrollan la toxina y otras no. Sin
embargo, algunos estudios afirman que existe una relación entre el tamaño de las colonias y
la toxicidad, indicando que aquellas cuyo tamaño es mayor a 100 µm son las más tóxicas.
Asimismo, el tamaño también se ha asociado a la presencia de los genes que codifican para
microcistinas (mcy). Por otra parte, se ha observado que el tamaño, la forma y otros rasgos
morfológicos como las vacuolas de gas, de los organismos del fitoplancton, afectan sus
propiedades ópticas dispersando y absorbiendo de distintas maneras la luz. La hipótesis de
este proyecto es que las similitudes morfológicas y ópticas de los organismos del CMA
permiten su identificación mediante adquisición remota de imágenes. Asimismo, dado que
la morfología refleja su potencial para producir toxinas, será posible determinar la
probabilidad de que la floración sea tóxica. El objetivo es relacionar la morfología de
comunidades naturales de fitoplancton dominadas y no por el CMA con sus propiedades
ópticas inherentes y con la presencia de toxinas y genes mcy. Las muestras serán
procesadas para estimar la morfología, abundancia y biovolumen de todos los organismos
del fitoplancton así como la concentración de genes mcy y de microcistinas totales. Se
tomarán fotografías que mediante la aplicación “Hydrocolor” permitirá registrar las
propiedades ópticas del cuerpo de agua.
La relación entre las propiedades ópticas,
morfológicas y toxicidad permitirá generar una herramienta de monitoreo de calidad de
agua y floraciones tóxicas de cianobacterias del CMA. Esta podría ser aplicable a celulares
inteligentes u otros aparatos compactos electrónicos de uso común que permiten a los
usuarios interactuar de diferentes maneras en la red.
15.- Game-theoretically Optimal Reconciliation of Contemporaneous Hierarchical
Time Series Forecasts
Jairo Cugliari* & T. van Erven
*Université de Lyon, [email protected]
In hierarchical time series (HTS) forecasting, the hierarchical relation between multiple
time series is exploited to make better forecasts. This hierarchical relation implies one or
more aggregate consistency constraints that the series are known to satisfy. Many existing
approaches, like for example bottom-up or top-down forecasting, therefore attempt to
achieve this goal in a way that guarantees that the forecasts will also be aggregate
consistent. This package provides with an implementation of the Game-Theoretically
OPtimal (GTOP) reconciliation method proposed in van Erven and Cugliari (2015), which
is guaranteed to only improve any given set of forecasts. This opens up new possibilities
for constructing the forecasts. For example, it is not necessary to assume that bottom-level
forecasts are unbiased, and aggregate forecasts may be constructed by regressing both on
bottom-level forecasts and on other covariates that may only be available at the aggregate
level.
16.- Explorando metodologías alternativas para el análisis de los determinantes del
tamaño corporal
Daniel Hernández* y Lucía Rodríguez-Tricot
*CURE-UdelaR, [email protected]
El tamaño corporal es una de las características que puede resumir mayor cantidad de
información biológica de un individuo o especie. Esto se debe a que se relaciona
directamente con la tasa metabólica, y ésta con prácticamente todas las variables ecológicas
o fisiológicas de los organismos. En este sentido, el análisis de la distribución de tamaños
corporales y sus posibles determinantes brinda perspectivas para la comprensión de los
principales procesos que estructuran las comunidades y por tanto representa un importante
insumo para la gestión de los recursos naturales. Este trabajo comparó el desempeño de
distintos modelos estadísticos para predecir los tamaños corporales de individuos de dos
especies de peces anuales en base a ciertas variables ambientales. La base de datos
analizada consiste en la información de 3430 individuos, colectados en nueve muestreos
realizados entre el 2006 y el 2013 en un sistema de charcos temporales ubicado cerca de la
localidad de Castillos (Dpto. de Rocha). Fueron ajustados los siguientes tipos de modelos:
modelo lineal generalizado (GLM), modelo aditivo generalizado (GAM), árbol de regresión
(CART), Bagging, y Random Forest. Si bien el ajuste del GLM no fue bueno (R2=0.12),
presentaron junto con el CART el menor error por muestra de prueba. Es destacable que la
importancia de cada variable fue similar entre los distintos tipos de modelo evaluados. No
obstante, tanto el GLM como el CART poseen un mayor potencial para predecir los
tamaños corporales en función de las variables ambientales. Además, dada la mayor
interpretabilidad de los resultados, los convierte en buenas herramientas para tomar
medidas de control, conservación o manejo de sistemas naturales.
17.- Problemas de Graph Matching: resultados probabilísticos y determinísticos
Marcelo Fiori
IMERL-FING-UdelaR, [email protected]
Dados dos grafos, el problema denominado Graph Matching Problem consiste en encontrar
el mejor alineamiento entre ellos, de acuerdo a cierto criterio. Este problema es de gran
interés tanto desde un punto de vista algorítmico como teórico, además de las importantes
aplicaciones que tiene. El interés y la dificultad de este problema tienen raíz en la
naturaleza combinatoria del mismo: el costo de buscar entre todas las permutaciones
posibles crece exponencialmente con el número de nodos, y por lo tanto se vuelve
rápidamente intratable, incluso para grafos chicos. La pregunta principal que atacaremos en
esta charla es la siguiente: ¿cuándo el problema de graph matching y su relajación convexa
tienen la misma solución?
Primero damos un enfoque probabilístico mostrando que, asintóticamente, la relajación
convexa más común falla, mientras que una relajación no convexa es capaz de resolver el
problema con probabilidad uno, siempre y cuando los grafos originales estén lo
suficientemente correlacionados. Por otro lado, mencionaremos algunos resultados
determinísticos, que establecen condiciones sobre los valores y vectores propios de las
matrices de adyacencia de los grafos para garantizar que el problema de graph matching y
su relajación convexa tengan la misma solución.