Resúmenes ponencias III Jornadas de Estadística Aplicada Noviembre 2015, La Paloma, Rocha 1.- Procesos de Ornstein Uhlenbeck fraccionarios Juan Kalemkerian CMAT-FCIEN-UdelaR, [email protected] Los procesos estocásticos estacionarios llamados de memoria larga tienen una estructura de covarianzas que tiende a cero lentamente, de tal forma que su serie es divergente. Los procesos de Ornstein Uhlenbeck fraccionarios, son procesos gaussianos de memoria larga y han tenido un amplio desarrollo tanto teórico como práctico desde comienzos del siglo XXI. Se han encontrado buenas aplicaciones de estos procesos en áreas tan dispares como hidrología, física, medicina, genética, tráfico de internet y finanzas. En esta charla, daremos la definición de estos procesos, sus principales propiedades teóricas, los métodos de estimación de sus parámetros, y también la generación de nuevos procesos de memoria larga, componiendo una cantidad finita de procesos Ornstein Uhlenbeck fraccionarios. 2.- Coexistencia de especies: Incorporando la variabilidad intraespecífica Lucía Rodríguez-Tricot* y Matías Arim *FCIEN y CURE- UdelaR, [email protected] El tamaño corporal es un atributo básico de los organismos que afecta su percepción y utilización del ambiente. La distribución de tamaños en una comunidad reflejaría la acción de los principales mecanismos ecológicos y evolutivos. La idea de similitudes límites en el tamaño de especies coexistentes es central a teorías clásicas y contemporáneas donde ha predominado una visión tipológica considerándose el efecto del tamaño corporal promedio en la coexistencia. A pesar de ser generalmente ignorada, la varianza participa en los procesos de coexistencia afectando el grado de sobreposición entre especies. En este trabajo reportamos un escalamiento varianza=a.mediab en los tamaños de invertebrados de una metacomunidad de charcos temporales. Esto permite estimar un segundo escalamiento: la relación entre la diferencia en tamaño corporal de especies adyacentes y su tamaño corporal promedio, tal que se mantenga constante el grado de sobreposición entre especies. El intercepto de este escalamiento representa la sobreposición promedio y la pendiente si esta sobreposición es independiente al tamaño corporal o si aumenta o disminuye con este; como fuera sugerido por predicciones antagónicas de la teoría disponible. Esto permite un nuevo abordaje al análisis empírico de patrones de coexistencia de especies. 3.- Combinación de métodos para predicción de características complejas basado en la complementariedad en los datos María Inés Fariello Instituto Pasteur, [email protected] En producción animal y vegetal, una de las áreas que se ha desarrollado en los últimos tiempos es la predicción genómica. Esta área trata de predecir, basándose en el genoma de los individuos, cuáles van a ser mejores que otros basándose en ciertas características. En general varios genes influyen estas características, por lo que se les llama características complejas. Las bases de datos que podrían usarse, en general tienen muchas variables respecto a la cantidad de individuos (n<<p), por lo tanto es muy difícil encontrar precisamente cuáles de las variables influyen en la característica, pero, tomando un conjunto de animales como muestra de entrenamiento, se puede, en general predecir qué animales de la muestra de testeo serán los mejores. Para ello, diversos métodos se han utilizado: existe toda una batería de métodos bayesianos, pero también se han aplicado métodos de reconocimiento de patrones, por ejemplo support vector machines, uso de núcleos o redes neuronales. En la literatura se ha comprobado, que no hay un método que sea mejor que otro, y que en general depende de la característica que se quiera predecir. Este resultado muestra por lo tanto que los métodos trabajan de distinta manera y que tienen cierta complementariedad a la hora de aprovechar la información. En este trabajo proponemos combinar los métodos que parezcan ser complementarios (los menos correlacionados), aprendiendo los coeficientes de la combinación lineal de los datos mismos. Por lo tanto, agregando un tercer conjunto al de entrenamiento y al de testeo, que es el de validación. 4.- Graph Fragmentation Problem Juan Piccini IMERL-FING-UdelaR, [email protected] A combinatorial optimization problem called Graph Fragmentation Problem (GFP) is introduced. The decision variable is a set of protected nodes, which are deleted from the graph. An attacker picks a non-protected node at random from the resulting subgraph, and it completely affects the corresponding connected component. The goal is to minimize the expected number of affected nodes. The GFP finds applications in fire fighting, epidemiology and robust network design. A Greedy notion for the GFP is presented. Then, we develop a GRASP heuristic enriched with a Path-Relinking post-optimization phase. 5.- Análisis no lineal de series temporales en espacios de estados de alta dimensión Diego Gabriel Fernández UdelaR y BCU, [email protected] En este artículo se desarrolla una metodología para el estudio de series temporales en espacios de estados de altas dimensiones mediante herramientas de dinámica caótica. En primer lugar se plantea un índice de inestabilidad multivariada en n dimensiones y se compara con la varianza para el caso n = 1. En segundo lugar se estudia la sincronización entre espacios de estados de forma de medir la evolución conjunta de series de tiempo. Se realiza una aplicación a series simuladas y series financieras de frecuencia diaria. 6.- Dinámica espacio-temporal de genotipos tóxicos de Microcystis spp. en el gradiente Río Uruguay-Río de la Plata Gabriela Martínez de la Escalera*; Angel Segura; Carla Kruk; Claudia Piccini *IIBCE-MEC, [email protected] Las floraciones de cianobacterias potencialmente tóxicas en ecosistemas acuáticos son un problema ambiental preocupante a nivel mundial. Si bien en Uruguay las floraciones de cianobacterias son un fenómeno cada vez más frecuente, no existen en la actualidad herramientas de fácil implementación para la predicción de su abundancia y toxicidad que sean aplicables a la gestión. Esta propuesta plantea estudiar la distribución y diversidad de cianobacterias productoras de microcistinas en el ecosistema acuático Río Uruguay-Río de la Plata utilizando una aproximación basada en la evaluación genética de alta sensibilidad. Para llevar a cabo el estudio se realizaron seis campañas de muestreo bimensuales (20132014) en 6 localidades evaluando dos sitios en cada una desde Salto hasta Punta del Este. Se determinó la abundancia de genotipo tóxicos mediante PCR cuantitativo en tiempo real dirigido a genes del cluster mcy (mcyB, mcyD, mcyE y mcyJ) involucrados en la síntesis de microcistinas. Para estudiar la diversidad de genotipos tóxicos se analizó la variabilidad del gen mcyJ mediante la técnica High Resolution Melting Analysis (HRMA). Se encontraron genotipos tóxicos en todo el gradiente, con mayor abundancia en Salto disminuyendo hacia Punta del Este. Asimismo, su concentración fue mayor en los meses de verano. Un patrón diferente presentó el gen mcyD, el cual tuvo máximos valores de abundancia en invierno sugiriendo que podría tratarse de un marcador de genotipos tóxicos que proliferarían a bajas temperaturas (rs=-0,33 p<0,05). En base a diversos análisis estadísticos (modelos lineales generalizados, CART y bosques aleatorios) se halló que las variables ambientales más importantes en determinar la distribución de genotipos tóxicos fueron la conductividad y la temperatura. Las estaciones de Salto y Punta del Este, los extremos de salinidad, presentaron comunidades de genotipos mcyJ diferentes al resto de los sitios (análisis de custer). Los sitios estuarinos (Colonia y Montevideo) tuvieron una mayor variabilidad temporal de genotipos mcyJ, lo cual se correspondió con la variabilidad observada en la salinidad para ambos sitios. Además de los resultados ecológicos obtenidos, se generó un modelo de predicción basado en bosques aleatorios del nivel de la abundancia de genotipos tóxicos el cual puede ser entrenado con nuevas bases de datos y utilizado para el monitoreo y gestión del ecosistema Río Uruguay-Río de la Plata. 7.- Un método no lineal de agregación de clasificadores Alejandro Cholaquidis CMAT-FCIEN-UdelaR, [email protected] Dada una muesta D_n={(X_1,Y_1),...,(X_n,Y_n)} iid de (X,Y), con X una variable aleatoria a valores en un espacio finito o infinito dimensional e Y a valores en {0,1}, y un conjunto de clasificadores binarios g_1,...,g_M construidos a partir de un subconjunto de dicha muestra, veremos que es posible combinarlos de forma no lineal y obtener un nuevo clasificador, basado en D_n, consistente (si alguno de los g_i lo era) y asintóticamente tan bueno como el mejor de los M clasificadores. Veremos además que es posible asignarle pesos a los clasificadores, de modo de penalizar aquellos cuya performance es peor. 8.- Modelo de estimación del biovolumen para colonias del Complejo Microcystis aeruginosa Ignacio Alcátnara*, Segura, A.; Calliari, D.; Piccini, C; Kruk, C. *FCIEN-UdelaR, [email protected] Dentro de los grupos de cianobacterias que comúnmente forman floraciones se encuentra el Complejo Microcystis aeruginosa (CMA). Este incluye a los organismos del género Microcystis y afines (e.g.: Sphaerocavum y Radiocystis). Es uno de los más comunes gracias a su capacidad de acumular grandes biomasas superficiales, y soportar el arrastre y la mezcla intermitente en ecosistemas con alta carga de nutrientes y embalsados, condiciones cada vez más comunes en el mundo. En los monitoreos de calidad de agua y floraciones de cianobacterias se utilizan distintos indicadores de biomasa incluyendo la clorofila-a, el número de células y el biovolumen. Este último en el caso de los organismos del CMA, puede variar mucho con el tamaño que alcanzan las colonias. La estimaciones de volumen para organismos grandes como los del CMA son dificultosas debido a que en los microscopios convencionales no es posible medir en profundidad por lo que se recurre a realizar medidas simplificadas mediante esferas obteniéndose así sobre-estimaciones del volumen real. En este trabajo se generó un modelo de regresión lineal que permite estimar la profundidad de las colonias del CMA a partir de las medidas del largo y ancho (LogProf = 0,95 + 0,37 * LogLargo + 0,08*LogAncho; R2= 0,31, p< 0,001). Esto fue posible gracias a la utilización de un microscopio con software acoplado que permite medir la profundidad. Para la construcción del modelo se utilizaron datos provenientes de una campaña realizada en 6 estaciones en el sistema Río Uruguay-Río de la Plata (Salto Grande hasta Punta del Este) durante el 2013. Posteriormente y con una nueva serie de datos obtenidos unicamente para el Río Uruguay en el año 2015 se procedió a la validación del mismo. La correlación entre los datos observados y modelados fue muy fuerte (rs=0,96, p<0,01) indicando una buena respuesta del modelo obtenido. Contar con una herramienta que permite calcular la profundidad facilita el trabajo reduciendo el tiempo de toma de medidas y evita la sobreestimación del volumen individual y por lo tanto del biovolumen en el agua. La generación de un protocolo de monitorio en base a estas herramientas tiene la ventaja de su fácil implementación siendo factible incluso su automatización mediante un software. 9.- Downscaling of extremes: empirical and theoretical issues. Application to severe precipitation. Liliane Bel*, A.Béchler, C. Lantuéjoul, M.Oesting, M.Vrac *Paris Agrotech, [email protected] General Climate Models (GCM) widely used for projections from scenarios usually have a very coarse resolution (up to 250 km grid cells) and cannot reproduce local behavior such as extreme events. Downscaling techniques have to be used to produce features at a lower scale. In these works we focus on spatial downscaling techniques that provide simulations on extremes at a local scale according to some information given by GCMs. An empirical approach based on well-known downscaling methods and conditional simulations of maxstable random fields will be presented together with some theoretical considerations. 10.- Segmentación por beneficios buscados - el caso del Departamento de Rocha Martín Sprechmann CURE-UdelaR, [email protected] La investigación segmenta los turistas residentes en Montevideo que visitan Rocha en verano de acuerdo a los beneficios buscados. Contrariamente a las segmentaciones “a priori”, estos estudios tienen como objetivo descubrir la información (en este caso los beneficios buscados) en función de las respuestas a un cuestionario con la menor cantidad posible de supuestos. Se realizó una encuesta online compuesta por residentes de Montevideo que visitaron el Departamento en el verano de 2013 con fines de ocio y turismo. Primeramente se realizó un análisis factorial de componentes principales (AFCP) para detectar la estructura subyacente de los datos en términos de unos pocos factores explicativos de la vacación. En segundo lugar se efectuó un análisis cluster jerárquico y uno de K-medias para agrupar a los turistas en segmentos de turistas. Éstos fueron clasificados según variables sociodemográficas, de comportamiento y organización del viaje y de gasto individual diario en el territorio. Se obtuvieron cuatro segmentos de visitantes. Los resultados pueden ser útiles para la Corporación Rochense de Turismo a efectos de elaborar mensajes que permitan una comunicación más eficaz y eficiente con estos segmentos. La exposición es un trabajo conjunto con mi tutor de Maestría Carlos Scarone y extensiones realizadas en el Observatorio Turístico de Rocha con Gonzalo Perera. 11.- El clima y la estadística: Una relación significativa al 99 % Madelaine Renom Departamento de Ciencias [email protected] de la Atmósfera, Instituto de Física, FCIEN, Los informes del Panel Intergubernamental de Cambio Climático son recordados por la frase de atribución del efecto antropogénico al cambio climático con expresiones como: es “altamente probable” haciendo referencia a la probabilidad de que el hombre este afectando el clima. Pero en la investigación del clima la estadística es una herramienta fundamental para comenzar a comprender ciertos estados así como poder compararlo entre las observaciones y los modelos dinámicos. En la charla hablaremos de las técnicas más utilizadas en las ciencias del clima para definir patrones de circulación (por ej. El Niño, Modo Anular del Sur, etc) y su relación con variables atmosféricas (temperatura, precipitación etc). Por otro lado, una de las ramas de investigación en la que estadísticos y climatólogos deben trabajar en conjunto es sobre el estudio de extremos climáticos. Esta nueva línea de investigación abarca desde las diferentes técnicas estadísticas para realizar control de calidad de los datos, hasta diferentes métricas para definir los eventos. Aprender a interpretar y leer los resultados y análisis estadísticos es todo un desafío en las ciencias del clima. 12.- Estadística sobre datos turísticos Gonzalo Perera Modelización y Análisis de Recursos Naturales, CURE, [email protected] EL Turismo es una actividad económica de gran importancia a nivel mundial y muy particularmente en los departamentos de Maldonado y Rocha. Los datos posibles de obtener por mecanismos de muy diversa índole, por referir a actividades de personas, y personas en periodo de esparcimiento, son particularmente parciales e incompletos, carecen de trazabilidad, etc., dando lugar a un conjunto de datos con fuertes y variados mecanismos de censura, sesgos, etc. Esto genera interesantes desafíos estadísticos a la hora de realizar estudios técnicos de soporte a la toma de decisiones en dicha actividad. Compartiremos un ejemplo suscitado en la experiencia concreta del departamento de Rocha. 13.- Reduciendo eficientemente la aleatoriedad de una muestra Carlos Matrán BEA IMUVA. Universidad de Valladolid, [email protected] La exposición incluirá unas consideraciones previas sobre los contrastes de validez aproximada de una hipótesis estadística, introducidos en Hodges y Lehmann (1954) en modelos paramétricos. Como aproximación alternativa a este tipo de problema, nosotros recurriremos a la idea de similitud de dos distribuciones, que puede describirse adecuadamente en términos probabilísticos recurriendo a un modelo de contaminación. Este modelo admite una representación dual en términos de recortes, que permite diseñar procedimientos basados en buscar la submuestra más acorde al modelo ideal. La metodología está basada en la idea de que los "retoques” de una muestra obtenida del modelo ideal producen muestras demasiado perfectas que las hace detectables. Esta idea se sustenta en un sobre-ajuste que puede describirse en términos de tasas de convergencia, un resultado que obtenemos a partir de argumentos de colocación aleatoria de bolas en urnas, recurriendo a particiones adecuadas del espacio. Mostraremos además las tasas óptimas y su relación con el famoso problema del transporte óptimo. 14.- Caracterización morfológica, genética y óptica de floraciones tóxicas y no tóxicas del Complejo Microcystis aeruginosa Susana Deus Álvarez IIBCE, MEC, [email protected] Las floraciones de fitoplancton nocivas y potencialmente tóxicas son un serio problema ambiental de amplia distribución mundial. Entre las floraciones más frecuentes en nuestro país se encuentran las que forman las especies del género Microcystis y afines. Éstas forman densas masas superficiales que muchas veces son multiespecíficas y difíciles de distinguir taxonómicamente. Sin embargo, tienen similares composición genética y rasgos funcionales (morfológicos y fisiológicos), así como similares respuestas a los cambios ambientales. Por esta razón se las agrupa en el complejo Microcystis aeruginosa (CMA) y se les puede asignar a un mismo grupo funcional en base a su morfología. Esta agrupación simplifica el monitoreo, la predictibilidad y la generación de medidas de manejo, siendo de fácil aplicación para cualquier especie u organismo en base a su morfología. Las cianobacterias del CMA producen microcistinas, un tipo de cianotoxinas que producen en los humanos gastroenteritis, daño en el hígado y hasta la muerte. No se conocen a día de hoy los mecanismos por los cuales algunas cepas desarrollan la toxina y otras no. Sin embargo, algunos estudios afirman que existe una relación entre el tamaño de las colonias y la toxicidad, indicando que aquellas cuyo tamaño es mayor a 100 µm son las más tóxicas. Asimismo, el tamaño también se ha asociado a la presencia de los genes que codifican para microcistinas (mcy). Por otra parte, se ha observado que el tamaño, la forma y otros rasgos morfológicos como las vacuolas de gas, de los organismos del fitoplancton, afectan sus propiedades ópticas dispersando y absorbiendo de distintas maneras la luz. La hipótesis de este proyecto es que las similitudes morfológicas y ópticas de los organismos del CMA permiten su identificación mediante adquisición remota de imágenes. Asimismo, dado que la morfología refleja su potencial para producir toxinas, será posible determinar la probabilidad de que la floración sea tóxica. El objetivo es relacionar la morfología de comunidades naturales de fitoplancton dominadas y no por el CMA con sus propiedades ópticas inherentes y con la presencia de toxinas y genes mcy. Las muestras serán procesadas para estimar la morfología, abundancia y biovolumen de todos los organismos del fitoplancton así como la concentración de genes mcy y de microcistinas totales. Se tomarán fotografías que mediante la aplicación “Hydrocolor” permitirá registrar las propiedades ópticas del cuerpo de agua. La relación entre las propiedades ópticas, morfológicas y toxicidad permitirá generar una herramienta de monitoreo de calidad de agua y floraciones tóxicas de cianobacterias del CMA. Esta podría ser aplicable a celulares inteligentes u otros aparatos compactos electrónicos de uso común que permiten a los usuarios interactuar de diferentes maneras en la red. 15.- Game-theoretically Optimal Reconciliation of Contemporaneous Hierarchical Time Series Forecasts Jairo Cugliari* & T. van Erven *Université de Lyon, [email protected] In hierarchical time series (HTS) forecasting, the hierarchical relation between multiple time series is exploited to make better forecasts. This hierarchical relation implies one or more aggregate consistency constraints that the series are known to satisfy. Many existing approaches, like for example bottom-up or top-down forecasting, therefore attempt to achieve this goal in a way that guarantees that the forecasts will also be aggregate consistent. This package provides with an implementation of the Game-Theoretically OPtimal (GTOP) reconciliation method proposed in van Erven and Cugliari (2015), which is guaranteed to only improve any given set of forecasts. This opens up new possibilities for constructing the forecasts. For example, it is not necessary to assume that bottom-level forecasts are unbiased, and aggregate forecasts may be constructed by regressing both on bottom-level forecasts and on other covariates that may only be available at the aggregate level. 16.- Explorando metodologías alternativas para el análisis de los determinantes del tamaño corporal Daniel Hernández* y Lucía Rodríguez-Tricot *CURE-UdelaR, [email protected] El tamaño corporal es una de las características que puede resumir mayor cantidad de información biológica de un individuo o especie. Esto se debe a que se relaciona directamente con la tasa metabólica, y ésta con prácticamente todas las variables ecológicas o fisiológicas de los organismos. En este sentido, el análisis de la distribución de tamaños corporales y sus posibles determinantes brinda perspectivas para la comprensión de los principales procesos que estructuran las comunidades y por tanto representa un importante insumo para la gestión de los recursos naturales. Este trabajo comparó el desempeño de distintos modelos estadísticos para predecir los tamaños corporales de individuos de dos especies de peces anuales en base a ciertas variables ambientales. La base de datos analizada consiste en la información de 3430 individuos, colectados en nueve muestreos realizados entre el 2006 y el 2013 en un sistema de charcos temporales ubicado cerca de la localidad de Castillos (Dpto. de Rocha). Fueron ajustados los siguientes tipos de modelos: modelo lineal generalizado (GLM), modelo aditivo generalizado (GAM), árbol de regresión (CART), Bagging, y Random Forest. Si bien el ajuste del GLM no fue bueno (R2=0.12), presentaron junto con el CART el menor error por muestra de prueba. Es destacable que la importancia de cada variable fue similar entre los distintos tipos de modelo evaluados. No obstante, tanto el GLM como el CART poseen un mayor potencial para predecir los tamaños corporales en función de las variables ambientales. Además, dada la mayor interpretabilidad de los resultados, los convierte en buenas herramientas para tomar medidas de control, conservación o manejo de sistemas naturales. 17.- Problemas de Graph Matching: resultados probabilísticos y determinísticos Marcelo Fiori IMERL-FING-UdelaR, [email protected] Dados dos grafos, el problema denominado Graph Matching Problem consiste en encontrar el mejor alineamiento entre ellos, de acuerdo a cierto criterio. Este problema es de gran interés tanto desde un punto de vista algorítmico como teórico, además de las importantes aplicaciones que tiene. El interés y la dificultad de este problema tienen raíz en la naturaleza combinatoria del mismo: el costo de buscar entre todas las permutaciones posibles crece exponencialmente con el número de nodos, y por lo tanto se vuelve rápidamente intratable, incluso para grafos chicos. La pregunta principal que atacaremos en esta charla es la siguiente: ¿cuándo el problema de graph matching y su relajación convexa tienen la misma solución? Primero damos un enfoque probabilístico mostrando que, asintóticamente, la relajación convexa más común falla, mientras que una relajación no convexa es capaz de resolver el problema con probabilidad uno, siempre y cuando los grafos originales estén lo suficientemente correlacionados. Por otro lado, mencionaremos algunos resultados determinísticos, que establecen condiciones sobre los valores y vectores propios de las matrices de adyacencia de los grafos para garantizar que el problema de graph matching y su relajación convexa tengan la misma solución.
© Copyright 2024