CURSO Análisis de Datos Univariados y Multivariados con R Commander FECHA DE INICIO: 23 Noviembre 2015 FECHA DE TÉRMINO: 26 Noviembre 2013 DURACIÓN: 20 horas. TITULAR: Dr. Jorge A Navarro Alberto Universidad Autónoma de Yucatán Mérida, Yucatán, MÉXICO ADJUNTO: Lic. Sarai Gómez Camacho Instituto de Ciencia Animal San José de las Lajas, Mayabeque, CUBA ÍNDICE Tema Introducción Objetivo general Sesión 1 Sesión 2 Sesión 3 Sesión 4 Bibliografía Configurando R, R Commander (Rcmdr) y Deducer. Introducción al lenguaje R. Métodos descriptivos e inferenciales univariados en Rcmdr Modelos lineales generales y generalizados en Rcmdr Métodos estadísticos multivariados en R en Rcmdr Página 2 2 4 5 6 7 8 1 INTRODUCCIÓN En la formación profesional de veterinarios y zootecnistas ciertamente se dedica tiempo al aprendizaje en el uso de software, principalmente en tareas acostumbradas como la captura de información para la conformación de bases de datos y su análisis estadístico, y otras no tan frecuentes como la modelación matemática y simulación de procesos. Si bien existen incontables programas comerciales para tal fin, recientemente ha cobrado auge un popular lenguaje de programación para análisis estadístico de datos y modelación llamado R. Desde su creación en 1996, este lenguaje está siendo usado por un número creciente de científicos, técnicos y analistas de datos de instituciones académicas y de investigación en todo el mundo. R es relativamente fácil de usar, es gratuito y de código abierto; por ello se está convirtiendo en un lenguaje de alcance universal. Técnicamente hablando, utiliza un versátil enfoque de programación orientada a objetos, es independiente de la plataforma de sistema operativo, y gracias a las contribuciones de "usuarios de R" repartidos en todo el orbe, los paquetes de R permiten ejecutar prácticamente cualquier procedimiento para el manejo y análisis de datos o de modelación y simulación para las ciencias biológicas. Con base en lo anterior surge la necesidad de fomentar en los profesionistas de la ciencia animal la adopción de R como herramienta versátil y actual para el manejo, resumen y análisis de información, y así incrementar sus capacidades en la solución de problemas dentro de su desempeño profesional. La transición requerida para migrar al lenguaje R requiere que los usuarios se desliguen poco a poco de programas con interfaces (ambientes) gráficos de usuario (GUIs) a base de menús “amigables”. Esto es posible si se hace uso de paquetes de R que incluyan ambientes GUI y que, simultáneamente, permitan la visualización de los comandos que se estén ejecutando. Ejemplos de estos paquetes son R Commander y Deducer. Conjuntamente con otras herramientas de R permiten, al científicos no especialista en programación, acceder al aprendizaje del lenguaje R de manera eficaz. Se espera que con este curso el participante incremente sus capacidades en la solución de problemas relacionados con el acopio, resumen y análisis de información en su área de interés, mediante la adopción de R como herramienta computacional poderosa, actual y generalizada. OBJETIVO GENERAL Al finalizar el curso, el alumno desarrollará habilidades para manejar y analizar datos univariados y multivariados en ciencia animal, a través de la ejecución de scripts del lenguaje R y de procedimientos del paquete R Commander. 2 Prerrequisitos Estadística básica a nivel Licenciatura; capacidades en el manejo de computadoras y de, por lo menos, un sistema operativo (Windows, Mac OS, Linux o similares); capacidad para manejo básico de datos en algún programa de hojas reticuladas de cálculo. Calendario de Actividades Sesiones teórico-prácticas con trabajo constante frente. Horario de las sesiones: Lunes a Viernes de 9:00 AM a 13:00 PM Número de participantes. Mínimo: 12, Máximo: 15. Se podrá extender a 20 participantes, si el espacio físico lo permite. 3 SESIÓN 1. CONFIGURANDO R, R COMMANDER (RCMDR) Y DEDUCER. INTRODUCCIÓN AL LENGUAJE R. Hora 9:00 - 10:30 10:30 - 11:00 11:00 - 12:30 12:30 - 13:00 Estrategia de enseñanza/aprendizaje 1.1 La interfaz de usuario Método expositivo (Zuur et al gráfica de (GUI) de R. 2009). Instalación y exploración Paquetes de R e introducción de Rcmdr. Manual de Rcmdr. Ejercicios al paquete Rcmdr Receso 1.2 Comandos básicos de R y Práctica en computadora de configuración de Deducer. comandos básicos de R (Capítulo 2 del Teetor (2011) Configuración de Deducer Ejercicios.. 1.3 ¿Cómo citar a R en Método expositivo. (Zuur et al publicaciones? 2009). Ejercicios de búsqueda. Contenido Actividades 1.1 En esta sección se describen las características de R como lenguaje de programación orientado a objetos. Se muestra cómo instalar y configurar R en Windows. Se propondrá el uso de editores de scripts de R para propiciar ambientes de programación amigables y cómo aumentar las capacidades de manejo de datos y análisis en R a través del acceso a páginas de ayuda y la instalación de paquetes (packages o libraries). Además el participante instalará y ejecutará la biblioteca Rcmdr que permite el uso de R como programa GUI a base de menús. El participante explorará el contenido de RCmdr e identificará su utilidad como un GUI de transición para la programación en R. 1.2 En esta sección se describirá brevemente la forma en que R trabaja a través de códigos (programas) conjuntados en scripts, los cuales deberán contener ciertos elementos mínimos de estilo para su comprensión, de manera que puedan ser compartidos. Se instalará el paquete Deducer para facilitar el manejo de datos y como opción para analizar datos a través de un GUI de Java 1.3 Se presentarán listados de referencias bibliográficas impresas y en línea para el aprendizaje de R, así como las indicaciones para citar R o paquetes de R en publicaciones. 4 SESIÓN 2. MÉTODOS DESCRIPTIVOS E INFERENCIALES UNIVARIADOS Y BIVARIADOS EN RCMDR Hora 9:00 - 10:00 10:00 – 10:30 10:30 - 11:00 11:00 - 12:00 12:00 - 13:00 Contenido 2.1 Creando, manipulando e importando bases de datos en R y Rcmdr: marcos de datos (data frames) 2.2 Funciones simples de R para producir estadísticos resumen de variables. Resúmenes en Rcmdr Receso 2.3 Tomando el control de qué graficar con la función plot y sus opciones; gráficos exploratorios en Rcmdr 2.4 Pruebas de hipótesis y alternativas no paramétricas univariadas para una y dos muestras. Correlación de dos variables cuantitativas Estrategia de enseñanza/aprendizaje Método expositivo. Capítulo 2 (secc 2.1) del Zuur et al (2009). Ejercicios del Capítulo 2 del Zuur et al (2009) Método expositivo. Capítulo 4 del Zuur et al (2009). Ejercicios del mismo capítulo. Método expositivo. Capítulo 5 del Zuur et al (2009). Ejercicios del mismo capítulo. Manual y ayudas de Rcmdr Método expositivo. Cap 9 del Teetor (2011) y Capítulo 7 del Kobacoff (2011). Ejercicios. Actividades 2.1. Creará bases de datos pequeñas a través de funciones de R ejecutadas en scripts. También importará y guardará datos en distintos formatos para manejarlos en R o en otros programas, a través de las distintas formas de los comandos read.table y write.table para crear o guardar data frames, o bien con el menú de lectura de datos, importación y alamcenamiento de datos en Rcmdr y Deducer. 2.2 En esta sección el participante ejecutará funciones simples de R a través de Rcmdr para producir estadísticos-resumen aplicados a vectores independientes o contenidos en data frames. 2.3 Producirá graficas de datos cualitativos y cuantitativos cargados en el ambiente de Rcmdr y explorará la función plot y otras funciones de graficación básicas para tomar el control activo de qué graficar, usando variados parámetros de la función plot. 5 2.4 Ejecutará funciones de R y Rcmdr para realizar inferencias estadísticas acerca de datos biológicos cuantitativos en las formas de estimación por intervalos y de pruebas de hipótesis paramétricas para una y dos muestras de una sola variable, y sus alternativas no paramétricas correspondientes. También usará las funciones de R incluidas en Rcdmr para calcular coeficientes de correlación lineal y monótona. SESIÓN 3. MODELOS LINEALES GENERALES Y GENERALIZADOS EN RCMDR Hora 9:00 – 10:00 10:0 – 10:30 10:30 – 11:00 11:00 – 12:00 12:00 – 13:00 Contenido 3.1 Regresión lineal simple ordinaria por cuadrados mínimos con la función lm 3.2 Fórmulas para escribir modelos estadísticos en R. Regresión múltiple con la función lm. 3.3 ANOVA: Regresión con variables declaradas como factores. Comparaciones múltiples 3.4 Modelos lineales generalizados: logística, tablas de contingencia y regresión Poisson Estrategia de enseñanza/aprendizaje Método expositivo. Cap 7 del Kobacoff (2011). Ejercicios. Método expositivo. Capítulo 8 del Kobacoff (2011). Ejercicios. Método expositivo. Cap 9 del Kobacoff (2011). Ejercicios. Capítulo 13 del Kobacoff (2011). Ejercicios Actividades 3.1 Ejecutará la función lm y funciones asociadas a objetos generados por lm para el análisis de regresión lineal simple de datos biológicos con errores normales. También ejecutará procedimientos para ajustar modelos estadísticos accediendo a las opciones presentes en los menús "Estadísticos" y "Modelos" de Rcmdr. 3.2 Se revisará la terminología de diseños experimentales y la sintaxis de escritura de modelos en R necesarias para abordar el análisis de experimentos usando R y a través de las opciones presentes en Rcmdr, para ajustar y analizar modelos de regresión lineal múltiple. 6 3.3 Ejecutará comandos de Rcmdr y del paquete agricolae para producir análisis de varianza de uno o varios factores fijos así como pruebas de comparación múltiple entre medias de tratamientos. 3.4 Se ejecutarán comandos de R y Rcmdr de modelos lineales generalizados para datos categóricos y datos cuantitativos no normales. SESIÓN 4. MÉTODOS ESTADÍSTICOS MULTIVARIADOS EN R EN RCMDR Hora 9:00 – 10:00 10:00 – 10:30 10:30 – 11:00 11:00 – 12:00 12:00 – 13:00 Contenido 4.1 Matrices en R. Análisis exploratorio de datos multivariados en Rcmdr y R. 4.2 Pruebas de hipótesis multivariadas: T2 de Hotelling, Levene y MANOVAs Receso 4.3 Análisis de componentes principales y escalamiento multidimensional no métrico 4.4 Análisis de clasificación Estrategia de enseñanza/aprendizaje Método expositivo. Cap 2 del Everitt (2005). Ejercicios. Método expositivo. Capítulo 7 del Everitt (2005). Ejercicios Método expositivo. Capítulos 3 y 5 del Everitt (2005). Ejercicios. Capítulo 6 del Everitt (2005). Ejercicios. 4.1 Los participantes efectuarán operaciones con matrices en el lenguaje de R y usarán Rcmdr para producir gráficos multivariados de exploración de datos. 4.2 Accederán a las funciones de R presentes en varios paquetes para realizar los cálculos involucrados en la prueba de hipótesis multivariadas para dos o más muestras. 4.3 Realizarán análisis de componentes principales y escalamiento multidimensional no métrico a través de comandos de R, del paquete vegan y accediendo a los menús de Rcmdr y el plugin FactoMiner de Rcmdr 4.4 Ejecutarán comandos del R para clasificar unidades muestrales por medio de métodos de clasificación aglomerativos jerárquicos y no jerárquicos. 7 4.6 Con base en un cuestionario, cada participante evaluará el curso y externará sus sugerencias. Al finalizar la evaluación, se hará entrega de las constancias de participación y se clausurará el curso. BIBLIOGRAFÍA Adler, J. (2010). R in a Nutshell. A Desktop Quick Reference. O'Reilly: Sebastopol, EE.UU. 611 p. Everitt, B. S. (2005). An R and S-PLUS® Companion to Multivariate Analysis. London, Springer-Verlag. 221 p. Faria, J. C., Grosjean, P., Jelihovschi, Pietrobon, R. & Farias, P.H. (2015). Tinn-R Editor - GUI for R Language and environment. Version 4.00.02.01. EDITUS Editora da UESC: Bahia, Brazil. Fellows, I. (2012). Deducer: A Data Analysis GUI for R. Journal of Statistical Software, 49(8), 1-15. URL http://www.jstatsoft.org/v49/i08/. Fox, J. (2005). The R Commander: A Basic Statistics Graphical User Interface to R. Journal of Statistical Software. 14(9): 1--42. URL: http://www.jstatsoft.org/v14/i09 Husson, F., Josse, J. & Le, S. (2014). RcmdrPlugin.FactoMineR: Graphical User Interface for FactoMineR. R package version 1.5-0. http://CRAN.Rproject.org/package=RcmdrPlugin.FactoMineR Kaps, M. & Lamberson, W.R. (2009). Biostatistics for Animal Science. An Introductory Text, 2nd Edition. CABI: Oxforshire, RU. 504 p. Kobacoff, R. (2011) R in Action. Data Analysis and graphics with R. Manning Publications Co.: Shelter Island, EE.UU. 447 p. Logan, M. (2010). Biostatistical Design and Analysis Using R. A Practical Guide. Chichester, Wiley-Blackwell. 546 p. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. http://www.Rproject.org. Teetor, P. (2011). R Cookbook. O'Reilly: Sebastopol, EE.UU. 413 p. Zuur, A.F., Ieno, E.N. & Meesters, E.H.W.G. (2009). A Beginner's Guide to R. Springer: New York. 218 p. 8
© Copyright 2024