Cómo crear conjuntos de datos en R

Para generar un conjunto de datos utilizando R Commander (Rcmdr), se dispone
de diferentes opciones. Algunas de uso frecuente son:
a)
Cargarlos manualmente en una planilla disponible en Rcmdr.
b)
Importarlos
desde
archivos
Excel,
OpenOffice,
de
texto,
del
portapapeles, etc.
Además, si se desea trabajar con conjuntos de datos pre-existentes, R cuenta
con varios disponibles en diversos paquetes, algunos de los cuales corresponden a
ejemplos clásicos utilizados en la bibliografía estadística.
Veamos, a partir de un ejemplo, como usar las diferentes opciones.
EJEMPLO
Ejercicio 2 del Cap. 2, extraído del libro Diseño de experimentos de Robert O.
Kuehl (2001), pág. 66.
Se llevó a cabo un experimento para probar los efectos de un fertilizante
nitrogenado en la producción de lechuga. Se aplicaron cinco dosis diferentes de
nitrato de amonio a cuatro parcelas (réplicas) en un diseño totalmente aleatorizado.
Los datos son el número de cabezas de lechuga cosechadas de la parcela:
Tratamiento
(libras de N/acre)
0
50
100
150
200
Cabezas de lechuga/parcela
104
134
146
147
131
114
130
142
160
148
90
144
152
160
154
140
174
156
163
163
Para poder realizar algún análisis estadístico, el conjunto de datos debe reunir
las condiciones adecuadas y su estructura depende del tipo de metodología que se
va a aplicar. En general, los conjuntos de datos reciben un nombre y tienen forma
de tabla donde, en las columnas, se colocan las variables en estudio y, en las filas,
cada una de las observaciones, es decir, los datos observados (para esas variables)
en cada individuo. En el ejemplo anterior, podríamos dar el nombre lechuga al
conjunto de datos. El mismo contendrá, como mínimo, dos variables: una que
identifique las diferentes dosis de fertilizante (llamémosla Tratamiento)
Tratamiento y otra que
contenga el número de cabezas de lechuga cosechadas en cada parcela (llamémosla
Cabezas).
Cabezas Cada parcela (individuo) recibió una dosis determinada de fertilizante y
tuvo un rendimiento específico. Por ejemplo, una de las parcelas que no recibió
fertilizante (0 libras de N/acre) tuvo un rendimiento de 104 cabezas de lechuga por
parcela. Estos dos valores (0 y 104) constituyen una observación.
•
CARGA DIRECTA DE DATOS
En Rcmdr existe la posibilidad de cargar los datos manualmente en una planilla.
Para acceder a dicha planilla, primero deben ejecutarse, en secuencia (haciendo clic
con el mouse), los comandos:
De ahora en más, esta secuencia de comandos la escribiremos de la siguiente
forma:
Datos → Nuevo conjunto de datos
Al ejecutar estos comandos, se despliega la siguiente ventana:
Debemos ingresar el nombre que daremos al conjunto de datos, en este caso
lechuga,
lechuga en la celda donde aparece la palabra Datos y, a continuación, ejecutar
Aceptar:
Aceptar:
De esta forma, se despliega la siguiente planilla, similar a cualquier planilla de
cálculo:
Haciendo clic en el encabezado de cada columna (donde aparecen var1,
var1 var2,
var2
etc. en color gris), aparecerá una ventana como la siguiente:
donde podremos especificar el nombre que daremos a cada variable e indicar si la
misma es numérica (numeric) o categórica (character). Por ejemplo, para la variable
Tratamiento podríamos especificar lo siguiente:
Cerrando esta ventana (
) se harán las modificaciones respectivas en la
planilla. Los datos se ingresarán en el cuerpo de la tabla (celdas blancas), donde en
cada fila se colocará una observación. Una posible planilla quedaría entonces, así:
Al cerrar esta ventana se creará el conjunto de datos lechuga.
lechuga Dicho conjunto de
datos aparecerá como conjunto de datos activo en la parte superior de la ventana de
Rcmdr.
Además, en la ventana superior (Instrucciones), aparecerán las sentencias que le
servirán para realizar las mismas acciones (en este caso, acceder a la planilla) desde
la consola de R. En la ventana inferior (Mensajes) aparecerá una nota que le informa
el número de filas y columnas del conjunto de datos.
•
IMPORTACIÓN DE DATOS
Algunas veces, los datos suelen leerse desde archivos externos, por ejemplo
planillas de cálculo Excel. Para poder leer una hoja de datos de un archivo Excel
directamente, dicha hoja debe contener al conjunto de datos, con los nombres de
las variables en las columnas correspondientes.
Los datos del ejemplo se encuentran disponibles en el archivo ejercicio2.2.xls,
cuyo contenido es el siguiente:
Para disponer de estos datos en R, existen dos opciones de importación:
IMPORTACIÓN DE ARCHIVOS DE DATOS EXCEL
Para importarlos directamente, se utilizan los siguientes comandos de Rcmdr:
Datos → Importar datos → desde archivo de datos
datos Excel, Acces o dBase
Se desplegará una ventana en la cual deberá introducir el nombre con el cual
designará al conjunto de datos (ver 1). Posteriormente, se despliega una ventana del
explorador para que seleccione la ubicación del archivo Excel a importar (ver 2).
Además, deberá indicar en cual de las hojas de cálculo del archivo se encuentran los
datos que desea importar (ver 3).
1)
2)
3)
Luego de esta secuencia de pasos, el conjunto de datos “lechuga” estará
disponible para ser usado en R.
En una misma sesión se pueden cargar varios conjuntos de datos, pero sólo uno
de ellos aparecerá como conjunto de datos activo, con el que se podrán realizar los
diversos análisis.
IMPORTACIÓN DESDE EL PORTAPAPELES
Esta otra opción de importación se utiliza cuando los datos están disponibles en
algún archivo que ha sido abierto previamente, a partir del cual se puede
seleccionar la sección a copiar (que corresponde al conjunto de datos). Una vez
marcada la sección que se desea copiar, se la deja en el portapapeles usando el
comando copiar o la combinación de teclas control c.
c La importación se realizará
mediante los comandos:
Datos → Importar datos → Desde archivo de texto, portapapeles o URL
URL
Se desplegará una ventana en la cual se deberá indicar:
a) el nombre del conjunto de datos que a crear,
b) si los nombres de las variables están o no en el archivo,
c) la localización del archivo de datos (sistema de archivo local,
portapapeles o dirección URL). En este caso, se seleccionará
“portapapeles”,
d) el separador de campos (espacio en blanco, comas, tabuladores u
otro),
e)
cómo está designado el carácter decimal (coma o punto) en el archivo
de datos de origen.
Por ejemplo,
Si los datos se encuentran disponibles en un archivo de texto, también pueden
importarse directamente.
IMPORTACIÓN DE DATOS DESDE ARCHIVOS DE TEXTO
Para importar de esta forma, se ejecutarán los comandos
Datos → Importar datos → Desde archivo de texto, portapapeles o URL
URL
pero se seleccionará “Sistema de archivo local” como localización del archivo de
datos. Así, se desplegará una ventana como la siguiente donde se podrá seleccionar
el archivo y la ubicación del mismo:
•
DATOS DISPONIBLES EN PAQUETES
Además de importar o crear conjuntos de datos, se pueden cargar conjuntos de
datos que están disponibles en diferentes paquetes de R.
Para visualizar una lista de los conjuntos de datos disponibles en los paquetes
que estén previamente cargados, se deben utilizar los comandos:
Datos → Conjunto de datos en paquetes → Lista de conjunto de datos en paquetes
Para cargar un conjunto de datos de un paquete específico, los comandos a usar
son:
Datos → Conjunto de datos en paquetes → Leer conjunto de datos desde paquete
adjunto