Correlación - nazira calleja

ρ (rho)
r
Correlación
Cuantificación lineal de la relación entre dos variables.
 Cuantificación porque convierte la relación en un número.
Mientras más fuerte sea la relación, mayor será el valor
absoluto de la correlación.
 Lineal porque asume que la relación forma una línea recta.
 Entre dos variables porque describe qué tanto cambia una
variable (X) dado un cambio en una segunda variable (Y).
Un índice de correlación (r) es un número entre -1.00 y +1.00
que describe la relación entre dos variables.
Las variables varían o cambian
(“se mueven”)
VI
VD
Alto
Valor
de la
variable
Bajo
Esfuerzo
Ejecución
Varianza
¿Cuánto del
movimiento
(o varianza)
de la
Ejecución
puede ser
explicado
por el
movimiento
(o varianza)
del
Esfuerzo?
Las variables varían o cambian
(“se mueven”)
VI
VD
Alto
Valor
de la
variable
Varianza
Ejecución
Esfuerzo
Bajo
¿Cuánto del
movimiento
(o varianza)
de la
Ejecución
puede ser
explicado
por el
movimiento
(o varianza)
del
Esfuerzo?
Las variables varían o cambian
(“se mueven”)
VI
Alto
Valor
de la
variable
Bajo
VD
Esfuerzo
Ejecución
Varianza
¿Cuánto del
movimiento
(o varianza)
de la
Ejecución
puede ser
explicado
por el
movimiento
(o varianza)
del
Esfuerzo?
Las variables varían o cambian
(“se mueven”)
VI
Alto
VD
Esfuerzo
Valor
de la
variable
Varianza
Ejecución
Bajo
¿Cuánto del
movimiento
(o varianza)
de la
Ejecución
puede ser
explicado
por el
movimiento
(o varianza)
del
Esfuerzo?
DIRECCIÓN DE LA RELACIÓN
Correlación negativa
No correlación
Correlación positiva
Cuando una variable sube Cuando un cambio en una Cuando una variable sube,
la otra baja
de las variables no afecta
la otra también sube y
a la otra
viceversa
Número negativo
-
Cero
Número positivo
+
MAGNITUD (TAMAÑO) DE LA RELACIÓN
 Refleja la magnitud de la asociación, independientemente
de las variables de que se trate y de su métrica.
 .30 es más fuerte que .20, pero menos que .40
 .30 es de la misma magnitud que -.30
 Máxima posible: 1 (o -1)
Mientras más se aleja el índice del cero, más fuerte es la
relación.
Correlación
fuerte
Correlación moderada
Correlación
débil
|r|  0.80
0.50 < |r| <0.80.
|r|  0.50
Correlación
NO CAUSALIDAD
La correlación no indica por qué un cambio en una
de las variables da lugar a cambios en la otra. Es
decir, la correlación no implica causalidad. Una
correlación alta entre dos variables no significa
que una cause a la otra.
Las pruebas de estadística inferencial
están basadas en la correlación lineal.
Ejemplos de correlación
Variable X
Variable Y
Correlación
Altura
Peso
Positiva
Velocidad
Núm. de minutos en llegar
Negativa
Número de adultos que viven en la
casa
Autoconcepto académico
Número de niños que viven en la
casa
Logro escolar
Empatía en la práctica clínica
Efectividad de la terapia
Número de caries en los niños
Vocabulario de los escolares
Vacunas aplicadas de H1N1
Prevalencia de H1N1
Ingreso total
Evaluación en curso de manejo
Porcentaje del ingreso gastado en
alimentos
Infracciones de tránsito
Número de bares
Número de iglesias
Habilidad para remar
Tiempo requerido para atravesar un
lago
Ejecución en una tarea
Ansiedad
No correlación
Positiva
Positiva
Ambas debidas a la edad de los
niños
Negativa
Negativa
Negativa
Debida a una 3ª variable
Negativa
Curvilínea
Dispersigramas
 Constituyen un medio visual de entender los patrones de
los datos numéricos bivariados. Cada punto corresponde
a una observación bivariada.
 Muestran la dirección y la fuerza de la relación. También
evidencian las observaciones extremas o sospechosas.
 Se construyen sólo para datos cuantitativos.
Dispersigramas
Correlación lineal
Correlación no lineal
Propiedades de la correlación lineal
 El valor de r no depende de las unidades de medición de
ambas variables.
 El valor de r es simétrico: no depende de cuál de las dos
variables se rotula X y cuál Y.
 r =  1 ocurre sólo cuando todos los puntos en el
dispersigrama caen exactamente en una línea recta.
 r mide solamente la relación lineal entre dos variables.
Índice de correlación de Pearson
Es el coeficiente más utilizado para estudiar el grado de relación
lineal existente entre dos variables cuantitativas.
A finales del siglo XIX, Sir Francis Galton
introdujo el concepto de correlación.
De aquí partió el desarrollo del
coeficiente de correlación creado por
Karl Pearson y otros científicos
biométricos.
r=
(zx zy)
n-1
Correlación lineal
¿Los puntajes que los
alumnos obtienen en un
examen
están
relacionados
con
la autoevaluación que
hacen
de sus conocimientos
sobre el tema?
a) ¿Cuál es la dirección de la relación?
b) ¿Cuál es la magnitud de la relación?
c) ¿Una variable es la causa a la otra?
Correlación no implica causalidad
Ejemplo (dos variables cuantitativas):
Estudiante
X
Examen
sobre un tema
(30 preguntas)
Y
Autoevaluación de
conocimientos
sobre un tema
(De 1 a 7)
Puntajes
Z de X
(Zx)
Puntajes
Z de Y
(Zy)
Productos
cruzados
(Zx . Zy)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
16
18
22
24
20
20
16
26
28
26
18
24
28
22
1
3
6
5
2
4
3
5
6
7
1
7
4
2
-1.45
-0.96
0.00
0.48
-0.48
-0.48
-1.45
0.96
1.45
0.96
-0.96
0.48
1.45
0.00
-1.45
-0.48
0.96
0.48
-0.96
0
-0.48
0.48
0.96
1.45
-1.45
1.45
0
-0.96
(zx zy) =
2.09
0.46
0.00
0.23
0.46
0.00
0.70
0.46
1.39
1.39
1.39
0.70
0.00
0.00
9.27
Correlación de Pearson
Cálculo:
r=
(zx zy)
N-1
r=
9.27
14 - 1
r = 0.71
a) Dirección de la relación: Positiva
b) Magnitud de la relación: de moderada a fuerte
c) Una variable no causa la otra
Coeficientes de correlación
por nivel de medición de las variables
Coeficiente de Pearson
Coeficiente de rangos
de Spearman
Tau de Kendall
Coeficiente phi
V de Cramer
Coeficiente tetracórico
Coeficiente puntobiseral
Coeficiente biseral
r
rs
tau

V
rt
rpb
rb
Dos variables cuantitativas
Dos variables de rango
Dos variables de rango
Dos variables dicotómicas
naturales
Dos variables nominales
Dos variables dicotómicas creadas
Una variable cuantitativa con una
variable dicotómica natural
Una variable cuantitativa con una
variable dicotómica creada
Coeficientes de
correlación para
variables de rango
Rho de Spearman
Tau de Kendall τ
Concordancia W
Coeficientes de correlación para variables
de rango
Nombre del
coeficiente
Características
Símbolo
- Variables ordinales
- Los valores de -1 a +1
Rho de
Spearman
- Se altera de manera importante ante
la presencia de un valor extremo
- Relación lineal
- Muestras aleatorias
ρ
Coeficiente de correlación de Spearman
Es apropiado para estudiar la relación entre variables ordinales.
También se utiliza con variables cuantitativas pero no es posible
suponer que la distribución es normal.
Toma valores entre -1 y 1, y se interpreta igual que el coeficiente
de correlación de Pearson.
ρ = rho = Correlación
6 = Constante
D = Diferencia entre el rango en X y el rango en Y
N = Número de casos
Coeficiente de correlación de Spearman
Ejemplo:
Dos profesores, uno de matemáticas y otro lengua (español), indicaron el rango que
correspondía a cada uno de los ocho alumnos de su grupo en su aprovechamiento
escolar.
rs
rs = 1 –
6 (28)
8 (82 – 1)
rs = 0.67
Σ d2 = 28
n=8
Coeficiente de correlación de Spearman
Ejemplo:
Se evaluó el coeficiente intelectual de 10 personas, así como el número de horas que
veían la televisión a la semana, y se ordenaron (de menor a mayor) de acuerdo con los
valores que obtuvieron en cada variable.
Persona
Coef.
Intelec.
(CI)
1
86
2
Horas
TV/sem
(TV)
Rango en
CI
Rango en
TV
d
d2
0
1
1
0
0
97
20
2
6
-4
16
3
99
28
3
8
-5
25
4
100
50
4.5
10
-5.5
30.25
5
100
28
4.5
8
-3.5
12.25
6
103
28
6
8
-2
7
106
7
7
2.5
4.5
8
110
17
8
5
3
9
9
113
7
9.5
2.5
7
49
10
113
12
9.5
4
5.5
30.25
4
rs = 1 –
6 (196)
10 (102 – 1)
20.25
Σ d2 = 196
n = 10
rs = 0.19
Coeficientes de correlación para variables
de
rango
Nombre del
coeficiente
Características
Símbolo
- Variables ordinales
Tau de
Kendall
- Combinación de una variable ordinal
con una de intervalo
- Cuando no se cumplen los supuestos
de normalidad
- Valores de -1 a +1
τ
Coeficientes de correlación para variables
de rango
Nombre del
coeficiente
Características
Símbolo
- Expresión del acuerdo promedio de
los rangos
Concordancia
- De .00 a 1.00
- Su valor es la razón de la correlación
elevada al cuadrado de los datos
ordenados
w
Coeficientes de correlación
para variables cualitativas
Phi / fi ϕ
C de contingencia
V de Cramer
Tetracórico rt
Coeficientes de correlación para variables
cualitativas
Nombre del
coeficiente
Características
Símbolo
- Variables nominales dicotómicas
Phi / fi
- Distribución basada en la χ2
- Participantes elegidos al azar
- Sólo admite valores positivos
ϕ
Coeficientes de correlación para variables
cualitativas
Nombre del
coeficiente
Características
Símbolo
- Variables nominales polítomas
- Distribución basada en la χ2
C de
contingencia - Participantes elegidos al azar
- El valor de la correlación depende
de las columnas
C
Coeficientes de correlación para variables
cualitativas
Nombre del
coeficiente
V de Cramer
Características
- Dos variables nominales
- Sus valores oscilas entre cero y uno
Símbolo
V
Coeficientes de correlación para variables
cualitativas
Nombre del
coeficiente
Tetracórico
Características
Símbolo
- Variables dicotomizadas de manera
artificial
rt
- Relaciones de tipo lineal
Coeficientes de correlación para variables
mixtas
Nombre del
coeficiente
Biserial rb
Punto biserial rpb
Coeficientes de correlación para variables
mixtas
Nombre del
coeficiente
Biserial
Características
- Una variable cuantitativa + una
dicotómica creada o dicotomizada
Símbolo
rb
Coeficientes de correlación para variables
mixtas
Nombre del
coeficiente
Punto biserial
Características
- Una variable cuantitativa
+ una dicotómica natural
Símbolo
rpb