Download Report

Universidad Mariano Gálvez de Guatemala
Centro Universitario de Escuintla
Facultad de Ciencias de la Administración
Maestría en Dirección y Gestión del Recurso Humano
Curso Modelos para la Toma de Decisiones
Ing. M.A. Claudia Esmeralda Marisol Villela Cervantes
CAPÍTULO IV
PRONÓSTICOS
-
Estudiante: Ana Lourdes Martínez Garzaro
Carné:
2728-09-12510
Fecha:
Escuintla, Febrero de 2015
CAPÍTULO IV
PRONÓSTICOS
IV PRONÓSTICOS
1. REGRESIÓN SIMPLE. ECUACIÓN DE PRONÓSTICO. ERROR
ESTÁNDAR DE ESTIMACIÓN. INTERVALOS DE PREDICCIÓN
Regresión Simple
En estadística la regresión simple o lineal o ajuste lineal es un
métodomatemático que modela la relación entre una variable dependienteY,
las variables independientesXi y un término aleatorio ε. Este modelo puede
ser expresado como:
: variable dependiente, explicada o regresando.
: variables explicativas, independientes o regresores.
: parámetros, miden la influencia que las variables
explicativas tienen sobre el regresando.
donde
es la intersección o término "constante", las
parámetros respectivos a cada variable independiente, y
son los
es el número de
parámetros independientes a tener en cuenta en la regresión. La regresión
lineal puede ser contrastada con la regresión no lineal.(Wikipedia, 2015)
Diagrama de dispersión e interpretación
El primer paso para determinar si existe o no una relación entre dos
variables es observar la gráfica de datos observados. Esta grafica se llama
diagrama de dispersión.(Riaño, s.f.)
Un diagrama nos puede dar dos tipos de información, visualmente podemos
buscar patrones que nos indiquen que las variables están relacionadas.
Entonces si esto sucede, podemos ver qué tipo de línea, o ecuación de
estimación, describe esta relación.(Riaño, s.f.)
Primero tomamos los datos de la tabla que deseamos analizar y
dependiendo de que se desea averiguar se construye la gráfica colocando
la variable dependiente en el eje Y y la independiente en el eje X, Cuando
vemos todos estos puntos juntos, podemos visualizar la relación que existe
entre estas dos variables. Como resultado, también podemos trazar, “o
ajustar” una línea recta a través de nuestro diagrama de dispersión para
representar la relación. Es común intentar trazar estas líneas de forma tal
que un número igual de puntos caiga a cada lado de la línea.(Riaño, s.f.)

Estimación mediante la línea de regresión
Hasta el momento las líneas de regresión se colocaron al ajustar las líneas
visualmente entre los puntos de datos, pero para graficar estas líneas de
una forma más precisa podemos utilizar una ecuación que relaciona las dos
variables matemáticamente.(Riaño, s.f.)
La ecuación para una línea recta donde la variable dependiente Y está
determinada por la varianza dependiente X es:
Usando esta ecuación podemos tomar un valor dado en X y calcular el valor
de Y la A se denomina intersección en Y porque su valor es el punto en el
cual la línea de regresión cruza el eje Y porque su valor es el punto en el
cual la línea de regresión cruza el eje Y, es decir el eje vertical. La b es la
pendiente de la línea, representa que tanto cada cambio de unidad de la
variable independiente X cambia la variable dependiente Y. Tanto a como b
son constantes numéricas, puesto que para cada recta dada, sus valores no
cambian.(Riaño, s.f.)
Recta de regresión por el método de mínimos cuadrados.
Ahora que hemos visto como determinar la ecuación para una línea recta,
pensemos como podemos calcular una ecuación para una línea dibujada en
medio de un conjunto de puntos en un diagrama de dispersión. Para esto
debemos minimizar el error entre los puntos estimados en la línea y los
verdaderos puntos observados que se utilizaron para trazarla.(Riaño, s.f.)
Para esto debemos introducir un nuevo símbolo, para simbolizar los valores
individuales de los puntos estimados, esto es, aquellos puntos que caen en
la línea de estimación. En consecuencia escribiremos la ecuación para la
línea de estimación como una forma en que podemos medir el error de
nuestra línea de estimación es sumando todas las diferencias, o errores,
individuales entre los puntos observados y los puntos estimados.(Riaño,
s.f.)
La suma de las diferencias individuales para calcular el error no es una
forma confiable de juzgar la bondad de ajuste de una línea de estimación.
El problema al añadir los errores individuales es el efecto de cancelación de
los valores positivos y negativos, por eso usamos valores absolutos en esta
diferencia a modo de cancelar la anulación de los signos positivos y
negativos, pero ya que estamos buscando el menor error debemos buscar
un método que nos muestre la magnitud del error, decimos que la suma de
los valores absolutos no pone énfasis en la magnitud del error.(Riaño, s.f.)
Parece razonable que mientras más lejos este un punto de la línea de
estimación, más serio seria el error, preferiríamos tener varios errores
pequeños que uno grande. En efecto, deseamos encontrar una forma de
“penalizar” errores absolutos grandes, de tal forma que podamos evitarlos.
Puede lograr esto si cuadramos los errores individuales antes de sumarlos.
Con estos se logran dos objetivos:

penaliza los errores más grandes

cancela el efecto de valores positivos y negativos
Como estamos buscando la línea de estimación que minimiza la suma de
los cuadrados de los errores a esto llamamos método de mínimos
cuadrados.(Riaño, s.f.)
Si usamos el método de mínimos cuadrados, podemos determinar si una
línea de estimación tiene un mejor ajuste que otro. Pero para un conjunto
de puntos de datos a través de los cuales podríamos trazar un número
infinito de líneas de estimación, ¿cómo podemos saber cuándo hemos
encontrado la mejor línea de ajuste?(Riaño, s.f.)
Los estadísticos han derivado dos ecuaciones que podemos utilizar para
encontrar la pendiente y la intersección Y de la línea de regresión del mejor
ajuste. La primera fórmula calcula la pendiente.

b = pendiente de la línea de estimación de mejor ajuste

X = valores de la variable independiente

Y = valores de la variable dependiente

= media de los valores de la variable independiente

= media de los valores de la variable dependiente

n = número de puntos de datos
La segunda ecuación calcula la intersección en Y

a = intersección en Y

b = pendiente de la ecuación anterior

= media de los valores de la variable dependiente

= media de los valores de la variable independiente
Verificación de la ecuación de estimación
Ahora que sabemos cómo calcular la línea de regresión, podemos verificar
que tanto se ajusta.
Tomando los errores individuales positivos y negativos deben dar cero.
(Riaño, s.f.)
Error estándar de la estimación
El error estándar nos permite deducir la confiabilidad de la ecuación de
regresión que hemos desarrollado.(Riaño, s.f.)
Este error se simboliza Se y es similar a la desviación estándar en cuanto a
que ambas son medidas de dispersión.
El error estándar de la estimación mide la variabilidad, o dispersión de los
valores observados alrededor de la línea de regresión y su fórmula es la
siguiente

= media de los valores de la variable dependiente

Y = valores de la variable dependiente

n = número de puntos de datos(Riaño, s.f.)
Método de atajo para calcular el error estándar de la estimación
Dado que utilizar la ecuación anterior requiere una serie de cálculos
tediosos, se ha diseñado una ecuación que puede eliminar unos de estos
pasos, la ecuación es la siguiente:

X = valores de la variable independiente

Y = valores de la variable dependiente

a = intersección en Y

b = pendiente de la ecuación de la estimación

n = número de puntos de datos(Riaño, s.f.)
Interpretación del error estándar de la estimación
Como se aplicaba en la desviación estándar, mientras más grande sea el
error estándar de estimación, mayor será la dispersión de los puntos
alrededor de la línea de regresión. De manera que inversa, si Se = 0,
esperemos que la ecuación de estimación sea un estimador perfecto de la
variable dependiente. En este caso todos los puntos deben caer en la línea
de regresión y no habría puntos dispersos.(Riaño, s.f.)
Usaremos el error estándar como una herramienta de igual forma que la
desviación estándar. Esto suponiendo que los puntos observados están
distribuidos normalmente alrededor de la línea de regresión, podemos
encontrar un 68% de los puntos en + 1 Se, 95.5% en + 2 Se y 99.7% de los
puntos en + 3 Se. Otra cosa que debemos observar es que el error
estándar de la estimación se mide a lo largo del eje Y, y no
perpendicularmente de la línea de regresión.(Riaño, s.f.)
Intervalos de confianza utilizando desviación estándar
En estadística, la probabilidad que asociamos con una estimación de
intervalo se conoce como el nivel de confianza.
Esta probabilidad nos indica que tanta confianza tenemos en que la
estimación del intervalo incluya al parámetro de la población. Una
probabilidad más alta significa más confianza.
El intervalo de confianza es el alcance de la estimación que estamos
haciendo pero a menudo hacemos el intervalo de confianza en términos de
errores estándar, para esto debemos calcular el error estándar de la media
así:
Donde es el error estándar de la media para una población infinita, es la
desviación estándar de la población.(Riaño, s.f.)
Con frecuencia expresaremos los intervalos de confianza de esta forma: en
la que:
= límite superior del intervalo de confianza
= límite inferior del intervalo de confianza
Relación entre nivel de confianza e intervalo de confianza
Podría pensarse que deberíamos utilizar un alto nivel de confianza, como
99% en todos los problemas sobre estimaciones, pero en algunos casos
altos niveles de confianza producen intervalos de confianza alto por lo tanto
imprecisos.(Riaño, s.f.)
Debe tenerse un intervalo de confianza que vaya de acuerdo al tema que se
esté estimando.
Intervalos de predicción aproximados
Una forma de ver el error estándar de la estimación es concebirla como la
herramienta estadística que podemos usar para hacer un enunciado de
probabilidad sobre el intervalo alrededor del valor estimado de , dentro del
cual cae el valor real de Y.(Riaño, s.f.)
Cuando la muestra es mayor de 30 datos, se calcula los intervalos de
predicción aproximados de la siguiente manera,
Si queremos estar seguros en aproximadamente 65% de que el valor real
de Y caerá dentro de + 1 error estándar. Podemos calcular los límites
superior e inferior de este intervalo de predicción de la siguiente manera:
= Límite superior del intervalo de predicción
= Límite inferior del intervalo de predicción
Si, en lugar decimos que estamos seguros en aproximadamente 95.5% de
que el dato real estará dentro de + 2 errores estándar de la estimación.
Podríamos calcular los límites de este intervalo de la siguiente manera:
= Límite superior del intervalo de predicción
= Límite inferior del intervalo de predicción
y por ultimo decimos que estamos seguros en aproximadamente el 99.7%
cuando usamos + 3 errores estándar de la estimación de Podríamos
calcular los límites de este intervalo de la siguiente manera:
= Límite superior del intervalo de predicción
= Límite inferior del intervalo de predicción
Como ya habíamos mencionado solo se usa para grandes muestras
(mayores de 30 datos) para muestras más pequeñas se usan la distribución
T. (Riaño, s.f.)
Debemos poner énfasis en que los intervalos de predicción son solo
aproximaciones, de hecho los estadísticos pueden calcular el error estándar
exacto para la predicción Sp, usando la fórmula:
en la que:
X0 = valor especifico de x en el que deseamos predecir el valor de Y.
(Riaño, s.f.)
Análisis de correlación
El análisis de correlación es la herramienta estadística que podemos usar
para describir el grado hasta el cual una variable esta linealmente
relacionada con la otra. Con frecuencia el análisis de correlación se utiliza
junto con el análisis de regresión para medir que tan bien la línea de
regresión explica los cambio de la variable dependiente Y. Sin embargo, la
correlación también se puede usar sola para medir el grado de asociación
entre dos variables.(Riaño, s.f.)
Los estadísticos han desarrollado dos medidas para describir la correlación
entre dos variables: el coeficiente de determinación y el coeficiente de
correlación. (Riaño, s.f.)
Coeficiente de determinación
El coeficiente de determinación es la principal forma en que podemos medir
la extensión, o fuerza de asociación que existe entre dos variables, X y Y.
Puesto que hemos desarrollado una muestra de puntos para desarrollar las
líneas de regresión, nos referimos a esta medida como el coeficiente de
determinación de la muestra.(Riaño, s.f.)
El coeficiente de determinación de la muestra se desarrolla de la relación
entre dos tipos de variación: la variación de los valores Y en conjunto de los
datos alrededor de

la línea de regresión ajustada

su propia media
El termino variación en estos dos casos se refiere a “la suma de un grupo
de desviaciones cuadradas”. Al usar esta definición, entonces es razonable
expresar la variación de los valores Y alrededor de la línea de regresión con
esta ecuación:
variación de los valores Y alrededor de la línea de regresión =
La segunda variación, la de los valores de Y con respecto a su propia
media, está determinada por
variación de los valores de Y alrededor de su propia media =
Uno menos la razón entre estas dos variaciones es el coeficiente de
determinación de la muestra que se simboliza r2
Esta ecuación es una medida del grado de asociación lineal entre X y Y
Una correlación perfecta es aquella en que todos los valores de Y caen en
la línea de estimación, por lo tanto el coeficiente de determinación es 1.
Cuando el valor del coeficiente de determinación es 0 quiere decir que no
hay correlación entre las dos variables. (Riaño, s.f.)
En los problemas con que se topa la mayoría de los responsables de la
toma de decisiones, r2 caerá en alguna parte entre estos dos extremos de 1
y 0. Recuerde, no obstante que un r2 cercano a 1 indica una fuerte
correlación entre X y Y, mientras que un r2 cercano a 0 significa que existe
poca correlación entre estas dos variables.
Un punto que debemos subrayar fuertemente es que r2 mide solo la fuerza
de una relación lineal entre dos variables.(Riaño, s.f.)
Otra interpretación de r2
Los estadísticos también interpretan el coeficiente de determinación viendo
la cantidad de variación en Y que es explicada por la línea de
regresión.(Riaño, s.f.)
Método de atajo para calcular el coeficiente de determinación (r2)
Hay una fórmula que nos ahorra muchos cálculos tediosos y esta es:
en la que:

r2= coeficiente de determinación de la muestra

a = intersección en Y

b = pendiente de la línea de estimación de mejor ajuste

n = número de puntos de datos

X = valores de la variable independiente

Y = valores de la variable dependiente

= media de los valores observados de la variable dependiente(Riaño,
s.f.)
El coeficiente de correlación
Es la segunda medida que podemos usar para describir que también una
variable es explicada por la otra. Cuando tratamos con muestras, el
coeficiente de variación de muestra se denomina como r y es la raíz
cuadrada del coeficiente de determinación de muestra:
Cuando la pendiente de estimación de la muestra es positiva, r es la raíz
cuadrada positiva, pero si b es negativa, r es la raíz cuadrada negativa. Por
lo tanto, el signo de indica la dirección de la relación entre las dos variables
X y Y. Si existe una relación inversa, esto es , si y disminuye
Y
X
Intersección Y
Variable dependiente
Pendiente de la línea
Variable independiente
(Riaño, s.f.)
2. ANÁLISIS DE CORRELACIÓN. COEFICIENTE DE DETERMINACIÓN Y
DE CORRELACIÓN
El
término
correlación
se
utiliza
generalmente
para
indicar
la
correspondencia o la relación recíproca que se da entre dos o más cosas,
ideas, personas, entre otras.
En tanto, en probabilidad y estadística, la correlación es aquello que
indicará la fuerza y la dirección lineal que se establece entre dos variables
aleatorias.(Astudillo, 2011)
Se considera que dos variables de tipo cuantitativo presentan correlación la
una respecto de la otra cuando los valores de una ellas varíen
sistemáticamente con respecto a los valores homónimos de la otra.
Por ejemplo, si tenemos dos variables que se llaman A y B, existirá el
mencionado fenómeno de correlación si al aumentar los valores de A lo
hacen también los valores correspondientes a B y viceversa.
De todas maneras, vale aclarar que la correlación que pueda darse entre
dos variables no implicará por si misma ningún tipo de relación de
causalidad. Los principales elementos componentes de una correlación de
este tipo serán: la fuerza, el sentido y la forma. (Astudillo, 2011)
Análisis de correlación
El análisis de correlación emplea métodos para medir la significación del
grado o intensidad de asociación entre dos o más variables. Normalmente,
el primer paso es mostrar los datos en un diagrama de dispersión. El
concepto de correlación está estrechamente vinculado al concepto de
regresión, pues, para que una ecuación de regresión sea razonable los
puntos muéstrales deben estar ceñidos a la ecuación de regresión; además
el coeficiente de correlación debe ser:

Grande cuando el grado de asociación es alto (cerca de +1 o -1, y
pequeño cuando

Es bajo, cerca de cero.

Independiente
de
las
unidades
en
que
se
miden
las
variables.(Astudillo, 2011)
Diagrama de dispersión
Un diagrama de dispersión se emplea cuando existe una variable que
está bajo el control del experimentador. Si existe un parámetro que se
incrementa o disminuye de forma sistemática por el experimentador, se
le denomina parámetro de control o variable independiente = eje de x y
habitualmente se representa a lo largo del eje horizontal. La variable
medida o dependiente = eje de y usualmente se representa a lo largo
del eje vertical. Si no existe una variable dependiente, cualquier variable
se puede representar en cada eje y el diagrama de dispersión mostrará
el grado de correlación (no causalidad) entre las dos variables.(Astudillo,
2011)
Un diagrama de dispersión puede sugerir varios tipos de correlaciones
entre las variables con un intervalo de confianza determinado. La
correlación puede ser positiva (aumento), negativa (descenso), o nula
(las variables no están correlacionadas). Se puede dibujar una línea de
ajuste (llamada también "línea de tendencia") con el fin de estudiar la
correlación entre las variables. Una ecuación para la correlación entre
las variables puede ser determinada por procedimientos de ajuste. Para
una correlación lineal, el procedimiento de ajuste es conocido como
regresión lineal y garantiza una solución correcta en un tiempo finito.
Uno de los aspectos más poderosos de un gráfico de dispersión, sin
embargo, es su capacidad para mostrar las relaciones no lineales entre
las variables. Además, si los datos son representados por un modelo de
mezcla de relaciones simples, estas relaciones son visualmente
evidentes como patrones superpuestos.(Astudillo, 2011)
El diagrama de dispersión es una de las herramientas básicas de control
de calidad, que incluyen además el histograma, el diagrama de Pareto,
la hoja de verificación, los gráficos de control, el diagrama de Ishikawa y
el diagrama de flujo.(Astudillo, 2011)
Coeficiente de correlación de Pearson
El coeficiente de correlación de Pearson es un índice que mide la
relación lineal entre dos variables aleatorias cuantitativas. A diferencia
de la covarianza, la correlación de Pearson es independiente de la
escala de medida de las variables
El coeficiente de correlación entre dos variables aleatorias X e Y es el
cociente
El valor del índice de correlación varía en el intervalo [-1, +1]:

Si r = 1, existe una correlación positiva perfecta. El índice indica una
dependencia total entre las dos variables denominada relación
directa: cuando una de ellas aumenta, la otra también lo hace en
proporción constante.

Si 0 < r < 1, existe una correlación positiva.

Si r = 0, no existe relación lineal. Pero esto no necesariamente
implica que las variables son independientes: pueden existir todavía
relaciones no lineales entre las dos variables.

Si -1 < r < 0, existe una correlación negativa.

Si r = -1, existe una correlación negativa perfecta. El índice indica
una dependencia total entre las dos variables llamada relación
inversa: cuando una de ellas aumenta, la otra disminuye en
proporción constante. (Astudillo, 2011)
Coeficiente de determinación
En un modelo de regresión lineal el coeficiente de determinación se
interpreta como el porcentaje de variación de la variable dependiente
El coeficiente de determinación, r2 - la proporción de la variación total en la
variable dependiente Y que está explicada por o se debe a la variación en la
variable independiente X.
El coeficiente de determinación es el cuadrado del coeficiente de
correlación, y toma valores de 0 a 1.
Ejemplo:
Dan Ireland, presidente de la sociedad de alumnos de la Universidad de
Toledo, está preocupado por el costo de los libros. Para tener un panorama
del problema elige una muestra de 8 libros de venta en la librería. Decide
estudiar la relación entre el número de páginas del libro y el costo. Calcule
el coeficiente de correlación.
r =.614 (verifique)
Pruebe la hipótesis de que no existe correlación en la población. Use .02 de
nivel de significancia.
Paso 1: H0 la correlación en la población es cero. H1 la correlación en la
población es distinta de cero.
Paso 2: H0 se rechaza si t>3.143 o si t 2 es
Dónde:

El coeficiente a representa el grado de disminución de peso, un
factor de suavizado constante entre 0 y 1. Un descuentos a mayor
edad observaciones más rápido. Por otra parte, a se puede expresar
en términos de períodos de tiempo N, donde a = 2 / (N +1). Por
ejemplo, N = 19 es equivalente a a = 0.1. La vida media de los pesos
(el intervalo en el que la disminución de peso por un factor de dos) es
de aproximadamente N / 2,8854 (a menos de 1% si N>5).

Y t es la observación en un período de tiempo t.

S t es el valor de la EMA, en cualquier período de tiempo t.
S 1 es indefinido. S 2 puede ser inicializado en un número de maneras
diferentes, por lo general mediante el establecimiento de S 2 Y 1, aunque
existen otras técnicas, tales como el establecimiento de S 2 a un promedio
de los primeros 4 o 5 observaciones. La importancia de S 2 de inicialización
de efecto sobre la media móvil resultante depende de a, a valores menores
que la elección de los valores de S 2 relativamente más importante a más
grande que, desde un a descuentos superiores mayores observaciones
más rápido. (Astudillo, 2011)
Esta formulación está de acuerdo con Hunter (1986).
Esta es una suma infinita de términos disminuyendo.
Los períodos de N en un N-día EMA sólo especificar el factor a. N no es un
punto de parada para el cálculo en la forma en que se encuentra en un
SMA o WMA. Para N suficientemente grande, la primera de datos N puntos
en un EMA representan alrededor del 86% del peso total en el cálculo:
La fórmula de energía por encima de da un valor de partida para un día
determinado, después de lo cual los primeros días se muestra la fórmula
puede ser aplicada a los sucesivos. La cuestión de hasta qué punto volver a
ir para un valor inicial depende, en el peor de los casos, en los datos. Si hay
grandes valores de los preciosp en los datos de edad, entonces van a tener
un efecto sobre el total, aunque su ponderación es muy pequeña. Si uno
asume los precios no varían demasiado violentamente a continuación, sólo
la ponderación puede ser considerada. El peso se omite por detener
después de los términos k es
(Astudillo, 2011)
3. REGRESIÓN
MÚLTIPLE.
ECUACIÓN
DE
PRONÓSTICO.
ERROR
ESTÁNDAR DE ESTIMACIÓN. INTERVALOS DE PREDICCIÓN.
Regresión múltiple: Es un cálculo bastante complicado y laborioso, por lo que
se requiere del empleo de programas de computación especializados. Sin
embargo, la interpretación de los coeficientes es similar al caso de la regresión
simple: el coeficiente de cada variable independiente mide el efecto separado
que esta variable tiene sobre la variable dependiente. El coeficiente de
determinación, por otro lado, mide el porcentaje de la variación total en Y que
es
explicado
por
la
variación
conjunta
de
las
variables
independientes.(Eumed.net, 2015)
Este tipo se presenta cuando dos o más variables independientes influyen
sobre una variable dependiente. Ejemplo: Y = f(x, w, z).
Por ejemplo: Podría ser una regresión de tipo múltiple:
Una Empresa de desarrollo de software establece relacionar sus Ventas en
función del número de pedidos de los tipos de software que desarrolla
(Sistemas, Educativos y Automatizaciones Empresariales), para atender 10
proyectos en el presente año.(Fabián, 2006)
En la Tabla representa Y (Ventas miles de S/.) e X (Nº pedidos de sistemas), W
(Nº de pedidos de Aplicaciones Educativas) y Z (Nº de pedidos de
Automatizaciones empresariales).
Y 440 455 470 510 506 480 460 500 490 450
X 50
40
35
45
51
55
53
48
38
44
W 105 140 110 130 125 115 100 103 118 98
Z 75
68
70
64
67
72
70
73
69
74
Objetivo: Se presentara primero el análisis de regresión múltiple al
desarrollar y explicar el uso de la ecuación de regresión múltiple, así como
el error estándar múltiple de estimación. Después se medirá la fuerza de la
relación entre las variables independientes, utilizando los coeficientes
múltiples de determinación.(Fabián, 2006)
Análisis de Regresión Múltiple
Dispone de una ecuación con dos variables independientes adicionales:
Se puede ampliar para cualquier número "m" de variables independientes:
Para poder resolver y obtener
y
en una ecuación de regresión
múltiple el cálculo se presenta muy tediosa porque se tiene atender 3
ecuaciones que se generan por el método de mínimo de cuadrados:
Para poder resolver se puede utilizar programas informáticos como AD+,
SPSS y Minitab y Excel.(Fabián, 2006)
El error estándar de la regresión múltiple
Es una medida de dispersión la estimación se hace más precisa conforme
el grado de dispersión alrededor del plano de regresión se hace mas
pequeño.(Fabián, 2006)
Para medirla se utiliza la fórmula:
Y : Valores observados en la muestra
: Valores estimados a partir a partir de la ecuación de regresión
N: Número de datos
M: Número de variables independientes
El coeficiente de determinación múltiple
Mide la tasa porcentual de los cambios de Y que pueden ser explicados por
,
y
simultáneamente.
APLICACION DE REGRESION MULTIPLE
Mediante el siguiente problema podremos ilustrar la aplicación de
Regresión Múltiple:
En la Facultad de Ingeniería de Sistemas y Computo de la Universidad
"Inca Garcilaso de la Vega" se quiere entender los factores de aprendizaje
de los alumnos que cursan la asignatura de PHP, para lo cual se escoge al
azar una muestra de 15 alumnos y ellos registran notas promedios en las
asignaturas de Algoritmos, Base de Datos y Programación como se
muestran en el siguiente cuadro.(Fabián, 2006)
Alumno PHP
Algoritmos
Base de Datos Programación
1
13
15
15
13
2
13
14
13
12
3
13
16
13
14
4
15
20
14
16
5
16
18
18
17
6
15
16
17
15
7
12
13
15
11
8
13
16
14
15
9
13
15
14
13
10
13
14
13
10
11
11
12
12
10
12
14
16
11
14
13
15
17
16
15
14
15
19
14
16
15
15
13
15
10
Lo que buscamos es construir un modelo para determinar la dependencia
que exista de aprendizaje reflejada en las notas de la asignatura de PHP,
conociendo las notas de las asignaturas Algoritmos, Base de Datos y
Programación.(Fabián, 2006)
Se presentara la siguiente ecuación a resolver:
Utilizando las fórmulas de las ecuaciones normales a los datos
obtendremos los coeficientes de regresión o utilizando Regresión de
Análisis de datos, en la Hoja de Cálculo de Excel podemos calcular también
los coeficientes de regresión:
Por lo tanto podemos construir la ecuación de regresión que buscamos:
El Error Estándar de Regresión Múltiple
Mediante esta medida de dispersión se hace más preciso el grado de
dispersión alrededor del plano de regresión, se hace más pequeño.
Para calcularla se utiliza la formula siguiente:
En los resultados de Excel se llama error típico y para explicar la relación
del aprendizaje de PHP que se viene desarrollando es de 0.861. (Fabián,
2006)
El coeficiente de determinación múltiple (r2)
Utilizaremos para determinar la tasa porcentual de Y para ser explicados las
variables múltiples, utilizando elsi siguiente formula:
4. SERIES DE TIEMPO
Es un conjunto de datos numéricos que se obtienen en períodos regulares a
través del tiempo. Estos datos pueden ser muy variados, generalmente son
usados para evaluar el comportamiento de las ventas de una empresa, o
para evaluar el comportamiento de los índices de precio de un país o de un
tipo de producto pero en general pueden aplicarse a cualquier negocio y /o
área. Este comportamiento puede tener características de tipo estacional, o
cíclico o siguen alguna tendencia ya sea a la baja, de subida o sin variación.
Las organizaciones en general evalúan periódicamente el comportamiento
de su actividad y/o productos a fin de pronosticar que va a suceder en el
futuro en base a lo que ha venido ocurriendo en el pasado, está sucediendo
en el presente y tiene la tendencia a comportarse de la misma manera en el
futuro.(P., 2006)
El análisis realizado tomó en cuenta dos tipos de clientes o cuentas de
acceso a Internet, dependiendo de la velocidad de acceso hacia la red,
menores a 1 Mbps. (banda angosta) e iguales o mayores a 1 Mbps. (banda
ancha)(P., 2006)
Caso: Clientes que acceden a Internet a través de Banda angosta
Para este primer caso se analizó el comportamiento de clientes con un tipo
de acceso a través de líneas no dedicadas o también conocido como
acceso conmutado o dial-up que son realizados a través de un modem, y
son de banda angosta (velocidades de acceso menores a 1 Mbps).
En la Figura 1 se presenta un gráfico con los valores obtenidos de la serie
de tiempo, de Enero del 2002 a Agosto del 2005. Se puede observar que en
los primeros 18 meses el descenso fue más pronunciado que en los últimos
doce meses de análisis.(P., 2006)
Luego lo que se obtuvo fue el análisis de tendencia siguiendo el
métodolineal, la ecuación que representa esta tendencia está dada por la
expresión:
Yt = 1801091 - 23085.4*t
Y como se aprecia en la figura 2 se muestra la tendencia el valor
proyectado para los próximos 6 meses. Para los análisis de tendencias
consideraremos el valor para el factor MAD, (Mean Absolute Deviation –
Desviación Absoluta Media que es igual a [la suma del valor absoluto de
(valor actual- valor predicho)] / número de observaciones) Para este caso el
MAD = 1.00E+05.(P., 2006)
El siguiente análisis es usando el modelo de tendencia cuadrática,
obteniéndose como ecuación:
Yt = 2060597 - 56933.9*t + 752.190*t**2
En la figura 3 se aprecia la tendencia y el valor MAD = 34506.
El siguiente análisis es usando el modelo de la curva creciente,
obteniéndose como ecuación:
Yt = 1837199 * (0.982902**t)
En la figura 4 se aprecia la tendencia y el valor MAD = 82922.
Finalmente el último análisis es el de tendencia de la Curva-S,
obteniéndose como ecuación:
Yt = (10**7) / (11.3571 - 7.60101*(0.954664**t))
En la figura 5 se aprecia la tendencia y el valor MAD = 6.16E+04.
De los 4 análisis hechos observamos:
Modelo de Tendencia Lineal: MAD = 1.00E+05
Modelo de Tendencia Cuadrática: MAD = 34506
Modelo de Curva Creciente: MAD = 82922
Modelo de Tendencia de la Curva-S: MAD = 6.16E+04
De todos ellos se escoge el de menor valor MAD, sería el Modelo de
Tendencia Cuadrático, seguido por el la Curva-S, pero el efecto real as
probable para este tipo de conexión es que siga la tendencia propuesta por
el modelo Curva-S, es decir el número de usuarios conectados a
velocidades menores a 1Mbps seguirá esta tendencia.(P., 2006)