¿Es posible evaluar la calidad de la docencia en el aula?

¿Es posible evaluar la calidad de la docencia en el aula? Evidencia de una década de estudios sobre la Evaluación Docente (ED) Coloquio de Medición y Evaluación Educacional 6 octubre 2015 Sandy Taut Contenidos de la presentación 1. 
2. 
3. 
4. 
La evaluación de la calidad de la docencia La validez y agenda de validación de la ED Evidencia empírica acerca de la validez de la ED Resultados Fondecyt sobre disNnción entre desempeño básico y competente La evaluación d
e l
a c
alidad d
e l
a d
ocencia OECD, 2009 OECD, 2009 OECD, 2009 La validez y la agenda de validación de la ED Calidad de un test Validez Confiabilidad Equidad American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. ¿Cuándo es válida un test? -­‐  Respuesta tradicional: cuando mide lo que debería medir. -­‐  Respuesta actual: la validez depende de las inferencias que se otorgan a sus resultados. 9 Interpretaciones y usos propuestos de la Evaluación Docente en Chile Interpretaciones –  Ordenar docentes según su desempeño (cuatro categorías) –  DiagnosNcar fortalezas y debilidades de docentes evaluados (para moNvar cambios en prácNcas débiles y mantener buenas prácNcas) Usos –  Enfocar el desarrollo de capacidades a través de Planes de Superación Profesional (PSP) –  Tomar decisiones informadas a nivel comunal (contratación, despido, asignación de docentes) –  Mejorar trayectoria laboral a través de vínculo entre desempeño y incenNvos monetarios (AVDI) –  Invitar el reconocimiento social de buenos docentes –  IncenNvar la colaboración entre pares respecto de buenas prácNcas Taut, Santelices, Araya y Manzi, 2010 10 Validación •  Es el proceso de juntar y evaluar evidencia acerca de la validez •  En la validación, tanto quien desarrolla el test como quienes lo usan juegan un rol fundamental 11 La escasez de evidencia de validez Ebel (1961): “La validez ha sido por mucho Nempo el dios más importante en el templo de los psicometristas. Es universalmente reconocido, pero el trabajo en su nombre es muy reducido. De hecho, la validación es visto como el aspecto menos saNsfactorio del desarrollo de mediciones.” Gitomer & Bell (2013): “Es muy poco usual encontrar un sistema de evaluación en el cual existe alguna información respecto de la validez y confiabilidad de los juicios entregados.” Agenda de validación para la ED (2005-­‐2015) •  En base de los estándares de AERA, APA y NCME (2014). •  DisNntos Npos de evidencia; foco en portafolio. •  Financiados por MIDE UC y fuentes externas (2 proyectos Fondecyt). •  Posición externa-­‐interna, retroalimentación al proyecto Docentemás. Evidencia empírica acerca de la validez de la ED Tipos de evidencia de validez Contenido Estructura interna Procesos de respuesta Relaciones con otras variables Confiabilidad/
generalizabilidad Consecuencias American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. Tipos de evidencia de validez Contenido Estructura interna Procesos de respuesta Relaciones con otras variables Confiabilidad/
generalizabilidad Consecuencias American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. ¿ConsNtuyen los correctores del portafolio una fuente de error importante? Proceso de corrección del portafolio Estudios de generalizabilidad durante procesos de corrección (2005-­‐2009): •  Varianza entre profesores (portafolios) es 25% -­‐ 50% de la varianza total, dependiendo de la dimensión •  Varianza atribuible a correctores es 3% -­‐ 10% •  El resto es error no explicado Otros estudios: •  Gates FoundaNon (2012) para FFT: 15%-­‐33% varianza entre profesores, y 3% -­‐ 9% atribuible a correctores, dependiendo de la dimensión •  Casabianca et al. (2013) para CLASS-­‐S: varianza entre aulas varía entre 13% y 35%, y varianza atribuible a correctores entre 5% y 30%, dependiendo del dominio observado Tipos de evidencia de validez Contenido Estructura interna Procesos de respuesta Relaciones con otras variables Confiabilidad/
generalizabilidad Consecuencias American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. ¿Representa el portafolio diferentes dimensiones (factores) del desempeño docente? Estudios de análisis factorial exploratorio y confirmatorio •  Hasta 2010 se realizaron AFE y AFC por el equipo de invesNgación. •  Desde este Nempo los AF se implementan en el equipo de análisis de Docentemás. •  Leves cambios en la estructura del portafolio, entre otros en base de estos resultados: –  Desde 2012 se elimina la dimensión E “Reflexión pedagógica.” Estructura teórica del portafolio de la Evaluación Docente hasta 2011 Módulo 1 (escrito): DimA: Organización de los elementos de la unidad DimB: Análisis de las acNvidades de las clases DimC: Calidad de la evaluación de la unidad DimD: Reflexión a parNr de los resultados de la evaluación DimE: Reflexión pedagógica Módulo 2 (video): DimF: Ambiente de la clase DimG: Estructura de la clase DimH: Interacción pedagógica 22 Resultados EFA 2009 Factor
Indicador (loading >0.35)
F1
A1 A2 A3
F2
B1 B2 B3 D1 D2 E1 E2 E3
F3
C1 C2 C3
F4
F1 F3 G3
F5
F2 G1 G2 H1 H2 H3
F6
H4
Planificación Reflexión Evaluación de aula Ambiente de clase Interacción y estructura de la clase Pedagogía especif. asignatura ECP, rotación oblimin 23 Dimensiones del portafolio desde 2012 1. 
2. 
3. 
4. 
Organización de la unidad Análisis de las clases Calidad de la evaluación Reflexión a parNr de los resultados de los alumnos 5.  Ambiente de la clase para el aprendizaje 6.  Estructura de la clase 7.  Interacción pedagógica Tipos de evidencia de validez Contenido Estructura interna Procesos de respuesta Relaciones con otras variables Confiabilidad/
generalizabilidad Consecuencias American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. ¿Existe una relación entre los resultados ED y el aprendizaje de los estudiantes de profesores evaluados? 27 Tipos de evidencia de validez Contenido Estructura interna Procesos de respuesta Relaciones con otras variables Confiabilidad/
generalizabilidad Consecuencias American EducaNonal Research AssociaNon, American Psychological AssociaNon, and NaNonal Council on Measurement in EducaNon (1999, 2014). Standards for educa.onal and psychological tes.ng. Washington, D.C.: American EducaNonal Research AssociaNon. ¿Se pueden observar los efectos y usos propuestos de la ED? ¿Cuáles efectos y usos no intencionados se pueden observar? Financiamiento Fondecyt Regular No. 1080135 Interpretaciones y usos propuestos de la ED Interpretaciones –  Ordenar docentes según su desempeño –  DiagnosNcar fortalezas y debilidades de docentes evaluados (para moNvar cambios en prácNcas débiles y mantener buenas prácNcas) Usos –  Enfocar el desarrollo de capacidades a través de Planes de Superación Profesional (PSP) –  Tomar decisiones informadas a nivel comunal (contratación, despido, asignación de docentes) –  Mejorar trayectoria laboral a través de vínculo entre desempeño y incenNvos monetarios (AVDI) –  Invitar el reconocimiento social de buenos docentes –  IncenNvar la colaboración entre pares respecto de buenas prácNcas 30 Evidencia sobre consecuencias •  Efectos y usos observados a nivel municipal, escuela, profesor evaluado •  ParNcipación y tasas de éxito en el programa de incenNvo monetario (Asignación Variable por Desempeño Individual, AVDI) •  ParNcipación y saNsfacción con desarrollo profesional docente a través de los Planes de Superación Profesional (PSP) •  Trayectoria laboral de docentes calificados como “insaNsfactorio” •  Percepciones de profesores que se niegan a parNcipar en el proceso Métodos mixtos
•  Entrevistas semi-­‐estructuradas presenciales: – 
– 
– 
– 
19 actores comunales (de N=10 comunas) 57 directores y jefes UTP (de N=30 escuelas de las 10 comunas) 10 profesores insaNsfactorios 9 profesores que se rebelaron frente a la ED •  Grupos focales: –  28 profesores básicos –  18 profesores competentes y destacados •  Análisis cualitaNvo de contenido, usando sopware Atlas.N •  Análisis estadísNco de bases de datos existentes: –  Asignación Variable por Desempeño Individual (AVDI) –  Planes de Superación Profesional (PSP-­‐online) –  Base Bono de Reconocimiento Profesional (BRP) Efectos no intencionados •  PosiLvo: –  Efecto formaNvo del proceso de evaluación a nivel individual y sistema –  Mecanismos de apoyo para profesores mal evaluados •  NegaLvo: –  Efecto emocional en los evaluados –  Tiempo necesario para la evaluación –  Resistencia y suspensión por razones especiales –  Trampa (compra de portafolios) Efectos y usos intencionados Ordenar a los profesores de acuerdo a la calidad de su
enseñanza
+
Diagnosticar las fortalezas y debilidades de los
docentes para el mejoramiento individual
(+)
Apoyar la colaboración entre docentes
(+)
decisiones al nivel
Proveer información para la toma de
comunal
(+)
Promover el reconocimiento social de los buenos
profesores
(+)
Mejorar la docencia como una profesión al dar acceso
a incentivos monetarios vinculados a la calidad
0
Apoyar el desarrollo profesional a través de los Planes
de Superación Profesional
0
Fondecyt sobre disLnción entre desempeño básico y competente ¿Es válida la disNnción entre profesores de nivel básico vs. competente? Co-­‐invesNgadores: Daniela Jiménez, Jorge Manzi Equipo estable: Alejandra Barrientos, Diego Palacios Fondecyt Regular No. 1120441 ObjeNvos específicos Comparar profesores básicos versus competentes respecto de: •  las prácNcas de aula •  los conocimientos para enseñar matemáNca •  el progreso en el aprendizaje de sus estudiantes •  las percepciones de sus estudiantes •  del contexto en el cual trabajan Calidad de la enseñanza Constructos del Profesor Conocimiento PrácNcas MKT (Conocimiento para la enseñanza de la matemáNca) Constructos del Estudiante Creencias Creencias Aprendizaje Comportamiento CuesNonarios (escalas de creencias) SEPA Filmaciones/Codificaciones/ Protocolos de Observación Prueba Unidad Ver Gitomer & Bell, 2015 Muestra final de profesores •  N=51 profesores que parNciparon con su curso de 7º básico matemáNca durante 2013 o 2014 •  N=29 profesores competentes, N=22 profesores básicos •  En el portafolio la gran mayoría recibe un desempeño básico. Contexto escolar: Comparación B vs. C No hay diferencias significaNvas respecto de •  Nivel socioeconómico •  SIMCE 8º básico •  Infraestructura de aula •  Nivel de aprendizaje previo de sus estudiantes La única diferencia significaNva: •  Profesores básicos perciben el entorno del colegio donde trabajan como menos seguro. Métodos de análisis de datos •  Codificación Base de filmaciones: –  protocolo auto-­‐diseñado en base de otros estudios de videos (IPN, 2006; TIMSS, 1999) –  entrenamiento de 2 correctores (Videograph) –  monitoreo de acuerdo y consistencia correctores •  Codificación CLASS-­‐S de filmaciones: –  traducción del manual CLASS Secondary (Pianta, Hamre & Mintz, 2012); –  entrenamiento y cerNficación de 4 correctores –  monitoreo de acuerdo y consistencia correctores •  Análisis de cuesNonarios y pruebas Dominios y dimensiones CLASS-­‐S •  Apoyo Emocional –  Clima PosiNvo –  Sensibilidad del Maestro –  Consideración de la PerspecNva del Adolescente •  Organización de Aula –  Manejo de la Conducta –  ProducNvidad –  Clima NegaNvo (Ausencia de) •  Apoyo Pedagógico – 
– 
– 
– 
– 
Formatos de Enseñanza Comprensión de Contenidos Análisis e Indagación Calidad de la Retroalimentación Diálogo Pedagógico Resultados Codificación CLASS-­‐S: Resultados generales 7 6 5 4 Fondecyt Chile mat 7o bas (N=51) 3 2 1 MET mat & leng 7o-­‐9o (N=698) Impresiones de una codificadora: Lo posiNvo •  Estructura de clases con momentos bien definidos. •  Explicitación del o los objeNvos de clase. •  Intentos por recuperar conocimientos previos. •  Ambiente de aula normalizado lo que permiua un desarrollo de clases tranquilo. •  Clases con modelamiento de procedimientos. •  Uso por parte de algunos profesores de material concreto. Lo que queda por mejorar •  Consideración por la Perspec.va del Adolescente: “Todas las clases que respondían a un mismo objeNvo se parecían mucho en su diseño y en su implementación lo que nos habla de diseños de clase Npo que no toman en cuenta a los estudiantes que Nenen adelante.” •  Retroalimentación: “Muchos docentes no ayudaban a los estudiantes a resolver un problema sino que les hacían ellos los ejercicios. No había una nueva explicación sino que se hacían cargo de la duda resolviendo ellos mismos la acNvidad.” •  Análsis e Indagación: ”En las salas de clase no se trabajan las habilidades superiores, no se problemaNza y mucho menos se trabaja la metacognición.” •  Diálogo Pedagógico: “Hay poco diálogo en las clases, hay respuestas a preguntas cuya frecuencia varía entre un profesor y otro, pero es solo eso.” Codificación CLASS-­‐S: Comparación videos estudio vs. video ED 7 6 5 4 3 2 1 Fondecyt Chile 2 videos (N=51) Fondecyt Chile video ED (N=48) Codificación CLASS-­‐S: Comparación B vs. C Dimensiones CLASS-­‐S
Media B d.e. Media C d.e. D de Cohen Clima PosiNvo
3.6 0.61 3.8 0.63 0.4 Sensibilidad**
3.5 0.67 4.0 0.59 0.7 Consideración*
1.8 0.28 2.0 0.24 0.6 Manejo Conducta
6.2 0.42 6.3 0.50 0.2 ProducNvidad
5.8 0.55 6.1 0.46 0.5 Ausencia Clima NegaNvo
6.8 0.34 6.8 0.25 0.2 Formatos Enseñanza
3.7 0.54 4.0 0.43 0.6 Comprensión Contenidos*
2.9 0.56 3.3 0.43 0.7 Análisis e Indagación
1.2 0.36 1.4 0.35 0.3 Calidad Retroaliment*
2.1 0.51 2.4 0.31 0.6 Diálogo Pedagógico*
1.8 0.58 2.1 0.35 0.6 Progreso en el aprendizaje en SEPA: Comparación B vs. C Variable
Media I+B
d.e.
Media C
d.e.
D
Cohen
Prob t
SEPA pre
391.45
7.40
389.93
6.75
-0.21
0.58
SEPA post
411.39
7.51
414.62
7.77
0.43
0.25
SEPA
progreso
19.79
8.08
24.28
7.60
0.56
0.14
Aprendizaje en prueba de unidad: Comparación B vs. C •  Geometría (N=19): –  diferencias marginalmente significaNvos (p<0.1) a favor de profesores competentes; •  Potencias (N=32): –  diferencias significaNvas (p<0.05) a favor de profesores competentes. Percepciones de los estudiantes sobre prácNcas docente: Comparación B vs. C Variable
Media B
d.e.
Media C
d.e.
D Cohen
Prob t
Constructivismo
3.24
0.30
3.42
0.24
0.68
0.02
Instrucción directa
3.87
0.35
4.00
0.36
0.37
0.19
Apoyo pedagógico
4.04
0.38
4.25
0.35
0.59
0.04
Apoyo motivacional
3.83
0.45
4.03
0.38
0.49
0.09
3.11
0.21
3.12
0.26
0.05
0.87
3.44
0.15
3.43
0.19
-0.04
0.89
2.78
0.30
2.82
0.36
0.10
0.73
Interés por las
matemáticas
Motivacion
instrumental
Motivación
intrinseca
Escala “Apoyo pedagógico” Ítem Mi profesor(a) me preguntó qué entendí y qué no. Mi profesor(a) respondió todas mis dudas. Mi profesor(a) buscó otras formas de explicar las cosas que no entendí. Cuando me equivoqué mi profesor(a) me ayudó a entender por qué. Ante alguna duda, mi profesor(a) volvió a explicar la materia a todo el curso. Entendí las formas de resolver ejercicio que mostró mi profesor(a). Mi profesor nos explicó la materia para que la entendiéramos. Resumen y conclusiones preliminares •  En general los profesores evaluados como competentes obNenen mejores resultados que los básicos en todas las medidas uNlizadas. –  Hay indicios de diferencias en comparaciones de grupo a favor de profesores competentes en SEPA progreso y la prueba de unidad. –  CLASS-­‐S disNngue consistentemente entre profesores B vs. C, incluso usando el video de la ED. –  Percepciones de estudiantes también disNnguen, especialmente en la escala de Apoyo Pedagógico. •  Para los resultados de aprendizaje solo se dan diferencias con el portafolio ED y no con el resultado final. Para las otras medidas, se muestran diferencias usando categoría final ED. Conclusiones sobre la validez de la ED Reflexión final sobre validez de la ED •  Evidencia hasta la fecha lleva a un juicio posiNvo respecto de la validez de la ED para sus principales usos propuestos (para algunos más que otros). •  Hay que seguir invesNgando la validez de la ED, especialmente al introducir cambios. Referencias • 
• 
• 
• 
• 
• 
• 
Taut, S., Santelices, V., Araya, C. & Manzi, J. (2010). Theory underlying a naNonal teacher evaluaNon program. EvaluaNon and Program Planning, 33, 477-­‐489. hxp://dx.doi.org/10.1016/j.evalprogplan.2010.01.002 Tornero, B. & Taut, S. (2010). A mandatory, high-­‐stakes naNonal teacher evaluaNon system: PercepNons and axribuNons of teachers who acNvely refuse to parNcipate. Studies in EducaNonal EvaluaNon, 36, 132-­‐142. Taut, S., Santelices, V., Araya, C. & Manzi, J. (2011). Perceived effects and uses of the naNonal teacher evaluaNon system in Chilean elementary schools. Studies in EducaNonal EvaluaNon, 37, 218-­‐229. hxp://dx.doi.org/10.1016/j.stueduc.2011.08.002 Taut, S., Santelices, V. & Stecher, B. (2012). ValidaNon of a naNonal teacher evaluaNon system. EducaNonal Assessment Journal, 17(4), 163-­‐199. Santelices, V., Taut, S., Araya, C. & Manzi, J. (2013). Consecuencias a Nivel Local de un Sistema de Evaluación de Profesores: El Caso de Chile [Consequences of a Teacher EvaluaNon System at District Level: The Case of Chile] . Revista Estudios Pedagógicos. Taut, S. & Sun, Y. (2014). The Development and ImplementaNon of a NaNonal, Standards-­‐based, MulN-­‐
method Teacher Performance Assessment System in Chile. EducaNonal Policy Analysis Archives (EPAA). Taut, S., Valencia, E., Palacios, D., Santelices, V., Jimenez, D. & Manzi, J. (2014). Teacher performance and student learning: Linking evidence from two naNonal assessment programs. Assessment in EducaNon: Principles, Policy & PracNce, DOI: 10.1080/0969594X.2014.961406 ¡Gracias por su interés!