Instrucciones de la competición en Kaggle

Hola,
Como os hemos comentado, parte de la evaluación del Curso de Ciencia de Datos en el que estáis matriculados
queremos que sea arremangándose los pantalones/faldas/vestidos/túnicas y saltando al barro de la ciencia de datos.
Bueno, no fueron exactamente esas las palabras, pero sí la filosofía. La mejor forma de aprender es afrontando con
libertad un problema real. Y si es en el contexto de una competición que te exige dar lo mejor de ti, aún más
recomendable.
La competición que hemos elegido es esta sobre adopción de mascotas:
https://www.kaggle.com/c/shelter-animal-outcomes
Son unos datos asequibles para gente que se inicia en esto. La principal dificultad está en que es un problema
multiclase. Lo podéis abordar simplemente empleando algoritmos de aprendizaje que manejen más de dos clases o
con enfoques tipo One-vs-One o One-vs-All. Empezad por los primeros y los más avanzadillos podéis seguir con lo
segundo. La métrica que se sigue (https://www.kaggle.com/wiki/MultiClassLogLoss) obliga a tener un buen reparto
de la certeza de predicción entre las distintas clases. Os recomendamos que comencéis por un análisis exploratorio
de datos mediante visualización para saber qué problema tenéis entre manos. Ánimo y al toro, o más bien a por la
mascota que espera vuestra ayuda 8-P (este no es un código secreto, es el emoticon de un gatito con los ojos
vidriosos y la lengua sacada).
Las normas son las siguientes:
- Los equipos pueden ser individuales o por parejas.
- Tenéis de plazo hasta una semana después de acabar el curso, es decir, 30 de abril de 2016. Para ese día debéis
entregar una breve memoria de lo que habéis hecho. Es interesante lo que ha funcionado, pero también lo que no.
Es recomendable, por ejemplo, mantener una tabla con los experimentos subidos, indicando en columnas qué se
hizo en cada uno, los resultados de las métricas internas que calculéis, el "score" devuelto por Kaggle, etc.
- En la memoria debéis indicar con claridad el pseudónimo empleado en la competición y el mejor "score"
conseguido.
- La evaluación dependerá principalmente de la posición relativa (entre los equipos del curso) en la que quedéis,
pero también valoramos el proceso seguido, no solo el resultado. Por ejemplo, si se prueban soluciones creativas y
se explora un abanico amplio de algoritmos.
- Nos encantaría que quien esté dispuesto/a comparta con el resto del alumnado y profesorado del curso el enfoque
que esté siguiendo, la experiencia vivida y los resultados obtenidos. En particular, animaremos a que lo hagan
quienes estén en los primeros puestos o quienes hayan compartido algún script a través de Kaggle. Esa breve
presentación (máximo 10 minuos) de unos pocos equipos se hará el último día del curso, 23 de abril.
- Para haceros ese seguimiento, os pido que me vayáis enviando a [email protected] con el asunto “Re: [Curso
Ciencia Datos] Competición de Kaggle” (por favor, no cambiéis el asunto para que no se me extravíe ningún mensaje)
el pseudónimo del equipo que forméis y el nombre completo de sus integrantes.
Cualquier duda, nos vais preguntando.
Un saludo,
Equipo docente