Hola, Como os hemos comentado, parte de la evaluación del Curso de Ciencia de Datos en el que estáis matriculados queremos que sea arremangándose los pantalones/faldas/vestidos/túnicas y saltando al barro de la ciencia de datos. Bueno, no fueron exactamente esas las palabras, pero sí la filosofía. La mejor forma de aprender es afrontando con libertad un problema real. Y si es en el contexto de una competición que te exige dar lo mejor de ti, aún más recomendable. La competición que hemos elegido es esta sobre adopción de mascotas: https://www.kaggle.com/c/shelter-animal-outcomes Son unos datos asequibles para gente que se inicia en esto. La principal dificultad está en que es un problema multiclase. Lo podéis abordar simplemente empleando algoritmos de aprendizaje que manejen más de dos clases o con enfoques tipo One-vs-One o One-vs-All. Empezad por los primeros y los más avanzadillos podéis seguir con lo segundo. La métrica que se sigue (https://www.kaggle.com/wiki/MultiClassLogLoss) obliga a tener un buen reparto de la certeza de predicción entre las distintas clases. Os recomendamos que comencéis por un análisis exploratorio de datos mediante visualización para saber qué problema tenéis entre manos. Ánimo y al toro, o más bien a por la mascota que espera vuestra ayuda 8-P (este no es un código secreto, es el emoticon de un gatito con los ojos vidriosos y la lengua sacada). Las normas son las siguientes: - Los equipos pueden ser individuales o por parejas. - Tenéis de plazo hasta una semana después de acabar el curso, es decir, 30 de abril de 2016. Para ese día debéis entregar una breve memoria de lo que habéis hecho. Es interesante lo que ha funcionado, pero también lo que no. Es recomendable, por ejemplo, mantener una tabla con los experimentos subidos, indicando en columnas qué se hizo en cada uno, los resultados de las métricas internas que calculéis, el "score" devuelto por Kaggle, etc. - En la memoria debéis indicar con claridad el pseudónimo empleado en la competición y el mejor "score" conseguido. - La evaluación dependerá principalmente de la posición relativa (entre los equipos del curso) en la que quedéis, pero también valoramos el proceso seguido, no solo el resultado. Por ejemplo, si se prueban soluciones creativas y se explora un abanico amplio de algoritmos. - Nos encantaría que quien esté dispuesto/a comparta con el resto del alumnado y profesorado del curso el enfoque que esté siguiendo, la experiencia vivida y los resultados obtenidos. En particular, animaremos a que lo hagan quienes estén en los primeros puestos o quienes hayan compartido algún script a través de Kaggle. Esa breve presentación (máximo 10 minuos) de unos pocos equipos se hará el último día del curso, 23 de abril. - Para haceros ese seguimiento, os pido que me vayáis enviando a [email protected] con el asunto “Re: [Curso Ciencia Datos] Competición de Kaggle” (por favor, no cambiéis el asunto para que no se me extravíe ningún mensaje) el pseudónimo del equipo que forméis y el nombre completo de sus integrantes. Cualquier duda, nos vais preguntando. Un saludo, Equipo docente
© Copyright 2024