Hacia la caracterización de perfiles en twitter con Random Forest. Camacho González Adolfo Tonatihu Facultad de Ciencias, UNAM. Director de tesis: Ivan Vladimir Meza Ruiz. Algoritmo Random Forest para regresión o clasificación [4] Objetivo Después de nuestra experiencia en PAN 2015 donde desarrollamos un sistema para predecir caracterı́sticas demográficas de un autor, donde fuimos provistos con un corpus de entrenamiento compuesto por tweets en ingles y español para predecir edad, genero y rasgos de personalidad, además de tweets en italiano y holandés para predecir genero y personalidad, nuestra meta es mejorar la precisión de nuestro primer sistema ası́ como profundizar en las caracterı́sticas y formulación teórica del algoritmo de aprendizaje supervisado Random Forest. Diversas caracterı́sticas pueden ser consideradas para vectorizar la información basadas en contenido o estilo, frecuencias de palabras basadas en listas, extracción de bigramas, n-gramas, caracterı́sticas basadas en el vocabulario total de los tweets etc, por tal motivo en esta tesis se analiza cuales tienen un mayor impacto en elevar la precisión de este algoritmo para este problema de clasificación. Introducción Random Forest es un algoritmo de aprendizaje supervisado ,últimamente ha sido ampliamente utilizado en diversas áreas del conocimiento como por ejemplo Microsoft y la tecnologı́a que utiliza el kinect para reconocimiento de partes del cuerpo humano en movimiento [1], más aún Random Forest también ha sido utilizado en tareas de Bio-Informática [2],Medicina ,Meteorologı́a y Procesamiento de Lenguaje Natural. Sin embargo, se debe evitar el uso de este algoritmo como herramienta de caja negra, si no más bien como el resultado de una metodologı́a basada en un proceso de pensamiento racional que depende enteramente del problema bajo estudio. En particular, el uso de estos algoritmos idealmente deberı́a requerir una comprensión razonable de sus mecanismos, propiedades y limitaciones, con el fin de comprender e interpretar mejor sus resultados [3]. Es por eso que en esta tesis explicamos como funcionan los arboles de desición y como pueden ser estos inducidos de un conjunto de aprendizaje L: 1. Desde b=1 a B. (a)Extraemos una muestra bootstrap Z ∗ de tamaño N de los datos de entrenamiento (b)Desarrollamos un árbol random-forest Tb de cada muestra boostrap, recursivamente repitiendo los siguientes pasos para cada nodo terminal de el árbol, hasta alcanzar el mı́nimo tamaño de nodos mmin que es requerido. I Seleccionamos m variables al azar de las p variables. I Escogemos la mejor variable/punto de corte entre las m. I Cortamos el nodo en dos nodos hijos. 2. Tomamos la salida del conjunto de arboles {Tb }B 1. Para hacer la predicción de un nuevo punto x: Regresion: P B B 1 ˆ f (x)rf = B b=1 Tb (x). Clasificación: Sea Ĉb (x) la clase de la predicción de el b-esimo árbol de random-forest. Entonces ĈrfB (x) = el voto mayoritario {Ĉb (x)}B 1. Árbol de decisión Figure 2: Ejemplo de un árbol inducido de un conjunto de aprendizaje L. L = {(x1, j1) , ..., (xN , jN )} . Random Forest es una combinación de arboles de decisión en el que cada árbol depende de los valores de un conjunto de vectores muestreado independientemente de el conjunto de aprendizaje L y con la misma distribución de probabilidad para todos los arboles en el bosque ,durante la ejecución de este algoritmo se generan particiones del conjunto de aprendizaje L como se ilustra en la figura 2 y se inducen arboles de decisión sobre ellas, en este trabajo de profundiza en como traducir estas particiones en arboles de decisión y como encontrar las mejores particiones para lo cual existen diversos criterios como por ejemplo: I Gini. I Ganancia de Información. I Decremento de impureza. Se da un análisis de estos criterios que involucran funciones matemáticas como la entropı́a de Shannon ,también buscamos profundizar en como estimar de manera certera la tasa de clasificación errónea en este tipo de algoritmos de aprendizaje supervisado haciendo uso de técnicas de validación cruzada . Metodologı́a Pasos mas importantes en la construcción de un árbol de decisión I La selección de las particiones. I La decisión de cuando declarar un nodo terminal o continuar particionandolo. I Asignar cada nodo terminal a una clase. Avance de tesis I I I I I Revisión de literatura. Comprensión del algoritmo Random Forest. Reescritura de código. Escrito 40%. Experimentos con Dataset. Bibliografı́a El entrenamiento es desarrollado con Scikit-Learn una librerı́a que proporciona un conjunto muy completo de herramientas para aprendizaje automático. [1] Jamie Shotton, Toby Sharp, Alex Kipman, Andrew Fitzgibbon, Mark Finocchio, Andrew Blake, Mat Cook, and Richard Moore. Real-time human pose recognition in parts from single depth images. Communications of the ACM, 56(1):116–124, 2013. [2] Carolin Strobl, Anne-Laure Boulesteix, Achim Zeileis, and Torsten Hothorn. Bias in random forest variable importance measures: Illustrations, sources and a solution. BMC bioinformatics, 8(1):25, 2007. [3] Gilles Louppe. Understanding random forests: From theory to practice. arXiv preprint arXiv:1407.7502, 2014. [4] Jerome Friedman Trevor Hastie, Robert Tibshirani. The Elements of Statistical Learning. Springer, Stanford, California, Agosto 2008. Figure 1: [email protected].
© Copyright 2024