Hacia la caracterización de perfiles en twitter con Random

Hacia la caracterización de perfiles en twitter con
Random Forest.
Camacho González Adolfo Tonatihu
Facultad de Ciencias, UNAM.
Director de tesis: Ivan Vladimir Meza Ruiz.
Algoritmo Random Forest para regresión o clasificación [4]
Objetivo
Después de nuestra experiencia en PAN 2015 donde desarrollamos un sistema
para predecir caracterı́sticas demográficas de un autor, donde fuimos provistos
con un corpus de entrenamiento compuesto por tweets en ingles y español para
predecir edad, genero y rasgos de personalidad, además de tweets en italiano y
holandés para predecir genero y personalidad, nuestra meta es mejorar la precisión de nuestro primer sistema ası́ como profundizar en las caracterı́sticas y
formulación teórica del algoritmo de aprendizaje supervisado Random Forest.
Diversas caracterı́sticas pueden ser consideradas para vectorizar la información
basadas en contenido o estilo, frecuencias de palabras basadas en listas, extracción de bigramas, n-gramas, caracterı́sticas basadas en el vocabulario total
de los tweets etc, por tal motivo en esta tesis se analiza cuales tienen un mayor
impacto en elevar la precisión de este algoritmo para este problema de clasificación.
Introducción
Random Forest es un algoritmo de aprendizaje supervisado ,últimamente ha sido
ampliamente utilizado en diversas áreas del conocimiento como por ejemplo Microsoft y la tecnologı́a que utiliza el kinect para reconocimiento de partes del
cuerpo humano en movimiento [1], más aún Random Forest también ha sido utilizado en tareas de Bio-Informática [2],Medicina ,Meteorologı́a y Procesamiento
de Lenguaje Natural.
Sin embargo, se debe evitar el uso de este algoritmo como herramienta de caja
negra, si no más bien como el resultado de una metodologı́a basada en un
proceso de pensamiento racional que depende enteramente del problema bajo
estudio. En particular, el uso de estos algoritmos idealmente deberı́a requerir
una comprensión razonable de sus mecanismos, propiedades y limitaciones, con
el fin de comprender e interpretar mejor sus resultados [3].
Es por eso que en esta tesis explicamos como funcionan los arboles de desición
y como pueden ser estos inducidos de un conjunto de aprendizaje L:
1. Desde b=1 a B.
(a)Extraemos una muestra bootstrap Z ∗ de tamaño N de los datos de
entrenamiento
(b)Desarrollamos un árbol random-forest Tb de cada muestra boostrap,
recursivamente repitiendo los siguientes pasos para cada nodo terminal de
el árbol, hasta alcanzar el mı́nimo tamaño de nodos mmin que es
requerido.
I Seleccionamos m variables al azar de las p variables.
I Escogemos la mejor variable/punto de corte entre las m.
I Cortamos el nodo en dos nodos hijos.
2. Tomamos la salida del conjunto de arboles {Tb }B
1.
Para hacer la predicción de un nuevo punto x:
Regresion: P
B
B 1
ˆ
f (x)rf = B b=1 Tb (x).
Clasificación:
Sea Ĉb (x) la clase de la predicción de el b-esimo árbol de random-forest.
Entonces ĈrfB (x) = el voto mayoritario {Ĉb (x)}B
1.
Árbol de decisión
Figure 2: Ejemplo de un árbol inducido de un conjunto de aprendizaje L.
L = {(x1, j1) , ..., (xN , jN )} .
Random Forest es una combinación de arboles de decisión en el que cada árbol
depende de los valores de un conjunto de vectores muestreado independientemente de el conjunto de aprendizaje L y con la misma distribución de probabilidad
para todos los arboles en el bosque ,durante la ejecución de este algoritmo se
generan particiones del conjunto de aprendizaje L como se ilustra en la figura 2 y
se inducen arboles de decisión sobre ellas, en este trabajo de profundiza en como
traducir estas particiones en arboles de decisión y como encontrar las mejores
particiones para lo cual existen diversos criterios como por ejemplo:
I Gini.
I Ganancia de Información.
I Decremento de impureza.
Se da un análisis de estos criterios que involucran funciones matemáticas como la
entropı́a de Shannon ,también buscamos profundizar en como estimar de manera
certera la tasa de clasificación errónea en este tipo de algoritmos de aprendizaje
supervisado haciendo uso de técnicas de validación cruzada .
Metodologı́a
Pasos mas importantes en la construcción de un árbol de decisión
I La selección de las particiones.
I La decisión de cuando declarar un nodo terminal o continuar
particionandolo.
I Asignar cada nodo terminal a una clase.
Avance de tesis
I
I
I
I
I
Revisión de literatura.
Comprensión del algoritmo Random Forest.
Reescritura de código.
Escrito 40%.
Experimentos con Dataset.
Bibliografı́a
El entrenamiento es desarrollado con Scikit-Learn una librerı́a que proporciona
un conjunto muy completo de herramientas para aprendizaje automático.
[1] Jamie Shotton, Toby Sharp, Alex Kipman, Andrew Fitzgibbon, Mark Finocchio, Andrew
Blake, Mat Cook, and Richard Moore.
Real-time human pose recognition in parts from single depth images.
Communications of the ACM, 56(1):116–124, 2013.
[2] Carolin Strobl, Anne-Laure Boulesteix, Achim Zeileis, and Torsten Hothorn.
Bias in random forest variable importance measures: Illustrations, sources and a solution.
BMC bioinformatics, 8(1):25, 2007.
[3] Gilles Louppe.
Understanding random forests: From theory to practice.
arXiv preprint arXiv:1407.7502, 2014.
[4] Jerome Friedman Trevor Hastie, Robert Tibshirani.
The Elements of Statistical Learning.
Springer, Stanford, California, Agosto 2008.
Figure 1:
[email protected].