Download Report

Hacia la caracterización de perfiles en twitter con
Random Forest.
Camacho González Adolfo Tonatihu
Facultad de Ciencias, UNAM.
Director de tesis: Ivan Vladimir Meza Ruiz.
Algoritmo Random Forest para regresión o clasificación [4]
Objetivo
Después de nuestra experiencia en PAN 2015 donde desarrollamos un sistema
para predecir caracterı́sticas demográficas de un autor, donde fuimos provistos
con un corpus de entrenamiento compuesto por tweets en ingles y español para
predecir edad, genero y rasgos de personalidad, además de tweets en italiano y
holandés para predecir genero y personalidad, nuestra meta es mejorar la precisión de nuestro primer sistema ası́ como profundizar en las caracterı́sticas y
formulación teórica del algoritmo de aprendizaje supervisado Random Forest.
Diversas caracterı́sticas pueden ser consideradas para vectorizar la información
basadas en contenido o estilo, frecuencias de palabras basadas en listas, extracción de bigramas, n-gramas, caracterı́sticas basadas en el vocabulario total
de los tweets etc, por tal motivo en esta tesis se analiza cuales tienen un mayor
impacto en elevar la precisión de este algoritmo para este problema de clasificación.
Introducción
Random Forest es un algoritmo de aprendizaje supervisado ,últimamente ha sido
ampliamente utilizado en diversas áreas del conocimiento como por ejemplo Microsoft y la tecnologı́a que utiliza el kinect para reconocimiento de partes del
cuerpo humano en movimiento [1], más aún Random Forest también ha sido utilizado en tareas de Bio-Informática [2],Medicina ,Meteorologı́a y Procesamiento
de Lenguaje Natural.
Sin embargo, se debe evitar el uso de este algoritmo como herramienta de caja
negra, si no más bien como el resultado de una metodologı́a basada en un
proceso de pensamiento racional que depende enteramente del problema bajo
estudio. En particular, el uso de estos algoritmos idealmente deberı́a requerir
una comprensión razonable de sus mecanismos, propiedades y limitaciones, con
el fin de comprender e interpretar mejor sus resultados [3].
Es por eso que en esta tesis explicamos como funcionan los arboles de desición
y como pueden ser estos inducidos de un conjunto de aprendizaje L:
1. Desde b=1 a B.
(a)Extraemos una muestra bootstrap Z ∗ de tamaño N de los datos de
entrenamiento
(b)Desarrollamos un árbol random-forest Tb de cada muestra boostrap,
recursivamente repitiendo los siguientes pasos para cada nodo terminal de
el árbol, hasta alcanzar el mı́nimo tamaño de nodos mmin que es
requerido.
I Seleccionamos m variables al azar de las p variables.
I Escogemos la mejor variable/punto de corte entre las m.
I Cortamos el nodo en dos nodos hijos.
2. Tomamos la salida del conjunto de arboles {Tb }B
1.
Para hacer la predicción de un nuevo punto x:
Regresion: P
B
B 1
ˆ
f (x)rf = B b=1 Tb (x).
Clasificación:
Sea Ĉb (x) la clase de la predicción de el b-esimo árbol de random-forest.
Entonces ĈrfB (x) = el voto mayoritario {Ĉb (x)}B
1.
Árbol de decisión
Figure 2: Ejemplo de un árbol inducido de un conjunto de aprendizaje L.
L = {(x1, j1) , ..., (xN , jN )} .
Random Forest es una combinación de arboles de decisión en el que cada árbol
depende de los valores de un conjunto de vectores muestreado independientemente de el conjunto de aprendizaje L y con la misma distribución de probabilidad
para todos los arboles en el bosque ,durante la ejecución de este algoritmo se
generan particiones del conjunto de aprendizaje L como se ilustra en la figura 2 y
se inducen arboles de decisión sobre ellas, en este trabajo de profundiza en como
traducir estas particiones en arboles de decisión y como encontrar las mejores
particiones para lo cual existen diversos criterios como por ejemplo:
I Gini.
I Ganancia de Información.
I Decremento de impureza.
Se da un análisis de estos criterios que involucran funciones matemáticas como la
entropı́a de Shannon ,también buscamos profundizar en como estimar de manera
certera la tasa de clasificación errónea en este tipo de algoritmos de aprendizaje
supervisado haciendo uso de técnicas de validación cruzada .
Metodologı́a
Pasos mas importantes en la construcción de un árbol de decisión
I La selección de las particiones.
I La decisión de cuando declarar un nodo terminal o continuar
particionandolo.
I Asignar cada nodo terminal a una clase.
Avance de tesis
I
I
I
I
I
Revisión de literatura.
Comprensión del algoritmo Random Forest.
Reescritura de código.
Escrito 40%.
Experimentos con Dataset.
Bibliografı́a
El entrenamiento es desarrollado con Scikit-Learn una librerı́a que proporciona
un conjunto muy completo de herramientas para aprendizaje automático.
[1] Jamie Shotton, Toby Sharp, Alex Kipman, Andrew Fitzgibbon, Mark Finocchio, Andrew
Blake, Mat Cook, and Richard Moore.
Real-time human pose recognition in parts from single depth images.
Communications of the ACM, 56(1):116–124, 2013.
[2] Carolin Strobl, Anne-Laure Boulesteix, Achim Zeileis, and Torsten Hothorn.
Bias in random forest variable importance measures: Illustrations, sources and a solution.
BMC bioinformatics, 8(1):25, 2007.
[3] Gilles Louppe.
Understanding random forests: From theory to practice.
arXiv preprint arXiv:1407.7502, 2014.
[4] Jerome Friedman Trevor Hastie, Robert Tibshirani.
The Elements of Statistical Learning.
Springer, Stanford, California, Agosto 2008.
Figure 1:
[email protected].

RANDOM FOREST

Programación Avanzada – Algor´ıtmica

Descargar folleto de Programa Christchurch

13. Encontrar el menor valor de un conjunto de n números dados

Algoritmos y Estructuras de Datos

Hacia la caracterización de perfiles en twitter con Random

RANDOM FOREST

Programación Avanzada – Algor´ıtmica

Descargar folleto de Programa Christchurch

13. Encontrar el menor valor de un conjunto de n números dados

Algoritmos y Estructuras de Datos

EsDocs.com