viernes, 8 de agosto de 2008

Los Árboles de Clasificación

Los árboles de clasificación (o de decisión), son uno de los métodos de aprendizaje inductivo supervisado no paramétrico más utilizado. Como forma de representación del conocimiento, los árboles de clasificación destacan por su sencillez, su dominio de aplicación abarca diversas áreas como, diagnóstico médico, juegos, predicción meteorológica, control de calidad, para establecer rating, etc.


Si llamamos X al espacio muestral de la variable que deseamos clasificar, es decir, a su conjunto de clases, el objetivo de un árbol es conseguir una partición de dicho espacio.


Un árbol de clasificación obtenido en el proceso de aprendizaje inductivo, puede verse como la estructura resultante de la partición recursiva del espacio de representación a partir del espacio muestral. Esta partición recursiva se traduce en una organización jerárquica del espacio de representación que puede modelarse mediante una estructura de tipo árbol. Cada nodo interior contiene una pregunta sobre un atributo concreto (con un hijo por cada posible respuesta) y cada nodo hoja se refiere a una decisión (clasificación).


La clasificación de patrones se realiza en base a una serie de preguntas sobre los valores de sus atributos, empezado por el nodo raiz y siguiendo el camino determinado por las respuestas a las preguntas de los nodos internos, hasta llegar a un nodo hoja. La etiqueta asignada a esta hoja es la que se asignará al patrón a clasificar.


Casi todos los métodos de construcción de árboles de clasificación utilizan lo que se conoce como “un paso adelante”, esto es, se toma la próxima partición de manera óptima sin optimizar el conjunto del árbol, lo que evita la explosión combinatoria en cuanto al número de futuras decisiones a considerar. Eligiendo la medida justa a optimizar en cada corte, se facilita próximas divisiones.


La metodología que se puede seguir consta de dos pasos:

  1. Aprendizaje: Consiste en la construcción del árbol a partir de un espacio muestral X, es la fase de mayor complejidad, y de ella depende el resultado final.

  1. Clasificación.- Consiste en el etiquetado de un patrón, M, independiente del conjunto de aprendizaje. Se trata de responder a las preguntas asociadas a los nodos interiores utilizando los valores de los atributos del patrón M. Este proceso se repite desde el nodo raíz hasta alcanzar una hoja, siguiendo el camino impuesto por el resultado de cada evaluación.



Ejemplo

El problema consiste en decidir si decidir si vamos a jugar al tenis, tomando en cuenta las condiciones atmosféricas siguientes: nubosidad, humedad y viento.


Considerando un conjunto de aprendizaje en el que los patrones están compuestos por atributos categóricos y la clase cierta asociada es Si o No, algunos de estos prototipos serán:


{Nubosidad=despejado, Humedad = normal, viento=débil, Si}

{Nubosidad=despejado, Humedad = alta, viento=débil, No}

{Nubosidad=nublado, Humedad = normal, viento=débil, Si}

{Nubosidad=lluvioso, Humedad = normal, viento=débil, No}



La regla para la decisión de jugar sería:

(Nubosidad=despejado Humedad = normal) (Nubosidad=nublado) (Nubosidad=lluvioso viento=débil)


Y la siguiente regla para la decisión de no jugar:

(Nubosidad=despejado Humedad = alta) (Nubosidad=lluvioso viento=fuerte)

Para el árbol presentado, sólo se requiere la evaluación de un máximo de dos atributos para llegar a tomar una decisión.



Ventajas y desventajas de los árboles de clasificación

Ventajas:

El conocimiento que se extraiga el árbol se puede representar de forma inteligible mediante reglas de decisión

Los árboles de clasificación obedecen a un criterio estadístico, puesto que para llegar a la solución establece distribuciones de probabilidad sobre las categorías de los individuos en cada uno de sus nodos.

La regla se asignación son simples y legibles, por tanto la interpretación de resultados es directa e intuitiva.

Es robusta frente a datos atípicos u observaciones mal etiquetadas.

Es válida sea cual fuera la naturaleza de las variables explicativas: continuas, binarias nominales u ordinales.

Es una técnica no parámetrica que tiene en cuenta las interacciones que pueden existir entre los datos.

Es computacionalmente rápido.


Desventajas:

En la elección de un modelo existe una cantidad muy limitada

Dificultad para elegir el árbol óptimo.

Las reglas de asignación son bastantes sensibles a pequeñas perturbaciones en los datos (inestabilidad).

Ausencia de una función global de las variables y como consecuencia pérdida de la representación geométrica.

Los árboles de clasificación requieren un gran número de datos para asegurarse que la cantidad de las observaciones de los nodos hoja es significativa.



Referencias:

[1] CLASIFICACIÓN USANDO ÁRBOLES DE DECISIÓN, http://math.uprm.edu/~edgar/treeDaza.html

[2] Árboles de Clasificación, Introducción, http://iie.fing.edu.uy/ense/asign/recpat/material/tema3_00-01/node26.html

[3] Análisis de Cluster y Arboles de Clasificación, http://www.google.com.ec/search?hl=es&client=firefox-a&rls=org.mozilla:es-ES:official&hs=QWo&pwst=1&q=arboles+de+calsificaci%C3%B3n&start=10&sa=N

[4]Rating de pequeñas y medianas empresas mediante

árboles de clasificación. http://www.uclm.es/ab/fcee/D_trabajos/2-2000-2.pdf

No hay comentarios: