Categorización de Textos: Clasificadores simbólicos

Si bien puede ser fácil de implementar los clasificadores probabilísticos, son difíciles de interpretar por lo humanos.

No es el caso de los Algoritmos Simbólicos, de los Aprendices Inductivos de Reglas y de los Árboles de Decisión; entre otros.

El caso de los Árboles de Decisión, DT de sus siglas en Inglés (Decision Tree), tienen la facilidad que son representables esquemáticamente como un grafo, donde sus nodos internos están etiquetados por términos, sus hojas con pesos y sus hojas con categorías.

Así, para encontrar la categoría de un documento, basándose en el vector que representa el documento, se navega recursivamente hasta una hoja.

Hay paquetes estándar de aprendizaje de árboles de decisión. Los más populares son ID3, C4.5 y C5.

Un método simple de aprendizaje para árboles de decisión es Dividir para Conquistar. En este método,
- Se revisan todos los ejemplos con igual etiqueta: los que pertenecen y los que no pertenecen a ci.
- Sino, se seleccionan aquellos términos que tengan igual término tk y se colocan en un subárbol separado.
- Se repite el proceso hasta que en la misma hoja queden todos los ejemplos de entrenamiento con igual categoría.

Para saber qué término escoger, normalmente se usan criterios como ganancia de la información o entropía.

Además, normalmente se usa posteriormente un proceso de poda para evitar el sobreajuste del árbol.

Los árboles de decisión han sido usados normalmente como el proceso principal en las herramientas de clasificación de texto; aunque también se les suele encontrar como punto de partida o como parte de un comité de clasificación en otras herramientas.

Categorización de Textos

miércoles, octubre 19, 2005

Clasificadores simbólicos - Árboles de Decisión

No hay comentarios.:

Archivo del Blog

Este soy yo