Categorización de Textos: diciembre 2005

Los comités de clasificadores se basan en la idea que si, para una tarea
se requiere un experto, un grupo de expertos hará igual tarea mejor.

En categorización de texto, se aplican clasificadores para decidir si dj
pertenece a ci y se combina la salida apropiadamente.

* Requiere escoger k clasificadores

* Escoger la función de combinación

Los clasificadores del comité deben ser tan independientes como se
pueda, tanto en indexación como en el método inductivo. [Sebastiani,
2002]

Respecto de la función, la más simple es “por mayoría simple”:

Otra regla que se puede aplicar es por combinación lineal de pesos;
pesos que representan la efectividad relativa que se espera del
clasificador y que se validan en el conjunto de entrenamiento.

También se puede usar Selección Dinámica, donde los clasificadores se
eligen según sea el más efectivo para un documento dj similar. Su
decisión es la que adopta el comité.

Una alternativa intermedia es someterlo al juicio de todos los
clasificadores, pero la salida ponderarla según pesos para los
clasificadores según un documento dj similar al evaluado.

Se ha experimentado con varias combinaciones, normalmente de 3
clasificadores cada uno, pero han adolecido de una baja cantidad de
documentos a clasificar, por lo que los resultados son poco concluyentes

Las Máquinas con Soporte en Vector están presentes es Categorización de Textos desde el año 1998 [Sebastiani, 2002]. El método está basado en la Minimización Estructural del Riesgo [Yang, 1999] y está basado en un espacio vector donde el problema es encontrar una superficie que mejor separe los puntos que representan los datos en dos clases.

Para definir esta mejor separación, se introduce un margen entre las dos clases, y aunque se muestra el caso bi-dimensional separable linealmente en la figura, pero se puede generalizar para más dimensiones y no separable linealmente, lo que sería un hyperplano. La mejor separación, se refiere a que el margen entre la superficie que divide y los puntos se maximice.

En términos geométricos, puede ser visto como el intento de encontrar, a través de todas las superficies en el espacio |T|-dimensional, aquel que separa los negativos de los positivos, por el más amplio margen posible.

La fórmula muestra la superficie de decisión para SVM, donde x es un punto de dato arbitrario (a ser clasificado), mientras que el vector w y la constante b son aprendidas del conjunto de entrenamiento para los datos linealmente separables. Dado

que denota el conjunto de enternemiento, y donde yi tiene valor +1 si x es un ejemplo positivo y -1 si es uno negativo; el problema se limita a encontrar w y b que satisfagan:

lo que puede ser resuelto usando técnicas de programación.

Los algoritmos para resolver casos lineales se pueden extender para resolver casos no-lineales al introducir relajaciones a los márgenes de los hiperplanos o mapeando los vectores de datos originales a un espacio de dimensionalmente mayor donde no se pierdan las características de los
datos pero sí se puedan separar linealmente.

Es notable que la mejor decisión de superficie esté determinada sólo por un pequeño conjunto de ejemplos de entrenamiento, llamado soporte vector. Con sólo este conjunto de puntos, la decisión del hiperplano escogido para separar sigue siendo la misma.

Dos importantes ventajas para categorización de textos son:

La selección de términos frecuentemente no es necesaria, SVM tiende a ser bastante robusto al sobre ajuste y puede escalar a considerables dimensiones.
No requiere esfuerzo en sintonizarlo en un conjunto de validación.

Categorización de Textos

jueves, diciembre 01, 2005

Comitésde Clasificadores

Clasificadores por SVM (Support Vector Machine)

Archivo del Blog

Este soy yo