Categorización de Textos: Construcción Inductiva de Clasificadores de Texto

Como se vió, existen dos formas de clasificar texto: una manera dura, donde se toma una decisión booleana respecto a la pertenencia o no del texto a una determinada categoría; o una graduada, donde se estima una probabilidad de pertenencia.

De manera similar, hay dos formas de crear los clasificadores: una manera dura o automatizada, donde se deja la responsabilidad completa de la clasificación del texto al clasificador; y una parcialmente automatizada, donde el clasificador entrega una "proximidad a la clase".

En el caso de la clasificación dura, se define una función CVSi que determina si pertenece o no a la categoría (D->{V, F}). Esta función D, es en realidad una función que entrega un valor entre 0 y 1, y se define un valor umbral por sobre el cual la respuesta de D es considerada verdadera y falsa en otro caso.

El caso de la clasificación parcialmente automatizada es similar desde el punto de vista que también define una función CVSi que entrega un valor entre 0 y 1, pero que en este caso indica la proximidad a una clase; y así como funciona para clasificación con pivote en el documento, funciona para clasificación con pivote en la categoría.

Además, la función CVSi toma distintos significados dependiendo del método de aprendizaje utilizado. Así, para el Ingenuo de Bayes indica probabilidad; en cambio para Roccio, es una medida de proximidad en el espacio |T|-dimensional.

Determinación de Umbrales

Se distinguen dos caminos para la determinación de umbrales: analítica y experimental.

El caso de la determinación analítica, sólo es posible cuando hay un resultado teórico que indique cómo calcular el umbral que maximice el valor esperado para la función efectividad. Normalmente se utiliza con funciones cuya salida sea una probabilidad y cuya efectividad sea calculada por una medida de decisión teórica, como la utilidad .

Pero este análisis no siempre es posible. Para estos casos la determinación del umbral es en forma experimental, para lo que existen varias alternativas.

- Una manera es Scut, donde se prueban distintos umbrales y se escoge el que maximice la efectividad. Lo normal es que para esta forma de determinación se seleccionen distintos umbrales para distintas categorías.

- Una segunda alternativa es Pcut, donde se establece en aquel valor donde la generalidad del conjunto de validación es cercano a la generalidad del conjunto de prueba. Esta forma de determinar el umbral incorpora el principio que el porcentaje de documentos que pertenece a una determinada clase debiera mantenerse en el conjunto de entrenamiento que en el de prueba. Este método no se usa para clasificación con pivote en el documento.

- Una tercera forma, algo menos común, es el de umbral reparado, Rcut o umbral "k-per-doc"; donde una cantidad k de categorías es asignada a cada documento, aunque el umbral no está aplicado en el sentido anterior, pero se usa con pivote en el documento, y no permite una sintonía fina.

Categorización de Textos

martes, octubre 18, 2005

Construcción Inductiva de Clasificadores de Texto

No hay comentarios.:

Archivo del Blog

Este soy yo