lunes, septiembre 12, 2005

Categorización con pivote en el documento o en la categoría

Otro aspecto relevante a la hora de estudiar una solución de Categorización de Textos es "el pivote". Esto se refiere al objeto donde fijaremos nuestra atención para determinar la relación entre documentos y categorías.

Se distingue con pivote en el documento (DPC – Document Pivoted Categorization) como aquella categorización que pretende encontrar todas las categorías a las que pertenece un documento.

Como contrapartida, se distingue con pivote en la categoría (CPC – Category Pivoted Categorization) como aquella que pretende encontrar todos los documentos que pertenecen a determinada categoría.

La diferencia, que parece más de forma que de fondo, no es tal; y es importante si el conjunto de las categorías (C) o el de los documentos (D), no están completamente disponibles desde el principio. También es importante para escoger el método de construcción del clasificador.

La clasificación con pivote en el documento se suele recomendar cuando los documentos están disponibles en distintos momentos, como los correos electrónicos; y es la clasificación más común.

La clasificación con pivote en la categoría, en cambio, suele recomendarse cuando una nueva categoría puede ser agregada luego que existen documentos ya clasificados; o cuando estos documentos necesitan ser reclasificados con |C|+1 categorías.

No hay comentarios.: