Categorizar textos es "como asignarle etiquetas" al documento. Así, un documento en particular se puede relacionar con una o más categorías.
Cuando el proceso de categorización asigna al documento una sola categoría, se denomina etiquetado simple; y se habla de categorías no superpuestas.
Si por el contrario, el proceso de categorización admite asignar más de una categoría (o ninguna) al documento, se denomina etiquetado múltiple, y se habla de categorías superpuestas.
Cuando el proceso de categorización es simple, y además para cada categoría se decide si pertenece o no el documento (decisión booleana), se habla de etiquetado binario y es un caso muy importante de etiquetado dado que es más general que el etiquetado múltiple; de hecho, cualquier problema de etiquetado múltiple puede convertirse en binario, pero no visceversa. Esto porque si se asigna más de una categoría, habría que decidir cual es la más apropiada; o bien, si no se asigna ninguna categoría, se debiera decidir cual es la "menos inapropiada".
Es requisito de la categorización binaria que las categorías sean estocásticamente independientes, vale decir, la pertenencia del documento documento a determinada categoría no esté determinada por la pertenencia a otra.
La clasificación binaria es importante de estudiar, además, porque la mayor parte de las aplicaciones reales son binarias, dado que:
- las categorías son desigualmente pobladas,
- algunas categorías son más fáciles de caracterizar,
- resolviendo el problema binario se resuelve el problema multietiquetado
- y la literatura está más orientada al problema binario.
Caso claro es el filtrado de documentos.
Un clasificador binario, en lo formal, se puede definir como una función T -> {D,C}, donde T(di, ci) = {0,1}, donde 0 representa que no pertenece a la categoría y 1 que sí pertenece.
jueves, septiembre 08, 2005
Suscribirse a:
Comentarios de la entrada (Atom)
No hay comentarios.:
Publicar un comentario