viernes, septiembre 16, 2005


Las máquinas de aprendizaje como aproximación a la categorización de textos


En la década de 1980, los clasificadores que existían eran producto de la construcción hecha por expertos en forma manual mediante el uso de reglas lógicas; del tipo si entonces . (DFN: Disjuntive Normal Form)

Ejemplo de esto es Contrue, un clasificador que se aplicó sobre un conjunto de entrenamiento de Reuter.

El inconveniente de esta forma de construir clasificadores es conseguir el conocimiento: se debe hacer manualmente por ingenieros con conocimientos y ayuda de expertos en el área y categoría, y si las categorías son actualizadas, el trabajo debe rehacerse, buscando nuevos expertos para las nuevas categorías.

Aunque se informó de un 90% de efectividad para Construe, [Sebastiani et al.] advierte que no hay otros sistemas probados con igual conjunto de datos, y no se sabe si fueron tomados aleatoriamente o escogidos.

Las Máquinas de Aprendizaje han sido las dominantes desde la década de 1990 en adelante. Acá, se construye un clasificador por un proceso inductivo que corre sobre documentos ya clasificados manualmente, de los que se deducen las características relevantes. Es un proceso de aprendizaje supervisado.

Las ventajas de Máquinas de Aprendizaje sobre Conocimiento Ingenieril, son claras: ahorro de esfuerzo en construir el clasificador; lo que permite ahorro en la actualización de categorías o si el clasificador se porta a otro ambiente.

Para el uso de Máquinas de Aprendizaje, la clave son los documentos ya clasificados: es más fácil clasificar un conjunto de documentos que construir y afinar un conjunto de reglas de clasificación.

No hay comentarios.: