lunes, septiembre 05, 2005

Porqué estudiar Categorización de Textos

La categorización es una motivación natural en el ser humano. Basta ver los niños pequeños como definen lo que los redea a partir de la categorización, ya sea por colores texturas, etc.
Es de especial interés en la comunidad científica el poder caracterizar textos (Text Categorization Text Classification) por la cantidad de aplicaciones prácticas que se pueden encontrar, sin contar aquellas que están en plena investigación.

Quizás la más evidente es la organización de documentos en bibliotecas digitales, pero hay muchas otras aplicaciones. Entre las más destacables, IMHO, está el control de spam.

En estos momentos, aplicaciones como Spamassassin o McAffe WebShield Appliance controlan el spam (la última, tiene el inconveniente que sólo analiza el protocolo POP) basado en una serie de reglas, más o menos como lo hacían las primeras aplicaciones de categorización (Knowledge Engeneering); tema que se tratará más adelante; por lo que ahí hay mucho para hacer.

Hay otras aplicaciones, quizás no tan evidentes, como el controlar el acceso a Internet en las empresas para que los empleados no pierdan tiempo y recursos de la empresa en actividades que no contribuyen; o el control parental, para que los niños no accedan a páginas con violencia, pornografía u otras que no sean apropiadas, están ganando fuerza.

Como se ve, hay aplicaciones que justifican con creces la investigación en categorización de textos; pero hay una que no se puede dejar de lado y que se puede considerar como de las más importantes: la búsqueda de información.

El investigador pierde mucho tiempo buscando información. En la mayor parte de los buscadores, la información está indexada por palabras claves, por lo que la búsqueda se limita a mostrar un listado con aquellos links en los que se han encontrado estas palabras claves. Muchas veces es de ayuda la presentación ordenada por indicadores de cercanía, indicada en un pocentaje, o por cuan visitadas han sido esas páginas; pero no es suficiente. Se sabe de la existencia de trabajos para guiar las búsquedas mostrando enlaces a documentos relacionados.

No hay comentarios.: