Bajo este título (en inglés), encontré en
Digital Alchemy un interesante artículo de aplicaciones prácticas de categorización de textos, en este caso, impulsada por un gigante: Yahoo!.
La aplicación se llama
Yahoo Mindset, está obviamente en pleno desarrollo y definitivamente esto promete... aunque quizás ampliando un poco más la cantidad de dimensiones del trabajo definitivamente sería un éxito; aunque no me cabe duda que lo harán.
Se trata de la utilización de máquinas de aprendizaje para definir si una página es comercial o
escolástica... aunque me parece que la traducción literal no es la más afortunada, dado que en la página separa entre comercial e investigación.
La categorización tiene sólo dos posibilidades o categorías: pero usa una medida de cuán probable es que pertenezca a uno u otro grupo. De este modo ordena los resultados obtenidos de manera dinámica y pueden ser reordenada en tiempo real mediante una barra de desplazamiento.
Decir si es una aplicación de gran dificultad, es complicado. En primer lugar, todas las páginas deben ser categorizadas, lo que sabemos que implica una gran cantidad de recursos computacionales, lo que me hace pensar que el algoritmo utilizado debe ser algo así como árboles de decisión ó kNN; que todo debe estar preprocesado, que la búsqueda se realiza bajo los mismos conceptos que lo hace normalmente Yahoo y que la incorporación de máquinas de aprendizaje se limita a la ordenación de los resultados.
Puede, visto como lo expuse, que suene como que en realidad no es la gran cosa lo que ha hecho Yahoo Research, pero la verdad es que la incorporación de mejoras como esta puede hacer la diferencia en la navegación y búsqueda de información en el futuro.