jueves, marzo 06, 2008

Mindset: Yahoo aplica máquinas de aprendizaje a las búsqudas

Bajo este título (en inglés), encontré en Digital Alchemy un interesante artículo de aplicaciones prácticas de categorización de textos, en este caso, impulsada por un gigante: Yahoo!.

La aplicación se llama Yahoo Mindset, está obviamente en pleno desarrollo y definitivamente esto promete... aunque quizás ampliando un poco más la cantidad de dimensiones del trabajo definitivamente sería un éxito; aunque no me cabe duda que lo harán.

Se trata de la utilización de máquinas de aprendizaje para definir si una página es comercial o escolástica... aunque me parece que la traducción literal no es la más afortunada, dado que en la página separa entre comercial e investigación.

La categorización tiene sólo dos posibilidades o categorías: pero usa una medida de cuán probable es que pertenezca a uno u otro grupo. De este modo ordena los resultados obtenidos de manera dinámica y pueden ser reordenada en tiempo real mediante una barra de desplazamiento.

Decir si es una aplicación de gran dificultad, es complicado. En primer lugar, todas las páginas deben ser categorizadas, lo que sabemos que implica una gran cantidad de recursos computacionales, lo que me hace pensar que el algoritmo utilizado debe ser algo así como árboles de decisión ó kNN; que todo debe estar preprocesado, que la búsqueda se realiza bajo los mismos conceptos que lo hace normalmente Yahoo y que la incorporación de máquinas de aprendizaje se limita a la ordenación de los resultados.

Puede, visto como lo expuse, que suene como que en realidad no es la gran cosa lo que ha hecho Yahoo Research, pero la verdad es que la incorporación de mejoras como esta puede hacer la diferencia en la navegación y búsqueda de información en el futuro.

2 comentarios:

Sane dijo...

Muy interesante la verdad. Tengo la materia de Gestión Digital de la Información y la verdad que tu blog es muy interesante, ya te había leído pero no había comentado; pero bueno, gracias a esta bitácora algunas ideas me han quedado muy claras y quiero agradecerte por este blog.
No sé si has visita www.iboogie.com pero creo que también se está tratando de realizar un proyecto un tanto parecido abordando todo lo ques la Web Semántica. Al menos, trata de categorizar tu búsqueda y te muestra toda una raíz con diferentes conceptos a elegir.

Un saludo!

LeGutier dijo...

Hola La Sane!...

Bien raro el nick name, no?

Revisé iBoogie, y claro está que está muy en la onda de lo que investigo. Lo encontré muy interesante por la mezcla de categorización de textos y web mining.
Voy a preparar algo y lo incluyo como post en el blog para que conversemos el tema.
Salu2, y gracias