martes, marzo 25, 2008

Más gente... nuevos proyectos

Siempre ando buscando acerca de de Categorización de Textos. En esta oportunidad encontré un post de Cesar Rodas, que habla de sus nuevos proyectos; en específico, GSoC - WP - Category Suggester - [Proposal].

En este post, Cesar habla de un desarrollo en PHP (en lo que evidentemente tiene mucha experiencia) que sugiere las categorías a un nuevo escrito mientras éste se redacta. Estaría basado en n-gramas y en post previos, desde los que aprendería las categorías.

Me llamó mucho la atención la aplicación práctica del proyecto por su originalidad, pero también llamó mi atención el uso de n-gramas, no porque sea una idea nueva, que no lo es; sino porque yo mismo tiendo a ni siquiera considerarlo pese a las enormes ventajas que tiene su uso.

Cesar hace una reseña de sus características, pero no está demás transcribirlas:

  1. Son secuencias de n letras que se usan en vez de palabras.
  2. Son independientes del idioma.
  3. No precisan de algoritmos de lematización.
  4. Son fáciles de "tokenizar" por su independencia del idioma.
  5. Son insensibles a los errores de ortografía, lo que da una notable ventaja al aprender de las categorías que surgen de la creación misma de los post.
Normalmente me complico mucho con los algoritmos de lematización. El no tener que usarlos puede ser una enorme ventaja; aunque recuerdo haber hecho alguna vez, en los albores de mi estudio sobre categorización de textos, una experiencia con n-gramas y resultó ser más lento el aprendizaje... con el tiempo, me parece que el tiempo de aprendizaje es despreciable respecto al tiempo computacional que implica la sola lematización de los textos.

La idea es interesante, por lo que recomiendo su lectura. Vamos a seguir el trabajo a ver qué resulta.

1 comentario:

Cesar "Saddor" Rodas dijo...

Que buen post, y en español!, un poco cansado del ingles!

Ojala que me aprueben el proposal!