En este post, Cesar habla de un desarrollo en PHP (en lo que evidentemente tiene mucha experiencia) que sugiere las categorías a un nuevo escrito mientras éste se redacta. Estaría basado en n-gramas y en post previos, desde los que aprendería las categorías.
Me llamó mucho la atención la aplicación práctica del proyecto por su originalidad, pero también llamó mi atención el uso de n-gramas, no porque sea una idea nueva, que no lo es; sino porque yo mismo tiendo a ni siquiera considerarlo pese a las enormes ventajas que tiene su uso.
Cesar hace una reseña de sus características, pero no está demás transcribirlas:
- Son secuencias de n letras que se usan en vez de palabras.
- Son independientes del idioma.
- No precisan de algoritmos de lematización.
- Son fáciles de "tokenizar" por su independencia del idioma.
- Son insensibles a los errores de ortografía, lo que da una notable ventaja al aprender de las categorías que surgen de la creación misma de los post.
La idea es interesante, por lo que recomiendo su lectura. Vamos a seguir el trabajo a ver qué resulta.