miércoles, mayo 14, 2008

Representación de documetos

Cada vez se hace más frecuente que me pregunten respecto de cómo representar documentos, sobre todo, porque en la mayor parte de la documentación que encuentras aparece una sola: la representación vectorial.
Hoy, dado un correo que me envió, le explicaba a una futura colega cubana mi visión del tema, el que transcribo:

"Respecto a formas de representación, sin duda la vectorial es la más simple, aunque hay que tener un par de consideraciones.

"Quizás la más obvia sea la de la frecuencia, dado que puedes colocar la ocurrencia real (mala idea), una ocurrencia binaria (está o no está el término) o una ocurrencia ponderada (que es lejos la que más me gusta).

"También hay que tener presente qué vas a considerar para contar la frecuencia. Pueden ser palabras, frases, lemas o raíces, ó n-gramas.

"Y respecto a las palabras, tampoco las miremos en menos, dado que a que también podemos hacer algo con ellas: en vez de poner todas las palabras, podemos escoger palabras representativas (puro, cigarro, pipa... todos pueden ser representados con el término tabaco)... un poco, lo que hace k-nn.

"Si el tema que te interesa son las representaciones, pues la imaginación da para mucho. En este momento se me ocurre una que quise implementar y al final no le vi el aporte mayor en comparación a la complejidad de su manejo: mi diccionario era una lista de palabras identificadas con un correlativo. Cada documento era una lista de estructuras (o nodos), donde la estructura contenía el número de la palabra, su frecuencia ponderada y el puntero al siguiente nodo. La ENORME ventaja que tenía esta forma de organización es que era muy rápida de seguir y ahorraba el tremendo espacio vacío que usa la representación vectorial. El inconveniente, difícil de manejar y alto consumo de CPU."


Sé que en ese correo hubo muchas cosas que se me pasaron por alto. También que hay otras muchas formas de representación de documentos que no recuerdo o de plano no conozco, por lo que si puedes aportar con ideas, estas son bienvenidas. Al fin y al cabo, nos sirven a todos.

viernes, mayo 09, 2008

La transferencia inductiva es aplicar el conocimiento aprendido en un conjunto de tares para mejorar la aplicación del conocimiento aprendido a nuevas tareas. La transferencia inductiva se está aplicacando en mejorar el rendimiento de la generalización en las tareas de clasificación usando los modelos aprendidos en algunas tareas relacionadas. En este artículo, mostramos un método para hacer transferencia inductiva para hacer la clasificación de texto más efectiva usando Wikipedia. Mapeamos los documentos de texto de diferentes tareas a un espacio de características usando Wikipedia, proveyendo así algún conocimiento oculto del contenido de los documentos. Se ha observado que cuando los clasificadores son construídos usando las características generadas desde Wikipedia, ellas son más efectivas en la transferencia de conocimiento. Una evaluación en las tareas diarias de clasificación en el corpus Reuters RCV1 muestra que nuestro método puede mejorar significativamente el rendimiento de la transferencia inductiva. Nuestro método superó exitósamente un obstaculo mayor observado en un trabajo reciente en una configuración similar.
Bajo esta presentación, encontré un artículo de HP que habla de esta transferencia inductiva.
La verdad es que recién estoy empezando a leer el artículo, pero debo reconocer que se ve muy interesante porque toca un tema del que soy absolutamente ignorante.
Cuando lo termine de leer publicaré mis comentarios y en lo posible una traducción o resumen.