martes, diciembre 02, 2008

¿Dónde podría estar el error en mi modelo?

Con una entrada similar a esta, pero en Inglés (Where did my (linear) model go wrong?), se hace un interesante análisis de lo que puede afectar la efectividad de un modelo de categorización de textos y por qué no se puede alcanzar una efectividad del 100%.

En definitiva, habla de 4 lugares desde dónde puede provenir el error:
  1. Ruido en los datos en entrenamiento
  2. Ruido en los datos de prueba
  3. Representación insuficiente (no se han considerado las características correctas o suficientes)
  4. Ejemplos insuficientes (los datos de entrenamiento no son suficientemente densos en algunas regiones)
Los motivos no son excluyentes entre sí.

Claro, después que lo leí, se "caía de maduro"... pero no siempre es fácil verlo.

Lectura interesante y recomendada.

2 comentarios:

studentt dijo...

Hola! he estado revizando tu blog, y lo he encontrado muy interesante, aun sigues alimentando tu blog? quiera tratar algunos temas sobre la clasificacion automatica de textos y conocer un poco masde tema..

LeGutier dijo...

Hola!. La verdad es que he estado más bien alejado del tema. Cada cierto tiempo leo algo, pero ya no publico comentarios, resúmenes u observaciones; lo que claramente es un error porque luego olvido lo que leí.
Lo que sí debo comentar, es que ha avanzado una enormidad el tema desde que lo empecé a estudiar: está mucho mejor definido y acotado; y sin duda hay muchísimo material, desgraciadamente casi todo pagado.