martes, diciembre 02, 2008

¿Dónde podría estar el error en mi modelo?

Con una entrada similar a esta, pero en Inglés (Where did my (linear) model go wrong?), se hace un interesante análisis de lo que puede afectar la efectividad de un modelo de categorización de textos y por qué no se puede alcanzar una efectividad del 100%.

En definitiva, habla de 4 lugares desde dónde puede provenir el error:
  1. Ruido en los datos en entrenamiento
  2. Ruido en los datos de prueba
  3. Representación insuficiente (no se han considerado las características correctas o suficientes)
  4. Ejemplos insuficientes (los datos de entrenamiento no son suficientemente densos en algunas regiones)
Los motivos no son excluyentes entre sí.

Claro, después que lo leí, se "caía de maduro"... pero no siempre es fácil verlo.

Lectura interesante y recomendada.