Categorización de Textos: Administración de reclamos II

Siguiendo con el análisis del documento que tratamos en el post anterior, veremos la explicación de la ponderación del vector de términos. No tengo nada que agregar, por lo que sólo resumiré lo que dice.

Ponderación del vector de términos

En esta fase, se construye un vector de términos por documento, que en este momento contiene la frecuencia "bruta" de aparición del término en el documento.

La ponderación normalmente es el producto de la frecuencia del término (tf) y el inverso de la frecuencia del documento (idf).

La frecuencia ponderada pretende medir la importancia del término para caracterizar el contenido de un documento.

En el documento, tf se obtiene por una transformación logarítmica de la frecuencia original del término, lo que reduce la importancia "bruta" de tf, que es importante para colecciones de documentos de largo variable.

donde i es el número del término, j es el número de documento, y n es la frecuencia del término.

El idf considera que si la aparición de un término en un documento es más raro, más discriminante es. Aunque, el peso de un término está inversamente relacionado con el número de documentos en los que el término aparece; es decir, la frecuencia documental del término.

donde n es el número total de documentos y dfi es el número de documentos donde el término está presente.

Finalmente, el peso o penderación del término i en el documento j está dado por

donde tfij es la frecuencia del término i en el documento j, e idfi es el inverso de la frecuencia de documento para el término i.

Reducción de la dimensionalidad

La matríz de términos por documento tiene gran dimension dado los muchos corpus distintos.
Más ún, la matriz es poco poblada (tiene muchos ceros) porque no todos los documentos tienen todos los términos del corpus.
En el texto, se usa "Indexación Semántica Latente por Descompsición Singular de Valores" (SDV por sus siglas en inglés) para reducir la dimensionalidad del espacio de características.
La Indexación Semántica Latente proyecta documentos desde un espacio de términos de grandes dimensiones a un ortonormal sub espacio semántico latente agrupando aquellos términos similares en varios (k) conceptos diferente. Toda esta información textual puede ser sumarizada en estos k conceptos.
Más aún, estos k conceptos (o variables SVD) son frecuentemente usados como variables explicativas en modelos tradicionales de clasificación de textos.
Esta reducción aproxima el peso de la matriz de términos por documento a una más pequeña de orde k, lo que la hace más manejable.
No se dice cómo calcular k, pero dice que se encuentran criterios en la literatura del tema.

Categorización de Textos

jueves, noviembre 15, 2007

Administración de reclamos II

No hay comentarios.:

Archivo del Blog

Este soy yo