Categorización de Textos: 2007

viernes, noviembre 16, 2007

Revisen esto!!!

Sólo alcancé a leer la introducción, pero me parece que este trabajo está MUY bueno.
El autor es Ting Liu, autor del que aún no había escuchado nada, pero que de seguro muy pronto empezaré a escuchar más.

jueves, noviembre 15, 2007

Administración de reclamos II

Siguiendo con el análisis del documento que tratamos en el post anterior, veremos la explicación de la ponderación del vector de términos. No tengo nada que agregar, por lo que sólo resumiré lo que dice.

Ponderación del vector de términos

En esta fase, se construye un vector de términos por documento, que en este momento contiene la frecuencia "bruta" de aparición del término en el documento.

La ponderación normalmente es el producto de la frecuencia del término (tf) y el inverso de la frecuencia del documento (idf).

La frecuencia ponderada pretende medir la importancia del término para caracterizar el contenido de un documento.

En el documento, tf se obtiene por una transformación logarítmica de la frecuencia original del término, lo que reduce la importancia "bruta" de tf, que es importante para colecciones de documentos de largo variable.

donde i es el número del término, j es el número de documento, y n es la frecuencia del término.

El idf considera que si la aparición de un término en un documento es más raro, más discriminante es. Aunque, el peso de un término está inversamente relacionado con el número de documentos en los que el término aparece; es decir, la frecuencia documental del término.

donde n es el número total de documentos y dfi es el número de documentos donde el término está presente.

Finalmente, el peso o penderación del término i en el documento j está dado por

donde tfij es la frecuencia del término i en el documento j, e idfi es el inverso de la frecuencia de documento para el término i.

Reducción de la dimensionalidad

La matríz de términos por documento tiene gran dimension dado los muchos corpus distintos.
Más ún, la matriz es poco poblada (tiene muchos ceros) porque no todos los documentos tienen todos los términos del corpus.
En el texto, se usa "Indexación Semántica Latente por Descompsición Singular de Valores" (SDV por sus siglas en inglés) para reducir la dimensionalidad del espacio de características.
La Indexación Semántica Latente proyecta documentos desde un espacio de términos de grandes dimensiones a un ortonormal sub espacio semántico latente agrupando aquellos términos similares en varios (k) conceptos diferente. Toda esta información textual puede ser sumarizada en estos k conceptos.
Más aún, estos k conceptos (o variables SVD) son frecuentemente usados como variables explicativas en modelos tradicionales de clasificación de textos.
Esta reducción aproxima el peso de la matriz de términos por documento a una más pequeña de orde k, lo que la hace más manejable.
No se dice cómo calcular k, pero dice que se encuentran criterios en la literatura del tema.

lunes, noviembre 12, 2007

Administración de reclamos

Hace días que tengo en mi bandeja de entrada un correo con la referencia a un paper que no había tenido tiempo de leer.

De por sí, el título es sugerente: "Improving Customer Compliant Management by Automatic Email Classification Using Linguistic Style Features as Predictors".

La base de este paper es lo más interesante. Hasta ahora buscamos clasificar documentos de textos a partir de los términos que lo conforman; pero ellos hacen una clasificación simple: es o no es el correo un reclamo, a partir de una mezcla de la información del contenido sumado con la información que entrega el estilo lingüístico del correo.

Trabajo en una empresa que comercializa productos en acero, y les digo que el tema de la administración de los reclamos no es un tema para nada menor; y donde la administración oportuna de estos hace la diferencia entre los participantes de este mercado.

Ellos aseguran que al agregar el componente lingüístico al análisis de los correos, se mejora la predicción de si se trata o no de un reclamo, por lo que se puede dar un trato más apropiado a estos mensajes, disminuyendo el esfuerzo final de la empresa y aumentando la satisfacción del cliente. La mejora se puede notar en los tiempos, pero también en la efectividad de las respuestas al poder derivar las denuncias al personal apropiado sin necesidad de preparar al personal a quien corresponde responder consultas estar preparado en todos los ámbitos.

Entre las características que destacan, está que no usa la aproximación espacio-vector por el tamaño de la matriz resultante, sino Indexación Semántica Latente por medio de Descomposición Singular de Valores, esto es, la representación de los documentos por k conceptos representativos; donde la información del estilo lingüístico se introduce como un nuevo tipo de información textual.

Aproximación Espacio Vector

La idea de incorporar el estilo lingüístico no es lo único interesante de este paper. También se da una descripción de la aproximación espacio vector que es de lo más interesante.

Primero veremos qué es lo que propone y luego lo analizamos.

En esta representación, los documentos son convertidos en vectores de característica espacial basado en el peso de sus frecuencias a fin de seleccionar aquellos que entreguen más información a partir de su presencia en un diccionario.

Todo empieza con un preproceso, en el cual, se aplica una técnica de raw text cleaning. En esta, los caracteres especiales y la puntuación del texto se separa de las palabras.
En seguida, los errores ortográficos se corrigen comparando las palabras en el documento con el diccionario de referencia.

Luego viene el proceso de tokenización, en el que el documento se divide en tokens o palabras, donde los espacios sirven de separadores.
El resto del texto es dividido en palabras convertidas en minúsculas.
Las palabras son sumarizadas en informativas y no informativas. Las no informativas son los determinantes , conjunciones, auxiliares, preposiciones, pronombres, artículos, interjecciones, nombres propios, abreviaciones y números. Los informativos son los sustantivos , verbos, adjetivos y adverbios.

En seguida, viene el proceso de lematización, en el que las distintas variaciones de las palabras se llevan a una sola forma representativa llamada stem; lo que reduce el corpus del diccionario y aumenta la performance.
Todas las variaciones morfológicas se tratan de manera natural comparándolas con el diccionario de referencia. Si el término no es reconocido, el stemmer aplica alguna decisión estandar para entregar el stem correcto.

Lo siguiente es eplicar el term filtering, que sirve para reducir el número de términos irrelevantes: primero se sacan las palabras raras, del mismo modo que se sacan aquellas que aparecen menos de tres veces.
La misma regla se aplica en las palabras muy comunes como "a", "el", etc. Estas son conocidas como stopwords, y son palabras por su altea frecuencia no son discriminativas. Estas palabras están ligadas al idioma.

Al terminar el proceso, de todas formas se revisa el resultado manualmente.

Al final se consigue una matriz de grandes dimensiones de términos por documento, donde cada celda representa la frecuencia bruta de aparición del término en el documento.

Comentarios

Hay varias cosas que me llamaron la atención de la descripción del proceso.

Lo primero es la corrección de errores ortográficos. Si bien pareciera ser demasiado evidente que puede encontrarse este tipo de errores, hasta ahora no recuerdo haber leído de técnicas para la corrección de errores ortográficos. De hecho, si se piensa, puede ser bastante aventurado hacer este tipo de correcciones de manera automática tal y como lo propone el autor. Más aún, basado en un diccionario que no sabemos si es completo.
¿Me puse demasiado quisquilloso?. Veámoslo de la siguiente manera: si encuentro un reportaje donde habla de "wena Naty", existe la probabilidad que termine corregido "wena" por "vena" y "Naty" desechado por baja frecuencia o por ser un nombre propio.

De ahí surge mi segunda observación: dice que se excluyen los nombres propios. Me parece, de modo intuitivo y aún no tengo una comprobación experimental del hecho, que los nombres propios podrían entregar tanto o más información útil para la categorización de un texto que un sustantivo o un verbo.

La tercera observación va por el lado de la decisión estándar que tomaría el stemmer cuando no encuentra una palabra en el diccionario. Al respecto, creo que tomar una decisión no asistida puede ser contraproducente; aunque claro, no da ninguna pista de qué es una decisión estándar como para poder criticar con más fundamento.

Lo del term filtering y ese número de 3 como umbral para no considerar una palabra me parece que no corresponde. La experiencia indica que ese número no es arbitrario y es producto del tunning del procedimiento. Puede que ellos lo hayan conseguido así, pero no lo dicen.

Por último dice que el proceso se revisa manualmente, lo que me parece un acierto que no siempre hacemos. La importancia de esta revisión es fundamental, sobre todo en los primeros pasos del clasificador y mientras se consigue afinarlo adecuadamente.

Por ahora voy a dejar este post hasta aquí, y terminamos de analizar en el post siguiente.

Reconocimiento de texto y caracteres

Siempre es llamativo cuando sale una nueva tecnología. En este caso, fue Xerox quien nos sorprendió con algo que quizás no tenía mucho de nuevo como idea, pero sí como implementación.

Leo en allamericanpatriot.com (no, no leo ese sitio de manera habitual, pero llegó el aviso por Google de la publicación de un artículo relacionado con categotización de textos) que Xerox habría desarrollado un software que es capaz de categorizar simultáneamente texto e imágen.

Los motivos para invertir tiempo en este tipo de desarrollos es obvio: el spam que recibimos es cada día más inteligente y el uso de imágenes es cada día más habitual como forma de evitar los filtros.

La parte simpática es que se trata de una aplicación que trabajaría on-line; por lo que las aplicaciones serían muchísimas: no sólo spam, también búsquedas en la web, organización de documentos, geografía, turismo... se me ocurren más, pero tampoco les voy a dar la tarea hecha: yo también estoy trabajando en algo.

La entrada no aporta mucha información de la implementación o la tecnología en sí, pero al menos da luces que hay gente trabajando en el tema.

miércoles, enero 10, 2007

Cómo trabajan los AntiSpam

Encontré en CopiaTECH un interesante artículo de tres partes respecto de cómo trabajan los antispam. Para nuestros intereses, es muy importante porque los más modernos de éstos utilizan precisamente la tecnología de Categorización de Textos.

Creo que no está de más decir que me limitaré a traducir lo que dice el documento, aunque en ocasiones (las menos) lo he tenido que adaptar porque la redacción no me ha parecido precisamente clara.

Como no es el tema de mi blog, lo primero es definir spam: diremos que spam es cualquier correo electrónico no deseado y/o solicitado que recibamos.

La evolución de la tecnología anti-spam

A mediados de los 1990s, el método usado para disminuir el flujo de spam
estaba basada en las capacidades tecnológicas únicamente, tales como restringir el "reenvío de correo" (mail relay) de los servidores de correo, que originalmente no fue diseñada específicamente para resolver el problema de correo no deseado.

A finales de los 1990s, emergió la primera tecnología real anti-spam, como fue el filtro para correo masivo no solicitado de Netscape Messaging Server. Así, la mayor parte de los productos que formaban la infraestructura de mensajería no tenía estas capacidades y, para el 2000, estaba claro que los negocios tendrían que jugar un rol controlador de spam para proteger sus propios servidores en red.

También estaba claro que en ese momento las capacidades del software existente en la infraestructura y los productos asociados, como gateways antivirus para email, eran inadecuados y que los organismos estandarizadores de la industria no estaban preocupandose del tema. Esta situación, combinada con el hecho que los casos en la corte norteamericana relacionadas con spam, no tenían efecto aparente en los spammers (N. del T. spammer es quien genera spam), presentandose como un potencial oportunidad de negocio para las tecnologías anti-spam.

Precursores de la tecnología anti-spam

Virtualmente cualquier Simple Mail Transfer Protocos (SMTP) Message Transfer Agent (MTA) (N. del T.: SMTP es el protocolo usado en la transmisión de correo electrónico, mientras que MTA son las unidades encargadas de hacer esta transferencia... en lenguaje coloquial, podemos pensar que un SMTP MTA es un servicio/servidor dedicado a la transmisión de correo) tiene alguna habilidad nativa para controlar las comunicaciones con otros MTAs en Internet. Por ejemplo, Sendmail, el SMTP MTA más ampliamente usado en el mundo, tiene la habilidad de desabilitar el reenvío y limitar las redes desde las que puede aceptar mensajes.

Estas características, mencionadas arriba como precursoras y tecnología de primera generación, no fueron creadas especificamente para solucionar el problema del spam, ni tampoco constituyen una tecnología anti-spam en sí. Hasta hace pocos años, los productos de mensajería vendidos apuntaban a solucionar el problema implementando características rudimentarias como estas y otras como las "listas blancas" y "listas negras" dentro del conjunto básico de características anti-spam. Esta última aproximación aún es evidente en muchos productos que incluyen SMTP MTAs tales como IBM Lotus Domino, que no representa en realidad una tecnología anti-spam.

Las verdaderas tecnologías anti-spam, conocidas como tecnologías de segunda y tercera generación, son desarrollos relativamente recientes. Son tecnologías absolutamente nuevas y difieren completamente de los controles básicos de los MTAs. En particular, los algoritmos Bayesianos y los más recientes avances en análisis de texto, por ejemplo, usando Inteligencia Arficial, son un cambio radical de los pre-existentes mecanismos caracterizados o re-propuestos como tecnología anti-spam.

Tecnología Anti-spam - la primera generación

Es difícil distinguir claramente entre las características pre-existentes disponibles en la mayoría de los MTAs y las características de primera generación anti-spam porque estas últimas se siguieron usando (N. del T.: y se usan) aún cuando las nuevas herramientas estaban ampliamente desarrolladas para combatir el spam. Por ejemplo, las "Pruebas de Sobre y Cabecera", así como las "Pruebas DNS Simple", fueron motivados inicialmente por el combate al spam, pero no pueden distinguir directamente entre los mensajes spam y otros mensajes.

(Integrantes de la primera generación son:)

Controles básicos MTA: los controles MTA, que restringen la comunicación basada en redes y nombres de dominios, por ejemplo, para prevenir el "reenvío"; no son una tecnología anti-spam. Algunas de estas características son anteriores al problema del spam e inicialmente existieron con propósitos de seguridad.

Listas blancas y negras: las listas blancas y negras en un MTA son extensiones lógicas de los controles MTA básicos usados como una herramienta en bruto para controlar el spam. Aunque las listas blancas y negras son una característica anti-spam importante, ellas no son una tecnología nueva porque ellas son simplemente extensiones y no se apartan de los controles clásicos. Los productos antivirus y de seguridad en los MTAs tenían estas características antes de ser ser caracterizados como una característica anti-spam.

Búsqueda de palabras simples: Uno de los primeros métodos usados para combatir el spam fue la búsqueda simple de palabras. Esta funcionalidad existió antes de que el spam fuera un problema mayor en Internet, como parte de del filtrado de contenido y soluciones de comodidad y productos antivirus para e-mail. Esta aproximación suele ser usada para identificar un subconjunto de los mensajes que son spam, pero no es efectivo porque falla al reconocer variaciones de las palabras o variaciones en el contexto, y pueden resultar en muchos falsos positivos (correos legítimos identificados como spam). Los antivirus para servidores de correo y productos de seguridad tenían esta característica antes de ser usados como herramientas anti-spam. Evadir la búsqueda simple de palabras es trivial para los spammer usando variaciones de las palabras o cambiando las palabras por alguna alternativa.

Prueba del sobre y cabecera del mensaje: La prueba del sobre implica que el MTA revisa la información pasada a través del protocolo SMTP, por ejemplo el emisor y receptor del mensaje, se usa cuando se transfiere el mensaje y se rechaza si esta no es correcta o válida. La prueba de la cabecera entrega al MTA la habilidad de comprobar la información guardada dentro del mensaje, tal como el Para, De y Fecha y rechazar los mensajes si la cabecera está malformada o contiene información inválida. Mientras que estas características son obviamente muy usadas para eliminar el spam, ellas ahora sólo garantizan que el mensaje está correctamente construído y transmitido, y no si ellos fueron enviados por spammer o si el mensaje contiene spam; así, no son una tecnología anti-spam en rigor. También pueden ocurrir problemas en las cabeceras de los mensajes y en los sobres por razones no necesariamente relacionadas con el spam.

Prueba DNS simple: Mirando la información del emisor intercambiada durante el uso del protocolo SMTP y usando el sistema de dominio de nombres (DNS) de Internet, se puede validar la información intercambiada, por ejemplo verificar la existencia del dominio Internet del emisor o el nombre de la máquina que envía el mensaje (mirando el nombre asociado con la dirección Internet del emisor). La prueba DNS simple ayuda a prevenir el spoofing (cuando una máquina se enmascara como otra usando el mismo nombre). Aunque la prueba DNS simple es una herramienta significativa para combatir el spam, ella no es una tecnología anti-spam como tal porque sólo verifica la dirección y nombre de máquina de quien envía, no si quien envía en un spammer o si el mensaje contiene spam. La prueba DNS simple en una tecnología débil porque puede indicar un problema para una compleja variedad de razones legítimas y no necesariamente spam.

Tecnología anti-spam - la segunda generación

Las listas negras en tiempo real y las redes de firmas son la segunda generación de tecnologías anti-spam porque no son la reutilización simple o extensión de las características pre-existentes de los MTA con propósitos anti-spam. La segunda generación de tecnologías anti-spam existe específicamente con el propósito de detener el spam y está ampliamente mejorada respecto de los métodos anteriores.

Listas negras en tiempo real (RBLs): aunque son tecnicamente una prueba DNS cuando están basadas en direcciones Internet en vez de nombres de dominio; las RBLs fueron la primera real tecnología anti-spam. El concepto detrás del RBLs es simplemente mantener una lista de direcciones Internet que envían spam y las bloquea para transmisiones futuras. La tecnología tiene algunos (d)efectos que permiten burlarla, como cambiar la dirección IP o reenviar mensajes a través de un tercero previamente no identificado como spammer. Del mismo modo, los nombres de dominio pueden ser fácilmente adquiridos, enmascarados o hechos; así que los dominios desde los que spammer envían no pueden depender de los detectores de spam. Hay algunas RBLs externas que bloquean dominios o direcciones IP a partir de reclamos.

Redes de firmas: Son una significativa y relativamente nueva tecnología para combatir el spam. El concepto de redes de firmas es coleccionar e identificar mensajes spam generando una única "firma" que puede ser usada para identificar un mensaje dado. Dado que los mensajes spam son enviado de manera masiva (muchas copias del mismo mensaje) esta aproximación, si es soportada por un número suficiente de ejemplos de mensajes spam, puede detener un porcentaje significativo de correo no deseado. No obstante, el concepto es dependiente del tiempo empleado en la operación de la generación de la firma para comenzar a funcionar.

Tecnología anti-spam - la nueva generación

Identificar spam (por firmas) y spammers (con RBLs) está destinado a fallar. Los spammers pueden fácilmente burlar las RBLs y frecuentemente una buena red de firma toma tiempo en identificar mensajes de spam; además que nunca detectan el 100% de estos.

Filtros Bayesianos: Los filtros bayesianos, que es una aproximación estadística a la detección de spam basado en la probabilidad de spam de las palabras individuales. Usando como premisa la idea que el contenido comercial de los mensajes spam es el talón de Aquiles, el desarrollo de los filtros bayesianos cambió el foco de los esfuerzos anti-spam de redes y protocolos al contenido de los mensajes. Los filtros bayesianos simples , aunque efectivos en la mayoría del spam, pueden ser burlados fácilmente. Esta aproximación confía en el "entrenamiento" de los filtros procesando el spam conocido para generar un sistema basado en una calificación (score) de "palabras spam" que son usadas para evaluar los nuevos mensajes. Los spammers aprenden rápidamente a variar continuamente el contenido de los mensajes agregando palabras neutrales o variaciones de las palabras (como sustituyendo numeros por letras como el número "0" por la letra "O"). Con estas variaciones de las palabras neutrales y otros contenidos de mensajes y creando nuevas variaciones a las palabras, los filtros bayesianos pueden ser burlados consistentemente, y están siempre un paso atrás de los spam más recientes.

Inteligencia Artificial y máquinas de aprendizaje: Mientras las técnicas ya implementadas basadas en filtros bayesianos (por ejemplo, tomando en cuenta la proximidad de las palabras, tirando los tags HTML usados por los spammers a palabras riesgosas, etc.) continúan siendo ampliamente usadas, una aproximación más inteligente se hace necesaria. Alrededor del 2003, la necesidad de nuevas y especializadas tecnologías anti-spam era clara; y se veía venir un número de tecnologías de punta necesarias de desarrollar; tales como Corvigo, Proofpoint, y otras. Las aproximaciones de estas compañías fueron basadas en algoritmos de software originados en el campo de la inteligencia artificial, que es una rama de las ciencias de la computación. Fundamentalmente estas tecnologías realizan clasificación de texto usando tecnicas no-bayesianas. Así, ellas pueden adaptarse automáticamente a los cambios de las características del spam. Para hacer esto se han usado técnicas de máquinas de aprendizaje.

El futuro de la tecnología anti-spam

El spam existe en parte porque, cuando el SMTP fue originalmente creado, sólo gobiernos y universidades legitimadas, entidades universitarias e industriales, fueron conectadas a Internet. Ningún concepto de ilegitimidad o abuso de internet o del email había porque era un sistema cerrado. Con la comercialización de Internet en los 1990s, la situación cambió pero no así las tecnologías. Organizaciones de estandarización hoy trabajan especificando nuevas tecnologías que ayudarán a eliminar el spam forzando un alto grado de legitimidad en los emisores de mensajes. Esfuerzos anteriores en esta línea, se promovieron como tecnologías anti-spam, pero ellas intentaron legitimizar el correo electrónico comercial masivo, considerado por muchos como spam.

En contraste, los actuales esfuerzos basados en estandars para establecer una de autentificación de los emisores usando certificados digitales a los dominios de llaves para generar firmas digitales para los mensajes, pueden ser empleados por todas las empresas, en ves de sólo los emisores de correo masivo comercial. Los nuevos estándars, sin embargo, demoraran varios años en ser incorporados en una mayoría de los MTAs de Internet.

lunes, enero 08, 2007

Signal Processing Approach

Estaba revisando una presentación en SlideShare de la Universidad de Vigo, en España, bajo el nombre de A Signal Processing Approach to Distributional clustering of terms in Automatic Text Categorization.

Revisado el documento casi diapositiva a diapositiva, presento un resumen/recordatorio.

Lo primero es que define Categorización Automática de Textos como la categorización automática de documentos de texto en categorías predefinidas dado un conjunto de documentos de textos pre-categorizados. Esto es importante, pues entiendo se basa en aprendizaje por ejemplos, por lo que para que el método pueda implementarse, debe tener disponible un conjunto de entrenamiento / aprendizaje.

El método de Procesamiento de Señales propuesto, se enfoca en solucionar la problemática de la dimensionadlidad para el espacio de términos usados en la indexación. Para ello utiliza un Clustering Distribuido, definiendo esto como una efectiva y poderosa aproximación en la extracción de términos que ayuda a la reducción del espacio original:

Los términos son caracterizados por sus funciones de probabilidad de distribución sobre las diferentes categorías de documentos.

El clustering o agrupación es hecha siguiendo una medida de similaridad de las funciones anteriores.

El método de Clustering Distribuido tiene:

Medidas no basadas en información teórica
Pero sí basadas en una nueva interpretación del "Procesamiento de Señales", primero eliminado los términos que causan ruido y agrupando los restantes términos que sí aportan información siguiendo medidas de correlación o interdependencia.

Los resultados que se declararon fueron:

Re-confirmar los resultados obtenidos por otros algoritmos de Clustering Distribuido, que consiguen drásticas mejoras en la efectividad de la categorización, en especial con bajo número de características.
Y que los 20 conjuntos de grupos de noticias referenciados pueden ser indexados con una mínima pérdida de efectividad en la categorización con sólo 20 clusters.

Esto lo encontré interesante: la metodología para hacer el clustering:

Los documentos de textos son representados por la clásica indexación Bag of Words
El peso de cada palabra corresponde al número de veces que la palabra aparece en cada documento
Cada término es caracterizado por la probabilidad de la función de distribución en la variable discreta de la categoría.

Esta probabilidad de la función de distribución viene dada por una fórmula demasiado lenta de escribir en el blog, pero que se puede revisar en el documento original, pero básicamente está dada por:

"Las probabilidades son calculadas dividiendo el número de ocurrencias del término en todos los documentos a través de cada categoría, por el número total de ocurrencias del término en todos los documentos del conjunto de datos".

El término se asume como la señal de probabilidad, por lo que lo primero es eliminar las señales de ruido, esto es, las señales con una distribución muy plana, las que no entregan información de la variable para la categoría. Estas señales presentan una variaza baja.

Luego se agrupan señales similares; esto es, se basa en el grado de similaridad entre señales medidas por el coeficiente de correlación, el que está definido en el documento, y que tiene por hipótesis la equiprobabilidad de las categorías.

El algoritmo que en definitiva se utilizó, fue uno de clustering duro, esto es:

Se ordenó el vocabulario por varianza decreciente
Se eliminaron aquellos términos con varianza menor que un umbral dado (señales de ruido)
Se inizializaron M clusters aislados con los M términos
Cíclicamente se colocaron todos los términos en uno de los clusters, juntando aquellos correlacionados y creando nuevos clusters a partir de ellos.

Para permirir el juntar terminos pobremente correlacionados en el mismo cluster, se implementó:

Ventanas Dinámicas Expansión/Compresión

Las ventanas estáticas de dimensión M se expanden y comprimen en forma dinámica.

Clustering suave

Cualquier término puede ser compartido en más de un cluster.

Para la simulación del comportamiento, se usó 20 grupos de noticias con más de 20 mil documentos particionados en 20 grupos de noticias similares.

El filtro inicial incluyó: remover las stop words, luego las palabras no alfabéticas, y finalmente aquellas que aparecían en menos de 4 documentos o estaban menos de 4 veces en el conjunto de datos.

Luego de realizar la categorización, se graficaron los resultados Porcentaje de acierto v/s número de términos por cluster. Para ello, se utilizó el algoritmo Ingenuo de Bayes con funciones de selección Ganancia de Información, Chi cuadrado, Clustering duro y suave con ventanas estáticas, clustering duro y suave con ventanas dinámicas.

Según los autores, los restultados son notablemente mejores en clustering distribuido que con las funciones de selección clásicas, como Chi cuadrado y Ganancia de la información.

También concluyen que las curvas presentan un incremento inicial abrupto sobre los 20 clusters.

Por último, consigen asintomáticamente una efectividad de de alrededor del 79%.

Se declara que el cluster producido es bueno para 20 o más agrupaciones (igual al número de categorías definidas en la colección de 20 grupos de noticias); y que para el caso de los 20 clusters producidos, cada categoría está principalmente identificada por sólo uno y diferente cluster en una probabilidad del 0.9474 al 0.7552.

Sé que cada cual sacará sus comentarios del texto, pero en mi opinión, a pesar que se muestra como principal ventaja del método la alta efectividad con baja cantidad de términos; en mi opinión los resultados graficados no me son del todo convincentes, sobre todo por la falta de mayor información respecto al corpus de datos y cómo se seleccionaron los ejemplos de entrenamiento.

Pero sí creo que este documento tiene aspectos muy interesantes, y por eso mi comentario.

En primer lugar, cualquier estudio que se realice sobre categorización de textos es ya importante. En mi opinión, los elementos destacados del trabajo están en la eliminación de los términos generadores de ruido; y concuerdo con los autores que es una idea absolutamente correcta, funcional y necesaria.

También es plausible el haber hecho el estudio con clustering distribuido. La mayor parte de las herramientas comerciales que he visto no salen del Ingenuo de Bayes con raíces de palabras, que si bien es un avance, me parece que los sistemas multivaluares (que prueban más de una medida para la selección) nos permiten obtener mejores resultados y, con los computadores de ahora, con tiempos de respuesta aceptables.

Por último, en mi opinión la cantidad de ejemplos y el ambiente del que fueron extraídos es bastante imparcial, por lo que da crédito a los resultados obtenidos. Sería interesante ver cómo se comporta el mismo procedimiento en otros ambientes, como pueden ser con ejemplos de medicina.

Categorización de Textos