jueves, enero 05, 2006

Proyecto de Ejemplo

Antecedentes Generales

Con el fin de ilustrar el proceso de Categorización de Textos, es que se optó por una aplicación pura de categorización: la categorización de artículos de un periódico electrónico.

Durante ya bastante tiempo, se ha estado recolectando artículos, a una tasa de 30 artículos por día posible, consiguiendo un corpus que en este momento sobrepasa los 8500 artículos con alrededor de 25 categorías.

Estos artículos han sido extraídos desde www.latercera.cl, por un proceso automático y en forma absolutamente aleatoria.
Nos atrevemos a dar el nombre de la fuente porque se solicitó permiso para mencionarla, aunque no se cuenta con una autorización para publicar el corpus construido, pero sí para ser usado en nuestra investigación.

El formato en que se han ido almacenando es XML con la siguiente estructura:

<?xml version="1.0" encoding="UTF-8"?>
<articulos>
<articulo>
<fecha></fecha>
<titulo></titulo>
<link></link>
<texto>
</texto>
<canal></canal>
</articulo>
</articulos>

donde la fecha, es la fecha de publicación; el título, es el título del artículo; el link, es la dirección web desde donde se extrajo; el texto, es el desarrollo del artículo; y el canal, representa la categoría a la que pertenece.

Fases del Proyecto

Se dividirá el trabajo en 4 partes, la primera de ellas ya explicada, que es la recolección de los artículos desde el periódico de Internet.

La segunda etapa se trata del pre-procesamiento. En esta etapa, se eliminará por un lado todas aquellas cadenas de caracteres que son "basura", vale decir, caracteres que quedaron producto de la extracción misma desde la fuente. Por otro lado, se eliminará todas aquellas palabras que no aportan al contenido del artículo, sino a su redacción, tales como las preposiciones.

En una tercera etapa, se construirá los conjuntos de entrenamiento y prueba del clasificador. Esta etapa incluye la indexación de los documentos. La forma de indexar se detalla en un posteo posterior.

La cuarta etapa será entrenar los clasificadores. En esta etapa ya se debe tener determinado los métodos que se utilizarán para clasificar, aunque por su simplicidad y efectividad, el Ingenuo de Bayes y Support Vector Machine (SVM) estarán en la lista de los elegidos.

En una quinta etapa, se probarán los clasificadores construidos.

Durante la sexta y última etapa, se medirán los resultados obtenidos y se harán las comparaciones entre ellos.