viernes, noviembre 25, 2005

Algo que estudiar

Como se comentó en la presentación de este blog, lo aquí publicado no es más que lo que se ha ido recolectando respecto de Categorización de Textos.
Al respecto, se recomienda el excelente trabajo de Fabrizio Sebastiani, el que sin duda será muy educativo.

[Sebastiani, 2002]
Fabrizio Sebastiani, 2002. Machine Learning in Automated Text Categorization, Consiglio Nazionale delle Ricerche, Italy. Revisado por última vez el 30 de agosto de 2005 en la URL www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf

Los siguientes papers tratan sobre Poesía y Hermes, dos aplicaciones libres basadas en Máquinas de Aprendizaje

[Gomez, Puertas, de Buenaga, Carrero, 2002] Gómez, José María y Puertas, Enrique y de Buenaga, Manuel y Carrero, Francisco, 2002. Text filtering at POESIA: a new Internet content filtering tool for educational environments. Última revisión en 30 de Agosto de 2005 en la dirección www.esi.uem.es/~jmgomez/papers/sepln02.pdf

[Gomez, Giraldez, de Buenaga, 2004] Gómez, José M. y Giráldez, Ignacio y de Buenaga, Manuel, 2004. Text Categorization for Internet Content Filtering. Última revisión en 30 de agosto de 2005 en la dirección http://tornado.dia.fi.upm.es/caepia/numeros/22/raepiaF09.pdf

La categorización de textos es considerada parte de la minería de textos. El siguiente documento da fé de ello.

[Hernandez, 2005] Hernandez Orallo, José, 2005. Web Mining, Universidad Politécnica de Valencia. Última revisión en 09 de Septiembre de 2005 en la dirección http://bbdd.escet.urjc.es/documentos/Master%20Ingenieria%20del%20Software%20DSIC%20Mineria%20de%20datos/dm4.pdf

Elsiguiente documento trata del problema del vocabulario en la comunicación.

[Furnas, Landauer, Gomez, Dumais, 1999] Furnas, G.W. y Landauer, T.K. y Gomez, L.M. y Dumais, S.T., 1999. The Vocabulary Problem in Human-System Communication: an Analysis and a Solution, Bell Communications Reseach. Última revisión en 13 de Septiembre de 2005 en la dirección http://www.google.cl/url?sa=t&ct=res&cd=3&url=http%3A//www.si.umich.edu/%7Efurnas/Papers/vocab.paper.pdf&ei=15UnQ6WxN7mI4QHz5rWCBw

[Yang, 1999] Yang, Yiming y Liu, Xin, 1999. A re-examination of text categorization methods. School of Computer Science, Carneie Mellon University. Última revisión en 25 de Noviembre en la dirección http://citeseer.ist.psu.edu/rd/0%2C361822%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz%7EyimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf

[Joachims, 1997] Joachims, Thorsten, 1997 .Text Categorization with Support Vector Machines: Learning with Many Relevant Features. Última revisión en 25 de Noviembre de 2005 en la dirección http://citeseer.ist.psu.edu/rd/41909118%2C553162%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/26885/http:zSzzSzranger.uta.eduzSz%7EalpzSzixzSzreadingszSzSVMsforTextCategorization.pdf/joachims97text.pdf

[Medina Nieto M.A., 2001] EGRAI: Espacio Grupal con referencistas y Agentes como apoyo a la investigacion. Última revisión en 24 de Enero de 2006 en la dirección http://www.pue.udlap.mx/~tesis/msp/medina_n_ma/capitulo2.pdf

[Panessi y Bordignon, 2001] Procesamiento de Variantes Morfológicas en Búsquedas de Textos en Castellano . Walter Panessi y Fernando Raúl Alfredo Bordignon. Universidad Nacional de Luján, Departamento de Ciencias Básicas, División Estadística y Sistemas. Revisado por última vez en 08 de Marzo de 2006 en la direción http://www.tyr.unlu.edu.ar/TYR-publica/Varia-Morfo.pdf.

[Eyheramendy, Lewis y Madigan, 2001] On the Naive Bayes Model for Text Categorization. Susana Eyheramendy, David Lewis, David Madigan. Rutgers University. Revisado por última vez en 14 de Marzo de 2006 en la dirección http://www.stat.rutgers.edu/~madigan/PAPERS/susana3.pdf

3 comentarios:

Dovier Antonio dijo...

Hola,

Estoy interesado en la Categorización Automática de Texto, si puede escríbame un email a daripoll@estudiantes.uci.cu y hágame saber, por favor, si tiene alguna bibliografía en español sobre el tema.

Saludos,
Dovier

LeGutier dijo...

La verdad que, al igual que tú, soy un recién un estudiante de este tema, por lo que gran documentación no tengo... lo que es peor: tiempo para dedicarle a actualizar mi blog, tampoco.
En todo caso, la documentación que hay en español es poca y no necesariamente actualizada. Los últimos documentos que he encontrado (en inglés), hablan de avances, aunque temo que, más que herramientas nuevas, son especializaciones... pero ni se nombran en los documentos en español.
Lo otro, es que la gente que está trabajando en el tema en países de lengua hispana, escribe sus papers en inglés.
En todo caso tengo toda la disposición en ayudarte o explicarte si hay algo que no entiendas y yo sí. Sólo postea en el blog.
Salu2,

Dovier Antonio dijo...

Hola,

En la actualidad trabajo en un grupo de investigación donde debemos tratar con el tema Categorización Automática de Textos, específicamente de páginas Web.

Ya hemos implementado un Clasificador en Perl. De forma general tiene o abarca las siguientes características:

1. Es Supervisado.
2. Se usa el algoritmo de Rocchio para construir vectores patrones de cada categoría.
3. Función de similitud entre el documento a clasificar y cada uno de los patrones.

entre otros...

Yo tengo alguna documentación, en sentido general muy buena, solo que como soy cubano (habla española) se me dificulta aún leer documentos en inglés.

Saludos,
Dovier