<?xml version='1.0' encoding='UTF-8'?><?xml-stylesheet href="http://www.blogger.com/styles/atom.css" type="text/css"?><feed xmlns='http://www.w3.org/2005/Atom' xmlns:openSearch='http://a9.com/-/spec/opensearchrss/1.0/' xmlns:georss='http://www.georss.org/georss' xmlns:gd='http://schemas.google.com/g/2005' xmlns:thr='http://purl.org/syndication/thread/1.0'><id>tag:blogger.com,1999:blog-16093351</id><updated>2011-10-20T05:22:15.526-03:00</updated><category term='texto'/><category term='clasificacion'/><title type='text'>Categorización de Textos</title><subtitle type='html'>Bienvenido...!!!

Espero tus comentarios y aportes</subtitle><link rel='http://schemas.google.com/g/2005#feed' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/posts/default'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default?max-results=100'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/'/><link rel='hub' href='http://pubsubhubbub.appspot.com/'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><generator version='7.00' uri='http://www.blogger.com'>Blogger</generator><openSearch:totalResults>41</openSearch:totalResults><openSearch:startIndex>1</openSearch:startIndex><openSearch:itemsPerPage>100</openSearch:itemsPerPage><entry><id>tag:blogger.com,1999:blog-16093351.post-3614175130123280753</id><published>2011-03-07T09:36:00.004-03:00</published><updated>2011-03-07T09:49:32.717-03:00</updated><title type='text'>Retomando la categorización de textos</title><content type='html'>Hace bastante que no escribía en este blog... la verdad es que lo tenía algo de lado por mis muchas actividades; pero desde hoy lo retomaré: es una promesa.&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;Algunas observaciones que creo pertinentes para adentrarme nuevamente en el tema: estoy fascinado con la cantidad de publicaciones que están apareciendo respecto a la clasificación de textos. Es más, me llama profundamente la atención que están apareciendo empresas relacionadas exclusivamente con el tema. Tanto es así que hay empresas que "están llamando la atención de Gartner Inc. Al menos eso es lo que leí en este &lt;a href="http://www.prnewswire.com/news-releases/top-industry-analyst-firm-sees-inxight-as-a-company-to-watch-in-new-report-on-automatic-text-categorization-76999377.html"&gt;enlace&lt;/a&gt;, que aunque autoreferente, te muestra la existencia de empresas de Categorización de Texto, y no sólo departamentos o grupos dentro de otras empresas.&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;Otra cosa que me llamó la atención es la cantidad de patentes que esta empresa dice que tiene: 70 patentes. Esto me dice que estoy bastante desactualizado, por lo que tendré que ponernos al día :)&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div&gt;&lt;br /&gt;&lt;/div&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-3614175130123280753?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/3614175130123280753/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=3614175130123280753' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/3614175130123280753'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/3614175130123280753'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2011/03/retomando-la-categorizacion-de-textos.html' title='Retomando la categorización de textos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-5414458891184128783</id><published>2008-12-02T15:20:00.002-03:00</published><updated>2008-12-02T17:12:28.691-03:00</updated><title type='text'>¿Dónde podría estar el error en mi modelo?</title><content type='html'>Con una entrada similar a esta, pero en Inglés (&lt;a href="http://nlpers.blogspot.com/2008/12/where-did-my-linear-model-go-wrong.html"&gt;Where did my (linear) model go wrong?&lt;/a&gt;), se hace un interesante análisis de lo que puede afectar la efectividad de un modelo de categorización de textos y por qué no se puede alcanzar una efectividad del 100%.&lt;br /&gt;&lt;br /&gt;En definitiva, habla de 4 lugares desde dónde puede provenir el error:&lt;br /&gt;&lt;ol&gt;&lt;li&gt;Ruido en los datos en entrenamiento&lt;/li&gt;&lt;li&gt;Ruido en los datos de prueba&lt;/li&gt;&lt;li&gt;Representación insuficiente (no se han considerado las características correctas o suficientes)&lt;/li&gt;&lt;li&gt;Ejemplos insuficientes (los datos de entrenamiento no son suficientemente densos en algunas regiones)&lt;/li&gt;&lt;/ol&gt;Los motivos no son excluyentes entre sí.&lt;br /&gt;&lt;br /&gt;Claro, después que lo leí, se "caía de maduro"... pero no siempre es fácil verlo.&lt;br /&gt;&lt;br /&gt;Lectura interesante y recomendada.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-5414458891184128783?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/5414458891184128783/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=5414458891184128783' title='2 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5414458891184128783'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5414458891184128783'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2008/12/dnde-podra-estar-el-error-en-mi-modelo.html' title='¿Dónde podría estar el error en mi modelo?'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-3754479950124467539</id><published>2008-05-14T09:57:00.002-04:00</published><updated>2008-05-14T10:25:46.317-04:00</updated><title type='text'>Representación de documetos</title><content type='html'>Cada vez se hace más frecuente que me pregunten respecto de cómo representar documentos, sobre todo, porque en la mayor parte de la documentación que encuentras aparece una sola: la representación vectorial.&lt;br /&gt;Hoy, dado un correo que me envió, le explicaba a una futura colega cubana mi visión del tema, el que transcribo:&lt;br /&gt;&lt;br /&gt;&lt;blockquote&gt;"Respecto a formas de representación, sin duda la vectorial es la más simple, aunque hay que tener un par de consideraciones.&lt;br /&gt;&lt;br /&gt;"Quizás la más obvia sea la de la frecuencia, dado que puedes colocar la ocurrencia real (mala idea), una ocurrencia binaria (está o no está el término) o una ocurrencia ponderada (que es lejos la que más me gusta).&lt;br /&gt;&lt;br /&gt;"También hay que tener presente qué vas a considerar para contar la frecuencia. Pueden ser palabras, frases, lemas o raíces, ó n-gramas.&lt;br /&gt;&lt;br /&gt;"Y respecto a las palabras, tampoco las miremos en menos, dado que a que también podemos hacer algo con ellas: en vez de poner todas las palabras, podemos escoger palabras representativas (puro, cigarro, pipa... todos pueden ser representados con el término tabaco)... un poco, lo que hace k-nn.&lt;br /&gt;&lt;br /&gt;"Si el tema que te interesa son las representaciones, pues la imaginación da para mucho. En este momento se me ocurre una que quise implementar y al final no le vi el aporte mayor en comparación a la complejidad de su manejo: mi diccionario era una lista de palabras identificadas con un correlativo. Cada documento era una lista de estructuras (o nodos), donde la estructura contenía el número de la palabra, su frecuencia ponderada y el puntero al siguiente nodo. La ENORME ventaja que tenía esta forma de organización es que era muy rápida de seguir y ahorraba el tremendo espacio vacío que usa la representación vectorial. El inconveniente, difícil de manejar y alto consumo de CPU."&lt;br /&gt;&lt;/blockquote&gt;&lt;br /&gt;&lt;br /&gt;Sé que en ese correo hubo muchas cosas que se me pasaron por alto. También que hay otras muchas formas de representación de documentos que no recuerdo o de plano no conozco, por lo que si puedes aportar con ideas, estas son bienvenidas. Al fin y al cabo, nos sirven a todos.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-3754479950124467539?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/3754479950124467539/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=3754479950124467539' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/3754479950124467539'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/3754479950124467539'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2008/05/representacin-de-documetos.html' title='Representación de documetos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-5118796333847928595</id><published>2008-05-09T15:24:00.004-04:00</published><updated>2008-05-09T15:38:18.062-04:00</updated><title type='text'></title><content type='html'>&lt;blockquote&gt;La transferencia inductiva es aplicar el conocimiento aprendido en un conjunto de tares para mejorar la aplicación del conocimiento aprendido a nuevas tareas. La transferencia inductiva se está aplicacando en mejorar el rendimiento de la generalización en las tareas de clasificación usando los modelos aprendidos en algunas tareas relacionadas. En este artículo, mostramos un método para hacer transferencia inductiva para hacer la clasificación de texto más efectiva usando Wikipedia. Mapeamos los documentos de texto de diferentes tareas a un espacio de características usando Wikipedia, proveyendo así algún conocimiento oculto del contenido de los documentos. Se ha observado que cuando los clasificadores son construídos usando las características generadas desde Wikipedia, ellas son más efectivas en la transferencia de conocimiento. Una evaluación en las tareas diarias de clasificación en el corpus Reuters RCV1 muestra que nuestro método puede mejorar significativamente el rendimiento de la transferencia inductiva. Nuestro método superó exitósamente un obstaculo mayor observado en un trabajo reciente en una configuración similar.&lt;/blockquote&gt;Bajo esta presentación, encontré un &lt;a href="http://www.hpl.hp.com/techreports/2008/HPL-2008-42.html?mtxs=rss-hpl-tr"&gt;artículo de HP&lt;/a&gt; que habla de esta transferencia inductiva.&lt;br /&gt;La verdad es que recién estoy empezando a leer el artículo, pero debo reconocer que se ve muy interesante porque toca un tema del que soy absolutamente ignorante.&lt;br /&gt;Cuando lo termine de leer publicaré mis comentarios y en lo posible una traducción o resumen.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-5118796333847928595?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/5118796333847928595/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=5118796333847928595' title='3 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5118796333847928595'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5118796333847928595'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2008/05/la-transferencia-inductiva-es-aplicar.html' title=''/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-5674361595886606051</id><published>2008-03-25T09:06:00.002-03:00</published><updated>2008-03-25T09:48:09.443-03:00</updated><title type='text'>Más gente... nuevos proyectos</title><content type='html'>Siempre ando buscando acerca de de Categorización de Textos. En esta oportunidad encontré un post de &lt;a href="http://cesarodas.com/"&gt;Cesar Rodas&lt;/a&gt;, que habla de sus nuevos proyectos; en específico, &lt;a href="http://www.thyphp.com/gsoc-wp-category-suggester-proposal.html" rel="bookmark" title="Permanent Link to GSoC - WP - Category Suggester - [Proposal]"&gt;GSoC - WP - Category Suggester - [Proposal].&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;En este post, Cesar habla de un desarrollo en PHP (en lo que evidentemente tiene mucha experiencia) que sugiere las categorías a un nuevo escrito mientras éste se redacta. Estaría basado en &lt;span style="font-weight: bold;"&gt;n-gramas&lt;/span&gt; y en post previos, desde los que aprendería las categorías.&lt;br /&gt;&lt;br /&gt;Me llamó mucho la atención la aplicación práctica del proyecto por su originalidad, pero también llamó mi atención el uso de n-gramas, no porque sea una idea nueva, que no lo es; sino porque yo mismo tiendo a ni siquiera considerarlo pese a las enormes ventajas que tiene su uso.&lt;br /&gt;&lt;br /&gt;Cesar hace una reseña de sus características, pero no está demás transcribirlas:&lt;br /&gt;&lt;br /&gt;&lt;ol&gt;&lt;li&gt;Son secuencias de &lt;span style="font-weight: bold;"&gt;n&lt;/span&gt; letras que se usan en vez de palabras.&lt;/li&gt;&lt;li&gt;Son independientes del idioma.&lt;/li&gt;&lt;li&gt;No precisan de algoritmos de lematización.&lt;/li&gt;&lt;li&gt;Son fáciles de "tokenizar" por su independencia del idioma.&lt;/li&gt;&lt;li&gt;Son insensibles a los errores de ortografía, lo que da una notable ventaja al aprender de las categorías que surgen de la creación misma de los post.&lt;/li&gt;&lt;/ol&gt;Normalmente me complico mucho con los algoritmos de lematización. El no tener que usarlos puede ser una enorme ventaja; aunque recuerdo haber hecho alguna vez, en los albores de mi estudio sobre categorización de textos, una experiencia con n-gramas y resultó ser más lento el aprendizaje... con el tiempo, me parece que el tiempo de aprendizaje es despreciable respecto al tiempo computacional que implica la sola lematización de los textos.&lt;br /&gt;&lt;br /&gt;La idea es interesante, por lo que recomiendo su lectura. Vamos a seguir el trabajo a ver qué resulta.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-5674361595886606051?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/5674361595886606051/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=5674361595886606051' title='1 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5674361595886606051'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/5674361595886606051'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2008/03/ms-gente-nuevos-proyectos.html' title='Más gente... nuevos proyectos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-4904429975361217732</id><published>2008-03-06T11:27:00.002-03:00</published><updated>2008-03-06T12:46:51.581-03:00</updated><title type='text'>Mindset: Yahoo aplica máquinas de aprendizaje a las búsqudas</title><content type='html'>Bajo este título (en inglés), encontré en &lt;a href="http://www.digitalalchemy.tv/2006/09/mindset-yahoo-applies-machine-learning.html"&gt;Digital Alchemy&lt;/a&gt; un interesante artículo de aplicaciones prácticas de categorización de textos, en este caso, impulsada por un gigante: Yahoo!.&lt;br /&gt;&lt;br /&gt;La aplicación se llama &lt;a href="http://mindset.research.yahoo.com/"&gt;Yahoo Mindset&lt;/a&gt;, está obviamente en pleno desarrollo y definitivamente esto promete... aunque quizás ampliando un poco más la cantidad de dimensiones del trabajo definitivamente sería un éxito; aunque no me cabe duda que lo harán.&lt;br /&gt;&lt;br /&gt;Se trata de la utilización de máquinas de aprendizaje para definir si una página es comercial o &lt;a href="http://es.wikipedia.org/wiki/Escol%C3%A1stico"&gt;escolástica&lt;/a&gt;... aunque me parece que la traducción literal no es la más afortunada, dado que en la página separa entre comercial e investigación.&lt;br /&gt;&lt;br /&gt;La categorización tiene sólo dos posibilidades o categorías: pero usa una medida de cuán probable es que pertenezca a uno u otro grupo. De este modo ordena los resultados obtenidos de manera dinámica y pueden ser reordenada en tiempo real mediante una barra de desplazamiento.&lt;br /&gt;&lt;br /&gt;Decir si es una aplicación de gran dificultad, es complicado. En primer lugar, todas las páginas deben ser categorizadas, lo que sabemos que implica una gran cantidad de recursos computacionales, lo que me hace pensar que el algoritmo utilizado debe ser algo así como árboles de decisión ó kNN; que todo debe estar preprocesado, que la búsqueda se realiza bajo los mismos conceptos que lo hace normalmente Yahoo y que la incorporación de máquinas de aprendizaje se limita a la ordenación de los resultados.&lt;br /&gt;&lt;br /&gt;Puede, visto como lo expuse, que suene como que en realidad no es la gran cosa lo que ha hecho Yahoo Research, pero la verdad es que la incorporación de mejoras como esta puede hacer la diferencia en la navegación y búsqueda de información en el futuro.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-4904429975361217732?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/4904429975361217732/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=4904429975361217732' title='2 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/4904429975361217732'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/4904429975361217732'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2008/03/mindset-yahoo-aplica-mquinas-de.html' title='Mindset: Yahoo aplica máquinas de aprendizaje a las búsqudas'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>2</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-1349993780643185980</id><published>2007-11-16T09:43:00.000-03:00</published><updated>2007-11-16T09:46:24.951-03:00</updated><title type='text'>Revisen esto!!!</title><content type='html'>Sólo alcancé a leer la introducción, pero me parece que &lt;a href="http://www.cs.cmu.edu/%7Etingliu/thesis.html"&gt;este trabajo&lt;/a&gt; está &lt;span style="font-weight: bold;"&gt;MUY&lt;/span&gt; bueno.&lt;br /&gt;El autor es Ting Liu, autor del que aún no había escuchado nada, pero que de seguro muy pronto empezaré a escuchar más.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-1349993780643185980?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/1349993780643185980/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=1349993780643185980' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1349993780643185980'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1349993780643185980'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/11/revisen-esto.html' title='Revisen esto!!!'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-137596620333358160</id><published>2007-11-15T14:22:00.000-03:00</published><updated>2007-11-16T17:42:09.630-03:00</updated><title type='text'>Administración de reclamos II</title><content type='html'>Siguiendo con el análisis del documento que tratamos en el &lt;a href="http://legutier.blogspot.com/2007/11/administracin-de-reclamos.html"&gt;post anterior&lt;/a&gt;, veremos la explicación  de la ponderación del vector de términos. No tengo nada que agregar, por lo que sólo resumiré lo que dice.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Ponderación del vector de términos&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;En esta fase, se construye un vector de términos por documento, que en este momento contiene la frecuencia "bruta" de aparición del término en el documento.&lt;br /&gt;&lt;br /&gt;La ponderación normalmente es el producto de la frecuencia del término (&lt;span style="font-weight: bold;"&gt;tf&lt;/span&gt;) y el inverso de la frecuencia del documento (&lt;span style="font-weight: bold;"&gt;idf&lt;/span&gt;).&lt;br /&gt;&lt;br /&gt;La frecuencia ponderada pretende medir la importancia del término para caracterizar el contenido de un documento.&lt;br /&gt;&lt;br /&gt;En el documento, &lt;span style="font-weight: bold;"&gt;tf&lt;/span&gt; se obtiene por una transformación logarítmica de la frecuencia original del término, lo que reduce la importancia "bruta" de &lt;span style="font-weight: bold;"&gt;tf&lt;/span&gt;, que es importante para colecciones de documentos de largo variable.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://3.bp.blogspot.com/_jhd0ceSmiJ8/RzyEK64VLkI/AAAAAAAAAAY/cGubJE02OYI/s1600-h/FrecuenciaDelTermino.png"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://3.bp.blogspot.com/_jhd0ceSmiJ8/RzyEK64VLkI/AAAAAAAAAAY/cGubJE02OYI/s320/FrecuenciaDelTermino.png" alt="" id="BLOGGER_PHOTO_ID_5133122998434606658" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;donde &lt;span style="font-style: italic;"&gt;i&lt;/span&gt; es el número del término, &lt;span style="font-style: italic;"&gt;j&lt;/span&gt; es el número de documento, y &lt;span style="font-style: italic;"&gt;n&lt;/span&gt; es la frecuencia del término.&lt;br /&gt;&lt;br /&gt;El &lt;span style="font-weight: bold;"&gt;idf&lt;/span&gt; considera que si la aparición de un término en un documento es más raro, más discriminante es. Aunque, el peso de un término está inversamente relacionado con el número de documentos en los que el término aparece; es decir, la frecuencia documental del término.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://4.bp.blogspot.com/_jhd0ceSmiJ8/RzyExK4VLlI/AAAAAAAAAAg/rQWFTl6dtmI/s1600-h/FrecuenciaDocumentalDelTermino.png"&gt;&lt;img style="cursor: pointer;" src="http://4.bp.blogspot.com/_jhd0ceSmiJ8/RzyExK4VLlI/AAAAAAAAAAg/rQWFTl6dtmI/s320/FrecuenciaDocumentalDelTermino.png" alt="" id="BLOGGER_PHOTO_ID_5133123655564602962" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;donde &lt;span style="font-style: italic;"&gt;n&lt;/span&gt; es el número total de documentos y &lt;span style="font-style: italic;"&gt;df&lt;span style="font-size:78%;"&gt;i&lt;/span&gt;&lt;/span&gt; es el número de documentos donde el término está presente.&lt;br /&gt;&lt;br /&gt;Finalmente, el peso o penderación del término &lt;span style="font-style: italic;"&gt;i&lt;/span&gt; en el documento &lt;span style="font-style: italic;"&gt;j&lt;/span&gt; está dado por&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://1.bp.blogspot.com/_jhd0ceSmiJ8/RzyFca4VLmI/AAAAAAAAAAo/i04VgjCUmXk/s1600-h/PonderacionDelTerminoEnElDocumento.png"&gt;&lt;img style="cursor: pointer;" src="http://1.bp.blogspot.com/_jhd0ceSmiJ8/RzyFca4VLmI/AAAAAAAAAAo/i04VgjCUmXk/s320/PonderacionDelTerminoEnElDocumento.png" alt="" id="BLOGGER_PHOTO_ID_5133124398593945186" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;donde &lt;span style="font-style: italic;"&gt;tf&lt;span style="font-size:78%;"&gt;ij&lt;/span&gt;&lt;/span&gt; es la frecuencia del término &lt;span style="font-style: italic;"&gt;i&lt;/span&gt; en el documento &lt;span style="font-style: italic;"&gt;j&lt;/span&gt;, e &lt;span style="font-style: italic;"&gt;idf&lt;span style="font-size:78%;"&gt;i&lt;/span&gt;&lt;/span&gt; es el inverso de la frecuencia de documento para el término &lt;span style="font-style: italic;"&gt;i&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Reducción de la dimensionalidad&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;La matríz de términos por documento tiene gran dimension dado los muchos corpus distintos.&lt;br /&gt;Más ún, la matriz es poco poblada (tiene muchos ceros) porque no todos los documentos tienen todos los términos del corpus.&lt;br /&gt;En el texto, se usa &lt;span style="font-style: italic;"&gt;"Indexación Semántica Latente por Descompsición Singular de Valores"&lt;/span&gt; (SDV por sus siglas en inglés) para reducir la dimensionalidad del espacio de características.&lt;br /&gt;La Indexación Semántica Latente proyecta documentos desde un espacio de términos de grandes dimensiones a un ortonormal sub espacio semántico latente agrupando aquellos términos similares en varios (&lt;span style="font-style: italic;"&gt;k&lt;/span&gt;) conceptos diferente. Toda esta información textual puede ser sumarizada en estos &lt;span style="font-style: italic;"&gt;k&lt;/span&gt; conceptos.&lt;br /&gt;Más aún, estos &lt;span style="font-style: italic;"&gt;k&lt;/span&gt; conceptos (o variables SVD) son frecuentemente usados como variables explicativas en modelos tradicionales de clasificación de textos.&lt;br /&gt;Esta reducción aproxima el peso de la matriz de términos por documento a una más pequeña de orde &lt;span style="font-style: italic;"&gt;k&lt;/span&gt;, lo que la hace  más manejable.&lt;br /&gt;No se dice cómo calcular &lt;span style="font-style: italic;"&gt;k&lt;/span&gt;, pero dice que se encuentran criterios en la literatura del tema.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-137596620333358160?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/137596620333358160/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=137596620333358160' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/137596620333358160'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/137596620333358160'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/11/administracin-de-reclamos-ii.html' title='Administración de reclamos II'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><media:thumbnail xmlns:media='http://search.yahoo.com/mrss/' url='http://3.bp.blogspot.com/_jhd0ceSmiJ8/RzyEK64VLkI/AAAAAAAAAAY/cGubJE02OYI/s72-c/FrecuenciaDelTermino.png' height='72' width='72'/><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-1716010433475487494</id><published>2007-11-12T16:40:00.000-03:00</published><updated>2007-11-14T14:27:05.643-03:00</updated><title type='text'>Administración de reclamos</title><content type='html'>Hace días que tengo en mi bandeja de entrada un correo con la referencia a un paper que no había tenido tiempo de leer.&lt;br /&gt;&lt;br /&gt;De por sí, el título es sugerente: "&lt;a href="http://d.repec.org/n?u=RePEc:rug:rugwps:07/481&amp;amp;r=mkt"&gt;Improving Customer Compliant Management by Automatic Email Classification Using Linguistic Style Features as Predictors&lt;/a&gt;".&lt;br /&gt;&lt;br /&gt;La base de este paper es lo más interesante. Hasta ahora buscamos clasificar documentos de textos a partir de los términos que lo conforman; pero ellos hacen una clasificación simple: es o no es el correo un reclamo, a partir de una mezcla de la información del contenido sumado con la información que entrega el estilo lingüístico del correo.&lt;br /&gt;&lt;br /&gt;Trabajo en una empresa que comercializa productos en acero, y les digo que el tema de la administración de los reclamos no es un tema para nada menor; y donde la administración oportuna de estos hace la diferencia entre los participantes de este mercado.&lt;br /&gt;&lt;br /&gt;Ellos aseguran que al agregar el componente lingüístico al análisis de los correos, se mejora la predicción de si se trata o no de un reclamo, por lo que se puede dar un trato más apropiado a estos mensajes, disminuyendo el esfuerzo final de la empresa y aumentando la satisfacción del cliente. La mejora se puede notar en los tiempos, pero también en la efectividad de las respuestas al poder derivar las denuncias al personal apropiado sin necesidad de preparar al personal a quien corresponde responder consultas estar preparado en todos los ámbitos.&lt;br /&gt;&lt;br /&gt;Entre las características que destacan, está que no usa la aproximación espacio-vector por el tamaño de la matriz resultante, sino Indexación Semántica Latente por medio de Descomposición Singular de Valores, esto es, la representación de los documentos por &lt;span style="font-weight: bold;"&gt;k&lt;/span&gt; conceptos representativos; donde la información del estilo lingüístico se introduce como un nuevo tipo de información textual.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Aproximación Espacio Vector&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;La idea de incorporar el estilo lingüístico no es lo único interesante de este paper. También se da una descripción de la aproximación espacio vector que es de lo más interesante.&lt;br /&gt;&lt;br /&gt;Primero veremos qué es lo que propone y luego lo analizamos.&lt;br /&gt;&lt;br /&gt;En esta representación, los documentos son convertidos en vectores de característica espacial basado en el peso de sus frecuencias a fin de seleccionar aquellos que entreguen más información a partir de su presencia en un diccionario.&lt;br /&gt;&lt;br /&gt;Todo empieza con un preproceso, en el cual, se aplica una técnica de &lt;span style="font-weight: bold;"&gt;raw text cleaning&lt;/span&gt;. En esta, los caracteres especiales y la puntuación del texto se separa de las palabras.&lt;br /&gt;En seguida, &lt;span style="font-style: italic;"&gt;los errores ortográficos se corrigen&lt;/span&gt; comparando las palabras en el documento con el diccionario de referencia.&lt;br /&gt;&lt;br /&gt;Luego viene el proceso de &lt;span style="font-weight: bold;"&gt;tokenización&lt;/span&gt;, en el que el documento se divide en &lt;span style="font-weight: bold;"&gt;tokens&lt;/span&gt; o palabras, donde los espacios sirven de separadores.&lt;br /&gt;El resto del texto es dividido en palabras convertidas en minúsculas.&lt;br /&gt;Las palabras son sumarizadas en informativas y no informativas. Las no informativas son los determinantes , conjunciones, auxiliares, preposiciones, pronombres, artículos, interjecciones, &lt;span style="font-style: italic;"&gt;nombres propios&lt;/span&gt;, abreviaciones y números. Los informativos son los sustantivos , verbos, adjetivos y adverbios.&lt;br /&gt;&lt;br /&gt;En seguida, viene el proceso de lematización, en el que las distintas variaciones de las palabras se llevan a una sola forma representativa llamada &lt;span style="font-weight: bold;"&gt;stem&lt;/span&gt;; lo que reduce el corpus del diccionario y aumenta la performance.&lt;br /&gt;Todas las variaciones morfológicas se tratan de manera natural comparándolas con el diccionario de referencia. Si el término no es reconocido, el stemmer &lt;span style="font-style: italic;"&gt;aplica alguna decisión&lt;/span&gt; estandar para entregar el stem correcto.&lt;br /&gt;&lt;br /&gt;Lo siguiente es eplicar el &lt;span style="font-weight: bold;"&gt;term filtering&lt;/span&gt;, que sirve para reducir el número de términos irrelevantes: primero se sacan las &lt;span style="font-style: italic;"&gt;palabras raras&lt;/span&gt;, del mismo modo que se sacan aquellas que aparecen &lt;span style="font-style: italic;"&gt;menos de tres veces&lt;/span&gt;.&lt;br /&gt;La misma regla se aplica en las palabras muy comunes como "a", "el", etc. Estas son conocidas como &lt;span style="font-weight: bold;"&gt;stopwords&lt;/span&gt;, y son palabras por su altea frecuencia no son discriminativas. Estas palabras están ligadas al idioma.&lt;br /&gt;&lt;br /&gt;Al terminar el proceso, de todas formas se revisa el resultado &lt;span style="font-style: italic;"&gt;manualmente&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Al final se consigue una matriz de grandes dimensiones de términos por documento, donde cada celda representa la frecuencia bruta de aparición del término en el documento.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Comentarios&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Hay varias cosas que me llamaron la atención de la descripción del proceso.&lt;br /&gt;&lt;br /&gt;Lo primero es la &lt;span style="font-style: italic;"&gt;corrección de errores ortográficos&lt;/span&gt;. Si bien pareciera ser demasiado evidente que puede encontrarse este tipo de errores, hasta ahora no recuerdo haber leído de técnicas para la corrección de errores ortográficos. De hecho, si se piensa, puede ser bastante aventurado hacer este tipo de correcciones de manera automática tal y como lo propone el autor. Más aún, basado en un diccionario que no sabemos si es completo.&lt;br /&gt;¿Me puse demasiado quisquilloso?. Veámoslo de la siguiente manera: si encuentro un reportaje donde habla de &lt;span style="font-style: italic;"&gt;"wena Naty"&lt;/span&gt;, existe la probabilidad que termine corregido "wena" por "vena" y "Naty" desechado por baja frecuencia o por ser un nombre propio.&lt;br /&gt;&lt;br /&gt;De ahí surge mi segunda observación: dice que se excluyen los nombres propios. Me parece, de modo intuitivo y aún no tengo una comprobación experimental del hecho, que los nombres propios podrían entregar tanto o más información útil para la categorización de un texto que un sustantivo o un verbo.&lt;br /&gt;&lt;br /&gt;La tercera observación va por el lado de la &lt;span style="font-style: italic;"&gt;decisión estándar&lt;/span&gt; que tomaría el stemmer cuando no encuentra una palabra en el diccionario. Al respecto, creo que tomar una decisión no asistida puede ser contraproducente; aunque claro, no da ninguna pista de qué es una decisión estándar como para poder criticar con más fundamento.&lt;br /&gt;&lt;br /&gt;Lo del &lt;span style="font-style: italic;"&gt;term filtering&lt;/span&gt; y ese número de 3 como umbral para no considerar una palabra me parece que no corresponde. La experiencia indica que ese número no es arbitrario y es producto del tunning del procedimiento. Puede que ellos lo hayan conseguido así, pero no lo dicen.&lt;br /&gt;&lt;br /&gt;Por último dice que el proceso se revisa manualmente, lo que me parece un acierto que no siempre hacemos. La importancia de esta revisión es fundamental, sobre todo en los primeros pasos del clasificador y mientras se consigue afinarlo adecuadamente.&lt;br /&gt;&lt;br /&gt;Por ahora voy a dejar este post hasta aquí, y terminamos de analizar en el post siguiente.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-1716010433475487494?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/1716010433475487494/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=1716010433475487494' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1716010433475487494'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1716010433475487494'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/11/administracin-de-reclamos.html' title='Administración de reclamos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-2903128291326916276</id><published>2007-11-12T12:52:00.000-03:00</published><updated>2007-11-12T13:29:25.621-03:00</updated><title type='text'>Reconocimiento de texto y caracteres</title><content type='html'>Siempre es llamativo cuando sale una nueva tecnología. En este caso, fue Xerox quien nos sorprendió con algo que quizás no tenía mucho de nuevo como idea, pero sí como implementación.&lt;br /&gt;&lt;br /&gt;Leo en &lt;a href="http://www.allamericanpatriots.com/48734510_computers_xerox_reveals_breakthrough_software_categorizes_text_and_images_same_time"&gt;allamericanpatriot.com&lt;/a&gt; (no, no leo ese sitio de manera habitual, pero llegó el aviso por Google de la publicación de un artículo relacionado con categotización de textos) que Xerox habría desarrollado un software que es capaz de categorizar simultáneamente texto e imágen.&lt;br /&gt;&lt;br /&gt;Los motivos para invertir tiempo en este tipo de desarrollos es obvio: el spam que recibimos es cada día más inteligente y el uso de imágenes es cada día más habitual como forma de evitar los filtros.&lt;br /&gt;&lt;br /&gt;La parte simpática es que se trata de una aplicación que trabajaría on-line; por lo que las aplicaciones serían muchísimas: no sólo spam, también búsquedas en la web, organización de documentos, geografía, turismo... se me ocurren más, pero tampoco les voy a dar la tarea hecha: yo también estoy trabajando en algo.&lt;br /&gt;&lt;br /&gt;La entrada no aporta mucha información de la implementación o la tecnología en sí, pero al menos da luces que hay gente trabajando en el tema.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-2903128291326916276?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/2903128291326916276/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=2903128291326916276' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/2903128291326916276'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/2903128291326916276'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/11/reconocimiento-de-texto-y-caracteres.html' title='Reconocimiento de texto y caracteres'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-2541893826485131840</id><published>2007-01-10T10:11:00.000-03:00</published><updated>2007-01-11T15:07:19.206-03:00</updated><title type='text'>Cómo trabajan los AntiSpam</title><content type='html'>Encontré en &lt;a href="http://copiatech.com/blog"&gt;CopiaTECH&lt;/a&gt; un interesante artículo de tres partes respecto de cómo trabajan los antispam. Para nuestros intereses, es muy importante porque los más modernos de éstos utilizan precisamente la tecnología de Categorización de Textos.&lt;br /&gt;&lt;br /&gt;Creo que no está de más decir  que  me limitaré a traducir lo que dice el documento, aunque en ocasiones (las menos) lo he tenido que adaptar porque la redacción no me ha parecido precisamente clara.&lt;br /&gt;&lt;br /&gt;Como no es el tema de mi blog, lo primero es definir spam: diremos que spam es cualquier correo electrónico no deseado y/o solicitado que recibamos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;La evolución de la tecnología anti-spam&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;A mediados  de los 1990s, el método usado para disminuir el flujo de spam&lt;br /&gt;estaba basada en las capacidades tecnológicas únicamente, tales como restringir el "reenvío de correo" (mail relay) de los servidores de correo, que originalmente no fue diseñada específicamente para resolver el problema de correo no deseado.&lt;br /&gt;&lt;br /&gt;A finales de los 1990s, emergió la primera tecnología real anti-spam, como fue el filtro para correo masivo no solicitado de Netscape Messaging Server. Así, la mayor parte de los productos que formaban la infraestructura de mensajería no tenía estas capacidades y, para el 2000, estaba claro que los negocios tendrían que jugar un rol controlador de spam para proteger sus propios servidores en red.&lt;br /&gt;&lt;br /&gt;También estaba claro que en ese momento las capacidades del software existente en la infraestructura y los productos asociados, como gateways antivirus para email, eran inadecuados y que los organismos estandarizadores de la industria no estaban preocupandose del tema. Esta situación, combinada con el hecho que los casos en la corte norteamericana relacionadas con spam, no tenían efecto aparente en los spammers (N. del T. spammer es quien genera spam), presentandose como un potencial oportunidad de negocio para las tecnologías anti-spam.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Precursores de la tecnología anti-spam&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Virtualmente cualquier Simple Mail Transfer Protocos (SMTP) Message Transfer Agent (MTA) (N. del T.: SMTP es el protocolo usado en la transmisión de correo electrónico, mientras que MTA son las unidades encargadas de hacer esta transferencia... en lenguaje coloquial, podemos pensar que un SMTP MTA es un servicio/servidor dedicado a la transmisión de correo) tiene alguna habilidad nativa para controlar las comunicaciones con otros MTAs en Internet. Por ejemplo, Sendmail, el SMTP MTA más ampliamente usado en el mundo, tiene la habilidad de desabilitar el reenvío y limitar las redes desde las que puede aceptar mensajes.&lt;br /&gt;&lt;br /&gt;Estas características, mencionadas arriba como precursoras y tecnología de primera generación, no fueron creadas especificamente para solucionar el problema del spam, ni tampoco constituyen una tecnología anti-spam en sí. Hasta hace pocos años, los productos de mensajería vendidos apuntaban a solucionar el problema implementando características rudimentarias como estas y otras como las "listas blancas" y "listas negras" dentro del conjunto básico de características anti-spam. Esta última aproximación aún es evidente en muchos productos que incluyen SMTP MTAs tales como IBM Lotus Domino, que no representa en realidad una tecnología anti-spam.&lt;br /&gt;&lt;br /&gt;Las verdaderas tecnologías anti-spam, conocidas como tecnologías de segunda y tercera generación, son desarrollos relativamente recientes. Son tecnologías absolutamente nuevas y difieren completamente de los controles básicos de los MTAs. En particular, los algoritmos Bayesianos y los más recientes avances en análisis de texto, por ejemplo, usando Inteligencia Arficial, son un cambio radical de los pre-existentes mecanismos caracterizados o re-propuestos como tecnología anti-spam.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Tecnología Anti-spam - la primera generación&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Es difícil distinguir claramente entre las características pre-existentes disponibles en la mayoría de los MTAs y las características de primera generación anti-spam porque estas últimas se siguieron usando (N. del T.: y se usan) aún cuando las nuevas herramientas estaban ampliamente desarrolladas para combatir el spam. Por ejemplo, las "Pruebas de Sobre y Cabecera", así como las "Pruebas DNS Simple", fueron motivados inicialmente por el combate al spam, pero no pueden distinguir directamente entre los mensajes spam y otros mensajes.&lt;br /&gt;&lt;br /&gt;(Integrantes de la primera generación son:)&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Controles básicos MTA&lt;/span&gt;&lt;/span&gt;: los controles MTA, que restringen la comunicación basada en redes y nombres de dominios, por ejemplo, para prevenir el "reenvío"; no son una tecnología anti-spam. Algunas de estas características son anteriores al problema del spam e inicialmente existieron con propósitos de seguridad.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Listas blancas y negras&lt;/span&gt;&lt;/span&gt;: las listas blancas y negras en un MTA son extensiones lógicas de los controles MTA básicos usados como una herramienta en bruto para controlar el spam. Aunque las listas blancas y negras son una característica anti-spam importante, ellas no son una tecnología nueva porque ellas son simplemente extensiones y no se apartan de los controles clásicos. Los productos antivirus y de seguridad en los MTAs tenían estas características antes de ser ser caracterizados como una característica anti-spam.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Búsqueda de palabras simples&lt;/span&gt;&lt;/span&gt;: Uno de los primeros métodos usados para combatir el spam fue la búsqueda simple de palabras. Esta funcionalidad existió antes de que el spam fuera un problema mayor en Internet, como parte de del filtrado de contenido y soluciones de comodidad y productos antivirus para  e-mail. Esta aproximación suele ser usada para identificar un subconjunto de los mensajes que son spam, pero no es efectivo porque falla al reconocer variaciones de las palabras o variaciones en el contexto, y pueden resultar en muchos falsos positivos (correos legítimos identificados como spam). Los antivirus para servidores de correo y productos de seguridad tenían esta característica antes de ser usados como herramientas anti-spam. Evadir la búsqueda simple de palabras es trivial para los spammer usando variaciones de las palabras o cambiando las palabras por alguna alternativa.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Prueba del sobre y cabecera del mensaje&lt;/span&gt;&lt;/span&gt;: La &lt;span style="font-style: italic;"&gt;prueba del sobre&lt;/span&gt; implica que el MTA revisa la información pasada a través del protocolo SMTP, por ejemplo el emisor y receptor del mensaje, se usa cuando se transfiere el mensaje y se rechaza si esta no es correcta o válida. La &lt;span style="font-style: italic;"&gt;prueba de la cabecera&lt;/span&gt; entrega al MTA la habilidad de comprobar la información guardada dentro del mensaje, tal como el &lt;span style="font-style: italic;"&gt;Para&lt;/span&gt;, &lt;span style="font-style: italic;"&gt;De&lt;/span&gt; y &lt;span style="font-style: italic;"&gt;Fecha&lt;span style="font-style: italic;"&gt; &lt;/span&gt;&lt;/span&gt;y rechazar los mensajes si la cabecera está malformada o contiene información inválida. Mientras que estas características son obviamente muy usadas para eliminar el spam, ellas ahora sólo garantizan que el mensaje está correctamente construído y transmitido, y no si ellos fueron enviados por spammer o si el mensaje contiene spam; así, no son una tecnología anti-spam en rigor. También pueden ocurrir problemas en las cabeceras de los mensajes y en los sobres por razones no necesariamente relacionadas con el spam.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;&lt;span style="font-style: italic;"&gt;Prueba DNS simple&lt;/span&gt;&lt;/span&gt;: Mirando la información del emisor intercambiada durante el uso del protocolo SMTP y usando el sistema de dominio de nombres (DNS) de Internet, se puede validar la información intercambiada, por ejemplo verificar la existencia del dominio Internet del emisor o el nombre de la máquina que envía el mensaje (mirando el nombre asociado con la dirección Internet del emisor). La prueba DNS simple ayuda a prevenir el &lt;span style="font-style: italic;"&gt;spoofing&lt;/span&gt; (cuando una máquina se enmascara como otra usando el mismo nombre). Aunque la prueba DNS simple es una herramienta significativa para combatir el spam, ella no es una tecnología anti-spam como tal porque sólo verifica la dirección y nombre de máquina de quien envía, no si quien envía en un spammer o si el mensaje contiene spam. La prueba DNS simple en una tecnología débil porque puede indicar un problema para una compleja variedad de razones legítimas y no necesariamente spam.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Tecnología anti-spam - la segunda generación&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Las listas negras en tiempo real y las redes de firmas son la segunda generación de tecnologías anti-spam porque no son la reutilización simple o extensión de las características pre-existentes de los MTA con propósitos anti-spam. La segunda generación de tecnologías anti-spam existe específicamente con el propósito de detener el spam y está ampliamente mejorada respecto de los métodos anteriores.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Listas negras en tiempo real&lt;/span&gt;&lt;/span&gt; &lt;span style="font-weight: bold;"&gt;(RBLs)&lt;/span&gt;: aunque son tecnicamente una prueba DNS cuando están basadas en direcciones Internet en vez de nombres de dominio; las RBLs fueron la primera real tecnología anti-spam. El concepto detrás del RBLs es simplemente mantener una lista de direcciones Internet que envían spam y las bloquea para transmisiones futuras. La tecnología tiene algunos (d)efectos que permiten burlarla, como cambiar la dirección IP o reenviar mensajes a través de un tercero previamente no identificado como spammer. Del mismo modo, los nombres de dominio pueden ser fácilmente adquiridos, enmascarados o hechos; así que los dominios desde los que spammer envían no pueden depender de los detectores de spam. Hay algunas RBLs externas que bloquean dominios o direcciones IP a partir de reclamos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;&lt;span style="font-style: italic;"&gt;Redes de firmas&lt;/span&gt;&lt;/span&gt;: Son una significativa y relativamente nueva tecnología para combatir el spam. El concepto de redes de firmas es coleccionar e identificar mensajes spam generando una única "firma" que puede ser usada para identificar un mensaje dado. Dado que los mensajes spam son enviado de manera masiva (muchas copias del mismo mensaje) esta aproximación, si es soportada por un número suficiente de ejemplos de mensajes spam, puede detener un porcentaje significativo de correo no deseado. No obstante, el concepto es dependiente del tiempo empleado en la operación de la generación de la firma para comenzar a funcionar.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;Tecnología anti-spam - la nueva generación&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Identificar spam (por firmas) y spammers (con RBLs) está destinado a fallar. Los spammers pueden fácilmente burlar las RBLs y frecuentemente una buena red de firma toma tiempo en identificar mensajes de spam; además que nunca detectan el 100% de estos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;&lt;span style="font-weight: bold;"&gt;Filtros Bayesianos&lt;/span&gt;&lt;/span&gt;: Los filtros bayesianos, que es una aproximación estadística a la detección de spam basado en la probabilidad de spam de las palabras individuales. Usando como premisa la idea que el contenido comercial de los mensajes spam es el talón de Aquiles, el desarrollo de los filtros bayesianos cambió el foco de los esfuerzos anti-spam de redes y protocolos al contenido de los mensajes. Los filtros bayesianos simples , aunque efectivos en la mayoría del spam, pueden ser burlados fácilmente. Esta aproximación confía en el "entrenamiento" de los filtros procesando el spam conocido para generar un sistema basado en una calificación (score) de "palabras spam" que son usadas para evaluar los nuevos mensajes. Los spammers aprenden rápidamente a variar continuamente el contenido de los mensajes agregando palabras neutrales o variaciones de las palabras (como sustituyendo numeros por letras como el número "0" por la letra "O"). Con estas variaciones de las palabras neutrales y otros contenidos de mensajes  y creando nuevas variaciones a las palabras, los filtros bayesianos pueden ser burlados consistentemente, y están siempre un paso atrás de los spam más recientes.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;&lt;span style="font-style: italic;"&gt;Inteligencia Artificial y máquinas de aprendizaje&lt;/span&gt;&lt;/span&gt;: Mientras las técnicas ya implementadas basadas en filtros bayesianos (por ejemplo, tomando en cuenta la proximidad de las palabras, tirando los tags HTML usados por los spammers a palabras riesgosas, etc.) continúan siendo ampliamente usadas, una aproximación más inteligente se hace necesaria. Alrededor del 2003, la necesidad de nuevas y especializadas tecnologías anti-spam era clara; y se veía venir un número de tecnologías de punta necesarias de desarrollar; tales como Corvigo, Proofpoint, y otras. Las aproximaciones de estas compañías fueron basadas en algoritmos de software originados en el campo de la inteligencia artificial, que es una rama de las ciencias de la computación. Fundamentalmente estas tecnologías realizan clasificación de texto usando tecnicas no-bayesianas. Así, ellas pueden adaptarse automáticamente a los cambios de las características del spam. Para hacer esto se han usado técnicas de máquinas de aprendizaje.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;El futuro de la tecnología anti-spam&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;El spam existe en parte porque, cuando el SMTP fue originalmente creado, sólo gobiernos y universidades legitimadas, entidades universitarias e industriales, fueron conectadas a Internet. Ningún concepto de ilegitimidad o abuso de internet o del email había porque era un sistema cerrado. Con la comercialización de Internet en los 1990s, la situación cambió pero no así las tecnologías. Organizaciones de estandarización hoy trabajan especificando nuevas tecnologías que ayudarán a eliminar el spam forzando un alto grado de legitimidad en los emisores de mensajes. Esfuerzos anteriores en esta línea, se promovieron como tecnologías anti-spam, pero ellas intentaron legitimizar el correo electrónico comercial masivo, considerado por muchos como spam.&lt;br /&gt;&lt;br /&gt;En contraste, los actuales esfuerzos basados en estandars para establecer una de autentificación de los emisores usando certificados digitales a los dominios de llaves para generar firmas digitales para los mensajes, pueden ser empleados por todas las empresas, en ves de sólo los emisores de correo masivo comercial. Los nuevos estándars, sin embargo, demoraran varios años en ser incorporados en una mayoría de los MTAs de Internet.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-2541893826485131840?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/2541893826485131840/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=2541893826485131840' title='10 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/2541893826485131840'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/2541893826485131840'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/01/cmo-trabajan-los-antispam.html' title='Cómo trabajan los AntiSpam'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>10</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-1396741140965931724</id><published>2007-01-08T15:31:00.000-03:00</published><updated>2007-01-09T17:44:51.806-03:00</updated><category scheme='http://www.blogger.com/atom/ns#' term='texto'/><category scheme='http://www.blogger.com/atom/ns#' term='clasificacion'/><title type='text'>Signal Processing Approach</title><content type='html'>Estaba revisando una presentación en SlideShare de la Universidad de Vigo, en España, bajo el nombre de &lt;a href="http://www.slideshare.net/inscit2006/a-signal-processing-approach-to-distributional-clustering-of-terms-in-automatic-text-categorization"&gt;A Signal Processing Approach to Distributional clustering of terms in Automatic Text Categorization&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Revisado el documento casi diapositiva a diapositiva, presento un resumen/recordatorio.&lt;br /&gt;&lt;br /&gt;Lo primero es que define Categorización Automática de Textos como la categorización automática de documentos de texto en categorías predefinidas dado un conjunto de documentos de textos pre-categorizados. Esto es importante, pues entiendo se basa en aprendizaje por ejemplos, por lo que para que el método pueda implementarse, debe tener disponible un conjunto de entrenamiento / aprendizaje.&lt;br /&gt;&lt;br /&gt;El método de &lt;span style="font-style: italic;"&gt;Procesamiento de Señales &lt;/span&gt;propuesto, se enfoca en solucionar la problemática de la dimensionadlidad para el espacio de términos usados en la indexación. Para ello utiliza un Clustering Distribuido, definiendo esto como una efectiva y poderosa aproximación en la extracción de términos que ayuda a la reducción del espacio original:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Los términos son caracterizados por sus &lt;span style="font-style: italic;"&gt;funciones de probabilidad de distribución&lt;/span&gt; sobre las diferentes categorías de documentos.&lt;/li&gt;&lt;/ul&gt;&lt;ul&gt;&lt;li&gt;El clustering o agrupación es hecha siguiendo una &lt;span style="font-style: italic;"&gt;medida de similaridad&lt;/span&gt; de las funciones anteriores.&lt;/li&gt;&lt;/ul&gt;&lt;br /&gt;El método de Clustering Distribuido tiene:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Medidas no basadas en información teórica&lt;/li&gt;&lt;li&gt;Pero sí basadas en una nueva interpretación del &lt;span style="font-style: italic;"&gt;"Procesamiento de Señales&lt;/span&gt;", primero eliminado los términos que causan &lt;span style="font-style: italic;"&gt;ruido&lt;/span&gt; y agrupando los restantes términos que sí aportan información siguiendo medidas de correlación o interdependencia.&lt;/li&gt;&lt;/ul&gt;Los resultados que se declararon fueron:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Re-confirmar los resultados obtenidos por otros algoritmos de Clustering Distribuido, que consiguen drásticas mejoras en la efectividad de la categorización, en especial con bajo número de características.&lt;/li&gt;&lt;li&gt;Y que los 20 conjuntos de grupos de noticias referenciados pueden ser indexados con una mínima pérdida de efectividad en la categorización con sólo 20 clusters.&lt;/li&gt;&lt;/ul&gt;Esto lo encontré interesante: la metodología para hacer el clustering:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Los documentos de textos son representados por la clásica indexación &lt;span style="font-style: italic;"&gt;Bag of Words&lt;/span&gt;&lt;/li&gt;&lt;li&gt;El peso de cada palabra corresponde al número de veces que la palabra aparece en cada documento&lt;/li&gt;&lt;li&gt;Cada término es caracterizado por la probabilidad de la función de distribución en la variable discreta de la categoría.&lt;/li&gt;&lt;/ul&gt;&lt;br /&gt;Esta probabilidad de la función de distribución viene dada por una fórmula demasiado lenta de escribir en el blog, pero que se puede revisar en el documento original, pero básicamente está dada por:&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style: italic;"&gt;"Las probabilidades son calculadas dividiendo el número de ocurrencias del término en todos los documentos a través de cada categoría, por el número total de ocurrencias del término en todos los documentos del conjunto de datos"&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;El término se asume como la señal de probabilidad, por lo que lo primero es eliminar las señales de ruido, esto es, las señales con una distribución muy plana, las que no entregan información de la variable para la categoría. Estas señales presentan una variaza baja.&lt;br /&gt;&lt;br /&gt;Luego se agrupan señales similares; esto es, se basa en el grado de similaridad entre señales medidas por el coeficiente de correlación, el que está definido en el documento, y que tiene por hipótesis la equiprobabilidad de las categorías.&lt;br /&gt;&lt;br /&gt;El algoritmo que en definitiva se utilizó, fue uno de clustering duro, esto es:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Se ordenó el vocabulario por varianza decreciente&lt;/li&gt;&lt;li&gt;Se eliminaron aquellos términos con varianza menor que un umbral dado (señales de ruido)&lt;/li&gt;&lt;li&gt;Se inizializaron &lt;span style="font-style: italic;"&gt;M&lt;/span&gt; clusters aislados con los &lt;span style="font-style: italic;"&gt;M&lt;/span&gt; términos&lt;/li&gt;&lt;li&gt;Cíclicamente se colocaron todos los términos en uno de los clusters, juntando aquellos correlacionados y creando nuevos clusters a partir de ellos.&lt;/li&gt;&lt;/ul&gt;&lt;br /&gt;Para permirir el juntar terminos pobremente correlacionados en el mismo cluster, se implementó:&lt;br /&gt;&lt;ul&gt;&lt;li&gt;Ventanas Dinámicas Expansión/Compresión&lt;/li&gt;&lt;ul&gt;&lt;li&gt;Las ventanas estáticas de dimensión &lt;span style="font-style: italic;"&gt;M&lt;/span&gt; se expanden y comprimen en forma dinámica.&lt;/li&gt;&lt;/ul&gt;&lt;li&gt;Clustering suave&lt;/li&gt;&lt;ul&gt;&lt;li&gt;Cualquier término puede ser compartido en más de un cluster.&lt;/li&gt;&lt;/ul&gt;&lt;/ul&gt;&lt;br /&gt;Para la simulación del comportamiento, se usó 20 grupos de noticias con más de 20 mil documentos particionados en 20 grupos de noticias similares.&lt;br /&gt;&lt;br /&gt;El filtro inicial incluyó: remover las stop words, luego las palabras no alfabéticas, y finalmente aquellas que aparecían en menos de 4 documentos o estaban menos de 4 veces en el conjunto de datos.&lt;br /&gt;&lt;br /&gt;Luego de realizar la categorización, se graficaron los resultados &lt;span style="font-style: italic;"&gt;Porcentaje de acierto v/s número de términos por cluster&lt;/span&gt;. Para ello, se utilizó el algoritmo &lt;span style="font-style: italic;"&gt;Ingenuo de Bayes&lt;/span&gt; con funciones de selección Ganancia de Información, Chi cuadrado, Clustering duro y suave con ventanas estáticas, clustering duro y suave con ventanas dinámicas.&lt;br /&gt;&lt;br /&gt;Según los autores, los restultados son notablemente mejores en clustering distribuido que con las funciones de selección clásicas, como Chi cuadrado y Ganancia de la información.&lt;br /&gt;&lt;br /&gt;También concluyen que las curvas presentan un incremento inicial abrupto sobre los 20 clusters.&lt;br /&gt;&lt;br /&gt;Por último, consigen asintomáticamente una efectividad de de alrededor del 79%.&lt;br /&gt;&lt;br /&gt;Se declara que el cluster producido es bueno para 20 o más agrupaciones (igual al número de categorías definidas en la colección de 20 grupos de noticias); y que para el caso de los 20 clusters producidos, cada categoría está principalmente identificada por sólo uno y diferente cluster en una probabilidad del 0.9474 al 0.7552.&lt;br /&gt;&lt;br /&gt;Sé que cada cual sacará sus comentarios del texto, pero en mi opinión, a pesar que se muestra como principal ventaja del método la alta efectividad con baja cantidad de términos; en mi opinión los resultados graficados no me son del todo convincentes, sobre todo por la falta de mayor información respecto al corpus de datos y cómo se seleccionaron los ejemplos de entrenamiento.&lt;br /&gt;&lt;br /&gt;Pero sí creo que este documento tiene aspectos muy interesantes, y por eso mi comentario.&lt;br /&gt;&lt;br /&gt;En primer lugar, cualquier estudio que se realice sobre categorización de textos es ya importante. En mi opinión, los elementos destacados del trabajo están en la eliminación de los términos generadores de ruido; y concuerdo con los autores que es una idea absolutamente correcta, funcional y necesaria.&lt;br /&gt;&lt;br /&gt;También es plausible el haber hecho el estudio con clustering distribuido. La mayor parte de las herramientas comerciales que he visto no salen del Ingenuo de Bayes con raíces de palabras, que si bien es un avance, me parece que los sistemas multivaluares (que prueban más de una medida para la selección) nos permiten obtener mejores resultados y, con los computadores de ahora, con tiempos de respuesta aceptables.&lt;br /&gt;&lt;br /&gt;Por último, en mi opinión la cantidad de ejemplos y el ambiente del que fueron extraídos es bastante imparcial, por lo que da crédito a los resultados obtenidos. Sería interesante ver cómo se comporta el mismo procedimiento en otros ambientes, como pueden ser con ejemplos de medicina.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-1396741140965931724?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/1396741140965931724/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=1396741140965931724' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1396741140965931724'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/1396741140965931724'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2007/01/signal-processing-approach.html' title='Signal Processing Approach'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-114187181440521575</id><published>2006-03-08T23:36:00.000-03:00</published><updated>2006-03-08T23:36:54.423-03:00</updated><title type='text'>Algoritmo de Porter enespañol</title><content type='html'>&lt;p class="mobile-post"&gt;Antes ya habíamos hablado del algoritmo de Porter, pero en [Panessi y&lt;br /&gt;Bordignon, 2001] encontré una descripción mejor que la que habíamos dado&lt;br /&gt;y por tanto paso a resumir.&lt;/p&gt;&lt;p class="mobile-post"&gt;El algoritmo de Porter permite hacer stemming, esto es extraer los&lt;br /&gt;sufijos y prefijos comunes de palabras literalmente diferentes pero con&lt;br /&gt;una raíz común que pueden ser consideradas como un sólo término.&lt;/p&gt;&lt;p class="mobile-post"&gt;Al realizar una búsqueda, el usuario puede perderse porque las palabras&lt;br /&gt;están escritas de otra forma y con poca frecuencia en el documento.&lt;/p&gt;&lt;p class="mobile-post"&gt;Al aplicar stemming, se asegura que la forma de las palabras no penalice&lt;br /&gt;la frecuencia de estas.&lt;/p&gt;&lt;p class="mobile-post"&gt;Los algoritmos de stemming, o lematización para quienes hablamos&lt;br /&gt;español, más conocidos son: Lovins (1968), Porter (1980) y Paice (1990).&lt;br /&gt;Todos eliminan "los finales" de las palabras en forma iterativa, y&lt;br /&gt;requieren de una serie de pasos para llegar a la raíz, pero no requieren&lt;br /&gt;"a priori" conocer todas las posibles terminaciones.&lt;/p&gt;&lt;p class="mobile-post"&gt;Originalmente todos fueron hechos para el inglés, y se diferencian en la&lt;br /&gt;eficiencia del código y la elección de sufijos que identifican e&lt;br /&gt;eliminan.&lt;/p&gt;&lt;p class="mobile-post"&gt;Estudios no definitivos, indican que los resultados conseguidos con&lt;br /&gt;algoritmo de Lovins no concuerda con los resultados obtenidos con los&lt;br /&gt;otros dos que se mencionaron.&lt;/p&gt;&lt;p class="mobile-post"&gt;La raíz de la lematización es un concepto distinto del de la lingüística&lt;br /&gt;(orígen de las palabras) y no aporta al objetivo que persigue la&lt;br /&gt;lematización.&lt;/p&gt;&lt;p class="mobile-post"&gt;No hay razón teórica para que los algoritmos de lematización no puedan&lt;br /&gt;quitar también los prefijos (in, ante, anti, etc.), pero la mayor parte&lt;br /&gt;de los métodos de stemmer sólo quitan sufijos.&lt;/p&gt;&lt;p class="mobile-post"&gt;La razón puede ser decidir cuándo es un prefijo y no parte de la raíz&lt;br /&gt;(indispensable, introducción, etc.) o porque se puede quitar el&lt;br /&gt;significado de la palabra.&lt;/p&gt;&lt;p class="mobile-post"&gt;El problema se extiende a cuando es un sufijo y no parte de la palabra.&lt;br /&gt;Esto se resuelve fijando un mínimo de letras aceptables para la raíz y&lt;br /&gt;con apoyo de una lista de palabras exentas de la aplicación de la regla.&lt;br /&gt;Adicionalmente, hay reglas que indican cuándo un sufijo no debe&lt;br /&gt;eliminarse.&lt;/p&gt;&lt;p class="mobile-post"&gt;Otro problema es el cambio de raíz en algunas palabras, por ejemplo, en&lt;br /&gt;plural (repite, repetidos), donde en castellano el problema es mayor.&lt;/p&gt;&lt;p class="mobile-post"&gt;Los métodos de lematización son dependientes del idioma.&lt;/p&gt;&lt;p class="mobile-post"&gt;Tienen la ventaja que permiten la reducción de los índices, lo que&lt;br /&gt;aumenta la velocidad de procesamiento.&lt;/p&gt;&lt;p class="mobile-post"&gt;El algoritmo de Porter tiene la ventaja de ir quitando sufijos por&lt;br /&gt;etapas, en cambio Lovins requiere de la definición de todas las posibles&lt;br /&gt;combinaciones de sufijos.&lt;/p&gt;&lt;p class="mobile-post"&gt;El algoritmo de Porter se publicó en 1980. Básicamente lee un archivo,&lt;br /&gt;toma una serie de caracteres, y de esa serie, una palabra; luego valida&lt;br /&gt;que todos los caracteres de la palabra sean letras y finalmente aplica&lt;br /&gt;la lematización.&lt;/p&gt;&lt;p class="mobile-post"&gt;El lematizador hace pasar la palabra  por varios conjuntos de reglas,&lt;br /&gt;cada conjunto formado por "n" reglas y cada regla está constituida por:&lt;/p&gt;&lt;p class="mobile-post"&gt;1. un identificador de la regla&lt;br /&gt;2. un sufijo a identificar&lt;br /&gt;3. el texto por el que se reemplaza el sufijo&lt;br /&gt;4. el tamaño del sufijo&lt;br /&gt;5. el tamaño del texto de reemplazo&lt;br /&gt;6. el tamaño minimo que debe tener la raíz resultante luego de aplicar&lt;br /&gt;la regla (para no procesar palabras demasiado pequeñas).&lt;br /&gt;7. Una función de validación (verifica si se debe aplicar la función una&lt;br /&gt;vez encontrado el sufijo)&lt;/p&gt;&lt;p class="mobile-post"&gt;Cuando ya no queden más conjuntos de reglas por aplicar, se devuelve la&lt;br /&gt;palabra resultante y se imprime.&lt;/p&gt;&lt;p class="mobile-post"&gt;Para traducir el algoritmo de Porter al español, se debe:&lt;/p&gt;&lt;p class="mobile-post"&gt;1. Ubicar los sufijos que ocurren frecuentemente en español.&lt;br /&gt;2. Identificar los sufijos que ocurren juntos.&lt;br /&gt;3. Establecer el orden en que ocurren&lt;/p&gt;&lt;p class="mobile-post"&gt;Para la selección de los grupos y orden de procesamiento, se deben tener&lt;br /&gt;en cuenta:&lt;/p&gt;&lt;p class="mobile-post"&gt;1. Dos sufijos que ocurren juntos no pueden pertenecer al mismo&lt;br /&gt;conjunto.&lt;br /&gt;2. Las reglas que quiten sufijos más al final de cada palabra deben ser&lt;br /&gt;procesados en un paso anterior a los que quitan otros.&lt;br /&gt;3. Si un sufimo aparece siempre que ocurra otro, este sufijo es&lt;br /&gt;condicional a la aparición del anterior.&lt;/p&gt;&lt;p class="mobile-post"&gt;Hay además reglas propias del castellano. Por ejemplo, el sufijo "nos",&lt;br /&gt;que NO ES sufijo en palabras como campesinos, casinos, caminos, etc.;&lt;br /&gt;pero sí en hacernos, ponernos, presentarnos, etc.&lt;/p&gt;&lt;p class="mobile-post"&gt;Para depurar el algoritmo hay que considerar 3 pasos:&lt;br /&gt;1. Las palabras terminadas en "r", conceptualmente similares, suelen&lt;br /&gt;quedar con distinta raíz, como en los verbos. Por ejemplo, caminar y&lt;br /&gt;caminando. Primero se debe eliminar "ndo". Por lo que la eliminación de&lt;br /&gt;las "r" es uno de los últimos pasos.&lt;/p&gt;&lt;p class="mobile-post"&gt;2. Similarmente, las palabras que terminan con vocales, por ejemplo, las&lt;br /&gt;palabras terminación y terminal y/o terminó, se dejan para el final.&lt;/p&gt;&lt;p class="mobile-post"&gt;3. En último término, se aplica una tercer regla que elimina los tildes&lt;br /&gt;de la raíz resultante. Por ejemplo, en diálogo y dialogó.&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-114187181440521575?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/114187181440521575/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=114187181440521575' title='6 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/114187181440521575'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/114187181440521575'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2006/03/algoritmo-de-porter-enespaol.html' title='Algoritmo de Porter enespañol'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>6</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113651377518951377</id><published>2006-01-05T23:16:00.000-03:00</published><updated>2006-01-05T23:16:15.226-03:00</updated><title type='text'>Proyecto de Ejemplo</title><content type='html'>&lt;B&gt;Antecedentes Generales&lt;/B&gt;&lt;BR&gt; &lt;BR&gt; Con el fin de ilustrar el proceso de Categorizaci&amp;#243;n de Textos, es que se opt&amp;#243; por una aplicaci&amp;#243;n &lt;B&gt;pura&lt;/B&gt; de categorizaci&amp;#243;n: la categorizaci&amp;#243;n de art&amp;#237;culos de un peri&amp;#243;dico electr&amp;#243;nico.&lt;BR&gt; &lt;BR&gt; Durante ya bastante tiempo, se ha estado recolectando art&amp;#237;culos, a una tasa de 30 art&amp;#237;culos por d&amp;#237;a posible, consiguiendo un corpus que en este momento sobrepasa los 8500 art&amp;#237;culos con alrededor de 25 categor&amp;#237;as.&lt;BR&gt; &lt;BR&gt; Estos art&amp;#237;culos han sido extra&amp;#237;dos desde &lt;A HREF="http://www.latercera.cl"&gt;www.latercera.cl&lt;/A&gt;, por un proceso autom&amp;#225;tico y en forma absolutamente aleatoria.&lt;BR&gt; Nos atrevemos a dar el nombre de la fuente porque se solicit&amp;#243; permiso para mencionarla, aunque no se cuenta con una autorizaci&amp;#243;n para publicar el corpus construido, pero s&amp;#237; para ser usado en nuestra investigaci&amp;#243;n.&lt;BR&gt; &lt;BR&gt; El formato en que se han ido almacenando es XML con la siguiente estructura:&lt;BR&gt; &lt;BR&gt; &amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;gt;&lt;BR&gt; &amp;lt;articulos&amp;gt;&lt;BR&gt; &amp;lt;articulo&amp;gt;&lt;BR&gt; &amp;lt;fecha&amp;gt;&amp;lt;/fecha&amp;gt;&lt;BR&gt; &amp;lt;titulo&amp;gt;&amp;lt;/titulo&amp;gt;&lt;BR&gt; &amp;lt;link&amp;gt;&amp;lt;/link&amp;gt;&lt;BR&gt; &amp;lt;texto&amp;gt;&lt;BR&gt; &amp;lt;/texto&amp;gt;&lt;BR&gt; &amp;lt;canal&amp;gt;&amp;lt;/canal&amp;gt;&lt;BR&gt; &amp;lt;/articulo&amp;gt;&lt;BR&gt; &amp;lt;/articulos&amp;gt;&lt;BR&gt; &lt;BR&gt; donde la fecha, es la fecha de publicaci&amp;#243;n; el t&amp;#237;tulo, es el t&amp;#237;tulo del art&amp;#237;culo; el link, es la direcci&amp;#243;n web desde donde se extrajo; el texto, es el desarrollo del art&amp;#237;culo; y el canal, representa la categor&amp;#237;a a la que pertenece.&lt;BR&gt; &lt;BR&gt; &lt;B&gt;Fases del Proyecto&lt;/B&gt;&lt;BR&gt; &lt;BR&gt; Se dividir&amp;#225; el trabajo en 4 partes, la primera de ellas ya explicada, que es la recolecci&amp;#243;n de los art&amp;#237;culos desde el peri&amp;#243;dico de Internet.&lt;BR&gt; &lt;BR&gt; La segunda etapa se trata del &lt;B&gt;pre-procesamiento&lt;/B&gt;. En esta etapa, se eliminar&amp;#225; por un lado todas aquellas cadenas de caracteres que son &amp;quot;basura&amp;quot;, vale decir, caracteres que quedaron producto de la extracci&amp;#243;n misma desde la fuente. Por otro lado, se eliminar&amp;#225; todas aquellas palabras que no aportan al contenido del art&amp;#237;culo, sino a su redacci&amp;#243;n, tales como las preposiciones.&lt;BR&gt; &lt;BR&gt; En una tercera etapa, se construir&amp;#225; los conjuntos de entrenamiento y prueba del clasificador. Esta etapa incluye la indexaci&amp;#243;n de los documentos. La forma de indexar se detalla en un posteo posterior.&lt;BR&gt; &lt;BR&gt; La cuarta etapa ser&amp;#225; entrenar los clasificadores. En esta etapa ya se debe tener determinado los m&amp;#233;todos que se utilizar&amp;#225;n para clasificar, aunque por su simplicidad y efectividad, el Ingenuo de Bayes y Support Vector Machine (SVM) estar&amp;#225;n en la lista de los elegidos.&lt;BR&gt; &lt;BR&gt; En una quinta etapa, se probar&amp;#225;n los clasificadores construidos.&lt;BR&gt; &lt;BR&gt; Durante la sexta y &amp;#250;ltima etapa, se medir&amp;#225;n los resultados obtenidos y se har&amp;#225;n las comparaciones entre ellos.&lt;BR&gt; &lt;BR&gt; &lt;BR&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113651377518951377?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113651377518951377/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113651377518951377' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113651377518951377'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113651377518951377'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2006/01/proyecto-de-ejemplo_05.html' title='Proyecto de Ejemplo'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113348769068250722</id><published>2005-12-01T22:41:00.000-03:00</published><updated>2005-12-01T22:41:30.720-03:00</updated><title type='text'>Comitésde Clasificadores</title><content type='html'>&lt;p class="mobile-post"&gt;Los comités de clasificadores se basan en la idea que si, para una tarea&lt;br /&gt;se requiere un experto, un grupo de expertos hará igual tarea mejor.&lt;/p&gt;&lt;p class="mobile-post"&gt;En categorización de texto, se aplican clasificadores para decidir si dj&lt;br /&gt;pertenece a ci y se combina la salida apropiadamente.&lt;/p&gt;&lt;p class="mobile-post"&gt;      * Requiere escoger k clasificadores&lt;br /&gt;        &lt;br /&gt;      * Escoger la función de combinación&lt;br /&gt;        &lt;/p&gt;&lt;p class="mobile-post"&gt;Los clasificadores del comité deben ser tan independientes como se&lt;br /&gt;pueda, tanto en indexación como en el método inductivo. [Sebastiani,&lt;br /&gt;2002]&lt;/p&gt;&lt;p class="mobile-post"&gt;Respecto de la función, la más simple es “por mayoría simple”: &lt;/p&gt;&lt;p class="mobile-post"&gt;Otra regla que se puede aplicar es por combinación lineal de pesos;&lt;br /&gt;pesos que representan la efectividad relativa que se espera del&lt;br /&gt;clasificador y que se validan en el conjunto de entrenamiento.&lt;/p&gt;&lt;p class="mobile-post"&gt;También se puede usar Selección Dinámica, donde los clasificadores se&lt;br /&gt;eligen según sea el más efectivo para un documento dj similar. Su&lt;br /&gt;decisión es la que adopta el comité.&lt;/p&gt;&lt;p class="mobile-post"&gt;Una alternativa intermedia es someterlo al juicio de todos los&lt;br /&gt;clasificadores, pero la salida ponderarla según pesos para los&lt;br /&gt;clasificadores según un documento dj similar al evaluado.&lt;/p&gt;&lt;p class="mobile-post"&gt;Se ha experimentado con varias combinaciones, normalmente de 3&lt;br /&gt;clasificadores cada uno, pero han adolecido de una baja cantidad de&lt;br /&gt;documentos a clasificar, por lo que los resultados son poco concluyentes&lt;/p&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113348769068250722?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113348769068250722/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113348769068250722' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113348769068250722'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113348769068250722'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/12/comitsde-clasificadores.html' title='Comitésde Clasificadores'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113345464212806401</id><published>2005-12-01T13:30:00.000-03:00</published><updated>2005-12-01T14:32:48.966-03:00</updated><title type='text'>Clasificadores por SVM (Support Vector Machine)</title><content type='html'>Las Máquinas con Soporte en Vector están presentes es Categorización de Textos desde el año 1998 [Sebastiani, 2002]. El método está basado en la Minimización Estructural del Riesgo [Yang, 1999] y está basado en un espacio vector donde el problema es encontrar una superficie que mejor separe los puntos que representan los datos en dos clases.&lt;br /&gt;&lt;br /&gt;&lt;div style="text-align: center;"&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/DefHiperPlanoSeparableSVM.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/DefHiperPlanoSeparableSVM.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;/div&gt;&lt;br /&gt;Para definir esta mejor separación, se introduce un margen entre las dos clases, y aunque se muestra el caso bi-dimensional separable linealmente en la figura, pero se puede generalizar para más dimensiones y no separable linealmente, lo que sería un hyperplano. La mejor separación, se refiere a que el margen entre la superficie que divide y los puntos se maximice.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/SVMSeparacion.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/SVMSeparacion.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;En términos geométricos, puede ser visto como el intento de encontrar, a través de todas las superficies en el espacio |T|-dimensional, aquel que separa los negativos de los positivos, por el más amplio margen posible.&lt;br /&gt;&lt;br /&gt;La fórmula muestra la superficie de decisión para SVM, donde x es un punto de dato arbitrario (a ser clasificado), mientras que el vector w y la constante b son aprendidas del conjunto de entrenamiento para los datos linealmente separables. Dado&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/conj_entrenamiento.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/conj_entrenamiento.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;que denota el conjunto de enternemiento, y donde yi tiene valor +1 si x es un ejemplo positivo y -1 si es uno negativo; el problema se limita a encontrar w y b que satisfagan:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/ec_det_hiperplano.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/ec_det_hiperplano.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;lo que puede ser resuelto usando técnicas de programación.&lt;br /&gt;&lt;br /&gt;Los algoritmos para resolver casos lineales se pueden extender para resolver casos no-lineales al introducir relajaciones a los márgenes de los hiperplanos o mapeando los vectores de datos originales a un espacio de dimensionalmente mayor donde no se pierdan las características de los&lt;br /&gt;datos pero sí se puedan separar linealmente.&lt;br /&gt;&lt;br /&gt;Es notable que la mejor decisión de superficie esté determinada sólo por un pequeño conjunto de ejemplos de entrenamiento, llamado soporte vector. Con sólo este conjunto de puntos, la decisión del hiperplano escogido para separar sigue siendo la misma.&lt;br /&gt;&lt;br /&gt;Dos importantes ventajas para categorización de textos son:&lt;br /&gt;&lt;br /&gt;&lt;ol&gt;   &lt;li&gt;La selección de términos frecuentemente no es necesaria, SVM tiende a ser bastante robusto al sobre ajuste y puede escalar a considerables dimensiones.&lt;/li&gt;   &lt;li&gt;No requiere esfuerzo en sintonizarlo en un conjunto de validación.&lt;/li&gt; &lt;/ol&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113345464212806401?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113345464212806401/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113345464212806401' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113345464212806401'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113345464212806401'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/12/clasificadores-por-svm-support-vector.html' title='Clasificadores por SVM (Support Vector Machine)'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112597453519564199</id><published>2005-11-25T22:25:00.000-03:00</published><updated>2006-03-14T15:26:15.486-04:00</updated><title type='text'>Algo que estudiar</title><content type='html'>Como se comentó en la presentación de este blog, lo aquí publicado no es más que lo que se ha ido recolectando respecto de Categorización de Textos.&lt;br /&gt;Al respecto, se recomienda el excelente trabajo de Fabrizio Sebastiani, el que sin duda será muy educativo.&lt;span style="font-weight: bold;"&gt;&lt;br /&gt;&lt;br /&gt;[Sebastiani, 2002]&lt;/span&gt; Fabrizio Sebastiani, 2002. &lt;a href="http://www.math.unipd.it/%7Efabseb60/Publications/ACMCS02.pdf"&gt;Machine Learning in Automated Text Categorization&lt;/a&gt;, Consiglio Nazionale delle Ricerche, Italy. Revisado por última vez el 30 de agosto de 2005 en la URL www.math.unipd.it/~fabseb60/Publications/ACMCS02.pdf&lt;br /&gt;&lt;br /&gt;Los siguientes papers tratan sobre Poesía y Hermes, dos aplicaciones libres basadas en Máquinas de Aprendizaje&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;[Gomez, Puertas, de Buenaga, Carrero, 2002]&lt;/span&gt; Gómez, José María y Puertas, Enrique y de Buenaga, Manuel y Carrero, Francisco, 2002. &lt;a href="http://www.esi.uem.es/%7Ejmgomez/papers/sepln02.pdf"&gt;Text filtering at POESIA: a new Internet content filtering tool for educational environments&lt;/a&gt;. Última revisión en 30 de Agosto de 2005 en la dirección www.esi.uem.es/~jmgomez/papers/sepln02.pdf&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;[Gomez, Giraldez, de Buenaga, 2004]&lt;/span&gt; Gómez, José M. y Giráldez, Ignacio y de Buenaga, Manuel, 2004. &lt;a href="http://http//tornado.dia.fi.upm.es/caepia/numeros/22/raepiaF09.pdf"&gt;Text Categorization for Internet Content Filtering&lt;/a&gt;. Última revisión en 30 de agosto de 2005 en la dirección http://tornado.dia.fi.upm.es/caepia/numeros/22/raepiaF09.pdf&lt;br /&gt;&lt;br /&gt;La categorización de textos es considerada parte de la minería de textos. El siguiente documento da fé de ello.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;[Hernandez, 2005]&lt;/span&gt; Hernandez Orallo, José, 2005. &lt;a href="http://bbdd.escet.urjc.es/documentos/Master%20Ingenieria%20del%20Software%20DSIC%20Mineria%20de%20datos/dm4.pdf"&gt;Web Mining&lt;/a&gt;, Universidad Politécnica de Valencia. Última revisión en 09 de Septiembre de 2005 en la dirección http://bbdd.escet.urjc.es/documentos/Master%20Ingenieria%20del%20Software%20DSIC%20Mineria%20de%20datos/dm4.pdf&lt;br /&gt;&lt;br /&gt;Elsiguiente documento trata del problema del vocabulario en la comunicación.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight: bold;"&gt;[Furnas, Landauer, Gomez, Dumais, 1999] &lt;/span&gt;Furnas, G.W. y Landauer, T.K. y Gomez, L.M. y Dumais, S.T., 1999. &lt;a href="http://www.google.cl/url?sa=t&amp;ct=res&amp;amp;cd=3&amp;url=http%3A//www.si.umich.edu/%7Efurnas/Papers/vocab.paper.pdf&amp;amp;ei=15UnQ6WxN7mI4QHz5rWCBw"&gt;The Vocabulary Problem in Human-System Communication: an Analysis and a Solution&lt;/a&gt;, Bell Communications Reseach. Última revisión en 13 de Septiembre de 2005 en la dirección http://www.google.cl/url?sa=t&amp;ct=res&amp;amp;cd=3&amp;url=http%3A//www.si.umich.edu/%7Efurnas/Papers/vocab.paper.pdf&amp;amp;ei=15UnQ6WxN7mI4QHz5rWCBw&lt;br /&gt;&lt;br /&gt;[Yang, 1999] Yang, Yiming y Liu, Xin, 1999. &lt;a href="http://citeseer.ist.psu.edu/rd/0%2C361822%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz%7EyimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf"&gt;A re-examination of text categorization methods&lt;/a&gt;. School of Computer Science, Carneie Mellon University. Última revisión en 25 de Noviembre en la dirección http://citeseer.ist.psu.edu/rd/0%2C361822%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/5062/http:zSzzSzwww.cs.cmu.eduzSz%7EyimingzSzpapers.yyzSzsigir99.pdf/yang99reexamination.pdf&lt;br /&gt;&lt;br /&gt;[Joachims, 1997]  Joachims, Thorsten, 1997 .&lt;a href="http://citeseer.ist.psu.edu/rd/41909118%2C553162%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/26885/http:zSzzSzranger.uta.eduzSz%7EalpzSzixzSzreadingszSzSVMsforTextCategorization.pdf/joachims97text.pdf"&gt;Text Categorization with Support Vector Machines: Learning with Many Relevant Features&lt;/a&gt;. Última revisión en 25 de Noviembre de 2005 en la dirección http://citeseer.ist.psu.edu/rd/41909118%2C553162%2C1%2C0.25%2CDownload/http://citeseer.ist.psu.edu/cache/papers/cs/26885/http:zSzzSzranger.uta.eduzSz%7EalpzSzixzSzreadingszSzSVMsforTextCategorization.pdf/joachims97text.pdf&lt;br /&gt;&lt;br /&gt;[Medina Nieto M.A., 2001] &lt;a href="http://www.pue.udlap.mx/~tesis/msp/medina_n_ma/capitulo2.pdf"&gt;EGRAI: Espacio Grupal con referencistas y Agentes como apoyo a la investigacion&lt;/a&gt;. Última revisión en 24 de Enero de 2006 en la dirección http://www.pue.udlap.mx/~tesis/msp/medina_n_ma/capitulo2.pdf&lt;br /&gt;&lt;br /&gt;[Panessi y Bordignon, 2001] &lt;a href="http://www.tyr.unlu.edu.ar/TYR-publica/Varia-Morfo.pdf."&gt;Procesamiento de Variantes Morfológicas en Búsquedas de Textos en Castellano &lt;/a&gt;. Walter Panessi y Fernando Raúl Alfredo Bordignon. Universidad Nacional de Luján, Departamento de Ciencias Básicas, División Estadística y Sistemas. Revisado por última vez en 08 de Marzo de 2006 en la direción http://www.tyr.unlu.edu.ar/TYR-publica/Varia-Morfo.pdf.&lt;br /&gt;&lt;br /&gt;[Eyheramendy, Lewis y Madigan, 2001] &lt;a href="http://www.stat.rutgers.edu/~madigan/PAPERS/susana3.pdf"&gt;On the Naive Bayes Model for Text Categorization&lt;/a&gt;. Susana Eyheramendy, David Lewis, David Madigan. Rutgers University. Revisado por última vez en 14 de Marzo de 2006 en la dirección http://www.stat.rutgers.edu/~madigan/PAPERS/susana3.pdf&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112597453519564199?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112597453519564199/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112597453519564199' title='3 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112597453519564199'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112597453519564199'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/algo-que-estudiar.html' title='Algo que estudiar'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>3</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113292050127930829</id><published>2005-11-25T09:08:00.001-03:00</published><updated>2005-11-25T13:39:58.180-03:00</updated><title type='text'>Clasificadores basados en ejemplos</title><content type='html'>Este tipo de clasificadores no construyen una representaci&amp;#243;n expl&amp;#237;cita, pero conf&amp;#237;a en las etiquetas de los documentos de entrenamiento similares a los documentos de prueba. Tambi&amp;#233;n se llaman &lt;I&gt;lazy layer&lt;/I&gt;, porque posterga la decisi&amp;#243;n de c&amp;#243;mo generalizar hasta que encuentra un nuevo caso.&lt;BR&gt; &lt;BR&gt; Para decidir si &lt;I&gt;dj&lt;/I&gt; pertenece a la categor&amp;#237;a &lt;I&gt;ci&lt;/I&gt;, mira si hay &lt;I&gt;k&lt;/I&gt; documentos similares que pertenezcan a &lt;I&gt;ci&lt;/I&gt;. Si la porci&amp;#243;n de coincidentes es alta, se toma la decisi&amp;#243;n. En otro caso, se decide que el documento no pertenece a la clase.&lt;BR&gt; &lt;BR&gt; La similaridad se mide en relaci&amp;#243;n a la distancia de los pesos. Se puede utilizar &lt;I&gt;CSVi(dj)&lt;/I&gt; para determinar la &lt;I&gt;distancia&lt;/I&gt; de los documentos y el m&amp;#233;todo de los umbrales para convertir la decisi&amp;#243;n en una categorizaci&amp;#243;n binaria.&lt;BR&gt; &lt;BR&gt; La construcci&amp;#243;n del clasificador involucra determinar &lt;I&gt;k&lt;/I&gt; experimentalmente en el conjunto de prueba. Se ha propuesto 20 &amp;#243; entre 30 y 45 documentos para una mayor efectividad. Al aumentar &lt;I&gt;k &lt;/I&gt;no se afecta mayormente la performance.&lt;BR&gt; &lt;BR&gt; Un caso de esta metodolog&amp;#237;a es k-NN (k-Nearest Neighbors &amp;#9472; los k vecinos m&amp;#225;s cercanos), que ha sido estudiada intensamente por m&amp;#225;s de cuatro d&amp;#233;cadas [Yang, 1999]. Ha sido aplicada a la categorizaci&amp;#243;n de textos desde las primeras investigaciones y est&amp;#225; clasificado como uno de los m&amp;#233;todos con mejor rendimiento para este tipo de aplicaciones. No divide el espacio de documentos linealmente, por lo que no sufre los problemas de los clasificadores lineales.&lt;BR&gt; &lt;BR&gt; Su algoritmo es simple: dado un documento de prueba, busca los &lt;I&gt;k&lt;/I&gt; vecim&amp;#161;nos m&amp;#225;s cercanos entre los documentos de entrenamiento, y usa las categor&amp;#237;as de estos &lt;I&gt;k&lt;/I&gt; vecinos para determinar las categor&amp;#237;as candidatas, construyendo un ranking de categor&amp;#237;as dependiendo de la cantidad de documentos que compartan esta misma clasificaci&amp;#243;n.&lt;BR&gt; &lt;BR&gt; &lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/EjemplokNN.jpg"&gt;&lt;img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/EjemplokNN.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;BR&gt; &lt;BR&gt; Normalmente los clasificadores basados en ejemplos usan pivote en el documento.&lt;BR&gt; &lt;BR&gt; Este clasificador es absolutamente efectivo [Sebastiani, 2002], aunque tiene el inconveniente del tiempo que se requiere en el proceso.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113292050127930829?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113292050127930829/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113292050127930829' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113292050127930829'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113292050127930829'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/clasificadores-basados-en-ejemplos.html' title='Clasificadores basados en ejemplos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113292050125207786</id><published>2005-11-25T09:08:00.000-03:00</published><updated>2005-11-25T09:35:40.146-03:00</updated><title type='text'>Redes Neuronales - NNet</title><content type='html'>&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/RedNeuronal.png"&gt;&lt;img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/RedNeuronal.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;Las redes neuronales tambi&amp;#233;n han sido utilizadas en la construcci&amp;#243;n de clasificadores.&lt;BR&gt; &lt;BR&gt; Una red neuronal es una red donde la entrada son los t&amp;#233;rminos y la salida la o las categor&amp;#237;as de inter&amp;#233;s. Los pesos representan las relaciones de dependencia. Normalmente se representan como grafos, donde los nodos representan la suma de las entradas, las flechas representan las entradas y salidas de los nodos (como podr&amp;#237;a ser un t&amp;#233;rmino del documento), las que vienen modificadas por los pesos.&lt;BR&gt; &lt;BR&gt; &lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/Perceptron.png"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/Perceptron.png" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;BR&gt; &lt;BR&gt; Un documento de test &lt;I&gt;i&lt;/I&gt;, carga sus pesos de t&amp;#233;rminos en las unidades de entrada de la red. La activaci&amp;#243;n se propaga por la red y el valor de la salida determina la decisi&amp;#243;n de categorizaci&amp;#243;n.&lt;BR&gt; &lt;BR&gt; Normalmente, se usa &lt;I&gt;backpropagation&lt;/I&gt;, &lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;donde las clasificaciones err&amp;#243;neas modifican los par&amp;#225;metros de la red para minimizar o eliminar el error.&lt;BR&gt; &lt;BR&gt; La red neuronal m&amp;#225;s simple es el perceptr&amp;#243;n, que es un clasificador lineal. &lt;BR&gt; &lt;BR&gt; Otros clasificadores lineales de red neuronal implementan regresi&amp;#243;n log&amp;#237;stica.&lt;BR&gt; &lt;BR&gt; Las redes neuronales no lineales son redes con una o m&amp;#225;s capas de unidades extra. En categorizaci&amp;#243;n de texto, normalmente representa interacciones de mayor orden entre los t&amp;#233;rminos.&lt;BR&gt; &lt;BR&gt; En general, no se notan diferencias al implementar redes neuronales lineales y no lineales.&lt;BR&gt; &lt;BR&gt; Han sido intensamente usadas en Inteligencia Artificial [Yang, 1999] y se sabe han sido probadas con el corpus Reuter-21450, tanto con perceptrones como con Redes Neuronales de tres capas (con una capa escondida). En las experiencias se ha utilizado una red neuronal por categor&amp;#237;a y han mostrado un alto costo computacional.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113292050125207786?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113292050125207786/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113292050125207786' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113292050125207786'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113292050125207786'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/redes-neuronales-nnet.html' title='Redes Neuronales - NNet'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113262740230693947</id><published>2005-11-21T23:43:00.000-03:00</published><updated>2005-11-22T13:36:37.213-03:00</updated><title type='text'>Un caso interesante de Clasificador Lineal - Rocchio</title><content type='html'>&lt;span style="font-weight:bold;"&gt;El método de Rocchio:&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;Un caso interesante de clasificador lineal es aquel que utiliza el método de Rocchio. Básicamente, por que es fácil de implementar y, bajo ciertas condiciones, puede llegar a ser muy eficiente.&lt;br /&gt;&lt;br /&gt;En este método, los clasificadores lineales utilizan un &lt;b&gt;perfil explícito&lt;/b&gt;, esto es, un documento prototipo para la categoría con el cual se comparan. Son arreglos de pesos que representan un documento tipo basados en los pesos para cada atributo &lt;i&gt;ci&lt;/i&gt;. Esta característica propicia que sea fácilmente interpretable por humanos.&lt;br /&gt;&lt;br /&gt;El método calcula un clasificador &lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/documentotipo.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/documentotipo.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt; para la categoría &lt;i&gt;ci&lt;/i&gt;, &lt;br /&gt;donde&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/pesoenrocchio.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/pesoenrocchio.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;,&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/positivo.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/positivo.jpg" border="0" alt="" /&gt;&lt;/a&gt;,&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/negativo.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/negativo.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;y &lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/betaygama.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/betaygama.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt; son los parámetros de importancia asignados a los ejemplos positivos y negativos.&lt;br /&gt;&lt;br /&gt;Como se observa en las ecuaciones, básicamente calcula promedios de pesos, motivo por el que se justifica su eficiencia.&lt;br /&gt;&lt;br /&gt;Pero al referirnos a la efectividad, tiene problemas con agrupaciones disjuntas de documentos&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/clustersdisjuntos.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/clustersdisjuntos.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Como en el caso de la figura, el clasificador podría cometer grandes errores si el &lt;i&gt;centroide&lt;/i&gt; no coincide con ningún documento.&lt;br /&gt;&lt;br /&gt;Los clasificadores lineales pecan de este inconveniente precisamente porque dividen el espacio de documentos linealmente.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Mejoras al método de Rocchio&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Una mejora que se puede intentar para el método de Rocchio, al crear el clasificador, es modificar el conjunto de valores negativos NEGAi. La propuesta apunta a escoger los valores que perteneceran al conjunto NEGAi, que ahora se llamará NPOSi (no positivos), y que contendrá aquellos documentos que son más cercanos a los positivos, si se quiere, los menos negativos.&lt;br /&gt;&lt;br /&gt;Con esta modificación, la fórmula del modelo queda como:&lt;br /&gt;&lt;br /&gt; &lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/rocchiooptimizado.jpg"&gt;&lt;img style="float:right; margin:0 0 10px 10px;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/rocchiooptimizado.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;donde el factor: &lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/factorNPOSi.jpg"&gt;&lt;img style="display:block; margin:0px auto 10px; text-align:center;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/factorNPOSi.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;es más significante dado que son los más difíciles de separar de los positivos.&lt;br /&gt;&lt;br /&gt;Una forma de encontrar los “cercanos positivos” es contrarrestando el centroide de los positivos, contra un documento base de los negativos. Los con menor &lt;span style="font-style:italic;"&gt;"distancia"&lt;/span&gt; más altos son los elegidos.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113262740230693947?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113262740230693947/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113262740230693947' title='1 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113262740230693947'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113262740230693947'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/un-caso-interesante-de-clasificador.html' title='Un caso interesante de Clasificador Lineal - Rocchio'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113154730503017760</id><published>2005-11-09T09:54:00.000-03:00</published><updated>2005-11-09T11:41:45.070-03:00</updated><title type='text'>Presentación de mi tema</title><content type='html'>Hasta ahora no he escrito nada de mi aspecto personal, pero ahora me voy a tomar la licencia porque creo que es muy importante que aprenda a partir de mi experiencia.&lt;br /&gt;&lt;br /&gt;Si estoy estudiando y publicando lo que he ido aprendiendo, es por que siento que necesito especializarme en algo, necesito algo en lo cual yo sea realmente un experto.&lt;br /&gt;&lt;br /&gt;Quizás por lo mismo es que decidí integrarme al plan de Magister de la Universidad de Santiago de Chile, plan del que por estos días estoy haciendo ya su tesis... indudablemente, este es mi tema de tesis.&lt;br /&gt;&lt;br /&gt;Ayer, ante el curso de Seminario de Tesis, más algunos invitados de la misma Universidad, presenté mis investigaciones orientadas a la tesis que realizo; pero en vez de ser una experiencia agradable, creo que fue más bien frustrante, aunque muy educativa.&lt;br /&gt;&lt;br /&gt;Ahora expongo lo que siento fueron errores que no se pueden repetir una vez que me toque hacer la presentación de mi tesis, y que espero sirva al visitante de mi blog:&lt;br /&gt;&lt;br /&gt;&lt;ol&gt;   &lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Incorporar elementos gráficos a la presentación:&lt;/span&gt; La mayor parte de los asistentes (muchos en relación a los que van normalmente a ese curso) no estaban interesados en mi tema. Noté que los escazos elementos gráficos que incorporé llamaron su atención y fueron muy didácticos a la hora de entender a lo que me refería.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;No juzgar la intencionalidad de las preguntas:&lt;/span&gt; Si bien la mayor parte de las preguntas me parecieron sumamente atinadas, hubo otras no tan afortunadas. Erróneamente o no, sentí que fueron hechas con mala intención, lo que me desconcentró y no me permitió seguir mi exposición en condiciones óptimas.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;No perder la paciencia: &lt;/span&gt;Relacionado con lo anterior, hubo un momento que ya no me interesaron las preguntas que me hizo este señor, por lo que de plano le respondí de mala manera para que no me preguntara más... craso error!!!. Además, debo intentar responder las preguntas y no caer en el debate con la audiencia.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Dejar las preguntas para el final: &lt;/span&gt;El tiempo que tenía para mi exposición era limitado, sin embargo dejé que me interrumpieran durante la exposición, lo que no me parece mal, pero dadas las circunstancias, hizo que me tomara más tiempo del que realmente disponía. Debo decir al principio de la presentación que las preguntas quedan para el final.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Colocar una diapositiva con el índice:&lt;/span&gt; La gente no tenía una visión global de hacia donde iba mi presentación, cosa que se podría haber solucionado con una diapositva con el índice al principio. En cierta ocasión, vi una presentación donde cada cierto tiempo se mostraba el índice con el próximo tema a tratar en otro color.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Introducir "violentamente" al oyente al tema:&lt;/span&gt; Los asistentes no sabían qué iban a escuchar, por lo que demoraron un rato en involucrarse en el tema. Una diapositiva con un gráfico que explicaba lo que hablábamos y que estaba a la mitad de la presentación, debió estar al principio.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Pulcritud de los términos:&lt;/span&gt; En más de alguna ocasión no utilicé el término exacto. No estoy seguro si fué una suspicacia o realmente enredé a alguien, pero me hicieron notar como un hecho grave el no haber utilizar el término exacto respecto de lo que me refería (datashow/proyector, metodología/clasificador, etc.).&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Llevar la presentación en otro formato:&lt;/span&gt; Se perdió tiempo importante en tener que cambiar la presentación de formato para llevarlo a otra máquina. Eso distrajo la audiencia y la predispuso a la crítica.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Título de la exposición:&lt;/span&gt; El tema de la exposición debe ser tal que, con sólo leerlo, saber exactamente de qué se tratará la exposición, sin importar que quede algo largo o poco estético.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Separar tácitamente lo que es el marco teórico de lo que era mi proyecto en sí:&lt;/span&gt; Si bien eso se verá ayudado con la incorporación del índice, dejar en claro cuando terminamos de hablar de la teoría y cuando ya estamos hablando de lo que voy a hacer en mi proyecto.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Qué incluye y qué excluye el proyecto:&lt;/span&gt; En ningún momento me detuve y expliqué qué incluía y qué no mi proyecto. Creo que estaba claro si se revisa la totalidad de la presentación, pero la gente no estuvo siempre atenta, por lo que mucho de lo que nombré ni siquiera lo escucharon.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Acotar el objetivo del proyecto:&lt;/span&gt; Sumado a lo anterior, acotar suficientemente el objetivo ayuda a definir qué incluye y excluye el proyecto.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Definir el término del proyecto:&lt;/span&gt; En ningún momento hice mención clara de bajo cuales condiciones puedo dar por finalizado el trabajo.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Referirse a lo que es y no a lo que no es:&lt;/span&gt; En este blog también menciono "lo que no es categorización de textos". Mala idea. La presentación siempre debe ser constructiva y no destructiva respecto del conocimiento.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Presentación del orador y profesor guía:&lt;/span&gt; Algo que se me olvidó fue incluir mi nombre y el de mi profesor guía en la primera diapositiva. Eso me dará pié para presentar a mi profesor guía y a mi mismo.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Links:&lt;/span&gt; Quizás más de alguien me va a decir que "nadie va a mirar los links que incluí en la presentación como referencia". Pero yo quedé con la sensación que a mi presentación le faltó eso como motivación.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Módulo de tratamiento de textos:&lt;/span&gt; En mi presentación, en este blog, y en general en el proyecto que pretendo llevar a cabo con mi investigación; nunca aparece un módulo de tratamiento de textos, esto es: transformar documentos que llegan en distintos formatos (txt, xml, ps, pdf, doc, xsf, etc.) al formato que utilizará mi aplicación.&lt;/li&gt;&lt;br /&gt;&lt;br /&gt;&lt;li&gt;&lt;span style="font-weight:bold;"&gt;Corregir el esquema de la solución propuesta:&lt;/span&gt; Me di cuenta que cuando la expuse, le faltan y sobran características... en general, el dibujo es poco preciso y hasta incorrecto.&lt;/li&gt;&lt;br /&gt;&lt;/ol&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Sé que muchos esperan que publique la presentación que hice (JA!... vanidad... ni siquiera sé si alguien algún día leerá esto :), por lo que aquí se las &lt;a href="http://www.valvulasindustriales.com/blog/PresentacionSeminarioDeTesis.pdf"&gt;adjunto&lt;/a&gt;.&lt;br /&gt;&lt;br /&gt;Agradeceré, si es que estuviste en la presentación y hay &lt;span style="font-weight:bold;"&gt;algo que aportar&lt;/span&gt;, que lo incorpores como comentario.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113154730503017760?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113154730503017760/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113154730503017760' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113154730503017760'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113154730503017760'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/presentacin-de-mi-tema.html' title='Presentación de mi tema'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113103288343263769</id><published>2005-11-03T12:21:00.000-03:00</published><updated>2005-11-09T22:54:43.813-03:00</updated><title type='text'>Metodos en Linea</title><content type='html'>Un clasificador en linea para una categoría ci, es un vector&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/vectorclasificadorlineal.jpg"&gt;&lt;img style="margin: 0pt 10px 10px 0pt; float: left; cursor: pointer;" src="http://photos1.blogger.com/blogger/1013/1515/320/vectorclasificadorlineal.jpg" alt="" border="0" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;que pertenece al mismo espacio |T| dimensional en que están los documentos.&lt;br /&gt;&lt;br /&gt;Los métodos de aprendizaje para clasificadores lineales, se dividen en:&lt;br /&gt;&lt;br /&gt;&lt;ul&gt;   &lt;li&gt;&lt;span style="font-weight: bold;"&gt;Batch&lt;/span&gt;: donde se analiza todo el conjunto de entrenamiento para construir el clasificador, como con el método de Rocchio&lt;/li&gt; &lt;/ul&gt; &lt;ul&gt;   &lt;li&gt;&lt;span style="font-weight: bold;"&gt;Lineales o incrementales&lt;/span&gt;: donde se construye el clasificador al analizar el primero de los documentos, y se afina este clasificador a partir del análisis de los documentos siguientes.&lt;/li&gt; &lt;/ul&gt;&lt;br /&gt;El método lineal o incremental es recomendable cuando no se tienen todos los documentos de ejemplo en el momento; o bien, cuando el clasificador va cambiando efectivamente al transcurrir el tiempo o se espera retroalimentación de parte del usuario.&lt;br /&gt;&lt;br /&gt;Un método en línea simple, es el &lt;span style="font-weight: bold;"&gt;perceptrón,&lt;/span&gt; que es la red neuronal que está compuesta por un solo nodo.&lt;br /&gt;&lt;br /&gt;En los perceptrones, inicialmente todos los pesos para el clasificador ci son iguales y positivos. Al analizar un ejemplo, si el la clasificación resulta positiva, se incrementa el peso &lt;span style="font-weight: bold;"&gt;w&lt;/span&gt;&lt;span style="font-style: italic;"&gt;ki&lt;/span&gt; del nodo en un valor &lt;span style="font-weight: bold;"&gt;A &gt; 0&lt;/span&gt;; si por el contrario, la clasificación es negativa, se disminuye en un valor &lt;span style="font-weight: bold;"&gt;A &lt;&gt; 0.&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;El perceptrón es un caso de un algoritmo de &lt;span style="font-style: italic;"&gt;algoritmo aditivo&lt;/span&gt; (los pesos se modifican a partir de sumas positivas o negativas), pero también los existen de tipo &lt;span style="font-style:italic;"&gt;multiplicativo&lt;/span&gt; como G&lt;span style="font-weight:bold;"&gt;anador inmediato positivo&lt;/span&gt; (Positive Winnow), que es similar al perceptrón, pero en vez de sumar o restar un A, dependiendo si la clasificación es positiva o negativa respectivamente; multiplica por una &lt;span style="font-style:italic;"&gt;A &gt; 1&lt;/span&gt; para el caso positivo, y un &lt;span style="font-style:italic;"&gt;0 &lt; A &lt; 1&lt;/span&gt;, en caso contrario.&lt;br /&gt;&lt;br /&gt;Hay una variante a este clasificador, que es &lt;span style="font-weight:bold;"&gt;Ganador Balanceado&lt;/span&gt;. En él, se usan dos pesos para cada término, uno positivo y uno negativo (Balanced Winnow), pero el factor multiplicado es el la diferencia entre ambos.&lt;br /&gt;&lt;br /&gt;Los clasificadores en línea usan pivote tanto en la categoría como en el documento.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113103288343263769?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113103288343263769/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113103288343263769' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113103288343263769'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113103288343263769'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/11/metodos-en-linea.html' title='Metodos en Linea'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113046717993300690</id><published>2005-10-27T23:22:00.000-03:00</published><updated>2005-10-27T23:39:39.943-03:00</updated><title type='text'>Métodos de Regresión</title><content type='html'>Regresión se refiere a la aproximación del valor real de la función que determina la correcta clasificación del texto.&lt;br /&gt;&lt;br /&gt;Uno de estos métodos es LLSF: Linear Least-Square Fit. En él, existen dos vectores asociados a los documentos:&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-style:italic;"&gt;I(dj)&lt;/span&gt;, de largo |T|, y que representa a los términos&lt;br /&gt;- y &lt;span style="font-style:italic;"&gt;O(dj)&lt;/span&gt;, de largo |C|, y que representa a las categorías. Es de tipo binario para entrenamiento y no binario para prueba.&lt;br /&gt;&lt;br /&gt;Este procedimiento trata de determinar O(dj) dado I(dj), y construir una matriz &lt;span style="font-style:italic;"&gt;M&lt;span style="font-weight:bold;"&gt;&lt;/span&gt;&lt;/span&gt; con |C| filas y |T| columnas, tal que al hacer el producto cruz entre &lt;span style="font-style:italic;"&gt;M&lt;span style="font-weight:bold;"&gt;&lt;/span&gt;&lt;/span&gt; e I(dj) se encuentre O(dj).&lt;br /&gt;&lt;br /&gt;La matemática del método puede sonar complicada, pero no lo es: se calcula la matriz de los datos de entrenamiento calculando un “linear least-square fit” que minimice el error en la fórmula &lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/MetRegr_a_minimizar.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/MetRegr_a_minimizar.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;, donde minM(x)=M para el que x es mínimo &lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/MR_NormaFrobenius.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/MR_NormaFrobenius.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;representa la llamada norma de Frobenius para una matriz |C|x|T|, &lt;br /&gt;&lt;br /&gt;I es la matriz |T|x|Tr|, donde las columnas son los vectores de entrada para los documentos de entrenamiento; y O es la matriz |C|x|Tr|, donde las columnas son la salida de los vectores de entrenamiento. &lt;br /&gt;&lt;br /&gt;&lt;span style="font-style:italic;"&gt;M&lt;span style="font-weight:bold;"&gt;&lt;/span&gt;&lt;/span&gt; normalmente se calcula haciendo una descomposición valor singular en el conjunto de entrenamiento, y esta entrada genérica representa el grado de asociación entre la categoría ci y el término tk.&lt;br /&gt;&lt;br /&gt;LLSF es considerado uno de los más efectivos clasificadores de textos, pero tiene el serio problema del costo computacional.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113046717993300690?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113046717993300690/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113046717993300690' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113046717993300690'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113046717993300690'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/mtodos-de-regresin.html' title='Métodos de Regresión'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-113046571060868090</id><published>2005-10-27T23:05:00.000-03:00</published><updated>2005-10-27T23:15:10.620-03:00</updated><title type='text'>Clasificadores por reglas de decisión</title><content type='html'>Son clasificadores construidos a partir de métodos inductivos de reglas tipo condicional, donde los literales en la premisa denotan presencia o ausencia de una palabra clave; por ejemplo, si está la palabra fútbol, es probable que se trate de deportes.&lt;br /&gt;&lt;br /&gt;En tal sentido, tienden a ser similares a los árboles de decisión, pero además tienden a generar clasificadores más compactos.&lt;br /&gt;&lt;br /&gt;Inicialmente los documentos se expresan como un vector de términos n1,..., nx -&gt; C, donde C indica si pertenece o no a la categoría.&lt;br /&gt;&lt;br /&gt;A estas reglas, se les aplica un proceso de generalización donde la regla se modifica removiendo premisas o mezclándolas.&lt;br /&gt;&lt;br /&gt;Finalmente se podan con un criterio similar al de los árboles de decisión.&lt;br /&gt;&lt;br /&gt;Existe una amplia variedad de métodos, heurísticas y criterios empleados para la generalización y la poda.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-113046571060868090?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/113046571060868090/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=113046571060868090' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113046571060868090'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/113046571060868090'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/clasificadores-por-reglas-de-decisin.html' title='Clasificadores por reglas de decisión'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112975359733891566</id><published>2005-10-19T15:30:00.000-03:00</published><updated>2005-10-19T23:25:04.396-03:00</updated><title type='text'>Clasificadores simbólicos - Árboles de Decisión</title><content type='html'>Si bien puede ser fácil de implementar los clasificadores probabilísticos, son difíciles de interpretar por lo humanos.&lt;br /&gt;&lt;br /&gt;No es el caso de los &lt;span style="font-weight:bold;"&gt;Algoritmos Simbólicos&lt;/span&gt;, de los &lt;span style="font-weight:bold;"&gt;Aprendices Inductivos de Reglas&lt;/span&gt; y de los &lt;span style="font-weight:bold;"&gt;Árboles de Decisión&lt;/span&gt;; entre otros.&lt;br /&gt;&lt;br /&gt;El caso de los Árboles de Decisión, DT de sus siglas en Inglés (Decision Tree), tienen la facilidad que son representables esquemáticamente como un grafo, donde sus nodos internos están etiquetados por términos, sus hojas con pesos y sus hojas con categorías.&lt;br /&gt;&lt;br /&gt;Así, para encontrar la categoría de un documento, basándose en el vector que representa el documento, se navega recursivamente hasta una hoja.&lt;br /&gt;&lt;br /&gt;Hay paquetes estándar de aprendizaje de árboles de decisión. Los más populares son ID3, C4.5 y C5.&lt;br /&gt;&lt;br /&gt;Un método simple de aprendizaje para árboles de decisión es &lt;span style="font-style:italic;"&gt;Dividir para Conquistar&lt;/span&gt;. En este método,&lt;br /&gt; - Se revisan todos los ejemplos con igual etiqueta: los que pertenecen y los que no pertenecen a &lt;span style="font-style:italic;"&gt;ci&lt;/span&gt;.&lt;br /&gt; - Sino, se seleccionan aquellos términos que tengan igual término &lt;span style="font-style:italic;"&gt;tk&lt;/span&gt; y se colocan en un subárbol separado.&lt;br /&gt; - Se repite el proceso hasta que en la misma hoja queden todos los ejemplos de entrenamiento con igual categoría.&lt;br /&gt;&lt;br /&gt;Para saber qué término escoger, normalmente se usan criterios como &lt;span style="font-style:italic;"&gt;ganancia de la información&lt;/span&gt; o &lt;span style="font-style:italic;"&gt;entropía&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Además, normalmente se usa posteriormente un proceso de &lt;span style="font-style:italic;"&gt;poda&lt;/span&gt; para evitar el sobreajuste del árbol.&lt;br /&gt;&lt;br /&gt;Los árboles de decisión han sido usados normalmente como el proceso principal en las herramientas de clasificación de texto; aunque también se les suele encontrar como punto de partida o como parte de un comité de clasificación en otras herramientas.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112975359733891566?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112975359733891566/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112975359733891566' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112975359733891566'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112975359733891566'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/clasificadores-simblicos-rboles-de.html' title='Clasificadores simbólicos - Árboles de Decisión'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112973982813145776</id><published>2005-10-19T13:03:00.000-03:00</published><updated>2005-10-19T15:29:51.790-03:00</updated><title type='text'>Clasificadores Probabilísticos - Ingenuo de Bayes</title><content type='html'>El clasificador CVSi(&lt;span style="font-style:italic;"&gt;dj&lt;/span&gt;), es quizás el clasificador más utilizado y el que más frecuentemente se encuentra en la literatura. Este clasificador expresa la probabilidad de que un documento, representado por el vector &lt;span style="font-style:italic;"&gt;dj&lt;/span&gt; cualquiera, pertenezca a una clase &lt;span style="font-style:italic;"&gt;ci&lt;/span&gt; dada. De forma matemática, se puede ver de la siguiente manera:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/CVSi.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/CVSi.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;donde el espacio de eventos es el de los documentos, P(&lt;span style="font-style:italic;"&gt;dj&lt;/span&gt;) es la probabilidad de escoger aleatoriamente un documento este esté representado por el vector d(&lt;span style="font-style:italic;"&gt;j&lt;/span&gt;); y P(&lt;span style="font-style:italic;"&gt;ci&lt;/span&gt;) es la probabilidad de que al tomar un documento cualquiera este pertenezca a la clase &lt;span style="font-style:italic;"&gt;ci&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Estimar la probabilidad anterior no es fácil por lo complejo de &lt;span style="font-style:italic;"&gt;dj&lt;/span&gt;; por lo que normalmente se asume que las variables que componen el documento vector son independientes; por lo que se puede representar la probabilidad anterior como:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/CVSiIndependiente.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/CVSiIndependiente.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;Dada esta suposición, es lo que se conoce como &lt;span style="font-weight:bold;"&gt;Ingenuo de Bayes&lt;/span&gt; (Naive Bayes), y por su simplicidad y rendimiento, es ampliamente utilizado en Categorización de Textos.&lt;br /&gt;&lt;br /&gt;De todas las aproximaciones del Ingenuo de Bayes, la más común es la&lt;span style="font-style:italic;"&gt; Independencia Binaria&lt;/span&gt;, donde se usan valores binarios para la representación del documento en el vector; pero se pueden encontrar otras variaciones que apuntan a:&lt;br /&gt; - Relajar la restricción que el vector documento tenga valores binarios&lt;br /&gt; - Introducir normalización en el largo del documento&lt;br /&gt; - Relajar la suposición de independencia&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112973982813145776?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112973982813145776/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112973982813145776' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112973982813145776'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112973982813145776'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/clasificadores-probabilsticos-ingenuo.html' title='Clasificadores Probabilísticos - Ingenuo de Bayes'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112964600756320073</id><published>2005-10-18T10:09:00.000-03:00</published><updated>2005-10-18T11:39:26.423-03:00</updated><title type='text'>Construcción Inductiva de Clasificadores de Texto</title><content type='html'>&lt;a href="http://legutier.blogspot.com/2005/09/categorizacin-dura-y-graduada.html"&gt;Como se vió&lt;/a&gt;, existen dos formas de clasificar texto: una manera dura, donde se toma una decisión booleana respecto a la pertenencia o no del texto a una determinada categoría; o una graduada, donde se estima una probabilidad de pertenencia.&lt;br /&gt;&lt;br /&gt;De manera similar, hay dos formas de crear los clasificadores: una manera &lt;span style="font-weight:bold;"&gt;dura o automatizada&lt;/span&gt;, donde se deja la responsabilidad completa de la clasificación del texto al clasificador; y una &lt;span style="font-weight:bold;"&gt;parcialmente automatizada&lt;/span&gt;, donde el clasificador entrega una &lt;span style="font-style:italic;"&gt;"proximidad a la clase"&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;En el caso de la clasificación dura, se define una función CVSi que determina si pertenece  o no a la categoría (D-&gt;{V, F}). Esta función D, es en realidad una función que entrega un valor entre 0 y 1, y se define un valor umbral por sobre el cual la respuesta de D es considerada verdadera y falsa en otro caso.&lt;br /&gt;&lt;br /&gt;El caso de la clasificación parcialmente automatizada es similar desde el punto de vista que también define una función CVSi que entrega un valor entre 0 y 1, pero que en este caso indica la proximidad a una clase; y así como funciona para clasificación con pivote en el documento, funciona para clasificación con pivote en la categoría.&lt;br /&gt;&lt;br /&gt;Además, la función CVSi toma distintos significados dependiendo del método de aprendizaje utilizado. Así, para el Ingenuo de Bayes indica probabilidad; en cambio para Roccio, es una medida de proximidad en el espacio |T|-dimensional.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Determinación de Umbrales&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;Se distinguen dos caminos para la determinación de umbrales: analítica y experimental.&lt;br /&gt;&lt;br /&gt;El caso de la determinación &lt;span style="font-weight:bold;"&gt;analítica&lt;/span&gt;, sólo es posible cuando hay un resultado teórico que indique cómo calcular el umbral que maximice el valor esperado para la función efectividad. Normalmente se utiliza con funciones cuya salida sea una probabilidad y cuya efectividad sea calculada por una medida de decisión teórica, como la utilidad .&lt;br /&gt;&lt;br /&gt;Pero este análisis no siempre es posible. Para estos casos la determinación del umbral es en forma &lt;span style="font-weight:bold;"&gt;experimental&lt;/span&gt;, para lo que existen varias alternativas.&lt;br /&gt;&lt;br /&gt;- Una manera es &lt;span style="font-weight:bold;"&gt;Scut&lt;/span&gt;, donde se prueban distintos umbrales y se escoge el que maximice la efectividad. Lo normal es que para esta forma de determinación se seleccionen distintos umbrales para distintas categorías.&lt;br /&gt;&lt;br /&gt;- Una segunda alternativa es &lt;span style="font-weight:bold;"&gt;Pcut&lt;/span&gt;, donde se establece en aquel valor donde la generalidad del conjunto de validación es cercano a la generalidad del conjunto de prueba. Esta forma de determinar el umbral incorpora el principio que el porcentaje de documentos que pertenece a una determinada clase debiera mantenerse en el conjunto de entrenamiento que en el de prueba. Este método no se usa para clasificación con pivote en el documento.&lt;br /&gt;&lt;br /&gt;- Una tercera forma, algo menos común, es el de &lt;span style="font-weight:bold;"&gt;umbral reparado, Rcut o umbral "k-per-doc"&lt;/span&gt;; donde una cantidad &lt;span style="font-weight:bold;"&gt;k&lt;/span&gt; de categorías es asignada a cada documento, aunque el umbral no está aplicado en el sentido anterior, pero se usa con pivote en el documento, y no permite una sintonía fina.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112964600756320073?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112964600756320073/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112964600756320073' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112964600756320073'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112964600756320073'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/construccin-inductiva-de.html' title='Construcción Inductiva de Clasificadores de Texto'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112864990886059808</id><published>2005-10-06T21:29:00.000-04:00</published><updated>2005-10-17T23:36:58.553-03:00</updated><title type='text'>Reducción de la dimensionalidad</title><content type='html'>Se denomina &lt;span style="font-weight:bold;"&gt;Reducción de la Dimensionalidad&lt;/span&gt; a disminuir el tamaño del vector que contiene los términos representativos de un documento.&lt;br /&gt;&lt;br /&gt;La razón de querer disminuirlo es que los algoritmos más sofisticados de inducción tienen problemas para manejar vectores de gran tamaño, por eso se reduce |T|&lt;&lt;|T'|&lt;br /&gt;&lt;br /&gt;Además, el reducir la dimensionalidad entrega la ventaja que disminuye el &lt;span style="font-weight:bold;"&gt;sobre ajuste&lt;/span&gt;, que es el fenómeno en el que el clasificador aprende las características contingentes y no sólo las constitutivas del documento.&lt;br /&gt;&lt;br /&gt;Si bien hay muchas cifras respecto de cuánto debe ser esta reducción de dimensionalidad, llegando incluso algunos autores a proponer un 50%; la verdad es que una cifra así o superior puede llegar a ser perjudicial porque se puede llegar a eliminar términos con significado para el documento.&lt;br /&gt;&lt;br /&gt;Respecto de los métodos de reducción, hay varios propuestos; la mayoría de ellos provienen del álgebra lineal o de la teoría de la información.&lt;br /&gt;&lt;br /&gt;La Reducción de la Dimensionalidad puede ser vista desde dos puntos de vista:&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;De modo Local:&lt;/span&gt; esto es, para cada categoría, es escoge |T'|&lt;&lt;|T| para la clasificación de la categoría (vale decir, cada categoría tendrá su propio conjunto de términos para ser evaluado). Normalmente, el valor de |T'| va de 0 a 50 términos... aunque intuitivamente se trata de cantidades empíricas.&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;De modo Global: &lt;/span&gt;vale decir, el mismo conjunto de términos será utilizado para evaluar la clasificación en todas las categorías.&lt;br /&gt;&lt;br /&gt;[Sebastiani 2002] nos dice que ambas formas han impactado en el resultado final, pero no se ha notado cambio cuando se trata de aprendizaje supervisado.&lt;br /&gt;&lt;br /&gt;Respecto de cómo escoger los términos, también se ha encontrado dos formas:&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;Reducción de Dimensionalidad por Selección:&lt;/span&gt; de los términos disponibles, se escogen los más representativos.&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;Reducción de Dimensionalidad por Extracción:&lt;/span&gt; Los términos en T' no son los mismos que en T; por ejemplo, T' puede contener sólo palabras y T no sólo eso; pero son obtenidos por combinación o transformación de las originales.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Reducción de la dimensionalidad por &lt;span style="font-style:italic;"&gt;Selección de Términos&lt;br /&gt;&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;También se le llama Reducción de Dimensionalidad por Espacio de Términos (TSR - Term Space Reduction).&lt;br /&gt;&lt;br /&gt;La idea básica es que, dado un conjunto de términos T, seleccionar un subconjuto T', con |T|&lt;&lt;|T'|; con el que se indexan los documentos.&lt;br /&gt;&lt;br /&gt;El TSR, ha mostrado mejorar la efectividad de la clasificación menor de un 5% dependiendo del clasificador, la agresividad de la reducción y la técnica TSR utilizada.&lt;br /&gt;&lt;br /&gt;Dentro de las técnicas, una que debe llamar la atención es aquella llamada &lt;span style="font-weight:bold;"&gt;wrapper&lt;/span&gt;, que agrega y quita términos del conjunto T' inicial, para luego generar el clasificador. Una vez realizadas varias iteraciones, se selecciona aquel conjunto que presente mejores resultados. Si bien esta técnica parece ser buena, dado que a medida que &lt;span style="font-style:italic;"&gt;aprende&lt;/span&gt; se &lt;span style="font-style:italic;"&gt;afina&lt;/span&gt;, es prohibitiva en la mayoría de las aplicaciones de categorización de textos comunes dado el &lt;span style="font-style:italic;"&gt;tamaño del espacio&lt;/span&gt; que requiere.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Frecuencia Documental&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Esta es una sencilla técnica, aunque muy efectiva, donde se escogen aquellos términos que presentan mayor ocurrencia en los documentos.&lt;br /&gt;&lt;br /&gt;Se ha demostrado (Sebastiani, 2002) que se puede disminuir la dimensionalidad del conjunto T hasta en un factor de 10 sin pérdida de información; y hasta en 100 con una pérdida de información despreciable.&lt;br /&gt;&lt;br /&gt;Previo a la selección de los términos, y en un detalle no menor, se eliminan aquellos términos que, aportando a la redacción, no aportan información, como adverbios y preposiciones. El listado de estas palabras es almacenado en un conjunto denominado &lt;span style="font-weight:bold;"&gt;Stop Words&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;A esta lista, hay quienes eliminan además aquellos términos que aparecen en un conjunto muy reducido de documentos, los que varían de 1 a 5.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Otras funciones de Teoría de Información&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Nuevamente la Teoría de Información aporta a la categorización de textos; en este caso, a la reducción del espacio de términos.&lt;br /&gt;&lt;br /&gt;Adjunto vemos un listado de las más conocidas sin perjuicio que se pueda encontrar alguna más.&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/OtrasFuncionesReduccionDimensionalidad.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/OtrasFuncionesReduccionDimensionalidad.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Las probabilidades son interpretadas en un espacio de eventos para los documentos, y son estimadas contando las ocurrencias en el conjunto de entrenamiento.&lt;br /&gt;&lt;br /&gt;Todas las funciones son especificadas localmente a una categoría específica ci, con el objeto de calcular el calor para el término tk en un sentido “global”independiente de la categoría.&lt;br /&gt;&lt;br /&gt;Lo que intentan capturar es la intuición que los mejores términos para ci son aquellos distribuidos más diferentemente en el conjunto de ejemplos positivos y negativos para ci. De este modo, las interpretaciones para este principio varían a través de las diferentes funciones.&lt;br /&gt;&lt;br /&gt;La mayoría de las funciones de la tabla han mejorado con &lt;span style="font-style:italic;"&gt;frecuencia de documentos&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Colectivamente, los experimentos reportados indican que en cuanto a performance que el Coeficiente NGL, Tasa impar y Coeficiente GSS, son mejores que Xi Cuadrado y Ganancia de Información; y estos, a su vez, son mejores que el resto de los restantes presentes en la tabla.&lt;br /&gt;&lt;br /&gt;Una observación interesante que nos muestra [Sebastiani, 2002], es que Xi cuadrado y ganancia de información, han podido, con distintos corpus, reducir la dimensionalidad en un factor de 100 sin pérdida de efectividad.&lt;br /&gt;&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Reducción de la dimensionalidad por &lt;span style="font-style:italic;"&gt;Reducción de Términos&lt;/span&gt;&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;El objetivo es similar a la por selección de términos, vale decir, a partir de T, generar un T' donde |T'|&lt;&lt;|T|.&lt;br /&gt;&lt;br /&gt;La diferencia está en que busca el aumento de la efectividad en la existencia de palabras polisémicas, hominómicas y sinonímicas.&lt;br /&gt;&lt;br /&gt;Se llama polisemia a la capacidad que tiene una sola palabra para expresar muy distintos significados. Al igual que la homonimia, en el caso de la polisemia se asignan varios significados a un solo significante. Pero, mientras la homonimia se produce por coincidencia de los significantes de diversos signos, la polisemia se debe a la extensión del significado de un solo significante. (Fuente: Wikipedia.org)&lt;br /&gt;&lt;br /&gt;El método, cualquiera que este sea, se basa en:&lt;br /&gt;  - Un método de extracción de nuevos términos a partir de los viejos&lt;br /&gt;  - Un método de transformación de la representación original a la nueva basado en la nueva síntesis.&lt;br /&gt;&lt;br /&gt;Don métodos se han probado en Categorización de Textos: Agrupación de Texto (Text Clustering) y Indexación Semántica Latente (Latent Semantic Indexing – LSI).&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Agrupación de Textos&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Trata de agrupar palabras con alto grado de semejanza (centroide o término representativo) para ser usado como término en la dimensión del espacio vector. Trata de hallar sinonimia.&lt;br /&gt;&lt;br /&gt;El clustering puede ser &lt;span style="font-style:italic;"&gt;no supervisado:&lt;/span&gt;&lt;br /&gt;  i)Buscar términos semejantes por alguna medida de similaridad&lt;br /&gt;  ii)Buscar co-ocurrencia o co-ausencia en los documentos de entrenamiento&lt;br /&gt;&lt;br /&gt;&lt;span style="font-style:italic;"&gt;o supervisado:&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Se agrupan aquellos términos que tienden a estar presentes en la misma categoría o grupo de categorías.&lt;br /&gt;&lt;br /&gt;El supervisado ha presentado mejores resultados con sólo un 2% de pérdida de la efectividad con una agresividad de 1000 y mejoras al bajar la agresividad.&lt;br /&gt;&lt;br /&gt;Los resultados con no supervisados son pobres.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Indexación Semántica Latente&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Originalmente fue desarrollado para Recuperación de la Información para resolver problema de uso de sinónimos, términos similares y palabras polisémicas en representación de documentos.&lt;br /&gt;&lt;br /&gt;Comprime vectores de documentos en vectores de menor espacio  dimensional, cuyas dimensiones son obtenidas como combinación de las dimensiones originales mirando sus patrones de co-ocurrencia.&lt;br /&gt;&lt;br /&gt;Las dimensiones obtenidas no son intuitivamente interpretables, pero trabajan bien trayendo la estructura semántica latente del vocabulario usado en el corpus.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112864990886059808?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112864990886059808/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112864990886059808' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112864990886059808'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112864990886059808'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/reduccin-de-la-dimensionalidad.html' title='Reducción de la dimensionalidad'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112629408504093189</id><published>2005-10-04T17:30:00.000-04:00</published><updated>2005-10-06T15:47:20.190-04:00</updated><title type='text'>Representación de Documentos</title><content type='html'>Existen varias aproximaciones a la representación de la información (Hearst and Hirsh 1996):&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;Bag of Words&lt;/span&gt;: cada palabra constituye una posición de un vector y el valor corresponde con el nº de veces que ha aparecido.&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;N-gramas o frases&lt;/span&gt;: permite tener en cuenta el orden de las palabras. Trata mejor frases negativas “... excepto ...”, “... pero no...”, que tomarían en otro caso las palabras que le siguen como relevantes.&lt;br /&gt;&lt;br /&gt;- &lt;span style="font-weight:bold;"&gt;Representación relacional (primer orden)&lt;/span&gt;: permite detectar patrones más complejos (si la palabra X está a la izquierda de la palabra Y en la misma frase...).&lt;br /&gt;&lt;br /&gt;Sea cual sea la representación a utilizar, es necesario indexar el documento, vale decir, representaciones compactas de él. El tipo de indexación dependerá de cual represente mejor las unidades de texto (semántica léxica) y las reglas del lenguaje natural (semántivca composicional).&lt;br /&gt;&lt;br /&gt;Normalmente se utiliza para la representación un vector de pesos de los términos, &lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/vectordocumento.jpg"&gt;&lt;img style="cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/vectordocumento.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;donde cada posición representa una característica del documento y contiene el peso que en el documento específico se asigna a la característica. Este peso viene dado por un valor normalmente entre 0 y 1. &lt;span style="font-style:italic;"&gt;T&lt;/span&gt; representa el conjunto de características que está presente al menos una vez en el documento.&lt;br /&gt;&lt;br /&gt;Los términos normalmente son palabras, en cuyo caso estamos ante un &lt;span style="font-style:italic;"&gt;bag of words&lt;/span&gt;, pero también podría ser algo más complejo como se vió arriba. Del mismo modo, el peso puede ser binario, el término está o no presente; o un valor entre 0 y 1, para representar, por ejemplo, el peso relativo de la palabra en el documento. Todo depende del algoritmo usado.&lt;br /&gt;&lt;br /&gt;La verdad es que, por ejemplo en [Sebastiani 2002], hay numerosa literatura que habla de que representaciones más complejas que &lt;span style="font-style:italic;"&gt;bag of words&lt;/span&gt;; como podrían ser frases, tanto sintácticas (de acuerdo a la gramática del idioma) como estadísticas (que no es gramatical, sólo una secuencia de palabras), no han demostrado ser más efectivas. Esto dado que las frases, si bien tienen mejores características semánticas, tienen menores características estadísticas que las palabras solas, por la existencia de sinónimos, entre otros &lt;a href="http://legutier.blogspot.com/2005/09/el-problema-del-vocabulario-y-su.html"&gt;problemas del lenguaje&lt;/a&gt;, y la menor frecuencia en los documentos. [Sebastiani et al.] también aclaran que una mezcla de frases y palabras sueltas da mejor resultado, aunque esto es objeto aún de estudio.&lt;br /&gt;&lt;br /&gt;Cuando se trata de pesos no binarios, normalmente se calcula una frecuencia de aparición del término en el documento. La ecuación de abajo es el ejemplo más común de estas ecuaciones:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/FrecuenciaDeUnTermino.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/FrecuenciaDeUnTermino.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;donde Card() representa la cantidad de veces que el término aparece en el documento.&lt;br /&gt;&lt;br /&gt;Esta ecuación muestra que:&lt;br /&gt;- a mayor ocurrencia del término en el documento, es más representativo del contenido&lt;br /&gt;- mientras mayor sea la cantidad de documentos que contengan el término, éste es menos discriminador.&lt;br /&gt;- al igual que muchas otras ecuaciones equivalentes, el orden de aparición del término ni la sintaxis de él, no reviste importancia.&lt;br /&gt;&lt;br /&gt;Para que los pesos pertenezcan al rango entre 0 y 1, normalmente son normalizados por el coseno de normalización:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/NormalizacionPorCosenoDeNormalizacion.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/NormalizacionPorCosenoDeNormalizacion.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Existen otras técnicas de indexación, como probabilísticas o documentación estructurada, necesarias, por ejemplo, cuando Tr no está disponible y la cardinalidad del término no se puede calcular.&lt;br /&gt;&lt;br /&gt;Antes de indexar, se eliminan las palabras neutras, aunque es controversial respecto de la procedencia (stemming), vale decir, agrupar palabras que comparten la misma raíz morfológica; dado que se han reportado casos donde ha sido perjudicial a la efectividad.&lt;br /&gt;&lt;br /&gt;Dependiendo de la aplicación, se indexa todo el texto o sólo parte de él, como con los documentos estructurados.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;La aproximación de indexación Darmstadt&lt;br /&gt;&lt;/span&gt;&lt;br /&gt;El proyecto AIR (AIR/X) es uno de los más importantes esfuerzos en Categorización de Textos. Duró más de 10 años y desde 1985 es usado en clasificación de literatura científica, y cuenta  del orden de O(105) documentos, agrupados en el orden de O(104) categorías.&lt;br /&gt;&lt;br /&gt;La indexación utilizada en ese proyecto fue DIA (Darmstad Indexing Approach), que usa un vocabulario controlado pero ampliado con características o propiedades para los términos, documentos, categorías y relaciones entre estos. Por ejemplo:&lt;br /&gt;&lt;br /&gt;- Propiedades de un término tk: por ejemplo, idf para tk&lt;br /&gt;&lt;br /&gt;- Propiedades de una relación entre un término tk y un documento dj: por ejemplo, el tf para tk en dj; o la ubicación (título, resumen, etc.) de tk en dj.&lt;br /&gt;&lt;br /&gt;- Propiedades para un documento dj: por ejemplo, el largo del documento.&lt;br /&gt;&lt;br /&gt;- Propiedades de una categoría ci: por ejemplo, la generalidad para el conjunto de prueba de la categoría&lt;br /&gt;&lt;br /&gt;Para cada posible relación documento-categoría, existe un “vector descriptor de relevancia” rd(dj, ci) que reúne las características de la relación. El tamaño de este vector es determinado por el número de propiedades consideradas y es independiente de la cantidad de términos, categorías o documentos.&lt;br /&gt;&lt;br /&gt;La relación entre término y categoría se obtiene del conjunto de entrenamiento y se expresa como una probabilidad P(ci|tk) de que el documento pertenezca a la categoría ci (DIA association factor)&lt;br /&gt;&lt;br /&gt;Esta indexación no ha sido usada para otras investigaciones, pero cobra y aumenta importancia en indexación de documentos estructurados y páginas web.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112629408504093189?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112629408504093189/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112629408504093189' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112629408504093189'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112629408504093189'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/representacin-de-documentos.html' title='Representación de Documentos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112839929978666904</id><published>2005-10-03T23:12:00.000-04:00</published><updated>2005-10-04T00:14:59.793-04:00</updated><title type='text'>Los conjuntos de entrenamiento, prueba y validación</title><content type='html'>Como ya se ha dicho, la categorización de texto basada en aprendizaje necesita ejemplos para deducir las reglas de clasificación.&lt;br /&gt;&lt;br /&gt;Normalmente, se recolectan ejemplos de textos correctamente clasificados, normalmente tarea realizada por expertos humanos; los que se agrupan para servir de entrada al clasificador.&lt;br /&gt;&lt;br /&gt;A estos ejemplos recolectados se les denomina generalmente &lt;span style="font-style:italic;"&gt;el corpus inicial&lt;/span&gt;; y está definido como el conjunto O={d1,...,dn} contenidos en D preclasificados en C={c1,..., c|C|}, donde C es el conjunto de categorías existentes y D el conjunto de documentos.&lt;br /&gt;&lt;br /&gt;A este conjunto inicial de documentos, o corpus inicial, se puede dividir de diferentes formas. Lo más normal es dividir en &lt;span style="font-weight:bold;"&gt;Entrenamiento y Prueba&lt;/span&gt;, donde el conjunto de entrenamiento sirve para educar al clasificador, y el de prueba para medir la efectividad conseguida. Estos conjuntos son disjuntos. Luego de probarlo, algún parámetro se moverá de modo de mejorar la efectividad del clasificador. Para ello se tiene reservado una parte del conjunto de entrenamiento no utilizado antes, que permite observar el resultado de este &lt;span style="font-style:italic;"&gt;tunning o sintonización&lt;/span&gt; sobre los parámetros.&lt;br /&gt;&lt;br /&gt;Otra manera es la&lt;span style="font-weight:bold;"&gt; Validación Cruzada&lt;/span&gt;. En esta variante, también conocida como &lt;span style="font-style:italic;"&gt;k-fold cross validation&lt;/span&gt;; el conjunto de ejemplos conseguidos se divide en k conjuntos disjuntos, con los que iterativamente se van generando conjuntos de entrenamiento y prueba. Como el resultado será una serie de clasificadores menores, la efectidad final del clasificador está dada por el promedio de los clasificadores individuales. Al igual que el anterior, se reserva un conjunto para sintonización de los parámetros.&lt;br /&gt;&lt;br /&gt;Se definirá &lt;span style="font-weight:bold;"&gt;Generalidad&lt;/span&gt; como el porcentaje de documentos del conjunto de entrenamiento que pertenecen a una categoría, de la forma como la define la siguiente fórmula:&lt;br /&gt;&lt;br /&gt;&lt;a onblur="try {parent.deselectBloggerImageGracefully();} catch(e) {}" href="http://photos1.blogger.com/blogger/1013/1515/1600/generalidad.jpg"&gt;&lt;img style="float:left; margin:0 10px 10px 0;cursor:pointer; cursor:hand;" src="http://photos1.blogger.com/blogger/1013/1515/320/generalidad.jpg" border="0" alt="" /&gt;&lt;/a&gt;&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112839929978666904?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112839929978666904/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112839929978666904' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112839929978666904'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112839929978666904'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/10/los-conjuntos-de-entrenamiento-prueba.html' title='Los conjuntos de entrenamiento, prueba y validación'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112689146206786347</id><published>2005-09-16T12:52:00.001-04:00</published><updated>2005-09-16T13:24:22.073-04:00</updated><title type='text'>Máquinas de aprendizaje y Conocimiento Ingenieril</title><content type='html'>En la década de 1980, los clasificadores que existían eran producto de la construcción hecha por expertos en forma manual mediante el uso de reglas lógicas; del tipo si &lt;fórmula DNF&gt; entonces &lt;categoría&gt;. (DFN: Disjuntive Normal Form). A estos clasificadores se les calificó como de &lt;span style="font-weight:bold;"&gt;Conocimiento Ingenieril&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Ejemplo de esto es Contrue, un clasificador que se aplicó sobre un conjunto de entrenamiento de Reuter.&lt;br /&gt;&lt;br /&gt;El inconveniente de esta forma de construir clasificadores es conseguir el conocimiento: se debe hacer manualmente por ingenieros con conocimientos y ayuda de expertos en el área y categoría, y si las categorías son actualizadas, el trabajo debe rehacerse, buscando nuevos expertos para las nuevas categorías.&lt;br /&gt;&lt;br /&gt;Aunque se informó de un 90% de efectividad para Construe, [Sebastiani et al.] advierte que no hay otros sistemas probados con igual conjunto de datos, y no se sabe si fueron tomados aleatoriamente o escogidos.&lt;br /&gt;&lt;br /&gt;Las &lt;span style="font-weight:bold;"&gt;Máquinas de Aprendizaje&lt;/span&gt; han sido las dominantes desde la década de 1990 en adelante. Acá, se construye un clasificador por un proceso inductivo que corre sobre documentos ya clasificados manualmente, de los que se deducen las características relevantes. Es un proceso de aprendizaje supervisado.&lt;br /&gt;&lt;br /&gt;Las ventajas de Máquinas de Aprendizaje sobre Conocimiento Ingenieril, son claras: ahorro de esfuerzo en construir el clasificador; lo que permite ahorro en la actualización de categorías o si el clasificador se porta a otro ambiente.&lt;br /&gt;&lt;br /&gt;Para el uso de Máquinas de Aprendizaje, la clave son los documentos ya clasificados: es más fácil clasificar un conjunto de documentos que construir y afinar un conjunto de reglas de clasificación.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112689146206786347?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112689146206786347/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112689146206786347' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112689146206786347'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112689146206786347'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/mquinas-de-aprendizaje-y-conocimiento.html' title='Máquinas de aprendizaje y Conocimiento Ingenieril'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112689133354299097</id><published>2005-09-16T12:52:00.000-04:00</published><updated>2005-09-16T13:22:13.546-04:00</updated><title type='text'></title><content type='html'>&lt;span style="font-weight:bold;"&gt;&lt;br /&gt;Las máquinas de aprendizaje como aproximación a la categorización de textos&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;En la década de 1980, los clasificadores que existían eran producto de la construcción hecha por expertos en forma manual mediante el uso de reglas lógicas; del tipo si &lt;fórmula DNF&gt; entonces &lt;categoría&gt;. (DFN: Disjuntive Normal Form)&lt;br /&gt;&lt;br /&gt;Ejemplo de esto es Contrue, un clasificador que se aplicó sobre un conjunto de entrenamiento de Reuter.&lt;br /&gt;&lt;br /&gt;El inconveniente de esta forma de construir clasificadores es conseguir el conocimiento: se debe hacer manualmente por ingenieros con conocimientos y ayuda de expertos en el área y categoría, y si las categorías son actualizadas, el trabajo debe rehacerse, buscando nuevos expertos para las nuevas categorías.&lt;br /&gt;&lt;br /&gt;Aunque se informó de un 90% de efectividad para Construe, [Sebastiani et al.] advierte que no hay otros sistemas probados con igual conjunto de datos, y no se sabe si fueron tomados aleatoriamente o escogidos.&lt;br /&gt;&lt;br /&gt;Las Máquinas de Aprendizaje han sido las dominantes desde la década de 1990 en adelante. Acá, se construye un clasificador por un proceso inductivo que corre sobre documentos ya clasificados manualmente, de los que se deducen las características relevantes. Es un proceso de aprendizaje supervisado.&lt;br /&gt;&lt;br /&gt;Las ventajas de Máquinas de Aprendizaje sobre Conocimiento Ingenieril, son claras: ahorro de esfuerzo en construir el clasificador; lo que permite ahorro en la actualización de categorías o si el clasificador se porta a otro ambiente.&lt;br /&gt;&lt;br /&gt;Para el uso de Máquinas de Aprendizaje, la clave son los documentos ya clasificados: es más fácil clasificar un conjunto de documentos que construir y afinar un conjunto de reglas de clasificación.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112689133354299097?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112689133354299097/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112689133354299097' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112689133354299097'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112689133354299097'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/las-mquinas-de-aprendizaje-como.html' title=''/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112688798538652081</id><published>2005-09-16T12:04:00.000-04:00</published><updated>2005-09-16T12:52:02.676-04:00</updated><title type='text'>Aplicaciones de la categorización de textos</title><content type='html'>La verdad es que la aplicabilidad de la Categorización de Textos es mucha. Aunque es difícil encontrarla en forma pura. La mayor parte de las veces se confunde o mezcla con otras como recuperación de textos o reconocimiento del habla.&lt;br /&gt;[Sebastiani, 2002] habla de que los primeros trabajos se remontan al año 1961 con las investigaciones de Maron, y hace un resumen de las principales aplicaciones, las que se resumen a continuación:&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;&lt;br /&gt;Indexación automática para sistemas booleanos de recuperación de información&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Los sistemas de Recuperación de la Información (Information Retrieval - IR) es el conjunto de sistemas encargados de revisar documentos y generar índices a partir de su contenido, normalmente, para facilitar la posterior navegación. Buscadores como Google, Yahoo, Altavista, entre otros; son ejemplos de sistemas que utilizan, entre otros, IR.&lt;br /&gt;&lt;br /&gt;La Categorización de Textos en esta aplicación está basada en un conjunto controlado de términos y frases claves, llamado diccionario. Es lo más común en el ambiente de la categorización de textos y pretende asignar a cada documento palabras o frases que lo describen.&lt;br /&gt;&lt;br /&gt;El diccionario es normalmente creado por un humano, lo que hace que esta aplicación sea cara.&lt;br /&gt;&lt;br /&gt;Este vocabulario controlado son las categorías, y la indexación del texto es la aplicación de Categorización de Textos.&lt;br /&gt;&lt;br /&gt;Para esta aplicación, probablemente usar el pivote en el documento sea la mejor opción.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Organización de Documentos&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;La aplicación anterior es un caso particular de esta, donde para la organización de documentos, las categorías son propias de la persona u organización que ordena los documentos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Filtrado de Textos&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;El filtrado de textos es la actividad de, dado un flujo de documentos entrantes por vía asincrónica de un productor a un consumidor de información, por ejemplo un emisor de noticias, clasificarlos por intereses del lector.&lt;br /&gt;&lt;br /&gt;Este es un caso de etiquetado simple, aunque adicionalmente podría realizar clasificación dentro de las categorías de interés.&lt;br /&gt;&lt;br /&gt;Funcionan en el productor, por ejemplo, podría servir para despachar sólo las noticias que son de interés del usuario basado en un perfil para cada uno.&lt;br /&gt;&lt;br /&gt;El perfil puede crearse inicialmente por el usuario y actualizarse con la clasificación que éste haga de lo recibido, lo que es conocido como adaptative filtering.&lt;br /&gt;&lt;br /&gt;Cuando no hay un perfil inicial dado por el usuario, se llama routing si se le asigna una clasificación de interés; o  batch filtering, si sólo se acepta o rechaza.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Des ambigüedad del sentido de la palabra&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;Dada la ocurrencia de una palabra ambigua en un texto, se trata de encontrar su sentido.&lt;br /&gt;&lt;br /&gt;Es importante para procesamiento de lenguaje natural e indexación de documentos por sentido (no por Information Retrieval).&lt;br /&gt;&lt;br /&gt;Es una aplicación de etiquetado simple y es usual que tenga pivote en el documento.&lt;br /&gt;&lt;br /&gt;Ejemplos interesantes de uso, y que están contenidos dentro de los problemas de lingüística computacional; son la corrección ortográfica sensible al contexto, las sugerencias de redacción y la selección de palabras en las traducciones.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;&lt;br /&gt;Categorización Jerárquica de páginas Web&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;El objetivo de esta categorización es facilitar la navegación por la Web al agrupar, por categorías jerárquicas, en los motores de búsqueda.&lt;br /&gt;&lt;br /&gt;Hacerlo en forma automática tiene la obvia ventaja de la movilidad de las categorías.&lt;br /&gt;&lt;br /&gt;Sus peculariedades son:&lt;br /&gt;- La naturaleza hiper textual de los documentos, por lo que la clasificación varía respecto de lo interesante de las páginas referenciadas.&lt;br /&gt;- La estructura jerárquica del conjunto de categorías, usado para descomponer la clasificación en problemas de clasificación más pequeños.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112688798538652081?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112688798538652081/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112688798538652081' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112688798538652081'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112688798538652081'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/aplicaciones-de-la-categorizacin-de.html' title='Aplicaciones de la categorización de textos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112681238525243064</id><published>2005-09-15T13:29:00.000-04:00</published><updated>2006-03-10T10:26:00.043-03:00</updated><title type='text'>El problema del vocabulario y su ambigüedad</title><content type='html'>El problema del vocabulario y la ambigüedad, dentro de la categorización de textos, requiere especial atención.&lt;br /&gt;&lt;br /&gt;Se ha observado que las personas, sobre todo cuando se refieren a objetos que no están dentro de su ámbito de trabajo habitual, para referirse a un mismo objeto, usan una gran cantidad de términos distintos.&lt;br /&gt;&lt;br /&gt;[Furnas, Landauer, Gomez, Dumais, 1999] acotan que si las personas llamaran las cosas de igual manera, esas palabras se podrían usar por los diseñadores para crear los sistemas. Se refieren a esto en el contexto del problema de los comandos de acceso (command naming) utilizado para obtener información de bibliotecas o realizar consultas a bases de datos.&lt;br /&gt;&lt;br /&gt;[Furnas et al.] nos indican que si estas palabras, si son bien escogidas, puden cubrir buena parte de las alternativas que usan los usuarios. Para ello, se basan en simulaciones y experimentación directa de varias alternativas con índices ampliados probabilísticamente o listas de alias aumentan el éxito en un factor de 3 a 5.&lt;br /&gt;&lt;br /&gt;En Categorización de Textos ocurre algo similar en el sentido que los documentos son escritos por personas; personas que usan multitud de términos para referirse a lo mismo... o igualmente complicado, usan el mismo término para referirse a cosas absolutamente diferentes.&lt;br /&gt;&lt;br /&gt;En específico, el problema de los sinónimos (palabras que tienen igual significado, pero se escriben de forma distinta), quasi-sinonimia (sin ser exactamente sinónimos, bajo ciertas circunstancias describen lo mismo, por ejemplo: comunicado, declaración), antónimos (palabras que tienen significados contrarios) y homónimos (palabras que se escriben igual pero tienen significados distintos), polisemia (palabras con más de un significado, por ejemplo: bomba) y los lemas (raíz común a las palabras, por ejemplo: descubrir, descubrimiento); pueden resultar, más que un problema, una forma de mejorar la clasificación de los textos con la aplicación de índices o listas de alias, probablemente asociados a una probabilidad de pertenencia a la categoría.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112681238525243064?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112681238525243064/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112681238525243064' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112681238525243064'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112681238525243064'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/el-problema-del-vocabulario-y-su.html' title='El problema del vocabulario y su ambigüedad'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112658244638533822</id><published>2005-09-12T23:23:00.000-04:00</published><updated>2005-09-16T12:03:32.830-04:00</updated><title type='text'>Categorización Dura y Graduada</title><content type='html'>Cuando se relaciona una categoría con un documento, lo normal es pensar en que el documento pertenece o no a una determinada categoría en términos absolutos (o visceversa), vale decir, se toma una decisión booleana respecto a la pertenencia de uno respecto del otro. A este tipo de categorizarción se le denomina normalmente &lt;span style="font-weight:bold;"&gt;Categorización Dura&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Pero no siempre es fácil decidir si entre documento y categoría existe relación. Cuando la decisión se toma basándose en una &lt;span style="font-style:italic;"&gt;probabilidad de pertenencia&lt;/span&gt;, se habla de una &lt;span style="font-weight:bold;"&gt;categorización graduada&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;La categorización graduada es especialmente útil cuando se trata de aplicaciones críticas, donde los documentos o las categorías, si hablamos de categorización con pivote en la categoría o el documento respectivamente; se ordenan de acuerdo a la probabilidad de pertenencia a la categoría, y posteriormente se deja la decisión final de la asignación a otra instancia, normalmente un humano. También se recure a este tipo de clasificación cuando el clasificador obtenido no es suficientemente bueno.&lt;br /&gt;&lt;br /&gt;Sus aplicaciones, por ejemplo en la navegación de documento, son evidentes al permitir revisar aquellos documentos o categorías con más probabilidades de coincidencia con los requerimientos.&lt;br /&gt;&lt;br /&gt;En la literatura se trata esta categorización como &lt;span style="font-style:italic;"&gt;Document Ranking&lt;/span&gt; y &lt;span style="font-style:italic;"&gt;Category Ranking&lt;/span&gt;.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112658244638533822?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112658244638533822/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112658244638533822' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112658244638533822'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112658244638533822'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/categorizacin-dura-y-graduada.html' title='Categorización Dura y Graduada'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112658079968521723</id><published>2005-09-12T23:00:00.000-04:00</published><updated>2005-09-12T23:06:39.686-04:00</updated><title type='text'>Categorización con pivote en el documento o en la categoría</title><content type='html'>Otro aspecto relevante a la hora de estudiar una solución de Categorización de Textos es "el pivote". Esto se refiere al objeto donde fijaremos nuestra atención para determinar la relación entre documentos y categorías.&lt;br /&gt;&lt;br /&gt;Se distingue con &lt;span style="font-weight:bold;"&gt;pivote en el documento&lt;/span&gt; (DPC – Document Pivoted Categorization) como aquella categorización que pretende encontrar todas las categorías a las que pertenece un documento.&lt;br /&gt;&lt;br /&gt;Como contrapartida, se distingue con &lt;span style="font-weight:bold;"&gt;pivote en la categoría&lt;/span&gt; (CPC – Category Pivoted Categorization) como aquella que pretende encontrar todos los documentos que pertenecen a determinada categoría.&lt;br /&gt;&lt;br /&gt;La diferencia, que parece más de forma que de fondo, no es tal; y es importante si el conjunto de las categorías (C) o el de los documentos (D), no están completamente disponibles desde el principio. También es importante para escoger el método de construcción del clasificador.&lt;br /&gt;&lt;br /&gt;La clasificación con pivote en el documento se suele recomendar cuando los documentos están disponibles en distintos momentos, como los correos electrónicos; y es la clasificación más común.&lt;br /&gt;&lt;br /&gt;La clasificación con pivote en la categoría, en cambio, suele recomendarse cuando una nueva categoría puede ser agregada luego que existen documentos ya clasificados; o cuando estos documentos necesitan ser reclasificados con |C|+1 categorías.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112658079968521723?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112658079968521723/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112658079968521723' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112658079968521723'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112658079968521723'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/categorizacin-con-pivote-en-el.html' title='Categorización con pivote en el documento o en la categoría'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112611391578541189</id><published>2005-09-08T23:10:00.000-04:00</published><updated>2005-09-12T22:58:30.376-04:00</updated><title type='text'>Etiquetado simple, múltiple y binario</title><content type='html'>Categorizar textos es "como asignarle etiquetas" al documento. Así, un documento en particular se puede relacionar con una o más categorías.&lt;br /&gt;&lt;br /&gt;Cuando el proceso de categorización asigna al documento una sola categoría, se denomina &lt;span style="font-weight:bold;"&gt;etiquetado simple&lt;/span&gt;; y se habla de &lt;span style="font-style:italic;"&gt;categorías no superpuestas&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Si por el contrario, el proceso de categorización admite asignar más de una categoría (o ninguna) al documento, se denomina &lt;span style="font-weight:bold;"&gt;etiquetado múltiple&lt;/span&gt;, y se habla de &lt;span style="font-style:italic;"&gt;categorías superpuestas&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Cuando el proceso de categorización es simple, y además para cada categoría se decide si pertenece o no el documento (decisión booleana), se habla de &lt;span style="font-weight:bold;"&gt;etiquetado binario&lt;/span&gt; y es un caso muy importante de etiquetado dado que es más general que el etiquetado múltiple; de hecho, cualquier problema de etiquetado múltiple puede convertirse en binario, pero no visceversa. Esto porque si se asigna más de una categoría, habría que decidir cual es la más apropiada; o bien, si no se asigna ninguna categoría, se debiera decidir cual es la "menos inapropiada".&lt;br /&gt;&lt;br /&gt;Es requisito de la categorización binaria que las categorías sean estocásticamente independientes, vale decir, la pertenencia del documento documento a determinada categoría no esté determinada por la pertenencia a otra.&lt;br /&gt;&lt;br /&gt;La clasificación binaria es importante de estudiar, además, porque la mayor parte de las aplicaciones reales son binarias, dado que:&lt;br /&gt;&lt;br /&gt;- las categorías son desigualmente pobladas,&lt;br /&gt;&lt;br /&gt;- algunas categorías son más fáciles de caracterizar,&lt;br /&gt;&lt;br /&gt;- resolviendo el problema binario se resuelve el problema multietiquetado&lt;br /&gt;&lt;br /&gt;- y la literatura está más orientada al problema binario.&lt;br /&gt;&lt;br /&gt;Caso claro es el &lt;span style="font-style:italic;"&gt;filtrado de documentos&lt;/span&gt;.&lt;br /&gt;&lt;br /&gt;Un clasificador binario, en lo formal, se puede definir como una función T -&gt; {D,C}, donde T(di, ci) = {0,1}, donde 0 representa que no pertenece a la categoría y 1 que sí pertenece.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112611391578541189?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112611391578541189/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112611391578541189' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112611391578541189'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112611391578541189'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/etiquetado-simple-mltiple-y-binario.html' title='Etiquetado simple, múltiple y binario'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112614667383774195</id><published>2005-09-08T22:30:00.000-04:00</published><updated>2005-09-08T22:35:15.906-04:00</updated><title type='text'>No tan nuevo</title><content type='html'>La categorización de textos empezó hace ya muchos años. Ya en los años 1960 se empezaron a dar los primeros pasos en esta área.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Conocimiento Ingenieril&lt;/span&gt;&lt;br /&gt;Por ese entonces, la forma de abordar la categorización de textos se basaba en conjuntos de reglas. Ahora conocemos eso como Conocimiento Ingenieril (o Knowledge Engenieering - KE); es una de las dos ramas que aún se explota.&lt;br /&gt;Las reglas eran instrucciones condicionales, del tipo Si &lt;condición booleana&gt; Entonces &lt;acción a seguir&gt;. En estos momentos aún se pueden encontrar software de este tipo, aunque algo más refinado, como es el caso de Spamassassin, que basa su descubrimiento de correo no deseado (spam) en una serie de condicionales como si es un correo HTML, si el remitente tiene números en su composición, si existe el dominio de origen, si contiene palabras clave, entre otras. A cada una de ellas le da una ponderación, y si pasa un determinado umbral, es declarado spam.&lt;br /&gt;&lt;br /&gt;La idea, si lo pensamos, es bastante lógica; pero tiene una serie de inconvenientes.&lt;br /&gt;El primero de ellos se refiere a la construcción de las condiciones. Para ello se requiere primero de un experto en el área de investigación. Así, por ejemplo, en el caso de Spamassassin, que se analizaba, son muchos los individuos que voluntariamente han aportado con su experiencia para la confección de las reglas. Pero el caso de este software no es la generalidad. En la mayor parte de las áreas de investigación, encontrar expertos en el dominio de la aplicación es difícil, y muchas veces convencerlos de que entreguen lo que consideran su &lt;span style="font-style:italic;"&gt;know how&lt;/span&gt; es aún más difícil.&lt;br /&gt;Un segundo inconveniente viene dado por la conformación de los equipos, no sólo se requiere del experto que entregue las reglas, sino que también requiere de quien interprete esas reglas y construya el clasificador en un lenguaje computacional, aunque por estos días esto podría ser algo más fácil.&lt;br /&gt;El tercer inconveniente tiene que ver con la portabilidad de la solución. Como estos categorizadores son construidos para una problemática en particular, cambiarlos de dominio de aplicación puede llegar a ser &lt;span style="font-weight:bold;"&gt;imposible&lt;/span&gt;. Resulta más fácil reconstruir completamente la solución.&lt;br /&gt;Una situación similar ocurre si una nueva categoría es incorporada. Normalmente el clasificador se debe reconstruir y los documentos reprocesados.&lt;br /&gt;Por último, está el caso de la parametrización fina o &lt;span style="font-style:italic;"&gt;tunning&lt;/span&gt;, la que también debe ser realizada por alguien con conocimientos del área. Por ejemplo, en el caso de Spamassassin, el puntaje que aporta cada regla a la evaluación final del correo, así como el umbral por sobre el cual este correo es considerado  spam, son motivos de ajuste a la realidad de cada usuario. Las versiones recientemente revisadas, ajustan estos parámetros en forma dinámica indicándole a la aplicación si un determinado correo es o no indeseado, por lo que la misma aplicación modifica los umbrales basados en esta experiencia.&lt;br /&gt;Pese a estos inconvenientes, no se puede descartar el construir en estos momentos un clasificador del tipo Conocimiento Ingenieril por que se ha observado la alta efectividad de estos una vez ajustados. En experimentos realizados, Reuter ha anunciado que su clasificador &lt;span style="font-weight:bold;"&gt;Construe&lt;/span&gt;, que tiene muchos años afinando sus reglas y parámetros, dice haber conseguido una efectividad que supera el 90%!!! [Sebastiani, 2002], pero no hay evidencia de cómo se hicieron estas mediciones, cómo se escogieron los ejemplos de entrenamiento y prueba, ni hay otros experimentos realizados con la misma fuente de datos [Sebastiani et al.].&lt;br /&gt;No obstante esto, quienes, al igual que yo, utilizan Spamassassin, pueden dar fe de la alta efectividad de este analizador de correos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Máquinas de Aprendizaje&lt;/span&gt;&lt;br /&gt;La otra modalidad de Categorización de Textos son las máquinas de aprendizaje. Vienen haciendose populares desde la década de 1980, y por estos días son, sin lugar a duda, lo más estudiado.&lt;br /&gt;En esta modalidad, ya no hay expertos que dicten reglas, sino más bien, hay un módulo que va aprendiendo de manera inductiva a partir de ejemplos preclasificados, cuando un documento de texto pertenece a determinada categoría. Es un ejemplo de &lt;span style="font-style:italic;"&gt;aprendizaje supervisado&lt;/span&gt;.&lt;br /&gt;Para hacer este estudio, se basa en la información intrínseca del documento, despreciando información externa como su origen, autor, formato, etc. Sebastiani et al. nos explica que esa información debiera considerarse, puesto que la información exógena aporta importante información respecto de la categoría a la cual debiera ser asignado y le da al clasificador aún más objetividad.&lt;br /&gt;Una ventaja que aún no ha sido nombrada, sin duda muy importante, es que es más fácil clasificar documentos que construir y afinar reglas de clasificación; por lo que en general resulta más rápido construir y poner en funcionamiento clasificadores basados en Máquinas de Aprendizaje que en Conocimiento Ingenieril.&lt;br /&gt;Hay registros, que se conversarán más adelante, respecto de la efectividad de estos clasificadores; los que se asemejan mucho a la efectividad alcanzada por clasificadores humanos.&lt;br /&gt;Ejemplos de este tipo de clasificadores son Hermes y Poesía. El primero es un despachador de noticias y el segundo un supervisor de contenido accedido en Internet. Información sobre estos sistemas se puede encontrar en [Gomez, Puertas, de Buenaga, Carrero, 2002] y [Gomez, Giraldez, de Buenaga, 2004]&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112614667383774195?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112614667383774195/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112614667383774195' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112614667383774195'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112614667383774195'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/no-tan-nuevo.html' title='No tan nuevo'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112593360665512271</id><published>2005-09-05T11:12:00.000-04:00</published><updated>2005-09-05T12:19:51.100-04:00</updated><title type='text'>Porqué estudiar Categorización de Textos</title><content type='html'>La categorización es una motivación natural en el ser humano. Basta ver los niños pequeños como definen lo que los redea a partir de la categorización, ya sea por colores texturas, etc.&lt;br /&gt;Es de especial interés en la comunidad científica el poder caracterizar textos (Text Categorization Text Classification) por la cantidad de aplicaciones prácticas que se pueden encontrar, sin contar aquellas que están en plena investigación.&lt;br /&gt;&lt;br /&gt;Quizás la más evidente es la organización de documentos en bibliotecas digitales, pero hay muchas otras aplicaciones. Entre las más destacables, IMHO, está el control de spam.&lt;br /&gt;&lt;br /&gt;En estos momentos, aplicaciones como Spamassassin o McAffe WebShield Appliance controlan el spam (la última, tiene el inconveniente que sólo analiza el protocolo POP) basado en una serie de reglas, más o menos como lo hacían las primeras aplicaciones de categorización (Knowledge Engeneering); tema que se tratará más adelante; por lo que ahí hay mucho para hacer.&lt;br /&gt;&lt;br /&gt;Hay otras aplicaciones, quizás no tan evidentes, como el controlar el acceso a Internet en las empresas para que los empleados no pierdan tiempo y recursos de la empresa en actividades que no contribuyen; o el control parental, para que los niños no accedan a páginas con violencia, pornografía u otras que no sean apropiadas, están ganando fuerza.&lt;br /&gt;&lt;br /&gt;Como se ve, hay aplicaciones que justifican con creces la investigación en categorización de textos; pero hay una que no se puede dejar de lado y que se puede considerar como de las más importantes: la búsqueda de información.&lt;br /&gt;&lt;br /&gt;El investigador pierde mucho tiempo buscando información. En la mayor parte de los buscadores, la  información está indexada por palabras claves, por lo que la búsqueda se limita a mostrar un listado con aquellos links en los que se han encontrado estas palabras claves. Muchas veces es de ayuda la presentación ordenada por indicadores de cercanía, indicada en un pocentaje, o por cuan visitadas han sido esas páginas; pero no es suficiente. Se sabe de la existencia de trabajos para guiar las búsquedas mostrando enlaces a documentos relacionados.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112593360665512271?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112593360665512271/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112593360665512271' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112593360665512271'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112593360665512271'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/porqu-estudiar-categorizacin-de-textos.html' title='Porqué estudiar Categorización de Textos'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112561087041607436</id><published>2005-09-01T17:25:00.000-04:00</published><updated>2005-10-04T17:21:06.880-04:00</updated><title type='text'>Qué es categorizar textos???</title><content type='html'>Definiremos en primer lugar lo que es un texto, como un documento que está compuesto de palabras.&lt;br /&gt;&lt;br /&gt;Esta última definición es bastante importante dado que en este momento existen esfuerzos por categorizar documentos en general, sean estos videos, audios, imágenes, etc.; los que han tenido un éxito relativo por distintos problemas, pero básicamente por el problema de la representación: una pintura, por ejemplo, significará y tendrá una interpretación distinta dependiendo de quien la observe.&lt;br /&gt;&lt;br /&gt;En el caso de los textos, si bien la problemática anterior también se puede dar, esta está más acotada por que las palabras cuentan con una definición establecida y común para todos.&lt;br /&gt;&lt;br /&gt;Además, definiremos categorizar como distinguir las características propias de un objeto y que lo hacen distinto de otros objetos.&lt;br /&gt;&lt;br /&gt;&lt;span style="font-weight:bold;"&gt;Definiremos pues, categorización de textos como relacionar un texto con categorías&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;En términos formales, existe una función T definida en (DxC) tal que T(di)=ci; donde D es el conjunto de los documentos disponibles, C es el conjunto de categorías disponibles, di es un documento cualquiera y ci es el vector de las categorías a las que pertenece el documento di.&lt;br /&gt;&lt;br /&gt;El proceso de categorización de textos, lo que pretende es encontrar una función T' que se parezca lo más posible a la función T ya definida. Tal definición y coincidencia se llama &lt;span style="font-style:italic;"&gt;efectividad&lt;/span&gt;&lt;br /&gt;&lt;br /&gt;La categorización de textos se dice es parte de Recuperación de Información (Information Retrieval), y se preocupa de etiquetar, vale decir, asignar etiquetas que indican a qué categoría o categorías corresponde el documento. Aunque también encontrará que hay autores que clasifican la categorización de texto como un cruce entre Máquinas de Aaprendizaje (Machine Learning - ML) y Recuperación de la Información (Information Retrieval - IR). Más aún, hay quienes se refieren a esta área de estudio como una instancia de la Minería de Textos (Text Mining - TM) [Hernandez, 2005].&lt;br /&gt;&lt;br /&gt;Con Recuperación de Información guarda bastante semejanza, de hecho, hay varias técnicas que es utilizan en IR que también son utilizadas en TC. Éstas técnicas son usadas en las tres fases del ciclo de vida del clasificador:&lt;br /&gt;&lt;br /&gt;- Indexación al estilo Recuperación de la Información, para poder clasificar en la fase de operación.&lt;br /&gt;&lt;br /&gt;- Técnicas al estilo Recuperación de la Información usado en la construcción inductiva del clasificador.&lt;br /&gt;&lt;br /&gt;- Evaluación al estilo Recuperación de la Información, para medir la efectividad alcanzada por el clasificador.&lt;br /&gt;&lt;br /&gt;Si parece que el concepto aún no está claro para los investigadores, [Sebastiani, 2002] relata que la expresión “Categorización Automática de Documentos” (ATC – Automatic Text Categorization), en la literatura aparece como:&lt;br /&gt;&lt;br /&gt;- Asignación automática de documentos a conjuntos pre definidos de categorías.&lt;br /&gt;&lt;br /&gt;- Identificación o descubrimiento automático de categorías.&lt;br /&gt;&lt;br /&gt;- Identificación de las categorías y agrupamiento de los documentos bajo ellas; también llamado Agrupamiento de Textos (Text Clustering)&lt;br /&gt;&lt;br /&gt;- Cualquier actividad de colocar items de texto en grupos, por lo que Categorización de Textos y Agrupamiento de Textos pasarían a ser sólo casos de Categorización Automática de Textos.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112561087041607436?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112561087041607436/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112561087041607436' title='1 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112561087041607436'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112561087041607436'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/09/qu-es-categorizar-textos.html' title='Qué es categorizar textos???'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>1</thr:total></entry><entry><id>tag:blogger.com,1999:blog-16093351.post-112551972127448274</id><published>2005-08-31T16:20:00.000-04:00</published><updated>2005-08-31T16:29:26.366-04:00</updated><title type='text'>Inauguracion...</title><content type='html'>Básicamente he construido este lugar para mantener lo que vaya recopilando hacerca de Categorización de Textos y uno que otro pensamiento que se me vaya ocurriendo en el camino. Si hay algo con lo que quieras aportar, es bienvenido, siempre y cuando mantengamos el clima de respeto y cooperación que exige la buena convivencia.&lt;div class="blogger-post-footer"&gt;&lt;img width='1' height='1' src='https://blogger.googleusercontent.com/tracker/16093351-112551972127448274?l=legutier.blogspot.com' alt='' /&gt;&lt;/div&gt;</content><link rel='replies' type='application/atom+xml' href='http://legutier.blogspot.com/feeds/112551972127448274/comments/default' title='Comentarios de la entrada'/><link rel='replies' type='text/html' href='http://www.blogger.com/comment.g?blogID=16093351&amp;postID=112551972127448274' title='0 Comentarios'/><link rel='edit' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112551972127448274'/><link rel='self' type='application/atom+xml' href='http://www.blogger.com/feeds/16093351/posts/default/112551972127448274'/><link rel='alternate' type='text/html' href='http://legutier.blogspot.com/2005/08/inauguracion.html' title='Inauguracion...'/><author><name>LeGutier</name><uri>http://www.blogger.com/profile/03009600923520523375</uri><email>noreply@blogger.com</email><gd:image rel='http://schemas.google.com/g/2005#thumbnail' width='24' height='32' src='http://2.bp.blogspot.com/_jhd0ceSmiJ8/Sl4KkDn1SWI/AAAAAAAAACw/wPT-PGs5Bqo/S220/P140409_10.14.jpg'/></author><thr:total>0</thr:total></entry></feed>
