Aguascalientes, Aguascalientes.- Científicos mexicanos han elaborado un modelo de categorización de texto utilizando técnicas de vanguardia de aprendizaje computacional y procesamiento de lenguaje natural. Estos algoritmos desarrollados permiten clasificar la polaridad de un mensaje, así como determinar la edad, género y región a partir de la que escriben los usuarios de redes sociales. Con estos métodos, han participado en diversos concursos internacionales, obteniendo lugares destacados.
En este proyecto participan investigadores del Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (Infotec) y del Centro de Investigación en Geografía y Geomática (Centrogeo), quienes han desarrollado tres algoritmos para clasificación de texto: B4MSA, un clasificador de sentimientos multilenguaje; MicroTC, un método de categorización de texto; y EvoDAG, que basado en cómputo evolutivo funciona como integrador.
Daniela Moctezuma Ochoa, Eric Sadit Téllez Ávila, Mario Graff Guerrero y Sabino Miranda Jiménez, todos ellos adscritos al programa Cátedras Conacyt, forman parte de un equipo de investigación que estudia la aplicación de herramientas de aprendizaje computacional para procesamiento de lenguaje en grandes cantidades de datos, proceso que consta de modelado de texto y espacio vectorial, así como clasificación automática.
Modelado de texto
Al respecto, Eric Téllez comentó en entrevista para la Agencia Informativa Conacyt: “Lo primero que quisimos intentar fue el proceso tradicional: primero normalizar el texto, luego dividir los textos en palabras y puntuaciones, para después crear un modelo matemático para los clasificadores tradicionales. Sin embargo, el esquema típico tenía muchas deficiencias, ya que en redes sociales como Twitter, muchas personas introducen variantes de palabras, ya sea de manera intencionada como pueden ser los hashtags, o por errores, ya sea gramaticales u ortográficos”.
Dado que la cantidad de errores en el texto es muy grande, las herramientas tradicionales no funcionan tan bien como deberían, esto es, en mayor medida, porque el enfoque tradicional supone que el texto se escribe de manera correcta, tanto ortográfica como sintácticamente. Esto no sucede en redes sociales, provocando que los modelos tradicionales tengan baja calidad en la resolución de tareas de clasificación. Por ello, comenzaron a experimentar con diferentes técnicas.
“Empezamos a ver otro tipo de transformaciones, le intentamos por simplicidad y cantidad de transformaciones, pero también por multiplicar el número de tokenizadores, esto es, en el cómo se divide un texto para poderlo analizar. Normalmente lo haces por palabras o pares de palabras, pero ahora fuimos un poco más allá, que es por subcadenas”, señaló.
Por su parte, Sabino Miranda detalló que al igual que el número de maneras de combinar las posibles subcadenas formadas a partir del texto, también se incrementa la robustez de los métodos. En este punto, ya no se consideran palabras a esas partes del texto, sino tokens o secuencia de caracteres de diferentes tamaños, también denominados q-gramas.
“Lo que haces normalmente después de la segmentación del texto es tratar de ver si lo que vas a comparar, q-gramas, se empareja con lo que ya conoces, es decir, otros q-gramas extraídos de textos definidos y etiquetados previamente como base de conocimiento. Los tokens (q-gramas), a diferencia de las palabras, permiten un margen de error, porque si escribes mal un carácter, las secuencias formadas pueden omitir el uso de ese carácter durante el proceso de segmentación, en contraste con una palabra mal escrita, entonces, el error en el texto se puede ir desvaneciendo y, en cierto sentido, se vuelve más robusto a los errores”, precisó.
Adicionalmente, el modelo es altamente paramétrico, por lo que las posibles configuraciones se cuentan en millones. Para ser práctico, el problema se plantea como un problema de optimización combinatoria, donde en poco tiempo se encuentra una solución competitiva a un problema que podría tomar años de cómputo para ser resuelto.
Todo esto diseñado para que la técnica general sea independiente del lenguaje, ya que no depende de un vocabulario predefinido ni tampoco de una manera de escribir. En la práctica, ha sido probado en varios lenguajes, como el árabe, español e inglés.
Espacio vectorial
Mario Graff sostuvo que el siguiente paso de este modelo de categorización consiste en transformar los símbolos en un espacio vectorial, así, una secuencia de números se asocia a una frase. De esta manera, el algoritmo puede utilizarse para distintas tareas —polaridad del mensaje o perfil de usuarios—, pues tiene la capacidad de autoconfigurarse para la asignación que se le brinde.
“Utilizas un algoritmo de aprendizaje de máquina que aprende estos patrones y cuando le presentas un nuevo ejemplo te sabe decir a qué clase pertenece ese nuevo ejemplo. Todo este procedimiento hace que sea sencillo pasar de un idioma a otro, porque todas las competencias te dan un corpus inicial de entrenamiento, entonces te dan tuits etiquetados en el idioma, y entonces a partir de ahí aprende al algoritmo”, apuntó.
Con relación a los concursos, Daniela Moctezuma refirió que conforme definieron los algoritmos B4MSA, MicroTC y EvoDAG, comenzaron a inscribirse en competencias donde podrían aplicar su desarrollo en diferentes idiomas, como el árabe, español, inglés, italiano y portugués.
Comentó que ya han publicado varios artículos científicos; sin embargo, una competencia es más compleja, ya que hay un tercero que pone las reglas y todos deben acatarlas, además de que les permite medirse en igualdad de condiciones con científicos que están trabajando en tareas de lingüística computacional en distintas partes del mundo.
“Las competencias nos han ayudado un poco a ver la robustez de nuestro trabajo en diferentes tareas, no solo en polaridad sino también en perfilado de usuarios, esto es, saber el género de la persona que escribe, de qué lenguaje es y de qué lugar —español de España, de México, de Argentina, etcétera—. Sirve para mejorar, añadir otras técnicas de procesamiento, de clasificación, y es así como hemos estado participando en las competencias”, especificó.
Conacyt
México.- Jorge Toledo, alcalde del municipio morelense de Mazatepec, afirmó que la organización delincuencial de “Los Rojos” juntó a un grupo de 11 alcaldes para amenazarlos.
Este lunes, circuló un video en el que se observa que en 2015 un grupo de sujetos presuntamente enviados por Santiago Mazari, ‘El Carrete’, hincaron a Tolero y amagaron con matarlo ante su negativa de colaborar con la entrega de 5 millones de pesos.
Al respecto, el edil precisó que aunque ese material fue tomado "15 días antes de que tomáramos posesión. Este grupo delictivo ya nos había citado antes, a mediados de octubre".
En entrevista con Ciro Gómez Leyva, abundó que no fue el único en aquel lugar.
"No fui yo el único que está grabado teniendo la plática con estos delincuentes, fuimos cerca de 11 presidentas municipales y presidentes municipales los que nos llevaron a ese lugar, pues, para prácticamente escuchar las condiciones que estos grupos criminales nos estaban pidiendo", dijo.
El edil entregó dinero al grupo delictivo, pero en febrero dejaron de pasar por el efectivo y este mes hicieron público el video.
De acuerdo con Toledo, "estaba esperanzado en que, finalmente, la autoridad pudiera detener a estos grupos criminales", sin embargo, dijo entender al comisionado Alberto Capella, pues Morelos colinda con Guerrero y con el Estado de México y estos grupos “con facilidad se pueden mover" hacia cualquiera de estas entidades.
Comentó que luego de tomar posesión, el 1 de enero de 2016, al día siguiente fue asesinada la presidenta municipal de Temixco, Gisela Mota, "entonces nos preguntamos los presidentes municipales que fuimos amenazados: esto va en serio".
Sobre el origen de los fondos que pagó al grupo delictivo, el presidente municipal señaló que es un tema que "quisiera dejar a reserva de la autoridad (…) Lo que tengo que decir es que fui de los alcaldes que menos pagó".
No obstante, "hace dos meses recibí la llamada donde me exigían 5 millones de pesos; están debilitados pero ellos siguen".
En cuanto a si identifica a Leonel Urióstegui de la Sancha o Javier Guadarrama Ríos, alías "El Duva" o "El Angelo" como la persona que lo extorsionó, el edil respondió que "ese personaje está detenido. Yo no quisiera adelantar los hechos y no quisiera dar nombres; ese personaje hizo mucho daño a mucha gente aquí del municipio de Mazatepec".
Toledo comentó que no tiene constancia de haber denunciado la extorsión por 5 millones de pesos, así como que se trata de un tema que lo platicó con sus compañeros alcaldes.
"Lamentablemente algunos compañeros no tienen la confianza en las autoridades porque se habla mucho que algunas autoridades, del orden federal y estatal, pudieran estar coludidos, pudieran estar involucrados, con estos grupos criminales", apuntó.
Sdpnoticias
Tras causarle cáncer a 4 mil personas, Johnson & Johnson pagará indemnización millonaria
Published in El MundoSon más de 4 mil 500 demandas.
La empresa estadounidense Johnson & Johnson ocultó la verdad durante muchos años. El uso frecuente del talco para bebés provoca cáncer.
Así lo demostraron las más de 4 mil 500 demandas que se presentaron contra la marca por no advertir de los riesgos del productor.
Una de ellas es de Eva Echeverria, a quien le diagnosticaron cáncer de ovario en 2007, luego de usar el talco durante décadas.
Ni los 70 millones de dólares (más de un billón de pesos) que recibió como indemnización, ni los 347 millones que la empresa liberó como sanción, equivalen a su vida. El tumor no pudo resistir su estado delicado de salud.
Sdpnoticias
Buscador
Directorio
Directora General:
Lic. Rocío Rivera Méndez
Asesora Jurídica:
Mtra. Monserrat Minerva Cobos
Fotografía:
Webmaster:
Para contactarnos:
redaccion@veracruzinforma.com.mx o al cel 2291-275227