• Logo Biblioteca de la Universidad de Sevilla
  • Páginas

  • Categorías

  • RSS GME RSS

    • Se ha producido un error; es probable que la fuente esté fuera de servicio. Vuelve a intentarlo más tarde.
  • Archivo de MATBUS

  • Comentarios recientes

    Mando a distancia te… en Nuevo curso, nuevo sitio del…
    AmongNosotros en Se inspira en el juego ‘Among…
    Jorge en Se inspira en el juego ‘Among…
  • Escribe tu dirección de correo electrónico para suscribirte a este blog, y recibir notificaciones de nuevos mensajes por correo.

    Únete a 133 seguidores más

Las matemáticas que producen y detectan las ‘fake news’

Una parte de las noticias falsas (fake news) son creadas de forma masiva mediante modelos matemáticos de generación de texto basados en redes neuronales artificiales.

El problema de la generación automática de texto está ligado a los orígenes de la historia de la Informática, pues permite que la máquina y el usuario humano se comuniquen fácilmente.

Los nuevos modelos, en vez de requerir reglas gramaticales introducidas manualmente, procesan ingentes cantidades de textos con técnicas de big data para aprender por sí mismos los patrones lingüísticos.

Estos sistemas parten de la llamada hipótesis distribucionalpopularizada por el lingüista John Rubert Firth a mediados del siglo pasado, según la cual el significado de una palabra viene dado por las otras palabras que la suelen acompañar.

Así funcionan los modelos de lenguaje (LM), y van aprendiendo los significados de palabras, que no son más que patrones frecuentes de todo el texto natural considerado por la máquina.

Matemáticamente, estos sistemas representan cada palabra como un vector, el llamado word embedding, de unas 300 dimensiones. El sistema más empleado para hacerlo es el llamado word2vec. En este espacio geométrico, las palabras similares están próximas (así, “perro” estaría más cerca de “ladrar” que de “coser”) y además se pueden efectuar operaciones entre ellas, o generar otras nuevas.

Nuevos modelos como GLTR tratan de identificar los textos automáticos más sofisticados. Utilizan herramientas matemáticas parecidas a las anteriores, que categorizan las palabras mediante colores según lo probables que sean: en verde (si están dentro de las 10 más verosímiles en ese contexto, para ese modelo), en amarillo (top 100), en rojo (top 1000) y el resto en morado.

Su éxito es considerable: sin ella, los evaluadores discriminan noticias generadas por humanos de las de máquinas con un 54.2% de acierto; con ellas la tasa sube al 72.3%.

Leer más:

https://elpais.com/ciencia/2020-08-18/las-matematicas-que-producen-y-detectan-las-fake-news.html

A %d blogueros les gusta esto: