Los esfuerzos redoblados de inteligencia artificial de Facebook no detendrán la propagación de contenido malicioso

Facebook dice que está utilizando inteligencia artificial para priorizar publicaciones potencialmente problemáticas para que las revisen los moderadores humanos, ya que trabaja para eliminar más rápidamente el contenido que viola las pautas de la comunidad. El gigante de las redes sociales utilizó anteriormente modelos de aprendizaje automático para eliminar de forma proactiva el contenido de baja prioridad y dejó el contenido de alta prioridad informado por los usuarios a los revisores humanos. Pero Facebook dice que ahora combina contenido y plantillas identificados por el usuario en una sola colección antes de filtrarlo, categorizarlo y desduplicarlo y entregarlo a miles de moderadores, muchos de los cuales son empleados contratados.

La continua inversión de Facebook en moderación se produce cuando los informes sugieren que la compañía no puede detener la propagación de desinformación, desinformación y discurso de odio en su plataforma. Reuters encontró recientemente más de tres docenas de páginas y grupos que contenían lenguaje discriminatorio sobre los refugiados rohingya y los inmigrantes indocumentados. En enero, la profesora asociada de la Universidad de Seattle, Caitlin Carlson, publicó los resultados de un experimento en el que ella y un colega recopilaron más de 300 publicaciones que parecían violar las reglas de discurso de odio de Facebook y las denunciaron a través de las herramientas del Servicio. Según el informe, solo la mitad de las publicaciones finalmente se eliminaron. Más recientemente, grupos de derechos civiles como la Liga Anti-Difamación, la Asociación Nacional para el Avance de las Personas de Color y Color of Change han afirmado que Facebook no aplica sus políticas sobre incitación. odio. Los grupos organizaron un boicot publicitario en el que más de 1.000 empresas recortaron su gasto publicitario en redes sociales durante un mes.

Facebook dice que sus sistemas de inteligencia artificial ahora ofrecen contenido potencialmente cuestionable que se comparte rápidamente en Facebook, Instagram, Facebook Messenger y otras propiedades de Facebook con más peso que el contenido con pocas acciones o vistas. Los mensajes, fotos y videos relacionados con daños en el mundo real, como el suicidio, las autolesiones, el terrorismo y la explotación infantil, tienen prioridad sobre otras categorías (como el spam) cuando se informan o detectan. Además de esto, es más probable que las publicaciones que contengan señales similares al contenido que violaba anteriormente las políticas de Facebook lleguen a la parte superior de la cola de moderación.

Usando una técnica llamada «integración de integridad de publicación completa» o WPIE, los sistemas de Facebook absorben grandes cantidades de información, incluidas imágenes, videos, titulares y cuerpos de texto, comentarios, texto en imágenes a partir del reconocimiento óptico de caracteres, texto transcrito de grabaciones de audio, perfiles de usuario, interacciones de usuario, contexto externo de la web e información de la base de conocimientos. Una fase de aprendizaje de representación permite a los sistemas descubrir automáticamente las representaciones necesarias para detectar puntos en común en el contenido malicioso de los datos. Luego, los modelos de combinación combinan las representaciones para crear millones de representaciones de contenido, o incrustaciones, que se utilizan para entrenar el aprendizaje multitarea supervisado y los modelos de aprendizaje auto supervisado que marcan el contenido para cada categoría de violaciones.

Uno de esos modelos es XLM-R, un algoritmo de comprensión del lenguaje natural que Facebook también usa para encontrar personas necesitadas a través de su Community Hub. Facebook afirma que XLM-R, que ha sido entrenado en 2.5 terabytes de páginas web y puede realizar traducciones entre alrededor de 100 idiomas humanos diferentes, permite que sus sistemas de moderación de contenido aprendan a través de dialectos para que «cada nueva revisión humano de una brecha hace que nuestro sistema[s] mejor globalmente en lugar de solo en el idioma del revisor. «(Facebook tiene actualmente alrededor de 15.000 revisores de contenido que hablan más de 50 idiomas combinados).

«Es importante tener en cuenta que todas las infracciones de contenido … aún reciben una revisión por parte de las personas; estamos usando nuestro sistema[s] para priorizar el contenido «, dijo el jueves el gerente de producto de Facebook, Ryan Barnes, a los miembros de la prensa.» Planeamos usar una mayor automatización cuando la violación de contenido sea menos severa, especialmente si el contenido no es viral o no está por venir. .. compartido rápidamente por una gran cantidad de personas [on Facebook platforms]. «

En muchas de sus divisiones, Facebook durante años se ha orientado ampliamente hacia el aprendizaje a su propio ritmo, donde los datos sin etiquetar se utilizan junto con pequeñas cantidades de datos etiquetados para producir una mejora en la precisión del aprendizaje. Facebook dice que su marco de aprendizaje automático Deep Entity Classification (DEC) ha sido responsable de una reducción del 20% en las cuentas abusivas en la plataforma en los dos años desde que se lanzó y que su sistema SybilEdge es capaz de detectar cuentas falsas. menos de una semana con menos de 20 solicitudes de amistad. En un experimento separado, los investigadores de Facebook dicen que pudieron entrenar un modelo de comprensión del lenguaje que hizo predicciones más precisas con solo 80 horas de datos en comparación con 12,000 horas de datos etiquetados manualmente.

Para predecir la hombría, Facebook se basa en un modelo de aprendizaje automático supervisado que analiza ejemplos anteriores de publicaciones y la cantidad de vistas que han acumulado a lo largo del tiempo. En lugar de analizar el historial de visualizaciones de forma aislada, el modelo tiene en cuenta aspectos como las tendencias y la configuración de privacidad en la publicación (es decir, si solo fue visible para amigos).

Dejando a un lado la predicción de la virilidad, Facebook dice que esta adopción de técnicas autogestionadas, junto con la priorización automática de contenido, le permitió abordar el contenido malicioso más rápido, lo que permitió a los equipos de revisión humana dedicar más tiempo a decisiones complejas, como las que implican intimidación y acoso. Entre otras métricas, la compañía se refiere a su Informe de cumplimiento de normas comunitarias, que cubrió desde abril de 2020 hasta junio de 2020 y mostró que la IA de la compañía detectó el 95% del discurso de odio eliminado en el segundo trimestre. de 2020. Sin embargo, no está claro hasta qué punto esto es cierto.

Facebook admitió que gran parte del contenido marcado en el Periódico de Wall Street se le habría dado baja prioridad a la revisión porque tenía menos posibilidades de volverse viral. Facebook no eliminó las páginas y cuentas de quienes coordinaron lo que resultó en tiroteos mortales en Kenosha, Wisconsin a fines de agosto, según una demanda. El grupo de activismo sin fines de lucro Avaaz descubrió que el contenido engañoso generó aproximadamente 3.800 millones de visitas en Facebook el año pasado, con información médica errónea (particularmente COVID-19) que difunde más que información. de fuentes confiables. Y los usuarios de Facebook en Papúa Nueva Guinea dicen que la compañía ha sido lenta o no ha logrado eliminar el contenido de abuso infantil, y ABC Science identificó una imagen desnuda de una niña en una página con más de 6.000 seguidores.

Existe un límite en lo que la IA puede lograr, particularmente con respecto a contenido como memes sofisticados y deepfakes. El modelo de mayor rendimiento de más de 35,000 entre más de 2,000 participantes en el Desafío de Detección de Deepfake de Facebook logró solo un 82.56% de precisión en comparación con un conjunto de datos públicos de 100,000 videos creados para la actividad. Cuando Facebook lanzó el conjunto de datos Hateful Memes, un punto de referencia diseñado para evaluar el rendimiento de los modelos para eliminar el discurso de odio, el algoritmo más preciso, Visual BERT COCO, logró una precisión del 64,7%, mientras que los humanos demostraron una precisión del 85% en el conjunto de datos. Y un estudio de la Universidad de Nueva York publicado en julio estimó que los sistemas de inteligencia artificial de Facebook cometen alrededor de 300.000 errores de moderación de contenido por día.

El sesgo potencial y otras deficiencias en los modelos y conjuntos de datos de inteligencia artificial de Facebook amenazan con complicar aún más las cosas. Una encuesta reciente de NBC reveló que en Instagram en los EE. UU. El año pasado, los usuarios negros tenían aproximadamente un 50% más de probabilidades de que sus cuentas se deshabilitaran mediante sistemas de moderación automatizados que aquellos cuya actividad indicaba que estaban ropa blanca. Y cuando Facebook tuvo que enviar moderadores de contenido a casa y confiar más en la inteligencia artificial durante la cuarentena, el CEO Mark Zuckerberg dijo que los errores eran inevitables porque el sistema a menudo no comprende el contexto.

Dejando a un lado los desafíos tecnológicos, los grupos han culpado a las políticas de moderación de contenido inconsistentes, poco claras y, en algunos casos, controvertidas de Facebook por tropezar con la eliminación de publicaciones abusivas. De acuerdo a Periódico de Wall Street, Facebook a menudo no maneja rápidamente los informes de los usuarios y hace cumplir sus propias reglas, lo que permite que el material, incluidas las representaciones y elogios de la «violencia horrible», se mantenga, tal vez porque muchos de sus moderadores están físicamente distantes y no reconocen la gravedad. del contenido que están investigando. En un caso, 100 grupos de Facebook afiliados a QAnon, una conspiración etiquetada por el FBI como una amenaza terrorista interna, crecieron a una tasa combinada de más de 13.600 nuevos seguidores por semana este verano, según uno. New York Times Base de datos.

En respuesta a la presión, Facebook implementó reglas este verano y otoño destinadas a tomar medidas enérgicas contra el contenido viral que viola los estándares. Los miembros y administradores que pertenecen a grupos eliminados por violar sus políticas no pueden temporalmente crear nuevos grupos. Facebook ya no incluye ningún grupo relacionado con la salud en sus recomendaciones y Qanon está prohibido en todas las plataformas de la compañía. Facebook está etiquetando, pero no eliminando, publicaciones de políticos que infringen sus reglas. Y la Junta de Supervisión de Facebook, un grupo externo que tomará decisiones e influirá en los precedentes sobre qué tipo de contenido debe y no debe permitirse en la plataforma de Facebook, comenzó a investigar casos de moderación de contenido en octubre.

Facebook también ha adoptado un enfoque ad hoc para la moderación del discurso de odio para atender las realidades políticas en algunas regiones del mundo. Las reglas de la compañía contra el discurso de odio son más estrictas en Alemania que en los Estados Unidos. En Singapur, Facebook acordó agregar un «aviso de corrección» a las noticias consideradas falsas por el gobierno. Y en Vietnam, Facebook dijo que restringirá el acceso a contenido «disidente» considerado ilegal a cambio de que el gobierno ponga fin a su práctica de cerrar los servidores locales de la empresa.

Mientras tanto, las publicaciones problemáticas continúan pasando por los filtros de Facebook. En un grupo de Facebook que se creó la semana pasada y creció rápidamente a casi 400.000 personas, los miembros que pedían un recuento nacional de las elecciones presidenciales de Estados Unidos de 2020 intercambiaron acusaciones infundadas de presunto fraude electoral y recuentos de votos estatales. cada pocos segundos.

«El sistema tiene como objetivo casar la inteligencia artificial y los auditores humanos para cometer menos errores totales», dijo Chris Parlow de Facebook, parte del equipo moderador de ingeniería de la compañía, durante la sesión informativa. «La inteligencia artificial nunca será perfecta».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *