Lucha contra la intolerancia en Internet contra grupos especialmente vulnerables. Monitoreo a gran escala y combate narrativo del odio en Internet en España (COIN)

Paquetes de Trabajo y Proyecto

El proyecto COIN estructura su investigación en ocho paquetes de trabajo (WPs), cada uno con objetivos específicos que abarcan desde la administración y la formación hasta la implementación de estrategias de intervención social. A continuación se detallan los aspectos más relevantes de cada paquete:

paquete-trabajo

WP1: Administración, Formación y Tutoría

Objetivos: Mejorar las habilidades científicas y desarrollar las capacidades de gestión de proyectos.

Actividades: Implementación de planes de formación y elaboración de informes de seguimiento y tutoría. Este WP es crucial para garantizar la calidad y la dirección adecuada del proyecto.

WP2: Planes de gestión de datos y difusión científica

Objetivos: Ejecutar un plan de gestión de datos y crear un plan de difusión científica que incluya posibles eventos para promocionar el proyecto.

Actividades: Crear planes de gestión de datos y organizar actividades como conferencias, seminarios y talleres para difundir los hallazgos del proyecto.

WP3: Plan de comunicación

Objetivos: Comunicar el proyecto a la comunidad en general a través de diversos canales.

Actividades: Desarrollo de la página web del proyecto, creación de perfiles en redes sociales y publicación de notas de prensa para difundir información relacionada con el proyecto y su avance.

WP4: Creación de un detector de contenidos de odio

Objetivos: Analizar las estructuras de red y los patrones de propagación de contenidos de odio y desarrollar modelos para la detección y monitorización automática de discursos de odio online.

Actividades: Desarrollo de herramientas basadas en redes neuronales para la detección y seguimiento automático de mensajes potencialmente de odio, adaptadas a diferentes tipos de prejuicios.

WP5: Características e impacto social del discurso de odio en línea

Objetivos: Construir un marco conceptual y teórico sobre el discurso de odio, examinar sus impactos sociales y comprender el papel de fenómenos como la desinformación en su propagación.

Actividades: Revisión exhaustiva de la literatura existente, análisis de contenido de los datos recopilados y revisión sistemática del contenido de odio en los medios digitales y sociales.

WP6: Estudio de las perspectivas de los productores audiovisuales

Objetivos: Investigar las características creativas más influyentes de la narrativa audiovisual para aumentar la empatía.

Actividades: Realizar focus groups y entrevistas con productores audiovisuales para comprender mejor la creación de personajes y narrativas y diseñar estrategias de intervención adecuadas.

WP7: Estrategia de intervención social

Objetivos: Diseñar una estrategia de intervención social basada en la persuasión narrativa para aumentar la empatía hacia los grupos afectados por el discurso del odio.

Actividades: Diseñar intervenciones sociales en torno a relatos narrativos validados y adaptados a las características demográficas y tipos de prejuicios identificados en el proyecto.

WP8: Monitorización de contenidos islamófobos Tarea `{`Fundación Al-Fanar`}`

Objetivos: Monitorizar contenidos islamófobos en redes sociales y elaborar un mapa de islamofobia online y odio interseccional.

Actividades: Utilización de la herramienta de detección para seguir y analizar el discurso de odio, especialmente de naturaleza islamófoba, en plataformas como Twitter y Facebook.

Cada paquete de trabajo está dirigido por el Dr. Carlos Edmundo Arcila Calderón y cuenta con el apoyo del equipo del Observatorio de Contenidos Audiovisuales de la Universidad de Salamanca, lo que garantiza un enfoque riguroso y metodológico de la investigación y las actividades relacionadas. Este enfoque interdisciplinario garantiza una comprensión profunda y una intervención eficaz contra el discurso de odio en línea.

El proyecto COIN, “Contrarrestar la intolerancia en línea contra grupos especialmente vulnerables”, presenta los avances iniciales y los conocimientos adquiridos en el primer año del proyecto. La iniciativa COIN, financiada por el programa MSCA-COFUND USAL4Excellence de la Universidad de Salamanca, busca desarrollar herramientas y estrategias de vanguardia para monitorear, comprender y combatir diversas formas de discurso de odio en línea dirigido a grupos vulnerables, incluidos inmigrantes, judíos, musulmanes, gitanos y la comunidad LGBTI.

El proyecto COIN comenzó con el establecimiento de bases administrativas y el desarrollo de planes de capacitación (WP1). Se consolidaron alianzas clave, incluidas aquellas con la Fundación Al Fanar y el Observatorio de Contenidos Audiovisuales (OCA) de la Universidad de Salamanca, que brinda un apoyo metodológico y técnico crucial. Los primeros esfuerzos también se han centrado en la recopilación de conjuntos de datos para la herramienta de detección, utilizando métodos avanzados de inteligencia artificial para rastrear y clasificar el discurso de odio en función de diversos sesgos.

Curie

Además del trabajo técnico, se han tomado medidas para desarrollar una revisión bibliográfica exhaustiva sobre el discurso de odio (WP5), que servirá de base para el análisis de contenido y la creación de mapas presentes y futuros. Esto sentará las bases para estudios empíricos sobre la difusión del discurso de odio y creará una estrategia de intervención social para aumentar la empatía y reducir los comportamientos en línea motivados por el odio.
Se han identificado los primeros desafíos, como garantizar un conjunto de datos de discurso de odio diverso y completo (WP5), y se han puesto en marcha estrategias para abordarlos mediante fases de recopilación de datos ampliadas y desarrollo técnico adicional. Las etapas se centran en seguir desarrollando la herramienta de detección automática (WP4), profundizar el análisis de contenido, realizar una revisión bibliográfica sólida y comenzar a diseñar la estrategia de intervención social (WP7).

Descripción general del proyecto COIN

El proyecto COIN tiene como objetivo abordar la creciente ola de discurso de odio en línea en España, en particular contra grupos vulnerables como inmigrantes, judíos, musulmanes, gitanos y la comunidad LGBTI. Su misión es crear un marco integral para monitorear, rastrear y analizar varias formas de discurso de odio en línea utilizando herramientas de inteligencia artificial (IA) de vanguardia, métodos computacionales e investigación cualitativa (WP6).

COIN aborda tres objetivos principales. En primer lugar, busca desarrollar una herramienta de detección automática que pueda identificar y rastrear múltiples formas de discurso de odio basadas en sesgos específicos como el racismo, el odio antimusulmán, el antisemitismo, el antigitanismo y la LGBTIQfobia (SO1). La herramienta también explorará la intersección de estos sesgos para mejorar la comprensión de cómo se propaga el discurso de odio en línea. En segundo lugar, tiene como objetivo mapear la propagación de estas narrativas de odio entre diferentes audiencias (SO2), utilizando big data, análisis de contenido y seguimiento de redes sociales para visualizar patrones e interacciones entre el discurso de odio y la desinformación. Por último, el proyecto pretende diseñar e implementar una estrategia de intervención social basada en la persuasión narrativa para aumentar la empatía de la audiencia y mitigar los efectos del odio en línea (SO3).

Esta iniciativa interdisciplinaria combina la psicología de los medios, la ciencia de datos, la comunicación y la psicología social para crear un enfoque holístico para combatir la intolerancia en línea. COIN se esfuerza por ofrecer avances técnicos en la detección del discurso de odio a través de estos esfuerzos y fomenta el cambio social al promover la empatía y la comprensión a través de intervenciones específicas.

Objetivo COIN

El cronograma del proyecto COIN evalúa el progreso de cada etapa en los primeros 12 meses del proyecto. Esta perspectiva es esencial para revisar las actividades, evaluar la eficacia de las metodologías establecidas e identificar cualquier desafío o ajuste necesario en el curso del proyecto.

Esta estructura temporal se centra en el trabajo completado en varias áreas centrales (WP), incluido el desarrollo de estructuras administrativas (entregables), el progreso en el diseño de la herramienta de detección automática de discursos de odio y las fases iniciales de recopilación y gestión de datos. Al documentar este progreso, el proyecto COIN permite a las partes interesadas tomar decisiones informadas sobre los próximos pasos, lo que garantiza que el proyecto siga encaminado y alineado con sus objetivos generales.

Paquete de trabajo 1: Avances administrativos y de capacitación

Actividades Iniciales

En los primeros meses del proyecto COIN, se lograron avances significativos en los frentes administrativo y de capacitación. El primer entregable, D1.1 – Plan de formación (noviembre de 2023), se desarrolló e implementó con éxito. Este documento describe el programa de capacitación integral diseñado para equipar a los miembros del equipo con habilidades avanzadas en análisis de datos computacionales, psicología de los medios, técnicas de IA y persuasión narrativa. El plan de formación se centró en preparar al equipo para trabajar con herramientas de detección de big data, aprendizaje automático y discursos de odio, y en fomentar la comprensión de los impactos sociales y sentimentales del discurso de odio en línea.

Los esfuerzos administrativos también se extendieron al apoyo a la carrera de los investigadores involucrados. Se iniciaron actividades de tutoría para garantizar que los miembros del equipo junior pudieran aprovechar la experiencia de los investigadores senior, especialmente en términos de conocimientos metodológicos y técnicos relacionados con los objetivos del proyecto. Las estructuras de presentación continua de informes y el desarrollo de planes de desarrollo profesional garantizaron un marco administrativo sólido para guiar el trabajo del equipo a lo largo del proyecto.

Hitos de planificación temprana

El proyecto estableció desde el principio mecanismos de coordinación precisos para garantizar la alineación con los objetivos de COIN. Las principales partes interesadas, incluido el Dr. Carlos Arcila Calderón (como supervisor) y el equipo del Observatorio de Contenidos Audiovisuales (OCA) de la Universidad de Salamanca, trabajaron juntos para establecer flujos de trabajo y canales de comunicación para facilitar la gestión de proyectos y la entrega de tareas críticas.

Estas primeras actividades culminaron con el desarrollo de la estructura organizativa de COIN, asegurando que todos los paquetes de trabajo (WP) estuvieran claramente definidos y que los entregables pudieran ser rastreados y monitoreados. La coordinación y organización con socios externos como la Fundación Al Fanar permitió al equipo integrar diversas perspectivas para abordar los objetivos finales del proyecto.

Los entregables planificados para el WP1 sirven como hitos críticos:

  • D1.1 – Plan de formación (noviembre de 2023): Este plan describía los módulos de formación necesarios para dotar al equipo de las habilidades necesarias en IA, big data y persuasión narrativa, así como en metodologías de psicología de los medios. El programa de formación también incluye actividades de tutoría y desarrollo profesional, lo que permite a los investigadores avanzar en sus respectivos campos.
  • D1.2 – Informe científico intermedio (enero de 2025): Este informe proporcionará una revisión detallada del progreso científico del proyecto a mitad de su cronograma. Evaluará el progreso de cada paquete de trabajo, evaluará los resultados preliminares de la herramienta automática de detección de discursos de odio (WP4) y analizará los hallazgos del seguimiento de contenidos de odio. Este informe es vital para realizar ajustes a mitad del proyecto y garantizar que el proyecto siga en camino de cumplir sus objetivos.
  • D1.3 – Informe de Memoria Temprana (octubre de 2024): El presente entregable evalúa las actividades administrativas, formativas y de investigación iniciales. Incluye una revisión de los primeros hitos del proyecto, incluido el desarrollo de la herramienta de detección, el análisis de contenido inicial y el progreso de la capacitación. El Informe de Memoria Temprana guiará las siguientes etapas del proyecto al proporcionar información sobre los primeros éxitos y desafíos.
  • D1.4 – Informe de Memoria Temprana 2 (marzo de 2026): Como seguimiento de D1.3, este segundo Informe de Memoria Temprana proporcionará una evaluación actualizada del progreso del proyecto a medida que se acerca su finalización. Revisará las fases finales del desarrollo de herramientas, las estrategias adicionales de intervención social implementadas y la preparación general del proyecto para la evaluación final.
  • D1.5 – Informe científico final (abril de 2026): Como culminación de las actividades del WP1, este informe sintetizará todos los hallazgos de todos los paquetes de trabajo. Incluirá un análisis exhaustivo de los resultados del proyecto, desde el desarrollo y la implementación de la herramienta de detección hasta la estrategia de intervención social y el aumento de la empatía. El informe final servirá como la contribución científica definitiva del proyecto COIN, destacando su impacto en la lucha contra la intolerancia en línea a través de tecnología de vanguardia e intervenciones sociales.

Estos entregables están diseñados estratégicamente para garantizar que el proyecto COIN se mantenga en marcha, con puntos de control en momentos críticos para evaluar el progreso, hacer los ajustes necesarios y documentar los resultados. Este enfoque estructurado garantiza que todos los aspectos del proyecto, desde las funciones administrativas hasta los descubrimientos científicos, se supervisen y se informen exhaustivamente.

Paquete de Trabajo 2: Diseminación y Gestión de Datos

Configuración de la gestión de datos

El Plan de Gestión de Datos (DMP) para el proyecto COIN, Deliverable D2.1 (previsto para abril de 2024), es una estrategia integral que garantiza que todos los datos recopilados y generados a lo largo del proyecto se adhieran a los principios FAIR (Localizable, Accesible, Interoperable y Reutilizable). Esta DMP establece protocolos precisos de recopilación, almacenamiento, acceso y difusión de datos para mantener los más altos estándares de integridad, seguridad y cumplimiento ético de los datos. Dada la naturaleza sensible de los datos relacionados con el discurso de odio en línea, el plan también incluye rigurosas medidas de seguridad, protocolos de encriptación y controles de acceso para salvaguardar la información confidencial.

El DMP incluye disposiciones para la preservación de datos a largo plazo a través de repositorios certificados, lo que garantiza que los datos sigan siendo accesibles y reutilizables por futuros investigadores, responsables políticos y partes interesadas. El plan es dinámico, con actualizaciones programadas para seis y 15 meses (junio de 2025) para incorporar avances tecnológicos, cambios regulatorios y necesidades cambiantes del proyecto.

Además, el plan aborda preocupaciones éticas como la anonimización y la seudonimización de datos, garantizando el cumplimiento del Reglamento General de Protección de Datos (RGPD). Los datos personales y confidenciales recopilados durante las entrevistas, los grupos focales y la participación pública se manejarán cuidadosamente para proteger las identidades de los participantes.

 

Actividades de divulgación

Los esfuerzos de divulgación de COIN son fundamentales para combatir el discurso de odio en línea e involucrar a una amplia gama de partes interesadas, incluido el público, los investigadores, los responsables políticos, los educadores y los medios de comunicación. Estos esfuerzos se detallan en varios entregables dentro del Paquete de Trabajo 2:

  • D2.2—Plan de Divulgación Científica (previsto para diciembre de 2023): Este plan describe estrategias para difundir los resultados del proyecto a través de diversos canales, incluidos eventos públicos, divulgación educativa y plataformas digitales. Las actividades clave incluyen la organización de conferencias y seminarios, la interacción con los profesionales de los medios de comunicación a través de comunicados de prensa y la garantía de una interacción continua en las redes sociales.
  • D2.3a—Actividades del Plan de Divulgación Científica (diciembre de 2024): Este entregable informará sobre las actividades iniciales realizadas como parte del Plan de Divulgación Científica. Estas actividades incluyen presentaciones públicas de los hallazgos del proyecto, talleres y seminarios que involucran a diversas audiencias en un diálogo sobre el discurso de odio en línea y los objetivos del proyecto COIN.
  • D2.3b—Actividades del Plan de Divulgación Científica (septiembre de 2025): Como seguimiento de D2.3a, este informe proporcionará una evaluación actualizada de los esfuerzos de divulgación en curso y evaluará el impacto de las estrategias de comunicación del proyecto. Este producto destacará lo bien que el proyecto COIN se ha conectado con el público objetivo, incluida su eficacia para aumentar la conciencia y el compromiso del público a través de las redes sociales, las conferencias y las interacciones en los medios (sociales).

 

Componentes clave de divulgación

  • Desarrollo del sitio web: El sitio web del proyecto COIN será un eje central para todos los entregables, informes y actualizaciones del proyecto. También contará con contenido atractivo para llegar a una audiencia amplia, incluidos los resultados de la investigación simplificada y materiales audiovisuales.
  • Presencia en las redes sociales: La participación activa en plataformas como Facebook, Twitter, Instagram y LinkedIn difundirá actualizaciones y creará un diálogo público en torno a los hallazgos del proyecto. Este alcance tiene como objetivo crear conciencia y fomentar la comprensión del discurso de odio en línea.
  • Comunicados de prensa y participación de los medios de comunicación: El proyecto celebrará conferencias de prensa y emitirá comunicados de prensa para informar a los periodistas y al público en general sobre los principales hitos y hallazgos del proyecto, haciendo hincapié en cómo el discurso de odio en línea afecta a los grupos vulnerables en España.
  • Conferencias y talleres: El proyecto COIN participará activamente en conferencias académicas, como la Conferencia Anual de la Asociación Internacional de Comunicación (ICA), y organizará talleres para involucrar a las partes interesadas en las discusiones sobre la detección y mitigación del discurso de odio en línea.

Paquete de Trabajo 3: Comunicación y Participación Pública

Resumen de Entregables

El Paquete de Trabajo 3 (WP3) tiene como objetivo comunicar los objetivos, el progreso y los resultados del proyecto COIN al público en general y a las diversas partes interesadas, garantizando la transparencia, el compromiso y la difusión efectiva de los hallazgos clave del proyecto. Este paquete de trabajo es fundamental para establecer una estrategia de comunicación integral que aproveche las plataformas digitales, las redes sociales y los medios de comunicación tradicionales para llegar e involucrar a audiencias diversas. Los entregables asociados con WP3 están diseñados para mejorar la visibilidad, promover la comprensión pública y fomentar el apoyo de la comunidad al proyecto.

Los resultados clave del WP3 son los siguientes:

  • D3.1 – Sitio web (junio de 2024): El sitio web del proyecto será un eje central para toda la información relacionada con el proyecto, incluidas publicaciones, comunicados de prensa, actualizaciones del proyecto y enlaces a los resultados de la investigación y las actividades asociadas. El sitio web será fácil de usar, accesible en todos los dispositivos y estará disponible en varios idiomas para adaptarse a una audiencia diversa.
  • D3.2 – Redes Sociales (octubre 2024): Se crearán y gestionarán perfiles de redes sociales en las plataformas de Twitter, Facebook, Instagram y LinkedIn. Estos perfiles permitirán actualizaciones en tiempo real, promoverán la interacción de las partes interesadas y difundirán información sobre las actividades, los hallazgos y los eventos del proyecto.
  • D3.3 – Comunicados de prensa: Se han programado tres comunicados de prensa:
    • D3.3a – Primer comunicado de prensa (diciembre de 2024): Este comunicado de prensa inicial presentará el proyecto a la comunidad en general, describirá sus objetivos e informará sobre los primeros hitos.
    • D3.3b – Segundo comunicado de prensa (septiembre de 2025): Este comunicado actualizará el progreso del proyecto, destacará los hallazgos significativos y promoverá los próximos eventos.
    • D3.3c – Comunicado de prensa final (abril de 2026): El comunicado de prensa final resumirá los resultados del proyecto, su impacto más amplio y la disponibilidad de herramientas cruciales desarrolladas, como el detector automático de contenido de odio y las estrategias de intervención social

 

Sitio web del proyecto (D3.1)

El sitio web de COIN (D3.1), que se lanzará en junio de 2024, es una de las principales herramientas para difundir información sobre el proyecto. Incluye:

  • Página de inicio: Ofrece una visión general de la misión, los objetivos y las actualizaciones del proyecto, destacando su objetivo de

Combatir la incitación al odio en línea contra grupos vulnerables.

  • Sección Acerca de: Información detallada sobre el marco del proyecto, la financiación, los miembros del equipo y

participando en organizaciones como la Universidad de Salamanca y la Fundación Al Fanar.

  • Investigación y publicaciones: Esta sección albergará un repositorio de trabajos de investigación, informes y otros resultados científicos generados por el proyecto y proporcionará acceso a datos y recursos para futuras investigaciones.
  • Noticias y eventos: Actualizamos regularmente los hitos de los proyectos, talleres, seminarios y noticias relacionadas con la investigación del discurso de odio en línea.
  • Materiales de formación: Contenidos educativos destinados a ayudar a las personas y organizaciones a reconocer y contrarrestar la intolerancia en línea.
  • Sección de contacto: Datos de contacto para consultas y colaboraciones y enlaces a las redes sociales del proyecto

páginas para una mayor participación.

El sitio web será responsivo, lo que garantiza la accesibilidad en todos los dispositivos, y estará disponible en varios idiomas para adaptarse a diversos grupos de usuarios.

Redes Sociales (D3.2)

En octubre de 2024, se establecerán perfiles de redes sociales en  las plataformas de Twitter, Facebook, Instagram y LinkedIn. Estos perfiles servirán como canales de comunicación clave, lo que permitirá que el proyecto COIN llegue a un público más amplio, interactúe con las partes interesadas y promueva actualizaciones en tiempo real sobre las actividades del proyecto. La estrategia de redes sociales se centrará en:

  • Involucrar al público: Compartir los desarrollos y hallazgos del proyecto y promover debates sobre la lucha contra el discurso de odio en línea.
  • Interacción con las partes interesadas: Facilitar las discusiones con investigadores, formuladores de políticas y los medios de comunicación para crear conciencia y fomentar la colaboración.
  • Promoción de eventos: Promoción de próximas conferencias, talleres y seminarios relacionados con el proyecto

Comunicados de prensa (D3.3a, D3.3b, D3.3c)

Se emitirán tres comunicados de prensa a lo largo del proyecto para garantizar la participación pública y la cobertura de los medios de comunicación:

  • Primer comunicado de prensa (D3.3a, diciembre de 2024): Este comunicado presentará el proyecto COIN, sus objetivos y el trabajo para monitorear y combatir el discurso de odio en línea. Se dirigirá a los medios de comunicación para generar conciencia y apoyo.
  • Segundo comunicado de prensa (D3.3b, septiembre de 2025): Este comunicado actualizará al público sobre hitos importantes del proyecto, como el desarrollo de la herramienta de detección de discursos de odio y los primeros resultados del análisis de datos.
  • Comunicado de prensa final (D3.3c, abril de 2026): El comunicado de prensa final mostrará los logros generales del proyecto, proporcionará acceso a las herramientas y recursos desarrollados y hará hincapié en el impacto social de la intervención del proyecto.

Paquete de Trabajo 4: Creación de Detectores de Contenido de Odio

Desarrollo de herramientas iniciales

El desarrollo de la herramienta de detección de discursos de odio para el proyecto COIN, conocida como Deliverable D4.1, ha avanzado a través de varias fases clave. Esta herramienta tiene como objetivo detectar y rastrear automáticamente el discurso de odio en varias plataformas, dirigido a grupos específicos como migrantes, musulmanes, personas LGBTIQ, romaníes y comunidades judías. La atención se centra en identificar el discurso de odio en línea arraigado en la xenofobia, el odio antimusulmán, el antisemitismo, el antigitanismo y la LGBTIQfobia.

  • Las actividades fundamentales en esta fase incluyen:
    • Recopilación de datos: El proyecto recopiló grandes conjuntos de datos de plataformas de redes sociales como Twitter, Facebook, TikTok e Instagram utilizando API y raspado manual de datos. Los datos se centraron en casos de discursos de odio relacionados con grupos vulnerables. Se utilizaron búsquedas booleanas con palabras clave específicas para refinar el proceso de recopilación, asegurando la relevancia de los datos.
    • Preprocesamiento de datos: Los datos recopilados se sometieron a etapas de preprocesamiento, incluida la eliminación de ruido, la normalización y la categorización manual. Esto fue crucial para entrenar a los modelos de manera efectiva. La codificación manual de expertos ayudó a clasificar los datos en categorías de discurso de odio, discurso no de odio e irrelevante, lo que garantizó datos de alta calidad para el entrenamiento de aprendizaje automático.
    • Entrenamiento de modelos de aprendizaje automático: La herramienta se basa en modelos avanzados de aprendizaje automático, que incluyen técnicas BERT (Bidirectional Encoder Representations from Transformers) y Elastic Net, elegidas por su capacidad para manejar datos complejos y multilingües. Los modelos se entrenaron para detectar y categorizar el discurso de odio contra diferentes grupos vulnerables en función de las expresiones de discurso de odio explícitas e implícitas.

 

Desafíos y ajustes

Si bien los avances en la herramienta de detección han sido prometedores, han surgido varios desafíos:

  • Diversidad de datos y adaptación multilingüe: Un reto clave ha sido garantizar que la herramienta sea adaptable a diferentes idiomas y contextos culturales, especialmente dentro de la diversa población española. El equipo se enfrentó a dificultades para garantizar que los modelos pudieran detectar con precisión el discurso de odio en varios idiomas y dialectos. Para hacer frente a esto, se adaptaron modelos multilingües como BERT para garantizar la precisión en todos los idiomas.
  • Fiabilidad entre codificadores: Garantizar la coherencia en el etiquetado de datos ha sido otro reto. Se llevaron a cabo rigurosas pruebas de confiabilidad entre códigos para abordar las discrepancias en el proceso de codificación manual. Este paso era necesario para mantener la integridad del conjunto de datos y mejorar la precisión del entrenamiento del modelo.
  • Falsos positivos y falsos negativos: Durante la validación del modelo, el equipo encontró problemas con los falsos positivos (clasificar incorrectamente el discurso que no es de odio como discurso de odio) y los falsos negativos (falta el discurso de odio real). Se están implementando ajustes en la arquitectura del modelo y más capacitación en un conjunto de datos más matizado para reducir estos errores.
  • Escalabilidad y monitoreo en tiempo real: Desarrollar una herramienta que pueda operar en tiempo real y manejar entradas de datos a gran escala es un desafío técnico importante. El equipo optimiza la escalabilidad del modelo para garantizar que pueda procesar grandes cantidades de datos de manera eficiente sin comprometer la precisión.

Describa el progreso en las fases iniciales del desarrollo de la herramienta de detección del discurso de odio. En esta sección se podría detallar la configuración de los conjuntos de datos iniciales, la recopilación de ejemplos de discursos de odio y los inicios del entrenamiento de modelos de aprendizaje automático.

 

Desarrollo e implementación de la herramienta de detección (D4.1)

La Herramienta de Detección y Seguimiento Automático (D4.1) es un producto central en el Paquete de Trabajo 4. Está diseñado para identificar, categorizar y rastrear diversas formas de discurso de odio en línea, incluida la xenofobia, el odio antimusulmán, el antisemitismo, el antigitanismo y la LGBTIQfobia. La creación de esta herramienta ha supuesto un enfoque sistemático y multifase para garantizar su efectividad en la detección en tiempo real y su adaptabilidad a diferentes plataformas y contextos.

Enfoque metodológico

El desarrollo de la herramienta se basó en una metodología sólida e interdisciplinaria que combina la recopilación de big data, el procesamiento del lenguaje natural (NLP) y el aprendizaje automático (ML). Esta combinación proporcionó la infraestructura para detectar formas matizadas de discurso de odio en plataformas como Twitter, Facebook, TikTok e Instagram. La metodología siguió varias etapas:

  • Recopilación y preparación de datos:
    • Fuentes de datos: El proceso de recopilación se centró en conjuntos de datos a gran escala de las principales plataformas de redes sociales, haciendo hincapié en los datos relacionados con el discurso de odio contra grupos vulnerables como los migrantes, los judíos, los musulmanes y los romaníes. La recopilación de datos utilizó API (por ejemplo, Twitter API) y técnicas de raspado de datos, complementadas con búsquedas manuales.
    • Preprocesamiento de datos: Después de la recopilación, los datos se preprocesaron utilizando técnicas como la normalización de texto, la eliminación de ruido y la tokenización. Esta fase también incluyó la codificación manual de ejemplos de discursos de odio, guiados por un libro de códigos desarrollado explícitamente para el proyecto. Este esfuerzo manual garantizó una entrada de alta calidad para el entrenamiento del modelo, lo que contribuyó a la precisión general de la herramienta.
  • Desarrollo de modelos y formación:
    • El núcleo de la herramienta se basa en BERT (Bidirectional Encoder Representations from Transformers), un modelo de lenguaje preentrenado y ajustado para la detección de discursos de odio. BERT fue elegido por su comprensión contextual del lenguaje, que le permite comprender distinciones sutiles entre el discurso de odio y el discurso que no lo es, particularmente en lenguaje complejo o codificado.
    • La herramienta también se complementó con los modelos Elastic Net y XGBoost para mejorar aún más su capacidad para detectar patrones de discurso de odio en diferentes contextos. Los modelos se entrenaron utilizando conjuntos de datos etiquetados manualmente, con un ajuste riguroso para mejorar las métricas de rendimiento, como la precisión, la recuperación y la puntuación F1.
  • Validación y pruebas:
    • Se aplicaron técnicas de validación cruzada a los modelos para probar su generalización. La herramienta se validó utilizando entrenamiento y conjuntos de datos no vistos, lo que garantizó que pudiera clasificar con precisión el discurso de odio en diversas plataformas e idiomas. Se realizó un seguimiento continuo de métricas como la precisión, la recuperación, la exactitud y la puntuación F1 para refinar los modelos durante las pruebas.
    • Además, se llevó a cabo una prueba de fiabilidad entre codificadores para garantizar la coherencia y la precisión en el etiquetado manual. El proyecto minimizó los sesgos al abordar las incoherencias en la codificación manual y garantizó que la herramienta pudiera detectar eficazmente el discurso de odio en diversos contextos.

 

Resultados clave

La herramienta automática de detección y seguimiento demostró resultados notables que son cruciales para el desarrollo posterior del proyecto:

  • Alta precisión de detección: el modelo logró tasas de precisión impresionantes, con puntuaciones F1 consistentemente por encima

0,85 en la detección de xenofobia, antisemitismo y LGTBIQfobia. Esta alta precisión garantiza que la herramienta pueda identificar de forma fiable el discurso de odio al tiempo que minimiza los falsos positivos y negativos.

  • Adaptación multilingüe y multiplataforma: La adaptabilidad de la herramienta en todos los idiomas y plataformas es un logro destacado. El diseño independiente del idioma de BERT fue fundamental para garantizar una detección precisa del discurso de odio en las comunidades de habla hispana, un enfoque del proyecto COIN. Esta adaptabilidad hace que la herramienta sea escalable a otras regiones e idiomas en futuras iteraciones.
  • Capacidades de monitoreo en tiempo real: Si bien el desarrollo inicial se centró en la precisión de la detección, la herramienta ahora se ha perfeccionado para incluir capacidades de monitoreo en tiempo real. Esto permitirá una identificación y mitigación más rápidas del discurso de odio a medida que surja en las plataformas. Esta función es fundamental para abordar la naturaleza dinámica y vertiginosa del discurso en línea.

 

Construcción y utilidad del conjunto de contenidos de odio (D4.2)

El Conjunto de contenido de odio (D4.2) es un conjunto de datos fundamental para el entrenamiento, la validación y la mejora continua de la herramienta de detección. Su creación siguió un riguroso proceso para garantizar que refleje las diversas formas de discurso de odio que prevalecen en las redes sociales. D4.2 es un producto técnico y un recurso crucial para comprender los patrones narrativos y los mecanismos de difusión del discurso de odio contra grupos vulnerables específicos.

 

Proceso para la construcción de conjuntos de datos

  • Enfoque Temático y Categorización:
    • El conjunto de datos se seleccionó meticulosamente para incluir ejemplos de discursos de odio dirigidos específicamente a migrantes, musulmanes, comunidades LGBTIQ, judíos y romaníes. Este enfoque temático garantizó que el conjunto de datos capturara las narrativas más relevantes y dañinas que afectan a estos grupos, basándose en eventos sociales y políticos recientes.
    • Cada caso de discurso de odio en el conjunto de datos se clasificó en función de la gravedad, la fuente y el tipo de sesgo (por ejemplo, xenofobia, antisemitismo). Esta categorización detallada permitió una mejor capacitación del modelo y una comprensión integral de las manifestaciones del discurso de odio en todas las plataformas.
  • Aumento y normalización de datos:
    • Se emplearon técnicas de aumento de datos para mejorar la solidez del conjunto de datos. Esto incluyó la generación artificial de ejemplos adicionales de discurso de odio mediante el ajuste de estructuras lingüísticas y el uso de sinónimos para simular diversas formas en que se expresa el discurso de odio. El aumento fue fundamental para entrenar a los modelos para manejar formas matizadas u ocultas de discurso de odio.
    • La normalización también fue un paso esencial para garantizar la calidad del conjunto de datos. Las publicaciones y los comentarios se normalizaron para las variaciones de mayúsculas y minúsculas, puntuación y ortografía para evitar que el modelo clasificara erróneamente el contenido en función de variaciones irrelevantes.

 

Resultados clave

  • Conjunto de datos diverso y de alta calidad: El conjunto de contenido de odio destaca por su diversidad y amplitud. El conjunto de datos garantiza que la herramienta de detección esté bien preparada para abordar el discurso de odio en diversas formas al incluir una amplia gama de ejemplos de diferentes sesgos y plataformas. Proporciona un recurso sin precedentes para futuros estudios sobre el discurso de odio en línea.
  • Análisis interseccional del discurso de odio: Un resultado significativo de D4.2 es su capacidad para mapear el discurso de odio interseccional, donde se superponen múltiples formas de sesgo (por ejemplo, islamofobia y LGBTIQfobia). Este enfoque interseccional permite que la herramienta de detección detecte el discurso de odio dirigido a personas o comunidades que ocupan múltiples identidades marginadas.
  • Repositorio de acceso abierto: El conjunto de datos estará disponible como un repositorio de acceso abierto, lo que permitirá a los investigadores, responsables de la formulación de políticas y educadores aprovechar este recurso en su trabajo. Este aspecto de D4.2 subraya el compromiso del proyecto COIN de fomentar una comprensión y una respuesta más amplias al discurso de odio en línea en varios campos.

 

Desafíos y lecciones aprendidas

El desarrollo de D4.1 y D4.2 presentó importantes desafíos técnicos y metodológicos :

  1. Volumen y diversidad de datos: Reunir un conjunto de datos suficientemente diverso sin introducir ruido o contenido irrelevante fue un desafío crítico. El equipo tuvo que equilibrar la captura de varias expresiones de discurso de odio y asegurarse de que los datos irrelevantes no sesgaran el entrenamiento del modelo.
  2. Multilingüe y matices culturales: Otro desafío importante fue garantizar la adaptabilidad de la herramienta a diferentes variaciones lingüísticas y contextos culturales. El proyecto tuvo que afinar los modelos para detectar el discurso de odio en otros marcos lingüísticos y culturales sin perder precisión.
  3. Capacidades en tiempo real: La creación de una herramienta capaz de monitorear en tiempo real mientras se mantiene una alta precisión requiere mucha optimización computacional. El equipo continúa refinando la eficiencia de la herramienta para permitirle procesar rápidamente grandes cantidades de datos sin sacrificar la precisión.

Paquete de Trabajo 5: Características e Impacto Social del Discurso de Odio en Línea

Inicio de la revisión de la literatura (entregable D5.1)

La revisión de la literatura en el marco del Entregable D5.1 sirve como etapa fundamental del Paquete de Trabajo 5. Su objetivo es recopilar y evaluar críticamente las investigaciones existentes sobre el discurso de odio en línea, con un enfoque específico en grupos vulnerables como migrantes, musulmanes, judíos, romaníes y comunidades LGBTIQ. Esta etapa es fundamental para establecer el marco teórico para la investigación empírica posterior y proporciona una comprensión estructurada de las diversas formas e impactos del discurso de odio.

 

Los elementos del proceso de revisión incluyen

  1. Recopilación sistemática de literatura: Se trata de una revisión extensa y sistemática de 1.108 documentos (principalmente artículos académicos, informes institucionales y estudios empíricos sobre las manifestaciones del discurso de odio) en España y a nivel mundial. El proyecto aprovecha fuentes nacionales e internacionales para garantizar una cobertura integral, especialmente en el contexto de la investigación sobre el discurso de odio en las comunidades de habla hispana.
  2. Enfoque en la interseccionalidad y los grupos vulnerables: La revisión enfatiza la interseccionalidad del discurso de odio, analizando cómo las personas de múltiples grupos vulnerables, como los migrantes musulmanes o los judíos LGBTIQ, se ven afectadas de manera desproporcionada. Este enfoque interseccional ayuda a identificar formas compuestas de discriminación y odio que a menudo no se exploran en la literatura.
  3. Identificación de temas clave: La literatura recopilada está organizada en áreas temáticas clave como la xenofobia, el antisemitismo, el odio antimusulmán, el antigitanismo y la LGBTIQfobia. Esta estructuración temática ayudará al proyecto a orientar su análisis empírico de manera más efectiva y a sentar una base teórica sólida para futuros resultados.

La revisión de la literatura identificará las lagunas de conocimiento en la investigación actual sobre el discurso de odio e informará el diseño de la recopilación y el análisis de datos empíricos del proyecto COIN. También pondrá de relieve las áreas en las que se necesitan nuevos conocimientos, garantizando que el proyecto contribuya a los debates académicos y políticos de vanguardia sobre el discurso de odio en línea.

 

Recopilación de datos empíricos (entregable D5.2)

El objetivo del Entregable D5.2 es recopilar y analizar datos secundarios relacionados con el discurso de odio en línea dirigido a los mismos grupos vulnerables. Esta recopilación de datos se basa en los conjuntos de datos del Paquete de Trabajo 4 y tiene como objetivo mapear la prevalencia y las características del discurso de odio en línea. Se centra en identificar patrones y narrativas de contenido de odio que circulan en las principales plataformas de redes sociales como Twitter, Facebook, Instagram y TikTok.

 

Enfoque metodológico

  • Fuentes de datos: La recopilación de datos empíricos se centra en plataformas como Twitter, Facebook, Instagram y TikTok, que se utilizan habitualmente para difundir discursos de odio. El conjunto de datos incluye mensajes, publicaciones, comentarios y vídeos dirigidos a migrantes, judíos, musulmanes, personas LGBTIQ y comunidades romaníes.
  • Categorización: Los datos se clasifican en 12 categorías distintas, que incluyen discurso de odio explícito, discurso de odio implícito y discurso de odio interseccional. Se hace hincapié en la identificación de cuándo se combinan múltiples formas de prejuicio (por ejemplo, xenofobia e islamofobia) en un solo contenido.

 

Primeros desafíos y adaptaciones.

  • Variaciones específicas de la plataforma: La naturaleza del discurso de odio varía significativamente entre plataformas. Por ejemplo, Twitter puede ver formas más concisas y codificadas de discurso de odio, mientras que Facebook aloja publicaciones más largas y explícitas. Para abordar estas variaciones, es necesario adaptar los modelos de aprendizaje automático para la categorización y la detección.
  • Diversidad de datos y desafíos lingüísticos: La identificación de expresiones de discurso de odio sutiles o codificadas en diferentes idiomas y contextos culturales ha sido un problema importante. El equipo ha mejorado los algoritmos que reconocen estos patrones y ha mejorado el conjunto de datos de entrenamiento para reflejar diversas expresiones de discurso de odio.

Los datos recopilados en el marco del Entregable D5.2 proporcionan una base sólida para comprender cómo se difunde el discurso de odio en línea a través de las plataformas. Se centra en las formas únicas en que el discurso de odio interseccional afecta a los grupos vulnerables. Este producto contribuye a la construcción de un conjunto integral de contenidos de odio que se analizará más a fondo en los siguientes paquetes de trabajo.

 

Informe sobre los resultados del análisis de contenido (Entregable D5.3)

El Entregable D5.3 sintetiza las ideas del análisis de contenido del discurso de odio recopilado en el Entregable D5.2 (diciembre de 2024), centrándose en los patrones de difusión, las narrativas y las estrategias utilizadas por los perpetradores de discursos de odio en línea. Este informe elaborará un mapa detallado de las tendencias del discurso de odio en línea, tanto contra grupos vulnerables específicos como en contextos interseccionales en los que se superponen múltiples formas de discriminación.

 

Resultados del análisis de contenido

  • Mapeo de narrativas de odio: El análisis categoriza y mapea los temas, argumentos y estrategias discursivas empleadas en el discurso de odio. Por ejemplo, el discurso de odio contra los migrantes a menudo incluye narrativas relacionadas con la competencia económica o las preocupaciones de seguridad, mientras que el odio contra los musulmanes puede involucrar temas de extremismo religioso.
  • Interseccionalidad en el discurso de odio: Un enfoque importante del informe es la identificación del odio interseccional, donde los mensajes contienen elementos de múltiples prejuicios (por ejemplo, odio contra los romaníes y contra las personas LGBTIQ). Este análisis proporciona una comprensión más profunda de cómo las dinámicas del discurso de odio se cruzan para amplificar la discriminación que enfrentan las personas con múltiples identidades vulnerables.

 

Impacto del discurso de odio

El informe también evaluará el impacto social del discurso de odio analizado, analizando cómo influye en el discurso público, alimenta la desinformación y contribuye a la marginación de los grupos vulnerables. Este aspecto del Entregable D5.3 es crucial para comprender las consecuencias sociales más amplias del discurso de odio en línea, allanando el camino para intervenciones específicas para fomentar la empatía y reducir el daño.

 

Pasos siguientes

Hitos clave para el próximo período

El proyecto COIN está entrando en una fase con actividades significativas en los Paquetes de Trabajo 6, 7 y 8 que se completarán en los próximos meses. Estos hitos reforzarán aún más los objetivos del proyecto en la lucha contra el discurso de odio en línea a través de herramientas de detección innovadoras y estrategias de intervención social.

Paquete de Trabajo 6: Perspectivas de los Productores Audiovisuales

El WP6 se centrará en recopilar y analizar las opiniones de los productores audiovisuales para comprender cómo se puede utilizar eficazmente la persuasión narrativa para combatir el discurso de odio. Se prevén los siguientes hitos:

  • D6.1—Informe de Grupos Focales (abril de 2025): Realice 5-6 grupos focales con productores audiovisuales para recopilar perspectivas sobre la creación de narrativas convincentes. Estos grupos focales incluirán a profesionales de diversos ámbitos, como guionistas, directores y responsables de medios. El objetivo es comprender qué técnicas de narración de historias aumentan de manera más efectiva la empatía hacia los grupos afectados por el discurso de odio.
  • D6.2—Informe de entrevistas (agosto de 2025): Las entrevistas en profundidad con 11-13 productores audiovisuales complementarán los hallazgos del grupo focal, proporcionando una visión más profunda sobre el desarrollo de los personajes y las estrategias narrativas diseñadas para aumentar la empatía de la audiencia. Estas entrevistas también darán forma a la estrategia de intervención social desarrollada en el WP7.
  • D6.3—Informe informativo (septiembre de 2025): Un informe que consolida las ideas de los grupos focales y las entrevistas. Este briefing servirá de guía para el diseño de las narrativas audiovisuales utilizadas en las intervenciones sociales del proyecto.

Paquete de Trabajo 7: Estrategia de Intervención Social

Sobre la base de los hallazgos del WP6, el WP7 se centrará en el desarrollo de una estrategia de intervención que utilice la persuasión narrativa para reducir el impacto social del discurso de odio en línea.

  • D7.1 – Informe de Estrategia de Intervención Social (noviembre de 2025): Este entregable describirá la estrategia de intervención finalizada, que incluirá el diseño de historias narrativas audiovisuales destinadas a aumentar la empatía entre la audiencia. El plan se adaptará a los diferentes tipos de discurso de odio, incluido el odio interseccional, y tendrá en cuenta las diferencias sociodemográficas de los destinatarios.

Paquete de Trabajo 8: Informe Final y Conjunto de Contenido de Odio

El WP8 se centrará en la evaluación final y la síntesis de todas las actividades del proyecto, haciendo hincapié en el seguimiento de los discursos de odio, en particular los contenidos islamófobos.

  • D8.1 – Informe final sobre la asignación obligatoria (abril de 2026): Este informe resumirá el seguimiento del discurso de odio realizado utilizando la herramienta de detección desarrollada en el WP4, proporcionando información sobre los patrones de difusión del discurso de odio contra grupos vulnerables, centrándose en la islamofobia.
  • D8.2 – Conjunto de contenido de odio (abril de 2026): Este entregable final compilará todo el contenido de odio analizado a lo largo del proyecto, proporcionando un conjunto de datos completo que estará disponible para futuros esfuerzos de investigación y formulación de políticas.

Recomendaciones para ajustes

Se proponen recomendaciones de ajustes para alinearse con los objetivos a largo plazo del proyecto:

  1. Complementar la herramienta de detección: Los resultados en línea y de la evaluación de impacto sugieren que puede ser necesario complementar aún más los algoritmos de detección para mejorar el impacto empírico y la precisión en la detección del discurso de odio interseccional (WP6 y 7). Garantizar la adaptabilidad en diversas plataformas (en línea y fuera de línea) e idiomas mejorará la eficiencia de la herramienta.
  2. Centrarse en la interseccionalidad: Los primeros hallazgos enfatizan la importancia de centrarse en el discurso de odio interseccional, donde se superponen múltiples formas de sesgo. Este aspecto debe explorarse más a fondo, tanto en el análisis de contenido como en el diseño de estrategias de intervención social, asegurando que las narrativas resuenen con las personas afectadas por formas interseccionales de discriminación.
  3. Participación de las partes interesadas: Para garantizar la eficacia de la estrategia de intervención social, se recomienda una mayor participación de las partes interesadas, incluidos los profesionales del sector audiovisual y las organizaciones comunitarias (WP6 y 7). Estas colaboraciones serán vitales para desarrollar narrativas y estrategias impactantes.

En colaboración con:

Proyecto financiado por la Unión Europea. Acciones Marie Skłodowska-Curie – H2020-MSCA-COFUND-2020-USAL4EXCELLENCE-PROOPI-663. Número de acuerdo de subvención: N. 101034371. Referencia interna de USAL: 8925-8553.

Curie