Lucha contra la intolerancia en Internet contra grupos especialmente vulnerables. Monitoreo a gran escala y combate narrativo del odio en Internet en España (COIN)

Detectores de contenido de odio

Proceso y resultados de la «Herramienta automática de detección y seguimiento» de discursos de odio

 

En el cambiante panorama de la comunicación digital, las plataformas de redes sociales se han convertido en espacios fundamentales para el discurso público, permitiendo a usuarios de todo el mundo compartir ideas, experiencias y perspectivas. Si bien estas plataformas ofrecen beneficios significativos para la conectividad social y el intercambio de información, también presentan desafíos, especialmente en forma de discurso de odio. El discurso de odio, definido como cualquier comunicación que menosprecie a una persona o a un grupo en función de alguna característica como la raza, la religión, la etnia, la orientación sexual, la discapacidad o el género, representa una amenaza significativa para la armonía de la comunidad, la seguridad individual y los principios fundamentales de la democracia.

La proliferación de discursos de odio en línea requiere el desarrollo de herramientas sofisticadas capaces de detectar y rastrear dichos contenidos y analizar sus patrones y posibles impactos en la sociedad. Reconociendo este imperativo, el equipo de COIN desarrolla una herramienta automática de detección y seguimiento de discursos de odio como parte del Paquete de Trabajo 4 (WP4). Entregable 4.1. se basa en la creación de la Herramienta Automática de Detección y Seguimiento. Una iniciativa de «Detector de contenido de odio» que tiene como objetivo aprovechar modelos computacionales de vanguardia y algoritmos de aprendizaje automático para identificar, clasificar y monitorear sistemáticamente el discurso de odio en varias plataformas de redes sociales.

El informe Deliverable 4.1 describe la evolución de este proyecto desde la conceptualización hasta la implementación, detallando las metodologías innovadoras empleadas, los desafíos encontrados y los conocimientos obtenidos. Al aprovechar un conjunto de datos completo que abarca varios años y abarca una amplia gama de manifestaciones de discurso de odio, esta herramienta busca avanzar en la comprensión académica de la dinámica del discurso de odio y proporcionar soluciones prácticas para mitigar su presencia en las plataformas de redes sociales. A través de este esfuerzo, nuestro objetivo es crear un entorno en línea más seguro, respetuoso e inclusivo para todos los usuarios.

 

Objetivos

La creación de una Herramienta Automática de Detección y Seguimiento de Contenidos de Odio tiene los siguientes objetivos específicos:

(OE1) Analizar las estructuras de la red y los patrones de propagación: Investigar las estructuras de la comunidad y cómo el contenido de odio se propaga a través de diferentes audiencias, centrándose principalmente en los grupos vulnerables que experimentan formas interseccionales de odio.

(OE2) Desarrollar Modelos de Detección y Monitoreo: Crear varios modelos para detectar y monitorear automáticamente diferentes formas de discurso de odio en línea, incluido un modelo combinado para abordar el odio interseccional contra grupos particularmente vulnerables.

(SO3) Monitorear el contenido de odio en las redes sociales: Para rastrear el contenido de odio dirigido a diferentes audiencias y grupos especialmente vulnerables en plataformas como Twitter, Facebook e Instagram donde están presentes múltiples características generadoras de rechazo.

(OE4) Mapear las formas de discurso de odio: Para mapear de manera integral las diferentes formas de discurso de odio en línea, incluido un mapa agregado de odio interseccional contra grupos particularmente vulnerables.

 

Método

El desarrollo y la implementación de una herramienta automatizada para detectar y rastrear el discurso de odio dentro del proyecto COIN incorporan un enfoque metodológico integral, que combina una recopilación meticulosa de datos, un modelado computacional avanzado y un marco sólido para la validación. Esta sección presenta una visión general integrada de la metodología, haciendo hincapié en la precisión y eficacia de la herramienta para identificar el discurso de odio en diversos panoramas de las redes sociales.

Nuestra expedición metodológica se embarcó en una ambiciosa iniciativa de recopilación de datos para encapsular las múltiples expresiones de discurso de odio dispersas en las plataformas de redes sociales durante los últimos años. Este rico conjunto de datos, fundamental para las etapas posteriores del proyecto, facilitó la implementación de modelos computacionales sofisticados para clasificar y analizar los datos con precisión.

En el centro de nuestro enfoque estaba la aplicación de técnicas de aprendizaje automático de vanguardia, como la autorregresión vectorial (VAR), Elastic Net y XGBoost (XGBTree). Estos modelos fueron cuidadosamente elegidos y calibrados para enfrentar los desafíos específicos planteados por la naturaleza voluminosa y desestructurada de los datos de las redes sociales. Su selección se basó en su capacidad demostrada para procesar conjuntos de datos de grandes dimensiones y discernir patrones matizados característicos del discurso de odio.

Al mismo tiempo, se estableció un riguroso marco de validación para evaluar a fondo la eficacia de la herramienta en varios contextos. Esto incluyó técnicas de validación cruzada aplicadas a los datos de entrenamiento y validaciones externas sobre datos no vistos anteriormente, lo que garantizó la solidez y fiabilidad de la herramienta para identificar el discurso de odio en diferentes regiones y contextos culturales.

Lo que distinguió aún más nuestra metodología fue un doble énfasis en lograr una alta confiabilidad entre codificadores y diseñar un sistema automatizado para el etiquetado de datos. El primero garantizó la precisión y consistencia del etiquetado de datos, que es esencial para el entrenamiento preciso de nuestros modelos. Este último permitió el procesamiento oportuno de extensos conjuntos de datos, lo que garantiza la capacidad de nuestra herramienta para detectar discursos de odio en numerosas plataformas de manera eficiente y a escala, específicamente dentro del ámbito de las redes sociales de habla hispana.

El modelo de texto supervisado, fundamental para nuestros esfuerzos, se diseñó para el análisis de sentimientos matizados. Su objetivo es diferenciar eficazmente entre el discurso de odio y el discurso que no lo es. Al aprender de ejemplos de ambos tipos de mensajes, el modelo evoluciona para hacer predicciones precisas.

La evaluación del rendimiento de este modelo es fundamental y un subconjunto de los datos de entrenamiento debe reservarse para fines de prueba y verificación. Este paso es vital para determinar la exactitud, la precisión, la puntuación F1, la recuperación y el área bajo la curva (AUC) del modelo, lo que garantiza su fiabilidad.

Tras la validación, el modelo está listo para su aplicación en nuevos conjuntos de datos dentro del proyecto COIN, siguiendo un proceso de desarrollo bien delineado. Esto incluye la integración de nuevos datos de redes sociales para el análisis predictivo y el aprovechamiento de tecnologías avanzadas como las redes neuronales y la lógica de Transformer, ejemplificada por BERT (Bidirectional Encoder Representations from Transformers). La incorporación de BERT a nuestra metodología mejora la capacidad de nuestra herramienta, entrenándola en un corpus especializado para comprender las complejidades del discurso de odio y no odio, facilitando así el análisis sofisticado del lenguaje natural a una escala antes inalcanzable.

Este enfoque metodológico integrado, que combina una rigurosa recopilación de datos, técnicas computacionales avanzadas y procesos de validación exhaustivos, establece un nuevo estándar en la detección y el análisis automatizados del discurso de odio. Subraya el compromiso del proyecto COIN de aprovechar la tecnología de vanguardia para el bien social.

 

Recopilación y preparación de datos

La metodología del proyecto COIN se basa en un extenso esfuerzo de recopilación de datos que abarca varios años y se centra en diversas formas de discurso de odio, como el sentimiento antimusulmán, la fobia LGBTIQ+, la xenofobia, el antigitanismo y el antisemitismo. Nuestras fuentes de datos incluían plataformas de redes sociales populares como Twitter (ahora X), Facebook e Instagram. El proceso implicó:

 

  • Acceso a las API de redes sociales: Iniciamos nuestra recopilación de datos accediendo a los portales de desarrolladores de las principales plataformas de redes sociales, incluidas Twitter, Facebook e Instagram. Este paso fue esencial para obtener los permisos y las herramientas necesarias para el raspado de datos, lo que nos permitió recopilar un vasto conjunto de datos de publicaciones públicas, comentarios y tweets que potencialmente contenían discursos de odio. Al utilizar la API v.2 de Twitter y puntos de acceso equivalentes para Facebook e Instagram, recopilamos de manera eficiente datos relacionados con nuestros temas específicos de discurso de odio.
  • Implementación de criterios de búsqueda booleanos: Para mejorar la relevancia y especificidad de los mensajes recopilados, implementamos operadores booleanos AND y OR dentro de nuestros criterios de búsqueda. Este enfoque estratégico nos permitió perfeccionar nuestro proceso de extracción de datos, asegurándonos de que capturamos contenido realmente indicativo de discurso de odio, no discurso de odio o material irrelevante. Esta precisión en la recopilación de datos fue fundamental para las etapas posteriores de análisis y entrenamiento del modelo.
  • Categorización manual: Un componente crucial de nuestra metodología fue la categorización manual del contenido recopilado. Un equipo dedicado de codificadores clasificó meticulosamente cada publicación, comentario y tweet en categorías distintas: discurso de odio, discurso que no es de odio y material irrelevante. Este proceso manual garantizó que nuestros modelos computacionales se entrenaran con datos de alta calidad y etiquetados con precisión, lo cual es primordial para lograr una detección confiable y efectiva del discurso de odio.
  • Fiabilidad entre codificadores: Llevamos a cabo rigurosas pruebas de fiabilidad entre codificadores para garantizar la coherencia y la precisión en los esfuerzos de categorización. Estas pruebas fueron diseñadas para evaluar los niveles de concordancia entre nuestros codificadores, identificando cualquier discrepancia en sus clasificaciones. Cuando surgieron discrepancias, se abordaron mediante discusión y consenso, lo que nos permitió refinar nuestros criterios de categorización y mejorar la confiabilidad general de nuestro conjunto de datos. Este enfoque en la confiabilidad entre codificadores fue fundamental para establecer una base sólida para el funcionamiento efectivo de nuestra herramienta de detección de discursos de odio.

 

Modelos Computacionales para el Análisis

Con un rico conjunto de datos, empleamos un conjunto de modelos computacionales para analizar los datos y predecir posibles casos de discurso de odio. Esta fase implicó:

  • Selección del modelo: En función de la naturaleza de nuestros datos y los requisitos específicos de nuestro análisis, elegimos los modelos Vector Autoregression (VAR), Elastic Net y XGBoost (XGBTree) y BERT por su solidez en el manejo de conjuntos de datos complejos y de alta dimensión.
  • Entrenamiento y ajuste: Los modelos se entrenaron en un subconjunto de nuestro conjunto de datos, con parámetros ajustados con precisión para optimizar el rendimiento. Este proceso fue iterativo, con pruebas y validaciones continuas para ajustar las configuraciones del modelo.
  • Validación y pruebas: Los modelos se validaron utilizando un conjunto de datos separado para garantizar que identificaran con precisión el discurso de odio. Esta fase también incluyó la aplicación de los modelos a datos nuevos e invisibles para probar sus capacidades predictivas y generalizabilidad.

 

Desarrollo y validación del detector de contenidos de odio

El esfuerzo de COIN radica en crear y refinar la herramienta de detección de contenido de odio. Este proyecto integral evoluciona a través de varias fases críticas para garantizar su efectividad, adaptabilidad y precisión en la identificación del discurso de odio en diversos panoramas de redes sociales:

  • Exploración inicial y marco teórico: Nuestro trabajo comenzó con una exploración en profundidad para obtener una comprensión matizada del discurso de odio, sus diversas formas y expresiones y cómo se manifiesta en las plataformas de redes sociales. Esta fase fundamental fue crucial para sentar las bases para el desarrollo posterior de la herramienta, asegurando que una comprensión profunda informara nuestro enfoque de la compleja naturaleza del discurso de odio.
  • Compilación y categorización de conjuntos de datos: Después de la fase exploratoria, compilamos y categorizamos vastos datos de redes sociales. Creamos un conjunto de datos equilibrado y representativo a través de la selección y clasificación basada en criterios predefinidos. Este conjunto de datos sirvió como campo de entrenamiento para nuestros modelos y como punto de referencia para las pruebas y validaciones, lo que garantizó la capacidad de los modelos para discernir con precisión entre el discurso de odio y el contenido que no lo es.
  • Desarrollo de modelos predictivos: Aprovechando algoritmos avanzados de aprendizaje automático, pasamos a la fase de generación de modelos predictivos. En este caso, la atención se centró en la construcción de modelos que pudieran identificar de forma fiable los casos de discurso de odio dentro de los datos recopilados. El desarrollo de estos modelos se guió por los conocimientos obtenidos de nuestro análisis inicial, haciendo hincapié en la adaptabilidad y la escalabilidad para satisfacer la naturaleza dinámica del discurso de las redes sociales.
  • Creación y pruebas de prototipos: Teníamos un prototipo de la herramienta de detección derivado de nuestros esfuerzos de análisis exploratorio y modelado de datos, por lo que lo sometimos a pruebas exhaustivas. Esto implicó el empleo de conjuntos de datos que los modelos no habían encontrado anteriormente, lo que fue fundamental para evaluar la aplicabilidad del prototipo en el mundo real. A través de este riguroso proceso de pruebas y validación externa, evaluamos la precisión y confiabilidad de la herramienta, realizando los ajustes necesarios para refinar su rendimiento.
  • Adaptación multilingüe y evaluación multiplataforma: Reconociendo el alcance global de las redes sociales, un aspecto fundamental de nuestro proceso de desarrollo fue la adaptación de la herramienta para su uso multilingüe. Esto implicó ajustar y afinar los algoritmos de la herramienta para garantizar que siguiera siendo sensible y eficaz en varios idiomas y contextos culturales. Además, ampliamos su aplicabilidad a otras plataformas de redes sociales, evaluando y mejorando aún más su rendimiento para mantener altos niveles de precisión y sensibilidad en diversos entornos.

 

Fiabilidad entre codificadores y categorización automatizada

La integridad y la precisión de nuestro conjunto de datos fueron primordiales en el desarrollo de la herramienta de detección de contenido de odio. Para lograrlo, nuestra metodología incorporó procesos manuales y automatizados para garantizar la categorización confiable de los datos.

  • Fiabilidad entre codificadores

Un aspecto fundamental de nuestro enfoque fue el énfasis en las pruebas de confiabilidad entre codificadores. Estas pruebas fueron esenciales para validar la coherencia y la precisión del proceso de categorización manual. Identificamos y resolvimos las discrepancias evaluando los niveles de acuerdo entre los diferentes codificadores, categorizando el mismo contenido y refinando nuestros criterios. Este paso fue crucial para mantener la integridad del conjunto de datos y garantizar que el análisis posterior se basara en datos clasificados con precisión.

  • Sistema automatizado de etiquetado y categorización

Complementando nuestros esfuerzos manuales, implementamos un sistema automatizado de etiquetado y categorización para manejar los grandes volúmenes de contenido de las redes sociales. Este sistema fue meticulosamente diseñado para clasificar automáticamente los mensajes en categorías predefinidas, lo que agiliza el proceso de preparación de datos para el entrenamiento y análisis de modelos. Los componentes clave de este sistema incluyeron:

  • Configuración del sistema de etiquetado automatizado: Aprovechando algoritmos avanzados, esta configuración permitió la clasificación eficiente y precisa de los mensajes, lo que facilitó el procesamiento escalable de nuestros extensos conjuntos de datos.
  • Desarrollo de un libro de códigos: Desarrollamos un libro de códigos completo para guiar el proceso de categorización automatizado. Este libro de códigos detalla los criterios para identificar el discurso de odio frente al contenido que no lo es, lo que garantiza la claridad y la coherencia en todo el proceso de categorización.
  • Adquisición y clasificación de datos: El sistema automatizado permitió al equipo de COIN adquirir, codificar y filtrar el contenido de las redes sociales. Esta capacidad mejoró significativamente la calidad y la relevancia de nuestro conjunto de datos, mejorando la eficacia general del proceso de entrenamiento del modelo.

 

Un enfoque multidimensional para detectar la islamofobia, la LGBTIQfobia, la xenofobia, el antisemitismo y el antigitanismo

En la era digital, las plataformas de redes sociales se han convertido tanto en un espejo como en un catalizador de las actitudes sociales, amplificando las conexiones positivas y los discursos dañinos. Uno de los desafíos más apremiantes es la propagación generalizada del discurso de odio, un fenómeno que socava la cohesión social, margina a las comunidades e incita a la violencia. Reconociendo la urgente necesidad de medidas proactivas, nuestro proyecto se embarcó en el desarrollo de una herramienta automática de detección y seguimiento diseñada para identificar diversas formas de discurso de odio, como la islamofobia, la LGBTIQfobia, la xenofobia, el antisemitismo y el antigitanismo. Esta herramienta aprovecha modelos avanzados de aprendizaje automático, utilizando específicamente el poder transformador de BERT (Bidirectional Encoder Representations from Transformers) para examinar grandes cantidades de datos de redes sociales e identificar casos de discurso de odio con una precisión notable.

Esta iniciativa es un testimonio del potencial de combinar la inteligencia artificial con un profundo conocimiento de los problemas sociales para crear un entorno digital más seguro e inclusivo. Al desglosar sistemáticamente la metodología en distintas fases, que van desde la preparación de datos y la capacitación del modelo hasta el intrincado proceso del análisis de resultados, en esta sección se esboza el enfoque adoptado para dar vida a esta visión. El método COIN se caracteriza por su exhaustiva recopilación de datos, aprovechando tanto los procesos manuales como los automatizados para garantizar la integridad de los datos, la aplicación estratégica de modelos computacionales sofisticados y el refinamiento y la validación iterativos de la herramienta de detección. A través de esta metodología de múltiples capas, nuestro objetivo es avanzar en la lucha tecnológica contra el discurso de odio y aportar información valiosa sobre sus mecanismos de propagación a través de las plataformas digitales.

 

Islamofobia: Desarrollo de una herramienta automática de detección y seguimiento

La construcción de una herramienta automática de detección y seguimiento de la islamofobia requiere un enfoque metodológico que integre modelos de aprendizaje automático, técnicas de procesamiento del lenguaje natural (PLN) y un conjunto de datos bien seleccionado. El objetivo es crear un sistema capaz de identificar y clasificar el contenido islamófobo en el discurso en línea, particularmente en plataformas de redes sociales como Twitter. El proceso de desarrollo consta de tres fases principales: diseño metodológico, implementación y evaluación de resultados, asegurando la fiabilidad y eficacia del modelo en la detección de discursos de odio.

 

Enfoque metodológico

El modelo de detección utiliza técnicas de aprendizaje automático, empleando explícitamente un modelo BERT (Bidirectional Encoder Representations from Transformers) previamente entrenado. El modelo elegido, Bert-base-multilingual-uncased, está diseñado para la clasificación de texto multilingüe, lo que lo hace adecuado para analizar contenido en diferentes idiomas. La tarea de clasificación está estructurada como un problema binario, en el que los tuits se etiquetan como contenidos islamófobos (discursos de odio) o no contenidos islamófobos (discursos no relacionados con el odio).

El conjunto de datos utilizado para entrenar el modelo consta de 14.367 tweets etiquetados, divididos de la siguiente manera:

  • 6.022 tuits clasificados como islamófobos («odio»)
  • 8.345 tuits clasificados como no islamófobos («sin odio»)

Para garantizar un entrenamiento sólido del modelo, el conjunto de datos se divide en tres subconjuntos siguiendo una proporción 60-20-20:

  • 8.621 tuits para entrenamiento, lo que permite a la modelo aprender patrones asociados con el discurso islamófobo.
  • 2.873 tweets para validación, optimizando los hiperparámetros del modelo y mejorando el rendimiento.
  • 2.875 tuits para pruebas, evaluando la generalización del modelo sobre datos no vistos.

Esta división estructurada del conjunto de datos garantiza que el modelo esté expuesto a diversos ejemplos, al tiempo que mantiene un proceso de evaluación independiente para verificar su efectividad.

Implementación del modelo

Preprocesamiento y preparación de datos

Antes del entrenamiento, los datos de texto se someten a una serie de pasos de preprocesamiento para garantizar la calidad y la eficacia del modelo de clasificación:

  • Normalización de texto, incluido el uso de minúsculas en todos los caracteres para alinearlos con el modelo sin mayúsculas y minúsculas de BERT.
  • Elimine los caracteres irrelevantes, incluidos los emojis, los signos de puntuación y los símbolos especiales que no contribuyan a los patrones de lenguaje significativos.
  • Tokenización, segmentación de texto en unidades lingüísticas significativas para un procesamiento eficiente de la entrada del modelo.
  • Equilibrar la distribución de clases, garantizando que tanto los tuits islamófobos como los no islamófobos estén bien representados para evitar sesgos de clasificación.

 

Selección de modelos y entrenamiento

Se seleccionó el modelo Bert-base-multilingual-uncaseed debido a sus capacidades de procesamiento multilingüe, que son esenciales para detectar la islamofobia en un conjunto de datos que probablemente contenga texto en varios idiomas o dialectos. El proceso de ajuste adaptado el modelo previamente entrenado para la clasificación binaria mediante la incorporación:

  • Una capa de abandono para mitigar el sobreajuste y mejorar la generalización.
  • Una capa de salida densa, que asigna las incrustaciones de BERT a dos etiquetas de salida: islamofobia (discurso de odio) o no islamofobia (sin discurso de odio).
  • Un cabezal de clasificación, donde tf_bert_for_sequence_classification sirve como arquitectura principal, que consta de 167.357.954 parámetros entrenables.

La fase de entrenamiento emplea el aprendizaje supervisado, en el que el modelo aprende de los datos etiquetados a través de un proceso iterativo de ajuste de parámetros y optimización de la precisión de la clasificación.

Evaluación del Desempeño y Resultados

El rendimiento del modelo se evalúa mediante la precisión, el recuerdo y la puntuación F1, métricas estándar para medir la eficacia de la clasificación en la detección del discurso de odio. Los resultados para ambas categorías (tuits islamófobos y no islamófobos) son los siguientes:

  • Para tuits no islamófobos (Clase 0):
    • Precisión: 0,97 (alta precisión en la identificación correcta de contenido que no incita al odio).
    • Recuerdo: 0,85 (el modelo captura el 85% de todos los tuits no islamófobos sin clasificación errónea).
    • Puntuación F1: 0,91 (equilibrando la precisión y la recuperación, garantizando una clasificación eficaz).
  • Para tuits islamófobos (Clase 1):
    • Precisión: 0,78 (lo que indica algunos falsos positivos, donde el contenido que no es de odio se clasifica erróneamente como discurso de odio).
    • Recuperación: 0,96 (alta capacidad de detección, lo que garantiza que se capture la mayor parte del contenido de incitación al odio).
    • Puntuación F1: 0,86 (buen rendimiento en la identificación del discurso islamófobo).

La precisión general del modelo en el conjunto de datos de validación es del 89 %, con:

  • Una puntuación F1 media macro de 0,88, lo que garantiza un rendimiento equilibrado en ambas clases.
  • Una puntuación F1 media ponderada de 0,89, manteniendo la eficacia a pesar de los desequilibrios de clase.

Estos resultados sugieren que la herramienta de detección automática funciona bien en el reconocimiento del discurso de odio islamófobo, particularmente en la memoria, lo que garantiza que la mayoría de los casos de islamofobia se identifiquen con éxito. Sin embargo, la puntuación de precisión de la categoría de discurso de odio (0,78) indica algunos falsos positivos, lo que significa que determinados mensajes que no son de odio se clasifican erróneamente como islamofobia.

 

Implicaciones y direcciones futuras

El desarrollo de la detección automatizada de la islamofobia tiene implicaciones críticas para combatir el discurso de odio en línea, ya que permite el seguimiento y la intervención en tiempo real. La alta puntuación de recuerdo del modelo identifica eficazmente los mensajes islamófobos, lo que resulta especialmente valioso para los sistemas de moderación, los responsables políticos y las organizaciones de derechos humanos. Sin embargo, mejorar la precisión es esencial para reducir los falsos positivos y garantizar que las discusiones legítimas sobre el Islam no se marquen incorrectamente.

Para perfeccionar aún más el modelo, los esfuerzos futuros deberían:

  • Mejore los conjuntos de datos de entrenamiento, incorporando ejemplos más diversos contextualmente para mejorar la generalización.
  • Ajuste los hiperparámetros, ajustando los umbrales para reducir los falsos positivos sin comprometer la recuperación.
  • Ampliar las capacidades multilingües, garantizando una detección precisa de diversas expresiones lingüísticas y culturales de la islamofobia.
  • Integre la validación human-in-the-loop, combinando la detección de IA con la supervisión humana para aumentar la precisión y la responsabilidad.

Esta herramienta automática de detección y seguimiento representa un importante paso adelante para identificar y abordar el discurso de odio islamófobo en línea. Al aprovechar los avances del aprendizaje automático y la PNL, esta herramienta contribuye a esfuerzos más amplios en ética digital, justicia social y moderación de contenido en línea, asegurando que las comunidades musulmanas estén protegidas de la discriminación selectiva y la retórica dañina.

 

LGBTIQfobia: Desarrollo de una herramienta automática de detección y seguimiento

La detección y el seguimiento automáticos de contenido LGBTIQfóbico requieren un marco metodológico sólido que aproveche las técnicas avanzadas de aprendizaje automático para clasificar y monitorear con precisión los casos de discurso de odio en línea. El proceso de desarrollo consta de tres etapas principales: diseño metodológico, implementación y evaluación de resultados, asegurando que el modelo identifique y clasifique efectivamente el discurso de odio dirigido a la comunidad LGBTIQ+.

 

 

Enfoque metodológico

Para construir un modelo efectivo de detección de LGBTIQfobia, se estableció una tarea de clasificación binaria, diferenciando entre los tuits que contienen contenido LGBTIQfóbico («odio») y los que no lo hacen («no odio»). El modelo se basa en Bert-base-multilingual-uncased, un modelo de NLP basado en transformadores de última generación para la clasificación de textos multilingües. Los modelos BERT se entrenan previamente en corpus de texto extensos y se ajustan para tareas específicas, lo que los hace muy eficaces para detectar el discurso de odio en diversos contextos lingüísticos.

El conjunto de datos utilizado para el entrenamiento del modelo consta de 8.836 registros, divididos en:

  • 4.435 casos clasificados como discursos de odio relacionados con la LGTBIQfobia.
  • 4.400 casos clasificados como no discursos de odio, lo que garantiza el equilibrio de los datos para minimizar el sesgo.

Para optimizar el aprendizaje y la validación del modelo, el conjunto de datos se dividió en tres subconjuntos:

  • Conjunto de entrenamiento (60%): 5.302 ejemplos utilizados para entrenar el modelo en diversos casos de discurso de odio.
  • Conjunto de validación (20%): 1.767 ejemplos utilizados para ajustar los hiperparámetros y evitar el sobreajuste.
  • Conjunto de pruebas (20%): 1.768 ejemplos utilizados para evaluar la generalización y la precisión del modelo en datos no vistos.

Al mantener una representación equitativa de ambas clases y garantizar una partición estructurada de los datos, el modelo se optimiza para distinguir el contenido de odio del discurso neutral o inclusivo con alta precisión.

Implementación y Capacitación en Modelos

Preparación y preprocesamiento de datos

Para garantizar la alta calidad del conjunto de datos, se aplicaron varias técnicas de preprocesamiento:

  • Normalización de texto, convirtiendo todos los datos de entrada a minúsculas para mantener la coherencia con el modelo BERT sin mayúsculas y minúsculas.
  • Elimine los caracteres irrelevantes, incluidos los emojis, los símbolos y los caracteres especiales que no contribuyan significativamente a la clasificación.
  • Tokenización, segmentación del texto en unidades lingüísticas estructuradas para facilitar el procesamiento efectivo de NLP.

 

Configuración y entrenamiento del modelo

La arquitectura BERT se configuró para la clasificación binaria mediante BertConfig, especificando num_labels=2 para distinguir entre el discurso de odio y el discurso que no lo es. El proceso de ajuste implicó:

  • La carga del tokenizador y el modelo previamente entrenado desde Bert-base-multilingual-uncased permite un procesamiento eficaz de contenido multilingüe.
  • Empleando un optimizador Adam con una tasa de aprendizaje de 3e-5 y un valor épsilon de 1e-08 para optimizar los ajustes de peso durante el entrenamiento.
  • Aplicación de entrenamiento de precisión mixta (si USE_AMP está habilitado), mejorando la eficiencia computacional y la velocidad de convergencia del modelo.
  • Compilar el modelo usando SparseCategoricalCrossentropy como función de pérdida y SparseCategoricalAccuracy como métrica de evaluación.

La arquitectura del modelo final, conocida como tf_bert_for_sequence_classification, consta de:

  • Una capa central de BERT responsable de extraer representaciones contextuales del lenguaje.
  • Una capa de puntera, que evita el sobreajuste y mejora la generalización.
  • Una densa capa de clasificación, que asigna probabilidades a las dos etiquetas posibles (odio o no odio).

El modelo completo consta de 167.357.954 parámetros entrenables, lo que le permite aprender y generalizar patrones de LGBTIQfobia en el discurso en línea.

Evaluación del Desempeño y Resultados

La eficacia del modelo se evaluó en conjuntos de datos de entrenamiento, validación y prueba, y se obtuvieron los siguientes resultados:

  • Precisión de entrenamiento: 91,10% con una pérdida de 0,2428.
  • Precisión de validación: 89,66% con una pérdida de 0,3227.
  • Precisión de la prueba: 90,78% con una pérdida correspondiente de 0,3022.

Estos resultados indican una sólida capacidad de clasificación, lo que garantiza que el modelo pueda distinguir eficazmente entre el contenido LGBTIQfóbico y el contenido que no lo es.

Matriz de confusión y análisis de puntuación F1

Para evaluar aún más el rendimiento, se generó una matriz de confusión para analizar el equilibrio entre la precisión, la recuperación y la puntuación F1:

  • Para discursos que no inciten al odio (Clase 0):
    • Puntuación F1: 0,89, lo que demuestra una alta fiabilidad en la identificación de contenidos neutros o no discriminatorios.
  • Para contenido LGBTIQfóbico (Clase 1):
    • Puntuación F1: 0,90, lo que destaca la fuerte capacidad de detección de casos de discurso de odio.
  • Precisión general: 90%, lo que confirma la solidez del modelo en la identificación y el seguimiento de la LGBTIQfobia.

En comparación con investigaciones anteriores de Arcila et al. (2021), que informaron de una precisión del 84% y una puntuación F1 de 0,65 utilizando conjuntos de datos similares, este modelo logra mejoras notables en el rendimiento de la clasificación. La precisión mejorada y la puntuación F1 subrayan la eficacia del ajuste fino de los modelos BERT y la importancia de un conjunto de datos equilibrado para garantizar una detección precisa del discurso de odio.

 

Implicaciones y mejoras futuras

La detección y el seguimiento automáticos del discurso de odio LGBTIQfóbico tienen implicaciones significativas para el monitoreo de las redes sociales, la moderación de contenido y las estrategias de mitigación del discurso de odio. El alto recuerdo del modelo y la puntuación F1 sugieren una gran fiabilidad en la detección de contenidos de odio, lo que lo convierte en una herramienta valiosa para los administradores de plataformas en línea, los responsables políticos y las organizaciones de derechos humanos.

Sin embargo, los refinamientos futuros pueden mejorar aún más las capacidades de detección y reducir los posibles sesgos:

  • Ampliar la diversidad de los conjuntos de datos, incorporando una gama más amplia de variaciones lingüísticas y contextos culturales para mejorar la generalización.
  • Ajustar los hiperparámetros y optimizar el rendimiento para plataformas de redes sociales específicas en las que el discurso de odio se manifiesta de forma diferente.
  • Integración de técnicas de IA explicables, garantizando la transparencia en la toma de decisiones y los resultados de clasificación.
  • Combinar la detección automatizada con la supervisión humana, reducir los falsos positivos y clasificar erróneamente el discurso neutral.

Este modelo de detección de LGBTIQfobia, basado en técnicas de PNL de última generación, representa un avance sustancial en la detección del discurso de odio en línea. Aprovechar las tecnologías de aprendizaje automático y aprendizaje profundo contribuye a una iniciativa más amplia para fomentar la inclusión digital, proteger a las comunidades vulnerables y combatir la discriminación en los espacios en línea.

 

Detección y seguimiento automáticos de la xenofobia

El desarrollo de una herramienta automática de detección y seguimiento de la xenofobia implica un enfoque estructurado que integra técnicas de aprendizaje automático, preprocesamiento de datos, entrenamiento de modelos y evaluación del rendimiento. Este proceso es fundamental para mejorar la precisión y la fiabilidad de la detección de la xenofobia en las comunicaciones digitales, en particular en el discurso de odio en línea contra las personas migrantes y refugiadas.

 

Enfoque metodológico

El proyecto COIN se centra en la identificación de contenidos xenófobos en los datos textuales, en particular el discurso de odio dirigido a migrantes, refugiados y minorías étnicas. El modelo de detección se construye utilizando representaciones de codificador bidireccional de transformadores (BERT), específicamente bert-base-multilingual-uncased, optimizado para la clasificación de texto multilingüe.

Se compiló un conjunto de datos equilibrado de 22.232 registros para garantizar que el modelo pueda distinguir los mensajes xenófobos («odio») de los mensajes no xenófobos («sin odio») sin sesgos. Este conjunto de datos se dividió sistemáticamente en:

  • Conjunto de entrenamiento (60%): 13.339 ejemplos para entrenar el modelo en patrones de lenguaje xenófobo y neutro.
  • Conjunto de validación (20%): 4.446 ejemplos para ajustar los hiperparámetros del modelo y optimizar el rendimiento.
  • Conjunto de pruebas (20%): 4.447 ejemplos para evaluar la aplicabilidad en el mundo real y garantizar que el modelo se generalice de forma eficaz.

Mantener una representación equitativa de los mensajes de odio y no de odio ayuda al modelo a desarrollar una comprensión matizada de la xenofobia, minimizando el sobreajuste y los errores de clasificación.

Implementación y Capacitación en Modelos

Preparación y preprocesamiento de datos

La fase de preprocesamiento garantiza que el modelo pueda analizar datos textuales de manera eficiente. Los pasos clave incluyen:

  • Limpieza y normalización de texto, eliminando símbolos superfluos, caracteres especiales y contenido irrelevante.
  • Tokenización, donde el conjunto de datos se procesa mediante BertTokenizer, convirtiendo el texto en representaciones de entrada estructuradas.
  • Codificación de características lingüísticas, lo que permite al modelo interpretar patrones de habla xenófobos en un contexto multilingüe.

 

Configuración y entrenamiento del modelo

El modelo basado en BERT se ajustó explícitamente para la clasificación binaria (mensajes xenófobos frente a mensajes no xenófobos) mediante la siguiente configuración:

  • Arquitectura BERT (BertConfig) con dos etiquetas de salida, que indican clasificación de odio o no odio.
  • Optimización mediante el algoritmo de Adam, mejorando la eficiencia del aprendizaje y la convergencia de modelos.
  • Función de pérdida de entropía cruzada categórica dispersa, adaptada para tareas de clasificación binaria.
  • Entrenamiento de precisión mixta, que aprovecha la eficiencia computacional cuando esté disponible para mejorar la escalabilidad.
  • Ajuste fino a lo largo de tres épocas, lo que garantiza que el modelo logre una precisión óptima y evite el sobreajuste.

Estas estrategias de ajuste maximizan la capacidad del modelo para detectar narrativas xenófobas, distinguiéndolas del discurso neutral o no discriminatorio.

 

Evaluación del Desempeño y Resultados

 

Métricas de precisión y rendimiento del modelo

 

Después de completar la fase de entrenamiento, se evaluó la precisión de la clasificación del modelo en conjuntos de datos de validación y prueba, lo que arrojó:

  • Precisión global: 94,63%, demostrando una fiabilidad excepcional en la detección de mensajes xenófobos.
  • Análisis de precisión, recuerdo y puntuación F1, que confirman un sólido rendimiento en las categorías xenófobas y no xenófobas.
  • Comparación con investigaciones anteriores (Arcila et al., 2022): El modelo superó significativamente a los sistemas de detección anteriores, con una precisión que alcanzó el 90% y una puntuación F1 de 0,86. Esta mejora pone de manifiesto la eficacia de bert-base-multilingual sin mayúsculas y minúsculas y las ventajas de un conjunto de datos de entrenamiento equilibrado.

 

Análisis de la matriz de confusión

Se generó una matriz de confusión para evaluar la precisión y el recuerdo del modelo para los mensajes de odio y sin odio:

  • Mensajes no xenófobos (Clase 0): Mayor precisión, lo que indica menos falsos positivos.
  • Mensajes xenófobos (Clase 1): Recuperación equilibrada, que garantiza tasas de detección sólidas con una clasificación errónea mínima.

Este análisis confirma la capacidad del modelo para detectar con precisión el discurso xenófobo manteniendo bajas tasas de error, lo que refuerza su aplicabilidad en el seguimiento del discurso de odio en el mundo real.

Implicaciones y consideraciones futuras

La implementación exitosa de la detección de xenofobia basada en BERT tiene importantes implicaciones políticas, legales y tecnológicas. El modelo proporciona una poderosa herramienta para:

  • Monitoreo de redes sociales, permitiendo a las plataformas detectar y mitigar el discurso xenófobo de manera más efectiva.
  • Mecanismos de aplicación de la ley y de denuncia, que ayudan a las autoridades a identificar tendencias de incitación al odio e implementar contramedidas.
  • Investigación académica y política, que ofrece nuevos conocimientos sobre los patrones de retórica xenófoba en la comunicación digital.

A pesar de los altos niveles de precisión, las áreas de mejora incluyen:

  • Ampliar el conjunto de datos para incorporar diversas expresiones y lenguas xenófobas.
  • Optimización de hiperparámetros para mejorar aún más la recuperación y reducir los falsos positivos.
  • Integración de técnicas de IA explicables, garantizando la transparencia en la toma de decisiones de los modelos.
  • Colaboración con moderadores humanos, equilibrando la clasificación automatizada con la revisión de expertos para evitar interpretaciones erróneas de mensajes dependientes del contexto.

 

El modelo de detección de xenofobia desarrollado en este estudio representa un avance sustancial en las técnicas de procesamiento del lenguaje natural (PLN) para la detección del discurso de odio. Este sistema identifica con precisión las narrativas xenófobas en línea a través del aprendizaje automático basado en BERT, el entrenamiento equilibrado de conjuntos de datos y una rigurosa evaluación del rendimiento.

Al aprovechar los sistemas de detección impulsados por la IA, los responsables políticos, los investigadores y las plataformas en línea pueden abordar de forma proactiva la xenofobia, fomentando un espacio digital más inclusivo y mejorando los esfuerzos para combatir la discriminación y el discurso de odio en la sociedad moderna.

Formularbeginn

Formularende

 

Detección y seguimiento automáticos del antisemitismo

El desarrollo de una herramienta automática de detección y seguimiento del antisemitismo integra técnicas de aprendizaje automático y procesamiento del lenguaje natural (PLN) para clasificar el contenido textual como que expresa discurso de odio antisemita o que es neutral (sin odio). Este enfoque aprovecha los modelos avanzados de IA para mejorar la precisión y la eficiencia de la identificación del discurso antisemita en las plataformas digitales. En la siguiente sección se detalla la metodología, la implementación y los resultados del desarrollo de este sistema de detección de discursos de odio.

Enfoque metodológico

La metodología para la detección del antisemitismo implica un proceso estructurado de varias etapas que comienza con la recopilación de datos, el preprocesamiento, el entrenamiento del modelo y la evaluación. Se compiló un conjunto de datos de 5.044 mensajes con:

  • 2.960 mensajes clasificados como «odio» (contenido antisemita).
  • 2.084 mensajes clasificados como «sin odio» (contenido neutro o no odioso).

Para garantizar una clasificación precisa, se empleó el modelo bert-base-multilingual-uncased. Este modelo de aprendizaje automático basado en transformadores, conocido por su alto rendimiento en tareas de clasificación de texto, se ajustó explícitamente para la clasificación binaria, distinguiendo los mensajes antisemitas de los mensajes que no son de odio.

 

Implementación y Capacitación en Modelos

 

Preparación y preprocesamiento de datos

El conjunto de datos se preparó sistemáticamente y se dividió en tres subconjuntos para facilitar el entrenamiento, la validación y las pruebas del modelo:

  • Conjunto de entrenamiento (60%): se utilizaron 3.027 mensajes para entrenar al modelo en patrones de lenguaje antisemita y neutral.
  • Conjunto de validación (20%): 1.009 mensajes, utilizados para ajustar los hiperparámetros y optimizar la precisión del modelo.
  • Conjunto de pruebas (20%): 1.010 mensajes, lo que garantiza una evaluación fiable de los datos no vistos.

Los pasos de preprocesamiento incluyeron la normalización del texto, la tokenización y la eliminación de caracteres no relevantes, lo que garantizó que los datos estuvieran limpios y estructurados para el modelo. La diversidad de lenguaje y tono del conjunto de datos permitió que el modelo generalizara de manera efectiva a través de diferentes variaciones de retórica antisemita.

 

Selección de modelos y entrenamiento

La arquitectura basada en BERT se configuró explícitamente para la clasificación binaria con las siguientes características clave:

  • Capa principal BERT, preentrenada para el procesamiento de texto multilingüe.
  • La capa de abandono se utiliza para la regularización y para evitar el sobreajuste.
  • Capa de clasificación densa, responsable de hacer predicciones finales sobre la categorización de mensajes.
  • Optimización mediante el algoritmo de Adam, asegurando un aprendizaje eficiente y la convergencia.

El modelo contenía 167.357.954 parámetros entrenables, lo que lo hacía muy sofisticado y capaz de realizar un análisis lingüístico profundo. El entrenamiento se llevó a cabo a lo largo de múltiples épocas, lo que permitió que el modelo refinara gradualmente su precisión en la detección de lenguaje antisemita.

Evaluación y métricas de rendimiento

Estimación de confiabilidad alfa de Krippendorff

Se utilizó el alfa de Krippendorff para evaluar la consistencia de las anotaciones del conjunto de datos, lo que arrojó un coeficiente de fiabilidad de 0,7938. Esto indica un acuerdo sustancial entre los anotadores humanos, lo que refuerza la credibilidad y la coherencia del conjunto de datos en la categorización del contenido antisemita.

 

Métricas de clasificación y precisión del modelo

La evaluación del rendimiento de la herramienta se llevó a cabo en el conjunto de datos de validación, utilizando métricas de precisión, recuperación y puntuación F1 para evaluar la eficacia de la clasificación:

  • Mensajes no antisemitas (Clase 0):
    • Precisión: 0,80 (lo que indica que el 80% de los mensajes marcados como «no odio» se clasificaron correctamente).
    • Recuerdo: 0,86 (lo que indica que el 86% de los mensajes reales de «no odio» se identificaron correctamente).
    • Puntuación F1: 0,83 (un equilibrio entre precisión y recuperación).
  • Mensajes antisemitas (Clase 1):
    • Precisión: 0,91 (lo que indica que el 91% de los mensajes de «odio» marcados se clasificaron correctamente).
    • Recuerdo: 0,87 (lo que indica que se identificó el 87% de los mensajes antisemitas reales).
    • Puntuación F1: 0,89 (lo que confirma la eficacia del modelo en la detección de discursos antisemitas).

La precisión general del modelo alcanzó el 87%, lo que demuestra una gran capacidad para clasificar los mensajes con precisión. Además, un análisis de la matriz de confusión reveló:

  • 333 verdaderos positivos (mensajes antisemitas correctamente identificados).
  • 540 negativos verdaderos (mensajes no antisemitas correctamente identificados).

Esto confirma que el modelo minimiza con éxito los falsos positivos y los falsos negativos, manteniendo un rendimiento sólido en la clasificación de texto del mundo real.

 

Consideraciones futuras

La detección automática de discursos de odio antisemitas representa un avance significativo en la moderación de contenidos impulsada por la IA. Este clasificador basado en BERT demuestra una alta exactitud, precisión y fiabilidad, lo que lo convierte en una herramienta valiosa para detectar y mitigar la retórica antisemita en entornos digitales.

Las mejoras futuras deben centrarse en:

  • Ampliar el conjunto de datos para incorporar expresiones más matizadas de antisemitismo.
  • Optimización de hiperparámetros para mejorar aún más el rendimiento de la clasificación.
  • Integración de técnicas de IA explicables para una mayor transparencia en las decisiones de moderación de contenidos.
  • Fortalecer las capacidades de detección en tiempo real para facilitar la moderación proactiva de contenido en las plataformas de redes sociales.

Al aprovechar los modelos avanzados de PNL, este sistema de detección contribuye a esfuerzos más amplios para combatir el discurso de odio en línea, garantizar una mayor protección para las comunidades judías y promover un espacio digital más seguro para todos los usuarios.

 

Detección y seguimiento automático del antigitanismo

El desarrollo de una herramienta automática de detección y seguimiento del antigitanismo se basa en modelos de aprendizaje automático y técnicas de procesamiento del lenguaje natural (PLN) para clasificar el contenido textual como que expresa discurso de odio (antigitanismo) o es neutral (sin odio). Este proceso implica la recopilación de datos, el entrenamiento del modelo, la implementación y la evaluación, lo que garantiza un sistema de detección preciso y eficaz. En la siguiente sección se detalla la metodología, la implementación y los resultados obtenidos de este modelo de detección de discursos de odio.

 

Enfoque metodológico

La metodología se centra en el entrenamiento de un modelo de clasificación de texto binario para distinguir entre el discurso de odio anti-gitano y el contenido no de odio. El marco seleccionado es BERT (Bidirectional Encoder Representations from Transformers), concretamente la variante bert-base-multilingual-uncased, optimizada para el procesamiento de texto multilingüe en minúsculas. Esto es particularmente crucial dada la diversidad lingüística en el discurso en línea.

Se compiló y anotó manualmente un conjunto de datos que comprendía 4.139 mensajes:

  • 2.039 mensajes clasificados como «sin odio» (contenido neutro o no odioso).
  • 2.100 mensajes clasificados como «odio» (que expresan retórica antigitana).

Este conjunto de datos fue la base para entrenar, validar y probar el modelo de detección, lo que garantizó un sistema sólido y generalizable para identificar el antigitanismo en la comunicación basada en texto.

Implementación y Capacitación en Modelos

 

Preparación y división de datos

Para garantizar un aprendizaje eficaz y una evaluación imparcial, el conjunto de datos se dividió en tres subconjuntos:

  • Conjunto de entrenamiento (60%): 2.484 mensajes, que se usan para entrenar el modelo y ajustar la precisión de la clasificación.
  • Conjunto de validación (20%): 828 mensajes, utilizados para ajustar hiperparámetros y mejorar la generalización del modelo.
  • Conjunto de pruebas (20%): 829 mensajes, lo que garantiza una evaluación fiable del rendimiento de los datos no vistos.

La distribución equilibrada de los mensajes de odio y no odio en estos subconjuntos minimiza el sesgo y garantiza que el modelo aprenda a diferenciar en gran medida entre las dos categorías.

 

Configuración y entrenamiento del modelo

El modelo bert-base-multilingual-uncaseed se configuró para la clasificación binaria, empleando un proceso de ajuste fino para mejorar la precisión de la detección. La arquitectura consistió en:

  • Capa principal BERT, preentrenada para la comprensión de texto multilingüe.
  • Capa de puntera, que se incluye para evitar el sobreajuste y mejorar la generalización.
  • Capa clasificadora densa, responsable de la clasificación final de los mensajes.

Con 167 millones de parámetros entrenables, el modelo se sometió a múltiples ciclos de entrenamiento, refinando su precisión y eficiencia en la detección de la retórica antigitana en diferentes contextos lingüísticos.

 

Estimación de confiabilidad alfa de Krippendorff

Un aspecto esencial de la metodología fue la evaluación de la fiabilidad entre codificadores utilizando el alfa de Krippendorff, que produjo un coeficiente de 0,6831. Este coeficiente refleja un acuerdo moderado entre los anotadores humanos e indica un nivel razonable de coherencia en la clasificación de los datos.

Si bien la puntuación alfa sugiere una fuerte alineación, se observaron algunas discrepancias, lo que pone de manifiesto la necesidad de un mayor refinamiento de los protocolos de codificación. La mejora de las directrices de anotación y la formación adicional de los codificadores podrían mejorar la uniformidad en la categorización, reforzando así la calidad y la fiabilidad del conjunto de datos para futuras iteraciones del modelo.

 

Evaluación y métricas de rendimiento

 

Rendimiento de la clasificación en el conjunto de validación

El rendimiento del modelo ajustado se evaluó utilizando métricas de clasificación estándar, como la precisión, la recuperación y la puntuación F1:

  • Mensajes que no incitan al odio (Clase 0):
    • Precisión: 0,88 (el 88% de los mensajes marcados como «no odio» se clasificaron correctamente).
    • Recuerdo: 0,82 (el 82% de los mensajes reales de «no odio» se identificaron correctamente).
    • Puntuación F1: 0,85 (equilibrando la precisión y la recuperación).
  • Mensajes de odio contra los gitanos (Clase 1):
    • Precisión: 0,84 (lo que indica que el 84% de los mensajes de «odio» marcados se clasificaron correctamente).
    • Recuerdo: 0,89 (lo que indica que se identificó el 89% de los mensajes de odio anti-gitanos reales).
    • Puntuación F1: 0,86 (lo que confirma una fuerte capacidad de detección de discursos de odio).

La precisión general del modelo alcanzó el 86 %, con puntuaciones macro y F1 ponderadas que también se alinearon en 0,86, lo que indica un rendimiento de clasificación equilibrado y consistente.

 

Análisis de la matriz de confusión

Un análisis de la matriz de confusión reveló:

  • 371 verdaderos positivos (mensajes de odio correctamente identificados).
  • 338 negativos verdaderos (mensajes no relacionados con el odio correctamente identificados).
  • 73 falsos negativos (discursos de odio que se clasificaron erróneamente como no de odio).
  • 46 falsos positivos (mensajes que no son de odio clasificados erróneamente como discurso de odio).

La tasa de detección ligeramente más alta de discurso de odio sugiere que el modelo se inclina de manera conservadora hacia la detección de contenido xenófobo, lo que puede ser beneficioso para la moderación proactiva de contenido y las iniciativas contra el discurso de odio.

 

Consideraciones futuras

La herramienta de detección automática de antigitanismo representa un avance significativo en la monitorización del discurso de odio impulsada por la IA. Este modelo basado en BERT demuestra una alta exactitud, precisión y recuerdo, lo que lo convierte en un recurso valioso para detectar y mitigar la retórica antigitana en espacios digitales.

Las principales mejoras futuras incluyen:

  • Ampliar el conjunto de datos para abarcar expresiones más matizadas de discurso de odio antigitano.
  • Perfeccionar los protocolos de anotación para mejorar la fiabilidad entre codificadores y garantizar una mayor coherencia en los datos de entrenamiento.
  • Optimización de hiperparámetros para aumentar aún más el rendimiento de la clasificación.
  • Integración de técnicas de IA explicables para mejorar la interpretabilidad y la transparencia en la detección de discursos de odio.

Al aprovechar los modelos avanzados de PNL, este sistema de detección contribuye a esfuerzos más amplios para combatir el discurso de odio en línea, garantizar una excelente protección para las comunidades romaníes y fomentar un entorno digital más inclusivo.

 

Avance en la detección y el análisis del discurso de odio: el enfoque integral del proyecto COIN

 

En el camino hacia el fomento de una esfera digital más inclusiva y respetuosa, la iniciativa del equipo de COIN de desarrollar una Herramienta Automática de Detección y Seguimiento de Discursos de Odio representa un importante paso adelante. Este esfuerzo, encapsulado en el Entregable 4.1 del Paquete de Trabajo 4 (WP4), encarna un enfoque holístico para combatir la proliferación del discurso de odio en las plataformas de redes sociales. A través de la ejecución meticulosa de una metodología multifacética, el proyecto COIN sienta las bases para los avances continuos en la tecnología de detección de discursos de odio.

Nuestra exhaustiva fase de recopilación y preparación de datos facilita la acumulación de un vasto conjunto de datos que refleja las diversas manifestaciones del discurso de odio. Este conjunto de datos fundamental permite la aplicación de modelos computacionales avanzados adaptados para navegar por las complejidades de los datos de las redes sociales. Mediante el empleo de algoritmos sofisticados como Vector Autoregression (VAR), Elastic Net y XGBoost (XGBTree), el proyecto aprovecha el potencial para detectar patrones sutiles indicativos de discurso de odio dentro de conjuntos de datos de alta dimensión.

El sólido marco de validación y prueba para la evaluación de la herramienta subraya su confiabilidad y efectividad en diversas plataformas de redes sociales y contextos regionales. Este riguroso proceso de validación, junto con el énfasis en la confiabilidad entre codificadores y el desarrollo de un sistema de etiquetado automatizado, garantiza la precisión y la coherencia del etiquetado de datos, un aspecto crítico en el entrenamiento de modelos de detección precisos.

La creación y el refinamiento iterativo de la herramienta de detección de contenido de odio marca un logro fundamental en el proyecto COIN. Desde la exploración inicial y el desarrollo del modelo hasta las pruebas de prototipos, cada fase de la evolución de la herramienta está guiada por un compromiso con la adaptabilidad, la precisión y la sensibilidad. Este compromiso se evidencia aún más en la evaluación y adaptación multiplataforma de la herramienta, asegurando su aplicabilidad en un amplio espectro de entornos digitales.

Al abordar sistemáticamente los objetivos descritos en el Entregable 4.1, el equipo de COIN contribuye a avanzar en la lucha tecnológica contra el discurso de odio. La Herramienta de Detección y Seguimiento Automático del Discurso de Odio es un testimonio del poder de combinar la inteligencia artificial con una comprensión matizada de los problemas sociales, lo que ofrece una vía prometedora para crear comunidades en línea más seguras e inclusivas. Al reflexionar sobre los logros de este proyecto, recordamos la necesidad continua de vigilancia, innovación y colaboración para mitigar el impacto del discurso de odio en la sociedad.

 

Logro de los objetivos de COIN en la detección y el análisis de discursos de odio

El proyecto COIN alcanzó y superó sus objetivos, sentando las bases para un entorno digital más inclusivo y respetuoso mediante la identificación y el seguimiento efectivos del discurso de odio en toda la extensión global de las redes sociales.

  • Recopilación y análisis exhaustivos de datos: Ejecutamos con éxito una amplia iniciativa de recopilación de datos en varias plataformas de redes sociales para identificar diversas formas de discurso de odio. Aprovechando los esfuerzos de categorización manual y el sofisticado acceso a la API, refinamos la relevancia del conjunto de datos, reuniendo un conjunto de datos fundamental fundamental para los esfuerzos analíticos posteriores del proyecto. Este meticuloso proceso garantizó una base rica y completa para todas las etapas posteriores del análisis.
  • Empleo de modelos avanzados de aprendizaje automático: Logramos la implementación de una variedad de algoritmos sofisticados de aprendizaje automático, incluidos Vector Autoregression (VAR), Elastic Net y XGBoost (XGBTree). Estos modelos fueron elegidos selectivamente y ajustados meticulosamente para enfrentar los desafíos planteados por los vastos conjuntos de datos no estructurados típicos de las redes sociales. Nos centramos en aprovechar el poder de estos modelos para descubrir los patrones sutiles del discurso de odio ocultos en grandes conjuntos de datos, logrando capacidades de detección matizadas.

 

Cabe destacar la incorporación de BERT, acrónimo de Bidirectional Encoder Representations from Transformers, una técnica pionera para el preentrenamiento de representaciones lingüísticas presentada por investigadores de Google AI en 2018. BERT ha marcado un avance fundamental en el procesamiento del lenguaje natural (PLN), distinguido por su innovadora metodología de entrenamiento y su notable eficacia en diversas tareas relacionadas con el lenguaje. Establecimiento de un marco integral de validación y pruebas: Se estableció un sólido marco de pruebas y validación, que resultó esencial para evaluar el rendimiento de la herramienta de detección del discurso de odio. A través de la validación cruzada y las pruebas externas con datos no vistos, garantizamos la eficacia y fiabilidad de la herramienta para identificar el discurso de odio en varios entornos de redes sociales y diversos contextos regionales, reconociendo la naturaleza universalmente diversa de las redes sociales.

 

  • Mejora de la precisión del etiquetado de datos: Al priorizar la fiabilidad entre codificadores e implementar un sistema de etiquetado automatizado, mejoramos significativamente la precisión y la coherencia del etiquetado de datos. Este paso crucial no solo refinó el proceso de entrenamiento de nuestros modelos, sino que también apoyó la detección escalable de discursos de odio en numerosas plataformas e idiomas, lo que subraya nuestro compromiso con la precisión.
  • Creación y refinamiento de una herramienta multilingüe de detección de contenido de odio: Logramos desarrollar y refinar continuamente un detector de contenido de odio capaz de navegar por el complejo y cambiante panorama de las redes sociales. Desde los análisis iniciales y el desarrollo de modelos hasta las pruebas de prototipos y la adaptación multilingüe, nuestra herramienta demostró una precisión y sensibilidad excepcionales, lista para enfrentar los desafíos de varios idiomas y plataformas de redes sociales.
  • Evaluación multiplataforma para un alcance extensivo: Los objetivos de COIN incluían adaptar y evaluar rigurosamente la herramienta de detección de contenido de odio en varias plataformas de redes sociales, asegurando una amplia efectividad y aplicabilidad. Esta estrategia reconoció el amplio alcance de las redes sociales, con el objetivo de proporcionar una herramienta versátil para funcionar de manera eficiente en diversas plataformas y paisajes culturales.

 

Síntesis comparativa de la detección de discursos de odio entre categorías

En la búsqueda de comprender y mitigar el discurso de odio en las plataformas digitales, nuestro análisis exhaustivo de las herramientas de detección y seguimiento automáticos ha arrojado información crítica sobre los patrones y la prevalencia del discurso de odio dirigido a migrantes, musulmanes, personas LGBTQ+, romaníes (gitanos) y comunidades judías. Esta perspectiva comparativa revela los desafíos únicos y los puntos en común de estos grupos en la esfera digital, lo que subraya la naturaleza matizada del odio en línea y el imperativo de estrategias de detección e intervención personalizadas.

Nuestros hallazgos indican que cada grupo experimenta el discurso de odio en distintos contextos y formas, influenciado por los climas sociopolíticos actuales, los prejuicios históricos y las dinámicas específicas de la plataforma. Por ejemplo, los migrantes y los musulmanes a menudo se encuentran en el centro de narrativas xenófobas e islamófobas, respectivamente, que se ven exacerbadas por las tensiones geopolíticas y las crisis mundiales. Estas narrativas se manifiestan a través de agresiones abiertas e insinuaciones sutiles, desafiando a las herramientas de detección para discernir entre la intención maliciosa y el discurso políticamente cargado.

La comunidad LGBTQ+ se enfrenta a un conjunto diferente de desafíos, con discursos de odio a menudo velados con justificaciones religiosas o culturales, lo que dificulta que los algoritmos naveguen por la delgada línea entre la libertad de expresión y el contenido dañino. Del mismo modo, los sentimientos antisemitas y antiromaníes se aprovechan de los estereotipos históricos y las teorías de conspiración, lo que requiere que nuestras herramientas de detección comprendan referencias culturales complejas y un lenguaje codificado para identificar el discurso de odio de manera efectiva.

Comparativamente, el análisis revela que, si bien la naturaleza del discurso de odio varía de un grupo a otro, existen patrones generales relacionados con los mecanismos de propagación y los tipos de plataformas en las que prevalece dicho discurso. Las plataformas de redes sociales hacen hincapié en el anonimato y, al carecer de políticas de moderación sólidas, tienden a albergar formas más explícitas de discurso de odio. Por el contrario, las plataformas con una gestión comunitaria activa y mecanismos de denuncia precisos ven expresiones de odio más sutiles y codificadas.

Esta herramienta [WP4, D4.1] encarna la intersección entre la inteligencia artificial y la conciencia social, demostrando que los avances tecnológicos pueden contribuir significativamente a fomentar un ecosistema digital inclusivo cuando se aprovechan adecuadamente. A través de una metodología estructurada que abarca la curación integral de datos, la aplicación de modelos estratégicos y el análisis detallado de resultados, esta iniciativa presenta una narrativa meticulosa del enfoque de COIN. Esta metodología multidimensional garantiza la integridad de los datos a través de medidas manuales y automatizadas, aplica modelos computacionales sofisticados y perfecciona y valida de forma iterativa las herramientas de detección para combatir eficazmente el discurso de odio.

La implementación de la herramienta en varias categorías de discurso de odio reveló información vital sobre los matices de la detección del discurso de odio: [1] Para  la islamofobia, el modelo demostró una sólida capacidad para detectar contenido con precisión, con una precisión general encomiable y un alto recuerdo, lo que sugiere que la mayoría de los casos islamófobos fueron identificados. Por el contrario, la precisión fue moderadamente menor, lo que indica una tendencia a producir falsos positivos.

La aplicación de la herramienta a la LGBTIQfobia [2]  demostró su capacidad para superar estudios anteriores, logrando un impresionante equilibrio en precisión y recuerdo en ambas categorías. Esto sugiere que la herramienta distingue efectivamente entre contenido de odio y no de odio dentro de este contexto, proporcionando una vía prometedora para monitorear y abordar la LGBTIQfobia en las redes sociales.

En el caso de [3] Xenofobia, el modelo mostró de manera similar altos niveles de precisión, superando los resultados de otros estudios comparativos. Esto indica la solidez del modelo para identificar el contenido xenófobo, su generalizabilidad y la eficacia del conjunto de datos equilibrado con el que se entrenó.

Para [4] el antisemitismo, la herramienta equilibró la identificación de casos de odio y no odio, con precisión y recuerdo que reflejan un rendimiento confiable. La evaluación de la fiabilidad entre codificadores, un paso fundamental para garantizar la precisión de la categorización de datos, arrojó un alfa de Krippendorff de 0,7938, lo que indica un acuerdo sustancial entre los codificadores.

Por último, al abordar [5]  el antigitanismo, la herramienta mantuvo un rendimiento constante, favoreciendo ligeramente la detección de discursos de odio, como lo demuestra el mayor número de verdaderos positivos. Este sesgo conservador hacia la detección del discurso de odio es fundamental para prevenir la difusión de contenidos nocivos. Sin embargo, el alfa moderado de Krippendorff de 0,6831 puso de relieve un área de mejora, lo que sugiere que, si bien había un acuerdo razonable entre los codificadores, una calibración adicional podría mejorar la consistencia del proceso de codificación.

La eficacia de nuestra herramienta automática de detección y seguimiento varió en función de estos grupos, lo que refleja la complejidad de identificar el discurso de odio con gran precisión. Si bien la herramienta demostró un éxito significativo en la identificación de casos claros de discurso de odio contra todos los grupos, su desempeño fue matizado en casos que involucraron sarcasmo, sátira o referencias culturales profundas. Esto subraya la necesidad de un refinamiento continuo de la herramienta, incorporando técnicas avanzadas de procesamiento del lenguaje natural y modelos de aprendizaje automático que puedan comprender mejor el contexto, los matices y el lenguaje en evolución del discurso en línea.

Además, el análisis comparativo destaca la importancia de un enfoque multidimensional para la detección del discurso de odio más allá de la identificación algorítmica, incluida la supervisión humana, la participación comunitaria y las iniciativas educativas. Al comprender las vulnerabilidades y los objetivos específicos del discurso de odio que enfrentan los migrantes, los musulmanes, las personas LGBTQ+, los romaníes y las comunidades judías, las partes interesadas pueden desarrollar estrategias más efectivas para la prevención, la respuesta y el apoyo.

En colaboración con:

Proyecto financiado por la Unión Europea. Acciones Marie Skłodowska-Curie – H2020-MSCA-COFUND-2020-USAL4EXCELLENCE-PROOPI-663. Número de acuerdo de subvención: N. 101034371. Referencia interna de USAL: 8925-8553.

Curie