NoHateS: Modelo de IA para la detección automática de contenido de odio en plataformas de interacción social
Average rating
Cast your vote
You can rate an item by clicking the amount of stars they wish to award to this item.
When enough users have cast their vote on this item, the average rating will also be shown.
Star rating
Your vote was cast
Thank you for your feedback
Thank you for your feedback
Advisors
Reyes Silva Patricia DanielaIssue Date
2024-06-28
Metadata
Show full item recordAdditional Links
https://audio.com/raupc/audio/13048Abstract
La detección de contenido de odio es una tarea desafiante, especialmente en el contexto del monitoreo en tiempo real en Internet. La detección manual resulta agotadora e impráctica debido al alto volumen y frecuencia de datos en línea. Esta tesis propone la creación de un nuevo sistema de Inteligencia Artificial llamado NoHateS (abreviado del inglés “No more Hate Speech for Spanish text”, traducido al español como “No más contenido de odio en textos en español”). Este sistema está compuesto por varios componentes, siendo el principal BETO-CNN, que es la combinación del modelo BETO, un modelo basado en Transformers entrenado en un corpus en español, y una red neuronal convolucional (CNN de sus siglas en inglés). El cuál está diseñado para detectar si un texto contiene o no contenido de odio. El segundo componente se desarrolla para garantizar la accesibilidad, lo cual incluye una interfaz de programación de aplicaciones (API de sus siglas en inglés) que permite la integración sin problemas del modelo en diversas aplicaciones, y un Bot de Discord desarrollado para facilitar la manipulación de la mencionada API y ayudar a los usuarios a detectar contenido de odio en los canales de texto. Esta tesis también incluye pruebas con datos desequilibrados y aplica técnicas de aumento de datos para abordar este desafío y crear modelos más robustos. Los resultados demuestran la efectividad de NoHateS en la detección de contenido de odio y proporcionan recomendaciones para investigaciones futuras en este campo.Hate speech detection is a challenging task, especially in the context of real-time monitoring on the internet. Manual detection is both exhausting and impractical due to the high volume and frequency of online data. This thesis proposes a system called NoHateS. This system is made of multiple components, the main one is BETO-CNN, a Transformers-based model trained on a Spanish corpus, which is designed to actually detect whether a text contains hate speech or not. The second component is developed to ensure accessibility. This includes an API to allow seamless integration of the model into various applications, and a Discord Bot developed for easy manipulation of the aforementioned API in order to help users detect hate speech in text channels. This thesis also includes tests with imbalanced data and applies data augmentation in order to deal with it and make more robust models. The results demonstrate the effectiveness of NoHateS in detecting hate speech and provide recommendations for future research in this domain.
Type
info:eu-repo/semantics/bachelorThesisRights
info:eu-repo/semantics/openAccessLanguage
spaEmbedded videos
Collections


